Big Data — все говорят, но мало кто щупал

Что такое большие данные и как с ними работать
6 минут

Big Data — как подростковые отношения в средней школе. Все ими хвастаются, но на самом деле мало кто знает, что это такое. Расскажем, как понять, что перед вами большие данные, и начать с ними работать.

Проблема в названии

На русский язык Big Data переводится как «большие данные». Но большие — это сколько? Таблица в Экселе на 500 000 строк — это много? Текст на 2 мегабайта — много? А распечатки графиков температуры всех метеостанций Архангельской области — много или ещё недостаточно?

Тут многие айтишники скажут, что эти примеры представляют собой довольно внушительное количество информации. Действительно, с такой точки зрения, все перечисленное — большие данные. Но что вы скажете про таблицу в Экселе на миллиард строк? Это тоже большие данные — и куда побольше тех!

На интуитивном уровне специалисты, далекие от Big Data, привыкли называть большими данными любой объем информации, который сложно удержать в голове и/или который занимает много места. И такое интуитивное определение, конечно же, неправильно.

Как понять, что перед вами действительно Big Data

Профессора американских университетов и айтишники топовых американских компаний (места, где зародилось понятие «большие данные») выделяют три критерия, по которым можно понять, что перед вами Big Data.

  1. Данные должны быть в цифровом виде. Это должны быть биты и байты. Стопка книг в национальной библиотеке — это тоже массив информации, но к Big Data никак не относится.
  2. Данные должны поступать в объективно больших объемах и накапливаться с большой скоростью. Например, база заказов интернет-магазина по продаже колясок может быть большой, например, 10 миллионов заказов за 20 лет, но пополняется она со скоростью 100 заказов в сутки — это не большие данные. Фильм в высоком качестве может занимать десятки гигов, но со временем его размер не растет — это тоже не большие данные. А вот записи показателей пары сенсоров в двигателе Боинга, поступающие в количестве несколько гигабайт в час и загружаемые на диагностический сервер производителя авиатехники, — это уже самая настоящая Big Data.
  3. Слабая структурированность и упорядоченность данных. Заказы в онлайн-магазине упорядочены, из них легко извлечь дополнительные статистические параметры (средний чек, самые популярные товары), полезные для принятия решений. Поэтому они — не Big Data. Показания датчиков температуры с корпуса самолета, записанные за последние 6 месяцев, — информация, в которой есть польза, но не очень понятно, как ее извлечь. Можно, конечно, рассчитать средние значения температуры за бортом самолета за полгода, но какой в этом смысл? А если погрузиться в анализ этих данных глубоко — можно вытащить много неочевидной информации. Например, о длительности перелетов, скорости набора высоты, климатических условиях за бортом и т. д. Информация интересная и полезная, но трудноизвлекаемая, значит, это Big Data.

Итак, BigData — трудноанализируемая цифровая информация, накапливаемая со временем и поступающая к вам солидными порциями.

А мне это все зачем, напомните?

Когда в любом айти-проекте начинают работать с данными, в первую очередь анализируют наиболее очевидные, значимые и понятные показатели. Так, если речь идет об онлайн-торговле, в первую очередь смотрят на средние чеки заказов, топ продаж и объемы складских запасов. Когда речь идет о самолетах — смотрят скорость, высоту, расход топлива.

Сбор и анализ очевидных метрик позволяет вносить в систему простые и понятные корректировки. Такие улучшения практически сразу дают ощутимый результат. Это называется «сбор фруктов с нижних веток дерева».

По мере эволюции системы инженеры прорабатывают все видимые узкие места в проекте. После этого начинается стагнация продукта: для поиска новых путей развития нужно лезть выше, чтобы собрать плоды с более высоких веток. Инженеры и аналитики начинают собирать и анализировать косвенные данные, напрямую не связанные с основными метриками проектов.

Например, в онлайн-торговле можно собирать со страниц магазина данные о перемещении курсора (или пальца) по экрану. Или собирать данные с большего числа сенсоров самолета, например: число оборотов двигателя, состав топливно-воздушной смеси, забортную температуру и температуру выхлопа.

Эти данные напрямую не связаны с основными метриками IT-системы, но при правильном анализе могут рассказать много интересного о возможных точках оптимизации в проекте. Работа с такими данными — как поиск нефти. Нужно пробовать разные места, применять различные стратегии поиска и извлечения скрытых ресурсов, спрятанных в данных. Далеко не все попытки будут успешны, но в итоге находки могут принести массу выгоды.

Что нужно для работы с Big Data

  1. Готовьте много места. Данных будет немало, нужно быть готовыми где-то их хранить. Также информация может поступать с высокой скоростью, поэтому заранее смотрите, чтобы ширины входного канала и скорости дисков хватало для обработки входящего потока байтов.
  2. Готовьте больше серверов. Данные нужно не только хранить, но и как-то обрабатывать. Из-за больших объемов вам, скорее всего, придется разбивать информацию на порции и обрабатывать их параллельно на разных машинах. Для этого придется заранее озаботиться достаточным количеством железа для вычислений.
  3. Готовьте правильные инструменты. Айтишники много лет занимаются поиском крупиц золота в горах разнообразных больших данных. Для их расчетов создано много надежных, классных и быстрых инструментов, например: Hadoop, Spark и другие. Познакомьтесь с основными продуктами на рынке и выберите, что подойдет вам.

Подготовка инфраструктуры занимает много времени, поэтому лучше переложить ее на плечи профессиональных админов и присмотреться к облачным решениям по обработке Big Data. В этом случае и диски, и серваки, и Hadoop со Spark вы получите в готовом виде — уже настроенном, оптимизированном, прогретом и ждущем ваших задач.

Дивный новый мир больших данных

Айтишники, ныряющие в мир больших данных, часто находят в его глубинах информацию, которая позже коренным образом меняет бизнес и уровень прибыли. А иногда Big Data может изменить видение продукта в целом. Копаться в больших данных всегда сложно, но очень интересно. Вкладывайте время и усилия в эту страну цифровых чудес — и ваш труд обязательно окупится!

Иллюстрация в шапке: af.wiktionary.org Источник: https://af.wiktionary.org/wiki/L%C3%AAer:Big_%26_Small_Pumkins.JPG

Подкаст «Завтра облачно»: слушать выпуск про большие данные

Group 40Group 44Group 43Group 46Group 41Group 27Group 42Group 39