Бизнес

Анализ больших данных в облаке: как бизнесу стать дата-ориентированным

Время чтения 17 минут

Автор: Екатерина Кушнир

25 сентября 2019

Почему не обрабатывать большие данные на собственных мощностях

Частные, публичные и гибридные облака для аналитики больших данных

Где лучше работать с большими данными: частное или публичное облако

Какие данные анализируют в облаке и что такое дата-ориентированное управление

5 преимуществ облаков для аналитики больших данных

Почему не обрабатывать большие данные на собственных мощностях

Решение для обработки больших данных можно создать в собственном дата-центре, на физических серверах, но у такого подхода есть несколько минусов.

Начнем с того, что большие данные — и правда большие, для их хранения, обработки и анализа нужны определенные возможности IT-инфраструктуры. Ее мощности можно нарастить: докупить оборудование или заменить его более мощным.

Однако почти любой ИТ-бизнес в силу постоянных технологических изменений на рынке не может точно предсказать нагрузку на инфраструктуру. Особенно — «катастрофические» пики нагрузки из-за удачных маркетинговых и PR-акций, хотя даже объем сезонных пиков может значительно колебаться от года к году.

Если покупать собственные мощности, перестраховщики содержат простаивающее оборудование, а самые экономные теряют инфраструктуру на пике нагрузки. Также все рабочие процессы генерируют данные, их объем увеличивается и увеличивается — с каждым часом, днем и месяцем информации становится больше. То есть емкость хранения данных также должна постоянно расти.

Не каждой компании для качественной обработки больших данных целесообразно приобретать столько собственных серверов и хранилищ данных, настраивать распределение нагрузки между ними и создавать сеть. А содержать собственный дата-центр с десятками (а иногда и сотнями) серверов — это дорого, подразумевает большие расходы на поддержание физической инфраструктуры (в особенности — расходы на электроэнергию), обеспечение информационной и физической безопасности, бесперебойности и многое другое. Облачная виртуализация часто позволяет обойтись без собственной инфраструктуры.

Облака могут быть использованы на начальном этапе работы с Big Data, при проведении экспериментов с данными и проверке гипотез — там проще тестировать новые предположения и технологии, не нужна собственная инфраструктура. В облаках также может быть быстрее и дешевле запустить решение в промышленную эксплуатацию, где есть определенные требования, например, высокое SLA по доступности, надежность хранения данных, производительность инфраструктуры.

Поэтому компании для анализа больших данных переходят к облакам, которые легче масштабируются, обладают практически неограниченными возможностями для хранения информации и гибкими настройками.

Большие данные подразумевают манипулирование петабайтами (а в будущем — эксабайтами и зетабайтами информации). В облаке можно развернуть приложения, которые интенсивно используют такие объемы данных.

Кроме того, облако может вмещать больше данных, чем физический сервер, компании придется меньше беспокоиться о нехватке места для хранения информации.

Частные, публичные и гибридные облака для аналитики больших данных

Облака бывают разные: компания может организовать собственное облако на базе физической инфраструктуры, арендовать облачные мощности у провайдера или совмещать эти модели.

Частное облако

Частное облако может быть расположено в локальном дата-центре компании или у стороннего поставщика, но инфраструктура всегда размещена в частной сети, аппаратное и программное обеспечение предназначено для одной компании. Как правило, такие облака разворачивают крупные организации, которые закон обязывает хранить данные у себя: госорганы, финансовые и медицинские учреждения.

У частного облака есть плюсы: IT-ресурсы проще настроить под потребности компании, их использует только одна компания, она полностью контролирует всю инфраструктуру. Есть и минусы — стоимость развертывания частного облака высока: нужно организовать собственный ЦОД, на котором будет развернута облачная платформа, обслуживать оборудование, оплачивать услуги персонала, администрирующего систему. Кроме того, собственное оборудование компании постоянно устаревает, а приложения требуют обновления, и приходится об этом помнить. При аренде облака все это на себя берет провайдер.

Если данные компании будут храниться в одном месте (одном ЦОДе), то есть риск их потери, например, из-за стихийного бедствия или пожара. Избежать этого можно с помощью распределенного ЦОДа: когда инфраструктура дублируется в других дата-центрах. Однако такой вариант IT-инфраструктуры еще дороже. Кроме того, хранение данных в частном облаке и полный контроль компании над инфраструктурой не исключают злоупотреблений со стороны сотрудников: данные могут быть похищены или утрачены из-за непредумышленных и умышленных действий персонала.

Наконец, масштабируемость в частном облаке — это, скорее, вопрос быстрого перераспределения его вычислительных ресурсов между проектами. И если с точки зрения отдельного проекта можно говорить, что частное облако дает быструю масштабируемость, то увеличение общей мощности также ограничено скоростью закупок и введения в эксплуатацию, как и в традиционных ИТ-системах.

Публичное облако

Публичное облако управляется провайдером услуг, у которого компания арендует готовую платформу для анализа Big Data, такую форму аренды называют облачная платформа как услуга (PaaS). При этом облаком пользуются совместно несколько или много компаний, однако, каждая получает доступ только к своим данным.

Провайдеры облачных услуг обязуются обеспечить выполнение критичных для клиента требований по четко оговоренным критериям. Уровень сервиса, гарантии защиты и конфиденциальности прописывают в SLA ( соглашении о качестве услуг), NDA (соглашении о неразглашении) и других соглашениях. Поставщик несет юридическую и финансовую ответственность за работу приложений, размещенных в облаке, и сохранность информации бизнеса.

В общедоступных облаках ниже риск потери данных и доступа к сервисам, так как хранение данных и выполнение приложений на многих серверах параллельно обеспечивает защиту от сбоев. Кроме того, публичные облака обладают почти неограниченной емкостью и «резиновым» масштабированием — провайдер может выдать компании столько мощностей, сколько нужно для обработки данных, почти мгновенно, даже если их количество неожиданно вырастет в десятки раз.

Есть два основных варианта предоставления услуг анализа больших данных в облаке:

Подход IaaS — провайдер предоставляет виртуальные машины, хранилище и необходимые подключения. Однако клиент отвечает за донастройку операционной системы, установку приложений, их интеграцию и администрирование. Этот подход дает компании максимальную гибкость в выборе платформы анализа больших данных и контроль над ее тонкими конфигурациями, но требует усилий по ее администрированию.
Подход PaaS — провайдер развертывает и настраивает для пользователя все сервисы у себя в облаке, пользователю нужно только указать количество необходимых ресурсов, не придется заниматься установкой и настройкой программного обеспечения, поддерживать его. Сервис для анализа больших данных PaaS обычно состоит из предварительно настроенного кластера на основе платформ анализа данных с открытым кодом, например: Hadoop, Spark, Kafka, с некоторыми предварительно загруженными и настроенными инструментами. Из нескольких таких инструментов в облаке можно составлять «конвейеры» обработки больших данных. Провайдеры таких PaaS обеспечивают легкую интеграцию с другими облачными сервисами, важными при работе с данными — хранения данных и машинной обработки

Гибридное облако

Гибридное облако — комбинация частного и публичного облака. Такой вариант подходит для компаний, у которых уже есть своя инфраструктура, но нужно снизить нагрузку на нее или протестировать новые сервисы без первоначальных капитальных затрат. Так, общедоступное облако можно использовать для систем с большим объемом данных и отсутствием требований к хранению данных «у себя», а частное облако — для ситуаций, когда такие требования есть: например, для определенных типов персональных и финансовых данных.

Например, персональные данные можно хранить на стороне компании в соответствии с законодательством, а в обезличенном виде обрабатывать в облаке: это не противоречит закону.

Где лучше работать с большими данными: частное или публичное облако

Экономичность. Для развертывания частного облака нужно приобрести оборудование, нанять персонал, развернуть и обслуживать инфраструктуру — все, как с традиционной IT-инфраструктурой. Это большие расходы, которые могут быть оправданы и выгодны, если у компании предсказуемый объем обработки данных, она может себе позволить платить администраторам серверов и аналитических платформ, спланировать закупку оборудования, нагрузку и штат так, чтобы инфраструктура не простаивала.

При аренде публичного облака у провайдера используют оплату по модели pay-as-you-go — компания платит только за используемые мощности, никаких первоначальных вложений и затрат на обслуживание нет, что подходит для компаний малого и среднего бизнеса, а также для новых проектов в крупных компаниях, если нагрузка непредсказуема, или компания не хочет заниматься организацией собственного ЦОДа. Аренда облачных сервисов позволяет не думать о планировании и расходах, сфокусироваться на бизнес-задачах в условиях, когда нагрузку на IT-инфраструктуру невозможно предугадать: бывают всплески активности или бизнес-модель может неожиданно пойти в рост.

Масштабируемость. Возможности масштабирования частного облака ограничены мощностью физического оборудования, на котором оно развернуто, и скоростью закупки и ввода в эксплуатацию новых мощностей (в лучшем случае — речь минимум о неделях).

Если объем ваших данных растет, публичное облако подстроится под изменения и выделит больше мощностей для хранения и обработки. Грубо говоря, у вас может появиться сотня серверов вместо двух буквально за несколько минут. А если ресурсы для анализа Big Data стали не нужны, мощности облачной IT-инфраструктуры не тратятся, вы за них не платите.

Это важно, если:

объем обрабатываемых данных постоянно растет;
вы не можете точно предсказать, какой объем хранения и обработки нужен для работы и какими будут темпы прироста данных;
если компания проводит раз в месяц исследования или измеряет эффективность каких-то процессов, а постоянно работающая собственная инфраструктура для анализа Big Data не нужна;
если вам нужно тестировать бизнес-гипотезы, например, в облаке можно создать MVP (минимально жизнеспособный продукт) и оценить его перспективы.

Эффективность. Частное облако, расположенное на оборудовании компании, компаниям нужно обслуживать и администрировать самостоятельно.

При предоставлении публичного облака как услуги команда компании может меньше заниматься обслуживанием системы обработки данных, сосредоточиться на создании и тестировании идей, что повышает эффективность аналитики.

Быстрый запуск проекта (time-to-market). Частное облако может замедлить выпуск IT-продуктов на рынок. Для проектов, использующих большие данные, требуются огромные инфраструктурные мощности, что при размещении in house предполагает высокие капитальные затраты на запуск.

Аренда публичного облака позволяет запустить IT-инфраструктуру без больших первоначальных инвестиций. В общедоступном облаке инфраструктуру для анализа данных можно создать и настроить за часы, а не недели и месяцы, конкретный PaaS-сервис подключается за минуты.

Отказоустойчивость. В частном облаке бесперебойную работу можно обеспечить средствами Disaster Recovery, но это потребует серьезных капитальных вложений, расходов на введение в эксплуатацию и поддержку этих средств.

В публичном облаке провайдер задействует средства, обеспечивающие бесперебойную работу, что значительно снижает время недоступности системы. При выборе поставщика услуг с высоким уровнем SLA простои инфраструктуры будут сведены к минимуму, они предсказуемы: вы сами выбираете соглашение о сервисе нужного уровня. Например, при SLA 99,95% IT-инфраструктура простаивает всего около 5 часов в год.

Обеспечение требований законодательства. В частном облаке компания следит за выполнением требований законодательства и регуляторов. Например, существуют законодательные нормы, которые устанавливают правила того, как компании могут хранить данные. Их нужно учитывать при разворачивании собственной инфраструктуры.

В публичном облаке ответственность за соблюдение законодательства, требований и стандартов, сертификацию ЦОД лежит на провайдере.

Какие данные анализируют в облаке и что такое дата-ориентированное управление

По итогам отчета «Обзор тенденций и проблем больших данных 2018 года», 73% компаний используют для обработки Big Data облачные сервисы. Для сравнения — в 2017 году их было 58%.

Большие данные используют в различных областях: телеком, здравоохранение, торговля, логистика, финансовый сектор, госкомпании.

Также с большими данными тесно связан интернет вещей. Датчики, измерительные приборы, оборудование на роботизированных заводах, умный транспорт — от них компании получают огромное количество данных, которые надо исследовать и анализировать.

*Основные сферы, где компании используют анализ больших данных для принятия решений. Источник*

Компании недостаточно просто собирать данные и делать какие-то отчеты. Результатом аналитики должны быть выводы, представляющие ценность для бизнеса, которые можно учитывать в процессе дальнейшей работы, — в этом суть data-driven (дата-ориентированного) подхода к принятию управленческих решений.

*В облаках можно хранить и обрабатывать самые разнообразные данные. Источник*

Чтобы эффективно работать с данными, компании надо учитывать не только структурированные данные из CRM или других систем учета, но и неоднородные и неструктурированные, собранные из множества различных источников.

Структурированные данные — те, что собираются в базах данных в определенном формате. Например, это может быть таблица со строго определенными полями, где в одном столбце данные, идентифицирующие клиента, в другом сумма его покупок, в третьем дата и так далее. Неструктурированные данные — разнородные массивы информации без четкой структуры, например: текстовые файлы, изображения, комментарии из соцсетей. Эти данные помогают найти скрытые взаимосвязи и проанализировать предпочтения клиентов, стратегии конкурентов, тенденции ценообразования и другие важные для компании параметры.

Облачные платформы для анализа больших данных позволяют анализировать структурированные и неструктурированные данные, интегрировать данные из разных источников, работая с ними на единой платформе. Это дает бизнесу новые возможности, позволяет компании стать дата-ориентированной: принимать взвешенные и верные решения на основе информации, а не предположений.

Кроме того, облачные сервисы позволяют анализировать не только исторические большие данные, которые нужны для различных исследований, прогнозирования, выявления трендов и лучшего понимания процессов работы компании, но и данные в реальном времени.

Исторические данные — данные, собранные за определенный период. Их анализируют и выявляют различные закономерности, которые важны для решения конкретных задач бизнеса. Например, можно узнать, что какие-то товары обычно покупают в первой половине дня, а какие-то во второй. Или увидеть, какие товары часто покупают вместе. Данные в режиме реального времени — информация, что поступает в хранилище прямо сейчас.

Мониторинг данных в реальном времени важен, чтобы отслеживать некоторые бизнес-процессы. Например, банки могут анализировать денежные переводы и выявлять попытки мошенничества при операциях с картами, а транспортные компании быстро менять маршруты водителей с учетом поступающей информации о новых заказах. На таком же принципе строится автоматический аукцион при отображении онлайн-рекламы (bidding) — когда система выбирает, какое объявление показать новому пользователю на основании информации о нем и ставках рекламодателей.

Где попробовать облачный анализ больших данных

В облачном сервисе для анализа больших данных VK Cloud Big Data собраны основные инструменты для надежной и быстрой обработки огромных объемов слабоструктурированных данных из разнородных источников: Hadoop, Spark, ClickHouse, песочницы для дата-инженеров, Kafka и многое другое.

5 преимуществ облаков для аналитики больших данных

Экономичность. Анализ данных в публичных облаках может быть экономически выгоднее и дешевле, если компания сталкивается с непредсказуемой нагрузкой, быстро растет или часто тестирует гипотезы.
Масштабируемость. Облако позволяет использовать для анализа и хранения больших данных столько ресурсов, сколько нужно, и гибко подстраивается под бизнес-процессы.
Вместимость. У облаков выше вместимость, практически не ограничен объем хранилища больших данных.
Эффективность. Облако позволяет исключить рутину администрирования средств обработки Big Data и сфокусировать команду на более творческих задачах анализа, тестирования бизнес-гипотез и получения ключевой для бизнеса информации.
Безопасность. В облаках риск потери данных ниже, а бесперебойность предсказуема и защищена SLA с провайдером.

Анализ больших данных в облаке: как бизнесу стать дата-ориентированным

Почему не обрабатывать большие данные на собственных мощностях

Частные, публичные и гибридные облака для аналитики больших данных

Частное облако

Публичное облако

Гибридное облако

Где лучше работать с большими данными: частное или публичное облако

Какие данные анализируют в облаке и что такое дата-ориентированное управление

5 преимуществ облаков для аналитики больших данных

Что еще почитать про ИТ-бизнес