Версии компонентов
Сервис VK Cloud Hadoop основан на платформе Hortonworks Data Platform (HDP) версии 3.1. HDP - это готовый к промышленному использованию надежный и проверенный дистрибутив компонентов Apache Hadoop, отвечающий всем потребностям по обработке, хранению и анализу данных с использованием всех возможностей развитой экосистемы Apache Hadoop.
В рамках сервиса VK Cloud Big Data доступны шаблоны Hadoop версий 2.6 и 3.1.
Ниже приведены версии компонентов в соответствии с указанными шаблонами:
Hadoop 2.6
Компонент | Версия | Статус | Описание |
Ambari Metrics | 0.1.0 | Установлено | Система для сбора метрик кластера с возможностью хранения и извлечения собранных метрик. |
HDFS | 2.7.3 | Установлено | Распределённая файловая система Apache Hadoop. |
Hive | 1.2.1000 | Установлено | Система хранения данных (data warehouse) для анализа больших наборов данных и ad-hoс запросов при помощи SQL. |
Jupyter | 1.0.0 | Установлено | Jupyter |
Kafka | 1.0.0 | Установлено | Распределенная система передачи сообщений с высокой пропускной способностью. |
MapReduce2 | 2.7.3 | Установлено | Сервис обработки данных при помощи парадигмы MapReduce. |
Oozie | 4.2.0 | Установлено | Система для управления рабочими потоками и выполнения повторяющихся задач в экосистеме Hadoop. Включает установку необязательной веб-консоли Oozie Web Console, использующей библиотеку ExtJS. |
Pig | 0.16.0 | Установлено | Платформа для обработки больших данных при помощи скриптов. |
Slider | 0.92.0 | Установлено | Фреймворк для развертывания существующих распределенных приложений при помощи YARN с возможностью управления и мониторинга. |
Spark2 | 2.3.0 | Установлено | Быстрая и универсальная платформа для обработки больших массивов данных. |
Sqoop | 1.4.6 | Установлено | Инструмент для передачи массивов данных между Apache Hadoop и структурированными хранилищами данных (например, реляционными базами данных). |
Superset | 0.15.0 | Установлено | Платформа для проведения интерактивного разведочного анализа данных. |
Tez | 0.7.0 | Установлено | Фреймворк для обработки запросов, работающий поверх YARN. |
YARN | 2.7.3 | Установлено | Планировщик ресурсов экосистемы Hadoop. |
Zeppelin Notebook | 0.7.3 | Установлено | Веб-блокнот для интерактивного анализа данных. Позволяет создавать красивые интерактивные документы с возможностью совместного редактирования, содержащие элементы SQL, Scala и т.д. |
ZooKeeper | 3.4.6 | Установлено | Централизованный сервис для высоконадежной распределенной координации. |
Accumulo | 1.7.0 | Ручное добавление | Надежное, масштабируемое, высокопроизводительное распределенное key-value хранилище. |
Airflow | 1.9.0 | Ручное добавление | Планировщик рабочего процесса, который помогает планировать сложные рабочие процессы и обеспечивает простой способ их поддержания. |
Ambari Infra | 0.1.0 | Ручное добавление | Основная общая служба, используемая всеми компонентами под управлением Ambari. |
Atlas | 0.8.0 | Ручное добавление | Платформа для управления метаданными кластера. |
Druid | 0.10.1 | Ручное добавление | Быстрое распределенное столбцовое хранилище данных. |
Falcon | 0.10.0 | Ручное добавление | Платформа для управления данными и их обработки. |
Flume | 1.5.2 | Ручное добавление | Распределенный сервис для сбора, агрегирования и переноса большого объема потоковых данных в HDFS. |
HBase | 1.1.2 | Ручное добавление | Нереляционная (NoSQL) распределенная база данных, плюс высокопроизводительный SQL-уровень для приложений с низкой задержкой. |
Kerberos | 1.10.3-10 | Ручное добавление | Сетевой протокол аутентификации, основанный на концепции мандатов (tickets). Позволяет узлам, обменивающимся данными по незащищенному каналу, безопасно провести идентификацию друг друга. |
Knox | 0.12.0 | Ручное добавление | Сервис, предоставляющий единую точку аутентификации и доступа к сервисам кластера Hadoop. |
Log Search | 0.5.0 | Ручное добавление | Инструмент для агрегирования, анализа и визуализации журналов, используемый в сервисах под управлением Ambari. Находится на стадии Technical Preview. |
Mahout | 0.9.0 | Ручное добавление | Платформа для создания бесплатных реализаций распределенных или иначе масштабируемых алгоритмов машинного обучения. Используется преимущественно для задач коллаборативной фильтрации, кластеризации и классификации. |
Ranger | 0.7.0 | Ручное добавление | Сервис для обеспечения всесторонней безопасности кластера Hadoop. |
Ranger KMS | 0.7.0 | Ручное добавление | Сервер управления ключами защиты. |
SmartSense | 1.4.5.2.6.2.2-1 | Ручное добавление | Инструмент для быстрого сбора настроек, метрик и журналов с сервисов кластера Hadoop. Выдает рекомендации для конкретного кластера и помогает с оперативным разрешением проблем. |
Spark | 1.6.3 | Ручное добавление | Быстрая и универсальная платформа для обработки больших массивов данных. |
Storm | 1.1.0 | Ручное добавление | Фреймворк для обработки потоковых данных. |
Hadoop 3.1
Компонент | Версия | Статус | Описание |
Ambari Metrics | 0.1.0 | Установлено | Система для сбора метрик кластера с возможностью хранения и извлечения собранных метрик. |
HBase | 2.0.0.3.1 | Установлено | Нереляционная (NoSQL) распределенная база данных, плюс высокопроизводительный SQL-уровень для приложений с низкой задержкой. |
HDFS | 3.1.1.3.1 | Установлено | Распределённая файловая система Apache Hadoop. |
Hive | 3.0.0.3.1 | Установлено | Система хранения данных (data warehouse) для анализа больших наборов данных и ad-hoс запросов при помощи SQL. |
Jupyter | 1.0.0 | Установлено | Jupyter |
Kafka | 1.0.0.3.1 | Установлено | Распределенная система передачи сообщений с высокой пропускной способностью. |
MapReduce2 | 3.0.0.3.1 | Установлено | Сервис обработки данных при помощи парадигмы MapReduce. |
Oozie | 4.4.0 | Установлено | Система для управления рабочими потоками и выполнения повторяющихся задач в экосистеме Hadoop. Включает установку необязательной веб-консоли Oozie Web Console, использующей библиотеку ExtJS. |
Pig | 0.16.1.3.1 | Установлено | Платформа для обработки больших данных при помощи скриптов. |
Spark2 | 2.3.0 | Установлено | Быстрая и универсальная платформа для обработки больших массивов данных. |
Sqoop | 1.4.7 | Установлено | Инструмент для передачи массивов данных между Apache Hadoop и структурированными хранилищами данных (например, реляционными базами данных). |
Tez | 0.9.0.3.1 | Установлено | Фреймворк для обработки запросов, работающий поверх YARN. |
YARN | 3.1.0 | Установлено | Планировщик ресурсов экосистемы Hadoop. |
Zeppelin Notebook | 0.8.0 | Установлено | Веб-блокнот для интерактивного анализа данных. Позволяет создавать красивые интерактивные документы с возможностью совместного редактирования, содержащие элементы SQL, Scala и т.д. |
ZooKeeper | 3.4.9.3.1 | Установлено | Централизованный сервис для высоконадежной распределенной координации. |
Accumulo | 1.7.0 | Ручное добавление | Надежное, масштабируемое, высокопроизводительное распределенное key-value хранилище. |
Airflow | 1.10.11 | Ручное добавление | Планировщик рабочего процесса, который помогает планировать сложные рабочие процессы и обеспечивает простой способ их поддержания. |
Atlas | 0.7.0.3.1 | Ручное добавление | Платформа для управления метаданными кластера. |
Druid | 0.12.1 | Ручное добавление | Быстрое распределенное столбцовое хранилище данных. |
Infra Solr | 0.1.0 | Ручное добавление | Основная общая служба, используемая управляемыми компонентами Ambari. |
Kerberos | 1.10.3-30 | Ручное добавление | Сетевой протокол аутентификации, основанный на концепции мандатов (tickets). Позволяет узлам, обменивающимся данными по незащищенному каналу, безопасно провести идентификацию друг друга. |
Knox | 0.5.0.3.1 | Ручное добавление | Сервис, предоставляющий единую точку аутентификации и доступа к сервисам кластера Hadoop. |
Log Search | 0.5.0 | Ручное добавление | Инструмент для агрегирования, анализа и визуализации журналов, используемый в сервисах под управлением Ambari. Находится на стадии Technical Preview. |
NiFi | 1.9.0 | Ручное добавление | Apache NiFi - это простая в использовании, мощная и надежная система для обработки и распространения данных. |
NiFi Registry | 0.3.0 | Ручное добавление | NiFi Registry - это дополнительное приложение, которое обеспечивает центральное место для хранения и управления общими ресурсами в одном или нескольких экземплярах NiFi и / или MiNiFi. |
Ranger | 1.2.0.3.1 | Ручное добавление | Сервис для обеспечения всесторонней безопасности кластера Hadoop. |
Ranger KMS | 1.2.0.3.1 | Ручное добавление | Сервер управления ключами защиты. |
Schema Registry | 0.7.0 | Ручное добавление | Hortonworks Registry предоставляет реестр схем, реестр машинного обучения и платформу для создания версий объектов. |
SmartSense | 1.5.1.2.7.3.0-139 | Ручное добавление | Инструмент для быстрого сбора настроек, метрик и журналов с сервисов кластера Hadoop. Выдает рекомендации для конкретного кластера и помогает с оперативным разрешением проблем. |
Storm | 1.2.1 | Ручное добавление | Фреймворк для обработки потоковых данных. |
Streaming Analytics Manager | 0.6.0 | Ручное добавление | Hortonworks Streaming Analytics Manager позволяет легко создавать потоковые приложения и выполнять аналитику потоковых данных. |
Superset | 0.23.0 | Ручное добавление | Платформа для проведения интерактивного разведочного анализа данных. |
Версии компонентов могут меняться без предварительного уведомления. Используйте веб-интерфейс Ambari для просмотра актуальных версий компонентов.