VK Cloud logo

Версии компонентов

Описание

Сервис VK Cloud Hadoop основан на платформе Hortonworks Data Platform (HDP) версии 3.1. HDP - это готовый к промышленному использованию надежный и проверенный дистрибутив компонентов Apache Hadoop, отвечающий всем потребностям по обработке, хранению и анализу данных с использованием всех возможностей развитой экосистемы Apache Hadoop.

Шаблоны и версии

В рамках сервиса VK Cloud Big Data доступны шаблоны Hadoop версий 2.6 и 3.1.

Ниже приведены версии компонентов в соответствии с указанными шаблонами:

Hadoop 2.6

Компонент
Версия
Статус
Описание
Ambari Metrics
0.1.0
Установлено
Система для сбора метрик кластера с возможностью хранения и извлечения собранных метрик.
HDFS
2.7.3
Установлено
Распределённая файловая система Apache Hadoop.
Hive
1.2.1000
Установлено
Система хранения данных (data warehouse) для анализа больших наборов данных и ad-hoс запросов при помощи SQL.
Jupyter
1.0.0
Установлено
Jupyter
Kafka
1.0.0
Установлено
Распределенная система передачи сообщений с высокой пропускной способностью.
MapReduce2
2.7.3
Установлено
Сервис обработки данных при помощи парадигмы MapReduce.
Oozie
4.2.0
Установлено
Система для управления рабочими потоками и выполнения повторяющихся задач в экосистеме Hadoop. Включает установку необязательной веб-консоли Oozie Web Console, использующей библиотеку ExtJS.
Pig
0.16.0
Установлено
Платформа для обработки больших данных при помощи скриптов.
Slider
0.92.0
Установлено
Фреймворк для развертывания существующих распределенных приложений при помощи YARN с возможностью управления и мониторинга.
Spark2
2.3.0
Установлено
Быстрая и универсальная платформа для обработки больших массивов данных.
Sqoop
1.4.6
Установлено
Инструмент для передачи массивов данных между Apache Hadoop и структурированными хранилищами данных (например, реляционными базами данных).
Superset
0.15.0
Установлено
Платформа для проведения интерактивного разведочного анализа данных.
Tez
0.7.0
Установлено
Фреймворк для обработки запросов, работающий поверх YARN.
YARN
2.7.3
Установлено
Планировщик ресурсов экосистемы Hadoop.
Zeppelin Notebook
0.7.3
Установлено
Веб-блокнот для интерактивного анализа данных. Позволяет создавать красивые интерактивные документы с возможностью совместного редактирования, содержащие элементы SQL, Scala и т.д.
ZooKeeper
3.4.6
Установлено
Централизованный сервис для высоконадежной распределенной координации.
Accumulo
1.7.0
Ручное добавление
Надежное, масштабируемое, высокопроизводительное распределенное key-value хранилище.
Airflow
1.9.0
Ручное добавление
Планировщик рабочего процесса, который помогает планировать сложные рабочие процессы и обеспечивает простой способ их поддержания.
Ambari Infra
0.1.0
Ручное добавление
Основная общая служба, используемая всеми компонентами под управлением Ambari.
Atlas
0.8.0
Ручное добавление
Платформа для управления метаданными кластера.
Druid
0.10.1
Ручное добавление
Быстрое распределенное столбцовое хранилище данных.
Falcon
0.10.0
Ручное добавление
Платформа для управления данными и их обработки.
Flume
1.5.2
Ручное добавление
Распределенный сервис для сбора, агрегирования и переноса большого объема потоковых данных в HDFS.
HBase
1.1.2
Ручное добавление
Нереляционная (NoSQL) распределенная база данных, плюс высокопроизводительный SQL-уровень для приложений с низкой задержкой.
Kerberos
1.10.3-10
Ручное добавление
Сетевой протокол аутентификации, основанный на концепции мандатов (tickets). Позволяет узлам, обменивающимся данными по незащищенному каналу, безопасно провести идентификацию друг друга.
Knox
0.12.0
Ручное добавление
Сервис, предоставляющий единую точку аутентификации и доступа к сервисам кластера Hadoop.
Log Search
0.5.0
Ручное добавление
Инструмент для агрегирования, анализа и визуализации журналов, используемый в сервисах под управлением Ambari. Находится на стадии Technical Preview.
Mahout
0.9.0
Ручное добавление
Платформа для создания бесплатных реализаций распределенных или иначе масштабируемых алгоритмов машинного обучения. Используется преимущественно для задач коллаборативной фильтрации, кластеризации и классификации.
Ranger
0.7.0
Ручное добавление
Сервис для обеспечения всесторонней безопасности кластера Hadoop.
Ranger KMS
0.7.0
Ручное добавление
Сервер управления ключами защиты.
SmartSense
1.4.5.2.6.2.2-1
Ручное добавление
Инструмент для быстрого сбора настроек, метрик и журналов с сервисов кластера Hadoop. Выдает рекомендации для конкретного кластера и помогает с оперативным разрешением проблем.
Spark
1.6.3
Ручное добавление
Быстрая и универсальная платформа для обработки больших массивов данных.
Storm
1.1.0
Ручное добавление
Фреймворк для обработки потоковых данных.

Hadoop 3.1

Компонент
Версия
Статус
Описание
Ambari Metrics
0.1.0
Установлено
Система для сбора метрик кластера с возможностью хранения и извлечения собранных метрик.
HBase
2.0.0.3.1
Установлено
Нереляционная (NoSQL) распределенная база данных, плюс высокопроизводительный SQL-уровень для приложений с низкой задержкой.
HDFS
3.1.1.3.1
Установлено
Распределённая файловая система Apache Hadoop.
Hive
3.0.0.3.1
Установлено
Система хранения данных (data warehouse) для анализа больших наборов данных и ad-hoс запросов при помощи SQL.
Jupyter
1.0.0
Установлено
Jupyter
Kafka
1.0.0.3.1
Установлено
Распределенная система передачи сообщений с высокой пропускной способностью.
MapReduce2
3.0.0.3.1
Установлено
Сервис обработки данных при помощи парадигмы MapReduce.
Oozie
4.4.0
Установлено
Система для управления рабочими потоками и выполнения повторяющихся задач в экосистеме Hadoop. Включает установку необязательной веб-консоли Oozie Web Console, использующей библиотеку ExtJS.
Pig
0.16.1.3.1
Установлено
Платформа для обработки больших данных при помощи скриптов.
Spark2
2.3.0
Установлено
Быстрая и универсальная платформа для обработки больших массивов данных.
Sqoop
1.4.7
Установлено
Инструмент для передачи массивов данных между Apache Hadoop и структурированными хранилищами данных (например, реляционными базами данных).
Tez
0.9.0.3.1
Установлено
Фреймворк для обработки запросов, работающий поверх YARN.
YARN
3.1.0
Установлено
Планировщик ресурсов экосистемы Hadoop.
Zeppelin Notebook
0.8.0
Установлено
Веб-блокнот для интерактивного анализа данных. Позволяет создавать красивые интерактивные документы с возможностью совместного редактирования, содержащие элементы SQL, Scala и т.д.
ZooKeeper
3.4.9.3.1
Установлено
Централизованный сервис для высоконадежной распределенной координации.
Accumulo
1.7.0
Ручное добавление
Надежное, масштабируемое, высокопроизводительное распределенное key-value хранилище.
Airflow
1.10.11
Ручное добавление
Планировщик рабочего процесса, который помогает планировать сложные рабочие процессы и обеспечивает простой способ их поддержания.
Atlas
0.7.0.3.1
Ручное добавление
Платформа для управления метаданными кластера.
Druid
0.12.1
Ручное добавление
Быстрое распределенное столбцовое хранилище данных.
Infra Solr
0.1.0
Ручное добавление
Основная общая служба, используемая управляемыми компонентами Ambari.
Kerberos
1.10.3-30
Ручное добавление
Сетевой протокол аутентификации, основанный на концепции мандатов (tickets). Позволяет узлам, обменивающимся данными по незащищенному каналу, безопасно провести идентификацию друг друга.
Knox
0.5.0.3.1
Ручное добавление
Сервис, предоставляющий единую точку аутентификации и доступа к сервисам кластера Hadoop.
Log Search
0.5.0
Ручное добавление
Инструмент для агрегирования, анализа и визуализации журналов, используемый в сервисах под управлением Ambari. Находится на стадии Technical Preview.
NiFi
1.9.0
Ручное добавление
Apache NiFi - это простая в использовании, мощная и надежная система для обработки и распространения данных.
NiFi Registry
0.3.0
Ручное добавление
NiFi Registry - это дополнительное приложение, которое обеспечивает центральное место для хранения и управления общими ресурсами в одном или нескольких экземплярах NiFi и / или MiNiFi.
Ranger
1.2.0.3.1
Ручное добавление
Сервис для обеспечения всесторонней безопасности кластера Hadoop.
Ranger KMS
1.2.0.3.1
Ручное добавление
Сервер управления ключами защиты.
Schema Registry
0.7.0
Ручное добавление
Hortonworks Registry предоставляет реестр схем, реестр машинного обучения и платформу для создания версий объектов.
SmartSense
1.5.1.2.7.3.0-139
Ручное добавление
Инструмент для быстрого сбора настроек, метрик и журналов с сервисов кластера Hadoop. Выдает рекомендации для конкретного кластера и помогает с оперативным разрешением проблем.
Storm
1.2.1
Ручное добавление
Фреймворк для обработки потоковых данных.
Streaming Analytics Manager
0.6.0
Ручное добавление
Hortonworks Streaming Analytics Manager позволяет легко создавать потоковые приложения и выполнять аналитику потоковых данных.
Superset
0.23.0
Ручное добавление
Платформа для проведения интерактивного разведочного анализа данных.

Обновление версий

Версии компонентов могут меняться без предварительного уведомления. Используйте веб-интерфейс Ambari для просмотра актуальных версий компонентов.