Мощная распределенная аналитическая база данных для больших проектов

Мощная распределенная аналитическая база данных для больших проектов

Arenadata DB | Управляемая СУБД на основе Greenplum в облаке

Быстро выполняйте сложные аналитические запросы с Arenadata DB на основе Greenplum

Arenadata DB — аналитическая база данных на основе Greenplum с открытым исходным кодом. Это массивно-параллельная СУБД, обладающая линейной масштабируемостью. Применяется в критически важных системах, работающих с большими объемами данных: объем данных в базе не ограничен, и она работает на 20% быстрее других СУБД.

Arenadata DB как сервис — быстрое кластерное решение, которое позволяет в несколько кликов развернуть базу для хранения и обработки больших данных, не вкладываясь в собственную инфраструктуру и ее поддержку.

Почему Greenplum?

Может работать с данными из нескольких источников с минимальной предобработкой
Поддерживает реляционную модель данных, легко интегрируется с PostgreSQL и другими реляционными решениями
Изолирует разные типы нагрузок друг от друга, за счет чего хорошо выполняет параллельные операции
Быстро обрабатывает сложные аналитические запросы благодаря MPP-архитектуре (Massively Parallel Processing)
Позволяет анализировать данные в режиме реального времени с последующим прогнозированием
Предоставляет доступ к данным через интерфейс для интеграции с другими аналитическими решениями

Полностью управляемая база данных

В нашу зону ответственности входит вся IT-инфраструктура, хостинг Arenadata DB, администрирование, обеспечение высокой доступности и соответствия требованиям, а вы управляете данными и извлекаете из них пользу.

Enterprise Trial

Получите месяц бесплатного использования Enterprise-версии Arenadata DB.

Преимущества Arenadata DB в облаке

Готовая БД в облаке

Не надо покупать серверы, строить и обслуживать инфраструктуру

Снижение TCO

Не платите за лицензию, только за используемые мощности

Масштабирование

Не думайте о конфигурациях машин, просто выбирайте необходимый объем: от гигабайт до сотен терабайт

Любые данные

Может быть основой для Data Lake и принимать данные с минимальной обработкой

Совместимость с PostgreSQL

Простой перенос данных из реляционных СУБД без перестройки логики работы с данными

Интеграция с Big Data

Легко подключить инструменты анализа в сервисе Mail.ru Cloud Big Data (Hadoop, Spark, Airflow)

Рассчитайте стоимость

Применения Greenplum в вашем бизнесе

Arenadata DB — корпоративная база данных, которая может использоваться банками, финансовыми и страховыми компаниями, телекомом, госорганами, промышленными предприятиями, ритейлом, логистикой и другими организациями в качестве основного хранилища данных и аналитической платформы.

Для корпоративной аналитики от BI до AI
Обладает расширенными возможностями обработки транзакций и поддержкой потоковых данных, справляется с аналитическими нагрузками от бизнес-аналитики до машинного обучения
Хранение и обработка больших данных
Хранит и обрабатывает от единиц до сотен терабайт данных. Подходит для предиктивной аналитики, построения корпоративных хранилищ данных, отчетности и решения других задач, связанных с массивами данных
Защита целостности данных
Неизменность данных и высокая доступность — идеально подходит для критичных систем, где потеря данных недопустима. Резервное копирование и аварийное восстановление гарантируют сохранность информации компании

Три версии Arenadata DB в облаке

Community
Версия с ограничением по функциональности и использованию в рамках Community-лицензии.
1 месяц
Enterprise Trial
Полнофункциональная версия Arenadata DB с поддержкой на уровне виртуальных машин.
best choice
Enterprise
Полнофункциональная версия с технической поддержкой базы данных.

Миграция и поддержка экспертов Mail.ru Group

Перенести данные в облако вы можете самостоятельно — либо воспользоваться миграцией «под ключ» с помощью специалистов MCS
Перенести данные в облако
Получите 3000 бонусных рублей для тестирования сервиса после подтверждения аккаунта MCS.

Вся функциональность Mail.ru Cloud Databases в частном облаке

По запросу, как и для других PaaS-решений, мы предоставляем возможность разместить всю функциональность управляемых СУБД нашего публичного облака — в частной инсталляции.
Если вы предпочитаете Private Cloud для максимального контроля над своей инфраструктурой и выполнения специфичных требований к безопасности, мы готовы развернуть для вас частное облако с поддержкой продвинутых PaaS.

Другие базы данных в облаке

FAQ

Что такое Arenadata DB (ADB)?
Arenadata DB (ADB) — кластерная реляционная СУБД, построенная на MPP-системе Greenplum, использующей в своей основе PostgreSQL. Она предназначена для хранения и обработки больших объемов информации. СУБД работает на нескольких (от двух до сотен) серверах, равномерно распределяя нагрузку и данные между ними. При этом не обязательно знать, сколько и каких серверов используется, можно работать с СУБД как с обычной, некластерной системой.
Какие задачи решает Arenadata DB?
ADB — аналитическая СУБД, которая хорошо справляется с небольшим (до 300) числом одновременных запросов, каждый их которых может быть достаточно сложным. Такие запросы часто возникают:
  • При использовании BI-систем
  • У продвинутых ad-hoc SQL- и Python-аналитиков
  • При решении задач с помощью Machine Learning-алгоритмов
  • В других видах отчетности
В каких бизнес-сценариях чаще всего используется ADB?
Применение Arenadata DB не ограничивается конкретными сценариями — везде, где есть место аналитике больших данных, СУБД помогает достигать результатов. Но наиболее эффективные области применения ADB — это:
  • Любые типы отчетности (например, операционная, управленческая, обязательная регуляторная)
  • Глубокий ad-hoc анализ
  • Работа систем маркетинговых кампаний
  • Различный скоринг
  • Системы лояльности
  • Предсказание спроса, прогнозирование остатков
  • Анализ поведения пользователей
  • «Золотая запись» о клиентах
Когда не следует использовать ADB?
Если к СУБД предполагается большое число параллельных запросов (более 300), возможно, более оптимальным будет использовать ADB совместно с другой СУБД — например, с ClickHouse.
Где я могу найти документацию?
Документация к СУБД Greenplum расположена по ссылке.
Как шардируются данные по серверам?

По умолчанию все таблицы равномерно распределяются по серверам случайным образом. Поэтому в работе каждого запроса всегда используются все сегменты.

Дополнительно при создании таблицы можно указать ее ключ распределения по серверам (одно или несколько полей). В таком случае все соединения с указанной таблицей по этому полю (или полям) будут происходить быстрее. Подробнее о распределении данных в СУБД.

Поддерживается ли колоночное хранение?

Да, поддерживается как строковое, так и колоночное хранение данных в таблицах. Для аналитической нагрузки предпочтительно колоночное хранение. Также можно создавать полиморфные таблицы, где часть данных (партиция) хранится строково, а часть — колоночно. Подробнее в документации.

Поддерживается ли сжатие?
Поддерживаются следующие алгоритмы сжатия: ZSTD (предпочтительный), ZLIB, RLE. Сжатие применяется на таблицу, партицию или даже отдельный столбец. Arenadata рекомендует использовать ZSTD уровня 1.
Какие стандарты поддерживает СУБД?

ADB является ANSI SQL-совместимой системой: подробная информация доступна в документации.

Совместим ли синтаксис и протокол с PostgreSQL?

Да, примерно на 95% совместим. Вы можете использовать стандартные PostgreSQL драйвера (JDBC, ODBC) для работы с ADB. Общее правило — все ПО, которое работает с PostgreSQL, работает и с ADB. Подробнее о совместимости с PostgreSQL.

Есть ли транзакции?
Да, ADB — ACID-система. Уровень изоляции транзакций — Serializable.
Есть ли проекции и индексы?
Есть три типа индексов и материализованные представления.
Какие процедурные языки поддерживаются?
Поддерживаются функции на языках SQL (PLpg/SQL), Python, R, Java, Perl.
Как правильно загружать данные в СУБД?

Небольшие объемы можно загружать через стандартный PostgreSQL-интерфейс (например, JDBC или ODBC). Большие объемы эффективней грузить через специальный загрузчик (GPFDIST), который отправляет данные в СУБД параллельно. Подробнее о параллельной загрузке.

Какой максимальный объем данных можно хранить в СУБД?

Объем данных в СУБД практически не ограничен.

Ограничения по объему данных в отдельных таблицах, строках и полях ниже:

Параметр Лимит
Максимальный размер базы данных Нет ограничений
Максимальный размер таблицы Нет ограничений, 128 ТБ на раздел (партицию)/сегмент
Максимальный размер строки > 1 ГБ (приблизительно)
Максимальный размер поля 1 ГБ
Максимальный размер BLOB 1 ГБ (Используйте тип данных BYTEA, нет BLOB)
Максимальное количество строк в таблице 2^48
Максимальное количество столбцов в таблице 1600
Максимальное количество индексов в таблице Без ограничений
Максимальное количество баз данных/пользователей Без ограничений
Максимальное количество таблиц в базе данных 4200 миллионов
Максимальное количество столбцов в представлении 1664
Максимальное количество столбцов в индексе Без ограничений
Максимальное количество ограничений уровня таблицы на таблицу Без ограничений
Максимум активных параллельных транзакций Без ограничений
Максимальный размер дескриптора формата данных 63 символа
Максимальный размер имени базы данных, пользователя, таблицы, представления, индекса, триггера, UDF, UDT, хранимой процедуры, ограничения и столбца 63 символа
Максимальное количество сессий на parsing engine Нет концепции parsing engine, кроме узла masterDB. Без фиксированного лимита, до нескольких сотен.
Максимальное количество столбцов на первичный и вторичный индекс 32

Не нашли ответ на свой вопрос?

Найдите его в документации

здесь есть ответы на большинство вопросов по настройке сервисов

Открыть документацию

Задайте его нам

через форму обратной связи, и мы оперативно ответим

Задать вопрос

21 год
опыта поддержки высоконагруженных сервисов
100+ млн
пользователей по всему миру
7 лет
экспертизы развития облачной инфраструктуры