VK Cloud logo
Обновлена 31 октября 2023 г. в 06:09

Запуск, подключение и загрузка данных

Подключение к инстансу

Для подключения к инстансу ADB, воспользуйтесь инструкцией по подключению к инстансу базы данных.

Загрузка данных

После того, как выбран коннектор для подключения к базе данных и установлено соединение, можно приступать к загрузке данных.

Основным инструментом для загрузки данных в Greenplum и выгрузке данных из Greenplum является утилита gpfdist. Это http-сервер, с которым Greenplum разговаривает сразу всеми своими узлами, достигая большой скорости как загрузки, так и выгрузки данных.

Официальная документация gpfdist доступна на официальном ресурсе.

Для чего используется gpfdist? В Greenplum существует понятие external table (внешние таблицы), описание которых выглядит практически так же, как и у обычных таблиц, но в конце добавляется условие типа LOCATION (‘gpfdist://hostname:8080/database_name/table_name.csv’), которое указывает, где именно хранится файл, структура которого описана в external table. External table может быть либо для чтения, либо для записи.

Если external table создается для чтения, то, во-первых, вместо имени файла можно использовать маску (то есть, можно прочитать или загрузить сразу много файлов), а во-вторых, можно читать из заархивированных файлов (.gz, .zip или .bz2), что существенно увеличивает скорость чтения и загрузки файлов, поскольку чтение данных с дисков уменьшается во много раз по сравнению с чтением незаархивированных файлов.

External table может работать сразу с несколькими экземплярами gpfdist, запущенными даже на разных узлах. Это еще больше увеличивает производительность системы — как для загрузки, так и для выгрузки данных.