Написать в техподдержку Позвонить нам
Админпанель Выход

Содержание статьи:

    Запуск, подключение и загрузка данных

    Подключение к инстансу

    Для просмотра способов подключения к инстансу можно кликнуть по названию инстанса в списке виртуальных машин, или навести курсор на значок информации (i).

    Карточка инстанса отображает всю необходимую информацию.

    В разделе «Параметры подключения» приведены примеры кода из популярных языков.

    При использовании примеров следует заменить макросы <DATABASE>,<USERNAME>,<PASSWORD>на актуальные значения:

    • <DATABASE> - название базы данных, указанное при создании.
    • <USERNAME> - имя пользователя (указывается при создании).
    • <PASSWORD> - пароль пользователя (указывается при создании).

    Дополнительную информацию можно найти в документации по используемому коннектору (коннектор - сущность, через которую выполняется подключение к БД).

    Загрузка данных

    После того, как выбран коннектор для подключения к базе данных и установлено соединение, можно приступать к загрузке данных.

    Основным инструментом для загрузки данных в Greenplum и выгрузке данных из Greenplum является утилита gpfdist. Это http-сервер, с которым Greenplum разговаривает сразу всеми своими узлами, достигая большой скорости как загрузки, так и выгрузки данных.

    Официальная документация gpfdist доступна на официальном ресурсе.

    Для чего используется gpfdist? В Greenplum существует понятие external table (внешние таблицы), описание которых выглядит практически так же, как и у обычных таблиц, но в конце добавляется условие типа LOCATION (‘gpfdist://hostname:8080/database_name/table_name.csv’), которое указывает, где именно хранится файл, структура которого описана в external table. External table может быть либо для чтения, либо для записи.

    Если external table создается для чтения, то, во-первых, вместо имени файла можно использовать маску (то есть, можно прочитать или загрузить сразу много файлов), а во-вторых, можно читать из заархивированных файлов (.gz, .zip или .bz2), что существенно увеличивает скорость чтения и загрузки файлов, поскольку чтение данных с дисков уменьшается во много раз по сравнению с чтением незаархивированных файлов.

    External table может работать сразу с несколькими экземплярами gpfdist, запущенными даже на разных узлах. Это еще больше увеличивает производительность системы — как для загрузки, так и для выгрузки данных.

    Полезна ли была эта статья?