File(Format)
Управляет данными в одном файле на диске в указанном формате.
Примеры применения:
- Выгрузка данных из ClickHouse в файл.
- Преобразование данных из одного формата в другой.
- Обновление данных в ClickHouse редактированием файла на диске.
Использование движка в сервере ClickHouse
File(Format)
Format должен быть таким, который ClickHouse может использовать и в запросах INSERT и в запросах SELECT. Полный список поддерживаемых форматов смотрите в разделе Форматы.
Сервер ClickHouse не позволяет указать путь к файлу, с которым будет работать File. Используется путь к хранилищу, определенный параметром path в конфигурации сервера.
При создании таблицы с помощью File(Format) сервер ClickHouse создает в хранилище каталог с именем таблицы, а после добавления в таблицу данных помещает туда файл data.Format.
Можно вручную создать в хранилище каталог таблицы, поместить туда файл, затем на сервере ClickHouse добавить (ATTACH) информацию о таблице, соответствующей имени каталога и прочитать из файла данные.
Будьте аккуратны с этой функциональностью, поскольку сервер ClickHouse не отслеживает внешние изменения данных. Если в файл будет производиться запись одновременно со стороны сервера ClickHouse и с внешней стороны, то результат непредсказуем.
Пример:
1. Создадим на сервере таблицу file_engine_table:
CREATE TABLE file_engine_table (name String, value UInt32) ENGINE=File(TabSeparated)
В конфигурации по умолчанию сервер ClickHouse создаст каталог /var/lib/clickhouse/data/default/file_engine_table.
2. Вручную создадим файл /var/lib/clickhouse/data/default/file_engine_table/data.TabSeparated с содержимым:
$cat data.TabSeparated
one 1
two 2
3. Запросим данные:
SELECT * FROM file_engine_table
┌─name─┬─value─┐
│ one │ 1 │
│ two │ 2 │
└──────┴───────┘
Использование движка в Clickhouse-local
В clickhouse-local движок в качестве параметра принимает не только формат, но и путь к файлу. В том числе можно указать стандартные потоки ввода/вывода цифровым или буквенным обозначением 0 или stdin, 1 или stdout. Можно записывать и читать сжатые файлы. Для этого нужно задать дополнительный параметр движка или расширение файла (gz, br или xz).
Пример:
$ echo -e "1,2\n3,4" | clickhouse-local -q "CREATE TABLE table (a Int64, b Int64) ENGINE = File(CSV, stdin); SELECT a, b FROM table; DROP TABLE table"
Детали реализации
- Поддерживается одновременное выполнение множества запросов
SELECT, запросыINSERTмогут выполняться только последовательно. - Поддерживается создание ещё не существующего файла при запросе
INSERT. - Для существующих файлов
INSERTзаписывает в конец файла. - Не поддерживается:
- использование операций
ALTERиSELECT...SAMPLE; - индексы;
- репликация.
- использование операций