Databricks Delta добавляет более быстрый импорт паркета

Есть обновленная версия Databricks Delta, которая увеличивает скорость импорта данных Parquet и имеет более сильные функции слияния. Механизм аналитики также стал доступен пользователям Amazon AWS и Azure для Databricks.

Databricks Delta – это единый аналитический движок и связанный с ним формат таблиц, построенный на основе Apache Spark. Компания Databricks была создана первыми разработчиками Apache Spark и специализируется на коммерческих технологиях, использующих Spark.

Когда он был первоначально запущен на саммите Apache Spark в 2017 году, генеральный директор и соучредитель Databricks Али Годси описал Delta как «хранилище данных с возможностями ИИ в масштабе озера данных». Идея состоит в том, что Delta использует лучшие хранилища данных и озера данных и добавляет потоковые данные для обеспечения прогнозной аналитики.

Databricks Delta предоставляет транзакции ACID, оптимизированные макеты и индексы для построения конвейеров данных, которые можно использовать для работы с большими данными. Databricks говорит, что Delta в 10-100 раз быстрее, чем Apache Spark on Parquet. Он был разработан как для пакетной, так и для потоковой обработки и может использоваться для разработки конвейера, управления данными и обслуживания запросов. Он нацелен на обеспечение высокой надежности и низкой задержки за счет использования таких методов, как проверка схемы, сжатие и пропуск данных.

Разработчики говорят, что новый быстрый импорт Parquet также более экономичен в плане использования дополнительных вычислительных ресурсов и ресурсов хранения. Еще одно улучшение в обновленной версии – автоматическое управление версиями больших данных, хранящихся в озерах данных клиентов, что означает, что можно получить доступ к любой исторической версии этих данных.

Слияние – еще одна область, требующая улучшения, с новой поддержкой нескольких предложений MATCHED, дополнительными условиями в предложениях MATCHED и NOT MATCHED и действием DELETE. Также имеется поддержка * в действиях UPDATE и INSERT для автоматического заполнения имен столбцов, что упрощает написание запросов MERGE для таблиц с очень большим количеством столбцов.

Наряду с улучшениями Databricks теперь предлагает Databricks Delta в Azure и AWS. Пользователи Azure Databricks теперь могут использовать Delta для разработки и анализа данных как из стандартных SKU Azure Databricks, так и из SKU Azure Databricks Premium. Databricks на AWS клиенты также могут использовать Delta как из Data Engineering, так и из Data Analytics.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *