SQL в масштабе Hadoop


Hortonworks анонсировала улучшения в движке Hive. Stinger.next предназначен для доставки корпоративного SQL с временем ответа на запрос менее секунды и для масштабирования от гигабайт до петабайт.

Hortonworks объявила о своих планах по дальнейшим улучшениям интерфейса Hive для Hadoop. Эти планы основаны на их инициативе Stinger, которая была запущена в апреле как расширение механизма Hive, позволяющее выполнять интерактивные запросы SQL в масштабе Hadoop. Это видео дает некоторую предысторию инициативы Hive и Stinger:

Hortonworks объявила о следующем наборе задач для Stinger, Stinger.next, которые направлены на повышение скорости, масштаба и широты поддержки SQL в Hive.

Планируется выпускать Stinger.next поэтапно. Планируется три основных области, каждая из которых будет добавлена отдельно. Эти три области — это поддержка транзакций с семантикой ACID; субсекундные запросы; и SQL: 2011 Analytics.

Поддержка транзакций ACID означает, что вы сможете изменять данные с помощью вставок, обновлений и удалений привычным способом, поддерживаемым стандартными системами SQL.

Повышение скорости запросов направлено на то, чтобы сделать Hive пригодным для использования в таких приложениях, как интерактивные панели мониторинга и исследовательская аналитика. Чтобы добиться этого без потери масштабируемости, разработчики планируют использовать гибридный движок на основе Tez и нечто новое под названием LLAP (Live Long and Process).

LLAP — это необязательный процесс-демон, работающий на нескольких узлах, который обеспечивает кэширование и повторное использование данных в запросах со сжатыми столбчатыми данными в памяти (вне кучи). Он также поддерживает многопоточное выполнение, включая чтение с предикатом вниз и хеш-соединения. YARN обеспечит управление рабочей нагрузкой в LLAP с помощью делегирования.

Ограничивая использование LLAP начальными фазами обработки запросов, Hive обходит ограничения, связанные с координацией, управлением рабочей нагрузкой и изоляцией сбоев. Обычно это проблемы, возникающие при выполнении всего запроса в этом процессе, как это делают другие базы данных.

Последним крупным запланированным улучшением является добавление поддержки для подмножества SQL: 2011 Analytics. Дальнейшая поддержка будет добавлена в будущем по запросу клиентов. Конструкции, которые будут поддерживаться в Stinger.next, не являются равносоединениями; заданные функции Union, Except и Intersect; интервальные типы; и большинство подзапросов, вложенных или нет.


Добавить комментарий