Apache Drill достигает 0,6


Разработчики Apache Drill, программного обеспечения с открытым исходным кодом, которое вы можете использовать для написания SQL-запросов к данным, хранящимся в Hadoop, выпустили версию 0.6.

Обновление следует за выпуском в сентябре версии 0.5, первой бета-версии Drill. Сообщество Drill быстро прогрессирует с ежемесячными выпусками, и в этом последнем выпуске добавлена возможность запускать SQL-запросы непосредственно в MongoDB. До сих пор источниками данных были файловая система, HBase и Hive.

Конечно, растет число продуктов SQL-on-Hadoop, разрабатываемых такими компаниями, как Cloudera и Hortonworks, но Drill позволяет анализировать данные Hadoop без какого-либо ETL или необходимости создавать определения схемы перед началом анализа. Вместо этого Drill генерирует схемы на лету, сохраняя файлы в их исходных форматах, вместо того, чтобы преобразовывать их в соответствии с требованиями анализа.

Когда идея Drill была впервые объявлена в 2012 году, одним из преимуществ было то, что с самого начала она была разработана для поддержки вложенной модели данных с данными, закодированными в нескольких форматах, таких как JSON, Avro или Protocol Buffers, а также типы данных варьировались от простых типов, таких как строка, целое число, даты, до более сложных многоструктурированных данных, таких как вложенные карты и массивы.

Все это означает, что вы можете очень быстро начать работу с запросами данных. MapR, поставщик Hadoop, который тесно связан с проектом Apache Drill, интегрировал бета-версию Drill в свою платформу больших данных, выбрав Drill, потому что она предлагает больше функций, чем конкурирующие продукты. В блоге MapR есть интересная статья об использовании Drill, в которой Нираджа Рентачинтала обсуждает, как превратить необработанные данные из Yelp в аналитические данные за считанные минуты с помощью Apache Drill.

В новом выпуске используются API-интерфейсы Hadoop 2.4.1, которые обновляют Parquet для использования прямой памяти и добавляют возможность записи больших файлов Parquet при использовании CREATE TABLE AS. Еще одно улучшение – лучшее планирование JOIN при использовании таблиц HBase, основанных на приближении количества строк с использованием статистики на уровне региона. Обработка JSON также была улучшена с поддержкой выталкивания проекции JSON, полностью текстового режима JSON и логического короткого замыкания. Обработка SELECT * при взаимодействии с источниками данных без схемы – еще одна область, которая была улучшена.

Последняя бета-версия доступна для загрузки на веб-странице инкубатора Apache.


Добавить комментарий