Kylin 2.3.0 добавляет поддержку SQL Server


Apache Kylin был обновлен до новой версии, которая поддерживает SparkSQL при построении промежуточных плоских таблиц Hive. Также есть новая структура метрик на основе Dropwizard и планировщик кубов, который может выбирать наиболее экономичные кубоиды для построения.

Kylin — это механизм распределенной аналитики с открытым исходным кодом, предназначенный для обеспечения интерфейса SQL и многомерного анализа (OLAP) на Apache. Первоначально он был разработан на eBay, прежде чем стать проектом Apache.

Kylin OLAP Engine состоит из механизма метаданных, механизма запросов, механизма заданий и механизма хранения. Он также включает REST-сервер для обслуживания клиентских запросов. Механизм запросов основан на Apache Calcite.

Новая версия является основным выпуском после 2.2, выпущенной в ноябре прошлого года. Первое улучшение новой версии — поддержка использования SparkSQL при построении промежуточных плоских таблиц Hive. SparkSQL намного быстрее Hive при создании плоских таблиц.

Второе главное улучшение — добавление фреймворка метрик на основе Dropwizard. Dropwizard — это среда Java для разработки высокопроизводительных веб-служб RESTful. Преимущества новой метрики заключаются в том, что это четко определенная метрическая модель для часто необходимых метрик, таких как метрики JVM. Он также имеет четко определенные измерения для широкого диапазона показателей, включая max, mean, stddev и mean_rate.

Метрика также имеет встроенные подключаемые структуры отчетности, включая JMX, Console, Log и JSON. Также был представлен новый инструмент под названием perflog. Это отслеживает продолжительность разговора и текущие активные вызовы, записывая их в метрическую систему.

Еще одним важным улучшением Kylin является введение панели мониторинга, которая может использоваться для отображения показателей, связанных с сервисом Kylin, таких как количество запросов, задержка запросов и количество заданий. Вы можете просматривать измерения, включая уровень сервера, уровень проекта и уровень куба.

Также был добавлен планировщик кубов, позволяющий выбирать кубоиды для построения на основе стоимостных алгоритмов. Решения OLAP предлагают компромисс между скоростью онлайн-запросов и стоимостью создания автономных кубов. Чтобы эффективно использовать ресурсы, очень важно просто предварительно построить наиболее ценные кубоиды.

До сих пор решения по частичным кубам должны были основываться на статических правилах, что сопряжено с риском принятия сложных правил и неправильных решений из-за изменения шаблонов пользовательских запросов. Новый планировщик кубов делает Apache Kylin более ресурсоэффективным. Он интеллектуально строит частичный куб, чтобы минимизировать затраты на построение куба, затем изучает шаблоны из запросов во время выполнения и соответственно динамически рекомендует кубоиды. Планировщику не нужны статические правила, и он обрабатывает больше измерений, чем было бы возможно с помощью статических правил. Вы также сможете настроить неэкономичный кубоидный набор на экономичный на основе исторических запросов.

Добавление SQL Server (и RedShift) в качестве источников данных стало возможным благодаря изменениям в архитектуре подключаемых модулей Kylin версии 2.0. С тех пор у вас может быть несколько источников данных, механизмов кубов и механизмов хранения. За добавлением SQL Server, вероятно, последуют другие стандартные системы СУБД. Некоторые инструменты, такие как Apache Sqoop, также можно использовать для экспорта данных из СУБД в HDFS, что может помочь Kylin получить данные и затем встроить их в кубы.


Добавить комментарий