Apache Kudu улучшает веб-интерфейс


Apache Kudu 1.4 был выпущен с улучшением удобства использования веб-интерфейсов Kudu и новой утилитой проверки файловой системы.

Apache Kudu изначально был проектом Cloudera, который теперь является частью экосистемы Apache Hadoop. Apache говорит, что его можно использовать для обеспечения быстрой аналитики быстрых данных. На практике Kudu — это механизм хранения по столбцам, который заполняет пробел между распределенной файловой системой Hadoop (HDFS) и базой данных HBase NoSQL.

Таблицы Kudu имеют первичный ключ, состоящий из одного или нескольких столбцов, и используют такие методы, как кодирование длин серий, дифференциальное кодирование и векторизованная битовая упаковка, чтобы объединить эффективное использование хранилища с быстрым чтением данных. Он предназначен для использования со структурированными данными, которые поддерживают произвольный доступ с малой задержкой вместе с эффективными аналитическими шаблонами доступа. Для доступа в стиле «NoSQL» вы можете выбирать между API Java, C ++ или Python.

Объясняя роль Kudu как «хорошего гражданина» в кластере Hadoop, разработчики говорят, что вы можете передавать данные в Kudu из источников данных в реальном времени с помощью Java-клиента, а затем обрабатывать их сразу по прибытии с помощью Spark, Impala или MapReduce. Вы даже можете прозрачно объединять таблицы Kudu с данными, хранящимися в другом хранилище Hadoop, таком как HDFS или HBase. Он может совместно использовать диски данных с HDFS DataNodes и работать с объемом оперативной памяти всего 1 ГБ для легких рабочих нагрузок.

Клиентские библиотеки C ++ и Java были обновлены в новой версии, поэтому они могут изменять атрибуты хранения, такие как кодирование и сжатие, а также значения по умолчанию для существующих столбцов. Клиентская библиотека C ++ поставляется с экспериментальным API KuduPartitioner, который можно использовать для эффективного сопоставления строк с соответствующими разделами и хостами. Клиентская библиотека Java также была обновлена для поддержки отказоустойчивости сканеров.

Kudu теперь включает дополнительную возможность вычислять, хранить и проверять контрольные суммы для всех частей данных, хранящихся на сервере. Предыдущие версии выполняли контрольные суммы только для определенных частей сохраненных данных.

Удобство использования веб-интерфейсов Kudu было улучшено, особенно для случая, когда на сервере размещено много планшетов или таблица имеет много разделов. Страницы со списком планшетов теперь содержат сводку верхнего уровня о состоянии планшета и отображают полный список в переключаемом разделе.

Менеджер обслуживания также был улучшен. Он лучше использует настроенные потоки обслуживания и теперь будет агрессивно планировать сброс данных в памяти, когда потребление памяти превышает 60% от настроенного предела памяти для всего процесса.

Инструмент командной строки Kudu также был улучшен новыми расширенными административными командами.


Добавить комментарий