Hadoopi – Кластер Hadoop Raspberry Pi


Есть обновленная версия Hadoopi, дистрибутива Hadoop для Raspberry Pi. Hadoopi поддерживает различные компоненты экосистемы Hadoop, включая HBase, Hive и Spark. В новом выпуске есть проводная сеть (для повышения производительности и надежности), а также добавлен сбор показателей с помощью Prometheus и визуализация этих показателей на информационных панелях Grafana.

Hadoopi – это проект на GitHub, в котором есть файлы конфигурации и код Chef для настройки кластера из пяти Raspberry Pi 3 в качестве рабочего дистрибутива Hadoop под управлением Hue.

Если идея запуска Hadoop на Raspberry Pis кажется маловероятной, она следует за рядом предыдущих экспериментов, в которых аналогичные вещи делались с Hadoop и Raspberry PI. Это также иллюстрация того, на что способен Raspberry Pi, наряду с другими привлекательными применениями, которые мы рассмотрели, такими как кластер Raspberry Pi, созданный GCHQ, британский аналог АНБ, и имитация бомбы Тьюринга-Велчмана. .

Идея использования Raspberry Pis для изучения Hadoop имеет большой смысл. Если вас интересуют большие данные и вы хотите разобраться с Hadoop, вам нужно либо потратить много денег на оборудование, либо использовать облачный дистрибутив Hadoop. Hadoop имеет распределенную архитектуру, для работы которой требуется несколько компьютеров. Облачные системы маскируют взаимодействие между программным обеспечением и оборудованием, что затрудняет глубокое понимание того, как работает кластер.

Одна из первых систем Hadoop на базе Raspberry Pi была продемонстрирована Джейми Уайтхорном на конференции Strata + Hadoop World в 2013 году, а Энди Бургин, создатель Hadoopi, признает Уайтхорн одним из вдохновителей Hadoopi.

На GitHub Burgin указывает, что, хотя Hadoopi запускает большую часть экосистемы Hadoop, нет поддержки Impala, потому что Pi действительно не имеет достаточной мощности при запуске других компонентов Hadoop. Безопасность основана на HDFS, а не на Sentry, а аппаратные ограничения в виде 1 ГБ памяти и только четырех ядер означают, что вы действительно можете запускать только одну задачу за раз, и это не быстро. Бургин говорит:

«Это медленный wwwwwwwww – сочетание крошечного объема ОЗУ и всего 4 ядер означает, что это не рассчитано на скорость, будьте реалистичны со своими ожиданиями!»

Тот факт, что Raspberry Pi основан на ARM, означает, что вам нужно скомпилировать Hadoop (с правильной версией библиотек protobuf, Oozie и Hue.

В обновленной версии Hadoopi добавлена поддержка панелей мониторинга Grafana, построенных с использованием метрик Prometheus, собранных рядом экспортеров. Экспортер узлов предоставляет метрики о состоянии каждого узла; экспортер MySQL предоставляет метрики для сервера mysql; а экспортер JMX предоставляет выбранные метрики jmx.

На странице Hadoopi на GitHub есть полная информация о том, как настроить и запустить кластер.


Добавить комментарий