Hadoop 2.9 добавляет оценщик ресурсов


Apache выпустил Hadoop 2.9 с новыми функциями, включая федерацию YARN, федерацию на основе маршрутизатора HDFS и средство оценки ресурсов.

Программная библиотека Hadoop — это платформа, которая позволяет распределенную обработку больших наборов данных на кластерах компьютеров с использованием простых моделей программирования. Он предназначен для масштабирования от отдельных серверов до тысяч машин, каждая из которых предлагает локальные вычисления и хранение. YARN — это платформа для планирования заданий и управления ресурсами кластера, а также высокая доступность файловой системы HDFS.

Федерация YARN означает, что должна быть возможность масштабировать один кластер YARN до десятков тысяч узлов путем объединения нескольких подкластеров YARN. Предлагаемый подход состоит в том, чтобы разделить большой (10–100 тыс. Узлов) кластер на более мелкие блоки, называемые суб-кластерами, каждый со своим собственным менеджером ресурсов YARN и вычислительными узлами. Система федерации объединит эти подкластеры вместе и заставит их показаться приложениям как один большой кластер YARN. В новой версии также добавлена новая версия веб-интерфейса YARN.

Федерация на основе маршрутизатора также была добавлена для HDFS. До сих пор HDFS поддерживала разделенную федерацию, в которой файловая система разделена на более мелкие подкластеры, но это создает проблему, как поддерживать разделение подкластеров, что означает, что пользователи должны подключаться к нескольким подкластерам и управлять распределением папок и файлов для различные подкластеры. Федерация на основе маршрутизатора добавляет уровень программного обеспечения, отвечающего за объединение пространств имен, что означает, что подкластеры независимо управляют своими собственными пулами блоков. Компонент Router, имеющий тот же интерфейс, что и NameNode, пересылает клиентские запросы в правильный подкластер.

Оценщик ресурсов дает оценку требований к ресурсам задания, основываясь на том факте, что большая часть заданий (более 60%) является повторяющимися заданиями, поэтому может использоваться для автоматической оценки требований к ресурсам задания на основе истории выполнения заданий.

Еще одно улучшение этой версии — добавление гибких контейнеров. В отличие от существующих контейнеров YARN, которые планируются в узле только при наличии нераспределенных ресурсов, гибкие контейнеры могут быть отправлены диспетчеру узла, даже если их выполнение на этом узле не может начаться немедленно. Контейнер будет помещен в очередь в этом диспетчере узлов до тех пор, пока ресурсы не станут доступными.

Последним основным изменением в Hadoop 2.9 является добавление API для конфигурации очереди планировщика (пере) для CapacityScheduler.


Добавить комментарий