Поддержка Pig и Hadoop в Amazon Elastic MapReduce


Amazon объявила о поддержке запуска потоков заданий с использованием Hadoop 0.20.205 и Pig 0.9.1 в Amazon Elastic MapReduce.

Elastic MapReduce-это веб-сервис, который можно использовать для обработки больших объемов данных. Он использует размещенную платформу Hadoop, работающую на инфраструктуре веб-масштаба Amazon Elastic Compute Cloud (Amazon EC2) и Amazon Simple Storage Service (Amazon S3).

Библиотека программного обеспечения Apache Hadoop – это платформа, которую можно использовать для распределенной обработки больших наборов данных между кластерами компьютеров с использованием простой модели программирования. Apache Pig-это аналитический пакет с открытым исходным кодом, который работает поверх Hadoop.

Pig-это интересный пакет для работы; вы пишете свои запросы на языке, похожем на SQL, под названием Pig Latin, чтобы предоставить пользователям возможность обобщать и запрашивать источники данных, хранящиеся в Amazon S3.

Pig Latin также включает функции map/reduce и сложные расширяемые пользовательские типы данных, поэтому вы можете создавать запросы, которые можно использовать для сложных и неструктурированных источников данных, таких как текстовые документы.


Добавить комментарий