DataFu для Pig и Hadoop


Пользовательские функции для выполнения анализа данных в Hadoop с использованием Apache Pig были объединены в библиотеку с открытым исходным кодом под названием DataFu, любезно предоставленную группой разработчиков LinkedIn.

В сообщении в блоге, в котором объявляется о доступности DataFu, старший инженер-программист Мэтью Хейс объясняет, что LinkedIn широко использует Apache Pig для выполнения анализа данных в Hadoop.

Pig – это простой язык программирования высокого уровня, который состоит всего из нескольких десятков операторов и упрощает написание заданий MapReduce. Он должен стать более популярным, хотя бы по той причине, что вы вводите команды в приглашении Grunt>.

Pig был разработан так, что программы, написанные на нем, имеют структуру, которая может использовать параллельную обработку в большом масштабе, поэтому приложения могут обрабатывать очень большие наборы данных.

Хотя язык прост, вы можете написать свои собственные определяемые пользователем функции для добавления собственного кода на Java, Python и JavaScript в свои сценарии Pig.

Согласно блогу, когда команда LinkedIn работала над продуктами с большим объемом данных для LinkedIn, такими как «Люди, которых вы можете знать» и «Навыки», программисты разработали большое количество пользовательских функций, которые были объединены в одну общую целевая библиотека под названием DataFu, которую LinkedIn сделала с открытым исходным кодом.

DataFu включает в себя UDF для общих задач статистики, PageRank, операций над наборами, операций с пакетами и набора тестов. Мешок для свиней – это набор кортежей (упорядоченные наборы полей). Pig отличается от обычных реляционных баз данных тем, что у вас нет таблиц, у вас есть отношения pig, а кортежи соответствуют строкам в таблице. Однако отношения Pig не требуют, чтобы каждый кортеж содержал одинаковое количество полей или чтобы поля в одной позиции имели один и тот же тип. UDF в библиотеке позволяют выполнять операции с пакетами, такие как добавление кортежа, добавление кортежа, объединение пакетов и создание неупорядоченных пар.

Другие UDF дают вам возможность запускать PageRank на независимых графиках; для выполнения заданных операций, таких как пересечение и объединение, и для вычисления гаверсинусного расстояния между двумя точками на земном шаре.

Вы можете скачать библиотеку здесь: https://github.com/linkedin/datafu, а в сообщении блога приведены примеры использования некоторых функций для начала работы.

Связанные новости

Hadoop CTP для Azure

Hadoop переходит на 1.0

Поддержка Pig и Hadoop в Amazon Elastic MapReduce

Комментарии

Оставьте комментарий или просмотрите существующие комментарии с помощью Disqus


Добавить комментарий