Бесплатная книга по веб-майнингу

Учебник Mining of Massive Datasets, написанный для продвинутого курса аспирантуры, преподаваемого в Стэнфордском университете, был предоставлен для бесплатного скачивания его авторами, Анандом Раджармой и Джеффри Д. Уллманом.

В книге основное внимание уделяется интеллектуальному анализу данных настолько больших, что они не помещаются в основную память, и используются примеры данных, полученных из Интернета. Его подход заключается в применении алгоритмов к данным, а не в использовании машинного обучения.

Согласно предисловию, основные темы:

Распределенные файловые системы и map-reduce как инструмент для создания параллельных алгоритмов, которые работают с очень большими объемами данных.

Поиск по сходству, включая ключевые методы мини-хеширования и хеширования с учетом местоположения.

Обработка потока данных и специализированные алгоритмы для работы с данными, которые поступают так быстро, что должны быть немедленно обработаны или потеряны.

Технологии поисковых систем, включая Google PageRank, обнаружение ссылочного спама и подход хабов и властей.

Анализ часто встречающихся элементов, включая правила ассоциации, рыночные корзины, алгоритм A-Priori и его улучшения.

Алгоритмы кластеризации очень больших многомерных наборов данных.

Две ключевые проблемы для веб-приложений: управление рекламными системами и системами рекомендаций.

Хотя это академический текст, он написан в доступном стиле, что делает его подходящим для других читателей, обладающих знаниями SQL, структур данных, алгоритмов и программных систем.

Если вас интересуют большие данные, это необходимо, и, учитывая, что это бесплатно, цена тоже подходящая.

Вы можете прочитать его в Интернете (HTML) или загрузить в формате PDF.

Загрузите его с:

http://infolab.stanford.edu/~ullman/mmds.html

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *