Общий обход — теперь каждый может быть Google


Если вы когда-нибудь думали, что могли бы работать лучше, чем Google, но были напуганы оборудованием, необходимым для создания веб-индекса, то у Common Crawl Foundation есть решение для вас.

Многие считают, что мертвая хватка Google в отношении поисковой информации противоречит духу Интернета в отношении свободно доступной информации и открытости. Конечно, ничто не мешает вам создать свой собственный поисковый центр в противовес Google, Bing или любой другой поисковой системе, но инвестиции в оборудование будут огромными. Например, у Google есть специально созданные центры обработки данных, которые только и делают, что индексируют веб-страницы, читая каждую страницу и обрабатывая содержащуюся на ней информацию — обычно это называется обходом веб-страниц.

Теперь у нас есть способ получить доступ к индексу, созданному для того, чтобы сделать Интернет более открытым. Новый индекс был объявлен Фондом общего обхода.

В настоящее время он состоит из индекса 5 миллиардов веб-страниц, их рейтинга страниц, графиков ссылок и других метаданных, размещенных на Amazon EC2. Индекс открыт и свободно доступен для любых пользователей через EC2.

Лиза Грин, директор Common Crawl Foundation, говорит в блоге компании, что Гил Эльбаз основал Фонд Common Crawl Foundation, чтобы принять меры, исходя из убеждения, что в нашем информационном обществе крайне важно, чтобы данные веб-сканирования были открыты и доступны для всех, кто желает их использовать.

Фонд общего обхода нацелен на использование более дешевых затрат на обход и хранение для общей выгоды. Фонд говорит::

«Общий обход-это обход в веб-масштабе, и поэтому каждая версия нашего обхода содержит миллиарды документов с различных сайтов, которые мы успешно можем обследовать. Этот набор данных может иметь размер в десятки терабайт, что делает передачу обхода заинтересованным третьим лицам дорогостоящей и непрактичной. Кроме того, для выполнения операций обработки данных с таким большим набором данных требуются методы параллельной обработки и потенциально большой компьютерный кластер. К счастью для нас, облачная вычислительная инфраструктура Amazon EC2/S3 предоставляет нам теоретически неограниченную емкость хранилища в сочетании с локализованным доступом к эластичному вычислительному облаку.»

Данные сканирования хранятся в Amazon S3, и это означает, что вы можете получить к ним доступ из образа Amazon EC2, даже не оплачивая плату за передачу данных. Однако вам, вероятно, придется заплатить за образ EC2, но ваши затраты на запуск, скорее всего, будут намного меньше, чем на строительство центра обработки данных для выполнения этой работы. По крайней мере, вы должны быть в состоянии получить доказательство концепции и работать за очень небольшие инвестиции.

Архитектура службы обхода сама по себе является свидетельством того, что программное обеспечение с открытым исходным кодом основано на Hadoop, HDSF и пользовательском веб-обходчике. Обход сопоставляется с помощью процесса MapReduce, сжатого в файлы ARC объемом 100 Мбайт, которые затем загружаются в хранилища S3 для доступа. В настоящее время от 40 000 до 50 000 заполненных ведер ждут вас для поиска.

Для доступа к данным необходимо запустить кластер Hadoop в службе EC2, чтобы создать задание сокращения карты, которое обрабатывает данные S3. Вам также необходимо использовать некоторый пользовательский код клея, который позволяет получить доступ к файлам ARC. Все это означает, что вам все равно придется довольно много работать, чтобы что-то запустить и запустить, и вам нужно будет выделить примерно 100 долларов на полную работу по сокращению карт в индексе.

Фонд работает над созданием репозитория кода GitHub, который был и может быть использован для работы с общими данными обхода. Они также хотят услышать от любых разработчиков приложений, которые они хотели бы видеть построенными на общих данных обхода, или от всех, у кого есть сценарии Hadoop, которые могут быть адаптированы для поиска полезной информации в данных обхода.

Это интересная возможность, но насколько хорошо все это работает, зависит от качества данных и дальнейшего построения индекса. Google, например, утверждал, что в 2008 году проиндексировал 1 триллион URL-адресов, так что 5 миллиардов страниц-это хорошее начало, но, очевидно, есть возможности для улучшения.


Добавить комментарий