ScraperWiki освобождает данные теперь с поддержкой PDF


Возможно, вы пропустили ScraperWiki — это одна из тех действительно хороших идей, которые, как правило, остаются скрытыми в безвестности. Последней функцией является конвертер PDF в HTML, что делает его еще более интересным.

ScraperWiki — действительно отличная идея. Парсинг в технике извлечения данных с HTML-страниц. Данные, встроенные в HTML-страницу, обычно форматируются для использования человеком, и это обычно означает, что это не лучший формат для обработки другими приложениями. Скребок — это программа, предназначенная для загрузки HTML-страницы и извлечения этих данных, а затем представления их в формате, который может использовать другая программа — обычно XML или JSON.

Что удивительно, так это то, что в сети так много данных, которые доступны только встроенными в HTML. Часто правительственный департамент делает данные доступными на веб-странице, но в этом случае либо не хватает ресурсов, либо желания сделать их доступными для дальнейшей обработки, но с помощью скрапинга можно получить их в удобной для использования форме.

Проблема с парсингом заключается в том, что HTML нелегко обрабатывать для извлечения данных — он часто бывает недостаточно регулярным и иногда даже меняет свою форму с обновлениями веб-сайта. Итак, что вам нужно, это простой способ создать парсер, а после этого почему бы не поделиться данными, которые он получил, для использования всеми. Это идея ScraperWiki.

Он предоставляет ряд онлайн-шаблонов на PHP и Ruby, чтобы начать создание парсера. Используемый подход заключается в построении DOM-дерева и последующем извлечении данных путем навигации и управления DOM. Это действительно единственный разумный способ создать скребок, и как только вы увидите пример, это будет довольно просто. Для непрограммистов есть средство «запросить парсер», где участники Wiki потратят несколько минут на создание специального парсера. Вы также можете добровольно починить сломанный скребок или задокументировать существующий. На момент написания было предложено 58 наборов данных, требующих скреперов.

Данные, полученные ScraperWiki, можно загрузить в виде файла CSV и поделиться с другими пользователями. Все это с открытым исходным кодом, как и любые создаваемые вами парсеры. Идея состоит в том, чтобы освободить данные, которые в противном случае были бы заблокированы в HTML. Скребки можно запускать по расписанию, и вы получите электронное письмо, если ваш скребок выйдет из строя. Существует также API, который позволяет клиентам загружать из хранилища данных в JSON, YAML, SML, объектах PHP или CSV.

Вся система была запущена и работала около года и сейчас находится в стадии бета-тестирования — хотя, как и во многих проектах с открытым исходным кодом, она вполне может говорить о бета-тестировании дольше, чем это действительно необходимо. Кажется, все работает отлично.

Последней функцией является конвертер PDF в HTML, который открывает возможность парсинга PDF. Процитируем блог ScraperWiki:

Очистка PDF-файлов немного похожа на чистку канализации зубами. Это медленно, неприятно, и вы не можете не чувствовать, что используете неправильные инструменты для работы.

После преобразования в HTML те же инструменты-скребки можно использовать для извлечения данных из того, что часто называют крупнейшим компонентом «темной паутины», то есть данных, скрытых от поиска, находясь в PDF-файле.


Добавить комментарий