Google использует ИИ для поиска хороших таблиц


Google перешел от основанного на правилах метода обнаружения полезных данных к технике машинного обучения искусственного интеллекта. Это, плюс граф знаний, дает лучшие результаты поиска.

Какое-то время было очевидно, что следующим шагом поиска должно стать внедрение методов искусственного интеллекта, которые могут взвесить релевантность веб-страницы конкретному запросу. Google Research продвинулась в этом направлении, хотя и в очень нишевой области поиска. В таблицах Google Fusion в течение некоторого времени предлагались средства поиска по таблицам, но в последнее время была предпринята попытка улучшить качество возвращаемых результатов.

Большая проблема Интернета заключается в том, что, хотя мы должны использовать HTML в качестве семантической разметки, то есть для того, чтобы рассказать вам о структуре страницы; большинство веб-страниц по-прежнему используют HTML для управления макетом.
Одним из наиболее заметных виновников этой путаницы является тег

. Предполагается, что это будет использоваться для представления таблиц, состоящих из строк и столбцов данных с заголовками. Однако многие веб-страницы используют

для создания табличного макета, не имеющего отношения к данным. Действительно, типичный тег таблицы, вероятно, будет иметь ячейки данных, которые содержат полные статьи и изображения.
Короче говоря, тег таблицы не является верным признаком того, что вы нашли некоторые данные в виде таблицы.
Проблема Google в том, что некоторые запросы запрашивают таблицы данных, и по уже объясненным причинам бывает трудно различить, что составляет таблицу данных. В прошлом Google использовал набор правил, чтобы попытаться отсеять общие страницы из настоящих таблиц данных. Однако теперь он перешел на использование машинного обучения в форме SVM машины опорных векторов. SVM, который использует Google, немного особенный, поскольку он использует несколько ядер и метод объединения ядер, изобретенный Google Research.
Как только SVM определит, что таблица действительно является таблицей данных, для определения темы и контекста используется недавно представленная сеть знаний Google. Это улучшает качество ответа на любой запрос, запрашивающий данные определенного типа.
Менее важным, но более заметным улучшением является то, что теперь вы можете импортировать таблицы данных, которые вы найдете, прямо в Google Диск в виде таблиц Fusion. Затем вы можете работать с данными и рисовать диаграммы.


Добавить комментарий