NLUlite — база данных NLP


NLUlite — новая база данных синтаксического анализа естественного языка, которая читает английские тексты и затем может отвечать на вопросы о них, была выпущена в качестве общедоступной альфа-версии.

NLUlite

NLULite был создан для удобства разработчиков и состоит из сервера и клиента Python. Вы используете его, передавая ему текст. Текст помечается с использованием частот тегов, указанных в Открытом американском национальном корпусе (OANC). Затем предложения анализируются с использованием частот синтаксического анализа, извлеченных из OANC. «Расстояние» между словами определяется с помощью корпуса Wordnet (3.1). Затем синтаксический анализ улучшается путем выбора предложений, которые имеют больше смысла в соответствии с набором данных Framenet.

В качестве примера того, как это работает, если вы передадите ему текст из Википедии о змеях, он сможет ответить на такие вопросы, как:

  • что умеют змеи?
  • где обитает большинство змей?
  • у какого животного нет конечностей?

Тексты могут включать простые правила вывода, такие как «Если у животного нет конечностей, оно не может ходить», после чего вы (или последующий пользователь) можете спросить «что не ходит» и получить ответ в виде представленного текста и правила вывода, которые вы дали.

Источники данных могут включать веб-страницы и RSS-каналы. Данные хранятся как объекты класса «мудрость». Ваш код может настраивать множество объектов Wisdom, и каждый из них представляет собой отдельную базу знаний. В настоящее время вы можете использовать NLUlite только для анализа текстов размером меньше мегабайта, хотя разработчик планирует увеличить это в будущих версиях. После анализа текста информация сохраняется в формате XML.

NLULite доступен в однопоточной бесплатной версии или в коммерческой многопоточной версии, которая намного быстрее анализирует страницы.

Хотя существует ряд проектов естественного языка, таких как Stanford Natural Language Processing Group и Natural Language Toolkit, эта область все еще развивается.


Добавить комментарий