Особенности наших технологий по извлечению информации из текстов

Морфологический анализ текстов

Данный вид анализа необходим для определения частей речи отдельных слов текста, а также для определения значений их грамматических категорий. Обычно часть речи и грамматические категории объединяются общим термином – морфологические признаки.

В рамках морфологического анализа также выполняется определение канонической (нормальной) формы слова. Например, для имен существительных канонической формой является словоформа в именительном падеже, единственном числе и мужском роде (конечно, при условии, что они у данного слова существуют).

В настоящее время существует множество решений задачи морфологического анализа, однако нами был разработан новый подход, обеспечивающий преодоление основных недостатков существующих аналогов. Например, наш анализатор умеет разбирать слова, содержащие опечатки, а также слова, не принадлежащие словарю русского языка. Это достигается за счет того, что анализатор не использует предопределенные словари, однако по точности разбора он сопоставим с анализаторами словарного типа. Подробнее...

Модель извлечения информации из текстов

Модель извлечения позволяет формулировать правила, накладывающие условия на участки текста, которым должна удовлетворять целевая информация, подлежащая извлечению. Эти правила, по сути, описывают процесс распознавания в сплошном тексте искомых данных.

В основу модели извлечения заложен следующий принцип: контексты употребления целевой информации в текстах подчиняются некоторым закономерностям. Таким образом, зная эти закономерности, можно выполнять извлечение информации, не обладая предопределенным перечнем значений, которые необходимо извлекать. Проще говоря, имея закономерности употребления данных не надо обладать самими данными для уверенного их распознавания в текстах. Такой подход весьма удобен, поскольку позволяет выявлять в текстах не только встречавшуюся ранее информацию (на основе которой получены закономерности ее употребления), но также позволяет извлекать новую информацию, ранее не встречавшуюся.

Для описания такого рода закономерностей и предназначены правила извлечения. В общем виде правило имеет следующий вид: pb ◦ pc ◦ pa, где

  • pb – префиксная часть правила (от англ. before) – накладывает ограничения на контекст, предшествующий извлекаемой информации;
  • pa – постфиксная часть правила (от англ. after) – накладывает ограничения на контекст, следующий за извлекаемой информацией;
  • pc – извлекающая часть правила (от англ. concept) – накладывает ограничения на состав и структуру участка текста, непосредственно содержащего извлекаемую информацию.

Каждая из перечисленных частей правила представляет собой набор условий, объединяемых логическим «И», поэтому извлечение выполняется, только если условия всех частей выполнены. При этом извлекается только та часть текста, которая удовлетворяет условиями извлекающей части pc.

Нами разработан язык описания правил извлечения, в которых можно накладывать как ограничения на орфографические и морфологические признаки слов, так и требовать употребление конкретных (ключевых) слов в контекстах целевой информации. Интерпретатор правил извлечения реализован в виде автомата, на вход которого поступают текстовые фрагменты, а на выходе – извлеченные сегменты. Подробнее...

Метод обучения модели извлечения

Правила извлечения можно описывать вручную, но для этого необходимо стать экспертом предметной области и самостоятельно выявить закономерности, которым подчиняется целевая информация. В некоторых ситуациях это достаточно легко сделать, однако в общем случае ручное написание правил весьма трудоемко и требует глубокого понимания языковых свойств текста, окружающего извлекаемую информацию.

Для упрощения этого процесса нами разработан метод обучения, позволяющий автоматизировать процесс создания правил. В основе этого метода лежит принцип индуктивного машинного обучения. Суть этого принципа заключается в обобщении примеров, подготовленных учителем. В роли учителя выступает человек, который отбирает тексты, содержащие целевую информацию. В отобранных текстах учитель наносит специальную разметку (тэги), выделяя тем самым интересующие фрагменты текста.

Размеченные тексты поступают на вход процедуры обучения, которая на основе анализа свойств текста, окружающего выделенные человеком фрагменты, формирует наилучшее обобщение этих примеров. Это обобщение и отражает те закономерности, которым подчиняются выделенные посредством тэгов участки текста. Подробнее...

Последние события

26.09.2024 Внедрили подсказки по паспортным данным

20.07.2024 Обработали в облаке более 2 млрд. данных

09.04.2024 Добавили на Ахантере подсказки по реквизитам банков

01.02.2024 Внедрили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Архив событий

25.07.2016 Внедрили поддержку кодов ОКАТО, ОКТМО и ФИАС на ahunter.ru.

15.06.2016 Обогатили базу GPS-координат и телефонных номеров.

30.05.2016 Разработали решение DebtorCleanse по стандартизации и унификации контактных данных должников.

11.03.2016 Закончили разрабатывать Lingalign - решение для перевода и интернационализации проектов и веб-сайтов.

10.02.2016 Открыли регистрацию пользователей на сервисе ahunter.ru.

20.01.2016 Добавили возможности транслитерации и перевода адресов в ahunter.ru.

Страницы: « назад 7 8 9 вперед »