Особенности наших технологий по извлечению информации из текстов

Морфологический анализ текстов

Данный вид анализа необходим для определения частей речи отдельных слов текста, а также для определения значений их грамматических категорий. Обычно часть речи и грамматические категории объединяются общим термином – морфологические признаки.

В рамках морфологического анализа также выполняется определение канонической (нормальной) формы слова. Например, для имен существительных канонической формой является словоформа в именительном падеже, единственном числе и мужском роде (конечно, при условии, что они у данного слова существуют).

В настоящее время существует множество решений задачи морфологического анализа, однако нами был разработан новый подход, обеспечивающий преодоление основных недостатков существующих аналогов. Например, наш анализатор умеет разбирать слова, содержащие опечатки, а также слова, не принадлежащие словарю русского языка. Это достигается за счет того, что анализатор не использует предопределенные словари, однако по точности разбора он сопоставим с анализаторами словарного типа. Подробнее...

Модель извлечения информации из текстов

Модель извлечения позволяет формулировать правила, накладывающие условия на участки текста, которым должна удовлетворять целевая информация, подлежащая извлечению. Эти правила, по сути, описывают процесс распознавания в сплошном тексте искомых данных.

В основу модели извлечения заложен следующий принцип: контексты употребления целевой информации в текстах подчиняются некоторым закономерностям. Таким образом, зная эти закономерности, можно выполнять извлечение информации, не обладая предопределенным перечнем значений, которые необходимо извлекать. Проще говоря, имея закономерности употребления данных не надо обладать самими данными для уверенного их распознавания в текстах. Такой подход весьма удобен, поскольку позволяет выявлять в текстах не только встречавшуюся ранее информацию (на основе которой получены закономерности ее употребления), но также позволяет извлекать новую информацию, ранее не встречавшуюся.

Для описания такого рода закономерностей и предназначены правила извлечения. В общем виде правило имеет следующий вид: pb ◦ pc ◦ pa, где

  • pb – префиксная часть правила (от англ. before) – накладывает ограничения на контекст, предшествующий извлекаемой информации;
  • pa – постфиксная часть правила (от англ. after) – накладывает ограничения на контекст, следующий за извлекаемой информацией;
  • pc – извлекающая часть правила (от англ. concept) – накладывает ограничения на состав и структуру участка текста, непосредственно содержащего извлекаемую информацию.

Каждая из перечисленных частей правила представляет собой набор условий, объединяемых логическим «И», поэтому извлечение выполняется, только если условия всех частей выполнены. При этом извлекается только та часть текста, которая удовлетворяет условиями извлекающей части pc.

Нами разработан язык описания правил извлечения, в которых можно накладывать как ограничения на орфографические и морфологические признаки слов, так и требовать употребление конкретных (ключевых) слов в контекстах целевой информации. Интерпретатор правил извлечения реализован в виде автомата, на вход которого поступают текстовые фрагменты, а на выходе – извлеченные сегменты. Подробнее...

Метод обучения модели извлечения

Правила извлечения можно описывать вручную, но для этого необходимо стать экспертом предметной области и самостоятельно выявить закономерности, которым подчиняется целевая информация. В некоторых ситуациях это достаточно легко сделать, однако в общем случае ручное написание правил весьма трудоемко и требует глубокого понимания языковых свойств текста, окружающего извлекаемую информацию.

Для упрощения этого процесса нами разработан метод обучения, позволяющий автоматизировать процесс создания правил. В основе этого метода лежит принцип индуктивного машинного обучения. Суть этого принципа заключается в обобщении примеров, подготовленных учителем. В роли учителя выступает человек, который отбирает тексты, содержащие целевую информацию. В отобранных текстах учитель наносит специальную разметку (тэги), выделяя тем самым интересующие фрагменты текста.

Размеченные тексты поступают на вход процедуры обучения, которая на основе анализа свойств текста, окружающего выделенные человеком фрагменты, формирует наилучшее обобщение этих примеров. Это обобщение и отражает те закономерности, которым подчиняются выделенные посредством тэгов участки текста. Подробнее...

Последние события

27.01.2017 Запустили в боевом режиме ahunter.ru версии 3.0.

30.11.2016 Запустили в режиме апробации репликацию данных между серверами Ахантера.

Архив событий

29.11.2013 В журнале "Открытые системы" опубликовали новую статью, посвященную проблемам очистки адресных данных и обогащению адресных баз.

01.11.2013 Запустили продукт ahunterPro в эксплуатацию в ОАО "ОТП Банк".

15.10.2013 Выпустили новый продукт по очистке адресных данных ahunterPro. Продукт ориентирован на финансовый и банковский сектор.

10.07.2013 Расширили текущее адресное хранилище «Охотник за адресами» на 7% в сравнении с актуальной версией КЛАДР.

11.04.2013 Начали разрабатывать технологию пополнения справочника КЛАДР на основе сторонних источников адресных данных.

01.02.2013 Запустили новый раздел "Навигатор" на сервисе ahunter.ru.

Страницы: « назад 4 5 6 вперед »