Страницы новостей: « назад 5 6 7 8 вперед »
26.09.2009

Участие в конференции RCDL'2009

Всероссийская научная конференция RCDL охватывает широкий круг проблем, в частности, связанных с вопросами поиска, обнаружения, извлечения и анализа текстовых данных. Конференция является ежегодной, и каждый год организаторы стараются расширить географию ее проведения. В этом году местом проведения был выбран город Петрозаводск. Конференция проводилась с 17 по 21 сентября при поддержке Карельского Научного Центра РАН. В отличие от предыдущих лет, в этот раз вопросам извлечения информации из текстов была посвящена отдельная секция, в которой мы приняли непосредственное участие.

Научно-исследовательская работа, результаты которой докладывались нами в этом году на RCDL, посвящена использованию методов машинного обучения для распознавания в текстах структур данных с использованием эталонной базы. Такие базы данных могут содержать, например, почтовые адреса, названия компаний, ФИО и должности, телефоны, названия продуктов и т.п. Общим свойством этих баз является априорность, т.е. возможность их получения независимо от текстов предметной области, что фактически позволяет построить систему извлечения без глубокого анализа целевых текстов, в которых эти структуры будут распознаваться. Примером такой системы извлечения является «Охотник за адресами», позволяющий распознавать в текстах почтовые адреса России, дополнительно «Охотник» выполняет проверку, исправление и нормализацию почтовых адресов.

В нашей работе мы провели сравнительный анализ шести методов машинного обучения применительно к поставленной задаче, каждый из которых был проверен экспериментально на реальных данных, взятых из журналов работы «Охотника за адресами». Модификация одного из наиболее удачных методов в настоящий момент внедряется в очередную версию боевой системы, доступной on-line по адресу www.ahunter.ru.

Подробнее с результатами проведенных исследований можно ознакомиться в статье «Методы машинного обучения в задачах извлечения информации из текстов по эталону», опубликованной в сборнике трудов конференции RCDL, либо в разделе «Публикации» нашего сайта.

01.08.2009

Вышла новая версия «Охотника за адресами»

В версии 1.1.2 «Охотника за адресами» добавлена возможность пакетной проверки и исправления почтовых адресов. Функция сервиса доступна по адресу www.ahunter.ru/site/address/batch.

На вход сервис получает текст с группой адресов, каждый из которых представлен в строковой форме так, что в каждой строке текста представлен один почтовый адрес, подлежащий проверке и исправлению. В качестве результата «Охотник» возвращает два списка.

В первом списке представлены исправленные адреса. Здесь каждой строке исходного текста поставлен в соответствие исправленный вариант адреса по КЛАДР.

Дополнительно по каждому почтовому адресу возвращается время его проверки и исправления, а также число альтернативных вариантов, найденных в КЛАДР и соответствующих исходной строке почтового адреса. Число альтернативных вариантов может помочь в случае, если предложенный «Охотником» адрес, с точки зрения пользователя, не соответствует содержимому оригинальной строки. В этом случае, данную строку можно проверить в режиме «Анализ адреса» и выбрать правильный вариант из предложенного списка альтернатив.

Во втором списке перечислены почтовые адреса, исправить которые не удалось. По сути, здесь представлены строки, по которым не удалось подобрать ни одного подходящего почтового адреса в КЛАДР.

Как правило, такие ситуации возникают из-за того, что в строке приводится недостаточно информации, например, указан только город и номер дома, либо указан регион и улица. Также не исключена ситуация, когда в КЛАДР просто отсутствует информация по данному почтовому адресу.

Также сервис возвращает общую статистику проверенного пакета. Здесь отражено общее количество проверенных почтовых адресов, количество исправленных почтовых адресов и количество адресов, исправить которые не удалось.

Дополнительно в новой версии выполнено улучшение, позволяющее «Охотнику» правильно выбирать итоговый почтовый адрес из КЛАДР при наличии нескольких вариантов, соответствующих исходной строке, содержащей почтовый адрес, подлежащий проверке и исправлению.

11.01.2009

Запущен «Охотник за адресами»

В период новогодних праздников был запущен в тестовом режиме сервис «Охотник за адресами». Основная задача «Охотника» заключается в извлечении российских почтовых адресов из текстов, написанных на естественном языке в произвольной форме. Вместе с тем, сервис можно просто использовать для проверка почтовых адресов. Сервис доступен по адресу www.ahunter.ru. Интерфейс его весьма прост: нужно ввести в поле ввода некоторый текст и нажать кнопку «Найти». Обычно пользователи не вводят текст, а копируют его откуда-нибудь, например, из своих документов (счета-фактуры и пр.), либо из Web-страниц.

Сервис запущен для тестирования и отладки новой концепции извлечения информации, в основе которой лежит идея не шаблонного распознавания, а распознавания по эталону. Данная идея предполагает наличие исчерпывающей эталонной базы, в которой хранятся в канонической форме все структуры, подлежащие извлечению. В случае с «Охотником» такой эталонной базой является классификатор адресов России – КЛАДР. Извлечение почтовых адресов является частным случаем распознавания топонимов в текстах, которое весьма сложно выполнить без наличия эталонов. Эта же идея может быть реализована и на другой предметной области, например, для извлечения простых и составных имен из текстов.

Особенность такого вида извлечения заключается в том, что целевая информация в тексте может быть записана в произвольной форме: в другом падеже, числе и роде, а также с орфографическими ошибками в сравнении с ее канонической формой. Более того, порядок следования слов в тексте и в эталонной базе может быть различным. В итоге извлечение по эталону превращается в задачу распознавания в условиях зашумленных входных данных (т.е., содержащих ошибки и неточности). Данная проблема сформулирована и решена в терминах задачи снятия неоднозначности так, что для заданного фрагмента текста нечетким поиском по эталонной базе подбирается несколько вариантов извлечения, после чего включается фильтр, отбирающий наиболее предпочтительный из них.

Дополнительным достоинством такого подхода является возможность исправить на лету в процессе извлечения ошибки, а также восстанавливать пропущенные данные. Так, «Охотником» в процессе распознавания может быть восстановлено более половины полей адреса, в том числе и его почтовый индекс.

В настоящий момент ведется доработка метода обучения на примерах, накопление которых выполняется в рамках открытого on-line тестирования «Охотника». Обучение призвано упростить задачу подстройки фильтра, снимающего неоднозначность извлечения.

Страницы новостей: « назад 5 6 7 8 вперед »

Последние события

27.01.2017 Запустили в боевом режиме ahunter.ru версии 3.0.

30.11.2016 Запустили в режиме апробации репликацию данных между серверами Ахантера.

Архив событий

25.07.2016 Внедрили поддержку кодов ОКАТО, ОКТМО и ФИАС на ahunter.ru.

15.06.2016 Обогатили базу GPS-координат и телефонных номеров.

30.05.2016 Разработали решение DebtorCleanse по стандартизации и унификации контактных данных должников.

11.03.2016 Закончили разрабатывать Lingalign - решение для перевода и интернационализации проектов и веб-сайтов.

10.02.2016 Открыли регистрацию пользователей на сервисе ahunter.ru.

20.01.2016 Добавили возможности транслитерации и перевода адресов в ahunter.ru.

Страницы: 1 2 3 вперед »