Направления разработок

В настоящий момент в нашей Лаборатории ведется разработка проектов по нескольким направлениям.

  • Извлечение информации из текстов.
  • Морфологический анализ текстов.
  • Орфографический анализ текстов.
  • Машинное обучение для задачи извлечения информации.
  • Нечеткий поиск и индексирование текстов.
  • Снятие неоднозначности извлечения.

Схематично связи между этими направлениями можно отразить следующим образом.

Все представленные проекты, так или иначе, связаны с решением задачи извлечения целевой информации из текстов. Подробнее с которой можно познакомиться здесь.

Морфологический анализатор позволяет определять части речи отдельных слов текста, а также другие морфологические признаки (падеж, род, число и т.д.). В рамках морфологического анализа также выполняется определение канонической (нормальной) формы слова. Особенность нашего морфологического анализатора заключается в его адаптивности, позволяющей точно настроить его на большом наборе текстов. Особенность обученного анализатора заключается в его способности анализировать слова, в написании которых допущены орфографические ошибки.

Направление орфографического анализа решает задачи дополнительной классификации слов, опираясь на особенности их написания. Примером такой классификации является определение принадлежности слова к заданному языку. Кроме этого, в рамках этого направления выполняется разработка методов поиска орфографических ошибок в написании слов.

В рамках машинного обучения для задачи извлечения информации из текстов разрабатываются методы, позволяющие автоматизировать составление правил извлечения. Зачастую ручное составление правил оказывается весьма трудоемким и длительным, поэтому актуальность приобретают инструментальные средства, позволяющие предельно автоматизировать этот процесс, упростив, тем самым работу пользователя. В основу таких инструментов закладываются методы машинного обучения, позволяющие по анализу пользовательских примеров выявить закономерности его поведения и сформировать по ним итоговые правила извлечения. От пользователя в данном случае требуется всего лишь подготовка набора обучающих примеров.

Нечеткий поиск и индексирование текстов кроме непосредственного использования в информационно-поисковых системах также находит применение при решении задачи извлечения информации из текстов. В рамках данного проекта нами разрабатываются структуры данных и соответствующие им методы, позволяющие выполнять исключительно быстрый нечеткий поиск текстовых данных в больших массивах. Такие методы активно используют орфографический анализ слов, что обеспечивает нахождение информации даже, если исходный запрос содержит слова, написанные с опечатками.

В рамках последнего направления нашей деятельности разрабатываются методы снятия неоднозначности извлечения, позволяющие из нескольких альтернатив извлечения выбрать одну единственную. Неоднозначность извлечения возникает практически всегда в любой предметной области, поскольку неоднозначность присуща естественному языку. Тем не менее, это свойство языка не мешает человеку правильно определять смысл конкретной многозначной фразы, что связано со способностью человека снимать неоднозначность, опираясь на некоторые свойства анализируемого текста. Разработка аналогичных методов, реализуемых в виде соответствующего программного обеспечения, и выполняется в рамках наших проектов данного направления.

Текущие проекты

В качестве приложений описанных направлений в настоящий момент разрабатываются и развиваются следующие системы.

  • Охотник за адресами: on-line сервис, выявляющий в произвольных текстах фразы, содержащие почтовые адреса РФ, с одновременной проверкой и восстановлением пропущенных адресных полей, например, почтовых индексов. Кроме того, сервис позволяет проверять и исправлять почтовые адреса в пакетном режиме, а также выполнять анализ одиночного адреса.
  • Распознавание компаний. Система извлечения, находящаяся на стадии разработки, направленная на распознавание в текстах названий ИТ-компаний в контексте выпуска ими новых продуктов.
  • Распознавание персон. Система извлечения, находящаяся на стадии разработки, направленная на распознавание в текстах Ф.И.О. персон и их должностей.

Последние события

27.01.2017 Запустили в боевом режиме ahunter.ru версии 3.0.

30.11.2016 Запустили в режиме апробации репликацию данных между серверами Ахантера.

Архив событий

30.10.2015 Запустили сервис ahunter.ru на новейшем ядре ahunter 2.0.

01.07.2015 Запустили сервис подсказок для ввода адресов в режиме реального времени.

08.06.2015 Завершили большой проект по стандартизации данных контрагентов для компании "ПепсиКо".

03.04.2015 Интегрировали сервер ahunterES в продукты и сервисы компании БФТ.

02.03.2015 Внедрили сервер ahunterES в систему СПАРК.

Страницы: 1 2 3 вперед »