Направления разработок
В настоящий момент в нашей Лаборатории ведется разработка проектов по нескольким направлениям.
- Извлечение информации из текстов.
- Морфологический анализ текстов.
- Орфографический анализ текстов.
- Машинное обучение для задачи извлечения информации.
- Нечеткий поиск и индексирование текстов.
- Снятие неоднозначности извлечения.
Схематично связи между этими направлениями можно отразить следующим образом.
Все представленные проекты, так или иначе, связаны с решением задачи извлечения целевой информации из текстов.
Подробнее с которой можно познакомиться здесь.
Морфологический анализатор позволяет определять части речи отдельных слов текста, а также другие морфологические признаки (падеж, род, число и т.д.). В рамках морфологического анализа также выполняется определение канонической (нормальной) формы слова. Особенность нашего морфологического анализатора заключается в его адаптивности, позволяющей точно настроить его на большом наборе текстов. Особенность обученного анализатора заключается в его способности анализировать слова, в написании которых допущены орфографические ошибки.
Направление орфографического анализа решает задачи дополнительной классификации слов, опираясь на особенности их написания. Примером такой классификации является определение принадлежности слова к заданному языку. Кроме этого, в рамках этого направления выполняется разработка методов поиска орфографических ошибок в написании слов.
В рамках машинного обучения для задачи извлечения информации из текстов разрабатываются методы, позволяющие автоматизировать составление правил извлечения. Зачастую ручное составление правил оказывается весьма трудоемким и длительным, поэтому актуальность приобретают инструментальные средства, позволяющие предельно автоматизировать этот процесс, упростив, тем самым работу пользователя. В основу таких инструментов закладываются методы машинного обучения, позволяющие по анализу пользовательских примеров выявить закономерности его поведения и сформировать по ним итоговые правила извлечения. От пользователя в данном случае требуется всего лишь подготовка набора обучающих примеров.
Нечеткий поиск и индексирование текстов кроме непосредственного использования в информационно-поисковых системах также находит применение при решении задачи извлечения информации из текстов. В рамках данного проекта нами разрабатываются структуры данных и соответствующие им методы, позволяющие выполнять исключительно быстрый нечеткий поиск текстовых данных в больших массивах. Такие методы активно используют орфографический анализ слов, что обеспечивает нахождение информации даже, если исходный запрос содержит слова, написанные с опечатками.
В рамках последнего направления нашей деятельности разрабатываются методы снятия неоднозначности извлечения, позволяющие из нескольких альтернатив извлечения выбрать одну единственную. Неоднозначность извлечения возникает практически всегда в любой предметной области, поскольку неоднозначность присуща естественному языку. Тем не менее, это свойство языка не мешает человеку правильно определять смысл конкретной многозначной фразы, что связано со способностью человека снимать неоднозначность, опираясь на некоторые свойства анализируемого текста. Разработка аналогичных методов, реализуемых в виде соответствующего программного обеспечения, и выполняется в рамках наших проектов данного направления.
Текущие проекты
В качестве приложений описанных направлений в настоящий момент разрабатываются и развиваются следующие системы.
- Охотник за адресами: on-line сервис, выявляющий в произвольных текстах фразы, содержащие почтовые адреса РФ, с одновременной проверкой и восстановлением пропущенных адресных полей, например, почтовых индексов. Кроме того, сервис позволяет проверять и исправлять почтовые адреса в пакетном режиме, а также выполнять анализ одиночного адреса.
- Распознавание компаний. Система извлечения, находящаяся на стадии разработки, направленная на распознавание в текстах названий ИТ-компаний в контексте выпуска ими новых продуктов.
- Распознавание персон. Система извлечения, находящаяся на стадии разработки, направленная на распознавание в текстах Ф.И.О. персон и их должностей.
|
Последние события
26.09.2024 Внедрили подсказки по паспортным данным
20.07.2024 Обработали в облаке более 2 млрд. данных
09.04.2024 Добавили на Ахантере подсказки по реквизитам банков
01.02.2024 Внедрили кадастровые номера квартир, домов и участков
09.01.2024 Добавили координаты адресов для новых регионов
11.07.2023 Внедрили гео-кодер для адресов Казахстана
Архив событий
16.09.2020 Запустили распознавание неизвестных ФИО.
27.07.2020 Запустили подсказки по ЕГРИП.
25.06.2020 Добавили в API Ахантера обратный гео-кодер.
02.04.2020 Внедрили на Ахантере подсказки по ЕГРЮЛ.
10.02.2020 Рассказали на конференции Качество данных 2020 про использование ИИ в нашей повседневной работе.
Страницы:
1
2
3
вперед »
|