Коротко о лаборатории

Мы занимаемся извлечением структурированной информации из неструктурированных и слабоструктурированных текстов. Данная задача актуальна повсеместно, поскольку основные знания, накопленные к настоящему моменту, представлены текстами.

Текстовая форма представления знаний является естественной для человека, но совершенно не подходит для автоматизированной обработки компьютерными системами, которые традиционно предназначены для обработки больших объемов структурированных данных. Частично данную проблему решают информационно-поисковые системы, однако большинство систем данного класса оперирует на уровне отдельных слов текста, не заглядывая глубже - в его содержимое.

Чтобы информация, заложенная в текстах, стала пригодной для любого вида анализа, необходимо ее извлечь, т.е. преобразовать из неявного вида в явный. Хотя для человека любая текстовая информация является явной, для компьютера явными являются только структуры данных в контексте конкретной предметной области. Таким образом, для автоматизированной обработки компьютерной системе необходимо предоставить не текст, а извлеченные из него структуры данных, типы которых предопределены в предметной области, где оперирует данная система. Примерами таких структур являются: Ф.И.О. сотрудников компании, номера их телефонов, реальные и электронные почтовые адреса, названия компаний и их продуктов, суммы сделок и т.д.

Именно разработке соответствующих методов извлечения, их программной реализации и коммерческому внедрению в ИТ-инфраструктурах организаций посвящена деятельность нашей лаборатории.

О лаборатории на примере

Дадим характеристику нашей деятельности на примере.

Предположим, что вы занимаетесь производством ноутбуков. Поскольку в данном секторе рынка представлена не только ваша компания, вы заинтересованы в том, чтобы предлагать продукты, по крайней мере, не уступающие по своим свойствам аналогам конкурентов. Несомненно, вы предлагаете качественные ноутбуки, однако конкуренты не дремлют, они выпускают новые продукты, снижают цены на старые, предлагают скидки и т.д., в общем, пытаются укрепить свое положение на рынке. Чтобы предпринимать адекватные меры вам необходимо располагать полной информацией об активности конкурентов: их продуктах и услугах. Возникает вопрос – как получить эту информацию в полном объеме.

Этого можно добиться, если учесть, что деятельность любой компании, продвигающей свои продукты, отражается в анонсах, сообщениях СМИ, а также в рекламных объявлениях, которые находятся в открытом доступе в сети Интернет, откуда можно добыть интересующую информацию. Однако для этого зачастую необходимо «пропустить через себя» большие текстовые массивы, особенно, если вы анализируете активность конкурента за большой период времени.

Возвращаясь к нашему примеру, предположим, что вас интересуют модели ноутбуков, произведенные конкурентной компанией в текущем году, также вас интересует средняя стоимость каждой модели в каждом из кварталов. Отслеживая данную информацию во времени, вы сможете понять, какие шаги предпринимал конкурент, какие при этом ошибки он допускал, какие меры принимал для устранения ошибок. Располагая этой информацией, вы сможете спланировать свою деятельность так, чтобы избежать ошибок конкурента, например, отказавшись от продвижения моделей бизнес-класса в пользу универсальных ноутбуков класса «замена персонального компьютера». Вы также сможете перенять ценовую политику конкурента по успешным моделям ноутбуков и внести коррективы при ценообразовании моделей, которые конкурент продвигает менее успешно.

Эту задачу можно решить при наличии исчерпывающей информации по деятельности конкурента. Эта информация, как правило, собирается по крупинкам, путем просеивания огромного потока текстовых материалов (новостей, анонсов, аналитических заметок и др.), находящихся в открытом доступе. Более того, кроме фильтрации потока текстов необходимо извлечение конкретных данных по названиям, техническим характеристикам, стоимости и классе потребителей продуктов с учетом привязки ко времени начала их продвижения на рынке. Если учесть, что перечисленные данные рассредоточены в обычных текстах, то возникает нетривиальная задача по извлечению этих данных, что совершенно нецелесообразно поручать человеку, логичней эту работу возложить на вычислительную машину.

Резюме. В общем виде охарактеризованная проблема относится к классу информационной разведки, для успешного выполнения которой необходимы методы и алгоритмы, реализованные в виде программ, осуществляющих распознавание в сплошных неструктурированных текстах целевых структур данных без участия человека. Более того, необходимы методы быстрой адаптации данного программного обеспечения под новые условия (например, необходимо нацелить систему извлечения на мониторинг активности нового конкурента).

Другими областями применения подобных технологий являются следующие.

  • Наполнение баз данных. Из текстов извлекаются структуры данных, которые заносятся в реляционную базу данных для проведения комплексного анализа.
  • Построение справочников, тезаурусов и онтологий. Извлечению подлежат отраженные в текстах понятия и отношения между ними, которые могут использоваться при понятийном индексировании текстов для улучшения качества полнотекстового поиска и классификации.
  • Валидация текстов. Извлекаемые из текстов факты могут использоваться для дальнейшего сопоставления с эталонной базой предметной области в целях поиска и исправления предметно-ориентированных ошибок, а также восстановления пропущенных в тексте данных.

Наша лаборатория занимается именно решением означенных проблем, начиная с разработки теоретической базы в виде моделей и методов извлечения, и, заканчивая реализацией этих разработок в виде готовых программных продуктов.

Последние события

26.09.2024 Внедрили подсказки по паспортным данным

20.07.2024 Обработали в облаке более 2 млрд. данных

09.04.2024 Добавили на Ахантере подсказки по реквизитам банков

01.02.2024 Внедрили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Архив событий

16.09.2020 Запустили распознавание неизвестных ФИО.

27.07.2020 Запустили подсказки по ЕГРИП.

25.06.2020 Добавили в API Ахантера обратный гео-кодер.

02.04.2020 Внедрили на Ахантере подсказки по ЕГРЮЛ.

10.02.2020 Рассказали на конференции Качество данных 2020 про использование ИИ в нашей повседневной работе.

Страницы: 1 2 3 вперед »