Наши публикации

Научно-технические результаты, доведенные до работающих технологий и программной реализации, опубликованы в следующих статьях.

Особенности очистки адресных данных

Аннотация

В статье изложены основные проблемы, связанные с созданием интеллектуальных систем очистки адресных данных, а также с поддержкой их жизненного цикла. Среди ИТ-специалистов бытует мнение о том, что стандартизация почтовых адресов является тривиальной задачей. В данной статье мы пытаемся развенчать данное заблуждение, попутно показывая, что она принадлежит области искусственного интеллекта. В статье обсуждаются модели и методы, применяемые в системах данного класса, на примере очистки адресов Государственного кадастра недвижимости, реализованной на основе программного комплекса "Охотник за адресами".

Опубликовано в журнале

Открытые Cистемы. СУБД – Москва: Издательство «Открытые cистемы», 2013 - №9

Текст статьи

HTML-версия

Ссылка на оригинал
Методы машинного обучения в задачах извлечения информации из текстов по эталону

Аннотация

Работа посвящена решению частного случая задачи извлечения информации из текстов – извлечению по эталону, при котором заранее известны эталонные (канонические) формы всех структур, подлежащих распознаванию в тексте. Основной акцент сделан на методах обучения, позволяющих снимать неоднозначности распознавания.

Опубликовано в сборнике

Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI-ой всероссийской научной конференции (RCDL’2009) – Петрозаводск: КарНЦ РАН, 2009. - С. 237-246

Текст статьи

PDF-версия
Метод кластеризации документов текстовых коллекций и синтеза аннотаций кластеров

Аннотация

В статье изложен нейросетевой метод кластеризации коллекций текстовых документов на основе карт Кохонена. Также предложен метод синтеза аннотаций для формируемых кластеров, в основе которого лежит идея поиска устойчивых словосочетаний.

Опубликовано в сборнике

Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды десятой всероссийской научной конференции (RCDL’2008) – Переславль-Залесский.

Текст статьи

PDF-версия
Модели и методы извлечения знаний из текстов на естественном языке

Аннотация

Автореферат диссертации Симакова К.В. на соискание ученой степени кандидата технических наук по специальности 05.13.17. - "Теоретические основы информатики". Диссертация защищена 13.03.2008 в МГТУ им. Н.Э. Баумана.

Диссертация посвящена разработке моделей и методов, на основе которых предлагается создавать системы извлечения информации из естественно-языковых текстов. Поскольку системы извлечения работают на основе экспертных знаний, в диссертации уделено особенное внимание разработке методов автоматизированного приобретения такого рода знаний самими системами, опираясь на принципы машинного обучения.

Текст статьи

PDF-версия
Модель извлечения знаний из естественно-языковых текстов

Аннотация

В статье изложена математическая модель, позволяющая формализовать процесс извлечения информации из естественно-языковых текстов. В основе модели лежат образцы, предоставляющие возможность накладывать ограничения на обрабатываемые тексты. Образец конструируется из элементов, каждый из которых накладывает ограничения на одно или несколько смежных слов текста. Эти ограничения могут варьироваться в широком диапазоне, начиная от простого перечисления допустимых к употреблению слов и заканчивая классификационными признаками слов, например, морфологическими.

Опубликовано в журнале

Информационные технологии. – 2007. – №12. – С. 57–63.

Текст статьи

PDF-версия
Метод обучения модели извлечения знаний из естественно-языковых текстов

Аннотация

В статье изложен метод обучения модели извлечения знаний из естественно-языковых текстов. Возможность обучения обеспечивается простотой правил извлечения и решеткой лексических ограничений, являющихся ключевыми элементами модели. Метод обучения формирует набор правил на основе обучающих примеров подготовленных человеком-экспертом. Проведен ряд экспериментов, дана оценка зависимости основных показателей качества обученной модели от свойств исходной обучающей выборки.

Опубликовано в журнале

Вестник МГТУ. Приборостроение.–2007. – №3.– С. 75–94.

Текст статьи

PDF-версия
Модель извлечения фактов из естественно-языковых текстов и метод ее обучения

Аннотация

В статье изложена модель извлечения фактов из естественно-языковых текстов и метод ее обучения. Ключевым элементом модели является набор правил извлечения. Метод обучения генерирует набор правил на основе обучающих примеров, подготовленных человеком. Проведен ряд экспериментов, дана оценка зависимости основных показателей качества обученной модели от свойств исходной обучающей выборки.

Опубликовано в сборнике

Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды восьмой всероссийской научной конференции (RCDL’2006) – Ярославль: Ярославский государственный университет, 2006. – С. 252–262.

Текст статьи

PDF-версия
Обучение морфологического анализатора на большой электронной коллекции текстовых документов

Аннотация

В статье изложен метод и алгоритм обучения морфологического анализатора на основе большого текстового массива. В качестве учителя при обучении выступает морфологический анализатор словарного типа. Основная особенность обученного анализатора – способность выполнять разбор неизвестных слов. Проведен ряд экспериментов по оценке свойств алгоритма обучения, в частности свойства обобщения. Приведено сравнение работы обученного анализатора с анализатором словарного типа.

Опубликовано в сборнике

Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды седьмой всероссийской научной конференции – Ярославль: Ярославский государственный университет, 2005. – С.173–181.

Текст статьи

PDF-версия
Автоматизация обнаружения и исправления опечаток в названиях географических объектов для системы семантического контроля документов электронной библиотеки

Аннотация

В статье изложен метод обнаружения и исправления опечаток в названиях географических объектов. Приведена классификация орфографических ошибок, подробно описан метод проверки и алгоритм, реализующий его. Выполнена экспериментальная оценка и даны направления по дальнейшему усовершенствованию предложенного подхода.

Опубликовано в сборнике

Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды девятой всероссийской научной конференции (RCDL’2007) – Переславль-Залесский: Университет города Переславль, 2007. – Т.2. – С. 49–56.

Текст статьи

PDF-версия
Использование технологии Semantic Web в системе поиска несоответствий в текстах документов

Аннотация

В статье изложен ряд технологических решений, принятых при разработке системы выявления несоответствий в текстах редактируемых документов. Для выявления несоответствий в качестве эталона система использует онтологию предметной области. Приведена функциональная схема системы, описана логика работы основных модулей.

Опубликовано в сборнике

Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды восьмой всероссийской научной конференции (RCDL’2006) – Ярославль: Ярославский государственный университет им. П.Г. Демидова, 2006. – С. 263–269.

Текст статьи

PDF-версия
Особенности проектирования модели и онтологии предметной области для поиска противоречий в правовых электронных библиотеках

Аннотация

В статье предложен подход к решению задачи поиска противоречий в правовых текстах. Описана структура модели предметной области и онтологии. Представлены примеры противоречий, предложена их формальная модель и методы выявления, опирающиеся на структуру модели и онтологии.

Опубликовано в сборнике

Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды шестой всероссийской научной конференции (RCDL’2004) – Пущино, 2004. – С. 93–102.

Текст статьи

PDF-версия
Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа

Аннотация

В статье рассмотрены нейросетевые алгоритмы, применяемые в задачах классификации текстов, а так же изложены методы и модели семантического анализа текстов применительно к задаче улучшения качества рубрицирования.

Опубликовано в сборнике

Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды пятой всероссийской научной конференции (RCDL’2003) – Санкт-Петербург: НИИ Химии СПбГУ, 2003. – С. 140–149.

Текст статьи

PDF-версия

Последние события

01.02.2024 Добавили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Архив событий

17.10.2022 Разработали новые ИИ-инструменты для обновления гео-кодера.

01.09.2022 Запустили на Ахантере сервис поиска по ФИАС-guid.

01.08.2022 Добавили проверку квартир в Ахантере при стандартизации адреса.

01.07.2022 Включили Ахантер в реестр отечественного ПО.

11.02.2022 Разработали новый язык правил извлечения из текстов.

Страницы: 1 2 3 вперед »

Бизнес направление

R&D направление

Наши публикации

Особенности очистки адресных данных

Методы машинного обучения в задачах извлечения информации из текстов по эталону

Метод кластеризации документов текстовых коллекций и синтеза аннотаций кластеров

Модели и методы извлечения знаний из текстов на естественном языке

Модель извлечения знаний из естественно-языковых текстов

Метод обучения модели извлечения знаний из естественно-языковых текстов

Модель извлечения фактов из естественно-языковых текстов и метод ее обучения

Обучение морфологического анализатора на большой электронной коллекции текстовых документов

Автоматизация обнаружения и исправления опечаток в названиях географических объектов для системы семантического контроля документов электронной библиотеки

Использование технологии Semantic Web в системе поиска несоответствий в текстах документов

Особенности проектирования модели и онтологии предметной области для поиска противоречий в правовых электронных библиотеках

Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа

Последние события

Архив событий