Страницы новостей: « назад 13 14 15
01.06.2008

Морфологический анализ

Закончена реализация идеи нового метода обучения морфологического анализатора. Модель анализатора осталась прежней – это набор образцов слов и их канонических форм. Однако синтез этих образцов реализован иначе.

В предыдущем варианте метода обучения (см. здесь) была реализована идея итеративного обобщения на примерах, где каждое слово, помеченное своими морфологическими признаками, рассматривалось в качестве обучающего примера. Такая реализация не гарантировала 100% точности анализа на обучающей выборке, к тому же сам алгоритм оказался достаточно сложным.

В новой версии реализована идея обрезания обратного лучевого дерева по заданному критерию. Обратное лучевое дерево в данном контексте представляет собой лучевое дерево, перед записью в которое слова подвергаются процедуре перевертывания так, что последняя буква слова становится первой, предпоследняя буква – второй и т.д. В такое дерево заносятся все слова обучающей выборки, а затем к нему применяется двухпроходная процедура обрезания. На первом проходе снизу-вверх в каждом узле дерева собирается статистика о числе слов, конец которых совпадает с маршрутом от корня до данного узла. А на втором проходе сверху-вниз выполняется непосредственно синтез образцов. При этом решение о том, можно ли синтезировать образец на основе маршрута от корня до текущего узла принимается, опираясь на собранную статистику данного узла.

В математическом плане здесь реализован метод динамического программирования, позволяющий получить минимум общей суммы длин всех образцов. В практическом плане это приводит к тому, что гарантировано все обучающие примеры будут корректно разобраны обученным анализатором, а общий объем итогового словаря будет меньше в сравнении со словарем, полученным старым методом.

13.03.2008

Защита диссертации Симакова К.В.

13 марта 2008 г состоялась защита диссертации Симакова Константина на соискание ученой степени кандидата технических наук по специальности «Теоретические основы информатики». Тема диссертации – «Модели и методы извлечения знаний из текстов на естественном языке». С авторефератом диссертации можно ознакомиться в разделе «Публикации».

Защита проходила на заседании диссертационного совета в МГТУ им. Н.Э. Баумана, где присутствовали члены диссертационного совета, официальные оппоненты, представители организаций, где выполнялось внедрение результатов диссертации, а также приглашенные гости, проявившие интерес к данной теме.

Представленная работа вызвала большой интерес среди присутствующих, поэтому дискуссия продлилась около двух часов, где прозвучали вопросы, замечания и пожелания по дальнейшему развитию данной темы. Особенный интерес вызвали приложения разработанного метода извлечения знаний из текстов, а также метод обучения, применяемый для формирования лингвистических знаний о текстах в виде правил извлечения. Не обошлось и без вопросов о преимуществах разработанного метода морфологического анализа в сравнении с существующими аналогами.

В целом дискуссия прошла в конструктивном ключе, все высказанные в адрес работы замечания нельзя назвать необоснованными, поэтому они обязательно будут учтены при развитии предложенных в диссертации методов в рамках нашей лаборатории.

Спасибо всем, кто проявил внимание к данной работе. Отдельные слова благодарности адресуем официальным оппонентам, Осипову Геннадию Семеновичу и Шабанову Владиславу Игоревичу, за их обстоятельные выступления, в которых была подчеркнута актуальность данной работы, ее новизна и практическая ценность. Также отдельное спасибо Дмитрию Чернобаеву, Сергею Алексееву и Валентину Стручалину за оказание технической помощи в проведении данного мероприятия.

01.03.2008

Web-сервер лаборатории

Сегодня полностью завершена подготовка всех элементов Web-сервера Лаборатории и выполнен его запуск. Именно с сегодняшнего дня полностью все элементы Web-сервера запущены в круглосуточном режиме.

Работа по созданию Web-сервера была начата ровно месяц назад - 1 февраля, а сегодня она подошла к своему логическому завершению. За этот период было много чего сделано, начиная с подготовки аппаратной платформы, обеспечивающей круглосуточное функционирование Web-сайта, и заканчивая разработкой движка для этого сайта.

Большинство проблем, с которыми пришлось столкнуться за этот месяц, в первую очередь, связано с необходимостью обслуживать запросы к Web-сайту на собственных аппаратных средствах. Напомним, что многие on-line сервисы, находящиеся в настоящий момент в разработке, будут доступны на этом сервере. Эти сервисы выполняют достаточно сложные вычисления, поэтому необходима специализированная аппаратная платформа, которую обычный Internet-провайдер не в состоянии предоставить.

Кроме подготовки аппаратной платформы немало сил было затрачено на разработку самого сайта, в процессе которой дизайн сайта перерабатывался около 5 раз! В оценке внешнего вида принимали участие не только разработчики, но и сторонние энтузиасты, конструктивную критику которых мы постарались учесть.

Пользуясь случаем, выражаем благодарности всем, кто участвовал в обсуждениях этой работы, давал свои комментарии и дельные предложения.

Страницы новостей: « назад 13 14 15

Последние события

01.02.2024 Добавили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Архив событий

16.09.2020 Запустили распознавание неизвестных ФИО.

27.07.2020 Запустили подсказки по ЕГРИП.

25.06.2020 Добавили в API Ахантера обратный гео-кодер.

02.04.2020 Внедрили на Ахантере подсказки по ЕГРЮЛ.

10.02.2020 Рассказали на конференции Качество данных 2020 про использование ИИ в нашей повседневной работе.

Страницы: 1 2 3 вперед »