Закончена реализация идеи нового метода обучения морфологического анализатора. Модель анализатора осталась прежней – это набор образцов слов и их канонических форм. Однако синтез этих образцов реализован иначе.
В предыдущем варианте метода обучения (см. здесь) была реализована идея итеративного обобщения на примерах, где каждое слово, помеченное своими морфологическими признаками, рассматривалось в качестве обучающего примера. Такая реализация не гарантировала 100% точности анализа на обучающей выборке, к тому же сам алгоритм оказался достаточно сложным.
В новой версии реализована идея обрезания обратного лучевого дерева по заданному критерию. Обратное лучевое дерево в данном контексте представляет собой лучевое дерево, перед записью в которое слова подвергаются процедуре перевертывания так, что последняя буква слова становится первой, предпоследняя буква – второй и т.д. В такое дерево заносятся все слова обучающей выборки, а затем к нему применяется двухпроходная процедура обрезания. На первом проходе снизу-вверх в каждом узле дерева собирается статистика о числе слов, конец которых совпадает с маршрутом от корня до данного узла. А на втором проходе сверху-вниз выполняется непосредственно синтез образцов. При этом решение о том, можно ли синтезировать образец на основе маршрута от корня до текущего узла принимается, опираясь на собранную статистику данного узла.
В математическом плане здесь реализован метод динамического программирования, позволяющий получить минимум общей суммы длин всех образцов. В практическом плане это приводит к тому, что гарантировано все обучающие примеры будут корректно разобраны обученным анализатором, а общий объем итогового словаря будет меньше в сравнении со словарем, полученным старым методом.
13 марта 2008 г состоялась защита диссертации Симакова Константина на соискание ученой степени кандидата технических наук по специальности «Теоретические основы информатики». Тема диссертации – «Модели и методы извлечения знаний из текстов на естественном языке». С авторефератом диссертации можно ознакомиться в разделе «Публикации».
Защита проходила на заседании диссертационного совета в МГТУ им. Н.Э. Баумана, где присутствовали члены диссертационного совета, официальные оппоненты, представители организаций, где выполнялось внедрение результатов диссертации, а также приглашенные гости, проявившие интерес к данной теме.
Представленная работа вызвала большой интерес среди присутствующих, поэтому дискуссия продлилась около двух часов, где прозвучали вопросы, замечания и пожелания по дальнейшему развитию данной темы. Особенный интерес вызвали приложения разработанного метода извлечения знаний из текстов, а также метод обучения, применяемый для формирования лингвистических знаний о текстах в виде правил извлечения. Не обошлось и без вопросов о преимуществах разработанного метода морфологического анализа в сравнении с существующими аналогами.
В целом дискуссия прошла в конструктивном ключе, все высказанные в адрес работы замечания нельзя назвать необоснованными, поэтому они обязательно будут учтены при развитии предложенных в диссертации методов в рамках нашей лаборатории.
Спасибо всем, кто проявил внимание к данной работе. Отдельные слова благодарности адресуем официальным оппонентам, Осипову Геннадию Семеновичу и Шабанову Владиславу Игоревичу, за их обстоятельные выступления, в которых была подчеркнута актуальность данной работы, ее новизна и практическая ценность. Также отдельное спасибо Дмитрию Чернобаеву, Сергею Алексееву и Валентину Стручалину за оказание технической помощи в проведении данного мероприятия.
Сегодня полностью завершена подготовка всех элементов Web-сервера Лаборатории и выполнен его запуск. Именно с сегодняшнего дня полностью все элементы Web-сервера запущены в круглосуточном режиме.
Работа по созданию Web-сервера была начата ровно месяц назад - 1 февраля, а сегодня она подошла к своему логическому завершению. За этот период было много чего сделано, начиная с подготовки аппаратной платформы, обеспечивающей круглосуточное функционирование Web-сайта, и заканчивая разработкой движка для этого сайта.
Большинство проблем, с которыми пришлось столкнуться за этот месяц, в первую очередь, связано с необходимостью обслуживать запросы к Web-сайту на собственных аппаратных средствах. Напомним, что многие on-line сервисы, находящиеся в настоящий момент в разработке, будут доступны на этом сервере. Эти сервисы выполняют достаточно сложные вычисления, поэтому необходима специализированная аппаратная платформа, которую обычный Internet-провайдер не в состоянии предоставить.
Кроме подготовки аппаратной платформы немало сил было затрачено на разработку самого сайта, в процессе которой дизайн сайта перерабатывался около 5 раз! В оценке внешнего вида принимали участие не только разработчики, но и сторонние энтузиасты, конструктивную критику которых мы постарались учесть.
Пользуясь случаем, выражаем благодарности всем, кто участвовал в обсуждениях этой работы, давал свои комментарии и дельные предложения.
24.09.2025 В гео-кодере Ахантера увеличили число детализированных ответов до дома в два раза
20.03.2025 Доработали подсказки по ЕГРЮЛ, расширили информацию об адресе компаний
15.03.2011Сервис "Охотник за адресами" успешно прошел Platform Ready тесты для Windows Server 2008 R2.
27.12.2010Запущен партнерский раздел сервиса "Охотник за адресами". Проверять и исправлять базы контактных данных стало еще проще!
27.07.2010Сервис "Охотник за адресами" адаптирован к платформе HP-UX на базе Intel Itanium 2 и успешно прошел тесты на серверах HP класса Integrity.
21.09.2009В раздел "Публикации" добавлена статья "Методы машинного обучения в задачах извлечения информации из текстов по эталону", основные положения которой докладывались и обсуждались на конференции RCDL'2009.