Страницы новостей: « назад 13 14 15
01.06.2008

Морфологический анализ

Закончена реализация идеи нового метода обучения морфологического анализатора. Модель анализатора осталась прежней – это набор образцов слов и их канонических форм. Однако синтез этих образцов реализован иначе.

В предыдущем варианте метода обучения (см. здесь) была реализована идея итеративного обобщения на примерах, где каждое слово, помеченное своими морфологическими признаками, рассматривалось в качестве обучающего примера. Такая реализация не гарантировала 100% точности анализа на обучающей выборке, к тому же сам алгоритм оказался достаточно сложным.

В новой версии реализована идея обрезания обратного лучевого дерева по заданному критерию. Обратное лучевое дерево в данном контексте представляет собой лучевое дерево, перед записью в которое слова подвергаются процедуре перевертывания так, что последняя буква слова становится первой, предпоследняя буква – второй и т.д. В такое дерево заносятся все слова обучающей выборки, а затем к нему применяется двухпроходная процедура обрезания. На первом проходе снизу-вверх в каждом узле дерева собирается статистика о числе слов, конец которых совпадает с маршрутом от корня до данного узла. А на втором проходе сверху-вниз выполняется непосредственно синтез образцов. При этом решение о том, можно ли синтезировать образец на основе маршрута от корня до текущего узла принимается, опираясь на собранную статистику данного узла.

В математическом плане здесь реализован метод динамического программирования, позволяющий получить минимум общей суммы длин всех образцов. В практическом плане это приводит к тому, что гарантировано все обучающие примеры будут корректно разобраны обученным анализатором, а общий объем итогового словаря будет меньше в сравнении со словарем, полученным старым методом.

13.03.2008

Защита диссертации Симакова К.В.

13 марта 2008 г состоялась защита диссертации Симакова Константина на соискание ученой степени кандидата технических наук по специальности «Теоретические основы информатики». Тема диссертации – «Модели и методы извлечения знаний из текстов на естественном языке». С авторефератом диссертации можно ознакомиться в разделе «Публикации».

Защита проходила на заседании диссертационного совета в МГТУ им. Н.Э. Баумана, где присутствовали члены диссертационного совета, официальные оппоненты, представители организаций, где выполнялось внедрение результатов диссертации, а также приглашенные гости, проявившие интерес к данной теме.

Представленная работа вызвала большой интерес среди присутствующих, поэтому дискуссия продлилась около двух часов, где прозвучали вопросы, замечания и пожелания по дальнейшему развитию данной темы. Особенный интерес вызвали приложения разработанного метода извлечения знаний из текстов, а также метод обучения, применяемый для формирования лингвистических знаний о текстах в виде правил извлечения. Не обошлось и без вопросов о преимуществах разработанного метода морфологического анализа в сравнении с существующими аналогами.

В целом дискуссия прошла в конструктивном ключе, все высказанные в адрес работы замечания нельзя назвать необоснованными, поэтому они обязательно будут учтены при развитии предложенных в диссертации методов в рамках нашей лаборатории.

Спасибо всем, кто проявил внимание к данной работе. Отдельные слова благодарности адресуем официальным оппонентам, Осипову Геннадию Семеновичу и Шабанову Владиславу Игоревичу, за их обстоятельные выступления, в которых была подчеркнута актуальность данной работы, ее новизна и практическая ценность. Также отдельное спасибо Дмитрию Чернобаеву, Сергею Алексееву и Валентину Стручалину за оказание технической помощи в проведении данного мероприятия.

01.03.2008

Web-сервер лаборатории

Сегодня полностью завершена подготовка всех элементов Web-сервера Лаборатории и выполнен его запуск. Именно с сегодняшнего дня полностью все элементы Web-сервера запущены в круглосуточном режиме.

Работа по созданию Web-сервера была начата ровно месяц назад - 1 февраля, а сегодня она подошла к своему логическому завершению. За этот период было много чего сделано, начиная с подготовки аппаратной платформы, обеспечивающей круглосуточное функционирование Web-сайта, и заканчивая разработкой движка для этого сайта.

Большинство проблем, с которыми пришлось столкнуться за этот месяц, в первую очередь, связано с необходимостью обслуживать запросы к Web-сайту на собственных аппаратных средствах. Напомним, что многие on-line сервисы, находящиеся в настоящий момент в разработке, будут доступны на этом сервере. Эти сервисы выполняют достаточно сложные вычисления, поэтому необходима специализированная аппаратная платформа, которую обычный Internet-провайдер не в состоянии предоставить.

Кроме подготовки аппаратной платформы немало сил было затрачено на разработку самого сайта, в процессе которой дизайн сайта перерабатывался около 5 раз! В оценке внешнего вида принимали участие не только разработчики, но и сторонние энтузиасты, конструктивную критику которых мы постарались учесть.

Пользуясь случаем, выражаем благодарности всем, кто участвовал в обсуждениях этой работы, давал свои комментарии и дельные предложения.

Страницы новостей: « назад 13 14 15

Последние события

26.09.2024 Внедрили подсказки по паспортным данным

20.07.2024 Обработали в облаке более 2 млрд. данных

09.04.2024 Добавили на Ахантере подсказки по реквизитам банков

01.02.2024 Внедрили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Архив событий

20.11.2018 Добавили на Ахантере поддержку часовых зон и кольцевых дорог

18.09.2018 Добавили на Ахантере поддержку городских районов, станций метро и наземного транспорта.

15.08.2018 Запустили крупное обновление геокодера на Ахантере.

20.06.2018 Добавили дискретные подсказки для адресов на ahunter.ru. Для отображения подсказок сделали новый JS-плагин.

03.05.2018 На ahunter.ru в подсказках для адресов добавили выдачу номеров домов, корпусов, строений и квартир.

29.03.2018 Запустили Ахантер 4.0.

Страницы: « назад 4 5 6 вперед »