01.06.2008 |
Морфологический анализ |
Закончена реализация идеи нового метода обучения морфологического анализатора. Модель анализатора осталась прежней – это набор образцов слов и их канонических форм. Однако синтез этих образцов реализован иначе.
В предыдущем варианте метода обучения (см. здесь) была реализована идея итеративного обобщения на примерах, где каждое слово, помеченное своими морфологическими признаками, рассматривалось в качестве обучающего примера. Такая реализация не гарантировала 100% точности анализа на обучающей выборке, к тому же сам алгоритм оказался достаточно сложным.
В новой версии реализована идея обрезания обратного лучевого дерева по заданному критерию. Обратное лучевое дерево в данном контексте представляет собой лучевое дерево, перед записью в которое слова подвергаются процедуре перевертывания так, что последняя буква слова становится первой, предпоследняя буква – второй и т.д. В такое дерево заносятся все слова обучающей выборки, а затем к нему применяется двухпроходная процедура обрезания. На первом проходе снизу-вверх в каждом узле дерева собирается статистика о числе слов, конец которых совпадает с маршрутом от корня до данного узла. А на втором проходе сверху-вниз выполняется непосредственно синтез образцов. При этом решение о том, можно ли синтезировать образец на основе маршрута от корня до текущего узла принимается, опираясь на собранную статистику данного узла.
В математическом плане здесь реализован метод динамического программирования, позволяющий получить минимум общей суммы длин всех образцов. В практическом плане это приводит к тому, что гарантировано все обучающие примеры будут корректно разобраны обученным анализатором, а общий объем итогового словаря будет меньше в сравнении со словарем, полученным старым методом.
13.03.2008 |
Защита диссертации Симакова К.В. |
13 марта 2008 г состоялась защита диссертации Симакова Константина на соискание ученой степени кандидата технических наук по специальности «Теоретические основы информатики». Тема диссертации – «Модели и методы извлечения знаний из текстов на естественном языке». С авторефератом диссертации можно ознакомиться в разделе «Публикации».
Защита проходила на заседании диссертационного совета в МГТУ им. Н.Э. Баумана, где присутствовали члены диссертационного совета, официальные оппоненты, представители организаций, где выполнялось внедрение результатов диссертации, а также приглашенные гости, проявившие интерес к данной теме.
Представленная работа вызвала большой интерес среди присутствующих, поэтому дискуссия продлилась около двух часов, где прозвучали вопросы, замечания и пожелания по дальнейшему развитию данной темы. Особенный интерес вызвали приложения разработанного метода извлечения знаний из текстов, а также метод обучения, применяемый для формирования лингвистических знаний о текстах в виде правил извлечения. Не обошлось и без вопросов о преимуществах разработанного метода морфологического анализа в сравнении с существующими аналогами.
В целом дискуссия прошла в конструктивном ключе, все высказанные в адрес работы замечания нельзя назвать необоснованными, поэтому они обязательно будут учтены при развитии предложенных в диссертации методов в рамках нашей лаборатории.
Спасибо всем, кто проявил внимание к данной работе. Отдельные слова благодарности адресуем официальным оппонентам, Осипову Геннадию Семеновичу и Шабанову Владиславу Игоревичу, за их обстоятельные выступления, в которых была подчеркнута актуальность данной работы, ее новизна и практическая ценность. Также отдельное спасибо Дмитрию Чернобаеву, Сергею Алексееву и Валентину Стручалину за оказание технической помощи в проведении данного мероприятия.
01.03.2008 |
Web-сервер лаборатории |
Сегодня полностью завершена подготовка всех элементов Web-сервера Лаборатории и выполнен его запуск.
Именно с сегодняшнего дня полностью все элементы Web-сервера запущены в круглосуточном режиме.
Работа по созданию Web-сервера была начата ровно месяц назад - 1 февраля, а сегодня она подошла к своему логическому завершению.
За этот период было много чего сделано, начиная с подготовки аппаратной платформы, обеспечивающей круглосуточное функционирование Web-сайта, и заканчивая разработкой движка для этого сайта.
Большинство проблем, с которыми пришлось столкнуться за этот месяц, в первую очередь, связано с необходимостью обслуживать запросы к Web-сайту на собственных аппаратных средствах.
Напомним, что многие on-line сервисы, находящиеся в настоящий момент в разработке, будут доступны на этом сервере. Эти сервисы выполняют достаточно сложные вычисления, поэтому необходима специализированная аппаратная платформа, которую обычный Internet-провайдер не в состоянии предоставить.
Кроме подготовки аппаратной платформы немало сил было затрачено на разработку самого сайта, в процессе которой дизайн сайта перерабатывался около 5 раз!
В оценке внешнего вида принимали участие не только разработчики, но и сторонние энтузиасты, конструктивную критику которых мы постарались учесть.
Пользуясь случаем, выражаем благодарности всем, кто участвовал в обсуждениях этой работы, давал свои комментарии и дельные предложения.
|
Последние события
26.09.2024 Внедрили подсказки по паспортным данным
20.07.2024 Обработали в облаке более 2 млрд. данных
09.04.2024 Добавили на Ахантере подсказки по реквизитам банков
01.02.2024 Внедрили кадастровые номера квартир, домов и участков
09.01.2024 Добавили координаты адресов для новых регионов
11.07.2023 Внедрили гео-кодер для адресов Казахстана
Архив событий
19.12.2017 Обновили структуру классификатора адресов РФ.
21.09.2017 Внедрили машинное обучение в детекторе ФИО.
20.06.2017 Переделали геокодер и внедрили новую версию на ahunter.ru.
27.01.2017 Запустили в боевом режиме ahunter.ru версии 3.0.
30.11.2016 Запустили в режиме апробации репликацию данных между серверами Ахантера.
Страницы:
« назад
4
5
6
вперед »
|