Страницы новостей: « назад 9
01.06.2008

Морфологический анализ

Закончена реализация идеи нового метода обучения морфологического анализатора. Модель анализатора осталась прежней – это набор образцов слов и их канонических форм. Однако синтез этих образцов реализован иначе.

В предыдущем варианте метода обучения (см. здесь) была реализована идея итеративного обобщения на примерах, где каждое слово, помеченное своими морфологическими признаками, рассматривалось в качестве обучающего примера. Такая реализация не гарантировала 100% точности анализа на обучающей выборке, к тому же сам алгоритм оказался достаточно сложным.

В новой версии реализована идея обрезания обратного лучевого дерева по заданному критерию. Обратное лучевое дерево в данном контексте представляет собой лучевое дерево, перед записью в которое слова подвергаются процедуре перевертывания так, что последняя буква слова становится первой, предпоследняя буква – второй и т.д. В такое дерево заносятся все слова обучающей выборки, а затем к нему применяется двухпроходная процедура обрезания. На первом проходе снизу-вверх в каждом узле дерева собирается статистика о числе слов, конец которых совпадает с маршрутом от корня до данного узла. А на втором проходе сверху-вниз выполняется непосредственно синтез образцов. При этом решение о том, можно ли синтезировать образец на основе маршрута от корня до текущего узла принимается, опираясь на собранную статистику данного узла.

В математическом плане здесь реализован метод динамического программирования, позволяющий получить минимум общей суммы длин всех образцов. В практическом плане это приводит к тому, что гарантировано все обучающие примеры будут корректно разобраны обученным анализатором, а общий объем итогового словаря будет меньше в сравнении со словарем, полученным старым методом.

13.03.2008

Защита диссертации Симакова К.В.

13 марта 2008 г состоялась защита диссертации Симакова Константина на соискание ученой степени кандидата технических наук по специальности «Теоретические основы информатики». Тема диссертации – «Модели и методы извлечения знаний из текстов на естественном языке». С авторефератом диссертации можно ознакомиться в разделе «Публикации».

Защита проходила на заседании диссертационного совета в МГТУ им. Н.Э. Баумана, где присутствовали члены диссертационного совета, официальные оппоненты, представители организаций, где выполнялось внедрение результатов диссертации, а также приглашенные гости, проявившие интерес к данной теме.

Представленная работа вызвала большой интерес среди присутствующих, поэтому дискуссия продлилась около двух часов, где прозвучали вопросы, замечания и пожелания по дальнейшему развитию данной темы. Особенный интерес вызвали приложения разработанного метода извлечения знаний из текстов, а также метод обучения, применяемый для формирования лингвистических знаний о текстах в виде правил извлечения. Не обошлось и без вопросов о преимуществах разработанного метода морфологического анализа в сравнении с существующими аналогами.

В целом дискуссия прошла в конструктивном ключе, все высказанные в адрес работы замечания нельзя назвать необоснованными, поэтому они обязательно будут учтены при развитии предложенных в диссертации методов в рамках нашей лаборатории.

Спасибо всем, кто проявил внимание к данной работе. Отдельные слова благодарности адресуем официальным оппонентам, Осипову Геннадию Семеновичу и Шабанову Владиславу Игоревичу, за их обстоятельные выступления, в которых была подчеркнута актуальность данной работы, ее новизна и практическая ценность. Также отдельное спасибо Дмитрию Чернобаеву, Сергею Алексееву и Валентину Стручалину за оказание технической помощи в проведении данного мероприятия.

01.03.2008

Web-сервер лаборатории

Сегодня полностью завершена подготовка всех элементов Web-сервера Лаборатории и выполнен его запуск. Именно с сегодняшнего дня полностью все элементы Web-сервера запущены в круглосуточном режиме.

Работа по созданию Web-сервера была начата ровно месяц назад - 1 февраля, а сегодня она подошла к своему логическому завершению. За этот период было много чего сделано, начиная с подготовки аппаратной платформы, обеспечивающей круглосуточное функционирование Web-сайта, и заканчивая разработкой движка для этого сайта.

Большинство проблем, с которыми пришлось столкнуться за этот месяц, в первую очередь, связано с необходимостью обслуживать запросы к Web-сайту на собственных аппаратных средствах. Напомним, что многие on-line сервисы, находящиеся в настоящий момент в разработке, будут доступны на этом сервере. Эти сервисы выполняют достаточно сложные вычисления, поэтому необходима специализированная аппаратная платформа, которую обычный Internet-провайдер не в состоянии предоставить.

Кроме подготовки аппаратной платформы немало сил было затрачено на разработку самого сайта, в процессе которой дизайн сайта перерабатывался около 5 раз! В оценке внешнего вида принимали участие не только разработчики, но и сторонние энтузиасты, конструктивную критику которых мы постарались учесть.

Пользуясь случаем, выражаем благодарности всем, кто участвовал в обсуждениях этой работы, давал свои комментарии и дельные предложения.

Страницы новостей: « назад 9

Последние события

27.01.2017 Запустили в боевом режиме ahunter.ru версии 3.0.

30.11.2016 Запустили в режиме апробации репликацию данных между серверами Ахантера.

Архив событий

29.11.2014 Разработали геокодер для адресов РФ. Внедрили геокодер на сервисе ahunter.ru.

11.08.2014 В рамках R&D направления разработали систему распознавания пола персоны по анализу текста ее биографии.

04.06.2014 Внедрили комплексное решение по стандартизации адресных данных ahunterES в связке с ahunterPro в ОАО Банк "Центр-инвест".

09.04.2014 Внедрили серверное решение по стандартизации клиентских данных ahunterES в ЗАО "Русский Стандарт Страхование".

17.03.2014 Расширили API у продуктов ahunter. Теперь можно обрабатывать пакеты комплексных контактных записей из нескольких адресов и телефонов.

18.02.2014 Выпустили версию 1.7 системы "Охотник за адресами". Сервис ahunter.ru также перевели на новую версию. Система стала работать быстрее в полтора раза.

15.01.2014 Завершили государственный проект по обогащению КЛАДР и ФИАС на основе данных, представленных в кадастре недвижимости.

Страницы: 1 2 3 вперед »