Страницы новостей: 1 2 3 4 вперед »
21.02.2019

Выполнили масштабные исследования отчеств

От полноты эталонной базы имён, отчеств и фамилий, которую использует Ахантер, напрямую зависит, удастся ли выполнить стандартизацию ФИО у конкретной персоны. Также от полноты зависит, сможет ли наш сервис выдавать подсказки при заполнении пользователями форм с контактными данными. Если в базе Ахантера нет какого-то имени или отчества, то при вводе такого имени или отчества наш сервис не сможет предложить подходящую подсказку. Именно поэтому мы постоянно занимаемся совершенствованием наших эталонных баз с именами, отчествами и фамилиями.

Основной источник новых имён – это рабочие логи Ахантера. Данные, которые сервис когда-либо получил на обработку, но не смог привести в порядок, накапливаются в логах сервиса, после чего мы их анализируем и по возможности пополняем наши эталонные базы. На данный момент у нас накоплено ~17 млн. запросов, из которых мы уже ранее выполнили извлечение новых корректных имён. Всего в рамках той работы мы извлекли ~60 тысяч новых и главное – корректных уникальных имён, принадлежащих различным национальностям. А сейчас мы выполнили такую работу для отчеств.

Основная проблема такой работы – отсеять действительно хорошие новые отчества от явного мусора, а также от известных отчеств, записанных с опечаткой. Для этих целей мы разработали большую интеллектуальную систему. На основе машинного обучения наша система научилась синтезировать имена, от которых образованы неизвестные отчества. Если система синтезировала имя, которое нам уже известно, то и отчество признаётся корректным и кладётся в нашу эталонную базу. Кроме этого мы разработали обучающийся алгоритм, позволяющий по одному написанию неизвестного нам отчества судить, является ли оно действительно корректным отчеством. Этот алгоритм был обучен на ~50 тысячах примеров хороших и плохих отчеств, после чего мы применили его ко всей базе.

Применение всех разработанных алгоритмов позволило извлечь из нашей сырой базы, содержащей порядка 17 млн. записей, около 110 тысяч новых корректных отчеств, которые мы в ближайшее время внедрим в эталонные базы Ахантера.

Страницы новостей: 1 2 3 4 вперед »

Последние события

20.11.2018 Добавили на Ахантере поддержку часовых зон и кольцевых дорог

18.09.2018 Добавили на Ахантере поддержку городских районов, станций метро и наземного транспорта.

15.08.2018 Запустили крупное обновление геокодера на Ахантере.

20.06.2018 Добавили дискретные подсказки для адресов на ahunter.ru. Для отображения подсказок сделали новый JS-плагин.

03.05.2018 На ahunter.ru в подсказках для адресов добавили выдачу номеров домов, корпусов, строений и квартир.

29.03.2018 Запустили Ахантер 4.0.

Архив событий

19.12.2017 Обновили структуру классификатора адресов РФ.

21.09.2017 Внедрили машинное обучение в детекторе ФИО.

20.06.2017 Переделали геокодер и внедрили новую версию на ahunter.ru.

27.01.2017 Запустили в боевом режиме ahunter.ru версии 3.0.

30.11.2016 Запустили в режиме апробации репликацию данных между серверами Ахантера.

Страницы: 1 2 3 вперед »