Страницы новостей: 1 2 3 4 вперед »
21.02.2019

Выполнили масштабные исследования отчеств

От полноты эталонной базы имён, отчеств и фамилий, которую использует Ахантер, напрямую зависит, удастся ли выполнить стандартизацию ФИО у конкретной персоны. Также от полноты зависит, сможет ли наш сервис выдавать подсказки при заполнении пользователями форм с контактными данными. Если в базе Ахантера нет какого-то имени или отчества, то при вводе такого имени или отчества наш сервис не сможет предложить подходящую подсказку. Именно поэтому мы постоянно занимаемся совершенствованием наших эталонных баз с именами, отчествами и фамилиями.

Основной источник новых имён – это рабочие логи Ахантера. Данные, которые сервис когда-либо получил на обработку, но не смог привести в порядок, накапливаются в логах сервиса, после чего мы их анализируем и по возможности пополняем наши эталонные базы. На данный момент у нас накоплено ~17 млн. запросов, из которых мы уже ранее выполнили извлечение новых корректных имён. Всего в рамках той работы мы извлекли ~60 тысяч новых и главное – корректных уникальных имён, принадлежащих различным национальностям. А сейчас мы выполнили такую работу для отчеств.

Основная проблема такой работы – отсеять действительно хорошие новые отчества от явного мусора, а также от известных отчеств, записанных с опечаткой. Для этих целей мы разработали большую интеллектуальную систему. На основе машинного обучения наша система научилась синтезировать имена, от которых образованы неизвестные отчества. Если система синтезировала имя, которое нам уже известно, то и отчество признаётся корректным и кладётся в нашу эталонную базу. Кроме этого мы разработали обучающийся алгоритм, позволяющий по одному написанию неизвестного нам отчества судить, является ли оно действительно корректным отчеством. Этот алгоритм был обучен на ~50 тысячах примеров хороших и плохих отчеств, после чего мы применили его ко всей базе.

Применение всех разработанных алгоритмов позволило извлечь из нашей сырой базы, содержащей порядка 17 млн. записей, около 110 тысяч новых корректных отчеств, которые мы в ближайшее время внедрим в эталонные базы Ахантера.

Страницы новостей: 1 2 3 4 вперед »

Последние события

20.11.2018 Добавили на Ахантере поддержку часовых зон и кольцевых дорог

18.09.2018 Добавили на Ахантере поддержку городских районов, станций метро и наземного транспорта.

15.08.2018 Запустили крупное обновление геокодера на Ахантере.

20.06.2018 Добавили дискретные подсказки для адресов на ahunter.ru. Для отображения подсказок сделали новый JS-плагин.

03.05.2018 На ahunter.ru в подсказках для адресов добавили выдачу номеров домов, корпусов, строений и квартир.

29.03.2018 Запустили Ахантер 4.0.

Архив событий

25.07.2016 Внедрили поддержку кодов ОКАТО, ОКТМО и ФИАС на ahunter.ru.

15.06.2016 Обогатили базу GPS-координат и телефонных номеров.

30.05.2016 Разработали решение DebtorCleanse по стандартизации и унификации контактных данных должников.

11.03.2016 Закончили разрабатывать Lingalign - решение для перевода и интернационализации проектов и веб-сайтов.

10.02.2016 Открыли регистрацию пользователей на сервисе ahunter.ru.

20.01.2016 Добавили возможности транслитерации и перевода адресов в ahunter.ru.

Страницы: 1 2 3 вперед »