Страницы новостей: 1 2 3 4 вперед »
21.02.2019

Выполнили масштабные исследования отчеств

От полноты эталонной базы имён, отчеств и фамилий, которую использует Ахантер, напрямую зависит, удастся ли выполнить стандартизацию ФИО у конкретной персоны. Также от полноты зависит, сможет ли наш сервис выдавать подсказки при заполнении пользователями форм с контактными данными. Если в базе Ахантера нет какого-то имени или отчества, то при вводе такого имени или отчества наш сервис не сможет предложить подходящую подсказку. Именно поэтому мы постоянно занимаемся совершенствованием наших эталонных баз с именами, отчествами и фамилиями.

Основной источник новых имён – это рабочие логи Ахантера. Данные, которые сервис когда-либо получил на обработку, но не смог привести в порядок, накапливаются в логах сервиса, после чего мы их анализируем и по возможности пополняем наши эталонные базы. На данный момент у нас накоплено ~17 млн. запросов, из которых мы уже ранее выполнили извлечение новых корректных имён. Всего в рамках той работы мы извлекли ~60 тысяч новых и главное – корректных уникальных имён, принадлежащих различным национальностям. А сейчас мы выполнили такую работу для отчеств.

Основная проблема такой работы – отсеять действительно хорошие новые отчества от явного мусора, а также от известных отчеств, записанных с опечаткой. Для этих целей мы разработали большую интеллектуальную систему. На основе машинного обучения наша система научилась синтезировать имена, от которых образованы неизвестные отчества. Если система синтезировала имя, которое нам уже известно, то и отчество признаётся корректным и кладётся в нашу эталонную базу. Кроме этого мы разработали обучающийся алгоритм, позволяющий по одному написанию неизвестного нам отчества судить, является ли оно действительно корректным отчеством. Этот алгоритм был обучен на ~50 тысячах примеров хороших и плохих отчеств, после чего мы применили его ко всей базе.

Применение всех разработанных алгоритмов позволило извлечь из нашей сырой базы, содержащей порядка 17 млн. записей, около 110 тысяч новых корректных отчеств, которые мы в ближайшее время внедрим в эталонные базы Ахантера.

Страницы новостей: 1 2 3 4 вперед »

Последние события

20.11.2018 Добавили на Ахантере поддержку часовых зон и кольцевых дорог

18.09.2018 Добавили на Ахантере поддержку городских районов, станций метро и наземного транспорта.

15.08.2018 Запустили крупное обновление геокодера на Ахантере.

20.06.2018 Добавили дискретные подсказки для адресов на ahunter.ru. Для отображения подсказок сделали новый JS-плагин.

03.05.2018 На ahunter.ru в подсказках для адресов добавили выдачу номеров домов, корпусов, строений и квартир.

29.03.2018 Запустили Ахантер 4.0.

Архив событий

29.11.2014 Разработали геокодер для адресов РФ. Внедрили геокодер на сервисе ahunter.ru.

11.08.2014 В рамках R&D направления разработали систему распознавания пола персоны по анализу текста ее биографии.

04.06.2014 Внедрили комплексное решение по стандартизации адресных данных ahunterES в связке с ahunterPro в ОАО Банк "Центр-инвест".

09.04.2014 Внедрили серверное решение по стандартизации клиентских данных ahunterES в ЗАО "Русский Стандарт Страхование".

17.03.2014 Расширили API у продуктов ahunter. Теперь можно обрабатывать пакеты комплексных контактных записей из нескольких адресов и телефонов.

18.02.2014 Выпустили версию 1.7 системы "Охотник за адресами". Сервис ahunter.ru также перевели на новую версию. Система стала работать быстрее в полтора раза.

15.01.2014 Завершили государственный проект по обогащению КЛАДР и ФИАС на основе данных, представленных в кадастре недвижимости.

Страницы: « назад 4 5 6 вперед »