09.11.2021 |
Новый ИИ в стандартизации ФИО |
В Ахантере внедрили ИИ алгоритмы стандартизации ФИО. До настоящего времни стандартизация ФИО в Ахантере выполнялась по следующему принципу. Получаемый на вход запрос с ФИО отыскивался в эталонном справочнике с учётом возможных опечаток, в случае успешного поиска сервис возвращал найденную запись. В случае неудачи предпринималось распознавание неизвестных компонентов ФИО. Для этих целей полученные данные анализировались по косвенным признакам на предмет похожести на имеющиеся записи эталонного справочника. При достаточно уверенном совпадении данных признаков осуществлялось распознавание неизвестного компонента, например, неизвестной фамилии.
В данном способе была одна проблема, заключающаяся в том, что сервис при обработке неизвестного ФИО стремился обнаружить и исправить опечатку, чтобы в результате такого исправления выдать подходящую эталонную запись справочника. Это приводило к ложным срабатываниям, когда редкая малоизвестная фамилия исправлялась на известную похожую фамилию, имеющуюся в справочнике.
В предыдущей версии сервиса эта проблема решалась эвристическими алгоритмами с достаточно большой погрешностью. Погрешность обусловлена тем, что с помощью точного алгоритма на практике оказывается не всегда возможным отделить ситуацию, когда в фамилии допущена явная опечатка, от ситуации, когда на самом деле опечатки нет, а имеет место просто необычная незнакомая фамилия, похожая по написанию или звучанию на какую-то известную фамилию. В первом случае сервис должен принудительно исправлять опечатку, а во втором случае - наоборот, отказываться от возможного исправления и сохранять исходную неизвестную фамилию в неизменном виде. Например, фамилию «Анрдеев» точно нужно исправлять на «Андреев», а фамилию «Андгиреев» исправлять не требуется, хотя она сервису не известна.
Для решения этой проблемы мы разработали нечёткий алгоритм с применением ИИ-решения. Данное решение представляет собой машинно обученный классификатор, который для каждого запроса, поступающего на сервис, принимает решение, нужно ли в нём исправлять опечатки или нет. Для обучения данного классификатора подготовили выборку из 20 тыс. реальных сложных примеров, часть которых содержит опечатки в известных ФИО, а другая часть представлена редкими малоизвестными именами, фамилиями и отчествами.
Новый алгоритм внедрили в версию 5.1.0 Ахантера. Тесты на 600 тысячах реальных запросов показали уменьшение погрешности распознавания на 50% для неизвестных фамилий, на 15% для неизвестных имён и на 26% для неизвестных отчеств.
03.09.2021 |
Перевели Ахантер с ФИАС на ГАР |
Для стандартизации почтовых адресов России, а также для работы функции автодополнения при заполнении почтовых адресов Ахантер использует адресную базу, в основе которой раньше использовался классификатор адресов России (КЛАДР). Затем этот классификатор перестал поддерживаться, поэтому вместо него мы стали использовать открытые сведения из Федеральной информационной адресной системы (ФИАС).
В текущем году в ФИАС произошли большие изменения в структуре публикуемого справочника. Теперь открытые сведения ФИАС публикуются в формате Государственного адресного реестра (ГАР). В связи с этим внутренние процессы по подготовке адресных баз Ахантера претерпели изменения, которые в том числе затронули и содержимое самих баз.
Ахантер не использует напрямую внешние классификаторы и справочники, такие как ГАР или ФИАС. Вместо этого мы поддерживаем собственный эталонный адресный справочник - АБР. Наличие данного справочника позволяет вести собственную идентификацию объектов, без привязки к идентификаторам внешних источников. Классификатор КЛАДР, а также справочники ФИАС и ГАР являются для АБР внешними источниками, из которых он обновляется на регулярной основе. Наличие АБР кроме того позволяет вести учёт объектов, отсутствующих в других источниках, а также поддерживать альтернативные названия для адресных объектов. Например, в АБР хранятся сведения о том, что прежнее название города Санкт-Петербург - это Ленинград.
Переход на ГАР отразился в первую очередь на внутренних процессах обновления АБР из внешних источников. Теперь основные свежие сведения в АБР попадают из ГАР. Вместе с тем в базах Ахантера появились новые классификационные коды, которыми адресные объекты снабжаются в ГАР. Эти коды Ахантер теперь выдаёт наравне со старыми справочными данными по КЛАДР, ОКАТО, ОКТМО и ФИАС.
Новые ГАР-идентификаторы адресов доступны как в API сервиса, так и при пакетной обработке файлов.
07.06.2021 |
Запустили обработку адресов для Казахстана |
На Ахантере добавили обработку почтовых адресов Казахстана. Раньше у нас на сервисе поддерживалась стандартизация и подсказки при вводе почтовых адресов только для РФ. Такое положение вещей сложилось, поскольку в России есть эталонные адресные справочники ФИАС и КЛАДР, к которым можно приводить неструктурированные почтовые адреса, исправляя при этом опечатки и неточности в названиях. Для стран СНГ таких справочников в явном виде нет, поэтому разработка аналогов Ахантера для других стран была под вопросом.
Мы решили попробовать реализовать обработку адресов Казахстана, поскольку для этой страны удалось найти открытые данные, которые взяли за основу при создании своего справочника. В ходе такой разработки занимались полуавтоматической прочисткой имеющихся данных, в рамках которой устраняли дубли, выполняли структуризацию и стандартизацию.
Кроме создания справочника, нам пришлось адаптировать алгоритмы обработки к национальным особенностям адресации, присущим Казахстану. Например, оказалось, что в Казахстане при записи адреса, названного в честь известной персоны, в названии может использоваться как имя, так и фамилия. В России так не принято, ведь было бы странно вместо улица Пушкина писать улица Александра. В Казахстане это является нормой, если речь идёт о популярных персонах. Также в алгоритмах Ахантера пришлось учесть, что исходный адрес может быть записан как на русском языке, так и на казахском. Более того, в одном и том же адресе могут использоваться сразу оба языка.
В общей сложности, для адаптации алгоритмов пришлось проанализировать около 1 млн. реальных адресов, записанных в свободной форме, чтобы учесть специфику того, как люди Казахстана привыкли записывать свои адреса, с учётом характерных для этой страны опечаток, транслитераций и особенностей произношения топонимов.
В результате такой доработки API Ахантера был расширен новыми опциями, позволяющими в рамках API-запроса выбирать страну, которой принадлежит адрес, для обработки соответствующим алгоритмом. В личном кабинете Ахантера добавлена возможность выбирать страну для пакетной стандартизации адресов Казахстана с помощью файлов. Кроме стандартизации запустили на сервисе подсказки по адресам Казахстана и доработали JavaScript-модуль для подключения их в веб-приложениях.
10.05.2021 |
На ahunter.ru обработали 1 млрд. данных |
В текущем месяце суммарное количество обработанных данных на ahunter.ru достигло одного миллиарда. Это данные, которые сервис обработал через API стандартизации и подсказок, а также в пакетном режиме при обработке CSV и Excel файлов.
Сам сервис мы начали разрабатывать в 2007 году, тогда существовала лишь модель, которая тестировалась в закрытом режиме. Большого количества исходных данных для апробации алгоритмов под рукой не было, поскольку решалась новая, слабо изученная задача по распознаванию контактных данных в текстах. Статистика в тот период не велась.
Подсчёт обработанных данных мы начали вести в 2009 году, когда в облаке по адресу ahunter.ru был запущен сервис «Охотник за адресами». Само название сервиса указывает на то, что изначально он был рассчитан на поиск и сбор адресных данных. Такой сбор был нужен для последующего анализа всего разнообразия проблем, которые возникают в слабоструктурированных текстовых записях с почтовыми адресами. Результатом такого анализа были регулярные доработки алгоритмов, позволяющие исправлять ошибки и приводить к стандартному виду почтовые адреса России.
Со временем сервис эволюционировал, задачи, которые перед ним ставились, постепенно трансформировались в сторону коммерческого применения для нужд конечных пользователей. В 2010 году была запущена первая версия API по стандартизации почтовых адресов, а также разработан личный кабинет, в котором была открыта пакетная обработка файлов с почтовыми адресами. С этого момента в статистике использования сервиса стали учитываться запросы, обработанные через API, а также данные, полученные в CSV и Excel файлах.
За примерно 11 лет ведения статистики темпы обработки данных через сервис постепенно возрастали, при этом доля запросов по стандартизации именно почтовых адресов уменьшалась, поскольку на сервисе появлялся новые функции - стандартизация телефонных номеров, ФИО, гео-кодирование, подсказки по адресам и ФИО, подсказки реквизитов юридических лиц и ИП.
Сейчас ежемесячно сервис обрабатывает от 15 до 20 млн. запросов, из которых на стандартизацию адресов приходится примерно 60%. Статистика сервиса отслеживается и отображается в реальном времени по следующей ссылке.
|