Страницы новостей: 1 2 3 4 вперед »
07.06.2021

Запустили обработку адресов для Казахстана

На Ахантере добавили обработку почтовых адресов Казахстана. Раньше у нас на сервисе поддерживалась стандартизация и подсказки при вводе почтовых адресов только для РФ. Такое положение вещей сложилось, поскольку в России есть эталонные адресные справочники ФИАС и КЛАДР, к которым можно приводить неструктурированные почтовые адреса, исправляя при этом опечатки и неточности в названиях. Для стран СНГ таких справочников в явном виде нет, поэтому разработка аналогов Ахантера для других стран была под вопросом.

Мы решили попробовать реализовать обработку адресов Казахстана, поскольку для этой страны удалось найти открытые данные, которые взяли за основу при создании своего справочника. В ходе такой разработки занимались полуавтоматической прочисткой имеющихся данных, в рамках которой устраняли дубли, выполняли структуризацию и стандартизацию.

Кроме создания справочника, нам пришлось адаптировать алгоритмы обработки к национальным особенностям адресации, присущим Казахстану. Например, оказалось, что в Казахстане при записи адреса, названного в честь известной персоны, в названии может использоваться как имя, так и фамилия. В России так не принято, ведь было бы странно вместо улица Пушкина писать улица Александра. В Казахстане это является нормой, если речь идёт о популярных персонах. Также в алгоритмах Ахантера пришлось учесть, что исходный адрес может быть записан как на русском языке, так и на казахском. Более того, в одном и том же адресе могут использоваться сразу оба языка.

В общей сложности, для адаптации алгоритмов пришлось проанализировать около 1 млн. реальных адресов, записанных в свободной форме, чтобы учесть специфику того, как люди Казахстана привыкли записывать свои адреса, с учётом характерных для этой страны опечаток, транслитераций и особенностей произношения топонимов.

В результате такой доработки API Ахантера был расширен новыми опциями, позволяющими в рамках API-запроса выбирать страну, которой принадлежит адрес, для обработки соответствующим алгоритмом. В личном кабинете Ахантера добавлена возможность выбирать страну для пакетной стандартизации адресов Казахстана с помощью файлов. Кроме стандартизации запустили на сервисе подсказки по адресам Казахстана и доработали JavaScript-модуль для подключения их в веб-приложениях.

10.05.2021

На ahunter.ru обработали 1 млрд. данных

В текущем месяце суммарное количество обработанных данных на ahunter.ru достигло одного миллиарда. Это данные, которые сервис обработал через API стандартизации и подсказок, а также в пакетном режиме при обработке CSV и Excel файлов.

Сам сервис мы начали разрабатывать в 2007 году, тогда существовала лишь модель, которая тестировалась в закрытом режиме. Большого количества исходных данных для апробации алгоритмов под рукой не было, поскольку решалась новая, слабо изученная задача по распознаванию контактных данных в текстах. Статистика в тот период не велась.

Подсчёт обработанных данных мы начали вести в 2009 году, когда в облаке по адресу ahunter.ru был запущен сервис «Охотник за адресами». Само название сервиса указывает на то, что изначально он был рассчитан на поиск и сбор адресных данных. Такой сбор был нужен для последующего анализа всего разнообразия проблем, которые возникают в слабоструктурированных текстовых записях с почтовыми адресами. Результатом такого анализа были регулярные доработки алгоритмов, позволяющие исправлять ошибки и приводить к стандартному виду почтовые адреса России.

Со временем сервис эволюционировал, задачи, которые перед ним ставились, постепенно трансформировались в сторону коммерческого применения для нужд конечных пользователей. В 2010 году была запущена первая версия API по стандартизации почтовых адресов, а также разработан личный кабинет, в котором была открыта пакетная обработка файлов с почтовыми адресами. С этого момента в статистике использования сервиса стали учитываться запросы, обработанные через API, а также данные, полученные в CSV и Excel файлах.

За примерно 11 лет ведения статистики темпы обработки данных через сервис постепенно возрастали, при этом доля запросов по стандартизации именно почтовых адресов уменьшалась, поскольку на сервисе появлялся новые функции - стандартизация телефонных номеров, ФИО, гео-кодирование, подсказки по адресам и ФИО, подсказки реквизитов юридических лиц и ИП.

Сейчас ежемесячно сервис обрабатывает от 15 до 20 млн. запросов, из которых на стандартизацию адресов приходится примерно 60%. Статистика сервиса отслеживается и отображается в реальном времени по следующей ссылке.

Страницы новостей: 1 2 3 4 вперед »

Последние события

07.06.2021 Запустили обработку адресов для Казахстана.

10.05.2021 Ахантер в облаке обработал 1 млрд. контактных данных.

Архив событий

16.09.2020 Запустили распознавание неизвестных ФИО.

27.07.2020 Запустили подсказки по ЕГРИП.

25.06.2020 Добавили в API Ахантера обратный гео-кодер.

02.04.2020 Внедрили на Ахантере подсказки по ЕГРЮЛ.

10.02.2020 Рассказали на конференции Качество данных 2020 про использование ИИ в нашей повседневной работе.

Страницы: 1 2 3 вперед »