Бизнес направление

R&D направление

О сервисе ahunter.ru и об очистке адресных данных

Сервис Ахантер (ahunter.ru) представляет собой облачное решение по проверке, исправлению и стандартизации клиентских контактных данных, включая почтовые адреса и телефонные номера. Стандартизация и исправление нужны, если контактные данные записаны в произвольной строковой форме, с возможными ошибками или неточностями. В этом случае наш сервис позволяет привести их к стандартной форме. Такая форма подразумевает представление информации о контакте в структурированном виде с разделением на отдельные компоненты. Если какие-то компоненты изначально были пропущены, то они восстанавливаются по эталонной базе.

Например, если в почтовом адресе пропущено название региона или почтовый индекс, то Ахантер восстанавливает их по адресному классификатору и выделяет их в отдельные поля. Если некоторые поля адреса записаны с опечатками, то сервис их исправит и приведёт названия к эталонному виду. Если исходный адрес оказался устаревшим, то выполняется его приведение к актуальному виду.

Аналогичные действия выполняются над номером телефона. При совместной проверке телефона и адреса пропущенная информация о кодах телефонного номера может быть восстановлена по адресу и наоборот, адрес может быть уточнен на основании телефонного кода.

Кроме стандартизации почтовых адресов и телефонов Ахантер позволяет обрабатывать и другие типы данных, а именно: исправление и стандартизация ФИО, быстрое заполнение форм с реквизитами организаций на основе актуальных данных по ЕГРЮЛ и ЕГРИП, быстрый ввод банковских реквизитов, а также подсказки при заполнении графы «Кем выдан» паспорт в процессе ручного ввода паспортных данных. Все эти функции доступны через API, полное описание которого доступно здесь.

Стандартизация на примере почтовых адресов

Действия, которые наш сервис выполняет над адресными данными, называются стандартизацией и очисткой. Это означает, что исходный «грязный» почтовый адрес после обработки становится чистым так, что его гарантированно можно использовать как по прямому назначению для отправки корреспонденции, так и для иных задач, таких как дедупликация, отображение на карте и аналитика.

Чистый адрес – это уже не просто строка с текстом, это информационная структура, состоящая из отдельных компонентов – адресных полей, данные которых приведены к стандартному каноническому виду. Чистый адрес однозначно указывает на существующий объект недвижимости. Иллюстрация очистки адреса приведена на рисунке ниже.

Автоматическая стандартизация и очистка почтовых адресов представляет собой задачу искусственного интеллекта, про нее мы более подробно написали отдельную статью, которую можно прочитать в журнале Открытые системы или в нашем разделе Публикации. Сервис ahunter.ru успешно решает данную задачу круглосуточно под нагрузкой в режиме реального времени.

Изначальная идея заключалась в создании системы стандартизации и очистки сразу с учётом работы в среде Интернет с большим количеством пользователей, которые могут обрабатывать неограниченное количество адресных данных, представленных в произвольной форме. Мы с самого начала не ориентировали сервис на конкретного заказчика и его конкретные форматы представления почтовых адресов, напротив, мы ориентировались на всех пользователей и любые форматы.

Поэтому получившийся сервис является не только результатом проектирования и программирования, но и результатом научно-исследовательской деятельности, объемы которой существенно превышают саму разработку. Убедиться в этом можно, посетив наш раздел Публикации, где приведены наши научно-технические статьи с результатами исследований, использованными при разработке ahunter.ru. Программное обеспечение, лежащее в основе сервиса, прошло процедуру государственной регистрации в Роспатенте, на него получено соответствующее свидетельство №2010616237.

Поскольку ahunter.ru изначально рассчитывался на работу в среде Интернет, в нем учтены вопросы безопасности, надежности, отказоустойчивости, а также вопросы быстродействия под постоянной нагрузкой. В результате нам удалось разработать промышленное решение по стандартизации и очистке контактных данных, обладающее высокой производительностью, масштабируемостью и надежностью. Данные свойства позволяют успешно использовать сервис в банковском и финансовом секторе, в сфере телекоммуникаций, Интернет-торговле и даже в медицинских учреждениях при обработке адресных данных пациентов.

Основные возможности сервиса ahunter.ru

Стандартизация адресов и номеров телефонов

Сервис позволяет выполнять единичную или пакетную обработку клиентских контактных данных. При обработке почтовых адресов выполняются следующие действия.

  • Из свободной строковой формы адрес приводится к стандартной структуре, принятой в ФИАС или КЛАДР (поддерживаются оба этих справочника). В процессе обработки выполняется проверка адреса на существование. Информация о том, что адрес реально НЕ существует, сама по себе является достаточно полезной, поскольку позволяет принять соответствующие меры по восстановлению адреса, например, связавшись с клиентом по телефону.

  • Исправляются орфографические и грамматические ошибки в именах адресных объектов, наличие которых, как правило, характерно для данных, введенных вручную. Не секрет, что многие адресные объекты имеют названия, не подчиняющиеся общим грамматическим правилам русского языка, поскольку являются именами собственными. Со многими названиями оператор, вводящий почтовый адрес, сталкивается впервые. В связи с этим, при вводе сложных имен собственных ошибки неизбежны. Например, часто допускаются ошибки при вводе на слух адреса Республика Башкортостан, город Стерлитамак, улица Орджоникидзе.

  • Восстанавливаются недостающие компоненты адреса, такие как регион, район или индекс. В данном случае устраняется эффект человеческого фактора, поскольку людям свойственно не указывать адресную информацию, которая, по их мнению, является избыточной.

  • Исправляются нестандартные сокращения названий адресных объектов или их типов. Например, запись спб сервис исправит в Санкт-Петербург, а сокращенную запись микрорайона микр-он преобразует в мкр, как это принято в ФИАС и КЛАДР.

  • Исправляются устаревшие наименования с учетом недавних переименований, таких как города и улицы. Также учитываются переподчинения адресных объектов. Например, адрес Московская область, город Троицк преобразуется к актуальному на данный момент виду Москва, город Троицк.

  • В дополнение к адресным полям сервис возвращает для обработанного адреса дополнительную информацию, например, географические координаты. В этом качестве сервис можно использовать как гео-кодер. Обратное гео-кодирование также реализовано, зная координаты можно получить соответствующий адрес. Кроме координат сервис выдаёт часовую зону адреса, ближайшие станции метро, коды по справочникам (ФИАС, ОКАТО и ОКТМО) и др.

Почтовый адрес может обрабатываться совместно с номером телефона. Хотя номер телефона представляет собой последовательность цифр, формат записи номера также может варьироваться. Ахантер выполняет приведение номера телефона к стандартному виду, вместе с этим сервис предоставляет информацию о его географической принадлежности, а также об операторе связи, которому принадлежит данный номер.

Если телефонный номер указан не полностью, то сервис восстанавливает его недостающие коды на основе анализа почтового адреса. Вместе с этим выполняется проверка на соответствие телефона адресу. Также выполняется и обратная процедура – почтовый адрес уточняется на основании телефонного номера.

Стандартизация ФИО

При обработке ФИО Ахантер получает фамилию, имя и отчество некоторого человека, записанные в виде одной сплошной строки, и выполняет следующие действия.

  • В строке, содержащей ФИО в свободной строковой форме с произвольным порядком следования компонентов, выделяются отдельные части: фамилия, имя и отчество. Сервис выполняет распознавание данных частей в исходной строке и раскладывает их по полям итоговой структуры. В итоге пользователь получает точное представление о том, где именно в исходной строке содержится фамилия, а где - имя.

  • Определяется пол человека с заданным ФИО. Это может быть полезным, например, для целей сегментирования клиентов. Распознавание пола выполняется на основе эталонного справочника и машинного обучения.

  • Определяется вероятная национальность человека. Данная возможность может быть полезной при анализе предпочтений покупателей наряду с их возрастом и полом. Национальность, также как и пол, определяется на основе эталонного справочника и обученного ИИ-алгоритма.

  • Оценивается сочетаемость компонентов ФИО. Сервис оценивает, насколько фамилия, имя и отчество сочетаются друг с другом по полу и национальности. Обычно это полезно, чтобы обнаружить в клиентской базе очевидные ошибки, когда при изначальном вводе контактных данных была допущена опечатка. Также эта возможность помогает выделять недобросовестных покупателей, умышленно указывающих недостоверные контактные данные.

Подсказки при заполнении контактных данных и реквизитов

Кроме функций стандартизации клиентских данных Ахантер позволяет организовать правильный и удобный ввод контактной информации за счет использования функции подсказок. Подсказки могут использоваться в режиме реального времени, когда нужно заполнить форму со следующими полями.

  • Почтовый адрес. С помощью подсказок можно вводить адрес одной строкой, сервис на лету адаптируется к заполняемому полю и предлагает наиболее подходящие варианты заполнения всего адреса. Также есть возможность заполнять форму, в которой адрес разбит на несколько полей, например, город и улица - в одном поле, а номер дома и квартира - в другом.
  • ФИО. Можно заполнять как одной строкой, так и по отдельности в три разных поля. При заполнении в одном поле сервис на лету определяет, какой именно компонент в настоящий момент вводится: фамилия, имя или отчество, адаптируется и предлагает соответствующие варианты автозаполнения. С помощью данной функции можно ускорить ввод ФИО в несколько раз.
  • Реквизиты компании. Данные подсказки нужны, чтобы не заполнять вручную карточку контрагента в CRM-системе. С помощью Ахантера можно быстро найти нужную компанию по фрагменту её названия и получить полный комплект реквизитов: ОГРН, ИНН, юридический адрес, информацию о руководителе, лицензиях и др. Также данная функция позволяет проверить статус компании, не находится ли она в состоянии ликвидации, и не наложены ли на её руководителя ограничения.
  • Банковские реквизиты. Эта разновидность подсказок позволяет быстро заполнять информацию о расчётном банке, его названии, основных реквизитах и корреспондентском счёте, включая БИК и СВИФТ.
  • Графа паспорта "Кем выдан" и "Код подразделения". Эти подсказки помогают при вводе паспортных данных, когда требуется указать название и код государственного органа, выдавшего паспорт.

Области применения сервиса ahunter.ru

В настоящий момент ahunter.ru используется российскими банками и микрофинансовыми организациями, управляющими компаниями, коллекторскими агентствами, интернет-магазинами, маркетплейсами и телекоммуникационными компаниями. Наши пользователи решают разнообразные бизнес-задачи, например такие.

  • Банкам необходимо удостовериться в корректности контактных данных клиента, включая адрес, ФИО и номер телефона, а по координатам подобрать ближайший офис для выдачи пластиковой карты или кредита.

    Кроме этого, подсказки по реквизитам компаний и банковским реквизитам помогут клиенту быстро заполнить детали платежа при оформлении перевода.

  • Телекоммуникационные компании нуждаются в проверке и стандартизации адресов своих абонентов, как на этапе ввода в CRM, так и на этапе отправки счетов за телекоммуникационные услуги или уведомлений о задолженности.

  • Управляющие компании регулярно осуществляют актуализацию почтовых адресов своих клиентов для своевременной рассылки уведомлений о начислении дивидендов, а также при подготовке налоговой отчетности.

  • Страховым компаниям необходимо быть уверенными в потребителе и месте его проживания на этапе оформления страховки.

  • Коллекторские агентства работают с недобросовестными заемщиками, адреса проживания которых, как правило, содержат ошибки, пропущенные компоненты адреса, устаревшие данные. Перед началом взаимодействия с должником необходимо убедиться в существовании его адреса, а также привести адрес в порядок.

  • Интернет-магазинам и маркетплейсам нужно точно знать правильный адрес покупателя и его ФИО, после того, как был оформлен заказ для успешной доставки купленного товара. Если на этапе оформления заказа адрес оказался неправильным, наш сервис оповестит менеджера магазина, чтобы тот уточнил эту информацию при телефонном подтверждении заказа. Если же при оформлении заказа использовать подсказки от Ахантера, то контактные данные покупателя сразу же будут сохранены в корректном виде.
  • Медицинские учреждения используют ahunter.ru для того, чтобы уточнить адрес проживания пациента при оформлении его медицинской карты. Правильный адрес пациента весьма важен для своевременного оказания медицинской помощи.

  • Операторы call-центров, принимающие входящие звонки, располагают всего лишь десятками секунд для того чтобы воспринять контактную информацию от абонента на слух. Не смотря на жесткие ограничения по времени разговора, необходимо предельно точно и правильно зафиксировать информацию от звонящего. Без использования подсказок сервиса ahunter.ru качество контактных данных, вводимых под диктовку, было бы значительно ниже.
  • Государственные учреждения работают с адресами физических или юридических лиц при оказании гос. услуг. Например, государственный кадастр недвижимости работает с адресами объектов недвижимости, от корректности которых напрямую зависит функционирование единого государственного реестра прав на недвижимое имущество. Корректность этих адресов обеспечивается системой, лежащей в основе ahunter.ru.

Варианты использования сервиса

Существует три варианта использования сервиса.

  • Пакетная обработка массивов клиентских контактных данных.
  • Стыковка приложения с сервисом посредством API.
  • Ручная проверка данных посредством функций сайта http://ahunter.ru, находящихся в открытом доступе.

Пакетная стандартизация и очистка клиентских данных

Пакетная обработка востребована в случае, когда требуется выполнить очистку больших массивов данных, а также получить оценку их качества. Например, такая задача возникает, когда под рукой уже имеются введенные ранее адреса, телефоны и ФИО клиентов в виде файла с таблицей Excel, экспортированной из CRM-системы. Для работы с сервисом в таком режиме в нём предусмотрен личный кабинет.

  • Необходимо зарегистрироваться на сервисе http://ahunter.ru, зайти в личный кабинет и перейти в раздел «Реестры».

  • Далее нужно загрузить файл с массивом контактных данных, которые надо обработать. В терминологии сервиса такие файлы называются реестрами. Размер реестра не ограничен.

    Количество загружаемых и обрабатываемых реестров также не ограничено.

  • После успешной загрузки реестра можно запустить его на обработку.

    Если реестр был загружен по ошибке, его можно удалить. Такое может произойти, например, если один и тот же массив был дважды загружен разными сотрудниками, использующими один общий аккаунт на сервисе.

  • После запуска обработки необходимо дождаться её завершения. Время обработки зависит от количества записей в массиве. Если обрабатываются только почтовые адреса, то скорость обработки может достигать 200-300 записей в секунду.

  • После того как обработка массива завершится, появится возможность скачивать результирующие файлы.

    Состав отчётов с результатами, доступными для скачивания, зависит от настроек личного кабинета. По умолчанию доступен отчёт «Основной результат», в который сервис выводит все исходные записи и результаты их стандартизации в типовом формате. При необходимости, формат можно настроить, часть колонок объединить, а часть - убрать. Также можно указать фильтр, позволяющий включить в отчёт только записи с подходящим качеством обработки.

    Оценка качества каждой записи является важной составляющей процедуры очистки, поскольку показатели качества позволяют отбирать только тот результат, который подходит для изначальной бизнес-задачи. Например, для почтовой рассылки нужны адреса высокого качества, а для сегментирования клиентов не обязательно распознавать адреса с точностью до квартиры или дома.

Стыковка приложений с сервисом посредством API

Кроме работы в личном кабинете ahunter.ru существует возможность интегрировать все его функции во внешнее приложение. Это удобно, например, когда у заказчика есть веб-приложение или система, функции которого нужно расширить путем добавления возможности выполнять очистку контактных данных, либо подключить подсказки для ускорения ввода новых данных.

Для этих целей сервис предоставляет достаточно простой для использования, но весьма развитый программный интерфейс (API). Сервис реализует REST-парадигму, так что все запросы передаются по HTTPS методом GET или POST. В случае с методом GET параметры запроса указываются непосредственно в URL запроса, при использовании метода POST параметры передаются в теле HTTP-запроса. API поддерживает набор команд, наиболее распространенными из которых являются следующие:

  • cleanse/address – проверка одиночного адреса. В качестве результата сервис возвращает стандартизованную версию адреса, обогащенную дополнительной информацией, такой как географические координаты. Если адрес подразумевает неоднозначную интерпретацию, сервис вернет все подходящие варианты стандартизации;

  • cleanse/phone – обработка одиночного телефонного номера. В качестве результата сервис возвращает варианты исправления телефонного номера, его географическую привязку, а также имя оператора связи, отвечающего за данный номер;

  • cleanse/person – стандартизация фамилии, имени и отчества персоны. В качестве результата сервис возвращает ФИО, разделенное на отдельные компоненты - фамилию, имя и отчество. Также сервис возвращает автоматически определенный пол персоны и ее национальность;
  • cleanse/record – перекрестная обработка контактных данных, объединенных в одной записи. Обрабатываемая запись может содержать сразу несколько адресов, телефонов и ФИО контактного лица. В ходе обработки адреса уточняются на основе анализа телефонных номеров и наоборот;
  • cleanse/chunk – обработка пакета из нескольких записей. Каждая запись пакета может включать несколько почтовых адресов, телефонных номеров и ФИО, например: адрес проживания, адрес прописки, мобильный, домашний и рабочий телефонные номера;
  • suggest/address – команда, позволяющая формировать подсказки на лету при вводе почтового адреса человеком в режиме реального времени;
  • suggest/person – формирование подсказок при вводе ФИО персоны. Сервис выдает подсказки с учетом пола и национальности вводимой персоны, которые он определяет непосредственно в процессе ввода;
  • suggest/company – получение подсказок по ЕГРЮЛ и ЕГРИП при заполнении форм с реквизитами компаний. Команда позволяет быстро найти нужного контрагента по части его названия, имени директора или по ИНН.

Результат выполнения любой команды возвращается в теле HTTP-ответа в виде XML или JSON сообщения. Пример ответа на обработку адреса мск пр. мира магазин перекресток командой cleanse/address приведен на следующем рисунке.

Рисунок наглядно демонстрирует структуру адреса, в которую была преобразована исходная строковая запись. Сервис разложил адрес по отдельным полям, привел имена адресных объектов к каноническому виду и восстановил почтовый индекс. Более того, в XML-элементе Cover сервис отделил адресную часть текста от неадресной. В данном случае неадресной информацией является фраза магазин перекресток. Данная возможность является весьма полезной, поскольку при записи адресов люди зачастую указывают дополнительные ориентиры, например, названия магазинов или торгово-развлекательных центров.

Более подробно информацию об API и его возможностях можно получить в руководстве разработчика, которое можно скачать здесь.

Ручная проверка и поиск адресов

Ручная обработка данных на сервисе подразумевает использование его функций, находящихся в открытом доступе, посредством веб-сайта https://ahunter.ru. В данном виде сервис позволяет в некоммерческих целях выполнять проверку и исправление одиночных адресов в небольших объёмах.

Потребность в данных функциях время от времени возникает у пользователей, например, когда требуется перед отправкой письма узнать правильное написание адреса и его почтовый индекс, получить актуальное написание устаревшего адреса.

Кроме почтового адреса в ручном режиме можно проверить соответствие номера телефона адресу, а также уточнить реквизиты компании или банка.

Распознавание почтовых адресов в текстах документов

Данная возможность сервиса ahunter.ru стоит особняком от остальных, поскольку фактически не относится к задаче очистки адресных данных. Ее назначение – выполнять на лету поиск, распознавание, исправление и приведение к стандартному виду почтовых адресов в текстах документов официального характера. Функция внедрена на сервисе в пробном режиме для отладки технологии извлечения контактных данных в больших текстах.

В первую очередь здесь идет речь об обработке таких документов как договора, акты, накладные, квитанции или счета на оплату. Все документы такого рода объединяет одна общая черта – в них в обязательном порядке указываются реквизиты юридических или физических лиц, в том числе и фактический или юридический адрес. Наш сервис позволяет автоматически находить и распознавать эти адреса непосредственно в текстах таких документов, подсвечивать их в тексте и предлагать их правильные варианты написания. Иллюстрация данной возможности показана на следующем рисунке.

Существуют разные сценарии и бизнес-задачи, в рамках которых может быть полезной данная возможность сервиса. Наиболее типичными являются следующие.

  • Есть пакет документов (договора, счета и пр.), отражающий деловые взаимоотношения компании с ее клиентами. Требуется выполнить обогащение базы данных CRM-системы или создать ее с нуля на основе информации, имеющейся в этих документах. Функция распознавания почтовых адресов в текстах нашего сервиса может использоваться для автоматического выявления в текстах анализируемого пакета документов юридических и фактических адресов клиентов и добавления их в базу данных CRM-системы.

  • Имеется база данных клиентов, где с каждым клиентом связан его почтовый адрес. Время от времени эта база обновляется, в том числе меняются адреса клиентов. Поскольку каждому клиенту соответствует договор, заключенный между ним и компанией, в определенный момент возникает необходимость проверить все имеющиеся договора на предмет соответствия адресов, указанных в их текстах, с актуальными адресами, присутствующими в базе данных. Решение данной задачи с использованием возможностей сервиса ahunter.ru осуществляется в три этапа. На первом этапе адреса базы данных подвергаются пакетной очистке. На втором этапе все договора обрабатываются функцией распознавания почтовых адресов. На третьем этапе очищенные адреса сравниваются с адресами, распознанными в текстах договоров, на предмет их взаимного соответствия.

  • Некоторые наши пользователи работают с данной функцией через API для выявления адресов в объявлениях об аренде или купли/продажи недвижимости, доступных в открытом доступе, для дальнейшего обогащения собственной базы.

Дополнительные сведения о сервисе

  • Сервис ahunter.ru работает круглосуточно на трёх выделенных серверах, размещенных территориально на разных площадках. Один из серверов является боевым, остальные – резервными. В случае аварии на боевом сервере пользователи временно переводятся на работу с резервными. Такая организация гарантирует бесперебойность бизнес-процессов наших клиентов.
  • Производительности одного сервера достаточно для обработки до 8 миллионов запросов в сутки.
  • Сервис работает под управлением операционной системы Linux, на данный момент используется Ubuntu последней версии.
  • Программное обеспечение сервиса, включая бизнес-логику и функции по стандартизации, очистке и распознаванию контактных данных, реализовано на языке программирования C++.
  • Интеграционные модули, создаваемые сторонними разработчиками, для подключения к сервису через API, написаны на языках: JavaScript, C#, Python, Perl и PHP.

Стоимость использования ahunter.ru

Веб-сервис можно использовать на основании лицензионного соглашения-оферты, опубликованной здесь. Данная оферта подразумевает, что функции стандартизации тарифицируются поштучно. Стоимость обработки одного адреса, телефона или ФИО фиксирована и не зависит от того, каким способом выполняется обработка: в пакетном режиме или через API.

При работе по оферте необходимо зарегистрироваться на сервисе, пополнить баланс в личном кабинете на необходимую сумму, после чего можно будет использовать возможности сервиса в соответствующем объёме.

Также есть возможность использовать веб-сервис в режиме абонентского подключения. В этом случае мы заключаем с заказчиком наш типовой индивидуальный лицензионный договор, дающий право использовать сервис с фиксированной ежемесячной абонентской платой. Размер абонентской платы зависит от примерного объёма данных, которые заказчику необходимо обрабатывать ежемесячно. Коммерческое предложение на такое подключение можно запросить по контактам указанным здесь.

Последние события

24.09.2025 В гео-кодере Ахантера увеличили число детализированных ответов до дома в два раза

20.03.2025 Доработали подсказки по ЕГРЮЛ, расширили информацию об адресе компаний

Архив событий

26.09.2024 Внедрили подсказки по паспортным данным

20.07.2024 Обработали в облаке более 2 млрд. данных

09.04.2024 Добавили на Ахантере подсказки по реквизитам банков

01.02.2024 Внедрили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Страницы: 1 2 3 вперед »
Время обработки (мс): 1.9
© ixLab. , 2007-2025, e-mail: info@ixlab.ru