О сервисе ahunter.ru и об очистке адресных данных

Сервис ahunter.ru представляет собой облачное решение по проверке, исправлению и стандартизации почтовых адресов и телефонных номеров России. Коротко возможности сервиса можно описать следующим образом. Почтовый адрес, записанный в произвольной строковой форме, как попало и с ошибками, приводится к стандартной форме, в ходе чего выделяются его отдельные компоненты, восстанавливаются пропущенные адресные поля и почтовый индекс, исправляются ошибки. Если исходный адрес оказался устаревшим, то выполняется его приведение к актуальному виду.

Аналогичные действия выполняются над номером телефона. При совместной проверке телефона и адреса пропущенная информация о кодах телефонного номера может быть восстановлена по адресу и наоборот, адрес может быть уточнен на основании телефонного кода.

Действия, которые наш сервис выполняет над адресными данными, называются очисткой. Это означает, что исходный «грязный» почтовый адрес после обработки становится чистым так, что его гарантированно можно использовать как по прямому назначению для отправки корреспонденции, так и для иных задач, таких как дедупликация, отображение на карте и аналитика.

Чистый адрес – это уже не просто строка с текстом, это информационная структура, состоящая из отдельных компонентов – адресных полей, данные которых приведены к стандартному каноническому виду. К тому же чистый адрес однозначно указывает на существующий объект недвижимости. Иллюстрация очистки адреса приведена на рисунке ниже.

Автоматическая машинная очистка почтовых адресов представляет собой весьма сложную задачу искусственного интеллекта, про нее мы более подробно написали отдельную статью, которую можно прочитать в журнале Открытые системы или в нашем разделе Публикации. Сервис ahunter.ru успешно решает данную задачу, причем выполняет это круглосуточно под нагрузкой неограниченного потока Интернет-пользователей.

Такова была изначальная идея - создать систему очистки сразу же с прицелом на работу в среде Интернет с большим количеством пользователей, которые могут обрабатывать неограниченное количество адресных данных, представленных в произвольной форме. Мы с самого начала не ориентировали сервис на конкретного заказчика и его конкретные форматы представления почтовых адресов, напротив, мы ориентировались на всех пользователей и любые форматы.

Именно поэтому, получившийся сервис – это не просто программный продукт с хитрым алгоритмом внутри, на самом деле, это результат научной деятельности, объемы которой многократно превышают собственно разработку и программное кодирование. Убедиться в этом можно, посетив наш раздел Публикации, где приведены наши научно-технические статьи с результатами исследований, использованными при разработке ahunter.ru. Также следует отметить, что программный комплекс «Охотник за адресами», лежащий в основе сервиса, прошел процедуру государственной регистрации, в результате чего на него получен соответствующий патент.

Поскольку ahunter.ru изначально рассчитывался на работу в среде Интернет, в нем учтены вопросы безопасности, надежности, отказоустойчивости, а также вопросы быстродействия под постоянной нагрузкой. Как следствие, в настоящий момент сервис представляет собой зрелое промышленное решение по очистке контактных данных, обладающий беспрецедентной производительностью, масштабируемостью и надежностью. Данные свойства позволяют успешно использовать сервис в банковском и финансовом секторе, в сфере телекоммуникаций, Интернет-торговле и даже в медицинских учреждениях при обработке адресных данных пациентов.

Основные возможности сервиса ahunter.ru

Сервис позволяет выполнять единичную или пакетную обработку почтовых адресов. В процессе такой обработки над данными выполняются следующие действия.

  • Из свободной строковой формы адрес приводится к стандартной структуре КЛАДР (ФИАС), в процессе чего одновременно выполняется его проверка на существование. Информация о том, что адрес реально НЕ существует, сама по себе является достаточно полезной, поскольку позволяет принять соответствующие меры по восстановлению адреса, например, связавшись с клиентом по телефону.

  • Исправляются орфографические и грамматические ошибки в именах адресных объектов, наличие которых, как правило, характерно для данных, введенных вручную. Не секрет, что многие адресные объекты имеют названия, не подчиняющиеся общим грамматическим правилам русского языка, поскольку являются именами собственными. Со многими названиями оператор, вводящий почтовый адрес, сталкивается впервые. В связи с этим, при вводе сложных имен собственных ошибки неизбежны. В качестве примера, попробуйте ввести на слух адрес Республика Башкортостан, город Стерлитамак, улица Орджоникидзе.

  • Восстанавливаются недостающие компоненты адреса, такие как регион, район или индекс. В данном случае устраняется эффект человеческого фактора, поскольку людям свойственно не указывать адресную информацию, которая, по их мнению, является избыточной.

  • Исправляются нестандартные сокращения названий адресных объектов или их типов. Например, запись спб сервис исправит в Санкт-Петербург, а сокращенную запись микрорайона микр-он преобразует в мкр, как это принято в КЛАДР и ФИАС.

  • Исправляются устаревшие наименования с учетом недавних переименований адресных объектов, таких как города и улицы. Также учитываются переподчинения адресных объектов. Например, адрес Московская область, город Троицк преобразуется к актуальному на данный момент виду Москва, город Троицк.

Почтовый адрес может обрабатываться совместно с номером телефона. Хотя номер телефона представляет собой последовательность цифр, формат записи номера также может варьироваться. Сервис ahunter.ru выполнят приведение номера телефона к стандартному виду, вместе с этим сервис предоставляет информацию о его географической принадлежности, а также об операторе связи, которому принадлежит данный номер.

Если телефонный номер указан не полностью, то сервис восстанавливает его недостающие коды на основе анализа почтового адреса. Вместе с этим выполняется проверка на соответствие телефона адресу. Также выполняется и обратная процедура – почтовый адрес уточняется на основании телефонного номера.

Области применения сервиса ahunter.ru

В настоящий момент ahunter.ru используется известными российскими банками, входящими в российский ТОП-50, управляющими компаниями, коллекторскими агентствами, интернет-магазинами и телекоммуникационными компаниями. Наши пользователи решают разнообразные бизнес-задачи, наиболее типичными из которых являются следующие.

  • Банкам необходимо удостовериться в корректности почтового адреса клиента, а также получить его почтовый индекс, на этапе выдачи кредита или пластиковой карты.

  • Телекоммуникационные компании нуждаются в проверке и стандартизации адресов своих абонентов, как на этапе ввода в CRM, так и на этапе отправки счетов за телекоммуникационные услуги или уведомлений о задолженности.

  • Управляющие компании регулярно осуществляют актуализацию почтовых адресов своих клиентов для своевременной рассылки уведомлений о начислении дивидендов, а также при подготовке налоговой отчетности.

  • Страховым компаниям необходимо быть уверенными в потребителе и месте его проживания на этапе оформления страховки.

  • Коллекторские агентства работают с недобросовестными заемщиками, адреса проживания которых, как правило, содержат ошибки, пропущенные компоненты адреса, устаревшие данные. Перед началом взаимодействия с должником необходимо убедиться в существовании его адреса, а также привести адрес в порядок.

  • Интернет-магазинам нужно точно знать правильный адрес покупателя, после того, как был оформлен заказ для успешной доставки купленного товара. Если на этапе оформления заказа адрес оказался неправильным, наш сервис оповестит менеджера магазина, чтобы тот уточнил эту информацию при телефонном подтверждении заказа.

  • Медицинские учреждения используют ahunter.ru для того, чтобы уточнить адрес проживания пациента при оформлении его медицинской карты. Правильный адрес пациента весьма важен для своевременного оказания медицинской помощи.

  • Операторы call-центров, принимающие входящие звонки, располагают всего лишь десятками секунд для того чтобы воспринять адресную информацию от абонента на слух. Не смотря на жесткие ограничения по времени разговора, необходимо предельно точно и правильно зафиксировать информацию об адресе звонящего. Без использования сервиса ahunter.ru качество адресных данных, вводимых под диктовку, было бы значительно ниже.

  • Государственные учреждения работают с адресами физических или юридических лиц при оказании гос. услуг. Например, государственный кадастр недвижимости работает с адресами объектов недвижимости, от корректности которых напрямую зависит функционирование единого государственного реестра прав на недвижимое имущество. Корректность этих адресов обеспечивается системой, лежащей в основе ahunter.ru.

Варианты использования сервиса

Существует три варианта использования сервиса.

  • Пакетная обработка адресных массивов.

  • Стыковка приложения с сервисом посредством программного интерфейса (API).

  • Интерактивная проверка адресов посредством функций сайта http://ahunter.ru, находящихся в открытом доступе.

Пакетная очистка почтовых адресных

Пакетная обработка востребована в случае, когда требуется выполнить очистку адресных данных, представленных большими массивами, а также получить оценку их качества. Такая задача возникает, когда под рукой уже имеются введенные ранее адреса, например, в виде файла с таблицей Excel, экспортированной из базы данных CRM-системы. Для работы с сервисом в таком режиме необходим доступ к сети Интернет и веб-браузер. Порядок использования сервиса в этом случае весьма прост.

  • Необходимо зайти в партнерский раздел сервиса по адресу http://ahunter.ru. Для этого потребуется ввести имя учетной записи и пароль, от лица которой будет происходить работа.

    Учетные записи создаются администратором сервиса после того, как пользователь заключил с нами партнерское соглашение. Чтобы стать партнером, достаточно обратиться к нам по любому из контактов, доступных в разделе Контакты.

  • Далее необходимо загрузить файл с адресным массивом на сайт сервиса. В терминологии сервиса такие файлы называются реестрами. Размер реестра не ограничен.

    Количество загружаемых и обрабатываемых реестров также не ограничено.

  • После успешной загрузки реестра можно запустить его на обработку.

    Если реестр был загружен по ошибке, его можно удалить. Такое может произойти, например, если один и тот же адресный массив был дважды загружен разными сотрудниками компании.

  • После запуска обработки необходимо дождаться завершения этого процесса. Время обработки зависит от количества адресов в массиве. В среднем один адрес обрабатывается за 10-20 миллисекунд, что соответствует скорости обработки ~5000 адресов в минуту.

  • После того как обработка массива завершится, появится возможность скачивать результирующие файлы.

    Состав файлов, доступных для скачивания, зависит от тарифного плана, по которому работает пользователь. В минимальном случае будет доступен один файл, в котором каждой исходной записи будет поставлен в соответствие один правильный адрес, полученный в результате очистки. В случае если тарифный план позволяет, в этом же файле каждому адресу будет проставлен код КЛАДР, а также код качества. Оценка качества каждого адреса является важной составляющей процедуры очистки, поскольку числовые коды качества позволяют судить о том, насколько «грязными» были исходные данные, что в свою очередь дает информацию о том, насколько качественно была организована процедура ввода адресов.

  • Кроме данной информации, сервис может выполнить классификацию обработанных адресов, а также экспертизу отбракованных. Классификация бывает полезной, когда, например, требуется получить все варианты распознавания для неоднозначных адресов. В этом случае все неоднозначные адреса выгружаются в отдельную таблицу Исправленные многозначные, в которой каждый вариант стандартизации и очистки неоднозначного адреса приводится в отдельной строке. Экспертиза отбракованных адресов представляет собой более тщательную и сложную обработку, применяемую к адресам, отбракованным при выполнении очистки. В результате экспертизы некоторые адреса, отбракованные при очистке, могут быть исправлены. Данная опция доступна в тарифном плане Экспертный.

Стыковка приложений с сервисом посредством API

Кроме интерактивной работы в партнерском разделе ahunter.ru существует возможность интегрировать все его функции во внешнее приложение. Это удобно, например, когда у заказчика есть продвинутое веб-приложение или система, функции которого нужно расширить путем добавления возможности выполнять очистку адресных или иных контактных данных.

Для этих целей сервис предоставляет достаточно простой для использования, но весьма развитый программный интерфейс (API). Сервис реализует REST-парадигму, так что все запросы передаются по HTTPS методом GET или POST. В случае с методом GET параметры запроса указываются непосредственно в URL запроса, при использовании метода POST параметры передаются в теле HTTP-запроса. API поддерживает набор команд, наиболее распространенными из которых являются следующие:

  • cleanse/address – проверка одиночного адреса. В качестве результата сервис возвращает стандартизованную версию адреса, обогащенную дополнительной информацией, такой как географические координаты. Если адрес подразумевает неоднозначную интерпретацию, сервис вернет все подходящие варианты стандартизации;

  • cleanse/phone – обработка одиночного телефонного номера. В качестве результата сервис возвращает варианты исправления телефонного номера, его географическую привязку, а также имя оператора связи, отвечающего за данный номер;

  • cleanse/person – стандартизация фамилии, имени и отчества персоны. В качестве результата сервис возвращает ФИО, разделенное на отдельные компоненты - фамилию, имя и отчество. Также сервис возвращает автоматически определенный пол персоны и ее национальность;

  • cleanse/record – перекрестная обработка контактных данных, объединенных в одной записи. Обрабатываемая запись может содержать сразу несколько адресов, телефонов и ФИО контактного лица. В ходе обработки адреса уточняются на основе анализа телефонных номеров и наоборот;

  • cleanse/chunk – обработка пакета из нескольких записей. Каждая запись пакета может включать несколько почтовых адресов, телефонных номеров и ФИО, например: адрес проживания, адрес прописки, мобильный, домашний и рабочий телефонные номера.

  • suggest/address – команда, позволяющая формировать подсказки на лету при вводе почтового адреса человеком в режиме реального времени.

  • suggest/person – формирование подсказок при вводе ФИО персоны. Сервис выдает подсказки с учетом пола и национальности вводимой персоны, которые он определяет непосредственно в процессе ввода.

Результат выполнения команды возвращается в теле HTTP-ответа в виде XML-документа. Пример ответа на обработку адреса мск пр. мира магазин перекресток командой cleanse/address приведен на следующем рисунке.

Рисунок наглядно демонстрирует структуру адреса, в которую была преобразована исходная строковая запись. Сервис разложил адрес по отдельным полям, привел имена адресных объектов к каноническому виду и восстановил почтовый индекс. Более того, в XML-элементе Cover сервис отделил адресную часть текста от неадресной. В данном случае неадресной информацией является фраза магазин перекресток. Данная возможность является весьма полезной, поскольку при записи адресов люди зачастую указывают дополнительные ориентиры, например, названия магазинов или торгово-развлекательных центров.

Более подробно информацию об API и его возможностях можно получить в руководстве разработчика, которое можно скачать здесь.

Интерактивная проверка и поиск адресов

Интерактивная работа с сервисом подразумевает использование его функций, находящихся в открытом доступе, посредством веб-сайта http://ahunter.ru. В данном виде сервис позволяет в некоммерческих целях выполнять проверку и исправление одиночных адресов или небольших адресных пакетов.

Потребность в данных функциях время от времени возникает у пользователей, например, когда требуется перед отправкой письма узнать правильное написание адреса и его почтовый индекс, получить актуальное написание устаревшего адреса.

Также в интерактивном режиме доступна весьма полезная функция Навигатор.

Данная возможность позволяет найти или сконструировать почтовый адрес, даже если большая его часть пользователю неизвестна. В простейшем случае пользователь может осуществить спуск по древовидной иерархии административно-территориального деления России, начиная с региона и заканчивая улицей целевого адреса. Кроме спуска имеется возможность выполнять поиск в иерархии адресов, осуществляя своего рода ее фильтрацию на основании фрагментов целевого адреса. Данная функция полезна, если пользователю известен небольшой кусочек адреса и он пытается полностью восстановить его, осуществляя последовательную навигацию по иерархии.

В качестве примера предложим, что нам нужно выяснить, в каких населенных пунктах и городах Республики Башкортостан присутствует улица Орджоникидзе. Для этого достаточно ввести в поисковую форму фразу орджоникидзе, после чего выбрать в полученном списке регионов Республику Башкортостан и получить требуемый результат.

Распознавание почтовых адресов в текстах документов

Данная возможность сервиса ahunter.ru стоит особняком от остальных, поскольку фактически не относится к задаче очистки адресных данных. Ее назначение – выполнять на лету поиск, распознавание, исправление и приведение к стандартному виду почтовых адресов в текстах документов официального характера.

В первую очередь здесь идет речь об обработке таких документов как договора, акты, накладные, квитанции или счета на оплату. Все документы такого рода объединяет одна общая черта – в них в обязательном порядке указываются реквизиты юридических или физических лиц, в том числе и фактический или юридический адрес. Наш сервис позволяет автоматически находить и распознавать эти адреса непосредственно в текстах таких документов, подсвечивать их в тексте и предлагать их правильные варианты написания. Иллюстрация данной возможности показана на следующем рисунке.

Мы просто скопировали содержимое странички Контакты нашего сайта, вставили его в соответствующее поле сервиса по адресу http://ahunter.ru/site/address/detect и нажали Найти.

Существует достаточно много сценариев и бизнес-задач, в рамках которых может быть полезной данная возможность сервиса. Наиболее типичными являются следующие.

  • Есть пакет документов (договора, счета и пр.), отражающий деловые взаимоотношения компании с ее клиентами. Требуется выполнить обогащение базы данных CRM-системы или создать ее с нуля на основе информации, имеющейся в этих документах. Функция распознавания почтовых адресов в текстах нашего сервиса может использоваться для автоматического выявления в текстах анализируемого пакета документов юридических и фактических адресов клиентов и добавления их в базу данных CRM-системы.

  • Имеется база данных клиентов, где с каждым клиентом связан его почтовый адрес. Время от времени эта база обновляется, в том числе меняются адреса клиентов. Поскольку каждому клиенту соответствует договор, заключенный между ним и компанией, в определенный момент возникает необходимость проверить все имеющиеся договора на предмет соответствия адресов, указанных в их текстах, с актуальными адресами, присутствующими в базе данных. Решение данной задачи с использованием возможностей сервиса ahunter.ru осуществляется в три этапа. На первом этапе адреса базы данных подвергаются пакетной очистке. На втором этапе все договора обрабатываются функцией распознавания почтовых адресов. На третьем этапе очищенные адреса сравниваются с адресами, распознанными в текстах договоров, на предмет их взаимного соответствия.

  • Некоторые наши пользователи работают с данной функцией через API для выявления адресов в объявлениях об аренде или купле/продажи недвижимости, доступных в открытом доступе, для дальнейшего обогащения собственной базы.

Интересные факты о сервисе

  • Сервис ahunter.ru работает круглосуточно на двух выделенных серверах, размещенных территориально на разных площадках. Один из серверов является боевым, второй – резервным. В случае аварии на боевом сервере пользователи временно переводятся на работу с резервным. Такое резервирование гарантирует бесперебойность бизнес-процессов наших клиентов.

  • Производительности одного сервера достаточно для обработки от 3 до 5 миллионов адресов в сутки.

  • Сервис работает под управлением операционной системы Linux, на данный момент используется CentOS последней версии.

  • Система Охотник за адресами, лежащая в основе сервиса и выполняющая всю черновую работу по очистке и распознаванию почтовых адресов, полностью реализована на языке программирования C++.

  • Вся бизнес-логика сервиса реализована на языке программирования Perl, однако в недалеком будущем эта часть будет переписана на C++.

  • Интеграционные модули, разработанные нашими пользователями для работы с сервисом через API, написаны на различных языках программирования, нам доподлинно известно о следующих: Java, C#, Perl, PHP и C++.

Последние события

27.01.2017 Запустили в боевом режиме ahunter.ru версии 3.0.

30.11.2016 Запустили в режиме апробации репликацию данных между серверами Ахантера.

Архив событий

25.07.2016 Внедрили поддержку кодов ОКАТО, ОКТМО и ФИАС на ahunter.ru.

15.06.2016 Обогатили базу GPS-координат и телефонных номеров.

30.05.2016 Разработали решение DebtorCleanse по стандартизации и унификации контактных данных должников.

11.03.2016 Закончили разрабатывать Lingalign - решение для перевода и интернационализации проектов и веб-сайтов.

10.02.2016 Открыли регистрацию пользователей на сервисе ahunter.ru.

20.01.2016 Добавили возможности транслитерации и перевода адресов в ahunter.ru.

Страницы: 1 2 3 вперед »