Назначение программного комплекса ahunterES

Сервер ahunterES представляет собой программное решение, предназначенное для выполнения проверки, исправления, очистки и нормализации почтовых адресов и телефонных номеров России, а также поиска и проверки почтовых адресов в текстах официальных документов, таких как договора, приказы, счета-фактуры, анкеты и резюме. В основе ahunterES лежит наша запатентованная Информационная система по распознаванию и исправлению почтовых адресов Российской Федерации (Охотник за адресами).

Продукт ahunterES во многом повторяет возможности нашего облачного решения ahunter.ru, в основе которого также лежит «Охотник за адресами». Основное отличие ahunterES заключается в том, что он представляет собой серверное решение, устанавливаемое в инфраструктуру конкретного заказчика и, как следствие, может настраиваться под конкретные нужды и конкретное окружение.

Сервисная архитектура ahunterES

С архитектурной точки зрения, ahunterES представляет собой сервисное решение. Это позволяет выполнить подключение функций по очистке данных к любым внешним приложениям с минимальными трудозатратами на интеграцию. Интеграцию можно выполнять как по принципу точка-точка, так и посредством шины.

Запросы на обработку данных сервер ahunterES получает по протоколу HTTP. Мы используем REST парадигму, поэтому большая часть запросов может передаваться методами GET или POST в виде простых текстовых строк, подлежащих обработке. Результат обработки возвращается в виде XML-сообщений. Для обработки комплексных контактных записей, включающих в себя несколько адресов и телефонов одной и той же персоны, запросы можно передавать в виде XML-сообщений.

В результате интеграции конечные пользователи продолжают работать с привычными для них приложениями. По мере необходимости эти приложения отсылают запросы на очистку контактных данных напрямую сервису или через интеграционную шину, получают от сервиса результаты и дальше используют их в своих бизнес-задачах.

Модульная структура ahunterES

При внедрении ahunterES важную роль играет понимание внутренней структуры сервера системы. Сервер построен по модульному принципу, включение в состав ahunterES тех или иных модулей влияет на его итоговые функциональные возможности, а также на его стоимость. Модульная структура сервера представлена на следующем рисунке.

Компоненты продукта ahunterES

Представленные компоненты выполняют следующие функции в составе ahunterES.

  • Первичный (front-end) веб-сервер обеспечивает взаимодействие клиентов с сервером по протоколу HTTP. Данный сервер отвечает за получение от клиентов запросов на обработку контактных данных, а также за передачу итоговых XML-сообщений с результатами. В зависимости от платформы, на которой размещается ahunterES, в роли веб-сервера может выступать Microsoft Internet Information Services, либо открытый сверхпроизводительный веб-сервер lighttpd.

  • Модуль интеграции. Данный функциональный блок отвечает за разбор полученных от клиента запросов, за формирование результирующих XML-ответов, а также за взаимодействие с сервером распознавания. Модуль интеграции дополнительно берет на себя функции балансировки нагрузки, если в инфраструктуре устанавливается несколько серверов распознавания.

  • Сервер распознавания «Охотник за адресами» выполняет всю реальную работу по очистке и стандартизации поступающих на вход данных. В инфраструктуре заказчика может быть установлено несколько таких серверов, в этом случае можно организовать распределение нагрузки между ними. В зависимости от потребностей в тех или иных функциях по очистке и обработке контактных данных в сервер распознавания могут включаться те или иные модули, а именно.

Модули сервера распознавания ahunterES

  • Модуль распознавания и исправления адресов реализует функции по разбору слабоструктурированной адресной информации, распознаванию и восстановлению адресных полей. Результатом работы этого модуля является один или несколько адресов, соответствующих исходной адресной информации.

  • Модуль распознавания телефонных номеров используется для распознавания в исходном тексте номеров телефонов как стационарных, так и мобильных, а также для выполнения географической привязки номеров к конкретным адресным объектам. Включение данного модуля в состав ahunterES автоматически активирует возможность перекрестной проверки телефона и адреса.

  • Модуль мягкой обработки адресов. Данный модуль включается в состав ahunterES при необходимости использования функций нестрогой обработки адресных данных в интерактивном режиме. Для более полного понимания того, чем данный модуль отличается от модуля распознавания и исправления следует отметить следующее.

    У сервера распознавания есть два режим обработки адреса - очистка и поиск. Очистка работает, когда речь идет именно об автоматической обработке данных без участия человека-оператора. Поскольку человек не контролирует данный процесс, алгоритмы очистки работают более строго, чтобы не допустить неправильных исправлений. В режиме поиска сервис работает менее строго, это позволяет получить результат даже для достаточно сильно искаженных данных. Однако в таком режиме система может предлагать неправильные варианты, поэтому режим поиска должен проходить под контролем человека-оператора.

    Для сравнения результатов работы системы в обоих режимах, можно ввести адрес спб 1 линия на демо-страницах http://ahunter.ru/site/demo/address и http://ahunter.ru/site/demo/detect. Первый вариант соответствует режиму поиска, поэтому там система вернет несколько вариантов, так что в случае небрежного ввода оператор может выбрать один, наиболее подходящий. Второй вариант соответствует режиму очистки, в нем сервер распознавания вернет только один вариант, экзотические варианты будут отброшены автоматически. Режим поиска можно использовать, например, когда оператор регистрирует нового клиента. В этом случае, после того, как оператор ввел клиентские данные, у него есть возможность проконтролировать результат и, например, выбрать один из нескольких предложенных сервисом вариантов.

  • Модуль фильтрации результатов проверки позволяет использовать более точные настройки в виде правил, записываемых на специальном языке, позволяющих учитывать специфику форматов обрабатываемых данных. Использование данного модуля позволяет в некоторых случаях более точно исправлять проверяемые адреса, однако требует дополнительной работы по написанию самих правил. Также, использование данного модуля позволяет задавать приоритеты некоторым регионам РФ, если заранее известно, что обрабатываемые адреса с большой вероятностью относятся к этим регионам. Использование приоритетных регионов позволяет повысить качество обработки входных адресов.

  • Модуль индексирования и хранения управляет поисковыми индексами и хранилищем подсистемы, наличие которых необходимо для работы всех модулей, приведенных выше.

  • Модуль автодополнения и подсказок позволяет использовать возможности ahunterES, отвечающие за формирование подсказок, помогающих оператору при интерактивном вводе адреса сократить время ввода и уменьшить количество допускаемых ошибок.

  • Модуль стандартизации ФИО обеспечивает стандартизацию и исправление опечаток в фамилиях, именах и отчествах. Также данный модуль позволяет определять пол и национальность по написанию ФИО и оценивать, насколько характерна для данной национальности комбинация введенных ФИО. Данная возможность может быть особенно полезна для выявления мошенников или хулиганов, указывающих при заполнении регистрационных форм заведомо некорректные ФИО. Также данная функция может использоваться как составная часть кредитного скоринга.

  • Модуль многоядерной оптимизации позволяет системе эффективно использовать аппаратные возможности современного многопроцессорного и многоядерного серверного оборудования. Наличие данного модуля позволяет наращивать производительность системы за счет увеличения числа используемых на сервере процессорных ядер.

Требования к платформе при внедрении ahunterES

Программная среда

Сервер ahunterES может функционировать под управлением ОС семейства Linux, ОС Windows, а также под управлением ОС HP-UX. Для работы ahunterES не требуется лицензировать дополнительное программное обеспечение, в частности не требуется наличие СУБД, т.к. всей необходимой информацией ahunterES управляет посредством собственного хранилища.

Ниже приведены характеристики программного обеспечения, необходимого для работы ahunterES под управлением ОС семейства Linux, Windows и HP-UX.

  • архитектура: x86 или x86_64

  • ядро: 2.6

  • Веб-сервер: lighttpd 1.4

  • Perl 5.10

  • архитектура: x86 или x86_64

  • версия: Windows Sercer 2008/2012

  • Веб-сервер: IIS 7.0 или lighttpd 1.4

  • Perl 5.10

  • архитектура: IA-64

  • версия: HP-UX B.11.31

  • Веб-сервер: lighttpd 1.4

  • Perl 5.10

Отметим, что конфигурации, работающие под управлением операционных систем Red Hat Linux и Windows Server, официально апробированы нами в реальных боевых условиях и поддерживаются фактически «из коробки». При необходимости мы готовы внедрять ahunterES под управлением других видов операционных систем, таких как Solaris, AIX или FreeBSD, по предварительному согласованию платформы с заказчиком.

Аппаратная платформа

Сервер ahunterES может работать на любом оборудовании, поддерживающем одну из следующих архитектур:

  • IA32 – Intel-совместимые 32-битные процессоры x86.

  • AA64/EM64T – AMD/Intel-совместимые 64-битные процессоры x86_64.

  • IA64 – процессоры с архитектурой Intel Itanium 2.

Минимальные и рекомендуемые характеристики серверного оборудования для комфортной работы ahunterES приведены в следующей таблице.

Минимальное значение Рекомендуемое значение
CPU 1 ядро 2ГГц 2 ядра 2ГГц
RAM 1 Гб 2 Гб
HDD 20 Гб 50 Гб
Ethernet 10 Мбит/с 100 Мбит/с

Поскольку в основе очистки данных в ahunterES реализованы принципы распознавания, наиболее критичным для производительности продукта является объем оперативной памяти и быстродействие процессора. Объем жесткого диска решающей роли не играет, поскольку диск используется в основном для хранения журналов работы системы, а также для хранения обработанных реестров и результатов их обработки.

Интересные факты об ahunterES

  • На оборудовании, удовлетворяющем рекомендуемым требованиям, производительность ahunterES достигает 50 проверенных и исправленных почтовых адресов в секунду.

  • Сервер ahunterES хорошо масштабируется, что позволяет наращивать производительность проверки и исправления почтовых адресов с увеличением числа процессоров или процессорных ядер серверного оборудования. Наши тесты показали линейный рост производительности сервера при увеличении числа процессорных ядер.

  • Каждая новая версия ahunterES проходит всестороннее комплексное тестирование, в рамках которого обязательным является нагрузочная проверка путем обработки двух миллионов реальных адресных записей. Ядро ahunterES используется в нашем облачном сервисе ahunter.ru, который функционирует в режиме 24x7.

  • Сервер ahunterES использует собственное хранилище, которое обеспечивает высокую надежность и быстродействие. Индексы и данные в этом хранилище организованы именно так, как этого требуют алгоритмы распознавания ядра ahunterES. Дополнительным бонусом собственного хранилища ahunterES является снижение нагрузки на ИТ-службу и инфраструктуру компании, поскольку не требуется лицензировать, настраивать и администрировать отдельный сервер СУБД.

  • В основе хранилища ahunterES лежит классификатор адресов России (КЛАДР). Кроме данных из КЛАДР в наше хранилище включена информация из других авторитетных источников, таких как ФИАС и Государственный кадастр недвижимости. Для регулярного пополнения нашего хранилища мы разработали соответствующую технологию, позволяющую нам консолидировать адресную информацию из разных источников.

Последние события

26.09.2024 Внедрили подсказки по паспортным данным

20.07.2024 Обработали в облаке более 2 млрд. данных

09.04.2024 Добавили на Ахантере подсказки по реквизитам банков

01.02.2024 Внедрили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Архив событий

01.08.2009Запущена версия 1.1.2 "Охотника за адресами", в которой добавлена функция проверки и исправления группы почтовых адресов.

17.06.2009Вышла версия 1.1.1 "Охотника за адресами", в которой улучшена функция выбора единственного правильного почтового адреса из нескольких альтернатив.

11.01.2009Запущен "Охотник за адресами" - сервис по распознаванию почтовых адресов РФ в произвольных текстах.

03.01.2009Закончено портирование распознавателя составных топонимов на платформу Linux x64.

25.10.2008Разработан распознаватель составных топонимов в произвольных текстах на естественном языке.

Страницы: « назад 13 14