Бизнес направление

О компании Новости Продукты и сервисы Наши клиенты Контакты

R&D направление

О лаборатории Технологии Направления работ Публикации Бэкграунд

ahunterPro: профессиональная очистка адресных данных в облаке

Назначение продукта ahunterPro

Программный продукт ahunterPro позволяет выполнять расширенную очистку почтовых адресов, используя при этом все возможности нашего сервиса ahunter.ru. При создании ahunterPro мы старались упростить решение следующих задач, с которыми сталкиваются пользователи при выполнении очистки адресных данных.

Минимизировать количество рутинных операций, которые пользователю приходится делать, выполняя пакетную обработку контактных данных. Данная проблема актуальна, если пользователю в течение рабочего дня необходимо запускать на сервисе обработку достаточно большое количество адресных массивов (реестров). В этом случае приходится задумываться уже об автоматизации самого процесса передачи реестров сервису и последующего использования результатов обработки.
Позволить пользователю самостоятельно управлять форматами адресных массивов и результатов их очистки. В частности, пользователь может самостоятельно настроить порядок вывода адресных и служебных полей в результирующие таблицы. Например, можно указать, чтобы почтовый индекс выводился в самую последнюю колонку таблицы, или сделать так, чтобы адресные поля с названием района и города при выводе в итоговую таблицу объединялись в одну общую колонку. Управлять можно и слиянием результата очистки с исходной таблицей. Например, если в исходной таблице кроме почтового адреса представлена прочая информация о клиенте (ФИО, номер телефона, номер договора и т.д.), то можно настроить ahunterPro так, чтобы результат очистки вставлялся непосредственно в эту исходную таблицу в заранее заданное место.
Автоматически скрывать конфиденциальные данные (например, ФИО клиента и номер его договора), так чтобы на сервис ahunter.ru эта информация гарантированно не передавалась. Без использования ahunterPro для этих целей пришлось бы вручную открывать таблицу в Excel и удалять конфиденциальные колонки.

Следует отметить, что выполнять пакетную очистку адресных данных можно и без использования ahunterPro, ведь для этого существует партнерский раздел сервиса ahunter.ru. Тем не менее, ahunterPro необходим, когда обработка адресов приобретает действительно промышленные масштабы. Это характерно для организаций с миллионами клиентов, таких как крупные банки, коллекторские агентства и сотовые операторы. В этом случае можно максимально приблизить процесс очистки контактных данных к бизнес-процессам заказчика, не выполняя при этом внедрение сервисного решения ahunterES в инфраструктуру заказчика. Что в свою очередь позволяет заказчику избежать издержек, связанных с подготовкой и настройкой инфраструктуры и оборудования, а также с техническим обслуживанием внедряемого решения.

Типовые операции при стандартизации почтовых адресов

Перед разработкой ahunterPro мы проанализировали типовые действия, которые наши пользователи выполняют при подготовке пакетов с адресной информацией к очистке, а также действия, которые позже выполняются с полученными результатами. Мы получили примерно следующие сценарии.

Подготовка адресов к очистке

Как правило, исходные данные для очистки представлены таблицами Excel или CSV. Эти таблицы формируются в результате экспорта контактных данных клиентов из существующей CRM-системы. Практика показывает, что в процессе экспорта в итоговую таблицу кроме почтовых адресов выгружается сопутствующая информация о клиентах, например, фамилия, имя и отчество, номер договора, семейное положение, тарифные планы и др. Вся эта сопутствующая информация может являться конфиденциальной, поэтому перед запуском реестра на обработку требуется удалить ее из таблицы. Для этого пользователь вынужден открывать реестр в редакторе таблиц, например, в Excel, выделять колонки с конфиденциальными данными и удалять их.

Подготовленный таким образом файл загружается на сервис ahunter.ru и запускается на обработку.

Получение и использование результата очистки

После того, как сервис завершит обработку реестра, пользователь должен скачать файл с результатом. Далее, как правило, откорректированные адреса необходимо передать обратно CRM-системе взамен текущих, неочищенных. Это обеспечивается функцией импорта самой CRM-системы, однако практика показывает, что импорт может выполняться при условии, что данные представлены в том же формате, в котором они были экспортированы. Поэтому пользователю далее необходимо вставить очищенные почтовые адреса в исходную таблицу, из которой он перед обработкой удалил лишние колонки.

Обычно вставка выполняется взамен исходных контактных данных, тем самым исходные ненормализованные почтовые адреса заменяются стандартизованными адресами, приведенными к КЛАДР и ФИАС.

Обычно такая замена выполняется путем копирования колонок с результатом очистки из скачанной таблицы в таблицу исходную. Если данная процедура выполняется нечасто, например, один-два раза в день, проблем с ней возникнуть не должно. Однако если выполнять ее пару десятков раз в течение рабочего дня, то вероятность допустить ошибку возрастает в разы.

Слияние исходной таблицы с очищенными адресами

Дополнительную проблему создает то, что обычно в исходной таблице под адресные данные выделено меньше колонок, чем оказывается на самом деле. Например, название района и города может быть записано в одной колонке, тогда как в правильном варианте написания адреса эти два поля заносятся в отдельные колонки.

Чтобы преодолеть данную проблему, необходимо вновь открывать таблицу с результатом обработки в Excel и выполнять объединение требуемых колонок. Опять-таки один-два раза в день такую процедуру можно выполнить без повышенного риска допустить ошибку, однако при выполнении таких операций в более серьезных масштабах данный процесс необходимо автоматизировать. Для этих целей можно написать макросы, однако проще задействовать соответствующую возможность продукта ahunterPro, который позволяет один раз настроить порядок объединения колонок результата очистки и порядок их вывода в исходную таблицу с контактными данными, после чего данные настройки будут применяться ко всем результатам обработки.

Порядок работы с ahunterPro

Продукт ahunterPro представляет собой приложение, работающее под управлением операционной системы Microsoft Windows, либо под управлением операционной системы семейства Linux. Для работы с приложением, требуется его инсталляция на компьютере пользователя. Приложение предоставляется для пользователей, работающих с сервисом ahunter.ru по тарифному плану "Расширенный" или "Экспертный".

Запуск приложения

Запуск приложения осуществляется по иконке Иконка на рабочем столе, запускающая ahunterPro на рабочем столе. При первом запуске ahunterPro предложит ввести имя учетной записи, от лица которой будет выполняться работа с сервисом, а также пароль.

Диалоговое окно для подключения к сервису ahunter.ru

Можно поставить флажок «Запомнить эти данные», что позволит в дальнейшем не вводить заново имя и пароль. В этом случае при следующем запуске пользователь сразу получит доступ к своему партнерскому разделу.

Внешний вид партнерского раздела в ahunterPro

И это весьма удобно – двойной клик по иконке Иконка на рабочем столе, запускающая ahunterPro на рабочем столе и уже можно запускать очистку новых адресных массивов.

Создание схемы обработки реестров

Перед первым запуском реестра на обработку необходимо создать схему обработки. Схема создается один раз для заданного типа реестров. В рамках схемы указываются колонки, содержащие адресные данные для обработки, выбираются поля, выводимые в результат и порядок их следования, выполняется настройка слияния результата с исходной таблицей. Еще раз отметим, что схема создается один раз для конкретного формата адресного реестра и в дальнейшем, при обработке очередного массива такого формата, схему менять не надо. Достаточно просто указать, что к файлу, который мы собираемся обработать, следует применить выбранную схему.

Поскольку при первом запуске программы нет готовых схем, внешний вид партнерского раздела в ahunterPro будет выглядеть следующим образом.

Внешний вид партнерского раздела в ahunterPro при первом запуске

Поскольку готовой схемы обработки реестра пока нет, мы не можем отправить его на сервис. Новую схему можно создать только при наличии под рукой соответствующего реестра. Это позволяет видеть, как та или иная настройка схемы влияет на колонки с реальными данными реестра.

При нажатии на кнопку «Новая схема» откроется редактор схемы. В первую очередь необходимо задать имя схемы, чтобы в дальнейшем ее можно было легко отличать от других схем без необходимости ее просмотра в редакторе.

Выбор столбцов с адресной информацией для передачи сервису

По умолчанию в редакторе схем открывается страница с первой закладкой «Обрабатываемые столбцы». Содержимое этой страницы для наглядности автоматически заполняется небольшим количеством строк исходного реестра, на основе которого создается схема.

Выбор в ahunterPro колонок с адресной информацией для обработки

Щелкая по заголовкам столбцов, можно выделять или снимать их выделение. Информация в выделенных столбцах будет отсылаться на сервис для обработки, тогда как данные из невыделенных столбцов за пределы рабочего места пользователя передаваться не будут. Таким образом, выделяя или снимая выделение столбцов, можно разрешать или запрещать передачу и обработку тех или иных данных исходной таблицы.

Флажок «Первая строка содержит шапку» подсказывает ahunterPro, как именно следует обрабатывать первую строку реестра. Под «шапкой» подразумевается строка, ячейки которой содержат названия колонок. Такие шапки часто создаются при экспорте данных из CRM-систем или при сохранении таблиц Excel в формате CSV. Так в приведенном примере первая строка содержит такие названия колонок как «ID записи», «Адрес» и «Секретные данные». Чтобы эти названия понапрасну не передавать на обработку, можно установить флажок «Первая строка содержит шапку».

В приведенном примере полагается, что колонка «Секретные данные» содержит конфиденциальную информацию, например, паспортные данные клиентов, поэтому данная колонка оставлена без выделения. Это гарантирует, что соответствующая информация останется в секрете и передаваться на обработку не будет.

Выбор компонентов почтового адреса для вывода в результат очистки

На странице с закладкой «Выбор полей» необходимо выбрать поля с информацией, которая будет возвращаться в итоговую таблицу с результатом очистки. Именно здесь можно задать требуемый порядок выдачи адресных компонентов, настроить разделители между ними, управлять слиянием соседних полей, а также управлять выдачей дополнительной неадресной информации, такой, например, как код КЛАДР или код качества.

Выбор компонентов почтового адреса

В правой части окна отображаются все доступные для вывода в результат очистки поля. В левой части отображаются поля, которые уже выбраны. Так, на приведенном выше рисунке мы выбрали для вывода в итоговую таблицу только два поля – тип региона и имя региона, которому принадлежит очищенный адрес. Мы также указали, чтобы между этими полями выводился разделитель точка с запятой. Разделитель будет выводиться независимо от того, заполнены адресные поля с типом и именем региона или нет. На это указывает соответствующий флажок в колонке «Обязательный». Если данный флажок убрать, то разделитель будет выводиться только в том случае, если поля, между которыми он выводится, будут непустыми. Поскольку типа и имени региона явно недостаточно для получения полного представления об очищенном адресе, добавим все адресные поля в итоговую выдачу, немного изменив стандартный принцип разделения полей.

Настройка разделителей между компонентами почтового адреса

В данном примере мы хотим, чтобы результат очистки каждого адреса выводился в одну строку фактически без явного разделения на компоненты. Такой принцип разделения наиболее привычен для восприятия человеком, поскольку разделители между адресными компонентами будут выводиться в виде запятых и только тогда, когда эти компоненты реально заполнены в очищенном адресе. При этом в качестве разделителя между типом каждого адресного объекта и его именем мы задали пробел, который тоже не является обязательным, так что он будет выводиться только в случае, если имя и тип соответствующего адресного поля окажутся непустыми.

Следует особенно отметить важную роль разделителей в формировании колонок итоговой таблицы с очищенной адресной информацией. Стандартным разделителем для формирования отдельных колонок является точка с запятой. Таким образом, указывая точку с запятой в качестве разделителя между любыми двумя соседними адресными компонентами или между именем объекта и его типом, мы фактически указываем на то, чтобы эти данные выводились в две отдельные соседние колонки таблицы. Напротив, если мы устанавливаем между любыми двумя соседними адресными полями иной нестандартный разделитель (например, пробел или запятую), то таким образом мы указываем на то, что данные по обе стороны от нестандартного разделителя должны сцепляться в единую строку и, как следствие, выводиться в общую колонку.

Настройка слияния очищенных адресов с исходной таблицей

На странице с закладкой «Замещаемые столбцы» можно выбрать колонки исходной таблицы, вместо которых будут помещаться очищенные адреса. По умолчанию на данной странице не выбран ни один столбец. Это означает, что результат очистки будет выводиться в новые столбцы, которые будут вставляться справа относительно последней колонки исходной таблицы.

Настройка слияния очищенных адресов с исходной таблицей

Предположим, что мы хотим исправленные адреса записывать поверх исходных «грязных» адресов. Для этого на странице «Замещаемые столбцы» нам нужно выбрать колонку «Адрес», поскольку в нашем примере именно эта колонка содержит исходные грязные адресные данные. Если бы исходный адрес был рассредоточен по нескольким исходным колонкам, нам нужно было бы выбрать все эти колонки.

Настройка сохранения исходных отбракованных адресных записей

В результате вместо старых данных, размещенных в выбранной колонке, в итоговой таблице будут размещаться очищенные адреса, полученные от сервиса. Дополнительно мы установили флажок «Сохранять исходную запись, если ее не удалось исправить». Если этот флаг не устанавливать, то исходные адреса, которые сервис не смог привести к правильному виду, будут замещаться пустыми ячейками. Данный флаг полезен, если при дальнейшем использовании полученной таблицы требуется иметь адресную информацию во всех строках таблицы, независимо от того, удалось их привести к правильной форме или нет. Такой сценарий, например, может возникнуть при почтовой рассылке, когда отправка корреспонденции должна быть обязательно выполнена для всех адресатов. В этом случае, адресаты, контактные данные которых удалось проверить и нормализовать, получат свою корреспонденцию гарантированно, тогда как успех доставки писем для получателей с отбракованными адресами будет зависеть уже от удачи и от возможностей почтовой службы.

Данный флаг следует использовать с осторожностью: при настройке схемы нужно проследить, чтобы количество колонок исходной таблицы, содержащей грязные адресные данные, не отличалось от количества колонок в очищенном адресе. Например, в нашем примере исходный неочищенный адрес занимает всего одну колонку «Адрес», поэтому на странице «Выбор полей» мы должны так настроить разбивку очищенного адреса на столбцы, чтобы откорректированный адрес также занимал только одну колонку. Разбивка откорректированного адреса на колонки таблицы определяется обязательными стандартными разделителями (по умолчанию ahunterPro в качестве стандартных разделителей использует точку с запятой).

Ранее при настройке выводимых полей мы заменили все стандартные разделители запятыми и пробелами, таким образом, мы гарантировали, что результат очистки будет размещаться в одной колонке, поэтому мы смело можем устанавливать флажок «Сохранять исходную запись, если ее не удалось исправить». Если же мы не уделим разбивке очищенного адреса на колонки должного внимания, и результирующий адрес будет занимать большее количество колонок, чем исходный, то использование флажка «Сохранять исходную запись, если ее не удалось исправить» приведет к следующей ситуации. Строки, содержащие адреса, которые сервис не смог исправить, будут содержать меньшее количество ячеек, чем строки с исправленными адресами. В результате, дальнейшее использование такой таблицы, может вызвать определенные затруднения.

Отправка реестра на сервис и запуск обработки

После завершения создания схемы и закрытия редактора схем появится возможность отправлять реестры данного типа на обработку. Однако перед отправкой есть возможность дополнительно проконтролировать настройки схемы применительно к конкретному файлу реестра. Для этого существует режим предварительного просмотра.

Запуск предварительного просмотра выбранного реестра

Предварительный просмотр реестра открывается при нажатии на кнопку «Посмотреть» напротив выбранного имени схемы обработки реестра. По умолчанию предварительный просмотр отображает только те колонки реестра, которые будут отправлены на обработку сервису очистки.

Предварительный просмотр выбранных для обработки колонок реестра

Чтобы убедиться в том, что мы не забыли о каких-то колонках, которые также содержат адресную информацию, необходимую к обработке, можно поставить флажок «Показать все колонки» и проконтролировать еще раз все содержимое исходной таблицы.

Предварительный просмотр всех колонок реестра

В этом случае в таблице предварительного просмотра будут отображены все колонки с исходными данными, среди которых будут подсвечены те из них, которые были выбраны для обработки при создании схемы. Для приведенного примера видно, что выделены только первые две колонки таблицы, именно они будут передаваться на обработку, тогда как невыделенная колонка «Секретные данные» отсылаться на сервис не будет.

После того, как мы убедились, что в режиме предварительного просмотра реестр выглядит так, как надо, его можно отправлять на обработку. Делается это посредством кнопки «Отправить».

Отправка реестра на сервис

В зависимости от скорости Интернет-соединения и размера реестра процесс отправки может занять некоторое время. Ход отправки будет отображаться на соответствующем индикаторе прогресса.

После успешной передачи реестра на сервис автоматически обновится статистика текущего месяца в партнерском разделе.

Отправка реестра на сервис

Добавленный реестр также отобразится в панели реестров партнерского раздела, где можно будет запустить его на обработку или удалить, если вдруг выяснится, что добавили его по ошибке.

После нажатия на кнопку «Обработать» на сервисе запустится процесс очистки адресных данных этого реестра. В ходе данного процесса можно будет наблюдать за прогрессом его выполнения на соответствующем индикаторе.

Отображение процесса выполнения очистки

В зависимости от объема реестра его обработка может занять от нескольких секунд до десятков минут. После завершения обработки появится возможность скачать результат очистки в виде нескольких файлов, в том числе появится возможность получить результат очистки с учетом его склеивания с исходной таблицей в соответствии с выбранной схемой. Важно учитывать, что изменения в схеме обработки никак не влияют на результаты очистки, полученные до ее изменения.

Получение результата очистки адресного реестра

Для скачивания соответствующего файла необходимо выбрать его в выпадающем списке и нажать кнопку «Скачать». В данном списке предлагаются следующие варианты.

Склеенный результат обработки – файл с исходной таблицей, в которую вставлены исправленные адреса, либо в конец таблицы, либо взамен исходных колонок с адресными данными, в зависимости от настроек соответствующей схемы. На самом деле, сама исходная таблица ниоткуда не скачивается, поскольку она хранится на компьютере пользователя, реально скачивается только результат обработки адресных данных, которые были отправлены на сервис и этот результат вставляется в исходную таблицу (склеивается с ней).
Чистый результат обработки – файл с той частью таблицы, которая реально была отправлена на обработку, в конец которой добавлены колонки, соответствующие отдельным компонентам откорректированных адресов.
Обработанный файл – файл, который был отправлен на обработку. Данный файл здесь присутствует в основном для нужд контроля, чтобы всегда была возможность узнать, что именно отправлялось на сервис и обрабатывалось на нем.
Однозначно исправленные – файл с результатом очистки, в котором представлены откорректированные адреса, для каждого из которых найден единственный вариант распознавания.
Многозначно исправленные – файл с результатом очистки, в котором представлены только те адреса, в результате исправления которых найдено несколько равноправных вариантов стандартизации. В этой таблице каждый вариант многозначного адреса представлен в отдельной строке.
Отбракованные – файл, содержащий только те адреса, исправить которые не удалось.
Экспертиза: однозначно исправленные – однозначно исправленные в процессе экспертизы адреса, среди отбракованных при стандартной обработке. Данный файл доступен в случае, если учетная запись пользователя настроена на экспертный тарифный план.
Экспертиза: многозначно исправленные – многозначно исправленные в процессе экспертизы адреса, среди отбракованных при стандартной обработке. Данный файл доступен в случае, если учетная запись пользователя настроена на экспертный тарифный план.
Экспертиза: отбракованные – отбракованные в процессе экспертизы почтовые адреса. Любой из выбранных для скачивания файлов сохраняется на локальном диске пользовательского компьютера в виде таблицы в формате CSV.

Особенный интерес среди имеющихся для скачивания файлов представляет «Склеенный результат обработки». Именно при его формировании задействованы все возможности, заданные в настройках схемы. А именно: выдача только выбранных адресных полей с учетом заданных между ними разделителей и в строго заданном в схеме порядке. Также в рамках данного файла учитывается возможность слияния исходной таблицы с самим результатом очистки.

ahunterPro в настоящее время

В настоящий момент мы плавно переводим пользователей ahunterPro на работу с коробочной версией нашего основного продукта - ahunterES. В состав ahunterES входит аналогичное по своим возможностям веб-приложение, позволяющее массово обрабатывать файлы с контактными данными. Использование ahunterES обеспечивает аналогичный уровень надёжности и конфиденциальности, но при этом даёт дополнительные возможности, которых нет в ahunterPro.

Последние события

26.09.2024 Внедрили подсказки по паспортным данным

20.07.2024 Обработали в облаке более 2 млрд. данных

09.04.2024 Добавили на Ахантере подсказки по реквизитам банков

01.02.2024 Внедрили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Архив событий

12.11.2012 Начали разработку "Навигатора" в рамках сервиса ahunter.ru для более удобного поиска адресов по их фрагментам.

12.07.2012 Внедрили систему ahunterES на базе ИС «Охотник за адресами» в ИТ-инфраструктуре ОАО "Ростелеком".

06.02.2012 Версия 1.4 сервиса «Охотник за адресами» запущена в режиме on-line.

25.10.2011Выполнены работы над двумя независимыми веб-проектами: веб-архив видеоматериалов и социальная сеть для членов ЖСК.

25.08.2011Закончена разработка новой версии сервиса «Охотник за адресами». Обновление получило номер 1.3.

23.06.2011На сервисе «Охотник за адресами» добавлена возможность распознавать и проверять на существование телефонные номера.

Страницы: « назад 10 11 12 вперед »