30.10.2015 |
Запустили ahunter 2.0 |
Мы закончили разработку ahunter 2.0 – это новое ядро для наших продуктов ahunter.ru и ahunterES, а также для наших специализированных
решений по очистке контактных данных. Мы выпустили не просто новую версию сервиса, это действительно ядро, разработанное
полностью с нуля, на основе которого мы уже создаем новые специализированные решения, а также расширяем функционал существующих продуктов.
Важными особенностями нового ядра для пользователей наших продуктов являются следующие.
-
Поменялась архитектура сервисов ahunter.ru и ahunterES.
В предыдущих версиях этих продуктов архитектура подразумевала наличие трех серверных компонентов – веб-сервера, back-end сервера и
сервера распознавания. Это являлось узким местом для реализации многопоточной обработки запросов в режиме реального времени.
В первую очередь это снижало производительность работы функций API, поскольку запросы пользователей передавались между
этими тремя серверами. В новой платформе мы убрали из архитектуры back-end сервер. Весь функционал сейчас сосредоточен в рамках
единого сервера, который полностью реализован на C++. При обработке одиночных API запросов это позволило поднять производительность на 30-40%.
-
Реализовали новый REST API. Новая реализация API позволяет возвращать ответы сервиса как в формате JSON, так и в формате XML.
Каждый пользователь выбирает формат по своему вкусу. Кроме обработки одиночных запросов на очистку адреса или телефона в API
предусмотрены продвинутые функции по совместной обработке контактных данных разного типа. Например, можно совместно обработать
почтовый адрес и несколько телефонных номеров. Описание всех возможностей API доступно по следующей ссылке:
http://ahunter.ru/site/doc/api.
-
Разработали новый удобный личный кабинет для обработки реестров с почтовыми адресами и другими контактными данными.
В рамках нового кабинета можно выполнять обработку табличных файлов любого формата. Реестр с контактными данными может
содержать в каждой строке несколько почтовых адресов, телефонов и ФИО. Личный кабинет позволяет настроить
совместную обработку всех этих данных и скомпоновать итоговый результат в виде табличного отчета. Отчеты можно
настраивать по своему вкусу, включая в них любую информацию о результате обработки почтовых адресов, телефонов и ФИО.
Работа в новом личном кабинете подробно описана по следующей ссылке:
http://ahunter.ru/site/doc/pua.
-
Добавили для пользователей возможность настраивать собственные фильтры почтовых адресов и использовать их как при
обработке реестров, таки при обработке адресных данных посредством API.
-
Добавили функцию по стандартизации фамилии, имени и отчества. Данная функция позволяет распознавать в сплошной строке
отдельные компоненты ФИО, в результате чего фамилия, имя и отчество раскладываются по отдельным полям в структурированном виде.
При обработке ФИО сервис автоматически определяет пол персоны, а также ее национальность.
-
Внедрили в новое ядро функции генерации подсказок при вводе фамилий, имен и отчеств. Данная функция позволяет
подсказывать пользователю, вводящему ФИО, различные варианты заполнения этих компонентов. Это может быть полезно,
если в вашем приложении или веб-сайте есть форма, при заполнении которой кроме почтового адреса пользователь
должен ввести свое ФИО. Наш сервис формирует подсказки на лету, начиная с ввода первой буквы фамилии, имени или отчества.
При этом подсказки формируются с учетом пола и национальности персоны, которой принадлежит вводимое ФИО.
Например, при вводе имени Михаэль сервис будет предлагать подсказки с немецкими мужскими фамилиями.
-
По-новому реализовали учет статистики. Теперь можно точно посмотреть какие именно API-запросы и с каких
IP-адресов были обработаны от имени пользовательского аккаунта. Новая статистика также позволяет точно отслеживать,
сколько денег было списано за обработку каждого запроса.
01.07.2015 |
Добавили функцию подсказок при вводе адресов на ahunter.ru |
Для многих наших пользователей немаловажным при вводе адреса является помощь, когда сервис сам предлагает
возможные варианты написания адресных данных. Это гораздо удобнее и быстрее, нежели сначала вводить адрес,
а потом осуществлять его обработку и нормализацию. Таким образом, нормализация адреса происходит на лету.
Теперь наш сервис помогает выбрать один из правильных вариантов написания адреса непосредственно в процессе ввода.
При разработке данной функции мы учли пожелания наших пользователей, а также недостатки у аналогичных коробочных
и самодельных решений на базе КЛАДР или ФИАС, применяемых в различных Интернет-магазинах Рунета.
В первую очередь пользователей не устраивает медлительность существующих решений. В самодельных и многих
профессиональных CMS-системах при заполнении формы с почтовым адресом зачастую приходится наблюдать
«вращающееся колесико» в ожидании, пока веб-сайт отобразит подсказки после ввода очередной буквы почтового адреса.
Чаще всего реализация таких сервисов строится на связке PHP + MySQL, которая в случае загрузки в БД полной версии
КЛАДР или ФИАС может работать быстро лишь при наличии мощного хостинга. Наш сервис реализован на C++ и использует
наше собственное хранилище и собственные индексы, адаптированные для генерации подсказок на лету в режиме реального времени.
Кроме быстродействия пользователям важна адекватность предлагаемых подсказок. Пользователь должен увидеть подходящий
вариант при вводе минимального числа букв почтового адреса. Чтобы этого добиться, мы провели статистический анализ
популярности адресных объектов России и учли ее при ранжировании подсказок, возвращаемых сервисом в выдаче.
Функция формирования подсказок доступна посредством API нашего сервиса, использовать ее очень просто.
Для подключения к готовому веб-сайту не нужно его переделывать, достаточно подключить любой из существующих Java-Script плагинов.
Например, на нашем сайте ahunter.ru для демонстрации мы использовали jQuery-плагин jQuery-Autocomplete.
Подробнее об использовании подсказок через API можно узнать по следующей ссылке.
Функция подсказок скоро станет доступна и в рамках внедряемого сервера ahunterES. Соответствующий модуль мы включим в
ближайшее обновление продукта. Расширять существующую приобретенную лицензию для его использования не потребуется.
Фактически наши заказчики получат данный модуль в рамках ahunterES бесплатно.
08.06.2015 |
Гармонизация данных для "ПепсиКо Холдингс" |
Время от времени мы выполняем для наших заказчиков уникальные крупные проекты по обработке слабоструктурированных данных.
Например, иногда заказчикам необходимо срочно выполнить разовую стандартизацию нескольких миллионов адресов их клиентов
или осуществить нетривиальную обработку по консолидации и дедупликации данных для нужд CRM или MDM.
Одним из таких заказчиков стала компания "ПепсиКо Холдингс". Для "ПепсиКо" было важно не просто гармонизировать и
унифицировать контактные данные их контрагентов, реализующих продукцию компании. Данные о контрагентах включали в себя их названия,
адресные данные и дополнительные сведения о территориальном расположении (например, магазин в торговом центре или магазин на N-ном
километре трассы М6). Один и тот же контрагент мог упоминаться в разных источниках, при этом информация о нем, как правило,
была представлена не в унифицированном виде, что препятствовало объединению всех сведений о контрагенте в рамках единой MDM-системы компании.
Нашей задачей было осуществление такого объединения.
Для выполнения данного проекта мы разработали специализированное решение по консолидации и дедупликации сведений о контрагентах,
учитывающее информацию об их географическом расположении и о наименованиях.
Данное решение позволило выполнить слияние сведений о каждом контрагенте из разных источников за счет нечеткого
сопоставления их наименований и унификации их адресов.
Дополнительно все адресные данные контрагентов были приведены к стандартному формату в соответствии с КЛАДР/ФИАС,
пригодному для дальнейшей загрузки в MDM-систему компании, а также обогащены дополнительными сведениями,
в том числе географическими координатами.
03.04.2015 |
Сервер ahunterES в продукте для нужд ЖКХ |
В текущем месяце мы осуществили внедрение сервера ahunterES по стандартизации почтовых адресов
России в инфраструктуру компании Бюджетные и Финансовые Технологии (БФТ).
Обработка и стандартизация адресных данных актуальна не только для коммерческих компаний и банков.
Возможности нашего решения по обработке адресных данных ahunterES оказались востребованы в сфере недвижимости и
жилищно-коммунального хозяйства.
В 2014 году коллеги из компании БФТ осуществили интеграцию своего продукта с нашим облачным сервисом ahunter.ru и
в течение 2014 года осуществляли опытную эксплуатацию получившегося интеграционного решения.
После завершения опытной эксплуатации наши партнеры из БФТ IBS приняли решение сделать ahunterES частью своего итогового продукта,
ориентированного на такие задачи в сфере недвижимости и ЖКХ, как управление объектами недвижимости, планирование и мониторинг
капитальных ремонтов зданий и сооружений, учет прав на недвижимое имущество.
В результате было осуществлено внедрение сервера ahunterES в инфраструктуру БФТ.
Поскольку у коллег уже существовало интеграционное решение с облачным сервисом ahunter.ru,
перевод его на взаимодействие с ahunterES не вызывал проблем, поскольку сервис ahunter.ru и сервер ahunterES
имеют полностью совместимый программный интерфейс API.
В настоящий момент ahunterES успешно функционирует в инфраструктуре БФТ в составе сервисов,
предлагаемых этой компанией в рамках автоматизации организации процесса капитального ремонта
общего имущества многоквартирных домов.
02.03.2015 |
Интегрировали сервер ahunterES в систему СПАРК |
Мы продолжаем внедрять продукты по стандартизации почтовых адресов и прочих контактных данных на базе сервера ahunterES.
До недавнего времени продукты на базе нашего сервера ahunterES использовались в основном конечными
потребителями для решения бизнес-задач, связанных с обработкой и нормализацией клиентских данных.
В основном эти задачи возникают в банковском и страховом секторе, а также у коллекторских агентств,
телекоммуникационных компаний и в сфере интернет-торговли.
Однако теперь сервер ahunterES стал частью более масштабного решения, продвигаемого нашими партнерами из ЗАО "Интерфакс".
С ними мы успешно выполнили проект по интеграции продукта ahunterES в
Систему Профессионального Анализа Рынков и Компаний (СПАРК).
Интеграция выполнена с использованием API нашего продукта.
В рамках этой интеграции сервер ahunterES получает и обрабатывает в реальном времени запросы на стандартизацию почтовых адресов
юридических лиц. При выполнении интеграции мы выполнили ряд улучшающих доработок нашего продукта.
В рамках внедрения в СПАРК также задействованы возможности ahunterES по геокодированию.
Встроенный в ahunterES геокодер позволяет определять географические координаты почтового адреса.
Координаты могут определяться с точностью до дома. При стандартизации адресов геокодер может быть использован в качестве
дополнительной опции по проверке адреса на существование. Найденный на карте адресный объект придает большую уверенность в том,
что он действительно существует.
Подробнее о продукте ahunterES можно узнать здесь.
29.11.2014 |
Определение географических координат по адресу |
Во многих бизнес-задачах пользователей нашего сервиса ahunter.ru возникает необходимость не только стандартизации почтового адреса,
но и получения дополнительной информации о нем, например, получение почтового индекса адреса, кода адреса по справочнику КЛАДР или ФИАС,
код ОКАТО и др. Отдельно в рамках этой категории следует выделить задачу геокодирования,
заключающуюся в определении географических координат для заданного адреса (GPS координаты).
В подавляющем большинстве случаев почтовому адресу соответствует реальный адресный объект, поэтому результатом геокодирования
адреса можно считать получение значений широты и долготы, определяющих положение этого объекта на поверхности земного шара.
Информация о координатах адреса может быть полезной, например, если требуется отобразить клиентов компании на карте
для более точного анализа их географического распределения. Зная точные координаты точек доставки, появляется возможность
прокладывать кратчайшие маршруты при массовом обслуживании клиентов, определять расстояния между клиентами и точками продаж,
оптимизировать логистику.
Все эти задачи теперь можно решать с использованием новой функции геокодирования, доступной на сервисе ahunter.ru.
Наш геокодер позволяет получать координаты адресных объектов, начиная с уровня домов, корпусов и строений, и
заканчивая уровнем регионов РФ. Для любого адресного объекта есть возможность получения как точных координат центра объекта,
так и координат границ охватывающего прямоугольника для протяженного объекта, такого как улица, населенный пункт и город.
Наш геокодер охватывает всю территорию РФ, координаты можно получать как для домов и улиц Калининграда, так и для адресных
объектов Чукотского автономного округа и на островах Курильской гряды.
Возможности геокодера доступны как посредством API сервиса, так и при пакетной обработке реестров с адресными данными.
При обработке реестров пользователи фактически получают возможность не только проверить пакет адресов на существование по справочнику
КЛАДР или ФИАС, но и дополнительно убедиться в том, что эти адресные объекты присутствуют на карте.
Все возможности геокодера полностью интегрированы в функции стандартизации почтовых адресов нашего сервиса.
Пользователи, как и раньше, естественным для них образом отсылают запросы на обработку адресов, записанных в свободной строковой форме,
в качестве результата получают нормализованный адрес, дополнительно обогащенный информацией о его географических координатах.
При этом получение координат никак не влияет на производительность сервиса, включенный геокодер не вносит дополнительных задержек
в обработку адресов, что позволяет использовать на постоянной основе возможность геокодирования всем нашим пользователям без
каких-либо ограничений.
С возможностями геокодера можно познакомиться в демонстрационном режиме в разделе "Поиск адреса" на странице
сервиса http://ahunter.ru/site/demo/address.
11.08.2014 |
Распознавание пола персоны по ее биографии |
Наше R&D направление продолжает выполнять инновационные разработки, многие из которых в скором времени войдут в
состав коммерческих продуктов. Недавно наши исследователи завершили разработку системы по автоматическому
распознаванию пола персоны на основе анализа текста ее биографии.
Данная проблема относится к области интеллектуальной обработки естественно-языковых текстов, поскольку тексты биографий,
как правило, записываются в свободной форме. Обычно в тексте биографии не содержится явного упоминания пола персоны,
что существенно усложняет автоматизацию решения поставленной задачи. Ситуация дополнительно усугубляется тем, что в
тексте биографии одного человека зачастую упоминаются другие персоны, имеющие к описываемому человеку прямое или косвенное отношение.
Все эти сложности не мешают читателю определять пол персоны в процессе ознакомления с биографией, при
этом данная задача решается дедуктивно с привлечением жизненного опыта читателя и его базовых представлений о мире в целом.
При разработке компьютерной системы, выполняющей анализ биографии, апеллировать к жизненному опыту и эрудиции не представляется
возможным, что в свою очередь не позволяет реализовать полноценный дедуктивный вывод о поле персоны.
Тем не менее, нам удалось создать работающую математическую модель, позволяющую автоматически определять
пол персоны в процессе анализа текста ее биографии. На основе данной модели мы разработали программный комплекс,
выполняющий автоматическую обработку и анализ биографии людей и определение их пола. Наша система успешно определяет пол персоны в 98% случаев.
Эти оценки мы получили на основе обработки 250 000 текстов биографий различных персон.
Наша математическая модель реализует идею распознавания по прецедентам, так что для настройки целевого распознавателя
используются методы машинного обучения с привлечением репрезентативной выборки.
Поскольку в данной задаче исходная информация представлена обычными естественно-языковыми текстами,
при ее решении мы активно использовали возможности нашего лингвистического процессора.
|