Страницы новостей: 1 2 3 4 вперед »
16.09.2020

Запустили распознавание неизвестных ФИО

В новой версии Ахантера добавили возможность распознавать компоненты ФИО, которых нет у нас в эталонной базе. Раньше в таких случаях наш сервис оставлял нераспознанные компоненты ФИО пустыми.

В основе стандартизации ФИО у нас на сервисе лежит эталонный справочник, где перечислено несколько сотен тысяч известных фамилий, имён и отчеств. Кроме этого для каждой такой записи в справочнике хранится статистическое распределение по полу (мужскому и женскому), а также по вероятным национальностям, которым могут принадлежать эти имена, фамилии и отчества. Когда Ахантер обрабатывает запрос с ФИО, он пытается подобрать интерпретацию для каждого слова исходного запроса так, чтобы в совокупности их пол и национальность максимально соответствовали друг другу.

Этот алгоритм хорошо работает, если все слова обрабатываемой записи удаётся найти в эталонном справочнике, даже когда в них допущены опечатки. Проблема возникает, когда даже с учётом возможных опечаток найти имя или фамилию не удаётся. Чаще всего такое возникает с фамилиями, т.к. у них намного большее разнообразие, в сравнении с именами и отчествами. В общем случае, фамилией может быть любое слово, поэтому учесть их все в справочнике даже весьма большого размера, не представляется возможным.

Как раз для решения этой проблемы мы доработали алгоритмы стандартизации ФИО и запустили их на Ахантере. В новой версии, если сервис встречает нераспознаваемые компоненты ФИО, выполняется дополнительный анализ. В его основе лежит поиск аналогов в эталонном справочнике, с помощью которого для неизвестных слов удаётся найти похожий компонент и использовать его характеристики (пол и национальность) при заполнении соответствующей недостающей части ФИО.

Новый алгоритм активируется автоматически при использовании любого функционала Ахантера, где требуется стандартизация ФИО. Дополнительных настроек на стороне пользовательского приложения, а также в личном кабинете не требуется.

27.07.2020

Запустили подсказки по ЕГРИП

В рамках новой версии Ахантера добавили в API подсказок возможность быстрого ввода и получения полных сведений об индивидуальных предпринимателях по ЕГРИП. Ранее аналогичный функционал у нас был запущен для быстрого заполнения форм с реквизитами юридических лиц по ЕГРЮЛ.

Информация, которую можно получить по индивидуальным предпринимателям, несколько отличается от сведений по юр. лицам. Например, у индивидуального предпринимателя ФИО является одновременно и юридическим названием. Также юридические адреса у ИП соответствуют их адресам проживания, которые относятся к персональным данным, поэтому в ЕГРИП они в полной мере не представлены. Тем не менее, так же как и с юридическими лицами, среди ИП много однофамильцев. Поэтому при реализации подсказок мы сделали возможным вводить в единое поле различную конкретизирующую информацию, чтобы при заполнении реквизитов ИП, можно было быстро найти именно целевого предпринимателя, а не его полного тёзку из другого города. Наш комбинированный поиск в подсказках для ИП позволяет в одно единственное редактируемое поле вводить такие уточняющие сведения, как:

  • ФИО предпринимателя или его фрагмент,
  • фрагмент адреса ИП с детализацией до города или населённого пункта,
  • полный ОГРН, либо его начальный фрагмент,
  • полный ИНН, либо его начальный фрагмент.

Например, для поиска ИП Иванова в двух разных городах - Екатеринбурге и Челябинске, достаточно указать фрагмент названия его города, чтобы получить предпринимателей с такой фамилией в соответствующем городе.

Также как с юридическими лицами, для выбранного в подсказках предпринимателя можно получить расширенные сведения по ЕГРЮЛ, такие как информацию о регистрации в налоговой инспекции, а также в ПФР и ФСС. Узнать, не находится ли ИП в процессе ликвидации. Получить сведения об основном и дополнительных видах экономической деятельности ИП по ОКВЭД, а также получить полный перечень лицензий, выданных предпринимателю. Все эти данные Ахантер берёт из текущей версии ЕГРИП.

Функции подсказок по индивидуальным предпринимателям доступны в рамках того же API, с помощью которого Ахантер выдаёт подсказки по ЕГРЮЛ. Одна и та же команда suggest/company позволяет получать одновременно подсказки как по ИП, так и по юр. лицам. Также в рамках этой команды добавлены опции, с помощью которых можно ограничивать получаемые подсказки только каким-то одним реестром ЕГРИП или ЕГРЮЛ.

25.06.2020

Разработали обратный гео-кодер

Выполнили большое обновление базы данных гео-кодера на Ахантере. Кроме базы данных добавили новый функционал, позволяющий выполнять обратное гео-кодирование. До настоящего момента наш гео-кодер умел выполнять поиск адресов на карте и возвращать их координаты. При таком поиска исходный адрес записывается в виде строки в свободной неструктурированной форме. Ахантер приводит эту строку к стандартному виду и отыскивает соответствующий объект на карте.

В отличие от режима прямого гео-кодирования обратный гео-кодер позволяет получать стандартизованные почтовые адреса РФ по заранее известным координатам. На вход сервис получает широту и долготу искомой точки, а также радиус, в пределах которого следует искать объекты почтовой адресации. Таковыми объектам могут быть дома, улицы, населённые пункты и города. Для каждого найденного адреса Ахантер возвращает все сопутствующие дополнительные данные, такие как часовая зона, ближайшие станции метро, коды по справочникам ФИАС, ОКАТО, ОКТМО и др.

Обратное гео-кодирование доступно в Демо-режиме здесь, для поиска адресов по заданным координатам достаточно указать широту и долготу в поисковой Демо-форме. В API сервиса данный режим доступен в рамках функции стандартизации cleanse/address, где в качестве запроса вместо обычного строкового адреса необходимо указывать координаты точки и радиус поиска. Более подробно работа с этим функционалом API описана по следующей ссылке.

В общем случае в результате поиска вокруг заданной точки может быть найдено несколько адресов, поэтому в таких ситуациях команда cleanse/address будет возвращать массив с найденными объектами. Для каждого из них Ахантер рассчитает расстояние до исходной точки и выдаст найденные адреса в порядке возрастания удалённости.

02.04.2020

Запустили подсказки по ЕГРЮЛ

В рамках новой версии Ахантера мы расширили функционал API подсказок. Кроме почтовых адресов и ФИО, теперь есть возможность получать подсказки по компаниям из ЕГРЮЛ через API нашего сервиса. Также наши подсказки по компаниям можно подключать на любой веб-сайт с помощью нашего JavaScript модуля. Подсказки по ЕГРЮЛ позволяют организовать быстрое заполнение форм с реквизитами юридических лиц. Такое заполнение к тому же исключает ошибки ввода, поскольку подавляющее большинство данных о компании не вводится вручную, а подгружается напрямую из ЕГРЮЛ.

Когда мы работали над этим функционалом, то обратили внимание на то, что в ЕГРЮЛ присутствует немало компаний, имеющих одинаковые названия. Из-за этого простые подсказки по названиям организаций часто не позволяют найти именно то, что нужно. В таких ситуациях даже после точного ввода полного названия организации в подсказках будет присутствовать множество одноимённых компаний, так что выбрать подходящую будет проблематично. К тому же подходящая компания может просто не попасть в выдачу сервиса из-за лимита на количество отображаемых подсказок. Это натолкнуло нас на мысль, что кроме названия, необходимо дать возможность пользователю уточнить иные сведения об искомой компании так, чтобы в результате уточнения он получил именно то, что ищет. Поэтому в наших подсказках мы реализовали комбинированный поиск, позволяющий в одно единственное редактируемое поле вводить кроме названия такие уточняющие сведения, как:

  • адрес компании или его фрагмент (например, город или улицу),
  • ФИО руководителя компании или какую-то часть этих сведений,
  • полный ОГРН, либо его начальный фрагмент,
  • полный ИНН, либо его начальный фрагмент.

Для компаний с популярными названиями типа «Ромашка» или «Галактика» эта возможность позволяет, например, указать сначала название улицы, после чего частично ввести название самой компании. Это позволит быстрее найти искомую компанию.

При выборе подходящей подсказки Ахантер возвращает полные сведения о компании. Кроме основных реквизитов, таких как ОГРН, ИНН, юридический адрес и ФИО руководителя, для выбранной компании можно получить информацию о регистрации юридического лица в налоговой инспекции, а также в ПФР и ФСС. Узнать, не находится ли компания в процессе ликвидации. Получить сведения об уставном капитале и учредителях организации вместе с их долями. Узнать основной и дополнительные виды экономической деятельности компании по ОКВЭД, а также получить полный перечень лицензий, выданных компании компетентными лицензирующими органами. Все эти данные Ахантер берёт из текущей версии ЕГРЮЛ.

10.02.2020

Приняли участие в "Качестве данных 2020"

5 февраля в Москве прошла конференция «Качество данных 2020», посвящённая вопросам управления и оценки качества данных. Организатором выступило издательство «Открытые системы». Доклады охватили множество отраслей, имеющих дело с корпоративными, персональными, нормативно-справочными данными, а также данными промышленного производства.

На этой конференции мы представили доклад, в котором рассказали о методах искусственного интеллекта, которые мы используем внутри компании при очистке эталонных справочников и подготовке их к боевому применению в наших инструментах по стандартизации клиентских контактных данных.

Особенность подхода, который был нами изложен, заключается в том, что для обеспечения качественной работы Ахантера - нашего основного ИИ-продукта по стандартизации и исправлению клиентских данных - необходимы качественные справочные данные. Для их получения в свою очередь нам приходится разрабатывать отдельные внутренние ИИ-решения, которые остаются за кадром работы основного продукта, но без которых работа самого Ахантера оказывается невозможна.

Мы подробно рассказали про методы машинного обучения, с помощью которых из сырых и грязных данных, добываемых из открытых источников, мы формируем эталонные справочники. Разобрали этот подход на примере извлечения данных из Википедии, ЕГРЮЛ и ФИАС. Описали полный жизненный цикл наших ИИ-решений, начиная от выбора модели и разметки обучающей выборки, и заканчивая применением обученной модели к реальным данным.

Подробно рассмотрели задачу поиска дублей, а также задачу поиска аномальных записей в эталонных справочниках. В обоих случаях рассказали, как мы для этих целей используем машинное обучение, какие признаковые модели применяем и как осуществляем подготовку обучающих выборок.

Ознакомиться с программой конферении и затронутыми темами можно по следующей ссылке. Презентации докладов доступны здесь.

Страницы новостей: 1 2 3 4 вперед »

Последние события

26.09.2024 Внедрили подсказки по паспортным данным

20.07.2024 Обработали в облаке более 2 млрд. данных

09.04.2024 Добавили на Ахантере подсказки по реквизитам банков

01.02.2024 Внедрили кадастровые номера квартир, домов и участков

09.01.2024 Добавили координаты адресов для новых регионов

11.07.2023 Внедрили гео-кодер для адресов Казахстана

Архив событий

16.09.2020 Запустили распознавание неизвестных ФИО.

27.07.2020 Запустили подсказки по ЕГРИП.

25.06.2020 Добавили в API Ахантера обратный гео-кодер.

02.04.2020 Внедрили на Ахантере подсказки по ЕГРЮЛ.

10.02.2020 Рассказали на конференции Качество данных 2020 про использование ИИ в нашей повседневной работе.

Страницы: 1 2 3 вперед »