07.08.2019 |
Внедрили распознаватель городских районов |
Несколько лет назад мы разработали метод извлечение информации из текстов по эталону. Данный метод заключается в поиске в текстах упоминаний заранее известных объектов. Перечень таких объектов представляет собой эталонную базу, которая может быть весьма и весьма большой. При этом сами объекты в текстах могут упоминаться в виде сокращённых названий, к тому же записанных с опечатками. Саму идею мы изложили в статьях, которые можно посмотреть здесь и здесь.
Ранее мы реализовали данный алгоритм в рамках сервиса ahunter.ru для поиска и распознавания в текстах почтовых адресов РФ. В качестве эталона в данном случае используется база ФИАС. Особенностью данной базы является то, что в ней практически не представлены городские районы и округа, поэтому распознавать эти адресные объекты с использованием только базы ФИАС не представляется возможным. Поскольку городские районы отсутствуют в эталонной базе, качество распознавания адресов, содержащих упоминания районов, оставляет желать лучшего. Встречая внутри адреса неизвестные названия районов, распознаватель снижает количественные показатели качества этого адреса, что в свою очередь может приводить к отбраковке всего результата распознавания.
Чтобы решить эту проблему, мы собрали эталонную базу районов и округов всех городов РФ и разработали на её основе детектор городских районов. Данный детектор работает в связке с распознавателем почтовых адресов и помогает ему улучшать качество обработки всего адреса, если в нём встречается упоминание городского района.
Использование двух детекторов в связке позволило повысить процент адресов, обработка которых выполняется со стопроцентной точностью и полнотой. Это в свою очередь упрощает работу приложений у пользователей нашего сервиса, поскольку теперь адресов, которые необходимо дополнительно контролировать после обработки Ахантером стало меньше.
16.05.2019 |
Машинное обучение для распознавания пола по ФИО |
Одной из функций Ахантера является распознавание пола и национальности человека при обработке его ФИО. При обработке только русских ФИО эта задача не выглядит слишком сложной, потому что в русской культуре имеется чёткое разделение имён на мужские и женские. В этом случае достаточно иметь большую исчерпывающую базу имён, чтобы определить пол человека. Проблемы возникают, когда необходимо разобрать имя и фамилию, имеющие иностранное происхождение. Суть проблемы заключается в том, что достаточно ощутимая часть иностранных имён может принадлежать как мужчинам, так и женщинам. Например, являются ли люди с такими ФИО как Джесси Маккартни, Ли Эванс, Джей Бэйли, Салли Менке мужчиной или женщиной?
На первый взгляд, эти примеры выглядят равнозначно, поскольку такие имена, как Джесси и Салли, можно интерпретировать двояко - как мужское и как женское. Тем не менее, мы проанализировали статистику употребления многих таких имён и соответствующих им фамилий среди известных личностей. Для этого мы использовали собранную ранее из открытых источников базу известных и популярных персон. Оказалось, что некоторые из таких имён при употреблении в связке с одними фамилиями могут иметь однозначную интерпретацию пола, а в связке с другими фамилиями - неоднозначную. Кроме этого мы выяснили, что, несмотря на неоднозначность, некоторые двуполые имена имеют тенденцию чаще встречаться среди персон какого-то одного пола.
Поскольку обнаруженные нами закономерности носят вероятностный характер, чётких алгоритмов принятия решения о том, какому полу принадлежит персона с тем или иным иностранным ФИО, разработать не представляется возможным. Поэтому для определения пола в таких ситуациях мы использовали машинное обучение. Эксперт подготовил для машины несколько тысяч характерных обучающих примеров. В каждом из таких примеров эксперт в явном виде указал, допускает ли соответствующее ФИО однозначную интерпретацию пола. На основании этих примеров мы реализовали алгоритм обучения, напоминающий дерево решений. Данный алгоритм позволяет принимать решения об однозначности пола для заданного ФИО на основе оценки популярности употребления имени и фамилии среди мужчин и женщин той или иной национальности.
Реализованный алгоритм позволил улучшить распознавание пола в Ахантере при обработке неоднозначных иностранных ФИО. Улучшенные функции обработки ФИО уже доступны через API в облаке на ahunter.ru. В ближайшем будущем планируем внедрить их в наше коробочное решение ahunterES.
21.02.2019 |
Выполнили масштабные исследования отчеств |
От полноты эталонной базы имён, отчеств и фамилий, которую использует Ахантер, напрямую зависит, удастся ли выполнить стандартизацию ФИО у конкретной персоны. Также от полноты зависит, сможет ли наш сервис выдавать подсказки при заполнении пользователями форм с контактными данными. Если в базе Ахантера нет какого-то имени или отчества, то при вводе такого имени или отчества наш сервис не сможет предложить подходящую подсказку. Именно поэтому мы постоянно занимаемся совершенствованием наших эталонных баз с именами, отчествами и фамилиями.
Основной источник новых имён – это рабочие логи Ахантера. Данные, которые сервис когда-либо получил на обработку, но не смог привести в порядок, накапливаются в логах сервиса, после чего мы их анализируем и по возможности пополняем наши эталонные базы. На данный момент у нас накоплено ~17 млн. запросов, из которых мы уже ранее выполнили извлечение новых корректных имён. Всего в рамках той работы мы извлекли ~60 тысяч новых и главное – корректных уникальных имён, принадлежащих различным национальностям. А сейчас мы выполнили такую работу для отчеств.
Основная проблема такой работы – отсеять действительно хорошие новые отчества от явного мусора, а также от известных отчеств, записанных с опечаткой. Для этих целей мы разработали большую интеллектуальную систему. На основе машинного обучения наша система научилась синтезировать имена, от которых образованы неизвестные отчества. Если система синтезировала имя, которое нам уже известно, то и отчество признаётся корректным и кладётся в нашу эталонную базу. Кроме этого мы разработали обучающийся алгоритм, позволяющий по одному написанию неизвестного нам отчества судить, является ли оно действительно корректным отчеством. Этот алгоритм был обучен на ~50 тысячах примеров хороших и плохих отчеств, после чего мы применили его ко всей базе.
Применение всех разработанных алгоритмов позволило извлечь из нашей сырой базы, содержащей порядка 17 млн. записей, около 110 тысяч новых корректных отчеств, которые мы в ближайшее время внедрим в эталонные базы Ахантера.
|
Последние события
26.09.2024 Внедрили подсказки по паспортным данным
20.07.2024 Обработали в облаке более 2 млрд. данных
09.04.2024 Добавили на Ахантере подсказки по реквизитам банков
01.02.2024 Внедрили кадастровые номера квартир, домов и участков
09.01.2024 Добавили координаты адресов для новых регионов
11.07.2023 Внедрили гео-кодер для адресов Казахстана
Архив событий
13.03.2008Симаков Константин защитил диссертацию на соискание ученой степени кандидата технических наук.
09.03.2008На сайте запущен раздел "Отзывы", оставляйте свои вопросы и предложения.
01.03.2008Web-сервер запущен в работу!
29.02.2008Разработан backend Web-сервер. Выполнены тестовые запуски и нагрузочное тестирование.
22.02.2008Разработан дизайн Web-сайта.
15.02.2008Подготовлена аппаратная часть для работы backend Web-сервера.
01.02.2008Проведен тестовый запуск frontend Web-сервера.
Страницы:
« назад
13
14
|