Ксения Жагорина (СКБ-Контур)
Upcoming SlideShare
Loading in...5
×
 

Ксения Жагорина (СКБ-Контур)

on

  • 1,127 views

 

Statistics

Views

Total Views
1,127
Views on SlideShare
295
Embed Views
832

Actions

Likes
0
Downloads
5
Comments
0

8 Embeds 832

http://www.xakep.ru 716
http://ritconf.ru 39
http://xakep.ru 30
http://l.lj-toys.com 21
http://allitadmin.tumblr.com 15
http://feelfish.tumblr.com 6
https://assets.txmblr.com 4
http://www.tumblr.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Ксения Жагорина (СКБ-Контур) Ксения Жагорина (СКБ-Контур) Presentation Transcript

  • Насколько уникально ФИО? Ксения Жагорина СКБ Контур
  • Все знают, что ФИО не уникально…
  • Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Предполагаемое число людей с таким ФИО в России View slide
  • Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Иванов Сергей Владимирович 6.200 чел. Кузнецов Сергей Александрович 4.600 чел. … Предполагаемое число людей с таким ФИО в России View slide
  • А на самом деле …
  • А на самом деле … 0.999 0.96 0.68 0 0,2 0,4 0,6 0,8 1 1 100 10 000 1 000 000 СуникальнымФИО Количество людей в сообществе Доля людей с уникальным ФИО
  • И какая же польза?
  • И какая же польза? • Поиск «клонов»
  • И какая же польза? • Поиск «клонов» • Интеграция сервисов
  • База данных ЕГРЮЛ 21 М упоминаний c ИНН 13 М человек
  • База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ?
  • Как ?
  • Постановка задачи По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
  • Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота Точность = |Найденные верные связи| |Все найденные связи| Полнота = |Найденные верные связи| |Все верные связи|
  • Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
  • Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО
  • Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО Вероятность связи 𝑃 = 𝑃 𝑁фио < 1
  • Модель на основе независимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек ООО «Рога и Копыта» Москва ЗАО «ЗаМКАД» Московская обл. Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • Модель на основе зависимости ФИО и региона. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 Полнота,точностьв% P(NRФИО < 1) точность полнота
  • Модель на основе независимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • Модель на основе зависимости ФИО и региона. Результаты. Рогов А.В.Рогов А.В. ? ООО «Рога и Копыта» Москва P = 0.684 ЗАО «ЗаМКАД» Москва R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684
  • Модель на основе зависимости ФИО и региона. Результаты. Копытов Д.Е.Копытов Д.Е. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.986 P = 0.986 ЗАО «ЗаМКАД» Москва
  • Модель на основе зависимости ФИО и региона. Результаты. Семенов С.А.Семенов С.А. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396 P = 0.396 ЗАО «ЗаМКАД» Москва
  • Вывод Полнота 80% при точности 95%. 150 млн. новых связей.
  • Конец
  • 99.9 96.2 68.2 74.7 32,1 95,8 80,3 23,8 2,7 0 20 40 60 80 100 1 100 10 000 1 000 000 СуникальнымФИО(в%) Количество людей в сообществе Доля людей с уникальным ФИО ФИО ФИ Ф