Насколько уникально
ФИО?
Ксения Жагорина
СКБ Контур
Все знают, что
ФИО не уникально…
Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Предполагаемое
число людей с
таким ФИО в
России
Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Иванов Сергей Владимирович 6.200 чел.
Кузнецов Сергей Але...
А на самом деле …
А на самом деле …
0.999 0.96
0.68
0
0,2
0,4
0,6
0,8
1
1 100 10 000 1 000 000
СуникальнымФИО
Количество людей в сообществе
...
И какая же польза?
И какая же польза?
• Поиск «клонов»
И какая же польза?
• Поиск «клонов»
• Интеграция сервисов
База данных ЕГРЮЛ
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д....
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д....
Как ?
Постановка задачи
По двум упоминаниям с одинаковым ФИО
определить насколько вероятно, что они об
одном и том же человеке.
Методика тестирования
Тестирование – на упоминаниях с указанным ИНН
Оценка модели – точность и полнота
Точность =
|Найденн...
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Вероятность связи
𝑃...
Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
полнота,точностьв%
P(Nфио < 1)
точность
...
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д....
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д....
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
ООО «Рога и Копыта»
Москва
ЗАО «ЗаМКАД»
Моско...
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О...
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О...
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О...
Модель на основе зависимости ФИО и
региона.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
Полнота,точностьв%
P(NRФИО < 1...
Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
полнота,точностьв%
P(Nфио < 1)
точность
...
Модель на основе зависимости ФИО
и региона. Результаты.
Рогов А.В.Рогов А.В.
?
ООО «Рога и Копыта»
Москва
P = 0.684
ЗАО «З...
Модель на основе зависимости ФИО
и региона. Результаты.
Копытов Д.Е.Копытов Д.Е.
?
ООО «Рога и Копыта»
Москва
R = Москва
Ф...
Модель на основе зависимости ФИО
и региона. Результаты.
Семенов С.А.Семенов С.А.
?
ООО «Рога и Копыта»
Москва
R = Москва
Ф...
Вывод
Полнота 80% при точности 95%.
150 млн. новых связей.
Конец
99.9
96.2
68.2
74.7
32,1
95,8
80,3
23,8
2,7
0
20
40
60
80
100
1 100 10 000 1 000 000
СуникальнымФИО(в%)
Количество людей в...
Ксения Жагорина (СКБ-Контур)
Ксения Жагорина (СКБ-Контур)
Ксения Жагорина (СКБ-Контур)
Ксения Жагорина (СКБ-Контур)
Upcoming SlideShare
Loading in...5
×

Ксения Жагорина (СКБ-Контур)

1,243

Published on

Published in: Internet
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,243
On Slideshare
0
From Embeds
0
Number of Embeds
12
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ксения Жагорина (СКБ-Контур)

  1. 1. Насколько уникально ФИО? Ксения Жагорина СКБ Контур
  2. 2. Все знают, что ФИО не уникально…
  3. 3. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Предполагаемое число людей с таким ФИО в России
  4. 4. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Иванов Сергей Владимирович 6.200 чел. Кузнецов Сергей Александрович 4.600 чел. … Предполагаемое число людей с таким ФИО в России
  5. 5. А на самом деле …
  6. 6. А на самом деле … 0.999 0.96 0.68 0 0,2 0,4 0,6 0,8 1 1 100 10 000 1 000 000 СуникальнымФИО Количество людей в сообществе Доля людей с уникальным ФИО
  7. 7. И какая же польза?
  8. 8. И какая же польза? • Поиск «клонов»
  9. 9. И какая же польза? • Поиск «клонов» • Интеграция сервисов
  10. 10. База данных ЕГРЮЛ 21 М упоминаний c ИНН 13 М человек
  11. 11. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  12. 12. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  13. 13. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  14. 14. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  15. 15. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ?
  16. 16. Как ?
  17. 17. Постановка задачи По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
  18. 18. Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота Точность = |Найденные верные связи| |Все найденные связи| Полнота = |Найденные верные связи| |Все верные связи|
  19. 19. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
  20. 20. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО
  21. 21. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО Вероятность связи 𝑃 = 𝑃 𝑁фио < 1
  22. 22. Модель на основе независимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  23. 23. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  24. 24. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  25. 25. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек ООО «Рога и Копыта» Москва ЗАО «ЗаМКАД» Московская обл. Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  26. 26. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  27. 27. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  28. 28. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  29. 29. Модель на основе зависимости ФИО и региона. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 Полнота,точностьв% P(NRФИО < 1) точность полнота
  30. 30. Модель на основе независимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  31. 31. Модель на основе зависимости ФИО и региона. Результаты. Рогов А.В.Рогов А.В. ? ООО «Рога и Копыта» Москва P = 0.684 ЗАО «ЗаМКАД» Москва R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684
  32. 32. Модель на основе зависимости ФИО и региона. Результаты. Копытов Д.Е.Копытов Д.Е. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.986 P = 0.986 ЗАО «ЗаМКАД» Москва
  33. 33. Модель на основе зависимости ФИО и региона. Результаты. Семенов С.А.Семенов С.А. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396 P = 0.396 ЗАО «ЗаМКАД» Москва
  34. 34. Вывод Полнота 80% при точности 95%. 150 млн. новых связей.
  35. 35. Конец
  36. 36. 99.9 96.2 68.2 74.7 32,1 95,8 80,3 23,8 2,7 0 20 40 60 80 100 1 100 10 000 1 000 000 СуникальнымФИО(в%) Количество людей в сообществе Доля людей с уникальным ФИО ФИО ФИ Ф
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×