К. Жагорина "Насколько уникально ФИО?" DUMP-2014

492 views
387 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
492
On SlideShare
0
From Embeds
0
Number of Embeds
10
Actions
Shares
0
Downloads
4
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

К. Жагорина "Насколько уникально ФИО?" DUMP-2014

  1. 1. Насколько уникально ФИО? Жагорина Ксения, СКБ Контур
  2. 2. Все знают, что ФИО не уникально…
  3. 3. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Предполагаемое число людей с таким ФИО в России
  4. 4. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Иванов Сергей Владимирович 6.200 чел. Кузнецов Сергей Александрович 4.600 чел. … Предполагаемое число людей с таким ФИО в России
  5. 5. А на самом деле …
  6. 6. А на самом деле … Статистика по базе данных ЕГРЮЛ 13.4 млн человек с ФИО и ИНН 0.999 0.96 0.68 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1 10 100 1 000 10 000 100 000 1 000 000 10 000 000 СуникальнымФИО Количество людей в сообществе Доля людей с уникальным ФИО
  7. 7. И какая же польза?
  8. 8. И какая же польза? • Поиск «клонов»
  9. 9. И какая же польза? • Поиск «клонов» • Интеграция сервисов
  10. 10. База данных ЕГРЮЛ 13 М человек с ИНН 21 М упоминаний
  11. 11. База данных ЕГРЮЛ 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  12. 12. База данных ЕГРЮЛ с 13 М человек с ИНН 21 М упоминаний 11 М упоминаний без ИНН
  13. 13. База данных ЕГРЮЛ 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  14. 14. База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  15. 15. База данных ЕГРЮЛ Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ? Семенов С.А. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  16. 16. Как?
  17. 17. Постановка задачи По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
  18. 18. Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота Точность = |Найденные верные связи| |Все найденные связи| Полнота = |Найденные верные связи| |Все верные связи|
  19. 19. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О Количество людей с данным ФИО – случайная величина: 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 𝑝 = 𝑃фио n − количество людей в сообществе Вероятность связи - вероятность того, что количество людей с данным ФИО в сообществе меньше единицы 𝑃 = 𝑃 𝑁фио < 1
  20. 20. Модель на основе независимых ФИО. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  21. 21. База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  22. 22. с База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ООО «Рога и Копыта» Москва ЗАО «ЗаМКАД» Московская обл. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  23. 23. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2 Вероятность связи: 𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио 1
  24. 24. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2 Вероятность связи: 𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио 1
  25. 25. Модель на основе зависимости ФИО и региона. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Полнота,точностьв% P(NRФИО < 1) точность полнота
  26. 26. Модель на основе независимых ФИО. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  27. 27. Модель на основе зависимости ФИО и региона. Результаты. Рогов А.В.Рогов А.В. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684 P = 0.684 ЗАО «ЗаМКАД» Москва
  28. 28. Модель на основе зависимости ФИО и региона. Результаты. Копытов Д.Е.Копытов Д.Е. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.9857 P = 0.9857 ЗАО «ЗаМКАД» Москва
  29. 29. Модель на основе зависимости ФИО и региона. Результаты. Семенов С.А.Семенов С.А. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396 P = 0.396 ЗАО «ЗаМКАД» Москва
  30. 30. Вывод Полнота 80% при точности 95%. 150 млн. новых связей.
  31. 31. Конец
  32. 32. Конец ksenia.zhagorina@skbkontur.ru

×