Your SlideShare is downloading. ×
0
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
К. Жагорина "Насколько уникально ФИО?" DUMP-2014
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

К. Жагорина "Насколько уникально ФИО?" DUMP-2014

256

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
256
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
3
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  1. Насколько уникально ФИО? Жагорина Ксения, СКБ Контур
  2. Все знают, что ФИО не уникально…
  3. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Предполагаемое число людей с таким ФИО в России
  4. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Иванов Сергей Владимирович 6.200 чел. Кузнецов Сергей Александрович 4.600 чел. … Предполагаемое число людей с таким ФИО в России
  5. А на самом деле …
  6. А на самом деле … Статистика по базе данных ЕГРЮЛ 13.4 млн человек с ФИО и ИНН 0.999 0.96 0.68 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1 10 100 1 000 10 000 100 000 1 000 000 10 000 000 СуникальнымФИО Количество людей в сообществе Доля людей с уникальным ФИО
  7. И какая же польза?
  8. И какая же польза? • Поиск «клонов»
  9. И какая же польза? • Поиск «клонов» • Интеграция сервисов
  10. База данных ЕГРЮЛ 13 М человек с ИНН 21 М упоминаний
  11. База данных ЕГРЮЛ 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  12. База данных ЕГРЮЛ с 13 М человек с ИНН 21 М упоминаний 11 М упоминаний без ИНН
  13. База данных ЕГРЮЛ 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  14. База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  15. База данных ЕГРЮЛ Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ? Семенов С.А. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  16. Как?
  17. Постановка задачи По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
  18. Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота Точность = |Найденные верные связи| |Все найденные связи| Полнота = |Найденные верные связи| |Все верные связи|
  19. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О Количество людей с данным ФИО – случайная величина: 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 𝑝 = 𝑃фио n − количество людей в сообществе Вероятность связи - вероятность того, что количество людей с данным ФИО в сообществе меньше единицы 𝑃 = 𝑃 𝑁фио < 1
  20. Модель на основе независимых ФИО. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  21. База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  22. с База данных ЕГРЮЛ Семенов С.А. Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ООО «Рога и Копыта» Москва ЗАО «ЗаМКАД» Московская обл. 11 М упоминаний без ИНН 13 М человек с ИНН 21 М упоминаний
  23. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2 Вероятность связи: 𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио 1
  24. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2 Вероятность связи: 𝑃 = 𝑃 𝑁фио < 1 = 𝐹 𝑁фио 1
  25. Модель на основе зависимости ФИО и региона. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Полнота,точностьв% P(NRФИО < 1) точность полнота
  26. Модель на основе независимых ФИО. 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  27. Модель на основе зависимости ФИО и региона. Результаты. Рогов А.В.Рогов А.В. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684 P = 0.684 ЗАО «ЗаМКАД» Москва
  28. Модель на основе зависимости ФИО и региона. Результаты. Копытов Д.Е.Копытов Д.Е. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.9857 P = 0.9857 ЗАО «ЗаМКАД» Москва
  29. Модель на основе зависимости ФИО и региона. Результаты. Семенов С.А.Семенов С.А. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396 P = 0.396 ЗАО «ЗаМКАД» Москва
  30. Вывод Полнота 80% при точности 95%. 150 млн. новых связей.
  31. Конец
  32. Конец ksenia.zhagorina@skbkontur.ru

×