Your SlideShare is downloading. ×
  • Like
Ксения Жагорина (СКБ-Контур)
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Ксения Жагорина (СКБ-Контур)

  • 1,183 views
Published

 

Published in Internet
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,183
On SlideShare
0
From Embeds
0
Number of Embeds
12

Actions

Shares
Downloads
6
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Насколько уникально ФИО? Ксения Жагорина СКБ Контур
  • 2. Все знают, что ФИО не уникально…
  • 3. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Предполагаемое число людей с таким ФИО в России
  • 4. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Иванов Сергей Владимирович 6.200 чел. Кузнецов Сергей Александрович 4.600 чел. … Предполагаемое число людей с таким ФИО в России
  • 5. А на самом деле …
  • 6. А на самом деле … 0.999 0.96 0.68 0 0,2 0,4 0,6 0,8 1 1 100 10 000 1 000 000 СуникальнымФИО Количество людей в сообществе Доля людей с уникальным ФИО
  • 7. И какая же польза?
  • 8. И какая же польза? • Поиск «клонов»
  • 9. И какая же польза? • Поиск «клонов» • Интеграция сервисов
  • 10. База данных ЕГРЮЛ 21 М упоминаний c ИНН 13 М человек
  • 11. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 12. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 13. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 14. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 15. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ?
  • 16. Как ?
  • 17. Постановка задачи По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
  • 18. Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота Точность = |Найденные верные связи| |Все найденные связи| Полнота = |Найденные верные связи| |Все верные связи|
  • 19. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
  • 20. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО
  • 21. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО Вероятность связи 𝑃 = 𝑃 𝑁фио < 1
  • 22. Модель на основе независимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • 23. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 24. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 25. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек ООО «Рога и Копыта» Москва ЗАО «ЗаМКАД» Московская обл. Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 26. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 27. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 28. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 29. Модель на основе зависимости ФИО и региона. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 Полнота,точностьв% P(NRФИО < 1) точность полнота
  • 30. Модель на основе независимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • 31. Модель на основе зависимости ФИО и региона. Результаты. Рогов А.В.Рогов А.В. ? ООО «Рога и Копыта» Москва P = 0.684 ЗАО «ЗаМКАД» Москва R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684
  • 32. Модель на основе зависимости ФИО и региона. Результаты. Копытов Д.Е.Копытов Д.Е. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.986 P = 0.986 ЗАО «ЗаМКАД» Москва
  • 33. Модель на основе зависимости ФИО и региона. Результаты. Семенов С.А.Семенов С.А. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396 P = 0.396 ЗАО «ЗаМКАД» Москва
  • 34. Вывод Полнота 80% при точности 95%. 150 млн. новых связей.
  • 35. Конец
  • 36. 99.9 96.2 68.2 74.7 32,1 95,8 80,3 23,8 2,7 0 20 40 60 80 100 1 100 10 000 1 000 000 СуникальнымФИО(в%) Количество людей в сообществе Доля людей с уникальным ФИО ФИО ФИ Ф