Насколько уникально
ФИО?
Ксения Жагорина
СКБ Контур
Все знают, что
ФИО не уникально…
Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Предполагаемое
число людей с
таким ФИО в
России
Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Иванов Сергей Владимирович 6.200 чел.
Кузнецов Сергей Александрович 4.600 чел.
…
Предполагаемое
число людей с
таким ФИО в
России
А на самом деле …
А на самом деле …
0.999 0.96
0.68
0
0,2
0,4
0,6
0,8
1
1 100 10 000 1 000 000
СуникальнымФИО
Количество людей в сообществе
Доля людей с уникальным ФИО
И какая же польза?
И какая же польза?
• Поиск «клонов»
И какая же польза?
• Поиск «клонов»
• Интеграция сервисов
База данных ЕГРЮЛ
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
?
Как ?
Постановка задачи
По двум упоминаниям с одинаковым ФИО
определить насколько вероятно, что они об
одном и том же человеке.
Методика тестирования
Тестирование – на упоминаниях с указанным ИНН
Оценка модели – точность и полнота
Точность =
|Найденные верные связи|
|Все найденные связи|
Полнота =
|Найденные верные связи|
|Все верные связи|
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Вероятность связи
𝑃 = 𝑃 𝑁фио < 1
Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
полнота,точностьв%
P(Nфио < 1)
точность
полнота
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
ООО «Рога и Копыта»
Москва
ЗАО «ЗаМКАД»
Московская обл.
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
Модель на основе зависимости ФИО и
региона.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
Полнота,точностьв%
P(NRФИО < 1)
точность
полнота
Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
полнота,точностьв%
P(Nфио < 1)
точность
полнота
Модель на основе зависимости ФИО
и региона. Результаты.
Рогов А.В.Рогов А.В.
?
ООО «Рога и Копыта»
Москва
P = 0.684
ЗАО «ЗаМКАД»
Москва
R = Москва
ФИО = Рогов Александр Владимирович
P = P(NRФИО<1) = 0.684
Модель на основе зависимости ФИО
и региона. Результаты.
Копытов Д.Е.Копытов Д.Е.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Копытов Давид Ефремович
P = P(NRФИО<1) = 0.986
P = 0.986
ЗАО «ЗаМКАД»
Москва
Модель на основе зависимости ФИО
и региона. Результаты.
Семенов С.А.Семенов С.А.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Семёнов Сергей Андреевич
P = P(NRФИО<1) = 0.396
P = 0.396
ЗАО «ЗаМКАД»
Москва
Вывод
Полнота 80% при точности 95%.
150 млн. новых связей.
Конец
99.9
96.2
68.2
74.7
32,1
95,8
80,3
23,8
2,7
0
20
40
60
80
100
1 100 10 000 1 000 000
СуникальнымФИО(в%)
Количество людей в сообществе
Доля людей с уникальным ФИО
ФИО
ФИ
Ф

Ксения Жагорина (СКБ-Контур)

  • 1.
  • 2.
    Все знают, что ФИОне уникально…
  • 3.
    Все знают, что ФИОне уникально… Иванов Иван Иванович 1.600 чел. Предполагаемое число людей с таким ФИО в России
  • 4.
    Все знают, что ФИОне уникально… Иванов Иван Иванович 1.600 чел. Иванов Сергей Владимирович 6.200 чел. Кузнецов Сергей Александрович 4.600 чел. … Предполагаемое число людей с таким ФИО в России
  • 5.
    А на самомделе …
  • 6.
    А на самомделе … 0.999 0.96 0.68 0 0,2 0,4 0,6 0,8 1 1 100 10 000 1 000 000 СуникальнымФИО Количество людей в сообществе Доля людей с уникальным ФИО
  • 7.
    И какая жепольза?
  • 8.
    И какая жепольза? • Поиск «клонов»
  • 9.
    И какая жепольза? • Поиск «клонов» • Интеграция сервисов
  • 10.
    База данных ЕГРЮЛ 21М упоминаний c ИНН 13 М человек
  • 11.
    База данных ЕГРЮЛ 11М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 12.
    База данных ЕГРЮЛ 11М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 13.
    База данных ЕГРЮЛ 11М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 14.
    База данных ЕГРЮЛ 11М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 15.
    База данных ЕГРЮЛ 11М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ?
  • 16.
  • 18.
    Постановка задачи По двумупоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
  • 19.
    Методика тестирования Тестирование –на упоминаниях с указанным ИНН Оценка модели – точность и полнота Точность = |Найденные верные связи| |Все найденные связи| Полнота = |Найденные верные связи| |Все верные связи|
  • 20.
    Модель на основенезависимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
  • 21.
    Модель на основенезависимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО
  • 22.
    Модель на основенезависимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО Вероятность связи 𝑃 = 𝑃 𝑁фио < 1
  • 23.
    Модель на основенезависимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • 24.
    База данных ЕГРЮЛ 11М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 25.
    База данных ЕГРЮЛ 11М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 26.
    База данных ЕГРЮЛ 11М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек ООО «Рога и Копыта» Москва ЗАО «ЗаМКАД» Московская обл. Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 27.
    Модель на основезависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 28.
    Модель на основезависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 29.
    Модель на основезависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 30.
    Модель на основезависимости ФИО и региона. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 Полнота,точностьв% P(NRФИО < 1) точность полнота
  • 31.
    Модель на основенезависимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • 32.
    Модель на основезависимости ФИО и региона. Результаты. Рогов А.В.Рогов А.В. ? ООО «Рога и Копыта» Москва P = 0.684 ЗАО «ЗаМКАД» Москва R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684
  • 33.
    Модель на основезависимости ФИО и региона. Результаты. Копытов Д.Е.Копытов Д.Е. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.986 P = 0.986 ЗАО «ЗаМКАД» Москва
  • 34.
    Модель на основезависимости ФИО и региона. Результаты. Семенов С.А.Семенов С.А. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396 P = 0.396 ЗАО «ЗаМКАД» Москва
  • 35.
    Вывод Полнота 80% приточности 95%. 150 млн. новых связей.
  • 38.
  • 40.
    99.9 96.2 68.2 74.7 32,1 95,8 80,3 23,8 2,7 0 20 40 60 80 100 1 100 10000 1 000 000 СуникальнымФИО(в%) Количество людей в сообществе Доля людей с уникальным ФИО ФИО ФИ Ф