Мікродані та проблеми захисту особистих даних ГО Український центр суспільних даних ГО Український центр суспільних даних

Вебінар 5
Мікродані та проблеми
захисту особистих даних
27 червня 2017
«Відкриті дані для державних службовців»
За підтримки

Пастки у роботі з даними
Проблеми захисту
персональних даних

Проблеми та пастки з даними
•Неповні
•Неправильно зібрані
•Хибно проаналізовані
•Неправильно прокомуніковані

Неповні та неточні дані
•Нижче «радарів»
•Кількість бездомних дітей
•Споживання найбагатших
•Самообман
•Найбідніші схильні перебільшувати
свій дохід

Проблеми отримання
•«Закриті» спільноти
•Роми
•Релігійні організації
•Індивідуальні ризики
•ЛГБТ
•Особи, що претендують на статус
біженців

Дані «зі сторони»
•Використання «чужих» неточних
даних
•Некоректна інтеграція різнорідних
даних
•Не враховано методологію збору
• Які інтереси тих, хто замовляв?
•Ігнорування наявних досліджень

Хибний аналіз даних

Теорія “розбитих вікон”
•Не знайдено зв’язку між дрібними
порушеннями та серйозними злочинами.
•Різні визначення «порушення порядку» у
різних спільнотах.
•Не враховані інші фактори зниження рівня
злочинності (економічний ріст, зниження
кількостей незапланованих вагітностей
тощо).
•Хибне застосування - автори теорії самі
критикують агресивну тактику арештів.

Хибно прокомуніковані

Рейтинг шкіл
• ЗНО != Якість освіти
• Не враховуються інші фактори
(соціальний, економічний, структура
зайнятості тощо)
•Результат – «міграція» забезпечених
учнів та викладачів => подальше
погіршення показників тих, хто лишився
(найбідніших та найвразливіших)

Рейтинги
•Рейтинги ефективні => структурно схожі
інституції (університети), порівняння за
параметрами, зміна яких можлива самими
об’єктами порівняння.
•Рейтинги шкідливі => відмінності між
об’єктами порівняння мають системний
характер (різні обсяги фінансування,
соціально-економічний статус, культурна
різниця тощо)

Уникайте пасток ☺
• Збір даних (неповні та неточні)
•Аналіз даних (хиба “здорового глузду”)
•Презентація даних (“шкідливі” рейтинги)

Мікродані та персональні дані

Мікродані – інформація на рівні
індивідуальних респондентів
Переваги мікроданих над агрегованими
даними:
дозволяють детальні аналізи
складні різносторонні порівняння
багаторічні “наскрізні” дослідження
Проблеми – захист персональних даних

Персональні дані
- відомості чи сукупність відомостей про
фізичну особу, яка ідентифікована або
може бути конкретно ідентифікована
(стаття 2 ЗУ “Про захист персональних
даних”)

Чутливі дані
- персональні дані, обробка яких
становить особливий ризик для прав і
свобод суб’єктів персональних даних

Чутливі дані - І
•расове, етнічне та національне походження;
•політичні, релігійні або світоглядні
переконання;
•членство в політичних партіях та/або
організаціях, професійних спілках, релігійних
організаціях чи в громадських організаціях
світоглядної спрямованості;
•стан здоров’я
•статеве життя
•біометричні дані
•генетичні дані

Чутливі дані - ІІ
•притягнення до адміністративної чи
кримінальної відповідальності
•застосування щодо особи заходів в рамках
досудового розслідування;
•вжиття щодо особи заходів, передбачених
Законом України «Про оперативно-розшукову
діяльність»;
•вчинення щодо особи тих чи інших видів
насильства
•місцеперебування та/або шляхи пересування
особи

Персональні дані у формі
відкритих даних
Стаття 10.1 Пункт 3 ЗУ “Про доступ до публічної інформації”
Публічна інформація, що містить персональні дані фізичної особи,
оприлюднюється та надається на запит у формі відкритих даних у разі
додержання однієї з таких умов:
•1) персональні дані знеособлені та захищені
відповідно до Закону України "Про захист
персональних даних";
• 2) фізичні особи (суб’єкти даних), персональні дані яких містяться в
інформації у формі відкритих даних, надали свою згоду на поширення
таких даних відповідно до Закону України "Про захист персональних
даних";
• 3) надання чи оприлюднення такої інформації передбачено законом;
• 4) обмеження доступу до такої інформації (віднесення її до інформації
з обмеженим доступом) заборонено законом.

Анонімізація та її секрети ☺

Навіщо анонімізувати дані?
• Захист персональних даних - вимога
закону.
• Більше даних для аналізу у дослідників,
бізнесу та громадських активістів.
• Якісніші публічні звіти та прозоріша
підзвітність.
• Збільшує рівень довіри громадян до
інституції.

Оцінка потреби в анонімізації даних - I
Чи наявні в наборі даних персональні дані і
які?
Чи можна ідентифікувати персону на основі
ваших даних?
Які ще дані знаходяться у публічному просторі
або можуть бути опубліковані (через запит на
публічну інформацію)?

Оцінка потреби в анонімізації даних - II
Чи можна ідентифікувати персону, поєднавши
ваші дані з іншими наявними або доступними
у публічному просторі даними?
Чи можна поєднати ваш набір даних з іншими
наборами даних та як саме?

Чи можливо знеособити мікродані?
Персональні дані - відомості чи сукупність
відомостей про фізичну особу, яка
ідентифікована або може бути конкретно
ідентифікована;
Знеособлення персональних даних -
вилучення відомостей, які дають змогу прямо
чи опосередковано ідентифікувати особу;

Проблема знеособлення/анонімізації
•Ідентифікатори – адреса, ім’я, email
•Квазі-ідентифікатори – дата
народження+індекс, email+IP-адреса тощо
•Чутливі дані – дані про хвороби, зарплатня
тощо.

Проблема анонімізації
•87% населення США можна унікально
ідентифікувати використовуючи лише три
значення даних – індекс, вік та стать.
•У поєднанні - це квазі-ідентифікатори.

Прагматична анонімізація

Оцінка ризиків анонімізації
Яка ймовірність, що хтось спробує
деанонімізувати набір даних?
Яка ймовірність, що така деанонімізація буде
успішною?
Які методи та засоби анонімізації ви
застосували / які б могли застосувати?
Якість анонімізованих даних?

Методи анонімізації - І
Високий ризик, “багаті” дані
Маскування даних
Псевдонімізація

Методи анонімізації - ІІ
Низький ризик, “бідні дані”
Агрегування - Узагальнення даних
Видалення унікальних та рідкісних даних
Пертурбація даних - Барнардизація
Округлення (випадкове та
контрольоване)
Публікація репрезентативних елементів
набору даних
Синтезування даних

Методи анонімізації - ІІІ
Середній ризик, порівняно “багаті” дані
Похідні та зведені дані:
k-анонімізація (k-anonimisation)
l-різноманітність (l-diversity)
t-близькість (t-closeness)
диференційна приватність
………..

Загроза І - Ідентифікатор
ПІБ Вік Індекс
Дата
госпіталізації Діагноз
Іванченко С.А. 21 36345 5/1/17
Серцево-
судинні
Колодяжний.
Б.П. 56 36335 3/1/17
Серцево-
судинні
Калина О.М. 29 36156 3/2/17 Грип
Валентинова
А.А. 36122 12/1/17
Серцево-
судинні
Івасюк П.П 62 36322 10/1/17 Онкологія
Олегов П.О. 35 36444 6/2/17
Серцево-
судинні
Шевченко К.А. 36479 11/2/17 Онкологія
Петренко П.П. 34 36055 12/2/17 Онкологія
Іванов К.А. 42 36222 1/2/17
Серцево-
судинні

Рішення - Псевдонімізація
ID Вік Індекс
Дата
90489000 21 36345 5/1/17 Серцево-судинні
62356210 56 36335 3/1/17 Серцево-судинні
84197505 29 36156 3/2/17 Грип
32153309 43 36122 5/3/17 Серцево-судинні
52268756 62 36322 10/1/17 Онкологія
43662188 35 36444 6/2/17 Серцево-судинні
71469616 55 36479 11/2/17 Онкологія
85329105 34 36055 12/2/17 Онкологія
91724882 42 36222 1/2/17 Серцево-судинні

Загроза ІІ - Квазі-Ідентифікатори
Дата
90489000 21 36345 5/1/17 Серцево-судинні
62356210 56 36335 3/1/17 Серцево-судинні
84197505 29 36156 3/2/17 Грип
32153309 43 36122 5/3//17 Серцево-судинні
52268756 62 36322 10/1/17 Онкологія
43662188 35 36444 6/2/17 Серцево-судинні
71469616 55 36479 11/2/17 Онкологія
85329105 34 36055 12/2/17 Онкологія
91724882 42 36222 1/2/17 Серцево-судинні

Загроза ІІ:
Квазі-ідентифікатори можуть
перетворитись на унікальні ідентифікатори
та використовуватись для порівняння між
різними наборами даних => Деанонімізація
Рішення:
К-анонімізація – генералізації окремих
квазі-ідентифікаторів

Визначення: k-анонімність
У наборі даних має бути щонайменше
k кількість однакових комбінацій квазі-
ідентифікаторів (груп квазі-ідентифікаторів)

Яка тут k-анонімність?
ID Вік Індекс Діагноз
90489000 20-30 363XX Серцево-судинні
32153309 >=40 361XX Серцево-судинні
42268756 >=40 361XX Онкологія
43662188 >=40 361XX Серцево-судинні
61469616 30-40 364XX Онкологія
85329105 30-40 364XX Онкологія

Прокляття багатовимірності
Чим більша база даних і менше квазі-
ідентифікаторів - тим простіше забезпечити
бажану k-анонімність
АЛЕ
На практиці кількість можливих комбінацій
квазі-ідентифікаторів росте значно швидше,
аніж ваша база даних.

Прокляття багатовимірності

Атаки на чутливі дані

•Я знаю, що Іванченка
госпіталізували цього року, йому
десь 20 років і він живе у якомусь
районі Полтавської області з
індексом 363ХХ.
•Як дізнатись, чим він захворів?

Атака через гомогенність
Дата
90489000 20-30 363XX 2017 Серцево-судинні
32153309 >=40 361XX 2017 Серцево-судинні
52268756 >=40 361XX 2017 Онкологія
43662188 >=40 361XX
2017
Серцево-судинні
41469616 30-40 364XX 2017 Онкологія
85329105 30-40 364XX
2017
Онкологія

•Я знаю, що Івасюка госпіталізували цього
року, йому більше 40 і він у якомусь
районі Полтавської області з індексом
361ХХ, і у нього здорове серце?
•Як дізнатись, чим він захворів?

Атака через попереднє знання
Дата
32153309 >=40 361XX 2017 Серцево-судинні
52268756 >=40 361XX 2017 Онкологія
43662188 >=40 361XX
2017
Серцево-судинні
41469616 30-40 364XX 2017 Онкологія
85329105 30-40 364XX
2017
Онкологія

Ризики розкриття чутливих даних у k-
анонімній групі
•Атака через гомогенність – “якась група
людей має однаковий чутливий
показник”
•Атака через попереднє знання – “я знаю
щось ще про людину”

“Атака” на базу даних ЗНО

База даних ЗНО 2016
•Унікальний ідентифікатор (не хеш від
імені, молодці)
•Рік народження
•Стать
•Тестові результати по усіх предметах (у
тих, хто набрав 95% - до десятих)
•Місце, де складався тест (у тому ж
районі)

Масова деанонімізація бази даних ЗНО
База даних ЗНО 2016
• Унікальний
ідентифікатор (не хеш
від імені, молодці)
• Рік народження
• Стать
• Тестові результати (у
тих, хто набрав 95% - до
десятих)
• Місце, де складався
тест (той самий район)
База даних із сайту vstup.info
• Прізвище та ініціали тих,
хто вступав
• Університети, куди він
подавав документи
• Результати ЗНО по
відповідних предметах,
перемножені на унікальні
для спеціальності та вузу
коефіціенти
• Коефіцієнти
спеціальностей

Знайдені результати
20 637 тих, хто складав ЗНО – унікально
ідентифіковані
43 825 - тих – ми знайшли 10 і менше варіантів
співпадінь імен та результатів
З них 19 976 - мають лише 2 варіанти

Висновки
•Мікродані – це дуже добре
•Анонімізація – це дуже непросто
•Є методи, якими можна проаналізувати
ймовірність деіндентифікації (прагматично та
математично)
•Перед публікацією мікроданих з чутливими
даними проконсультуйтесь зі спеціалістами
☺

Мікродані та проблеми захисту особистих даних ГО Український центр суспільних даних ГО Український центр суспільних даних

Recommended

Recommended

More Related Content

More from Andriy Gorbal

More from Andriy Gorbal (18)

Recently uploaded

Recently uploaded (14)

Мікродані та проблеми захисту особистих даних ГО Український центр суспільних даних ГО Український центр суспільних даних