П'ятий вебінар із серії "Відкриті дані для державних службовців".
На вебінарі ми розглянемо найпоширеніші ризики у підготовці та публікації даних, та обговоримо проблеми, пов'язані із захистом персональних та чутливих даних. Окрему увагу буде приділено питанню анонімізації та деідентифікації мікроданих.
Програму організовують Український освітній центр реформ та Український центр суспільних даних, спільно з Державним агентством з питань електронного врядування.
Для реєстрації на тренінги, та щоб буди поінформованим про подальші вебінари, заповніть, будь ласка, анкету: http://tiny.cc/opendata-gov-ua
Вміння грамотно працювати з даними, управляти даними, надзвичайно важливі для державних службовців, працівників місцевого самоврядування — адже лише на основі надійних і коректних даних можна приймати виважені і ефективні управлінські рішення. В Україні, як і в усьому світі, стрімко розвивається сфера відкритих даних, і підвищення кваліфікації державних службовців у цій сфері є дуже нагальним.
4. Проблеми та пастки з даними
•Неповні
•Неправильно зібрані
•Хибно проаналізовані
•Неправильно прокомуніковані
5. Неповні та неточні дані
•Нижче «радарів»
•Кількість бездомних дітей
•Споживання найбагатших
•Самообман
•Найбідніші схильні перебільшувати
свій дохід
7. Дані «зі сторони»
•Використання «чужих» неточних
даних
•Некоректна інтеграція різнорідних
даних
•Не враховано методологію збору
• Які інтереси тих, хто замовляв?
•Ігнорування наявних досліджень
9. Теорія “розбитих вікон”
•Не знайдено зв’язку між дрібними
порушеннями та серйозними злочинами.
•Різні визначення «порушення порядку» у
різних спільнотах.
•Не враховані інші фактори зниження рівня
злочинності (економічний ріст, зниження
кількостей незапланованих вагітностей
тощо).
•Хибне застосування - автори теорії самі
критикують агресивну тактику арештів.
13. Рейтинг шкіл
• ЗНО != Якість освіти
• Не враховуються інші фактори
(соціальний, економічний, структура
зайнятості тощо)
•Результат – «міграція» забезпечених
учнів та викладачів => подальше
погіршення показників тих, хто лишився
(найбідніших та найвразливіших)
14. Рейтинги
•Рейтинги ефективні => структурно схожі
інституції (університети), порівняння за
параметрами, зміна яких можлива самими
об’єктами порівняння.
•Рейтинги шкідливі => відмінності між
об’єктами порівняння мають системний
характер (різні обсяги фінансування,
соціально-економічний статус, культурна
різниця тощо)
15. Уникайте пасток ☺
• Збір даних (неповні та неточні)
•Аналіз даних (хиба “здорового глузду”)
•Презентація даних (“шкідливі” рейтинги)
17. Мікродані – інформація на рівні
індивідуальних респондентів
Переваги мікроданих над агрегованими
даними:
дозволяють детальні аналізи
складні різносторонні порівняння
багаторічні “наскрізні” дослідження
Проблеми – захист персональних даних
18. Персональні дані
- відомості чи сукупність відомостей про
фізичну особу, яка ідентифікована або
може бути конкретно ідентифікована
(стаття 2 ЗУ “Про захист персональних
даних”)
19. Чутливі дані
- персональні дані, обробка яких
становить особливий ризик для прав і
свобод суб’єктів персональних даних
20.
21. Чутливі дані - І
•расове, етнічне та національне походження;
•політичні, релігійні або світоглядні
переконання;
•членство в політичних партіях та/або
організаціях, професійних спілках, релігійних
організаціях чи в громадських організаціях
світоглядної спрямованості;
•стан здоров’я
•статеве життя
•біометричні дані
•генетичні дані
22. Чутливі дані - ІІ
•притягнення до адміністративної чи
кримінальної відповідальності
•застосування щодо особи заходів в рамках
досудового розслідування;
•вжиття щодо особи заходів, передбачених
Законом України «Про оперативно-розшукову
діяльність»;
•вчинення щодо особи тих чи інших видів
насильства
•місцеперебування та/або шляхи пересування
особи
23. Персональні дані у формі
відкритих даних
Стаття 10.1 Пункт 3 ЗУ “Про доступ до публічної інформації”
Публічна інформація, що містить персональні дані фізичної особи,
оприлюднюється та надається на запит у формі відкритих даних у разі
додержання однієї з таких умов:
•1) персональні дані знеособлені та захищені
відповідно до Закону України "Про захист
персональних даних";
• 2) фізичні особи (суб’єкти даних), персональні дані яких містяться в
інформації у формі відкритих даних, надали свою згоду на поширення
таких даних відповідно до Закону України "Про захист персональних
даних";
• 3) надання чи оприлюднення такої інформації передбачено законом;
• 4) обмеження доступу до такої інформації (віднесення її до інформації
з обмеженим доступом) заборонено законом.
25. Навіщо анонімізувати дані?
• Захист персональних даних - вимога
закону.
• Більше даних для аналізу у дослідників,
бізнесу та громадських активістів.
• Якісніші публічні звіти та прозоріша
підзвітність.
• Збільшує рівень довіри громадян до
інституції.
26. Оцінка потреби в анонімізації даних - I
Чи наявні в наборі даних персональні дані і
які?
Чи можна ідентифікувати персону на основі
ваших даних?
Які ще дані знаходяться у публічному просторі
або можуть бути опубліковані (через запит на
публічну інформацію)?
27. Оцінка потреби в анонімізації даних - II
Чи можна ідентифікувати персону, поєднавши
ваші дані з іншими наявними або доступними
у публічному просторі даними?
Чи можна поєднати ваш набір даних з іншими
наборами даних та як саме?
28. Чи можливо знеособити мікродані?
Персональні дані - відомості чи сукупність
відомостей про фізичну особу, яка
ідентифікована або може бути конкретно
ідентифікована;
Знеособлення персональних даних -
вилучення відомостей, які дають змогу прямо
чи опосередковано ідентифікувати особу;
30. Проблема анонімізації
•87% населення США можна унікально
ідентифікувати використовуючи лише три
значення даних – індекс, вік та стать.
•У поєднанні - це квазі-ідентифікатори.
33. Оцінка ризиків анонімізації
Яка ймовірність, що хтось спробує
деанонімізувати набір даних?
Яка ймовірність, що така деанонімізація буде
успішною?
Які методи та засоби анонімізації ви
застосували / які б могли застосувати?
Якість анонімізованих даних?
34. Методи анонімізації - І
Високий ризик, “багаті” дані
Маскування даних
Псевдонімізація
35. Методи анонімізації - ІІ
Низький ризик, “бідні дані”
Агрегування - Узагальнення даних
Видалення унікальних та рідкісних даних
Пертурбація даних - Барнардизація
Округлення (випадкове та
контрольоване)
Публікація репрезентативних елементів
набору даних
Синтезування даних
36. Методи анонімізації - ІІІ
Середній ризик, порівняно “багаті” дані
Похідні та зведені дані:
k-анонімізація (k-anonimisation)
l-різноманітність (l-diversity)
t-близькість (t-closeness)
диференційна приватність
………..
40. Загроза ІІ:
Квазі-ідентифікатори можуть
перетворитись на унікальні ідентифікатори
та використовуватись для порівняння між
різними наборами даних => Деанонімізація
Рішення:
К-анонімізація – генералізації окремих
квазі-ідентифікаторів
41. Визначення: k-анонімність
У наборі даних має бути щонайменше
k кількість однакових комбінацій квазі-
ідентифікаторів (груп квазі-ідентифікаторів)
43. Яка тут k-анонімність?
ID Вік Індекс Діагноз
90489000 20-30 363XX Серцево-судинні
62356210 20-30 363XX Серцево-судинні
84197505 20-30 363XX Серцево-судинні
32153309 >=40 361XX Серцево-судинні
42268756 >=40 361XX Онкологія
43662188 >=40 361XX Серцево-судинні
61469616 30-40 364XX Онкологія
85329105 30-40 364XX Онкологія
44. Прокляття багатовимірності
Чим більша база даних і менше квазі-
ідентифікаторів - тим простіше забезпечити
бажану k-анонімність
АЛЕ
На практиці кількість можливих комбінацій
квазі-ідентифікаторів росте значно швидше,
аніж ваша база даних.
47. •Я знаю, що Іванченка
госпіталізували цього року, йому
десь 20 років і він живе у якомусь
районі Полтавської області з
індексом 363ХХ.
•Як дізнатись, чим він захворів?
49. •Я знаю, що Івасюка госпіталізували цього
року, йому більше 40 і він у якомусь
районі Полтавської області з індексом
361ХХ, і у нього здорове серце?
•Як дізнатись, чим він захворів?
51. Ризики розкриття чутливих даних у k-
анонімній групі
•Атака через гомогенність – “якась група
людей має однаковий чутливий
показник”
•Атака через попереднє знання – “я знаю
щось ще про людину”
53. База даних ЗНО 2016
•Унікальний ідентифікатор (не хеш від
імені, молодці)
•Рік народження
•Стать
•Тестові результати по усіх предметах (у
тих, хто набрав 95% - до десятих)
•Місце, де складався тест (у тому ж
районі)
54. Масова деанонімізація бази даних ЗНО
База даних ЗНО 2016
• Унікальний
ідентифікатор (не хеш
від імені, молодці)
• Рік народження
• Стать
• Тестові результати (у
тих, хто набрав 95% - до
десятих)
• Місце, де складався
тест (той самий район)
База даних із сайту vstup.info
• Прізвище та ініціали тих,
хто вступав
• Університети, куди він
подавав документи
• Результати ЗНО по
відповідних предметах,
перемножені на унікальні
для спеціальності та вузу
коефіціенти
• Коефіцієнти
спеціальностей
55. Масова деанонімізація бази даних ЗНО
База даних ЗНО 2016
• Унікальний
ідентифікатор (не хеш
від імені, молодці)
• Рік народження
• Стать
• Тестові результати (у
тих, хто набрав 95% - до
десятих)
• Місце, де складався
тест (той самий район)
База даних із сайту vstup.info
• Прізвище та ініціали тих,
хто вступав
• Університети, куди він
подавав документи
• Результати ЗНО по
відповідних предметах,
перемножені на унікальні
для спеціальності та вузу
коефіціенти
• Коефіцієнти
спеціальностей
56.
57.
58. Знайдені результати
20 637 тих, хто складав ЗНО – унікально
ідентифіковані
43 825 - тих – ми знайшли 10 і менше варіантів
співпадінь імен та результатів
З них 19 976 - мають лише 2 варіанти
59. Висновки
•Мікродані – це дуже добре
•Анонімізація – це дуже непросто
•Є методи, якими можна проаналізувати
ймовірність деіндентифікації (прагматично та
математично)
•Перед публікацією мікроданих з чутливими
даними проконсультуйтесь зі спеціалістами
☺