SlideShare a Scribd company logo
1 of 61
Вебінар 5
Мікродані та проблеми
захисту особистих даних
27 червня 2017
«Відкриті дані для державних службовців»
За підтримки
Пастки у роботі з даними
Проблеми захисту
персональних даних
Проблеми та пастки з даними
•Неповні
•Неправильно зібрані
•Хибно проаналізовані
•Неправильно прокомуніковані
Неповні та неточні дані
•Нижче «радарів»
•Кількість бездомних дітей
•Споживання найбагатших
•Самообман
•Найбідніші схильні перебільшувати
свій дохід
Проблеми отримання
•«Закриті» спільноти
•Роми
•Релігійні організації
•Індивідуальні ризики
•ЛГБТ
•Особи, що претендують на статус
біженців
Дані «зі сторони»
•Використання «чужих» неточних
даних
•Некоректна інтеграція різнорідних
даних
•Не враховано методологію збору
• Які інтереси тих, хто замовляв?
•Ігнорування наявних досліджень
Хибний аналіз даних
Теорія “розбитих вікон”
•Не знайдено зв’язку між дрібними
порушеннями та серйозними злочинами.
•Різні визначення «порушення порядку» у
різних спільнотах.
•Не враховані інші фактори зниження рівня
злочинності (економічний ріст, зниження
кількостей незапланованих вагітностей
тощо).
•Хибне застосування - автори теорії самі
критикують агресивну тактику арештів.
Хибно прокомуніковані
Рейтинг шкіл
• ЗНО != Якість освіти
• Не враховуються інші фактори
(соціальний, економічний, структура
зайнятості тощо)
•Результат – «міграція» забезпечених
учнів та викладачів => подальше
погіршення показників тих, хто лишився
(найбідніших та найвразливіших)
Рейтинги
•Рейтинги ефективні => структурно схожі
інституції (університети), порівняння за
параметрами, зміна яких можлива самими
об’єктами порівняння.
•Рейтинги шкідливі => відмінності між
об’єктами порівняння мають системний
характер (різні обсяги фінансування,
соціально-економічний статус, культурна
різниця тощо)
Уникайте пасток ☺
• Збір даних (неповні та неточні)
•Аналіз даних (хиба “здорового глузду”)
•Презентація даних (“шкідливі” рейтинги)
Мікродані та персональні дані
Мікродані – інформація на рівні
індивідуальних респондентів
Переваги мікроданих над агрегованими
даними:
дозволяють детальні аналізи
складні різносторонні порівняння
багаторічні “наскрізні” дослідження
Проблеми – захист персональних даних
Персональні дані
- відомості чи сукупність відомостей про
фізичну особу, яка ідентифікована або
може бути конкретно ідентифікована
(стаття 2 ЗУ “Про захист персональних
даних”)
Чутливі дані
- персональні дані, обробка яких
становить особливий ризик для прав і
свобод суб’єктів персональних даних
Чутливі дані - І
•расове, етнічне та національне походження;
•політичні, релігійні або світоглядні
переконання;
•членство в політичних партіях та/або
організаціях, професійних спілках, релігійних
організаціях чи в громадських організаціях
світоглядної спрямованості;
•стан здоров’я
•статеве життя
•біометричні дані
•генетичні дані
Чутливі дані - ІІ
•притягнення до адміністративної чи
кримінальної відповідальності
•застосування щодо особи заходів в рамках
досудового розслідування;
•вжиття щодо особи заходів, передбачених
Законом України «Про оперативно-розшукову
діяльність»;
•вчинення щодо особи тих чи інших видів
насильства
•місцеперебування та/або шляхи пересування
особи
Персональні дані у формі
відкритих даних
Стаття 10.1 Пункт 3 ЗУ “Про доступ до публічної інформації”
Публічна інформація, що містить персональні дані фізичної особи,
оприлюднюється та надається на запит у формі відкритих даних у разі
додержання однієї з таких умов:
•1) персональні дані знеособлені та захищені
відповідно до Закону України "Про захист
персональних даних";
• 2) фізичні особи (суб’єкти даних), персональні дані яких містяться в
інформації у формі відкритих даних, надали свою згоду на поширення
таких даних відповідно до Закону України "Про захист персональних
даних";
• 3) надання чи оприлюднення такої інформації передбачено законом;
• 4) обмеження доступу до такої інформації (віднесення її до інформації
з обмеженим доступом) заборонено законом.
Анонімізація та її секрети ☺
Навіщо анонімізувати дані?
• Захист персональних даних - вимога
закону.
• Більше даних для аналізу у дослідників,
бізнесу та громадських активістів.
• Якісніші публічні звіти та прозоріша
підзвітність.
• Збільшує рівень довіри громадян до
інституції.
Оцінка потреби в анонімізації даних - I
Чи наявні в наборі даних персональні дані і
які?
Чи можна ідентифікувати персону на основі
ваших даних?
Які ще дані знаходяться у публічному просторі
або можуть бути опубліковані (через запит на
публічну інформацію)?
Оцінка потреби в анонімізації даних - II
Чи можна ідентифікувати персону, поєднавши
ваші дані з іншими наявними або доступними
у публічному просторі даними?
Чи можна поєднати ваш набір даних з іншими
наборами даних та як саме?
Чи можливо знеособити мікродані?
Персональні дані - відомості чи сукупність
відомостей про фізичну особу, яка
ідентифікована або може бути конкретно
ідентифікована;
Знеособлення персональних даних -
вилучення відомостей, які дають змогу прямо
чи опосередковано ідентифікувати особу;
Проблема знеособлення/анонімізації
•Ідентифікатори – адреса, ім’я, email
•Квазі-ідентифікатори – дата
народження+індекс, email+IP-адреса тощо
•Чутливі дані – дані про хвороби, зарплатня
тощо.
Проблема анонімізації
•87% населення США можна унікально
ідентифікувати використовуючи лише три
значення даних – індекс, вік та стать.
•У поєднанні - це квазі-ідентифікатори.
Прагматична анонімізація
Оцінка ризиків анонімізації
Яка ймовірність, що хтось спробує
деанонімізувати набір даних?
Яка ймовірність, що така деанонімізація буде
успішною?
Які методи та засоби анонімізації ви
застосували / які б могли застосувати?
Якість анонімізованих даних?
Методи анонімізації - І
Високий ризик, “багаті” дані
Маскування даних
Псевдонімізація
Методи анонімізації - ІІ
Низький ризик, “бідні дані”
Агрегування - Узагальнення даних
Видалення унікальних та рідкісних даних
Пертурбація даних - Барнардизація
Округлення (випадкове та
контрольоване)
Публікація репрезентативних елементів
набору даних
Синтезування даних
Методи анонімізації - ІІІ
Середній ризик, порівняно “багаті” дані
Похідні та зведені дані:
k-анонімізація (k-anonimisation)
l-різноманітність (l-diversity)
t-близькість (t-closeness)
диференційна приватність
………..
Загроза І - Ідентифікатор
ПІБ Вік Індекс
Дата
госпіталізації Діагноз
Іванченко С.А. 21 36345 5/1/17
Серцево-
судинні
Колодяжний.
Б.П. 56 36335 3/1/17
Серцево-
судинні
Калина О.М. 29 36156 3/2/17 Грип
Валентинова
А.А. 36122 12/1/17
Серцево-
судинні
Івасюк П.П 62 36322 10/1/17 Онкологія
Олегов П.О. 35 36444 6/2/17
Серцево-
судинні
Шевченко К.А. 36479 11/2/17 Онкологія
Петренко П.П. 34 36055 12/2/17 Онкологія
Іванов К.А. 42 36222 1/2/17
Серцево-
судинні
Рішення - Псевдонімізація
ID Вік Індекс
Дата
госпіталізації Діагноз
90489000 21 36345 5/1/17 Серцево-судинні
62356210 56 36335 3/1/17 Серцево-судинні
84197505 29 36156 3/2/17 Грип
32153309 43 36122 5/3/17 Серцево-судинні
52268756 62 36322 10/1/17 Онкологія
43662188 35 36444 6/2/17 Серцево-судинні
71469616 55 36479 11/2/17 Онкологія
85329105 34 36055 12/2/17 Онкологія
91724882 42 36222 1/2/17 Серцево-судинні
Загроза ІІ - Квазі-Ідентифікатори
ID Вік Індекс
Дата
госпіталізації Діагноз
90489000 21 36345 5/1/17 Серцево-судинні
62356210 56 36335 3/1/17 Серцево-судинні
84197505 29 36156 3/2/17 Грип
32153309 43 36122 5/3//17 Серцево-судинні
52268756 62 36322 10/1/17 Онкологія
43662188 35 36444 6/2/17 Серцево-судинні
71469616 55 36479 11/2/17 Онкологія
85329105 34 36055 12/2/17 Онкологія
91724882 42 36222 1/2/17 Серцево-судинні
Загроза ІІ:
Квазі-ідентифікатори можуть
перетворитись на унікальні ідентифікатори
та використовуватись для порівняння між
різними наборами даних => Деанонімізація
Рішення:
К-анонімізація – генералізації окремих
квазі-ідентифікаторів
Визначення: k-анонімність
У наборі даних має бути щонайменше
k кількість однакових комбінацій квазі-
ідентифікаторів (груп квазі-ідентифікаторів)
Загроза ІІ - Квазі-Ідентифікатори
ID Вік Індекс
Дата
госпіталізації Діагноз
90489000 21 36345 5/1/17 Серцево-судинні
62356210 56 36335 3/1/17 Серцево-судинні
84197505 29 36156 3/2/17 Грип
32153309 43 36122 5/3//17 Серцево-судинні
52268756 62 36322 10/1/17 Онкологія
43662188 35 36444 6/2/17 Серцево-судинні
71469616 55 36479 11/2/17 Онкологія
85329105 34 36055 12/2/17 Онкологія
91724882 42 36222 1/2/17 Серцево-судинні
Яка тут k-анонімність?
ID Вік Індекс Діагноз
90489000 20-30 363XX Серцево-судинні
62356210 20-30 363XX Серцево-судинні
84197505 20-30 363XX Серцево-судинні
32153309 >=40 361XX Серцево-судинні
42268756 >=40 361XX Онкологія
43662188 >=40 361XX Серцево-судинні
61469616 30-40 364XX Онкологія
85329105 30-40 364XX Онкологія
Прокляття багатовимірності
Чим більша база даних і менше квазі-
ідентифікаторів - тим простіше забезпечити
бажану k-анонімність
АЛЕ
На практиці кількість можливих комбінацій
квазі-ідентифікаторів росте значно швидше,
аніж ваша база даних.
Прокляття багатовимірності
Атаки на чутливі дані
•Я знаю, що Іванченка
госпіталізували цього року, йому
десь 20 років і він живе у якомусь
районі Полтавської області з
індексом 363ХХ.
•Як дізнатись, чим він захворів?
Атака через гомогенність
ID Вік Індекс
Дата
госпіталізації Діагноз
90489000 20-30 363XX 2017 Серцево-судинні
62356210 20-30 363XX 2017 Серцево-судинні
84197505 20-30 363XX 2017 Серцево-судинні
32153309 >=40 361XX 2017 Серцево-судинні
52268756 >=40 361XX 2017 Онкологія
43662188 >=40 361XX
2017
Серцево-судинні
41469616 30-40 364XX 2017 Онкологія
85329105 30-40 364XX
2017
Онкологія
91724882 30-40 364XX 2017 Серцево-судинні
•Я знаю, що Івасюка госпіталізували цього
року, йому більше 40 і він у якомусь
районі Полтавської області з індексом
361ХХ, і у нього здорове серце?
•Як дізнатись, чим він захворів?
Атака через попереднє знання
ID Вік Індекс
Дата
госпіталізації Діагноз
90489000 20-30 363XX 2017 Серцево-судинні
62356210 20-30 363XX 2017 Серцево-судинні
84197505 20-30 363XX 2017 Серцево-судинні
32153309 >=40 361XX 2017 Серцево-судинні
52268756 >=40 361XX 2017 Онкологія
43662188 >=40 361XX
2017
Серцево-судинні
41469616 30-40 364XX 2017 Онкологія
85329105 30-40 364XX
2017
Онкологія
91724882 30-40 364XX 2017 Серцево-судинні
Ризики розкриття чутливих даних у k-
анонімній групі
•Атака через гомогенність – “якась група
людей має однаковий чутливий
показник”
•Атака через попереднє знання – “я знаю
щось ще про людину”
“Атака” на базу даних ЗНО
База даних ЗНО 2016
•Унікальний ідентифікатор (не хеш від
імені, молодці)
•Рік народження
•Стать
•Тестові результати по усіх предметах (у
тих, хто набрав 95% - до десятих)
•Місце, де складався тест (у тому ж
районі)
Масова деанонімізація бази даних ЗНО
База даних ЗНО 2016
• Унікальний
ідентифікатор (не хеш
від імені, молодці)
• Рік народження
• Стать
• Тестові результати (у
тих, хто набрав 95% - до
десятих)
• Місце, де складався
тест (той самий район)
База даних із сайту vstup.info
• Прізвище та ініціали тих,
хто вступав
• Університети, куди він
подавав документи
• Результати ЗНО по
відповідних предметах,
перемножені на унікальні
для спеціальності та вузу
коефіціенти
• Коефіцієнти
спеціальностей
Масова деанонімізація бази даних ЗНО
База даних ЗНО 2016
• Унікальний
ідентифікатор (не хеш
від імені, молодці)
• Рік народження
• Стать
• Тестові результати (у
тих, хто набрав 95% - до
десятих)
• Місце, де складався
тест (той самий район)
База даних із сайту vstup.info
• Прізвище та ініціали тих,
хто вступав
• Університети, куди він
подавав документи
• Результати ЗНО по
відповідних предметах,
перемножені на унікальні
для спеціальності та вузу
коефіціенти
• Коефіцієнти
спеціальностей
Знайдені результати
20 637 тих, хто складав ЗНО – унікально
ідентифіковані
43 825 - тих – ми знайшли 10 і менше варіантів
співпадінь імен та результатів
З них 19 976 - мають лише 2 варіанти
Висновки
•Мікродані – це дуже добре
•Анонімізація – це дуже непросто
•Є методи, якими можна проаналізувати
ймовірність деіндентифікації (прагматично та
математично)
•Перед публікацією мікроданих з чутливими
даними проконсультуйтесь зі спеціалістами
☺
Дякую за увагу!

More Related Content

More from Andriy Gorbal

медсестри обрахування лікзасобів
медсестри обрахування лікзасобівмедсестри обрахування лікзасобів
медсестри обрахування лікзасобівAndriy Gorbal
 
правила лікарям
правила лікарямправила лікарям
правила лікарямAndriy Gorbal
 
Prototype of web-based resource for Territorial election commissions (TEC)
Prototype of web-based resource for Territorial election commissions (TEC)Prototype of web-based resource for Territorial election commissions (TEC)
Prototype of web-based resource for Territorial election commissions (TEC)Andriy Gorbal
 
ПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙ
ПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙ
ПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙAndriy Gorbal
 
Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»
Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»
Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»Andriy Gorbal
 
Тема 6. Підготовка до публікації відкритих даних
Тема 6. Підготовка до публікації відкритих данихТема 6. Підготовка до публікації відкритих даних
Тема 6. Підготовка до публікації відкритих данихAndriy Gorbal
 
Тема 5. Основи статистики та аналізу даних
Тема 5. Основи статистики та аналізу данихТема 5. Основи статистики та аналізу даних
Тема 5. Основи статистики та аналізу данихAndriy Gorbal
 
Тема 2. Формати відкритих даних
Тема 2. Формати відкритих данихТема 2. Формати відкритих даних
Тема 2. Формати відкритих данихAndriy Gorbal
 
Тема 1. Відкриті дані
Тема 1. Відкриті даніТема 1. Відкриті дані
Тема 1. Відкриті даніAndriy Gorbal
 
Потреба у паліативній допомозі в Україні: розбіжності у статистичних даних
Потреба у паліативній допомозі в Україні: розбіжності у статистичних данихПотреба у паліативній допомозі в Україні: розбіжності у статистичних даних
Потреба у паліативній допомозі в Україні: розбіжності у статистичних данихAndriy Gorbal
 
ЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІ
ЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІ
ЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІAndriy Gorbal
 
Збір даних у сфері паліативної допомоги
Збір даних у сфері паліативної допомогиЗбір даних у сфері паліативної допомоги
Збір даних у сфері паліативної допомогиAndriy Gorbal
 
Основи статистики та аналізу даних. Представлення даних.
Основи статистики та аналізу даних. Представлення даних.Основи статистики та аналізу даних. Представлення даних.
Основи статистики та аналізу даних. Представлення даних.Andriy Gorbal
 
Річний звіт 2016
Річний звіт 2016Річний звіт 2016
Річний звіт 2016Andriy Gorbal
 
Формати відкритих даних
Формати відкритих данихФормати відкритих даних
Формати відкритих данихAndriy Gorbal
 
Річний звіт Українського центру суспільних даних, 2015
Річний звіт Українського центру суспільних даних, 2015Річний звіт Українського центру суспільних даних, 2015
Річний звіт Українського центру суспільних даних, 2015Andriy Gorbal
 
Annual Report of Ukrainian Center for Social Data, 2015
Annual Report of Ukrainian Center for Social Data, 2015Annual Report of Ukrainian Center for Social Data, 2015
Annual Report of Ukrainian Center for Social Data, 2015Andriy Gorbal
 

More from Andriy Gorbal (18)

медсестри обрахування лікзасобів
медсестри обрахування лікзасобівмедсестри обрахування лікзасобів
медсестри обрахування лікзасобів
 
правила лікарям
правила лікарямправила лікарям
правила лікарям
 
Prototype of web-based resource for Territorial election commissions (TEC)
Prototype of web-based resource for Territorial election commissions (TEC)Prototype of web-based resource for Territorial election commissions (TEC)
Prototype of web-based resource for Territorial election commissions (TEC)
 
ПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙ
ПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙ
ПРОТОТИП ВЕБ-РЕСУРСУ ДЛЯ ТЕРИТОРІАЛЬНИХ ВИБОРЧИХ КОМІСІЙ
 
Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»
Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»
Круглий стіл «Відкриті судові дані: можливості, проблеми, перспективи»
 
Тема 6. Підготовка до публікації відкритих даних
Тема 6. Підготовка до публікації відкритих данихТема 6. Підготовка до публікації відкритих даних
Тема 6. Підготовка до публікації відкритих даних
 
Тема 5. Основи статистики та аналізу даних
Тема 5. Основи статистики та аналізу данихТема 5. Основи статистики та аналізу даних
Тема 5. Основи статистики та аналізу даних
 
Тема 2. Формати відкритих даних
Тема 2. Формати відкритих данихТема 2. Формати відкритих даних
Тема 2. Формати відкритих даних
 
Тема 1. Відкриті дані
Тема 1. Відкриті даніТема 1. Відкриті дані
Тема 1. Відкриті дані
 
Потреба у паліативній допомозі в Україні: розбіжності у статистичних даних
Потреба у паліативній допомозі в Україні: розбіжності у статистичних данихПотреба у паліативній допомозі в Україні: розбіжності у статистичних даних
Потреба у паліативній допомозі в Україні: розбіжності у статистичних даних
 
ЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІ
ЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІ
ЖІНКИ ТА ЧОЛОВІКИ НА КЕРІВНИХ ПОСАДАХ В УКРАЇНІ
 
Збір даних у сфері паліативної допомоги
Збір даних у сфері паліативної допомогиЗбір даних у сфері паліативної допомоги
Збір даних у сфері паліативної допомоги
 
Основи статистики та аналізу даних. Представлення даних.
Основи статистики та аналізу даних. Представлення даних.Основи статистики та аналізу даних. Представлення даних.
Основи статистики та аналізу даних. Представлення даних.
 
Annual Report 2016
Annual Report 2016Annual Report 2016
Annual Report 2016
 
Річний звіт 2016
Річний звіт 2016Річний звіт 2016
Річний звіт 2016
 
Формати відкритих даних
Формати відкритих данихФормати відкритих даних
Формати відкритих даних
 
Річний звіт Українського центру суспільних даних, 2015
Річний звіт Українського центру суспільних даних, 2015Річний звіт Українського центру суспільних даних, 2015
Річний звіт Українського центру суспільних даних, 2015
 
Annual Report of Ukrainian Center for Social Data, 2015
Annual Report of Ukrainian Center for Social Data, 2015Annual Report of Ukrainian Center for Social Data, 2015
Annual Report of Ukrainian Center for Social Data, 2015
 

Recently uploaded

Defectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptxDefectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptxOlgaDidenko6
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxOlgaDidenko6
 
Горбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptxГорбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptxOlgaDidenko6
 
Роль українців у перемозі в Другій світовій війні
Роль українців у перемозі в Другій світовій війніРоль українців у перемозі в Другій світовій війні
Роль українців у перемозі в Другій світовій війніestet13
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxOlgaDidenko6
 
Проблеми захисту лісу в Україні та шляхи вирішення
Проблеми захисту лісу в Україні та шляхи вирішенняПроблеми захисту лісу в Україні та шляхи вирішення
Проблеми захисту лісу в Україні та шляхи вирішенняtetiana1958
 
Іваніщук Надія Вікторівна атестація .pdf
Іваніщук Надія Вікторівна атестація  .pdfІваніщук Надія Вікторівна атестація  .pdf
Іваніщук Надія Вікторівна атестація .pdfhome
 
Балади про Робіна Гуда. Аналіз образу Робіна Гуда
Балади про Робіна Гуда. Аналіз образу Робіна ГудаБалади про Робіна Гуда. Аналіз образу Робіна Гуда
Балади про Робіна Гуда. Аналіз образу Робіна ГудаAdriana Himinets
 
psychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.pptpsychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.pptOlgaDidenko6
 
аналептики та антидепресанти.шгшгпшгп.ppt
аналептики та антидепресанти.шгшгпшгп.pptаналептики та антидепресанти.шгшгпшгп.ppt
аналептики та антидепресанти.шгшгпшгп.pptJurgenstiX
 
Відкрита лекція на тему: "Сидерати - як спосіб виживання"
Відкрита лекція на тему: "Сидерати - як спосіб виживання"Відкрита лекція на тему: "Сидерати - як спосіб виживання"
Відкрита лекція на тему: "Сидерати - як спосіб виживання"tetiana1958
 
оцінювання дітей з особливими освітніми потребами у ЗЗСО.pptx
оцінювання дітей з особливими освітніми потребами у ЗЗСО.pptxоцінювання дітей з особливими освітніми потребами у ЗЗСО.pptx
оцінювання дітей з особливими освітніми потребами у ЗЗСО.pptxbagniylarisa15
 
атестація 2023-2024 Kewmrbq wtynh GNJ.pdf
атестація 2023-2024 Kewmrbq wtynh GNJ.pdfатестація 2023-2024 Kewmrbq wtynh GNJ.pdf
атестація 2023-2024 Kewmrbq wtynh GNJ.pdfhome
 

Recently uploaded (14)

Defectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptxDefectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptx
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptx
 
Горбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptxГорбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptx
 
Роль українців у перемозі в Другій світовій війні
Роль українців у перемозі в Другій світовій війніРоль українців у перемозі в Другій світовій війні
Роль українців у перемозі в Другій світовій війні
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptx
 
Проблеми захисту лісу в Україні та шляхи вирішення
Проблеми захисту лісу в Україні та шляхи вирішенняПроблеми захисту лісу в Україні та шляхи вирішення
Проблеми захисту лісу в Україні та шляхи вирішення
 
Іваніщук Надія Вікторівна атестація .pdf
Іваніщук Надія Вікторівна атестація  .pdfІваніщук Надія Вікторівна атестація  .pdf
Іваніщук Надія Вікторівна атестація .pdf
 
Балади про Робіна Гуда. Аналіз образу Робіна Гуда
Балади про Робіна Гуда. Аналіз образу Робіна ГудаБалади про Робіна Гуда. Аналіз образу Робіна Гуда
Балади про Робіна Гуда. Аналіз образу Робіна Гуда
 
psychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.pptpsychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.ppt
 
Габон
ГабонГабон
Габон
 
аналептики та антидепресанти.шгшгпшгп.ppt
аналептики та антидепресанти.шгшгпшгп.pptаналептики та антидепресанти.шгшгпшгп.ppt
аналептики та антидепресанти.шгшгпшгп.ppt
 
Відкрита лекція на тему: "Сидерати - як спосіб виживання"
Відкрита лекція на тему: "Сидерати - як спосіб виживання"Відкрита лекція на тему: "Сидерати - як спосіб виживання"
Відкрита лекція на тему: "Сидерати - як спосіб виживання"
 
оцінювання дітей з особливими освітніми потребами у ЗЗСО.pptx
оцінювання дітей з особливими освітніми потребами у ЗЗСО.pptxоцінювання дітей з особливими освітніми потребами у ЗЗСО.pptx
оцінювання дітей з особливими освітніми потребами у ЗЗСО.pptx
 
атестація 2023-2024 Kewmrbq wtynh GNJ.pdf
атестація 2023-2024 Kewmrbq wtynh GNJ.pdfатестація 2023-2024 Kewmrbq wtynh GNJ.pdf
атестація 2023-2024 Kewmrbq wtynh GNJ.pdf
 

Мікродані та проблеми захисту особистих даних ГО Український центр суспільних даних ГО Український центр суспільних даних

  • 1. Вебінар 5 Мікродані та проблеми захисту особистих даних 27 червня 2017 «Відкриті дані для державних службовців» За підтримки
  • 2.
  • 3. Пастки у роботі з даними Проблеми захисту персональних даних
  • 4. Проблеми та пастки з даними •Неповні •Неправильно зібрані •Хибно проаналізовані •Неправильно прокомуніковані
  • 5. Неповні та неточні дані •Нижче «радарів» •Кількість бездомних дітей •Споживання найбагатших •Самообман •Найбідніші схильні перебільшувати свій дохід
  • 6. Проблеми отримання •«Закриті» спільноти •Роми •Релігійні організації •Індивідуальні ризики •ЛГБТ •Особи, що претендують на статус біженців
  • 7. Дані «зі сторони» •Використання «чужих» неточних даних •Некоректна інтеграція різнорідних даних •Не враховано методологію збору • Які інтереси тих, хто замовляв? •Ігнорування наявних досліджень
  • 9. Теорія “розбитих вікон” •Не знайдено зв’язку між дрібними порушеннями та серйозними злочинами. •Різні визначення «порушення порядку» у різних спільнотах. •Не враховані інші фактори зниження рівня злочинності (економічний ріст, зниження кількостей незапланованих вагітностей тощо). •Хибне застосування - автори теорії самі критикують агресивну тактику арештів.
  • 11.
  • 12.
  • 13. Рейтинг шкіл • ЗНО != Якість освіти • Не враховуються інші фактори (соціальний, економічний, структура зайнятості тощо) •Результат – «міграція» забезпечених учнів та викладачів => подальше погіршення показників тих, хто лишився (найбідніших та найвразливіших)
  • 14. Рейтинги •Рейтинги ефективні => структурно схожі інституції (університети), порівняння за параметрами, зміна яких можлива самими об’єктами порівняння. •Рейтинги шкідливі => відмінності між об’єктами порівняння мають системний характер (різні обсяги фінансування, соціально-економічний статус, культурна різниця тощо)
  • 15. Уникайте пасток ☺ • Збір даних (неповні та неточні) •Аналіз даних (хиба “здорового глузду”) •Презентація даних (“шкідливі” рейтинги)
  • 17. Мікродані – інформація на рівні індивідуальних респондентів Переваги мікроданих над агрегованими даними: дозволяють детальні аналізи складні різносторонні порівняння багаторічні “наскрізні” дослідження Проблеми – захист персональних даних
  • 18. Персональні дані - відомості чи сукупність відомостей про фізичну особу, яка ідентифікована або може бути конкретно ідентифікована (стаття 2 ЗУ “Про захист персональних даних”)
  • 19. Чутливі дані - персональні дані, обробка яких становить особливий ризик для прав і свобод суб’єктів персональних даних
  • 20.
  • 21. Чутливі дані - І •расове, етнічне та національне походження; •політичні, релігійні або світоглядні переконання; •членство в політичних партіях та/або організаціях, професійних спілках, релігійних організаціях чи в громадських організаціях світоглядної спрямованості; •стан здоров’я •статеве життя •біометричні дані •генетичні дані
  • 22. Чутливі дані - ІІ •притягнення до адміністративної чи кримінальної відповідальності •застосування щодо особи заходів в рамках досудового розслідування; •вжиття щодо особи заходів, передбачених Законом України «Про оперативно-розшукову діяльність»; •вчинення щодо особи тих чи інших видів насильства •місцеперебування та/або шляхи пересування особи
  • 23. Персональні дані у формі відкритих даних Стаття 10.1 Пункт 3 ЗУ “Про доступ до публічної інформації” Публічна інформація, що містить персональні дані фізичної особи, оприлюднюється та надається на запит у формі відкритих даних у разі додержання однієї з таких умов: •1) персональні дані знеособлені та захищені відповідно до Закону України "Про захист персональних даних"; • 2) фізичні особи (суб’єкти даних), персональні дані яких містяться в інформації у формі відкритих даних, надали свою згоду на поширення таких даних відповідно до Закону України "Про захист персональних даних"; • 3) надання чи оприлюднення такої інформації передбачено законом; • 4) обмеження доступу до такої інформації (віднесення її до інформації з обмеженим доступом) заборонено законом.
  • 25. Навіщо анонімізувати дані? • Захист персональних даних - вимога закону. • Більше даних для аналізу у дослідників, бізнесу та громадських активістів. • Якісніші публічні звіти та прозоріша підзвітність. • Збільшує рівень довіри громадян до інституції.
  • 26. Оцінка потреби в анонімізації даних - I Чи наявні в наборі даних персональні дані і які? Чи можна ідентифікувати персону на основі ваших даних? Які ще дані знаходяться у публічному просторі або можуть бути опубліковані (через запит на публічну інформацію)?
  • 27. Оцінка потреби в анонімізації даних - II Чи можна ідентифікувати персону, поєднавши ваші дані з іншими наявними або доступними у публічному просторі даними? Чи можна поєднати ваш набір даних з іншими наборами даних та як саме?
  • 28. Чи можливо знеособити мікродані? Персональні дані - відомості чи сукупність відомостей про фізичну особу, яка ідентифікована або може бути конкретно ідентифікована; Знеособлення персональних даних - вилучення відомостей, які дають змогу прямо чи опосередковано ідентифікувати особу;
  • 29. Проблема знеособлення/анонімізації •Ідентифікатори – адреса, ім’я, email •Квазі-ідентифікатори – дата народження+індекс, email+IP-адреса тощо •Чутливі дані – дані про хвороби, зарплатня тощо.
  • 30. Проблема анонімізації •87% населення США можна унікально ідентифікувати використовуючи лише три значення даних – індекс, вік та стать. •У поєднанні - це квазі-ідентифікатори.
  • 31.
  • 33. Оцінка ризиків анонімізації Яка ймовірність, що хтось спробує деанонімізувати набір даних? Яка ймовірність, що така деанонімізація буде успішною? Які методи та засоби анонімізації ви застосували / які б могли застосувати? Якість анонімізованих даних?
  • 34. Методи анонімізації - І Високий ризик, “багаті” дані Маскування даних Псевдонімізація
  • 35. Методи анонімізації - ІІ Низький ризик, “бідні дані” Агрегування - Узагальнення даних Видалення унікальних та рідкісних даних Пертурбація даних - Барнардизація Округлення (випадкове та контрольоване) Публікація репрезентативних елементів набору даних Синтезування даних
  • 36. Методи анонімізації - ІІІ Середній ризик, порівняно “багаті” дані Похідні та зведені дані: k-анонімізація (k-anonimisation) l-різноманітність (l-diversity) t-близькість (t-closeness) диференційна приватність ………..
  • 37. Загроза І - Ідентифікатор ПІБ Вік Індекс Дата госпіталізації Діагноз Іванченко С.А. 21 36345 5/1/17 Серцево- судинні Колодяжний. Б.П. 56 36335 3/1/17 Серцево- судинні Калина О.М. 29 36156 3/2/17 Грип Валентинова А.А. 36122 12/1/17 Серцево- судинні Івасюк П.П 62 36322 10/1/17 Онкологія Олегов П.О. 35 36444 6/2/17 Серцево- судинні Шевченко К.А. 36479 11/2/17 Онкологія Петренко П.П. 34 36055 12/2/17 Онкологія Іванов К.А. 42 36222 1/2/17 Серцево- судинні
  • 38. Рішення - Псевдонімізація ID Вік Індекс Дата госпіталізації Діагноз 90489000 21 36345 5/1/17 Серцево-судинні 62356210 56 36335 3/1/17 Серцево-судинні 84197505 29 36156 3/2/17 Грип 32153309 43 36122 5/3/17 Серцево-судинні 52268756 62 36322 10/1/17 Онкологія 43662188 35 36444 6/2/17 Серцево-судинні 71469616 55 36479 11/2/17 Онкологія 85329105 34 36055 12/2/17 Онкологія 91724882 42 36222 1/2/17 Серцево-судинні
  • 39. Загроза ІІ - Квазі-Ідентифікатори ID Вік Індекс Дата госпіталізації Діагноз 90489000 21 36345 5/1/17 Серцево-судинні 62356210 56 36335 3/1/17 Серцево-судинні 84197505 29 36156 3/2/17 Грип 32153309 43 36122 5/3//17 Серцево-судинні 52268756 62 36322 10/1/17 Онкологія 43662188 35 36444 6/2/17 Серцево-судинні 71469616 55 36479 11/2/17 Онкологія 85329105 34 36055 12/2/17 Онкологія 91724882 42 36222 1/2/17 Серцево-судинні
  • 40. Загроза ІІ: Квазі-ідентифікатори можуть перетворитись на унікальні ідентифікатори та використовуватись для порівняння між різними наборами даних => Деанонімізація Рішення: К-анонімізація – генералізації окремих квазі-ідентифікаторів
  • 41. Визначення: k-анонімність У наборі даних має бути щонайменше k кількість однакових комбінацій квазі- ідентифікаторів (груп квазі-ідентифікаторів)
  • 42. Загроза ІІ - Квазі-Ідентифікатори ID Вік Індекс Дата госпіталізації Діагноз 90489000 21 36345 5/1/17 Серцево-судинні 62356210 56 36335 3/1/17 Серцево-судинні 84197505 29 36156 3/2/17 Грип 32153309 43 36122 5/3//17 Серцево-судинні 52268756 62 36322 10/1/17 Онкологія 43662188 35 36444 6/2/17 Серцево-судинні 71469616 55 36479 11/2/17 Онкологія 85329105 34 36055 12/2/17 Онкологія 91724882 42 36222 1/2/17 Серцево-судинні
  • 43. Яка тут k-анонімність? ID Вік Індекс Діагноз 90489000 20-30 363XX Серцево-судинні 62356210 20-30 363XX Серцево-судинні 84197505 20-30 363XX Серцево-судинні 32153309 >=40 361XX Серцево-судинні 42268756 >=40 361XX Онкологія 43662188 >=40 361XX Серцево-судинні 61469616 30-40 364XX Онкологія 85329105 30-40 364XX Онкологія
  • 44. Прокляття багатовимірності Чим більша база даних і менше квазі- ідентифікаторів - тим простіше забезпечити бажану k-анонімність АЛЕ На практиці кількість можливих комбінацій квазі-ідентифікаторів росте значно швидше, аніж ваша база даних.
  • 47. •Я знаю, що Іванченка госпіталізували цього року, йому десь 20 років і він живе у якомусь районі Полтавської області з індексом 363ХХ. •Як дізнатись, чим він захворів?
  • 48. Атака через гомогенність ID Вік Індекс Дата госпіталізації Діагноз 90489000 20-30 363XX 2017 Серцево-судинні 62356210 20-30 363XX 2017 Серцево-судинні 84197505 20-30 363XX 2017 Серцево-судинні 32153309 >=40 361XX 2017 Серцево-судинні 52268756 >=40 361XX 2017 Онкологія 43662188 >=40 361XX 2017 Серцево-судинні 41469616 30-40 364XX 2017 Онкологія 85329105 30-40 364XX 2017 Онкологія 91724882 30-40 364XX 2017 Серцево-судинні
  • 49. •Я знаю, що Івасюка госпіталізували цього року, йому більше 40 і він у якомусь районі Полтавської області з індексом 361ХХ, і у нього здорове серце? •Як дізнатись, чим він захворів?
  • 50. Атака через попереднє знання ID Вік Індекс Дата госпіталізації Діагноз 90489000 20-30 363XX 2017 Серцево-судинні 62356210 20-30 363XX 2017 Серцево-судинні 84197505 20-30 363XX 2017 Серцево-судинні 32153309 >=40 361XX 2017 Серцево-судинні 52268756 >=40 361XX 2017 Онкологія 43662188 >=40 361XX 2017 Серцево-судинні 41469616 30-40 364XX 2017 Онкологія 85329105 30-40 364XX 2017 Онкологія 91724882 30-40 364XX 2017 Серцево-судинні
  • 51. Ризики розкриття чутливих даних у k- анонімній групі •Атака через гомогенність – “якась група людей має однаковий чутливий показник” •Атака через попереднє знання – “я знаю щось ще про людину”
  • 52. “Атака” на базу даних ЗНО
  • 53. База даних ЗНО 2016 •Унікальний ідентифікатор (не хеш від імені, молодці) •Рік народження •Стать •Тестові результати по усіх предметах (у тих, хто набрав 95% - до десятих) •Місце, де складався тест (у тому ж районі)
  • 54. Масова деанонімізація бази даних ЗНО База даних ЗНО 2016 • Унікальний ідентифікатор (не хеш від імені, молодці) • Рік народження • Стать • Тестові результати (у тих, хто набрав 95% - до десятих) • Місце, де складався тест (той самий район) База даних із сайту vstup.info • Прізвище та ініціали тих, хто вступав • Університети, куди він подавав документи • Результати ЗНО по відповідних предметах, перемножені на унікальні для спеціальності та вузу коефіціенти • Коефіцієнти спеціальностей
  • 55. Масова деанонімізація бази даних ЗНО База даних ЗНО 2016 • Унікальний ідентифікатор (не хеш від імені, молодці) • Рік народження • Стать • Тестові результати (у тих, хто набрав 95% - до десятих) • Місце, де складався тест (той самий район) База даних із сайту vstup.info • Прізвище та ініціали тих, хто вступав • Університети, куди він подавав документи • Результати ЗНО по відповідних предметах, перемножені на унікальні для спеціальності та вузу коефіціенти • Коефіцієнти спеціальностей
  • 56.
  • 57.
  • 58. Знайдені результати 20 637 тих, хто складав ЗНО – унікально ідентифіковані 43 825 - тих – ми знайшли 10 і менше варіантів співпадінь імен та результатів З них 19 976 - мають лише 2 варіанти
  • 59. Висновки •Мікродані – це дуже добре •Анонімізація – це дуже непросто •Є методи, якими можна проаналізувати ймовірність деіндентифікації (прагматично та математично) •Перед публікацією мікроданих з чутливими даними проконсультуйтесь зі спеціалістами ☺
  • 60.