1. Michel BERA
Professeur du Conservatoire national des arts et métiers
Chaire de modélisation statistique du risque, département IMATH
Mardi 9 juillet 2014
Université d’été de l’Institut des actuaires
Confidentialité des données
2.
3. Ce dont je ne parlerai pas (extraits)
• La data science -> voir exposé suivant!
• Le juridique -> voir la conférence au Groupe Big Data de
Fabrice Naftalski (partner, E&Y)
• La CNIL : de nombreuses actions sur les données
personnelles sont parfaitement interdites, mais peu le
savent (ex : arrêt pages jaunes, banque avec filiale
assurantielle captive, données génétiques)
• L’audit demandé à l’Institut des données de santé par le
rapport Bras (2013) : Gouvernance et utilisation des
données de santé
4. Le « Snowden Point »
(6 juin 2013)
• C’est un « tipping point » (point de basculement
sociologique)
• Brutalement toute la « population » se rend
compte que des données massives sont
collectées et utilisées à des fins commerciales,
voire mystérieuses (militaires, etc.)
• Besoin de protection, de « confidentialité des
données » : sorte d’approche Amish face aux
données..
5. Esther Dyson (USA)
• Toute personne devrait être en mesure de
« négocier » librement la mise à disposition par
elle des données qui la concerne (PC Forum -
1995 ?)
• C’était avant la « découverte » de la théorie des
réseaux sociaux! (Barabasi, Linked)
• Problème du « banc de poissons »
• Problème de la mutualisation
• Problème de la cohorte (permet la « preuve »)
6. De quoi peut-on parler : de la protection des
données personnelles (1)
• Première question: que font les américains?
• rechercher des solutions « technologiques » (ici
data science) – cf Rapport Obama (mai14)
• construire (et breveter) des méthodes
scientifiques
– La k-anonymisation (Latanya Sweeney, Professor of
Government and Technology in Residence at Harvard
University) – 2002
– La K-indistinguability (micro-aggregation) : clusters -> Defays
– Le floutage (confidentialité différentielle) Cynthia Dwork
• Mettre en place des standards mondiaux (ex : MIT Open
PDS)
7. De quoi peut-on parler : de la protection des
données personnelles (2)
• Seconde question: que font les français?
• chercher des solutions « technologiques » : ex :
La « bulle » du CASD : Antoine Frachot/GENES
• Construire des algorithmes de cryptage (FOIN :
Fonction d’occultation des informations
nominatives) – Catherine Quantin
• Les systèmes souverains d’hébergement de
données et de puissance de calcul (ex :
Cloudwatt, Thalès)
• Définir et gérer des stratégies « open data »
8. Un focus sur les données de santé US
• Gros travail sur les notions de « statistical de-
identification » (HIPAA – Health Insurance
Portability and Accountability Act)
• Papiers « terrifiants » réguliers en grand public:
– En génomique (ré-identification)
– En données de comportement (géolocalisation, 5
points pour identifier à 95% une personne, etc.)
– Attaques de ré-identification (Laura Sweeney again)
– etc.
9. Conclusion
• Le modèle français peut faire école européenne a
minimis (CNIL et al.)
• Il est sot de se priver d’avancées extraordinaires pour le
bien-être des peuples par un excès de précautions/
floutage/anonymisation (ex : sida)
• Principe d’un ordre de travail sur les données, qui rend
la main à l’homme en final : Data Driven -> Evidence
Based -> commission d’experts statuant sur les
recommandations de la machine, pour que l’homme
reste au centre
• Application à la confidentialité des données
personnelles : le « data driven open data » (DDOD)