SlideShare a Scribd company logo
1 of 35
Thierry Berthier
Chaire de cybersécurité & cyberdéfense Saint-Cyr
Pilote du groupe Sécurité – Intelligence Artificielle
du Hub France IA
Plan
1 - Quelques chiffres de la cyber-insécurité durant la période 2018-2019
2 - Cybersécurité du secteur santé
3 - Vol et exploitation des données de santé
4 - Differential Privacy, Intelligence Artificielle et données de santé
1 – Quelques chiffres de
la cyber-insécurité durant
la période 2018 - 2019
L’avantage est clairement du côté de l’attaquant…
Le nombre de jours médian de résidence de l’attaquant dans le SI avant
sa détection : 146 jours
63 % des intrusions résultent d’identifiants utilisateurs compromis
Le coût total potentiel du cybercrime pour la communauté globale : 500
Milliards de dollars
Le coût moyen d’une fuite de données pour une entreprise : 3,8
Millions de dollars
Le coût moyen d’une cyberattaque en 2018 - 2019
La fréquence des cyberattaques réussies par année
Le classement des menaces cyber sur la période 2017 - 2018
Timeline des ransomwares sur la période 2017 - 2018
Les réactions face à une attaque de type Ransomware
Top 10 Valeur de l’information pour l’attaquant & Principales menaces
Projets d’investissement dans les outils de sécurité 2018 - 2019
2 – Cybersécurité du secteur santé
Marché global de la cybersécurité dans le secteur de la santé
3 – Vol et exploitation des
données de santé
L’évolution mondiale des vols de données dans le secteur de la santé
Données
de santé
volées
Vol d’identité médicale
Utilisation des données médicales d’un individu pour
obtenir des services médicaux :
- Prescription de drogues
- Chirurgie et procédures médicales
- Fausse déclaration auprès d’une assurance décès
invalidité ou médicale.
Fraude financière
Utilisation des données médicales dans un dossier de
profil bancaire pour un gain financier :
- Utilisation des données volées dans les dossiers de
crédit ou des dossiers d’incapacité de travail,
invalidité
- Vente de données médicales personnelles à des
prestataires de santé
- Demande de remboursements de cotisations, de
taxes ou primes d’assurances
Instrumentalisation de données de santé
Utilisation des données médicales d’un individu pour
menacer, influencer, faire chanter la victime du vol :
- Levier pour obtenir le paiement d’une rançon
- Construction de données secondaires réelles ou
falsifiées en vue de chantage et d’extorsion
- Atteinte à la réputation d’un personnage public VIP.
Données en support d’une campagne de
cyberattaques
Utilisation des données médicales volées en support
d’une cyberattaque :
- Les informations de contact présentes dans les
données peuvent êtres ciblées pour du phishing ou
de la fraude (scam), faux ordre de virement.
- Les données d’indentification ou d’authentification
peuvent être utilisées pour de l’élévation de privilège
ou de droits dans un système.
-
Novembre 2018 : le fournisseur de facturation d’Atrium Health révèle les informations de
plus de 2,65 millions de patients.
https://www.zdnet.com/article/this-is-how-hackers-make-money-from-your-stolen-medical-data/#ftag=RSSbaffb68
https://www.carbonblack.com/wp-content/uploads/2019/06/carbon-black-healthcare-cyber-heists-in-2019.pdf
https://www.carbonblack.com/wp-content/uploads/2019/06/carbon-black-healthcare-cyber-heists-in-2019.pdf
https://www.carbonblack.com/wp-content/uploads/2019/06/carbon-black-healthcare-cyber-heists-in-2019.pdf
https://www.carbonblack.com/wp-content/uploads/2019/06/carbon-black-healthcare-cyber-heists-in-2019.pdf
Des documents d’assurance, des diplômes médicaux, des licences de médecin et des licences DEA, peuvent
tous être obtenus pour environ 500 dollars par inscription.
Selon le dernier rapport CarbonBlack 2019 :
Un pirate informatique compromet le réseau d'entreprise d'un fournisseur de soins de santé pour lui
permettre de trouver des documents administratifs qui permettent de prouver l'identité d’un faux médecin. Le
pirate informatique vendra ensuite à un acheteur ou à un intermédiaire à un prix suffisamment élevé pour
garantir un retour sur investissement. Le prix doit néanmoins rester suffisamment faible pour permettre à
plusieurs personnes d’acheter l’article. L'acheteur utilise ensuite l’identité volée et soumet à Medicare ou à un
autre fournisseur d'assurance médicale ses demandes de remboursement pour des interventions chirurgicales
haut de gamme.
CarbonBlack a également trouvé un large éventail de faux documents disponibles sur le marché. Vous pouvez
acheter de fausses ordonnances, des étiquettes, des reçus de vente et des cartes de soins de santé volées pour
10 à 120 dollars par enregistrement.
Pour 3,25 dollars ou moins, les chercheurs de Carbon Black ont ​​consulté des listes d'informations volées à
l'assurance maladie, qui pourraient être utilisées pour faire de fausses demandes aux frais de la victime.
https://www.carbonblack.com/wp-content/uploads/2019/06/carbon-black-healthcare-cyber-heists-in-2019.pdf
Préconisations de sécurité – CarbonBlack 2019
4 – Differential Privacy,
Intelligence Artificielle et données
de santé
Le défi de la protection des données médicales utilisées pour
entrainer des composantes d’apprentissage automatique
Article publié dans la revue SIH – Décembre 2019, janvier 2020
« Le bruit au service de la confidentialité »
Les solutions informatiques qui embarquent des composantes d’apprentissage automatique (ML, Machine
Learning) sont déployées dans de nombreux secteurs d’activités : santé, mobilité, objets intelligents, finance,
ressources humaines, marketing, étatiques, robotique. Le fonctionnement de ces composantes ML repose sur
une phase initiale d’entrainement d’un modèle réalisée à partir de données d’apprentissage.
Celles-ci peuvent contenir des informations à caractère personnel plus ou moins bien anonymisées. Une fois
entrainé, le modèle est mis en production sur de nouveaux jeux de données, avec un risque non nul de
désanonymisation malveillante des données d’entrainement et de réidentification des individus ayant produit
ces données.
Se posent alors les questions du respect de la vie privée des utilisateurs et de la conformité à la
réglementation sur les données (RGPD).
« Le bruit au service de la confidentialité »
Plusieurs approches algorithmiques permettent de réduire le risque de réidentification, notamment celle de
la confidentialité différentielle (Differential Privacy). Formalisée en 2006, la confidentialité différentielle
fournit des réponses théoriques, basées sur des arguments statistiques, au problème de désanonymisation.
L’objectif étant de masquer l’identité d’un individu, les techniques de confidentialité différentielle consistent
à ajouter du « bruit mathématique » aux données le concernant sans altérer la performance du modèle
statistique construit sur ces données.
Le dosage est donc complexe à mettre en œuvre : si l’on bruite trop les données, on gagne en confidentialité
mais on perd en pertinence d’apprentissage automatique et si l’on ne bruite pas assez, on s’expose au risque
de distinction ou de réidentification d’un individu.
Ce dilemme algorithmique fait l’objet de nombreuses recherches notamment chez les géants Apple, Google
et Facebook. Ces derniers communiquent beaucoup sur ce sujet déterminant pour conserver la confiance de
leurs utilisateurs et clients. Sans être une solution miraculeuse (car elle n’est en général pas simple à
déployer), la confidentialité différentielle apporte un certain nombre de garanties en matière de préservation
de la vie privée. C’est suffisant pour en faire un sujet central à l’heure de la montée en puissance de
l’apprentissage automatique dont le carburant n’est que la donnée !
Définition de la confidentialité différentielle (Dwork, Mc Sherry, Nissim et Smith) -
Deux ensembles de données D et D’ sont dits voisins s’ils ne diffèrent que par un seul élément.
Un algorithme probabiliste M est dit ε - différentiellement privé si pour tous ensembles de données D, D’
voisins et tout évènement S : Proba [ M(D) ϵ S] ≤ exp( ε ) . Proba [ M(D’) ϵ S]
Concrètement, plus la valeur de ε est proche de zéro et plus la confidentialité de l’algorithme est forte.
Dans ce cas, substituer une donnée par une autre donnée a très peu d’incidence sur la sortie produite par
l’algorithme. Une valeur de ε = 0 signifie que chaque donnée n’a aucune influence sur le résultat produit
par l’algorithme.
Dans le cadre de l’apprentissage automatique, l’algorithme considéré est le processus d’entrainement et la
sortie est le modèle produit. L’enjeu est de construire un modèle utile (performant une fois mis en
production) reposant sur des informations issues du dataset d’entrainement sans révéler trop d’information
sur chaque exemple particulier.
Un exemple concret de confidentialité différentielle
Une approche « Differential Privacy » s’appuie sur le processus suivant :
Pour chaque individu interrogé lors d’un sondage, on effectue un tirage à pile ou face.
Si l’on obtient pile, l’individu répond sincèrement.
Si l’on obtient face, on lance une seconde pièce pour répondre au hasard à la question du sondage : face
donne la réponse « oui, je suis consommateur » et pile donne « non, je ne suis pas consommateur ».
De cette façon, chaque individu peut réfuter sa réponse en prétendant qu’elle est due au hasard. Quant au
sondeur, s’il dispose d’un échantillon assez large, il peut facilement retrouver une estimation fiable de la
proportion de consommateurs de drogues à partir de la fréquence de réponses positives qu’il observe.
Modèle de flux de données sous confidentialité différentielle locale
Modèle de flux de données sous confidentialité différentielle globale
Article Revue de la Gendarmerie Nationale RGN janvier 2020 –
Numéro spécial FIC2010
Le blog Cyberland de Thierry Berthier :
http://cyberland.centerblog.net/
La veille cybersécurité francophone gratuite la plus complète (Lionel Guillet & Thierry Berthier) :
https://veillecyberland.wordpress.com/
La veille gratuite Sécurité & Intelligence Artificielle (Lionel Guillet & thierry Berthier) :
https://iasecurite.wordpress.com/
Des conférences cybersécurité & intelligence artificielle (Thierry Berthier) :
https://fr.slideshare.net/OPcyberland/presentations
Les conférence IANP2019 (Paris) puis IANP2020 (Toulouse) Intelligence Artificielle : Nouvelles Puissances :
https://ianpconference.wordpress.com/
https://www.youtube.com/channel/UCMo6AR7tWxJ9x16MxO2NrjQ/videos
« From Digital Traces to Algorithmic Projections » – éditeur ISTE WILEY & Elsevier :
https://www.elsevier.com/books/from-digital-traces-to-algorithmic-projections/berthier/978-1-78548-270-0
http://www.iste.co.uk/book.php?id=1372
https://iste-editions.fr/products/des-traces-numeriques-aux-projections-algorithmiques
https://fr.linkedin.com/in/thierry-berthier-6143bb6a

More Related Content

Similar to Congres cybermed nice 2019

Introduction Mobile Gov
Introduction Mobile GovIntroduction Mobile Gov
Introduction Mobile Gov
FinancialVideo
 
Risques liés aux réseaux sociaux
Risques liés aux réseaux sociauxRisques liés aux réseaux sociaux
Risques liés aux réseaux sociaux
Aref Jdey
 
Livre blanc-loi-et-performance-140206084257-phpapp01
Livre blanc-loi-et-performance-140206084257-phpapp01Livre blanc-loi-et-performance-140206084257-phpapp01
Livre blanc-loi-et-performance-140206084257-phpapp01
Nathalie Assoulant
 

Similar to Congres cybermed nice 2019 (20)

Rapport trimestriel IBM X-Force sur les renseignements relatifs aux menaces
Rapport trimestriel IBM X-Force sur les renseignements relatifs aux menacesRapport trimestriel IBM X-Force sur les renseignements relatifs aux menaces
Rapport trimestriel IBM X-Force sur les renseignements relatifs aux menaces
 
Nos données face à l'incertain: la protection des données personnelles par ...
Nos données face à l'incertain: la protection des données personnelles par ...Nos données face à l'incertain: la protection des données personnelles par ...
Nos données face à l'incertain: la protection des données personnelles par ...
 
Article (Version intégrale) - Les PME ne sont pas protégées contre la cybercr...
Article (Version intégrale) - Les PME ne sont pas protégées contre la cybercr...Article (Version intégrale) - Les PME ne sont pas protégées contre la cybercr...
Article (Version intégrale) - Les PME ne sont pas protégées contre la cybercr...
 
Synthèse Solucom - Big data : une mine d'or pour l'Assurance
Synthèse Solucom - Big data : une mine d'or pour l'AssuranceSynthèse Solucom - Big data : une mine d'or pour l'Assurance
Synthèse Solucom - Big data : une mine d'or pour l'Assurance
 
Magazine Surface - De la confiance à revendre - Alain Fortier
Magazine Surface -   De la confiance à revendre - Alain FortierMagazine Surface -   De la confiance à revendre - Alain Fortier
Magazine Surface - De la confiance à revendre - Alain Fortier
 
Elia Consulting, les Français et le Big Data
Elia Consulting, les Français et le Big DataElia Consulting, les Français et le Big Data
Elia Consulting, les Français et le Big Data
 
Données anonymisées, données pseudonymisées de quoi s’agit il
Données anonymisées, données pseudonymisées de quoi s’agit ilDonnées anonymisées, données pseudonymisées de quoi s’agit il
Données anonymisées, données pseudonymisées de quoi s’agit il
 
GDPR COMPLIANT : LE GUIDE PRATIQUE
GDPR COMPLIANT : LE GUIDE PRATIQUEGDPR COMPLIANT : LE GUIDE PRATIQUE
GDPR COMPLIANT : LE GUIDE PRATIQUE
 
Nos vies numériques sous haute protection le 21-10-2017
Nos vies numériques sous haute protection le 21-10-2017Nos vies numériques sous haute protection le 21-10-2017
Nos vies numériques sous haute protection le 21-10-2017
 
Programme universite des DPO - AFCDP 24 janvier 2018
Programme universite des DPO - AFCDP 24 janvier 2018Programme universite des DPO - AFCDP 24 janvier 2018
Programme universite des DPO - AFCDP 24 janvier 2018
 
Introduction Mobile Gov
Introduction Mobile GovIntroduction Mobile Gov
Introduction Mobile Gov
 
Trois principes pour améliorer la sécurité
Trois principes pour améliorer la sécuritéTrois principes pour améliorer la sécurité
Trois principes pour améliorer la sécurité
 
Big Data & contrôle des données
Big Data & contrôle des donnéesBig Data & contrôle des données
Big Data & contrôle des données
 
Risques liés aux réseaux sociaux
Risques liés aux réseaux sociauxRisques liés aux réseaux sociaux
Risques liés aux réseaux sociaux
 
Advanced persistent threat = émergence du simple vandalisme au cybercrimine...
Advanced persistent threat =  émergence du simple vandalisme au cybercrimine...Advanced persistent threat =  émergence du simple vandalisme au cybercrimine...
Advanced persistent threat = émergence du simple vandalisme au cybercrimine...
 
RGPD - 2 ans plus tard - Où en est votre mise en conformité ?
RGPD - 2 ans plus tard - Où en est votre mise en conformité ?RGPD - 2 ans plus tard - Où en est votre mise en conformité ?
RGPD - 2 ans plus tard - Où en est votre mise en conformité ?
 
Reveelium, solution innovante pour analyser les cyber menaces @ITrustBlog
Reveelium, solution innovante pour analyser les cyber menaces @ITrustBlogReveelium, solution innovante pour analyser les cyber menaces @ITrustBlog
Reveelium, solution innovante pour analyser les cyber menaces @ITrustBlog
 
Livre blanc-loi-et-performance-140206084257-phpapp01
Livre blanc-loi-et-performance-140206084257-phpapp01Livre blanc-loi-et-performance-140206084257-phpapp01
Livre blanc-loi-et-performance-140206084257-phpapp01
 
Conférence Maître LAMACHI-ELKILANI ACSS 2018
Conférence Maître LAMACHI-ELKILANI ACSS 2018Conférence Maître LAMACHI-ELKILANI ACSS 2018
Conférence Maître LAMACHI-ELKILANI ACSS 2018
 
Résumé de l’étude sur la sécurité de Scalar 2016
Résumé de l’étude sur la sécurité de Scalar 2016Résumé de l’étude sur la sécurité de Scalar 2016
Résumé de l’étude sur la sécurité de Scalar 2016
 

More from OPcyberland

More from OPcyberland (20)

Conference robots kedge 26 mars 2021
Conference robots kedge   26 mars 2021Conference robots kedge   26 mars 2021
Conference robots kedge 26 mars 2021
 
Panorama Cybersécurité 2020
Panorama Cybersécurité 2020Panorama Cybersécurité 2020
Panorama Cybersécurité 2020
 
Synthese ianp2019
Synthese ianp2019Synthese ianp2019
Synthese ianp2019
 
Ianp 2019
Ianp 2019Ianp 2019
Ianp 2019
 
Ia et cybersecurite - conférence 3IL
Ia et cybersecurite - conférence 3ILIa et cybersecurite - conférence 3IL
Ia et cybersecurite - conférence 3IL
 
ID FORUM - FIC2020
ID FORUM - FIC2020ID FORUM - FIC2020
ID FORUM - FIC2020
 
Dut informatique limoges
Dut informatique limogesDut informatique limoges
Dut informatique limoges
 
Nouveaux risques cyber - 4 décembre 2019
Nouveaux risques cyber - 4 décembre 2019Nouveaux risques cyber - 4 décembre 2019
Nouveaux risques cyber - 4 décembre 2019
 
Guide survie dans la jungle numérique pour élèves de 3eme
Guide survie dans la jungle numérique pour élèves de 3emeGuide survie dans la jungle numérique pour élèves de 3eme
Guide survie dans la jungle numérique pour élèves de 3eme
 
Conférence NAIA Bordeaux
Conférence NAIA Bordeaux Conférence NAIA Bordeaux
Conférence NAIA Bordeaux
 
Ihedn menace cyber
Ihedn menace cyberIhedn menace cyber
Ihedn menace cyber
 
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
Colloque IA DEFENSE - CREC SAINT-CYR - 30 janvier 2019
 
MasterClass Intelligence Artificielle et Sécurité FIC 2019
MasterClass Intelligence Artificielle et Sécurité FIC 2019MasterClass Intelligence Artificielle et Sécurité FIC 2019
MasterClass Intelligence Artificielle et Sécurité FIC 2019
 
ifda financial attacks - Conférence ECW 2018 Rennes
   ifda financial attacks - Conférence ECW 2018 Rennes   ifda financial attacks - Conférence ECW 2018 Rennes
ifda financial attacks - Conférence ECW 2018 Rennes
 
Aristote IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
Aristote   IA et sécurité numérique - 15 novembre 2018 - Ecole PolytechniqueAristote   IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
Aristote IA et sécurité numérique - 15 novembre 2018 - Ecole Polytechnique
 
Keynote thierry berthier cybersecurite NOVAQ 2018
Keynote thierry berthier cybersecurite NOVAQ 2018Keynote thierry berthier cybersecurite NOVAQ 2018
Keynote thierry berthier cybersecurite NOVAQ 2018
 
Cyberstrategia
CyberstrategiaCyberstrategia
Cyberstrategia
 
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
Intelligence Artificielle - Comment change-t-elle le mode ? JBU2018
 
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
Conférence Sécurité et Intelligence Artificielle - INHESJ 2018
 
Conférence NXU SUPAERO ISAE
Conférence NXU SUPAERO ISAE Conférence NXU SUPAERO ISAE
Conférence NXU SUPAERO ISAE
 

Congres cybermed nice 2019

  • 1. Thierry Berthier Chaire de cybersécurité & cyberdéfense Saint-Cyr Pilote du groupe Sécurité – Intelligence Artificielle du Hub France IA
  • 2. Plan 1 - Quelques chiffres de la cyber-insécurité durant la période 2018-2019 2 - Cybersécurité du secteur santé 3 - Vol et exploitation des données de santé 4 - Differential Privacy, Intelligence Artificielle et données de santé
  • 3. 1 – Quelques chiffres de la cyber-insécurité durant la période 2018 - 2019
  • 4. L’avantage est clairement du côté de l’attaquant… Le nombre de jours médian de résidence de l’attaquant dans le SI avant sa détection : 146 jours 63 % des intrusions résultent d’identifiants utilisateurs compromis Le coût total potentiel du cybercrime pour la communauté globale : 500 Milliards de dollars Le coût moyen d’une fuite de données pour une entreprise : 3,8 Millions de dollars
  • 5. Le coût moyen d’une cyberattaque en 2018 - 2019
  • 6. La fréquence des cyberattaques réussies par année
  • 7. Le classement des menaces cyber sur la période 2017 - 2018
  • 8. Timeline des ransomwares sur la période 2017 - 2018
  • 9. Les réactions face à une attaque de type Ransomware
  • 10. Top 10 Valeur de l’information pour l’attaquant & Principales menaces
  • 11. Projets d’investissement dans les outils de sécurité 2018 - 2019
  • 12. 2 – Cybersécurité du secteur santé
  • 13.
  • 14.
  • 15. Marché global de la cybersécurité dans le secteur de la santé
  • 16. 3 – Vol et exploitation des données de santé
  • 17. L’évolution mondiale des vols de données dans le secteur de la santé
  • 18. Données de santé volées Vol d’identité médicale Utilisation des données médicales d’un individu pour obtenir des services médicaux : - Prescription de drogues - Chirurgie et procédures médicales - Fausse déclaration auprès d’une assurance décès invalidité ou médicale. Fraude financière Utilisation des données médicales dans un dossier de profil bancaire pour un gain financier : - Utilisation des données volées dans les dossiers de crédit ou des dossiers d’incapacité de travail, invalidité - Vente de données médicales personnelles à des prestataires de santé - Demande de remboursements de cotisations, de taxes ou primes d’assurances Instrumentalisation de données de santé Utilisation des données médicales d’un individu pour menacer, influencer, faire chanter la victime du vol : - Levier pour obtenir le paiement d’une rançon - Construction de données secondaires réelles ou falsifiées en vue de chantage et d’extorsion - Atteinte à la réputation d’un personnage public VIP. Données en support d’une campagne de cyberattaques Utilisation des données médicales volées en support d’une cyberattaque : - Les informations de contact présentes dans les données peuvent êtres ciblées pour du phishing ou de la fraude (scam), faux ordre de virement. - Les données d’indentification ou d’authentification peuvent être utilisées pour de l’élévation de privilège ou de droits dans un système. -
  • 19. Novembre 2018 : le fournisseur de facturation d’Atrium Health révèle les informations de plus de 2,65 millions de patients. https://www.zdnet.com/article/this-is-how-hackers-make-money-from-your-stolen-medical-data/#ftag=RSSbaffb68
  • 23. https://www.carbonblack.com/wp-content/uploads/2019/06/carbon-black-healthcare-cyber-heists-in-2019.pdf Des documents d’assurance, des diplômes médicaux, des licences de médecin et des licences DEA, peuvent tous être obtenus pour environ 500 dollars par inscription. Selon le dernier rapport CarbonBlack 2019 : Un pirate informatique compromet le réseau d'entreprise d'un fournisseur de soins de santé pour lui permettre de trouver des documents administratifs qui permettent de prouver l'identité d’un faux médecin. Le pirate informatique vendra ensuite à un acheteur ou à un intermédiaire à un prix suffisamment élevé pour garantir un retour sur investissement. Le prix doit néanmoins rester suffisamment faible pour permettre à plusieurs personnes d’acheter l’article. L'acheteur utilise ensuite l’identité volée et soumet à Medicare ou à un autre fournisseur d'assurance médicale ses demandes de remboursement pour des interventions chirurgicales haut de gamme. CarbonBlack a également trouvé un large éventail de faux documents disponibles sur le marché. Vous pouvez acheter de fausses ordonnances, des étiquettes, des reçus de vente et des cartes de soins de santé volées pour 10 à 120 dollars par enregistrement. Pour 3,25 dollars ou moins, les chercheurs de Carbon Black ont ​​consulté des listes d'informations volées à l'assurance maladie, qui pourraient être utilisées pour faire de fausses demandes aux frais de la victime.
  • 25. 4 – Differential Privacy, Intelligence Artificielle et données de santé
  • 26. Le défi de la protection des données médicales utilisées pour entrainer des composantes d’apprentissage automatique Article publié dans la revue SIH – Décembre 2019, janvier 2020
  • 27.
  • 28. « Le bruit au service de la confidentialité » Les solutions informatiques qui embarquent des composantes d’apprentissage automatique (ML, Machine Learning) sont déployées dans de nombreux secteurs d’activités : santé, mobilité, objets intelligents, finance, ressources humaines, marketing, étatiques, robotique. Le fonctionnement de ces composantes ML repose sur une phase initiale d’entrainement d’un modèle réalisée à partir de données d’apprentissage. Celles-ci peuvent contenir des informations à caractère personnel plus ou moins bien anonymisées. Une fois entrainé, le modèle est mis en production sur de nouveaux jeux de données, avec un risque non nul de désanonymisation malveillante des données d’entrainement et de réidentification des individus ayant produit ces données. Se posent alors les questions du respect de la vie privée des utilisateurs et de la conformité à la réglementation sur les données (RGPD).
  • 29. « Le bruit au service de la confidentialité » Plusieurs approches algorithmiques permettent de réduire le risque de réidentification, notamment celle de la confidentialité différentielle (Differential Privacy). Formalisée en 2006, la confidentialité différentielle fournit des réponses théoriques, basées sur des arguments statistiques, au problème de désanonymisation. L’objectif étant de masquer l’identité d’un individu, les techniques de confidentialité différentielle consistent à ajouter du « bruit mathématique » aux données le concernant sans altérer la performance du modèle statistique construit sur ces données. Le dosage est donc complexe à mettre en œuvre : si l’on bruite trop les données, on gagne en confidentialité mais on perd en pertinence d’apprentissage automatique et si l’on ne bruite pas assez, on s’expose au risque de distinction ou de réidentification d’un individu. Ce dilemme algorithmique fait l’objet de nombreuses recherches notamment chez les géants Apple, Google et Facebook. Ces derniers communiquent beaucoup sur ce sujet déterminant pour conserver la confiance de leurs utilisateurs et clients. Sans être une solution miraculeuse (car elle n’est en général pas simple à déployer), la confidentialité différentielle apporte un certain nombre de garanties en matière de préservation de la vie privée. C’est suffisant pour en faire un sujet central à l’heure de la montée en puissance de l’apprentissage automatique dont le carburant n’est que la donnée !
  • 30. Définition de la confidentialité différentielle (Dwork, Mc Sherry, Nissim et Smith) - Deux ensembles de données D et D’ sont dits voisins s’ils ne diffèrent que par un seul élément. Un algorithme probabiliste M est dit ε - différentiellement privé si pour tous ensembles de données D, D’ voisins et tout évènement S : Proba [ M(D) ϵ S] ≤ exp( ε ) . Proba [ M(D’) ϵ S] Concrètement, plus la valeur de ε est proche de zéro et plus la confidentialité de l’algorithme est forte. Dans ce cas, substituer une donnée par une autre donnée a très peu d’incidence sur la sortie produite par l’algorithme. Une valeur de ε = 0 signifie que chaque donnée n’a aucune influence sur le résultat produit par l’algorithme. Dans le cadre de l’apprentissage automatique, l’algorithme considéré est le processus d’entrainement et la sortie est le modèle produit. L’enjeu est de construire un modèle utile (performant une fois mis en production) reposant sur des informations issues du dataset d’entrainement sans révéler trop d’information sur chaque exemple particulier.
  • 31. Un exemple concret de confidentialité différentielle Une approche « Differential Privacy » s’appuie sur le processus suivant : Pour chaque individu interrogé lors d’un sondage, on effectue un tirage à pile ou face. Si l’on obtient pile, l’individu répond sincèrement. Si l’on obtient face, on lance une seconde pièce pour répondre au hasard à la question du sondage : face donne la réponse « oui, je suis consommateur » et pile donne « non, je ne suis pas consommateur ». De cette façon, chaque individu peut réfuter sa réponse en prétendant qu’elle est due au hasard. Quant au sondeur, s’il dispose d’un échantillon assez large, il peut facilement retrouver une estimation fiable de la proportion de consommateurs de drogues à partir de la fréquence de réponses positives qu’il observe.
  • 32. Modèle de flux de données sous confidentialité différentielle locale
  • 33. Modèle de flux de données sous confidentialité différentielle globale
  • 34. Article Revue de la Gendarmerie Nationale RGN janvier 2020 – Numéro spécial FIC2010
  • 35. Le blog Cyberland de Thierry Berthier : http://cyberland.centerblog.net/ La veille cybersécurité francophone gratuite la plus complète (Lionel Guillet & Thierry Berthier) : https://veillecyberland.wordpress.com/ La veille gratuite Sécurité & Intelligence Artificielle (Lionel Guillet & thierry Berthier) : https://iasecurite.wordpress.com/ Des conférences cybersécurité & intelligence artificielle (Thierry Berthier) : https://fr.slideshare.net/OPcyberland/presentations Les conférence IANP2019 (Paris) puis IANP2020 (Toulouse) Intelligence Artificielle : Nouvelles Puissances : https://ianpconference.wordpress.com/ https://www.youtube.com/channel/UCMo6AR7tWxJ9x16MxO2NrjQ/videos « From Digital Traces to Algorithmic Projections » – éditeur ISTE WILEY & Elsevier : https://www.elsevier.com/books/from-digital-traces-to-algorithmic-projections/berthier/978-1-78548-270-0 http://www.iste.co.uk/book.php?id=1372 https://iste-editions.fr/products/des-traces-numeriques-aux-projections-algorithmiques https://fr.linkedin.com/in/thierry-berthier-6143bb6a