1. Thierry Berthier
Chaire de cybersécurité & cyberdéfense Saint-Cyr
Pilote du groupe Sécurité – Intelligence Artificielle
du Hub France IA
2. Plan
1 - Quelques chiffres de la cyber-insécurité durant la période 2018-2019
2 - Cybersécurité du secteur santé
3 - Vol et exploitation des données de santé
4 - Differential Privacy, Intelligence Artificielle et données de santé
3. 1 – Quelques chiffres de
la cyber-insécurité durant
la période 2018 - 2019
4. L’avantage est clairement du côté de l’attaquant…
Le nombre de jours médian de résidence de l’attaquant dans le SI avant
sa détection : 146 jours
63 % des intrusions résultent d’identifiants utilisateurs compromis
Le coût total potentiel du cybercrime pour la communauté globale : 500
Milliards de dollars
Le coût moyen d’une fuite de données pour une entreprise : 3,8
Millions de dollars
18. Données
de santé
volées
Vol d’identité médicale
Utilisation des données médicales d’un individu pour
obtenir des services médicaux :
- Prescription de drogues
- Chirurgie et procédures médicales
- Fausse déclaration auprès d’une assurance décès
invalidité ou médicale.
Fraude financière
Utilisation des données médicales dans un dossier de
profil bancaire pour un gain financier :
- Utilisation des données volées dans les dossiers de
crédit ou des dossiers d’incapacité de travail,
invalidité
- Vente de données médicales personnelles à des
prestataires de santé
- Demande de remboursements de cotisations, de
taxes ou primes d’assurances
Instrumentalisation de données de santé
Utilisation des données médicales d’un individu pour
menacer, influencer, faire chanter la victime du vol :
- Levier pour obtenir le paiement d’une rançon
- Construction de données secondaires réelles ou
falsifiées en vue de chantage et d’extorsion
- Atteinte à la réputation d’un personnage public VIP.
Données en support d’une campagne de
cyberattaques
Utilisation des données médicales volées en support
d’une cyberattaque :
- Les informations de contact présentes dans les
données peuvent êtres ciblées pour du phishing ou
de la fraude (scam), faux ordre de virement.
- Les données d’indentification ou d’authentification
peuvent être utilisées pour de l’élévation de privilège
ou de droits dans un système.
-
19. Novembre 2018 : le fournisseur de facturation d’Atrium Health révèle les informations de
plus de 2,65 millions de patients.
https://www.zdnet.com/article/this-is-how-hackers-make-money-from-your-stolen-medical-data/#ftag=RSSbaffb68
23. https://www.carbonblack.com/wp-content/uploads/2019/06/carbon-black-healthcare-cyber-heists-in-2019.pdf
Des documents d’assurance, des diplômes médicaux, des licences de médecin et des licences DEA, peuvent
tous être obtenus pour environ 500 dollars par inscription.
Selon le dernier rapport CarbonBlack 2019 :
Un pirate informatique compromet le réseau d'entreprise d'un fournisseur de soins de santé pour lui
permettre de trouver des documents administratifs qui permettent de prouver l'identité d’un faux médecin. Le
pirate informatique vendra ensuite à un acheteur ou à un intermédiaire à un prix suffisamment élevé pour
garantir un retour sur investissement. Le prix doit néanmoins rester suffisamment faible pour permettre à
plusieurs personnes d’acheter l’article. L'acheteur utilise ensuite l’identité volée et soumet à Medicare ou à un
autre fournisseur d'assurance médicale ses demandes de remboursement pour des interventions chirurgicales
haut de gamme.
CarbonBlack a également trouvé un large éventail de faux documents disponibles sur le marché. Vous pouvez
acheter de fausses ordonnances, des étiquettes, des reçus de vente et des cartes de soins de santé volées pour
10 à 120 dollars par enregistrement.
Pour 3,25 dollars ou moins, les chercheurs de Carbon Black ont consulté des listes d'informations volées à
l'assurance maladie, qui pourraient être utilisées pour faire de fausses demandes aux frais de la victime.
25. 4 – Differential Privacy,
Intelligence Artificielle et données
de santé
26. Le défi de la protection des données médicales utilisées pour
entrainer des composantes d’apprentissage automatique
Article publié dans la revue SIH – Décembre 2019, janvier 2020
27.
28. « Le bruit au service de la confidentialité »
Les solutions informatiques qui embarquent des composantes d’apprentissage automatique (ML, Machine
Learning) sont déployées dans de nombreux secteurs d’activités : santé, mobilité, objets intelligents, finance,
ressources humaines, marketing, étatiques, robotique. Le fonctionnement de ces composantes ML repose sur
une phase initiale d’entrainement d’un modèle réalisée à partir de données d’apprentissage.
Celles-ci peuvent contenir des informations à caractère personnel plus ou moins bien anonymisées. Une fois
entrainé, le modèle est mis en production sur de nouveaux jeux de données, avec un risque non nul de
désanonymisation malveillante des données d’entrainement et de réidentification des individus ayant produit
ces données.
Se posent alors les questions du respect de la vie privée des utilisateurs et de la conformité à la
réglementation sur les données (RGPD).
29. « Le bruit au service de la confidentialité »
Plusieurs approches algorithmiques permettent de réduire le risque de réidentification, notamment celle de
la confidentialité différentielle (Differential Privacy). Formalisée en 2006, la confidentialité différentielle
fournit des réponses théoriques, basées sur des arguments statistiques, au problème de désanonymisation.
L’objectif étant de masquer l’identité d’un individu, les techniques de confidentialité différentielle consistent
à ajouter du « bruit mathématique » aux données le concernant sans altérer la performance du modèle
statistique construit sur ces données.
Le dosage est donc complexe à mettre en œuvre : si l’on bruite trop les données, on gagne en confidentialité
mais on perd en pertinence d’apprentissage automatique et si l’on ne bruite pas assez, on s’expose au risque
de distinction ou de réidentification d’un individu.
Ce dilemme algorithmique fait l’objet de nombreuses recherches notamment chez les géants Apple, Google
et Facebook. Ces derniers communiquent beaucoup sur ce sujet déterminant pour conserver la confiance de
leurs utilisateurs et clients. Sans être une solution miraculeuse (car elle n’est en général pas simple à
déployer), la confidentialité différentielle apporte un certain nombre de garanties en matière de préservation
de la vie privée. C’est suffisant pour en faire un sujet central à l’heure de la montée en puissance de
l’apprentissage automatique dont le carburant n’est que la donnée !
30. Définition de la confidentialité différentielle (Dwork, Mc Sherry, Nissim et Smith) -
Deux ensembles de données D et D’ sont dits voisins s’ils ne diffèrent que par un seul élément.
Un algorithme probabiliste M est dit ε - différentiellement privé si pour tous ensembles de données D, D’
voisins et tout évènement S : Proba [ M(D) ϵ S] ≤ exp( ε ) . Proba [ M(D’) ϵ S]
Concrètement, plus la valeur de ε est proche de zéro et plus la confidentialité de l’algorithme est forte.
Dans ce cas, substituer une donnée par une autre donnée a très peu d’incidence sur la sortie produite par
l’algorithme. Une valeur de ε = 0 signifie que chaque donnée n’a aucune influence sur le résultat produit
par l’algorithme.
Dans le cadre de l’apprentissage automatique, l’algorithme considéré est le processus d’entrainement et la
sortie est le modèle produit. L’enjeu est de construire un modèle utile (performant une fois mis en
production) reposant sur des informations issues du dataset d’entrainement sans révéler trop d’information
sur chaque exemple particulier.
31. Un exemple concret de confidentialité différentielle
Une approche « Differential Privacy » s’appuie sur le processus suivant :
Pour chaque individu interrogé lors d’un sondage, on effectue un tirage à pile ou face.
Si l’on obtient pile, l’individu répond sincèrement.
Si l’on obtient face, on lance une seconde pièce pour répondre au hasard à la question du sondage : face
donne la réponse « oui, je suis consommateur » et pile donne « non, je ne suis pas consommateur ».
De cette façon, chaque individu peut réfuter sa réponse en prétendant qu’elle est due au hasard. Quant au
sondeur, s’il dispose d’un échantillon assez large, il peut facilement retrouver une estimation fiable de la
proportion de consommateurs de drogues à partir de la fréquence de réponses positives qu’il observe.
32. Modèle de flux de données sous confidentialité différentielle locale
33. Modèle de flux de données sous confidentialité différentielle globale
34. Article Revue de la Gendarmerie Nationale RGN janvier 2020 –
Numéro spécial FIC2010
35. Le blog Cyberland de Thierry Berthier :
http://cyberland.centerblog.net/
La veille cybersécurité francophone gratuite la plus complète (Lionel Guillet & Thierry Berthier) :
https://veillecyberland.wordpress.com/
La veille gratuite Sécurité & Intelligence Artificielle (Lionel Guillet & thierry Berthier) :
https://iasecurite.wordpress.com/
Des conférences cybersécurité & intelligence artificielle (Thierry Berthier) :
https://fr.slideshare.net/OPcyberland/presentations
Les conférence IANP2019 (Paris) puis IANP2020 (Toulouse) Intelligence Artificielle : Nouvelles Puissances :
https://ianpconference.wordpress.com/
https://www.youtube.com/channel/UCMo6AR7tWxJ9x16MxO2NrjQ/videos
« From Digital Traces to Algorithmic Projections » – éditeur ISTE WILEY & Elsevier :
https://www.elsevier.com/books/from-digital-traces-to-algorithmic-projections/berthier/978-1-78548-270-0
http://www.iste.co.uk/book.php?id=1372
https://iste-editions.fr/products/des-traces-numeriques-aux-projections-algorithmiques
https://fr.linkedin.com/in/thierry-berthier-6143bb6a