Machine Learning &
Régulation Numérique
Didier Girard / Guillaume Laforge
SPAM
RECOMMENDATIONS
2011 rank Company 2009 2010 2011
1 Netflix 0.0 % 0.5 % 44.0 %
2 Apple 71.5 % 60.8 % 32.3 %
3 Microsoft 11.2 % 16.7 % 7.6 %...
Yup, NSA
does!
Toutes les données,
tu récolteras
#MixIT14
data
machine
learning
Définition
Définition
Une branche de l’intelligence
artificielle qui s’occupe de la
construction et l’étude de systèmes
quiapprennent...
Le parallèle de l’accordeur de piano
Data
Accordeur
Modèle
Les grandes familles
Supervisé vs non-supervisé
Supervisé
Régression, classification...
Régression
http://en.wikipedia.org/wiki/Regression_analysis
Un modèle de regression relie Y à une fonction de X et ß
Son T...
Régression linéaire
http://en.wikipedia.org/wiki/Linear_regression
Régression linéaire
Régression linéaire
Régression linéaire
Régression linéaire
Régression linéaire
ATTENTION
corrélation
≠ causalité
:-)
Ta fonction de coût,
tu minimiseras
#MixIT14
Fonction de coût
Régression
Régression — ordre premier
Régression — ordre premier
?
Régression — ordre second
Régression — ordre second
?
Classification
La classification est le problème
d'identifier à quel ensemble de
catégories (sous-population) une
nouvelle...
Classification
Classification
Non-supervisé
Clusterisation, séparation de sources...
Clusterisation
Clusterisation
Clusterisation
Séparation de sources
Source 1
Source 2
Séparation de sources
Source 1
Source 2
Observation
Séparation de sources
Source 1
Source 2
Observation
Source séparée 1
Source séparée 2
Tes données,
tu visualiseras
#MixIT14
Visualiser
N’apprends pas
ce que tu sais déjà
#MixIT14
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Tes données, tu
segmenteras
#MixIT14
Segmenter
Problème :
● Je vous donne la latitude et la
longitude
● Vous devez coder un systeme
qui me donne l’altitude
1. ...
Segmenter
Segmenter
Tes données, tu
pré-traiteras
#MixIT14
Exemple : Normaliser/Centrer
Exemple : Face Recognition
http://bitsearch.blogspot.com/2013/02/unsupervised-face-clustering-with-opencv.html
Que faire des données manquantes ?
● Supprimer la dimension ?
● Signaler au système apprenant ?
Données aberrantes
● Erreur d’
observation ?
● Cas exceptionnel ?
Ton algorithme,
tu choisiras
#MixIT14
k-nearest neighbors
Wikipedia
Support Vector Machine
Wikipedia
Random tree forest
Neural Networks
Wikipedia
De l’intuition,
tu auras
#MixIT14
https://www.flickr.com/photos/hills_alive/3368257480/
Comment
caractériser l’
intuition ?
Chasse aux
champignons ?
Sélectionner les bonnes variables
Sélectionner les bonnes variables
Consommation
● jour de la semaine
● vacances scolaires
● jours fériés
● température
Reco...
Ton système,
tu entraineras
#MixIT14
Apprendre et généraliser
Apprentissage : 60% Généralisation : 40%
Par coeur, tu n’
apprendras pas
#MixIT14
Régression — ordre supérieur ?
?
Capacité d’apprentissage d’un système
Capacité d’apprentissage
Complexité
des systèmes
modélisables
Risque de sur-
apprent...
Pour aller plus loin : VC-Dimension
Trois choses entrent en jeu :
● taille de l’échantillon
● nombre de paramètres d’ajust...
Intuition : capacité de généralisation
#MixIT14
Ton modèle,
tu valideras
#MixIT14
Apprendre, Généraliser et Valider
Apprentissage : 60% Généralisation : 20% Validation : 20%
Ton modèle,
tu exécuteras
#MixIT14
A un moment ou un autre… il faut se lancer !
Les recettes de tonton Moïse pour le ML
1. Enregistrez toutes les données que vous pourrez
2. Observez et visualisez vos d...
Quelques outils
● R
http://www.r-project.org/
● Octave
https://www.gnu.org/software/octave/
● SciKit Learn
http://scikit-l...
Conclusion
Machine Learning et Régulation Numérique
Le Data Scientist de demain est le Physicien Nucléaire d’hier
BIG DATA IS SCORING YOU
#MixIT14
http://money.cnn.com/2014/04/02/pf/consumer-scores/index.html
Consumer
profitability
score
Churn score
Job security
score
...
On ne peut pas arrêter la machine...
Apprendre et comprendre comment marche le Machine Learning
Etre au coeur du système, pour le réguler
Les gens éduqués sont les garde-fous des dérives du Machine Learning
#MixIT14
Le monde est entre vos mains ! A vous de jouer !
Didier Girard / Guillaume Laforge
@didiergirard @glaforge
Merci
Didier Girard / Guillaume Laforge
@didiergirard @glaforge
Questions —
réponses
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
Upcoming SlideShare
Loading in...5
×

Mix it2014 - Machine Learning et Régulation Numérique

1,592

Published on

Le machine learning est la science qui permet à un algorithme d’apprendre sans avoir été explicitement programmé pour cela. Elle est utilisée par les acteurs de la nouvelle économie pour le traitement de gros volumes de données, dans la traduction automatique, la reconnaissance de la parole, la classification de consommateur, la construction de réputation, ou la prévision des trafics. C’est la “régulation numérique”.

Nous parlerons des champs d’application du machine learning par les gros acteurs du numérique, de ses fondements mathématiques, des grands familles d’algorithmes et des outils disponibles pour mettre en pratique.

Découvrez les bases pour comprendre cette science et mesurer le potentiel des possibilités de son utilisation.

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,592
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
54
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Mix it2014 - Machine Learning et Régulation Numérique

  1. 1. Machine Learning & Régulation Numérique Didier Girard / Guillaume Laforge
  2. 2. SPAM
  3. 3. RECOMMENDATIONS
  4. 4. 2011 rank Company 2009 2010 2011 1 Netflix 0.0 % 0.5 % 44.0 % 2 Apple 71.5 % 60.8 % 32.3 % 3 Microsoft 11.2 % 16.7 % 7.6 % 4 Vudu (Walmart) 0.5 % 2.7 % 4.2 % 5 Sony 5.4 % 6.8 % 2.4 % Others 11.4 % 12.6 % 9.5 % Total 89 % 87 % 90 % “Voici mon catalogue” vs “J’ai une video pour vous.”
  5. 5. Yup, NSA does!
  6. 6. Toutes les données, tu récolteras #MixIT14
  7. 7. data machine learning
  8. 8. Définition
  9. 9. Définition Une branche de l’intelligence artificielle qui s’occupe de la construction et l’étude de systèmes quiapprennentàpartirdedonnées
  10. 10. Le parallèle de l’accordeur de piano Data Accordeur Modèle
  11. 11. Les grandes familles Supervisé vs non-supervisé
  12. 12. Supervisé Régression, classification...
  13. 13. Régression http://en.wikipedia.org/wiki/Regression_analysis Un modèle de regression relie Y à une fonction de X et ß Son Touches Accordeur
  14. 14. Régression linéaire http://en.wikipedia.org/wiki/Linear_regression
  15. 15. Régression linéaire
  16. 16. Régression linéaire
  17. 17. Régression linéaire
  18. 18. Régression linéaire
  19. 19. Régression linéaire
  20. 20. ATTENTION corrélation ≠ causalité :-)
  21. 21. Ta fonction de coût, tu minimiseras #MixIT14
  22. 22. Fonction de coût
  23. 23. Régression
  24. 24. Régression — ordre premier
  25. 25. Régression — ordre premier ?
  26. 26. Régression — ordre second
  27. 27. Régression — ordre second ?
  28. 28. Classification La classification est le problème d'identifier à quel ensemble de catégories (sous-population) une nouvelle observation correspond http://en.wikipedia.org/wiki/Statistical_classification
  29. 29. Classification
  30. 30. Classification
  31. 31. Non-supervisé Clusterisation, séparation de sources...
  32. 32. Clusterisation
  33. 33. Clusterisation
  34. 34. Clusterisation
  35. 35. Séparation de sources Source 1 Source 2
  36. 36. Séparation de sources Source 1 Source 2 Observation
  37. 37. Séparation de sources Source 1 Source 2 Observation Source séparée 1 Source séparée 2
  38. 38. Tes données, tu visualiseras #MixIT14
  39. 39. Visualiser
  40. 40. N’apprends pas ce que tu sais déjà #MixIT14
  41. 41. Ne pas apprendre ce que l’on sait
  42. 42. Ne pas apprendre ce que l’on sait
  43. 43. Ne pas apprendre ce que l’on sait
  44. 44. Ne pas apprendre ce que l’on sait
  45. 45. Tes données, tu segmenteras #MixIT14
  46. 46. Segmenter Problème : ● Je vous donne la latitude et la longitude ● Vous devez coder un systeme qui me donne l’altitude 1. un modèle pour toute la France ? 2. un modèle par type de relief ? 3. un modèle par région ?
  47. 47. Segmenter
  48. 48. Segmenter
  49. 49. Tes données, tu pré-traiteras #MixIT14
  50. 50. Exemple : Normaliser/Centrer
  51. 51. Exemple : Face Recognition http://bitsearch.blogspot.com/2013/02/unsupervised-face-clustering-with-opencv.html
  52. 52. Que faire des données manquantes ? ● Supprimer la dimension ? ● Signaler au système apprenant ?
  53. 53. Données aberrantes ● Erreur d’ observation ? ● Cas exceptionnel ?
  54. 54. Ton algorithme, tu choisiras #MixIT14
  55. 55. k-nearest neighbors Wikipedia
  56. 56. Support Vector Machine Wikipedia
  57. 57. Random tree forest
  58. 58. Neural Networks Wikipedia
  59. 59. De l’intuition, tu auras #MixIT14
  60. 60. https://www.flickr.com/photos/hills_alive/3368257480/ Comment caractériser l’ intuition ? Chasse aux champignons ?
  61. 61. Sélectionner les bonnes variables
  62. 62. Sélectionner les bonnes variables Consommation ● jour de la semaine ● vacances scolaires ● jours fériés ● température Reconnaissance d’image ● histogramme de couleur
  63. 63. Ton système, tu entraineras #MixIT14
  64. 64. Apprendre et généraliser Apprentissage : 60% Généralisation : 40%
  65. 65. Par coeur, tu n’ apprendras pas #MixIT14
  66. 66. Régression — ordre supérieur ? ?
  67. 67. Capacité d’apprentissage d’un système Capacité d’apprentissage Complexité des systèmes modélisables Risque de sur- apprentissage
  68. 68. Pour aller plus loin : VC-Dimension Trois choses entrent en jeu : ● taille de l’échantillon ● nombre de paramètres d’ajustement du modèle ● nombre de dimensions de l’espace d’entrée
  69. 69. Intuition : capacité de généralisation #MixIT14
  70. 70. Ton modèle, tu valideras #MixIT14
  71. 71. Apprendre, Généraliser et Valider Apprentissage : 60% Généralisation : 20% Validation : 20%
  72. 72. Ton modèle, tu exécuteras #MixIT14
  73. 73. A un moment ou un autre… il faut se lancer !
  74. 74. Les recettes de tonton Moïse pour le ML 1. Enregistrez toutes les données que vous pourrez 2. Observez et visualisez vos données 3. Segmentez vos données 4. Pré-traitez et normalisez vos données 5. Choisissez bien votre algorithme 6. Entrainez votre système 7. Validez votre système 8. Et… exécutez !
  75. 75. Quelques outils ● R http://www.r-project.org/ ● Octave https://www.gnu.org/software/octave/ ● SciKit Learn http://scikit-learn.org/ ● Apache Mahout https://mahout.apache.org/ ● Weka http://www.cs.waikato.ac.nz/ml/weka/ ● Google Prediction https://developers.google.com/prediction ● Prediction.IO http://prediction.io/ ● MADlib http://madlib.net/
  76. 76. Conclusion Machine Learning et Régulation Numérique
  77. 77. Le Data Scientist de demain est le Physicien Nucléaire d’hier
  78. 78. BIG DATA IS SCORING YOU #MixIT14
  79. 79. http://money.cnn.com/2014/04/02/pf/consumer-scores/index.html Consumer profitability score Churn score Job security score Medication adherence score Fraud scoreCustomer score Law enforcement score
  80. 80. On ne peut pas arrêter la machine...
  81. 81. Apprendre et comprendre comment marche le Machine Learning
  82. 82. Etre au coeur du système, pour le réguler
  83. 83. Les gens éduqués sont les garde-fous des dérives du Machine Learning #MixIT14
  84. 84. Le monde est entre vos mains ! A vous de jouer !
  85. 85. Didier Girard / Guillaume Laforge @didiergirard @glaforge Merci
  86. 86. Didier Girard / Guillaume Laforge @didiergirard @glaforge Questions — réponses
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×