Mix it2014 - Machine Learning et Régulation Numérique

2,386 views

Published on

Le machine learning est la science qui permet à un algorithme d’apprendre sans avoir été explicitement programmé pour cela. Elle est utilisée par les acteurs de la nouvelle économie pour le traitement de gros volumes de données, dans la traduction automatique, la reconnaissance de la parole, la classification de consommateur, la construction de réputation, ou la prévision des trafics. C’est la “régulation numérique”.

Nous parlerons des champs d’application du machine learning par les gros acteurs du numérique, de ses fondements mathématiques, des grands familles d’algorithmes et des outils disponibles pour mettre en pratique.

Découvrez les bases pour comprendre cette science et mesurer le potentiel des possibilités de son utilisation.

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,386
On SlideShare
0
From Embeds
0
Number of Embeds
122
Actions
Shares
0
Downloads
95
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Mix it2014 - Machine Learning et Régulation Numérique

  1. 1. Machine Learning & Régulation Numérique Didier Girard / Guillaume Laforge
  2. 2. SPAM
  3. 3. RECOMMENDATIONS
  4. 4. 2011 rank Company 2009 2010 2011 1 Netflix 0.0 % 0.5 % 44.0 % 2 Apple 71.5 % 60.8 % 32.3 % 3 Microsoft 11.2 % 16.7 % 7.6 % 4 Vudu (Walmart) 0.5 % 2.7 % 4.2 % 5 Sony 5.4 % 6.8 % 2.4 % Others 11.4 % 12.6 % 9.5 % Total 89 % 87 % 90 % “Voici mon catalogue” vs “J’ai une video pour vous.”
  5. 5. Yup, NSA does!
  6. 6. Toutes les données, tu récolteras #MixIT14
  7. 7. data machine learning
  8. 8. Définition
  9. 9. Définition Une branche de l’intelligence artificielle qui s’occupe de la construction et l’étude de systèmes quiapprennentàpartirdedonnées
  10. 10. Le parallèle de l’accordeur de piano Data Accordeur Modèle
  11. 11. Les grandes familles Supervisé vs non-supervisé
  12. 12. Supervisé Régression, classification...
  13. 13. Régression http://en.wikipedia.org/wiki/Regression_analysis Un modèle de regression relie Y à une fonction de X et ß Son Touches Accordeur
  14. 14. Régression linéaire http://en.wikipedia.org/wiki/Linear_regression
  15. 15. Régression linéaire
  16. 16. Régression linéaire
  17. 17. Régression linéaire
  18. 18. Régression linéaire
  19. 19. Régression linéaire
  20. 20. ATTENTION corrélation ≠ causalité :-)
  21. 21. Ta fonction de coût, tu minimiseras #MixIT14
  22. 22. Fonction de coût
  23. 23. Régression
  24. 24. Régression — ordre premier
  25. 25. Régression — ordre premier ?
  26. 26. Régression — ordre second
  27. 27. Régression — ordre second ?
  28. 28. Classification La classification est le problème d'identifier à quel ensemble de catégories (sous-population) une nouvelle observation correspond http://en.wikipedia.org/wiki/Statistical_classification
  29. 29. Classification
  30. 30. Classification
  31. 31. Non-supervisé Clusterisation, séparation de sources...
  32. 32. Clusterisation
  33. 33. Clusterisation
  34. 34. Clusterisation
  35. 35. Séparation de sources Source 1 Source 2
  36. 36. Séparation de sources Source 1 Source 2 Observation
  37. 37. Séparation de sources Source 1 Source 2 Observation Source séparée 1 Source séparée 2
  38. 38. Tes données, tu visualiseras #MixIT14
  39. 39. Visualiser
  40. 40. N’apprends pas ce que tu sais déjà #MixIT14
  41. 41. Ne pas apprendre ce que l’on sait
  42. 42. Ne pas apprendre ce que l’on sait
  43. 43. Ne pas apprendre ce que l’on sait
  44. 44. Ne pas apprendre ce que l’on sait
  45. 45. Tes données, tu segmenteras #MixIT14
  46. 46. Segmenter Problème : ● Je vous donne la latitude et la longitude ● Vous devez coder un systeme qui me donne l’altitude 1. un modèle pour toute la France ? 2. un modèle par type de relief ? 3. un modèle par région ?
  47. 47. Segmenter
  48. 48. Segmenter
  49. 49. Tes données, tu pré-traiteras #MixIT14
  50. 50. Exemple : Normaliser/Centrer
  51. 51. Exemple : Face Recognition http://bitsearch.blogspot.com/2013/02/unsupervised-face-clustering-with-opencv.html
  52. 52. Que faire des données manquantes ? ● Supprimer la dimension ? ● Signaler au système apprenant ?
  53. 53. Données aberrantes ● Erreur d’ observation ? ● Cas exceptionnel ?
  54. 54. Ton algorithme, tu choisiras #MixIT14
  55. 55. k-nearest neighbors Wikipedia
  56. 56. Support Vector Machine Wikipedia
  57. 57. Random tree forest
  58. 58. Neural Networks Wikipedia
  59. 59. De l’intuition, tu auras #MixIT14
  60. 60. https://www.flickr.com/photos/hills_alive/3368257480/ Comment caractériser l’ intuition ? Chasse aux champignons ?
  61. 61. Sélectionner les bonnes variables
  62. 62. Sélectionner les bonnes variables Consommation ● jour de la semaine ● vacances scolaires ● jours fériés ● température Reconnaissance d’image ● histogramme de couleur
  63. 63. Ton système, tu entraineras #MixIT14
  64. 64. Apprendre et généraliser Apprentissage : 60% Généralisation : 40%
  65. 65. Par coeur, tu n’ apprendras pas #MixIT14
  66. 66. Régression — ordre supérieur ? ?
  67. 67. Capacité d’apprentissage d’un système Capacité d’apprentissage Complexité des systèmes modélisables Risque de sur- apprentissage
  68. 68. Pour aller plus loin : VC-Dimension Trois choses entrent en jeu : ● taille de l’échantillon ● nombre de paramètres d’ajustement du modèle ● nombre de dimensions de l’espace d’entrée
  69. 69. Intuition : capacité de généralisation #MixIT14
  70. 70. Ton modèle, tu valideras #MixIT14
  71. 71. Apprendre, Généraliser et Valider Apprentissage : 60% Généralisation : 20% Validation : 20%
  72. 72. Ton modèle, tu exécuteras #MixIT14
  73. 73. A un moment ou un autre… il faut se lancer !
  74. 74. Les recettes de tonton Moïse pour le ML 1. Enregistrez toutes les données que vous pourrez 2. Observez et visualisez vos données 3. Segmentez vos données 4. Pré-traitez et normalisez vos données 5. Choisissez bien votre algorithme 6. Entrainez votre système 7. Validez votre système 8. Et… exécutez !
  75. 75. Quelques outils ● R http://www.r-project.org/ ● Octave https://www.gnu.org/software/octave/ ● SciKit Learn http://scikit-learn.org/ ● Apache Mahout https://mahout.apache.org/ ● Weka http://www.cs.waikato.ac.nz/ml/weka/ ● Google Prediction https://developers.google.com/prediction ● Prediction.IO http://prediction.io/ ● MADlib http://madlib.net/
  76. 76. Conclusion Machine Learning et Régulation Numérique
  77. 77. Le Data Scientist de demain est le Physicien Nucléaire d’hier
  78. 78. BIG DATA IS SCORING YOU #MixIT14
  79. 79. http://money.cnn.com/2014/04/02/pf/consumer-scores/index.html Consumer profitability score Churn score Job security score Medication adherence score Fraud scoreCustomer score Law enforcement score
  80. 80. On ne peut pas arrêter la machine...
  81. 81. Apprendre et comprendre comment marche le Machine Learning
  82. 82. Etre au coeur du système, pour le réguler
  83. 83. Les gens éduqués sont les garde-fous des dérives du Machine Learning #MixIT14
  84. 84. Le monde est entre vos mains ! A vous de jouer !
  85. 85. Didier Girard / Guillaume Laforge @didiergirard @glaforge Merci
  86. 86. Didier Girard / Guillaume Laforge @didiergirard @glaforge Questions — réponses

×