Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

M'IT us ANEO : Inverse Reinforcement Learning !

12 views

Published on

Le détective du Data Marketing à la recherche des intentions clients.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

M'IT us ANEO : Inverse Reinforcement Learning !

  1. 1. Behavior Inference with Inverse Reinforcement Learning
  2. 2. 3Slide /3 INTELLIGENCE ARTIFICIELLE: DIFFÉRENTES APPROCHES
  3. 3. 4Slide / PROBLÈME À RÉSOUDRE 4 Environnement { 𝑆, 𝑇 𝑀𝐷𝑃} (plateforme Marketing) Classe de comportement 𝑐 𝑢 𝑡 { 𝐾, 𝑇 𝐻𝑀𝑀} (Mécanisme psychologique) Processus de prise de décision ℳ𝑢 𝑡 = { 𝑆, 𝑇, 𝐴, 𝑟𝑢 𝑡 , γ } à l’état 𝑠 𝑢 𝑡 𝑟𝑢 𝑡 ~ 𝑷 𝒄 𝒖 𝒕 𝑠 𝑢 𝑡+1 ~ 𝑻 𝑴𝑫𝑷 (𝑠𝑢 𝑡 , 𝑎 𝑢 𝑡 ) Agent 𝐴 (utilisateur u) 𝑎 𝑢 𝑡 𝑫 𝒖 HMM qui modélise le mécanisme psychologique de changement de comportements 𝐶 𝑡 ∈ [1, 𝐾] Modèle de définition des fonctions d’intérêt de chaque comportement 𝑟𝑢 𝑡 = 𝑟 𝑐 𝑢 𝑡 Modèle de prise de décision de l’agent
  4. 4. 5Slide / Cadre Expérimentale Cas d’une MDP simple: ObjectWorld 5
  5. 5. 6Slide / Cadre Expérimentale Cas réel: - Mooc - Mutuelle 6 Flux d’un apprenant dans un MOOC L’espace d’état: contenus associés à chaque section dupliquée un nombre de fois relative à un nombre de palier d’accomplissement. Les actions: les différentes options que propose le site de la plate-forme Trois types de propriété pour chaque état: Indicateur de comportement d’exploration, d’apprentissage et de certification. L’espace d’états: les données de contrat, demande de remboursement, et les interactions Les actions: une quantification des choix associés à chaque état. Cinq types de propriété pour chaque État: Indicateur de comportement plaintif, de consommation excessive, de consommation modérée, de mauvais payeur et d’insatisfaction.
  6. 6. 7Slide / SOUS- PROBLÈMES À RÉSOUDRE IDENTIFICATION DE STRATÉGIE OPTIMAL 7 Processus de prise de décision ℳ = { 𝑆, 𝑇, 𝐴, 𝑟 , γ } à l’état 𝑠 𝑢 𝑡 𝑎 𝑢 𝑡 Le problème de base est l’identification d’une stratégie optimal en vue d’optimiser une fonction d’intérêt donnée
  7. 7. 8Slide /8 SOUS- PROBLÈMES RÉSOLUTION IDENTIFICATION DE STRATÉGIE OPTIMAL Sous information complète du modèle ℳ = { 𝑆, 𝑇, 𝐴, 𝑟 , γ } Sous information partielle du modèle ℳ = 𝑆, 𝑇, 𝐴, 𝑟 , γ 𝑇 inconnue
  8. 8. 9Slide /9 SOUS- PROBLÈMES MESURE DE PERFORMANCE IDENTIFICATION DE STRATÉGIE OPTIMAL Objet cible du problème ObjectWorld Approximation avec LSPI Calcul avec l’itération sur la valeur
  9. 9. 10Slide / SOUS- PROBLÈMES À RÉSOUDRE INFÉRENCE DE FONCTION D’INTÉRÊT 10 Environnement { 𝑆, 𝑇 𝑀𝐷𝑃} (plateforme Marketing) Processus de prise de décision ℳ𝑢 𝑡 = { 𝑆, 𝑇, 𝐴, 𝑟, γ } à l’état 𝑠 𝑢 𝑡 𝑠 𝑢 𝑡 Agent 𝐴 (utilisateur u) 𝑎 𝑢 𝑡 𝑫 𝒖 Le problème à ce niveau est d’identifié la fonction d’intérêt qui explique les observations générées On exploite les observations et une pondération de confiance dans l’optimalité de la prise de décision Modèle de prise de décision de l’agent
  10. 10. 11Slide /11 SOUS- PROBLÈMES RÉSOLUTION INFÉRENCE DE FONCTION D’INTÉRÊT
  11. 11. 12Slide /12 SOUS- PROBLÈMES MESURE DE PERFORMANCE INFÉRENCE DE FONCTION D’INTÉRÊT Identification de fonction d’intérêt sur un cas simple Résultats sur des cas plus complexe
  12. 12. 13Slide / SOUS- PROBLÈMES À RÉSOUDRE INFÉRENCE DES CLASSES 13 Environnement { 𝑆, 𝑇 𝑀𝐷𝑃} (plateforme Marketing) Classe de comportement 𝑐 𝑢 𝑡 { 𝐾, 𝑇 𝐻𝑀𝑀} (Mécanisme psychologique) Processus de prise de décision ℳ𝑢 𝑡 = { 𝑆, 𝑇, 𝐴, 𝑟𝑢 𝑡 , γ } à l’état 𝑠 𝑢 𝑡 𝑟𝑢 𝑡 ~ 𝑷 𝒄 𝒖 𝒕 𝑠 𝑢 𝑡+1 ~ 𝑻 𝑴𝑫𝑷(𝑠 𝑢 𝑡 , 𝑎 𝑢 𝑡 ) Agent 𝐴 (utilisateur u) 𝑎 𝑢 𝑡 𝑫 𝒖 On exploite les observations et une connaissance de la distribution de probabilité associé à chaque comportement pour identifié la séquence 𝑐 𝑢 𝑡 la plus probable. Il s’agit de résoudre le problème de la HMM du problème initial
  13. 13. 14Slide /14 SOUS- PROBLÈMES RÉSOLUTION INFÉRENCE DES CLASSES
  14. 14. 15Slide /15 SOUS- PROBLÈMES MESURE DE PERFORMANCE INFÉRENCE DES CLASSES On arrive à atteindre la même précision avec ou sans usage de la matrice de transition de la chaine de Markov cachée
  15. 15. 16Slide / PROBLÈME À RÉSOUDRE 16 Environnement { 𝑆, 𝑇 𝑀𝐷𝑃} (plateforme Marketing) Classe de comportement 𝑐 𝑢 𝑡 { 𝐾, 𝑇 𝐻𝑀𝑀} (Mécanisme psychologique) Processus de prise de décision ℳ𝑢 𝑡 = { 𝑆, 𝑇, 𝐴, 𝑟𝑢 𝑡 , γ } à l’état 𝑠 𝑢 𝑡 𝑟𝑢 𝑡 ~ 𝑷 𝒄 𝒖 𝒕 𝑠 𝑢 𝑡+1 ~ 𝑻 𝑴𝑫𝑷 (𝑠𝑢 𝑡 , 𝑎 𝑢 𝑡 ) Agent 𝐴 (utilisateur u) 𝑎 𝑢 𝑡 𝑫 𝒖 HMM qui modélise le mécanisme psychologique de changement de comportements 𝐶 𝑡 ∈ [1, 𝐾] Modèle de définition des fonctions d’intérêt de chaque comportement 𝑟𝑢 𝑡 = 𝑟 𝑐 𝑢 𝑡 Modèle de prise de décision de l’agent
  16. 16. 17Slide /17 PROBLÈME PRINCIPALE: RÉSOLUTION
  17. 17. 18Slide /18 PROBLÈME PRINCIPALE: MESURE DE PERFORMANCE
  18. 18. 19Slide /19 PROBLÈME PRINCIPALE: FACTEURS LIMITANTS
  19. 19. 20Slide / Zoom sur l’approche 20 Consommation excessive Consommation normale Evolution du comportement de consommation au cours du temps Comment caractériser nos clients ? Suivant leurs profils de consommation
  20. 20. 21Slide / Zoom sur l’approche 21 Evolution du comportement de satifaction au cours du temps Comment caractériser nos clients ? Suivant leurs profils de satisfaction Client Satisfait Client Plaintif Client Mécontent
  21. 21. 22Slide / Exemple d’un client Déçu 22 Profil de Consommation Profil de Satisfaction Probabilité de départ XX%
  22. 22. 23Slide / Exemple d’un client Profiteur 23 Profil de Consommation Profil de Satisfaction Probabilité de départ XX%
  23. 23. 24Slide / Références 24 • AP Dempster,NMLaird and DB Rubin (1977). “Maximum likelihood from incomplete data via the EM algorithm”. • Brian D. Ziebart Andrew Maas, J.Andrew Bagnell and Anind K. Dey (2008). “Maximum Entropy Inverse Reinforcement Learning”. In: Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence. • Choi, Jaedeug and Kee eung Kim (2012). “Nonparametric Bayesian Inverse Reinforcement Learning for Multiple Reward Functions”. In: Advances in Neural Information Processing Systems 25 (NIPS). • Fahiem Bacchu, Craig Boutilie and Adam Grov (1997). “Structured Solution Methods for Non-Markovian Decision Processes”. In: Proc. 14th National Conf. on AI (AAAI-97). • Firas Jarboui, Vincent Rocchisani and Wilfried Kirchenmann (2017). “Users Behavioural Inference with Markovian Decision Process and Active Learning”. In: IAL@PKDD/ECML 2017. • Karlsson, Magnus (2004). Hidden Markov Models. URL: http://www.math.chalmers.se/~olleh. html (visited on 05/30/2018). • Lazaric, Alessandro and Mohammad Ghavamzadeh (2010). “Bayesian Multi-Task Reinforcement Learning”. In: ICML - 27th International Conference on Machine Learning. • Markus Wulfmeier, Peter Ondruska and Ingmar Posner (2016). “Maximum Entropy Deep Inverse Reinforcement Learning”. In: • Ming Jin Andreas Damianou, Pieter Abbeel and Costas Spanos (2017). “Inverse Reinforcement Learning via Deep Gaussian Process”. In: Proceedings of the AUAI Conference. • Monica Babe¸s-Vroman Vukosi Marivate, Kaushik Subramanian and Michael Littman (2011). “Apprenticeship learning about multiple intentions”. In: ICML’11 Proceedings of the 28th International Conference on International Conference on Machine Learning. • Ng, Andrew Y. and Stuart J. Russell (2000). “Algorithms for Inverse Reinforcement Learning”. In: ICML ’00Proceedings of the Seventeenth International Conference on Machine Learning. • Ramachandran, Deepak and Eyal Amir (2007). “Bayesian Inverse Reinforcement Learning”. • IJCAI’07 Proceedings of the 20th international joint conference on Artifical intelligence. Sergey Levine, Zoran Popovie and Vladlen Koltun (2011). “Nonlinear Inverse Reinforcement • Learning with Gaussian Processes”. In: Advances in Neural Information Processing Systems 24 (NIPS). • Silver, David (2015). UCL Course on Reinforcement learning. URL: http://www0.cs.ucl.ac.uk/ staff/d.silver/web/Teaching.html (visited on 05/30/2018). • Sutton, Richard and Andrew Barto (1998). Reinforcement Learning – An Introduction. MIT Press. • Sylvie Thiébaux Charles Gretton, John Slaney and David Price (2006). “Decision-Theoretic Planning with non-Markovian Rewards”. • Viterbi, Andrew (1967). “Error bounds for convolutional codes and an asymptotically optimum decoding algorithm”.
  24. 24. Merci! Q&A

×