Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Visite guidée au pays de la donnée - Traitement automatique des données

1,033 views

Published on

Ce diaporama est le 2ème d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 2ème partie présente le traitement automatique des données : intelligence artificielle, fouille de textes et de données, Traitement automarique de la langue ou des images. Après avoir défini ces différents domaines, cette présentation s'attache à faire le tour des différents outils disponibles pour analyser les contenus audiovisuels.

Published in: Data & Analytics
  • Be the first to comment

Visite guidée au pays de la donnée - Traitement automatique des données

  1. 1. Traitement automatique des données Gautier Poupeau gautier.poupeau@gmail.com, @lespetitescases http://www.lespetitescases.net Visite guidée au pays de la donnée
  2. 2. Visite guidée au pays de la donnée • Introduction et tour d’horizon • Traitement automatique des données Série de présentations pour faire le tour de la gestion des données à l’ère du Big data, du Cloud et de l’intelligence artificielle
  3. 3. Plan de la partie Déployer un système de traitement automatique TDM, IA, NLP, ML/DL… De quoi parle-t-on ? Les principes de l’apprentissage automatique Outils d’analyse automatique de contenus audiovisuels
  4. 4. TDM, IA, NLP, TAL, ML/DL…. DE QUOI PARLE-T-ON ?
  5. 5. Text & Data Mining – Fouille de données et de textes / Data science Ensemble de méthodes et d’outils qui vise à extraire un savoir ou une connaissance à partir d’une grande masse de données ou de textes TDM – Text & Data Mining/Fouille de données et de textes – Data Science
  6. 6. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Ensemble de méthodes et d’outils qui vise à reproduire par une machine des comportement ou des tâches des humains IA – Intelligence artificielle
  7. 7. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle NLP/TAL - Traitement automatique des langues Domaine qui vise à créer des outils de traitement de la langue naturelle NLP – Natural Language Processing = TAL – Traitement automatique des langues
  8. 8. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Statistiques NLP/TAL - Traitement automatique des langues Domaine mathématique qui consiste à recueillir, traiter et interpréter un ensemble de données Statistiques
  9. 9. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Statistiques ML - Machine Learning - Apprentissage automatique NLP/TAL - Traitement automatique des langues Systèmes visant à accomplir des tâches à partir de caractéristiques/attributs communs (patterns) « appris » dans un ensemble de données d’exemple Machine learning – Apprentissage automatique
  10. 10. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Statistiques ML - Machine Learning - Apprentissage automatique NLP/TAL - Traitement automatique des langues Technique d’apprentissage cherchant à reproduire le mécanisme des réseaux de neurones du cerveau humain DL - Deep Learning Apprentissage profond Deep Learning – Apprentissage profond
  11. 11. Text & Data Mining – Fouille de données et de textes / Data science IA – Intelligence artificielle Robotique Systèmes experts à base de règles (ex : système d’aiguillage) Statistiques BI - Informatique décisionnelle ML - Machine Learning - Apprentissage automatique Lexicométrie Calcul de similarité NLP/TAL - Traitement automatique des langues Etiquetage morpho syntaxique Quelques exemples dans les différents domaines Classification automatique Système de recommandations DL - Deep Learning Apprentissage profond Tagging d’images
  12. 12. LES PRINCIPES DE L’APPRENTISSAGE AUTOMATIQUE https://www.datasciencecentral.com/profiles/blogs/google-tutorial-on-machine-learn
  13. 13. Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam Programmation On établit des règles pour déterminer si le message est un spam ou non Si le message contient « Super loterie » alors le message est un spam Si le message contient « Ordre du jour de la réunion », alors le message n’est pas un spam Spam Non spam Mais il faut prévoir toutes les règles et les mettre à jour manuellement  c’est très fastidieux
  14. 14. Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam Programmation On établit des règles pour déterminer si le message est un spam ou non On donne à l’algorithme des exemples de messages spam et non spam Apprentissage Si le message contient « Super loterie » alors le message est un spam Si le message contient « Ordre du jour de la réunion », alors le message n’est pas un spam Spam Non spam Spam Non spam Mais il faut prévoir toutes les règles et les mettre à jour manuellement  c’est très fastidieux Le système va repérer automatiquement les caractéristiques communes des différentes classes et typer un nouveau message par sa proximité avec l’une ou l’autre classe
  15. 15. Programmation vs Apprentissage par l’exemple : le filtre Anti-Spam Programmation On établit des règles pour déterminer si le message est un spam ou non On donne à l’algorithme des exemples de messages spam et non spam Apprentissage Si le message contient « Super loterie » alors le message est un spam Si le message contient « Ordre du jour de la réunion », alors le message n’est pas un spam Spam Non spam Mais il faut prévoir toutes les règles et les mettre à jour manuellement  c’est très fastidieux Spam Non spam Le système va repérer automatiquement les caractéristiques communes des différentes classes et typer un nouveau message par sa proximité avec l’une ou l’autre classe Un système d’apprentissage automatique permet de répondre à une question unique en s’appuyant sur la détection de motifs communs dans les données sources
  16. 16. Des données Un modèle calculé à partir d’éléments définis Classification par apprentissage supervisé Classe A Classe B Classe C
  17. 17. Des données Un modèle calculé à partir d’éléments définis Prédire grâce au modèle A, B ou C ? Classification par apprentissage supervisé Classe A Classe B Classe C
  18. 18. Des données Un modèle calculé à partir d’éléments définis Prédire grâce au modèle A, B ou C ? Classification par apprentissage supervisé Classe A Classe B Classe C La classification par apprentissage supervisé suppose donc des données déjà classées d’où l’importance de disposer de référentiels et de données de qualité
  19. 19. Regroupement (clustering) par apprentissage non supervisé Des données On détermine le nombre de regroupements à créer
  20. 20. Regroupement (clustering) par apprentissage non supervisé Des données Regroupement calculé automatiquement On détermine le nombre de regroupements à créer
  21. 21. Regroupement (clustering) par apprentissage non supervisé Des données Regroupement calculé automatiquement On détermine le nombre de regroupements à créer Le regroupement par apprentissage non supervisé ne présuppose pas des données déjà qualifiées mais donne des résultats moins précis que l’apprentissage supervisé car l’algorithme a choisi lui-même les éléments discriminants entre les regroupements
  22. 22. Prédiction par apprentissage supervisé Surface Nombre de pièces localisation Prix 34 2 Paris X 90 4 Bordeaux Y 34 3 Lyon Z Des entités dont on détermine des caractéristiques pertinentes pour calculer un chiffre
  23. 23. Prédiction par apprentissage supervisé Surface Nombre de pièces localisation Prix 34 2 Paris X 90 4 Bordeaux Y 34 3 Lyon Z Des entités dont on détermine des caractéristiques pertinentes pour calculer un chiffre Prédiction en comparant les caractéristiques de l’entité à celles des données sources Quel est le prix d’un appartement de 3 pièces de 60m² à Paris ?
  24. 24. Prédiction par apprentissage supervisé Surface Nombre de pièces localisation Prix 34 2 Paris X 90 4 Bordeaux Y 34 3 Lyon Z Des entités dont on détermine des caractéristiques pertinentes pour calculer un chiffre Prédiction en comparant les caractéristiques de l’entité à celles des données sources Quel est le prix d’un appartement de 3 pièces de 60m² à Paris ? Le corpus d’entraînement doit disposer de cas de figure suffisamment nombreux pour prédire de manière pertinente d’où l’importance de disposer de données de qualité
  25. 25. Les types de sorties les plus courants d’un système d’apprentissage automatique Classe A Classe B ? ? Classification Regroupement Prédiction Surface localisation Prix 34 Paris X 90 Bordeaux Y 34 Lyon Z Prix ?
  26. 26. OUTILS D’ANALYSE AUTOMATIQUE DE CONTENUS AUDIOVISUELS
  27. 27. IMAGE FIXE OU ANIMÉE
  28. 28. Reconnaissance optique de caractères (OCR) Objectif : transformer en texte exploitable le contenu textuel d’une image Exploitation dans Gallica Exploitation dans Himanis Exploitation de l’OCR pour une vidéo (regroupement du résultat de l’OCR d’une image par seconde) https://github.com/tesseract-ocr/tesseract https://github.com/tmbdev/ocropy => https://graal.hypotheses.org/786
  29. 29. Reconnaissance optique de distribution (OLR) Objectif : identifier les différentes parties cohérentes d’une image https://bnf.hypotheses.org/208 Principes de l’OLR Identification des illustrations
  30. 30. Reconnaissance d’images ou d’entités visuelles http://diginpix.ina.fr/ Objectif : Retrouver une image ou une entité visuelle précise https://plantnet.org/ On compare les images à analyser à une base (un dictionnaire) qui contient toutes les images à retrouver Reconnaissance du logo Perrier Reconnaissance de « La Liberté guidant le peuple » Exemples issus du projet Diginpix
  31. 31. Reconnaissance d’images ou d’entités visuelles http://diginpix.ina.fr/ https://plantnet.org/ Résultat de reconnaissance issue du logiciel Snoop Image soumise par l’utilisateur à retrouver dans la base d’images Images issues de la base d’images et renvoyées par le système suivant leur similarité (avérée ou supposée) avec l’image soumise Objectif : Retrouver une image ou une entité visuelle précise
  32. 32. Classification d’images Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie Phase 1 : Mise au point d’un corpus d’images caractéristiques de chacune des classes qui composent le modèle pour effectuer l’entraînement Présentateur Exemples de classes et d’images pour reconnaître les différentes parties d’un JT Météo Reportage
  33. 33. Classification d’images Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie https://blog.octo.com/classification-dimages-les-reseaux-de-neurones-convolutifs-en-to Phase 2 : après entraînement du modèle, soumission d’une image au modèle Copie d’écran issue de l’écran de test de Deepomatic A la différence de la reconnaissance, l’objectif n’est pas de retrouver une image précise mais de déterminer à quelle classe appartient une image suivant ses caractéristiques.
  34. 34. Classification d’images Objectif : classer des images d’après leurs caractéristiques visuelles selon une typologie https://blog.octo.com/classification-dimages-les-reseaux-de-neurones-convolutifs-en-to Phase 2 : après entraînement du modèle, soumission d’une image au modèle Copie d’écran issue de l’écran de test de Deepomatic Phase 3 : agrégation des résultats pour visualiser les différentes parties d’un JT A la différence de la reconnaissance, l’objectif n’est pas de retrouver une image précise mais de déterminer à quelle classe appartient une image suivant ses caractéristiques.
  35. 35. Tagging d’images Objectif : décrire automatiquement le contenu d’une image fixe ou animée. Cela équivaut à effectuer une classification multi-labels de l’image. Extrait des Actualités françaises annoté avec Google Video Intelligence Annotation géographique automatique d’une photo avec Google Cloud Vision La force des services de ce type repose plus sur la pertinence et la volumétrie de la base d’entraînement que sur le bon fonctionnement des algorithmes. Mais, en échange du service, ils constituent des boîtes noires non modifiables.
  36. 36. Détection de formes/objets dans les images Objectif : identifier et localiser des formes ou des objets dans une image. Reconnaissance de formes dans une photo avec Google Cloud Vision Reconnaissance d’objet dans une vidéo Découpage des formes dans l’image Il ne s’agit pas simplement ici d’associer des mots-clés à l’ensemble de l’image mais bien de repérer où se situe précisément la forme ou l’objet dans l’image.
  37. 37. Analyse des visages (ou une application particulière de la reconnaissance d’objets) Objectif : détecter les visages dans une image et reconnaître/identifier un visage à partir d’une base de visages Comparaison de visages simulant le fonctionnement d’une base de visages avec Amazon Rekognition Détection de visages avec OpenCV Identification de visages avec Amazon Rekognition Détection de visages avec Amazon Rekognition
  38. 38. SON
  39. 39. Analyse de la parole Objectif : analyser la parole pour la rendre exploitable = détecter le changement de locuteur (diarisation), transcrire la parole en texte (Speech to text) Transcription d’une interview dans un JT effectuée avec Vox Sigma de Vocapia Locuteur A Locuteur B La diarisation consiste à détecter les changements de locuteurs et à déterminer les différents tours de parole.
  40. 40. Reconnaissance d’un son ou d’une musique Objectif : Retrouver le même son ou légèrement identique On enregistre l’habillage sonore de la publicité dans une base Exemple de reconnaissance pour identifier les coupures de publicité dans une journée de programme de LCI
  41. 41. Reconnaissance d’un son ou d’une musique Objectif : Retrouver le même son ou légèrement identique On enregistre l’habillage sonore de la publicité dans une base On compare le son d’une journée de programme aux sons de la base Exemple de reconnaissance pour identifier les coupures de publicité dans une journée de programme de LCI
  42. 42. Reconnaissance d’un son ou d’une musique Objectif : Retrouver le même son ou légèrement identique En agrégeant les résultats, on identifie les coupures de publicité dans une journée de programme de LCI On enregistre l’habillage sonore de la publicité dans une base On compare le son d’une journée de programme aux sons de la base Exemple de reconnaissance pour identifier les coupures de publicité dans une journée de programme de LCI
  43. 43. Reconnaissance d’un son ou d’une musique Objectif : Retrouver le même son ou légèrement identique Identification de morceaux de musique à partir de l’écoute d’une partie du morceau http://www.gracenote.com/music/music-recognition/ https://www.acrcloud.com/fr/music-recognition
  44. 44. Classification du son Objectif : classer des sons d’après leurs caractéristiques selon une typologie (selon le même principe que vu précédemment pour l’image) https://larevuedesmedias.ina.fr/la-radio-et-la-tele-les-femmes-parlent-deux-fois-moins-que-les-hom Classification de la musique, des voix d’hommes et de femmes d’une émission de variétés avec l’outil InaSpeechSegmenter
  45. 45. Identification de la voix Objectif : identifier la voix d’un locuteur en le comparant à un dictionnaire/base de voix Copie d’écran issu du projet Speechtrax Si l’identification de visages dans des bases très larges est possible, l’identification de voix à large échelle reste encore du domaine de la recherche.
  46. 46. TEXTE https://visatm.inist.fr/wp-content/uploads/2019/04/VisaTM_Liste_Outils.pdf
  47. 47. Extraction et identification d’entités nommées En Corse , il n' y aura peut-être pas de soirées électorales FR3 Corse est en grève , comme toute la fonction publique de l' île de Beauté , la grève est très suivie 75 pourcent des des salariés , il est paralysé , même si le calme est revenu Françoise Joly et d' Ajaccio. C'est ici , dans ce centre de tri d' Ajaccio qu' il y a quinze jours , les premiers salariés de la fonction publique se sont mis en grève parce qu' ici on parle encore avec amertume d' une autre grève , […]. Aujourd'hui , les revendications sont toujours les mêmes : plus d' argent et c'est le coût de la vie sur l' île est mise en avant . […] Objectif : extraire automatiquement les entités d’un texte Françoise Joly Corse - Ajaccio Extraction Identification Wikidata La plupart des systèmes d’extraction d’entités nommées se « contente » de repérer une entité et d’en reconnaître le type. Les services TextRazor ou Rosette propose d’identifier grâce à Wikidata, Google Cloud Natural Language propose des liens vers la Wikipedia anglophone.
  48. 48. Classification automatique En Corse , il n' y aura peut-être pas de soirées électorales FR3 Corse est en grève , comme toute la fonction publique de l' île de Beauté , la grève est très suivie 75 pourcent des des salariés , il est paralysé , même si le calme est revenu Françoise Joly et d' Ajaccio. C'est ici , dans ce centre de tri d' Ajaccio qu' il y a quinze jours , les premiers salariés de la fonction publique se sont mis en grève parce qu' ici on parle encore avec amertume d' une autre grève , […]. Aujourd'hui , les revendications sont toujours les mêmes : plus d' argent et c'est le coût de la vie sur l' île est mise en avant . […] Economie, entreprise, $communication diffusion traitement information, condition de travail, travailleur, vie économique, travail, média Objectif : associer automatiquement des mots-clés issues d’un référentiel à des blocs de texte (selon le même principe que vu précédemment pour l’image) Comme tous les systèmes de classification, il est nécessaire de disposer de documents déjà classés pour entraîner le système à reconnaître chaque classe, d’où l’importance disposer de données très bonnes qualités.
  49. 49. Topic modelling https://numapresse.hypotheses.org/11 Objectif : créer automatiquement des regroupements (clusters) de documents par l’analyse statistique de leur vocabulaire Répartition des différents sujets sur les pages du journal Le Matin du 1er janvier 1905 calculées à partir de regroupements au préalable repérés automatiquement puis étiquetés manuellement Regroupements trouvés automatiquement puis étiquetés manuellement à partir des romans de la première moitié du XIXe numérisés sur Gallica https://scoms.hypotheses.org/
  50. 50. Mise en relation automatique par calcul de similarité des contenus Objectif : mettre en relation des documents en fonction de leur similarité de contenu (métadonnées ou textes) Copies d’écran montrant la recommandation de vidéos d’Ina.fr à partir d’une vidéo source par calcul de similarité basé sur les métadonnées
  51. 51. Mise en relation automatique par calcul de similarité des contenus Objectif : mettre en relation des documents en fonction de leur similarité de contenu (métadonnées ou textes) Copies d’écran du projet Flux d’actus qui vise à mettre en relation automatiquement les fonds de l’Ina avec des événements d’actualité fournis par le service NewsInnov
  52. 52. Mise en relation automatique par analyse des comportements des utilisateurs Objectif : mettre en relation des documents en fonction du comportement des utilisateurs Copie d’écran de Netflix dont l’algorithme de recommandation a fait la renommée Copie d’écran d’Amazon http://www.lespetitescases.net/de-la-responsabilite-humaine-des-algorithmes
  53. 53. Réponse à des questions posées en langage naturel Objectif : répondre automatiquement à des questions posées en langage naturel à partir de phrases de documents analysées Résultat du Stanford Question Answering Dataset (SQUAD) qui propose un test composé de 100 000 questions dont les réponses sont dans un ensemble d’articles de Wikipédia Copie d’écran d’une réponse de Google à une question posée en langage naturel. Il met en avant une réponse contenue dans une page Web.
  54. 54. DÉPLOYER UN SYSTÈME DE TRAITEMENT AUTOMATIQUE
  55. 55. GUIDE DES DIFFÉRENTS OUTILS
  56. 56. Les différents outils pour déployer un système d’apprentissage automatique Complexité Souplesse Data scientist Data engineer Data analyst Des bibliothèques Open Source à implémenter par des data scientists à des APIs clés en main faciles à utiliser mais sans possibilité d’interventions sur l’algorithme ou le modèle, il existe un grand panel d’outils pour déployer un système d’apprentissage automatique. Clé en main Non adaptable Bibliothèques Plateforme Studio API clé en main Développeur Environnement de calcul
  57. 57. Les bibliothèques Toutes les bibliothèques ou frameworks pour développer un système d’apprentissage automatique sont disponibles en Open Source. Elles ont été initiées par les GAFAM ou le monde de la recherche universitaire. L’IA acte définitivement le fait que ce n’est pas le code qui a de la valeur économique intrinsèque mais le service offert autour… Traitement du langage naturel (NLP) Machine Learning (ML) Deep Learning (DL) NLTK (Python) Stanford Core NLP (Java) Gate (java) Spacy (Python) AllenNLP (Python, C++) basé sur PyTorch Apache OpenNLP (Java) Apache Spark Mllib (Java, Scala, Python, R) Scikit learn (Python) XGBoost (C++, Python, R, Java, Scala, Julia) Apache Mahout (Scala, Java) Microsoft Cognitive Toolkit (Python, C#, C++) maintenue par Microsoft Tensor Flow/Keras (Python, C, C++, Go, Java, Javascript, swift) maintenue par Google PyTorch (Python, C++) issue de Facebook Cafee (C++, Python) Theano (Python)
  58. 58. Environnement de calcul dans le cloud Les calculs nécessaires pour entraîner un modèle peuvent demander des ressources machines conséquentes. Les services « Cloud » offrent l’environnement et la puissance de calcul nécessaires à la phase d’entraînement et/ou de prédiction. Préparation des données Développemen t du modèle Entraînement, évaluation et réglages du modèle Déploiement du modèle entraîné Calcul des prédictions Supervision des prédictions Gestion des modèles et de leurs versions Etape non prise en charge par les environnements Etape prise en charge par les environnements Processus d’implémentation d’un système d’apprentissage automatique Google cloud Machine Learning Engine, Amazon Sage Maker, Microsoft Azure Machine Learning Service, IBM Watson Machine Learning
  59. 59. Plateformes Les plateformes permettent aux data scientists ou aux data engineers de construire facilement (souvent via des interfaces graphiques) des chaînes de traitement pour préparer les données, développer le modèle, effectuer l’entraînement, déployer et exploiter le modèle. Dataiku, Knime, Rapid Miner, Azure Machine Learning Studio, H2O.ai, IBM Watson Studio Visualisation d’une chaîne de traitement dans le logiciel Kime pour entraîner un modèle avec le framework Keras Ecran de Dataiku permettant d’évaluer les différents modèles calculées en fonction de la configuration de l’entraînement : algorithme et paramètres Magic quadrant for Data Science and Machine Learning platforms
  60. 60. Studios Les studios permettent à des personnes n’ayant aucune connaissance de programmation de mettre au point et déployer des modèles à partir d’interfaces graphiques simples à prendre en main. L’objectif est de rendre le plus accessible possible l’apprentissage automatique. Google Cloud AutoML (texte, traduction, image fixe et animée, données structurées), Deepomatic (image fixe et animée), BigML (texte, données structurées), Antidot (texte), Clarifai (image fixe et animée) https://www.slideshare.net/AxeldeRomblay/how-to-automate-machine-learning-pipeline Interface listant les images liées à une classe Matrice de confusion pour évaluer la pertinence du modèle Copies d’écrans issues du Studio de la société Deepomatic
  61. 61. APIs clés en main Les APIs clés en main permettent de disposer de résultats de traitement automatique en se contentant de soumettre les contenus à analyser à des APIs Web. Elles proposent donc des fonctionnalités et/ou des modèles très génériques. Elles servent bien souvent de produits d’appel ou de démonstrateurs des possibilités technologiques des fournisseurs. Amazon Google IBM Watson Microsoft Azure Speech to text Amazon TranscribeGoogle Cloud Speech To textIBM Watson Speech to TextSpeech Services Text to Speech Amazon Polly Google Cloud Text-to-SpeechIBM Watson Text to SpeechSpeech Services Vérification de locuteur Speaker recognition Identification de locuteur Speaker recognition Analyse du son Amazon TranslateGoogle Cloud TranslationIBM Watson Language TranslatorMicrosoft translator Traduction automatique X X X X Analyse du texte
  62. 62. APIs clés en main Rosette Amazon Comprehend Google Cloud Natural LanguageMonkeyLearn Analyse morpho-syntaxique X X X Détection de la langue X X X Extraction d’entités nommées X X X X Identification d’entités nommées X X Extraction des relations entre entités nommées X Extraction d'entités personnalisées X X X Extraction de mots-clés du texte X X X Détection de concepts X Classifieur "universel" X Classification personnalisée X X X X Extraction de relation X Analyse des sentiments X X X X Calcul de similarité X Topic Modelling X Analyse du texte
  63. 63. APIs clés en main TextRazor IBM Watson Natural Language Understanding Microsoft Azure Cognitive Services Analyse morpho-syntaxique Détection de la langue X Extraction d’entités nommées X X X Identification d’entités nommées X X Extraction des relations entre entités nommées X Extraction d'entités personnalisées Extraction de mots-clés du texte X X Détection de concepts X X Classifieur "universel" X X Classification personnalisée X Extraction de relation X Analyse des sentiments X X Calcul de similarité Topic Modelling Analyse du texte
  64. 64. APIs clés en main Amazon Rekognition Google Cloud Vision IBM Watson Visual Recognition Microsoft Azure Détection d’objets X X X X Détection de scènes X X Détection d’images inappropriées X X Classifieur « universel » X X Détection de logos X Détection de points de repères géographiques X X Détection de visage X X X X Analyse du visage X X X Reconnaissance de célébrités X X Reconnaissance faciale personnalisée X X OCR X X X Analyse de l’image fixe
  65. 65. APIs clés en main Amazon Rekognition Google Cloud Video Intelligence Microsoft Azure Détection d’objets X X Détection de scènes X X Détection d’images inappropriées X X Classifieur « universel » X X Détection de changement de plans X Détection de visage X X Analyse du visage X Reconnaissance de célébrités X Reconnaissance faciale personnalisée X OCR X Analyse de l’image animée
  66. 66. UN PEU DE MÉTHODOLOGIE
  67. 67. Evaluation des systèmes Faux négatifs: ce sont les documents pertinents qui ne sont pas inclus dans le résultat. Faux positifs: ce sont les résultats non pertinents inclus dans le résultat; ils ont été sélectionnés à tort.  Tout l’enjeu est de trouver le juste milieu entre le bruit et le silence en jouant sur Précision La précision mesure la fraction des vrais positifs dans un résultat. Une précision de 1 correspond à l’absence totale de faux positifs. Une précision nulle indique un résultat ne contenant aucun document pertinent. Rappel Le rappel mesure la fraction de faux négatifs. Pour évaluer les systèmes automatiques, il est nécessaire de mettre au point des corpus de tests dont les résultats, vérifiés au préalable, sont comparés à ceux du système.
  68. 68. Calcul du modèle Test du modèle Evaluation des résultats Mise au point du corpus d’entraînement Processus de travail Objectifs métier Evaluation du projet Mise en production Cette partie du travail doit être effectué par une personne possédant une très bonne connaissance des données métiers et du résultat attendu en relation avec un spécialiste de la donnée Cette partie du travail doit être effectué par une personne spécialiste de la donnée : data scientist ou data engineer en fonction des outils utilisés (cf. ci-dessus) en relation avec la personne possédant les connaissances « métier ».
  69. 69. Relation et cohérence entre les données (Méta)données Contenu Données extraites Traces Référentiel Mise en relation de contenus Contributions Il est absolument indispensable de penser la relation et la cohérence entre les données générés automatiquement et les données gérées selon les processus plus « standards ».
  70. 70. Check list avant de commencer 1. Maîtrisez-vous les données que vous allez utiliser pour mettre au point vos systèmes de traitement automatique ? 2. Vos données sont-elles de qualité ou a minima propres ? 3. Possédez-vous l’infrastructure nécessaire pour calculer le modèle ? Pour lancer les traitements ? Pour effectuer les prédictions ? 4. Possédez-vous l’infrastructure nécessaire pour stocker et exploiter les données générées ? 5. Avez-vous des cas d’usage en tête ? 6. Etes-vous capable de faire travailler dans la même équipe (et le même espace de travail) des représentants du métier et des spécialistes de la donnée ? 7. Avez-vous peur de l’échec ? Si oui, passez votre chemin, on échoue plus qu’on ne réussit avec ces technos…

×