Your SlideShare is downloading. ×
0
Les enjeux scientifiques de l’indexation vidéo Patrick Gros  Responsable de l’équipe TEXMEX INRIA Rennes et IRISA http://w...
Qu’est ce que l’indexation vidéo ? <ul><li>Des techniques d’analyse / description des vidéos </li></ul><ul><ul><li>Analyse...
Des applications <ul><li>Les détenteurs de contenus </li></ul><ul><ul><li>Archiveurs, chaines </li></ul></ul><ul><li>Les d...
Quelques opérations <ul><li>Segmentation </li></ul><ul><ul><li>Couper un flux en morceaux : émissions, thèmes, apparition ...
Des opérations de base <ul><li>En image </li></ul><ul><ul><li>Détection, regroupement, reconnaissance de visages </li></ul...
Mais… <ul><li>La reconnaissance de visages marche mal </li></ul><ul><ul><li>Il faut une base de visages </li></ul></ul><ul...
Les problèmes scientifiques <ul><li>La temporalité </li></ul><ul><li>La multimodalité </li></ul><ul><li>La généricité </li...
La temporalité <ul><li>Des fréquences différentes </li></ul><ul><ul><li>24/25 images par seconde </li></ul></ul><ul><ul><l...
Exemple des Modèles de Markov cachés <ul><li>MM = une suite d’états + probas de transition </li></ul><ul><li>MMC = chaque ...
Exemple des Modèles de Markov cachés <ul><li>Les problèmes : </li></ul><ul><li>À quoi correspondent les états : images, pl...
Exemple des Modèles de Markov cachés <ul><li>Une solution : les modèles de segments </li></ul><ul><li>À chaque état, une s...
La généricité <ul><li>La structure d’un MMC est figée : un MMC par pb ? </li></ul><ul><li>Quelles variables utiles ? Toute...
La généricité <ul><li>Les réseaux bayésiens </li></ul><ul><li>Permettent d’apprendre les dépendances entre variables </li>...
La généricité <ul><li>Les réseaux bayésiens </li></ul><ul><li>Sont statiques en général </li></ul><ul><li>Réseaux bayésien...
La multimodalité <ul><li>Quel poids relatif du son, de l’image, de la parole ? </li></ul><ul><li>Comment inclure des infor...
La sémantique <ul><li>Les vidéos à contenu image </li></ul><ul><ul><li>Sport, cirque, certaines publicités </li></ul></ul>...
La sémantique <ul><li>Les conditions acoustiques variables </li></ul><ul><li>Les locuteurs qui changent </li></ul><ul><li>...
Adaptation dynamique <ul><li>Construction d’un modèle de langue adapté au sujet pour chaque segment de thème homogène  </l...
Web-based topic adaptation ... ... € … thus a  candidate  who fails to carry a particular  state  receives not a single  e...
La sémantique <ul><li>Utilisation d’information morpho-syntaxiques pour réduire les fautes d’accord : -0.9 de WER </li></u...
Conclusion <ul><li>Jusqu’à présent : </li></ul><ul><li>On définit ce que l’on doit chercher </li></ul><ul><li>On fait un a...
Upcoming SlideShare
Loading in...5
×

Irisa p gros

468

Published on

Published in: Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
468
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Irisa p gros"

  1. 1. Les enjeux scientifiques de l’indexation vidéo Patrick Gros Responsable de l’équipe TEXMEX INRIA Rennes et IRISA http://www.irisa.fr/texmex
  2. 2. Qu’est ce que l’indexation vidéo ? <ul><li>Des techniques d’analyse / description des vidéos </li></ul><ul><ul><li>Analyse de l’image, du son, de la parole </li></ul></ul><ul><li>Des techniques de recherche de contenus </li></ul><ul><ul><li>Moteurs de recherche d’images, de séquences, de sons, de vidéos </li></ul></ul><ul><li>Des applications d’exploitation d’archives </li></ul><ul><ul><li>Recherche d’information </li></ul></ul><ul><li>Des applications de réutilisation de contenu </li></ul><ul><ul><li>Création de résumés, tables de matières, chapitrage, index </li></ul></ul><ul><li>La télévision, le cinéma, la radio, les photos… </li></ul>
  3. 3. Des applications <ul><li>Les détenteurs de contenus </li></ul><ul><ul><li>Archiveurs, chaines </li></ul></ul><ul><li>Les diffuseurs </li></ul><ul><ul><li>FAI, opérateurs telcos </li></ul></ul><ul><li>Les instances publiques </li></ul><ul><ul><li>CSA, dépôt légal </li></ul></ul><ul><li>Les possesseurs de droit </li></ul><ul><ul><li>Sport, cinéma, séries TV </li></ul></ul>
  4. 4. Quelques opérations <ul><li>Segmentation </li></ul><ul><ul><li>Couper un flux en morceaux : émissions, thèmes, apparition d’une personne… </li></ul></ul><ul><ul><li>Détection d’événements : buts, paniers, action… </li></ul></ul><ul><li>Description </li></ul><ul><ul><li>De l’action, du thème, de l’émission… </li></ul></ul><ul><li>Structuration </li></ul><ul><ul><li>D’une collection, d’un flux </li></ul></ul><ul><ul><li>Indexation, classification </li></ul></ul>
  5. 5. Des opérations de base <ul><li>En image </li></ul><ul><ul><li>Détection, regroupement, reconnaissance de visages </li></ul></ul><ul><ul><li>Segmentation en plans </li></ul></ul><ul><ul><li>Reconnaissance d’objets </li></ul></ul><ul><ul><li>Détection, reconnaissance de texte </li></ul></ul><ul><li>En audio </li></ul><ul><ul><li>Segmentation parole, musique, sons clés, bruit </li></ul></ul><ul><ul><li>Segmentation, regroupement, reconnaissance des locuteurs </li></ul></ul><ul><ul><li>Reconnaissance de la parole </li></ul></ul><ul><li>En texte </li></ul><ul><ul><li>Segmentation thématique </li></ul></ul><ul><ul><li>Caractérisation thématique </li></ul></ul>
  6. 6. Mais… <ul><li>La reconnaissance de visages marche mal </li></ul><ul><ul><li>Il faut une base de visages </li></ul></ul><ul><ul><li>Les visages changent </li></ul></ul><ul><ul><li>Il faut une bonne résolution et des visages de face </li></ul></ul><ul><li>La reconnaissance de la parole marche mal </li></ul><ul><ul><li>Contexte d’apprentissage ≠ contexte de reconnaissance </li></ul></ul><ul><ul><li>Des changements perpétuels de locuteurs, sujets, conditions </li></ul></ul><ul><li>On a besoin de tous les médias à la fois </li></ul><ul><ul><li>Les faiblesses des techniques ne coïncident pas </li></ul></ul>
  7. 7. Les problèmes scientifiques <ul><li>La temporalité </li></ul><ul><li>La multimodalité </li></ul><ul><li>La généricité </li></ul><ul><li>La sémantique </li></ul>
  8. 8. La temporalité <ul><li>Des fréquences différentes </li></ul><ul><ul><li>24/25 images par seconde </li></ul></ul><ul><ul><li>16 à 48 kHz audio, 100 frames audio par secondes </li></ul></ul><ul><ul><li>4 syllabes par secondes </li></ul></ul><ul><li>Des médias faiblement synchronisés </li></ul><ul><ul><li>Celui que l’on voit ≠ celui que l’on entend </li></ul></ul><ul><ul><li>Transitions vidéo ≠ transitions sonores </li></ul></ul><ul><ul><li>Le nom des gens n’est pas mis sur leur front </li></ul></ul><ul><li>Des flux non stationnaires </li></ul><ul><li>Des descriptions de taille variable </li></ul>
  9. 9. Exemple des Modèles de Markov cachés <ul><li>MM = une suite d’états + probas de transition </li></ul><ul><li>MMC = chaque état -> observation + proba d’émission </li></ul><ul><li>Pb : identifier les états à partir des observations </li></ul><ul><li>Solution : Bayes + Viterbi </li></ul>
  10. 10. Exemple des Modèles de Markov cachés <ul><li>Les problèmes : </li></ul><ul><li>À quoi correspondent les états : images, plans… ? </li></ul><ul><li>Proba de rester dans un état : exponentielle </li></ul><ul><li>Les observations éparses : ex. les scores </li></ul>
  11. 11. Exemple des Modèles de Markov cachés <ul><li>Une solution : les modèles de segments </li></ul><ul><li>À chaque état, une suite d’observations </li></ul><ul><li>Un modèle de durée explicite </li></ul><ul><li>Problèmes : </li></ul><ul><li>Comment synchroniser les flux ? </li></ul>
  12. 12. La généricité <ul><li>La structure d’un MMC est figée : un MMC par pb ? </li></ul><ul><li>Quelles variables utiles ? Toutes ? </li></ul><ul><li>Beaucoup d’apprentissage… </li></ul>
  13. 13. La généricité <ul><li>Les réseaux bayésiens </li></ul><ul><li>Permettent d’apprendre les dépendances entre variables </li></ul><ul><li>On peut apprendre la structure du réseau (contrairement aux MMC) et les proba d’émission </li></ul><ul><li>Permettent de détecter les variables utiles </li></ul>
  14. 14. La généricité <ul><li>Les réseaux bayésiens </li></ul><ul><li>Sont statiques en général </li></ul><ul><li>Réseaux bayésiens dynamiques : stationnaires en fait = réplication d’un réseau statique Stationnarité ? Quelle unité de temps ? </li></ul>
  15. 15. La multimodalité <ul><li>Quel poids relatif du son, de l’image, de la parole ? </li></ul><ul><li>Comment inclure des informations symboliques dans nos modèles ? </li></ul><ul><li>Des probabilités sur les mots prononcés dans un MMC ? </li></ul>
  16. 16. La sémantique <ul><li>Les vidéos à contenu image </li></ul><ul><ul><li>Sport, cirque, certaines publicités </li></ul></ul><ul><li>Les vidéos à contenu langagier </li></ul><ul><ul><li>Tout le reste ! </li></ul></ul><ul><li>Le langage </li></ul><ul><ul><li>Texte incrusté, visible </li></ul></ul><ul><ul><li>Parole </li></ul></ul><ul><ul><li>Texte exogène </li></ul></ul>
  17. 17. La sémantique <ul><li>Les conditions acoustiques variables </li></ul><ul><li>Les locuteurs qui changent </li></ul><ul><li>Les sujets qui changent </li></ul><ul><ul><li>On peut essayer de faire de l’adaptation dynamique </li></ul></ul><ul><li>Transcription de mauvaise qualité </li></ul><ul><ul><li>On peut améliorer </li></ul></ul><ul><li>Il faut utiliser ce qui sort ! </li></ul>
  18. 18. Adaptation dynamique <ul><li>Construction d’un modèle de langue adapté au sujet pour chaque segment de thème homogène </li></ul><ul><li>Lancement d’une nouvelle transcription </li></ul>€ ASR system ... receives a single electoral vote in this state Un flux long (audio)‏ Hypothèse de transcription (texte)‏ ... ...
  19. 19. Web-based topic adaptation ... ... € … thus a candidate who fails to carry a particular state receives not a single electoral vote in that state for the popular votes received since residential elections are won by electoral ... candidate state election 3. Building of an adaptation corpus candidate vote electoral vote 2. Querying 1. Keyword spotting Adaptation LM 4.a Training of a topic-specific LM 4.b Mix of this LM and the general one Baseline LM + Adapted LM = Web search engine ✘ ✔ ✔ ✔ ✘ ✔ ✘ ✔
  20. 20. La sémantique <ul><li>Utilisation d’information morpho-syntaxiques pour réduire les fautes d’accord : -0.9 de WER </li></ul><ul><li>Utilisation de la phonétique pour retrouver les entités nommées hors dictionnaire… </li></ul>
  21. 21. Conclusion <ul><li>Jusqu’à présent : </li></ul><ul><li>On définit ce que l’on doit chercher </li></ul><ul><li>On fait un algorithme </li></ul><ul><li>Apprentissage + tunning de paramètres </li></ul><ul><li>Grande sensibilité au contexte </li></ul><ul><li>Une voie d’avenir </li></ul><ul><li>Partir de ce que l’on sait faire / extraire </li></ul><ul><li>Dépenser plus d’énergie sur l’exploitation que sur l’extraction </li></ul>
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×