Your SlideShare is downloading. ×
0
Explorer des actualités
    multimédia dans le
    web de données

    Raphaël Troncy, <Raphael.Troncy@cwi.nl>
    CWI, In...
•    Search Paradigm :
     mots clés, liens vers des
     ressources, pertinence
•    Assistant Paradigm :
     expressio...
IC 2009: Vendredi 29 Mai 2009   3
IC 2009: Vendredi 29 Mai 2009   4
IC 2009: Vendredi 29 Mai 2009   5
IC 2009: Vendredi 29 Mai 2009   6
IC 2009: Vendredi 29 Mai 2009   7
Information Overload




IC 2009: Vendredi 29 Mai 2009   8
Workflow des actualités:
 un problème d'interopérabilité
• Pas d'intégration des médias (dépêche, photo, vidéo, μ-blog)
• ...
Représenter pour présenter
 • Objectif (à long terme) :
      – Fournir un environnement pour chercher et naviguer des
   ...
Formats pour les actualités
  et le multimédia              NewsML
                                  G2
                  ...
Construire des ontologies et des
 schémas pour le Web Sémantique
 • Méthodologies et outils pour construire des
   ontolog...
Construire une infrastructure
  sémantique pour les actualités

          1                      2   3           4

   Mod...
Etape 1: Modéliser l'ontologie NAR




              Text                 Text                                Person
     ...
Etape 1: Modéliser l'ontologie NAR
 • Aplatir la structure XML




                                  NewsItem


          ...
Etape 1: Modéliser l'ontologie NAR
 • Avoir des identifiants uniques
      – Utilisation d'URI déréférençable pour n'impor...
Etape 2: Lier avec d'autres ontologies

                                           dc:Subject ≈
                          ...
Etape 3: Obtenir des thésaurus SKOS




IC 2009: Vendredi 29 Mai 2009     18
Etape 3: Obtenir des thésaurus SKOS




IC 2009: Vendredi 29 Mai 2009     19
Etape 4: Enrichir les métadonnées

                                • Concepts/Entités qui
                                ...
Etape 4: Enrichir les métadonnées

                                   Reconnaissance
                                  d'e...
Etape 4: Enrichir les métadonnées

                                   Détection de
                                    Con...
Disambiguation
 • IdentityRank

      –   Ij: entité nommée j de l'item I
      –   lambda: normalisation,
      –   Ci: e...
Le Web de données
                   wp:2006_FIFA_Wolrd_Cup#Final
nc:15054000


nar:subject                     events:id
...
Semantic Search of Multimedia News
                 Description                Nombre de triplets RDF
 General Ontologies:...
IC 2009: Vendredi 29 Mai 2009   26
IC 2009: Vendredi 29 Mai 2009   27
IC 2009: Vendredi 29 Mai 2009   28
Présenter les actualités




 • Dimensions utilisées pour naviguer dans une base de
   dépêches d'actualités
      –   Whe...
ABC Event Model




IC 2009: Vendredi 29 Mai 2009   30
CIDOC CRM Event Model




IC 2009: Vendredi 29 Mai 2009   31
CultureSampo Event Model




IC 2009: Vendredi 29 Mai 2009   32
Framenet Event Model




IC 2009: Vendredi 29 Mai 2009   33
Motools Event Model




IC 2009: Vendredi 29 Mai 2009   34
Towards an Linked Events Model?




IC 2009: Vendredi 29 Mai 2009      35
IC 2009: Vendredi 29 Mai 2009   36
IC 2009: Vendredi 29 Mai 2009   37
IC 2009: Vendredi 29 Mai 2009   38
Conclusion
• Une méthodologie en 4 étapes pour construire une
  infrastructure sémantique pour les actualités
    – UML-2-...
Perspectives
• Modélisation                     •Interfaces utilisateurs
    – un modèle centré                 –Yahoo! Se...
Remerciements
 • Données:

 • Equipe:




 • Plus d'info:           http://newsml.cwi.nl

IC 2009: Vendredi 29 Mai 2009   ...
Upcoming SlideShare
Loading in...5
×

Explorer des actualités multimédia dans le Web de données

632

Published on

Présentation de Raphaël Troncy à la conférence IC 2009

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
632
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Explorer des actualités multimédia dans le Web de données"

  1. 1. Explorer des actualités multimédia dans le web de données Raphaël Troncy, <Raphael.Troncy@cwi.nl> CWI, Interactive Information Access IC 2009: Vendredi 29 Mai 2009 1
  2. 2. • Search Paradigm : mots clés, liens vers des ressources, pertinence • Assistant Paradigm : expression d'un besoin, explorer des options, faire un choix, complétion de la tâche IC 2009: Vendredi 29 Mai 2009 2
  3. 3. IC 2009: Vendredi 29 Mai 2009 3
  4. 4. IC 2009: Vendredi 29 Mai 2009 4
  5. 5. IC 2009: Vendredi 29 Mai 2009 5
  6. 6. IC 2009: Vendredi 29 Mai 2009 6
  7. 7. IC 2009: Vendredi 29 Mai 2009 7
  8. 8. Information Overload IC 2009: Vendredi 29 Mai 2009 8
  9. 9. Workflow des actualités: un problème d'interopérabilité • Pas d'intégration des médias (dépêche, photo, vidéo, μ-blog) • Peu (ou pas) de contexte dans la présentation • Problèmes d'interopérabilités Schéma NAR Schéma diffuseur Vocabulaire NewsCodes Vocabulaires contrôlés utilisateur IC 2009: Vendredi 29 Mai 2009 9
  10. 10. Représenter pour présenter • Objectif (à long terme) : – Fournir un environnement pour chercher et naviguer des actualités multimédia contextualisées • Requiert l'intégration des : – Données : pluri media, différente forme, sources variées – Métadonnées : intégration, alignement de schémas • Influence et implications des interfaces: – Comment représenter sémantiquement des métadonnées pour le multimédia pour faciliter la présentation des informations ? – en d'autres mots ... quelles contraintes les interfaces utilisateurs posent sur la modélisation des métadonnées ? IC 2009: Vendredi 29 Mai 2009 10
  11. 11. Formats pour les actualités et le multimédia NewsML G2 EventsML G2 SportsML G2 News Architecture IC 2009: Vendredi 29 Mai 2009 11
  12. 12. Construire des ontologies et des schémas pour le Web Sémantique • Méthodologies et outils pour construire des ontologies: – à partir de corpus de texte, de schémas relationnels • ʺSKOS-ificationʺ de thésaurus dans le domaine patrimonial: – préparation, conversion syntactique et sémantique, standardisation Manque de guides de bonnes pratiques pour modéliser des ontologies à partir de UML, intégrer des ontologies avec de multiples thésaurus, tout en prenant les interfaces utilisateurs en compte IC 2009: Vendredi 29 Mai 2009 12
  13. 13. Construire une infrastructure sémantique pour les actualités 1 2 3 4 Modéliser l'ontologie NAR La lier avec d'autres ontologies Obtenir des thésaurus SKOS Enrichir les métadonnées IC 2009: Vendredi 29 Mai 2009 13
  14. 14. Etape 1: Modéliser l'ontologie NAR Text Text Person Person Photo Photo Organisation Organisation Graphics ... Geopolitical Area Geopolitical Area Animation Person Point of Interest Point of Interest Audio Organisation Event Event Video …. … ... Composite Composite Composite met l'accent sur la réutilisation de types XML, ce qui entraîne des répétitions et des structures XML imbriquées trop complexes IC 2009: Vendredi 29 Mai 2009 14
  15. 15. Etape 1: Modéliser l'ontologie NAR • Aplatir la structure XML NewsItem PhotoNewsItem IC 2009: Vendredi 29 Mai 2009 15
  16. 16. Etape 1: Modéliser l'ontologie NAR • Avoir des identifiants uniques – Utilisation d'URI déréférençable pour n'importe quelle ressource (les items d'actualités et le vocabulaire) – Utilisation d'URI pour tout type de fragment http://www.youtube.com/watch?v=1bibCui3lFM#t=1m45s • Modéliser la provenance des informations – Réification RDF: les triplets réifiés ne sont pas assertés – Graphes nommés {<> nar:subject cat:11002000} dc:creator team:md ; dc:modified ‘‘2005-11-11T08:00:00Z’’. IC 2009: Vendredi 29 Mai 2009 16
  17. 17. Etape 2: Lier avec d'autres ontologies dc:Subject ≈ nar:Subject foaf:Person ≈ nar:Person sioc:Item ≈ + nar:Item geo:lat geo:long IC 2009: Vendredi 29 Mai 2009 17
  18. 18. Etape 3: Obtenir des thésaurus SKOS IC 2009: Vendredi 29 Mai 2009 18
  19. 19. Etape 3: Obtenir des thésaurus SKOS IC 2009: Vendredi 29 Mai 2009 19
  20. 20. Etape 4: Enrichir les métadonnées • Concepts/Entités qui sont le sujet des actualités – Thèmes – Personne / Organisation – Géopolitiques – Points d'intérêt – Evénements – Produits et artefacts IC 2009: Vendredi 29 Mai 2009 20
  21. 21. Etape 4: Enrichir les métadonnées Reconnaissance d'entités nommées Ontologies de domaine Ontologie NAR NewsCodes Thésaurus IC 2009: Vendredi 29 Mai 2009 21
  22. 22. Etape 4: Enrichir les métadonnées Détection de Concepts Ontologies de domaine Ontologie NAR NewsCodes Thésaurus IC 2009: Vendredi 29 Mai 2009 22
  23. 23. Disambiguation • IdentityRank – Ij: entité nommée j de l'item I – lambda: normalisation, – Ci: ensemble des instances candidates co-occurrent avec i, – alphaij: poids entre i et j – E: personnalisation, cohérence sémantique du corpus • Calcul du poids alpha: – fij: fréquence de co-occurence entre i et j IC 2009: Vendredi 29 Mai 2009 23
  24. 24. Le Web de données wp:2006_FIFA_Wolrd_Cup#Final nc:15054000 nar:subject events:id nar:location foaf:depicts geonames:2950159 dbpedia:Zidane IC 2009: Vendredi 29 Mai 2009 24
  25. 25. Semantic Search of Multimedia News Description Nombre de triplets RDF General Ontologies: NAR, DC, FOAF 7,336 Domain Specific Ontologies: football 104,358 Thesauri: newscodes 34,903 DBpedia, Geonames 53,468 AFP News Feed (June/July 2006) 804,446 AFP Photos (June/July 2006) 61,311 a P atri INA Broadcast Video (June/July 2006) Cl io 1,932 by r ed lpha 3 Total P owe 1.0 a 1,067,754 IC 2009: Vendredi 29 Mai 2009 25
  26. 26. IC 2009: Vendredi 29 Mai 2009 26
  27. 27. IC 2009: Vendredi 29 Mai 2009 27
  28. 28. IC 2009: Vendredi 29 Mai 2009 28
  29. 29. Présenter les actualités • Dimensions utilisées pour naviguer dans une base de dépêches d'actualités – When time 10/07/2006 – Where location Paris Metadata – What is depicted J. Chirac, Z. Zidane – Why event WC 2006 – Who photographer Bertrand Guay, AFP IC 2009: Vendredi 29 Mai 2009 29
  30. 30. ABC Event Model IC 2009: Vendredi 29 Mai 2009 30
  31. 31. CIDOC CRM Event Model IC 2009: Vendredi 29 Mai 2009 31
  32. 32. CultureSampo Event Model IC 2009: Vendredi 29 Mai 2009 32
  33. 33. Framenet Event Model IC 2009: Vendredi 29 Mai 2009 33
  34. 34. Motools Event Model IC 2009: Vendredi 29 Mai 2009 34
  35. 35. Towards an Linked Events Model? IC 2009: Vendredi 29 Mai 2009 35
  36. 36. IC 2009: Vendredi 29 Mai 2009 36
  37. 37. IC 2009: Vendredi 29 Mai 2009 37
  38. 38. IC 2009: Vendredi 29 Mai 2009 38
  39. 39. Conclusion • Une méthodologie en 4 étapes pour construire une infrastructure sémantique pour les actualités – UML-2-OWL: aplatir la structure XML, identifier toutes les ressources – SKOS-ifier les thésaurus existants et utiliser le Web de Données – Réutiliser ce qui existe ... et exposer ce que vous faites • Enrichir les métadonnées par l'analyse d'image et le traitement de la langue naturelle – Fournit de nouvelles dimensions (facettes) pour explorer les données IC 2009: Vendredi 29 Mai 2009 39
  40. 40. Perspectives • Modélisation •Interfaces utilisateurs – un modèle centré –Yahoo! Search BOSS évènement • Qualité des données – reconnaissance d'entités nommées (Calais), – désambigüisation – segmentation de vidéos, clustering visuel IC 2009: Vendredi 29 Mai 2009 40
  41. 41. Remerciements • Données: • Equipe: • Plus d'info: http://newsml.cwi.nl IC 2009: Vendredi 29 Mai 2009 41
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×