Yves Simon – Social Computing - autour du web sémantique




       Le web sémantique, infrastructure du social média
    ...
Yves Simon – Social Computing - autour du web sémantique

Constats :

« Dans le vieux monde des grand medias traditionnels...
Yves Simon – Social Computing - autour du web sémantique

    ƒ    La première est le sentiment de superposition des usage...
Yves Simon – Social Computing - autour du web sémantique




                      Figure 1 : L'explosion du volume de don...
Yves Simon – Social Computing - autour du web sémantique



Le Social Web : la prise en compte des besoins d’une multitude...
Yves Simon – Social Computing - autour du web sémantique

Le web sémantique, c’est quoi ?

Le web sémantique, c'est l’évol...
Yves Simon – Social Computing - autour du web sémantique




L’opportunité réside dans le graphe sémantique et sa capacité...
Yves Simon – Social Computing - autour du web sémantique




                                Figure 4 : Vers un web plus i...
Yves Simon – Social Computing - autour du web sémantique

2/ Statistiques / calculs d'occurences et de cooccurences pour d...
Yves Simon – Social Computing - autour du web sémantique




En pratique les approches hybrides associant différentes tech...
Yves Simon – Social Computing - autour du web sémantique




RDF/OWL ne sont pas les seules façons de générer un web séman...
Yves Simon – Social Computing - autour du web sémantique

Pourquoi cela a t il prit autant de temps ?

   ƒ La vision orig...
Yves Simon – Social Computing - autour du web sémantique



Agenda :

2007 - 2009 : Early Adoption
2010 - 2020 : Adoption ...
Upcoming SlideShare
Loading in...5
×

Introduction au web sémantique librement adaptée de Nova Spivack

2,414

Published on

A propos du social media ...

Published in: Education
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,414
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
87
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Transcript of "Introduction au web sémantique librement adaptée de Nova Spivack"

  1. 1. Yves Simon – Social Computing - autour du web sémantique Le web sémantique, infrastructure du social média Du web 2.0 au web 4.0 D’après : « Making sense of the semantic web » Nova Spivack, CEO & fondateur de Radar Networks (Twine) http://www.mindingtheplanet.net Autres lectures …. Contact : yves(at)social-computing.com Décembre 2007 – page 1
  2. 2. Yves Simon – Social Computing - autour du web sémantique Constats : « Dans le vieux monde des grand medias traditionnels, les actualités sont des produits vendus aux consommateurs - ou aux entreprises qui essaient de joindre ces consommateurs. Dans le nouveau monde des medias sociaux et interactifs, ces mêmes actualités deviennent une matière brute que les utilisateurs assemblent pour formuler leur point de vue personnel, et republient pour exprimer leur perspective à leurs amis, familles, collègues et communautés virtuelles. C’est donc un matériel de réflexion avec lequel on construit sa propre ‘worldview’, plutôt qu’un produit fini qu’on consomme sans penser. » - Fabrice Florin, fondateur et directeur exécutif de NewsTrust 2007 - « L'offre média actuelle est surabondante dans tous les domaines (TV, presse, mobiles, Internet…) ; c’est le client qui devient la ressource rare et cela transforme les mécanismes de fidélisation ! Ensuite, les modes de consommation se fragmentent (délinéarisation en TV, catch-up TV) : le consommateur papillonne désormais sur différents supports et médias dans une logique en rupture avec celle des grands rendez-vous médias d’antan. Enfin, on voit une migration des consommateurs vers de nouveaux écrans : 90 % des Français ont un mobile, 40 % ont un lecteur MP3… 10 millions de Français surfent sur Internet avec leurs téléphones mobiles… On observe aussi que le poids d’Internet dans ces évolutions est absolument majeur : Internet représente aujourd’hui 7 % du marché publicitaire mondial ; la croissance des dépenses publicitaires sur Internet a été de + 40 % par an depuis 2003 (contre 2 à 3 % pour les autres supports). Tout cela interpelle les acteurs médias traditionnels ! Et cela pose des questions absolument fondamentales en matière de conquête et de fidélisation de l’audience. Je vois donc dans le développement de ce Web 2.0 communautaire quelque chose que les médias traditionnels doivent absolument prendre en compte dans leur logique de fidélisation de l’audience. Il y a une force propagatrice absolument incroyable du Web 2.0 : elle va forcément multiplier les communautés et celles-ci vont créer leurs propres contenus. » - Dominique Gautier, Partner, Roland Berger Strategy Consultants (conf. Futur des médias Décembre 2007) - « On est confronté à une forme de paradoxe dans l’évolution des usages. D’un côté on observe un développement exponentiel des nouveaux usages, et, de l’autre, on constate la difficulté des industriels à mesurer et à extrapoler l’impact de ces nouveaux usages sur les marchés de demain. Il y a trois raisons à ce paradoxe. ƒ La première est la raison du temps. L’innovation est très rapide et la prise de recul est impossible. ƒ La deuxième est qu’il est difficile d’isoler ces usages. On ne peut donc donner des chiffres sur chacun de ces usages, pris isolément. ƒ La troisième raison est que les marchés sont tirés autant par les consommateurs eux-mêmes que par les marqueteurs. On continue à baigner dans le syndrome du SMS, avec des jeunes générations qui créent leurs propres règles. Trois caractéristiques me paraissent cependant assez fortes concernant les nouveaux usages. Décembre 2007 – page 2
  3. 3. Yves Simon – Social Computing - autour du web sémantique ƒ La première est le sentiment de superposition des usages et des technologies. La demande sur les consoles de jeu et sur l’iPhone démontre cette boulimie de technologies, à laquelle vont s’adjoindre les nouveaux usages. ƒ La seconde caractéristique est l’extension du numérique à tous les domaines, photo ou musique, avec une mobilité quasi addictive. La mobilité est devenue un droit, une nécessité ! ƒ La troisième caractéristique tient aux contenus. Ils sont de plus en plus segmentaires, s’adressant à des niches. Les grands médias traditionnels sont obligés d’intégrer dans leur stratégie cette démarche dite de « long tail ». Quelques chiffres pour éclairer ces trois idées : ƒ Les utilisateurs consomment plusieurs médias à la fois pour 30 % d’entre eux. ƒ Pour les 15-24 ans, ce taux passe à 60 ou 70 %. ƒ Huit internautes sur dix déclarent consommer des contenus convergents. ƒ FaceBook enregistre 250 000 nouveaux abonnés par jour dans le monde. ƒ Il y a un milliard de recherches par jour sur Google dans le monde et 90 millions en France. A coté de cela, il y a des comportements surprenants qui perdurent : 13 à 15 millions de magazines télé sont vendus chaque semaine. Le temps d’écoute devant la télé ne bouge pas. Le modèle est donc moins homogène qu’avant, avec une difficulté à isoler les usages et à les analyser. » Nicolas Teisseyre, Senior Partner, Roland Berger Strategy Consultants (conf. Futur des médias Décembre 2007) - Le social média c'est discuter avec le public, pas lui parler. « Notre démarche a été de créer un site gratuit d’infos qui ne soit pas adossé à un groupe industriel ou financier existant. Nous avons ensuite effectué un double pari rédactionnel et économique. Le pari rédactionnel était d’associer le journaliste professionnel à la culture participative d’Internet. Pour gagner ce pari, nous avons estimé qu’il valait mieux partir d’une page blanche plutôt que de rester dans une structure traditionnelle (Libération). Le pari économique concerne deux facettes. D’abord, on est parti délibérément sans investisseurs, avec des amis et nos familles. Puis, on a choisi tout de suite un modèle gratuit car nous voulons être un média participatif. Nous avons en effet l’ambition de construire une communauté sans barrières autour du site. Les recettes publicitaires sont au rendez-vous et elles compensent depuis novembre nos coûts qui sont cependant artificiellement très bas (les fondateurs ne se payent pas ; les salaires sont très bas). Après 7 mois d’existence, c’est pas mal ! Par ailleurs, nous développons des activités de prestations de services (sites clés en main). Nous visons à terme un CA constitué de 70 % de recettes publicitaires et de 30 % de prestations de services. Une 3ème source de revenus apparaît d’une façon inattendue : la ventes de nos contenus aux TV ; on va voir comment cela va évoluer. Même si nous ne vendons pas nos infos aux internautes, nous devons justifier notre démarche ; c’est pourquoi notre contenu est à très forte valeur ajoutée ; notre modèle est basé là-dessus et il est validé après quelques mois d’existence. » - Pierre Haski Président et Directeur de la publication, Rue 89 (conf. Futur des médias Décembre 2007) Les applications web de type MySpace, Youtube, Wikipédia, Amazon deviennent de véritables lieux de socialisation et d'agrégation de contenus permettant d'appréhender au mieux leurs contextes. Effectivement, les lecteurs parlent aux lecteurs, partagent leurs avis, recommandations, mots clés, videos, images, sons relatifs aux contenus et développent donc tout autant de métadonnées parfois plus parlantes que les données elle-mêmes et nécessitant des traitements pointus d'indexation et de normalisation pour leur bonne restitution et donc leur bon usage. Nous avons besoin de trouver le plus rapidement possible la bonne information à travers des silos d'informations volumineux sur le web, dans nos systèmes d'informations et nos organisations. De multiples silos d'informations sont aujourd’hui disponibles pour chaque sujet que nous devons traiter. Décembre 2007 – page 3
  4. 4. Yves Simon – Social Computing - autour du web sémantique Figure 1 : L'explosion du volume de données accessibles Les technologies de l'information doivent nous proposer de nouveaux espaces de découvertes. Découvertes de personnes à travers des informations (données, centres d'intérêts ...) qui nous relient à elles et création / découvertes d'informations par l'exploitation des écarts entre "patrimoines informationnels" (Users Generated Contents UGC). Les deux grands principes d’un modèle de longue traîne sont (selon Chris Anderson): ƒ Rendre tout disponible ƒ Aider le client à trouver ce qu’il cherche Mais actuellement, le principe même des Réseaux sociaux, fait que le deuxième principe est rarement appliqué ; ou moyennant paiement. Associés à ces principes, six règles de fonctionnement : ƒ Faire le plus possible travailler les utilisateurs ƒ Oublier que les produits sont figés et ont un prix unique ƒ Accepter la gratuité comme coût de commercialisation ƒ Posséder un inventaire large de produits ou de fonctionnalités ƒ Développer une vraie notoriété professionnelle ƒ S’affranchir de la barrière linguistique Décembre 2007 – page 4
  5. 5. Yves Simon – Social Computing - autour du web sémantique Le Social Web : la prise en compte des besoins d’une multitude de communautés dynamiques : 7ième tendance IDC 2008, une année de rupture : « A moins de vivre dans un monastère tibétain, vous n'avez pu que constater le développement rapide des réseaux sociaux, de MySpace à YouTube en passant par Digg et Wikipedia. Ce phénomène va entraîner une avalanche de données à quelque 400 milliards de Go (contre 225 milliards en 2007). Toutefois, plutôt que d'aider les entreprises et les particuliers à découvrir la sagesse des foules (Wisdom of crowds), IDC pense que cette explosion de données non structurées va plutôt engendrer une sorte de cacophonie. Pour donner du sens à ce déluge d'informations, de nouveaux logiciels devraient voir le jour en 2008. IDC met toutes ces applications dans un domaine baptisé Eureka 2.0. Ces applications vont pouvoir extraire du sens de tonnes de textes, des impressions, des sentiments... tout cela entrant sous le concept de recherche sémantique. Ce type de logiciels devrait aider les entreprises à suivre les perceptions de marques, le niveau de satisfaction clients et faire éclore de nouvelles idées de produits. » Décembre 2007 – page 5
  6. 6. Yves Simon – Social Computing - autour du web sémantique Le web sémantique, c’est quoi ? Le web sémantique, c'est l’évolution du web (un ensemble de serveurs proposant de visualiser des pages web plus ou moins dynamiques associées à des services web) vers une gigantesque « base de données réparties» semi structurée. Ainsi la navigation sur le web passe du concept d’hypertextes à celui d’hyperdonnées, donc démultiplie les possibilités de relations (et donc de navigation et d'indications) entre "objets" du web, donc l'atomise, l'enrichit et l'approfondit considérablement. Le web sémantique, c'est, selon Nova Spivack, un web en "HD" / "haute résolution" qui permet des modes d'accès multiples (navigation à facettes) à des informations enrichies d'informations contextuelles multiples (métadonnées). Figure 2 : Visualisation d'un réseau d'informations de type RDF reliées entre elles à travers des liens typés Le concept du web sémantique n'a rien à voir avec la sémantique au sens large, c'est le nom donné pour qualifier les applications qui vont supporter les standards du W3C : RDF, OWL, SPARKLE, SWRL, GRDDL mais aussi certains standards de représentation d'informations comme HR-XML, FOAF, Open ID qui avancent vers la maturité et deviendront rapidement les normes de facto du web sémantique ... Les données ainsi créées pourront être facilement exploitées par différentes applications comme elles pourront provenir de multiples applications différentes comme Wikipedia, Amazon, Flickr, Delicious, Youtube, Dailymotion, Google Social, Linkedin, Facebook ... Décembre 2007 – page 6
  7. 7. Yves Simon – Social Computing - autour du web sémantique L’opportunité réside dans le graphe sémantique et sa capacité à rassembler différentes types d’informations comme les projets, les événements, les groupes, le multimédia, les documents, les pages web, les services, les produits, les emails, les personnes, les sociétés, les lieux, les centre d’intérêts, les activités, les news … Ce rassemblement d’informations structurées et non structurées va permettre de proposer des résultats de recherche d’informations plus pertinents, des publicités mieux ciblées, une gestion de projets plus efficace grâce à une collaboration plus étroite et un partage des informations plus fluide, des contenus plus riches, des recommandations plus fines et précises, etc … Figure 3 : Interrelations entre informations de nature différentes Les liens que l'on peut découvrir à travers l'analyse des données, des contenus et des contextes autour des informations et des personnes sont le socle relationnel sur lequel est basée l’intelligence d’une application du web sémantique (plateforme Twine entre autres). C’est aussi un socle primordial à une utilisation avérée des technologies de cartographie d’informations. Aussi, plus on augmente le taux de connection entre données par leur enrichissement (métadonnées) et leur organisation les unes par rapport aux autres (calculs de proximités, corrélations, définition de critères de pertinence, de contextualisation), plus on est capable de rapprocher automatiquement les contenus des utilisateurs. Décembre 2007 – page 7
  8. 8. Yves Simon – Social Computing - autour du web sémantique Figure 4 : Vers un web plus intelligent De cette façon, nous nous affranchissons progressivement de la recherche d'information traditionnelle par mots clés vers l'interaction (web 2.0 – Tagging – O term search), la recherche en language naturel et la recherche sémantique pour nous orienter vers une intelligence artificielle "hybride". Celle-ci est le fruit d'une véritable convergence de tendances générales exprimées par des experts reconnus dans des domaines spécifiques et d'algorithmes de choix basés sur la reconnaissance automatisée de données comme vos habitudes informationnelles et celles de votre entourage immédiat ... Beaucoup d'algorithmes existent aujourd'hui pour démultiplier les capacités d'accès à l'information des utilisateurs et des publications sur les principaux indicateurs liés aux contenus. Ces contenus sont devenus poléiformes et se répartissent selon des clés d'aggrégations évolutives, dynamiques qu'il convient de traiter au mieux pour correspondre aux attentes de personnalisation des utilisateurs. Enfin, la dynamique des communautés d'usages des nouvelles technologies nécessite des outils de mesure novateurs. Leur élaboration représente un champ de recherches considérable. Quand 40% des consommateurs américains s'attendent à ce que les sites de ecommerce leur proposent des promotions ciblées en fonction de leurs profils d'achats, il n'est plus possible de remettre en cause la pertinence des algorithmes de calculs de proximités et de corrélations. Aussi, la personnalisation progressive des résultats produits sur les applications sera possible grâce à une historisation exhaustive de l'usage de celles-ci (recherches, achats, commentaires, etc ...) qui devra permettre d'entretenir et de développer des liens de proximité avec les utilisateurs (alertes, interactions, reconnaissance et suggestions ...) mais aussi d'améliorer l'organisation des listes de résultats et les outils d'accès à ceux-ci. Il existe 5 niveaux dans l'approche sémantique : 1/ Social - Tagging - Folk/ production de mots clés qualifiant des contenus par des utilisateurs Facile à créer, utiliser, stocker, traiter (pas d'algorithmes, pas d'ontologies à maintenir ...), pas de technologies à mettre en oeuvre ... mais trop basique, comporte trop d’approximations pour être vraiment utile, manque d’outils de normalisation statistiques et linguistiques. Exemples Technorati, Del.icio.us, Flickr, Wikipedia Décembre 2007 – page 8
  9. 9. Yves Simon – Social Computing - autour du web sémantique 2/ Statistiques / calculs d'occurences et de cooccurences pour définir les mots clés qualifiant des contenus non structurés automatiquement Algorithmes purement mathématiques, statistiques, capables de fonctionner sur de larges échelles, indépendant du language, produit rapidement des agrégats et des indicateurs ... Pas de compréhension du contenu, tributaire des volumes sans permettre de trouver finement ce qui est recherché. N'est pas adéquat pour les données structurées. Exemples : Google, Lucene, Autonomy 3/ Linguistiques / extraction d'entités nommées la plus fine possible Détection de la langue, extraction d'entités, mise en correspondance à travers des tables de synonymes, listes de résultats en relation précise avec les requêtes des utilisateurs. Demande des ressources machines plus importantes, plus difficile à monter en charge, beaucoup d'erreurs résident, demande un effort et une maintenance lourds pour chaque langue traitée. Exemples : Inxight, Attensity, Powerset, Hakia ... 4/ Web sémantique / mise en relation de contenus à travers des descripteurs et des usages convergents Positionnement de RadarNetworks, DBpedia Project, Metaweb Requêtes plus précises, applications bien développées, rapidement. Ne requiert pas trop de ressources machines ???, fonctionne pour les données structurées et non structurées. Interopérable entre plusieurs applications (API). Peu d'outils, difficile de monter en charge, qui crée les métadonnées ? 5/ Intelligence Artificielle / réutilisation de l'ensemble des approches précédentes pour que l'application interagisse intelligemment et de façon évolutive avec ses utilisateurs ... Fonctionne bien dans des domaines restreints, répond correctement aux questions, raisonne et apprend ... Demande des ressources machines importantes, difficultés à monter en charge, difficile à programmer et à universaliser, l'apprentissage demande beaucoup de travail. Exemple de société : Cycorp ? Il y a deux façons de "pousser" le web vers un web sémantique : Bottom-Up : ajouter des métadonnées sémantiques aux pages et aux contenus des bases de données. Cela implique que chaque site web fasse la démarche de "sémantiser" son contenu, donc d'apprendre RDF et OWL ... Top-Down : génération automatique de métadonnées sémantiques par domaines verticaux donc créer des services (applications web) qui vont faire la moulinette entre le web non- sémantique et le web sémantique. Dans ce cas, personne n'a plus besoin d'apprendre le RDF et l'OWL ... ref : Alex Iskold Décembre 2007 – page 9
  10. 10. Yves Simon – Social Computing - autour du web sémantique En pratique les approches hybrides associant différentes techniques fonctionnent mieux. Le web sémantique est un facilitateur : Par l'association directe de l'intelligence (métadonnées) aux données plutôt qu'à travers des applications ... Les données se suffisent alors à elles même, les éléments de compréhension (contextualisation) des données font partie des données. Les applications peuvent concentrer leurs fonctionnalités sur de nouveaux usages, autour de données plus faciles à prendre en compte. Les données peuvent être partagées et liées les unes aux autres plus facilement. L'alliance de différentes technologies (type moteur de recherche) permettant la mise en oeuvre de fonctionnalités étendues valorise fortement les contenus par leur enrichissement et en facilite l'accès sous différentes facettes donc en augmente l'usage à nombre d'utilisateurs constants (et donc le temps d'audience et le stock de pages disponibles pour des annonceurs). Les standards du web sémantique : RDF : Resources Description Framework : un méta-langage spécialisé dans les méta données qui permet d'associer un objet à un autre objet à travers un lien logique décrit. OWL : Web Ontology Language : langage informatique utilisé pour modéliser des ontologies, ensemble de concepts et connaissances Sparql : permet d'exprimer des requêtes interrogatives ou constructives adaptées à la structure spécifique des graphes RDF. Plus sophistiqué que le SQL SWRL : Semantic Web Rule Language (OWK + RuleML). Permet de décrire des natures de relations déduites entre "objets" ... Cette personne ayant un père ayant un frère dispose donc d'un oncle ... GRDDL : Gleaning Resource Descriptions from Dialects of Languages. Permet de transformer des données en provenance de différentes sources (ex. microformats) en RDF pour les assembler et les réutiliser dans un autre cadre (hybrider - mashup) ... Voir : http://www.yoyodesign.org/doc/w3c/grddl-primer/ Le web sémantique est le concept de données autodécrites et liées entre elles Fusionner des bases de données en RDF est simple, le web devient une base de données dynamique ... Décembre 2007 – page 10
  11. 11. Yves Simon – Social Computing - autour du web sémantique RDF/OWL ne sont pas les seules façons de générer un web sémantique, d'autres voies sont ouvertes grâce aux fils de tags, aux plans de classements, aux tésaurus, aux microformats, aux entités nommées, à des modes de représentation de métadonnées alternatifs. Existe t il un web sémantique ou plusieurs ? La réponse est ... les deux ... Le web sémantique est un web de webs sémantiques, chacun de nous peut avoir son propre web sémantique … Décembre 2007 – page 11
  12. 12. Yves Simon – Social Computing - autour du web sémantique Pourquoi cela a t il prit autant de temps ? ƒ La vision originelle était trop orientée « Intelligence Artificielle » ƒ Les technologies et les outils n’étaient pas encore matures (capacités de traitements, stockages, enrichissement, restitution, réutilisation …) ƒ Le besoin de données utilisables par différentes applications sur le web n'était pas clairement identifié ... ƒ La recherche par mots clés et l'organisation par tags étaient suffisants ... dans le contexte d’une application, pas d’un web d’applications … ƒ Les utilisateurs n’ont pas idée de la qualité des traitements que les technologies peuvent proposer et donc de la qualité potentielle des applications de demain … ƒ Beaucoup d'incompréhensions à clarifier ... Passer le guet (crossing the Chasm) : ƒ Communiquer sur l'interopérabilité des données, pas sur l'intelligence artificielle ƒ L'évangélisation du marché passe par une bonne communication sur l'intérêt d'utiliser ces standards. ƒ Les standards et les technologies arrivent à maturité ƒ Les besoins des utilisateurs évoluent, leurs attentes vont de plus en plus vers des applications capables de leur fournir des résultats sans qu'ils aient besoin de rentrer des mots clé ou des tags à nouveau. Les services web doivent rendre leurs données accessibles aux autres applications dans le format le plus universel possible. ƒ Beaucoup d'entreprises commencent à générer des données enrichies. Il y aura bientôt beaucoup de données de ce type à disposition ! Décembre 2007 – page 12
  13. 13. Yves Simon – Social Computing - autour du web sémantique Agenda : 2007 - 2009 : Early Adoption 2010 - 2020 : Adoption de masse 2020 - + : Nouveau cycle ... Le futur du web : 1980 : l'ordinateur individuel est la plate forme 1990 : le navigateur devient la plate forme 2000 : le web est la plate forme 2010 : la toile est la plate forme 2020 : le réseau est la plate forme 2030 : le corps humain est la plate forme ? Figure 5 : de l'ère des PC au Web 4.0 ... Décembre 2007 – page 13

×