Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Les technologies TAL et le futur du SEO

2,434 views

Published on

Slides de la conférence de Marguerite Leenhardt lors du SEO Camp'us 2018

Published in: Internet
  • Be the first to comment

  • Be the first to like this

Les technologies TAL et le futur du SEO

  1. 1. 1#seocamp FUTUR DU SEO & TECHNOS DE TAL
  2. 2. 2#seocamp Marguerite Leenhardt PhD Linguistique & TAL, MSc. IL & MSc. IM CEO & co-founder @ XIKO Présidente & co-founder @ AFTAL Girlz in Web & Les Expertes du Numérique Concours Mondial de l’Innovation (Big Data), Prix Syntec Etudes “Idées pour le Futur”
  3. 3. 3#seocamp Search : une application de fouille de textes qui intègre des techniques de Traitement Automatique des Langues (Natural Language Processing) Contenu Comprendre l’intention de recherche L’usage et l’attente des utilisateurs finaux a changé : vers le Natural Language Search Développer des fonctionnalités intelligentes pour le moteur de recherche TAL & search TAL & SEO : points communs, parcours liés tous crédits photos: pexels.com
  4. 4. 4#seocamp QUOI de neuf ?
  5. 5. 5#seocamp ▪ Apprentissage machine (machine learning) ○ par opposition à l’approche procédurale (règles de classification prédéfinies manuellement) Focus Word Embeddings Apprentissage machine pour le TAL : exemple d’une innovation actuelle
  6. 6. 6#seocamp ▪ Apprentissage machine (machine learning) ○ apprendre à une machine à opérer une classification en identifiant un objet en fonction de ses caractéristiques (features) Focus Word Embeddings Apprentissage machine pour le TAL : exemple d’une innovation actuelle D’après Bird et al. 2009, Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python. O'Reilly.
  7. 7. 7#seocamp ▪ Apprentissage machine (machine learning) ○ modèles ■ symboliques (ex: arbres de décision) ■ bayésiens (ex: bayésien naïf) ■ régression (ex: entropie maximale) ■ géométriques (ex: SVM, Support Vector Machines) ■ modèles neuronaux Focus Word Embeddings Apprentissage machine pour le TAL : exemple d’une innovation actuelle
  8. 8. 8#seocamp ▪ Modèles neuronaux et analyse distributionnelle ○ le but : apprendre à une machine à analyser le sens par les propriétés distributionnelles des unités textuelles ○ le moyen : le prolongement de la représentation ■ représentation des unités textuelles et de leurs contextes dans le même espace vectoriel (= couche cachée embarque les pondérations de chacun des éléments de contexte associé à chaque unité textuelle) ○ le résultat : les unités textuelles qui ont des contextes similaires sont rapprochées (et c’est différent du tf-idf qui dépend du document!) Focus Word Embeddings Apprentissage machine pour le TAL : exemple d’une innovation actuelle
  9. 9. 9#seocamp ▪ Modèles neuronaux et analyse distributionnelle ○ les algos et les représentations des unités textuelles ■ word2vec : vecteurs appris sur les mots ■ fastText : vecteurs appris sur les n-gram composant le mot en plus d’être appris sur les mots ■ gloVe : vecteurs appris avec les co-occurrences statistiques ○ les avantages : représentations, données d’apprentissage ○ les écueils : passage à l’échelle, biais Focus Word Embeddings Apprentissage machine pour le TAL : exemple d’une innovation actuelle
  10. 10. 10#seocamp VOCAL vers le multimodal
  11. 11. 11#seocamp La recherche vocale devient le nouveau terrain de jeu des marques qui ont de fortes attentes envers le search. C’est aussi un levier de croissance majeur pour l’ensemble du marché SEO. Focus Vocal Apps Au-delà du texte : les applications conversationnelles La prospective est positive, les chiffres Comscore prévoient que la moitié des requêtes seront dites en 2020 (chiffres 2016). 50% en 2020
  12. 12. 12#seocamp Focus Vocal Apps Au-delà du texte : les applications conversationnelles Des progrès conséquents en text-to-speech (synthèse vocale) et speech-to-text (analyse de l’oral) rendent accessibles les composants. Les améliorations Une adoption croissante côté utilisateurs mène certains à prédire que, d’ici 10 ans, les interfaces qui ne seront pas vocales seront une curiosité. (Embracing the Voice Revolution, Google team keynote, Smart Voice Summit) Les attentes Des essais et expérimentations dans tous les secteurs, côté transactionnel (e.g. retail, transports) et contenus (branding). Les chantiers La qualité de l’interaction et la gestion du multilinguisme sont les principaux écueils immédiats. Les problèmes
  13. 13. 13#seocamp Opportunité pour le SEO La démocratisation des interfaces vocales pour délivrer des expériences de contenus et de services est un premier pas vers le SEO multimodal Focus Vocal Apps Au-delà du texte : les applications conversationnelles Défis dans le contenu Tous les défis actuels en analyse de contenu (sémantique, multilinguisme, qualité des résultats à l’échelle) prennent de nouvelles dimensions Défis dans le contexte De nouveaux défis apparaissent (naturel de la conversation, fusion des modalités texte/son/image/temps/contexte, conception de l’expérience multimodale)
  14. 14. 14#seocamp Le texte et la voix ne sont pas les seules modalités L’image et la vidéo, la situation physique et numérique (géoloc., historiques) comme la situation d’interaction homme-machine, posent des défis spécifiques, par exemple : - interfaçage et fusion des entrées multimodales - contextualisation des requêtes - intelligence conversationnelle Vers des standards du web multimodal : - W3C Multimodal Interaction Working Group - Recherches appliquées au sein de différentes communautés scientifiques reliées par l’analyse des données produites par et entourant l’humain - Avec un focus sur le search multimodal depuis 10 ans
  15. 15. 15#seocamp MULTImodal
  16. 16. 16#seocamp ▪ Interfaçage et fusion des entrées multimodales ○ le but : la formalisation du cadre ■ gérer des entrées hétérogènes ■ combiner des indices ○ le moyen : la fusion des résultats ■ combinaison des résultats ■ plusieurs moteurs (meta-search) ■ plusieurs entrées unimodales ○ le défi : la gestion des interférences ■ contextualiser les modalités ■ pondérer contextuellement Focus Mutimodal L’interaction dans toutes ses dimensions D’après Kennedy et al. 2008, Kennedy, L., Chang, S-F., & Natsev, A. (2008). Query-Adaptive Fusion for Multimodal Search, Proceedings of the IEEE.
  17. 17. 17#seocamp ▪ Prédiction de la performance des requêtes ○ le but : la gestion des requêtes incomplètes ou bruitées ■ re-contextualiser ■ à partir des documents ○ le moyen : le prolongement de la représentation ■ segmentation de requête ■ mesure d’overlap des vecteurs ○ le défi : la rationalisation du flux ■ optimiser le pré-traitement des requêtes ■ évaluer la complexité pour adapter le workflow Focus Mutimodal L’interaction dans toutes ses dimensions D’après Kennedy et al. 2008, Kennedy, L., Chang, S-F., & Natsev, A. (2008). Query-Adaptive Fusion for Multimodal Search, Proceedings of the IEEE.
  18. 18. 18#seocamp ▪ Redesign des principes d’interface ○ le but : adapter la conception à la multimodalité ■ répondre aux enjeux identifiés aujourd’hui ■ avoir un cadre pour penser ceux de demain ○ le moyen : l’expérimentation ■ associer les commandes uni / multi ■ ajouter la dimension gestuelle ■ préciser les différentes méthodes ○ le défi : la gestion des interactions ■ entre les composants ■ avec l’utilisateur et à l’échelle Focus Mutimodal L’interaction dans toutes ses dimensions D’après Etzold et al. 2012, Etzold, J., Brousseau, A., Grimm, P. & Steiner, T. (2012). Context-aware Querying for Multimodal Search Engines, Google Germany.
  19. 19. 19#seocamp Les défis seront à penser systématiquement en n-dimensions (principe de l’embedding et du prolongement des représentations, fusion des modalités texte/son/image/temps/contexte) : autant de compétences à intégrer et organiser Les prochaines avancées dans la conception des dimensions viendront pour partie de l’analyse automatique des interactions et des conversations, émergente en TAL Multimodal = pluridisciplinarité + interaction
  20. 20. 20#seocamp Question Mug ● Un algo de Word Embedding ● autre que word2vec ?
  21. 21. 21#seocamp MERCI AUX SPONSORS
  22. 22. 22#seocamp Merci à vous !Marguerite Leenhardt | @MyLinguistics

×