2. 2#seocamp
Marguerite Leenhardt
PhD Linguistique & TAL, MSc. IL & MSc. IM
CEO & co-founder @ XIKO
Présidente & co-founder @ AFTAL
Girlz in Web & Les Expertes du Numérique
Concours Mondial de l’Innovation (Big Data), Prix Syntec Etudes “Idées pour le Futur”
3. 3#seocamp
Search : une application de fouille de textes qui
intègre des techniques de Traitement
Automatique des Langues (Natural Language
Processing)
Contenu
Comprendre l’intention de recherche
L’usage et l’attente des utilisateurs finaux a
changé : vers le Natural Language Search
Développer des fonctionnalités intelligentes
pour le moteur de recherche
TAL & search
TAL & SEO : points communs, parcours liés
tous crédits photos: pexels.com
5. 5#seocamp
▪ Apprentissage machine (machine learning)
○ par opposition à l’approche procédurale (règles de
classification prédéfinies manuellement)
Focus Word Embeddings
Apprentissage machine pour le TAL : exemple d’une innovation actuelle
6. 6#seocamp
▪ Apprentissage machine (machine learning)
○ apprendre à une machine à opérer une classification en
identifiant un objet en fonction de ses caractéristiques
(features)
Focus Word Embeddings
Apprentissage machine pour le TAL : exemple d’une innovation actuelle
D’après Bird et al. 2009, Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python. O'Reilly.
7. 7#seocamp
▪ Apprentissage machine (machine learning)
○ modèles
■ symboliques (ex: arbres de décision)
■ bayésiens (ex: bayésien naïf)
■ régression (ex: entropie maximale)
■ géométriques (ex: SVM, Support Vector Machines)
■ modèles neuronaux
Focus Word Embeddings
Apprentissage machine pour le TAL : exemple d’une innovation actuelle
8. 8#seocamp
▪ Modèles neuronaux et analyse distributionnelle
○ le but : apprendre à une machine à analyser le sens par les
propriétés distributionnelles des unités textuelles
○ le moyen : le prolongement de la représentation
■ représentation des unités textuelles et de leurs contextes dans
le même espace vectoriel (= couche cachée embarque les
pondérations de chacun des éléments de contexte associé à chaque unité textuelle)
○ le résultat : les unités textuelles qui ont des contextes
similaires sont rapprochées (et c’est différent du tf-idf qui dépend du document!)
Focus Word Embeddings
Apprentissage machine pour le TAL : exemple d’une innovation actuelle
9. 9#seocamp
▪ Modèles neuronaux et analyse distributionnelle
○ les algos et les représentations des unités textuelles
■ word2vec : vecteurs appris sur les mots
■ fastText : vecteurs appris sur les n-gram composant le mot
en plus d’être appris sur les mots
■ gloVe : vecteurs appris avec les co-occurrences statistiques
○ les avantages : représentations, données d’apprentissage
○ les écueils : passage à l’échelle, biais
Focus Word Embeddings
Apprentissage machine pour le TAL : exemple d’une innovation actuelle
11. 11#seocamp
La recherche vocale devient le nouveau terrain de jeu des marques qui ont de fortes attentes
envers le search. C’est aussi un levier de croissance majeur pour l’ensemble du marché SEO.
Focus Vocal Apps
Au-delà du texte : les applications conversationnelles
La prospective est positive, les chiffres Comscore
prévoient que la moitié des requêtes seront
dites en 2020 (chiffres 2016).
50% en 2020
12. 12#seocamp
Focus Vocal Apps
Au-delà du texte : les applications conversationnelles
Des progrès conséquents en text-to-speech
(synthèse vocale) et speech-to-text (analyse de
l’oral) rendent accessibles les composants.
Les améliorations
Une adoption croissante côté utilisateurs mène
certains à prédire que, d’ici 10 ans, les interfaces
qui ne seront pas vocales seront une curiosité.
(Embracing the Voice Revolution, Google team keynote,
Smart Voice Summit)
Les attentes
Des essais et expérimentations dans tous les
secteurs, côté transactionnel (e.g. retail,
transports) et contenus (branding).
Les chantiers
La qualité de l’interaction et la gestion du
multilinguisme sont les principaux écueils
immédiats.
Les problèmes
13. 13#seocamp
Opportunité pour le SEO
La démocratisation des interfaces vocales
pour délivrer des expériences de contenus
et de services est un premier pas vers le
SEO multimodal
Focus Vocal Apps
Au-delà du texte : les applications conversationnelles
Défis dans le contenu
Tous les défis actuels en analyse de
contenu (sémantique, multilinguisme,
qualité des résultats à l’échelle) prennent
de nouvelles dimensions
Défis dans le contexte
De nouveaux défis apparaissent (naturel
de la conversation, fusion des modalités
texte/son/image/temps/contexte,
conception de l’expérience multimodale)
14. 14#seocamp
Le texte et la voix ne sont pas les seules modalités
L’image et la vidéo, la situation physique et
numérique (géoloc., historiques) comme la
situation d’interaction homme-machine, posent
des défis spécifiques, par exemple :
- interfaçage et fusion des entrées
multimodales
- contextualisation des requêtes
- intelligence conversationnelle
Vers des standards du web multimodal :
- W3C Multimodal Interaction Working
Group
- Recherches appliquées au sein de
différentes communautés scientifiques
reliées par l’analyse des données
produites par et entourant l’humain
- Avec un focus sur le search multimodal
depuis 10 ans
16. 16#seocamp
▪ Interfaçage et fusion des entrées multimodales
○ le but : la formalisation du cadre
■ gérer des entrées hétérogènes
■ combiner des indices
○ le moyen : la fusion des résultats
■ combinaison des résultats
■ plusieurs moteurs (meta-search)
■ plusieurs entrées unimodales
○ le défi : la gestion des interférences
■ contextualiser les modalités
■ pondérer contextuellement
Focus Mutimodal
L’interaction dans toutes ses dimensions
D’après Kennedy et al. 2008, Kennedy, L., Chang, S-F., & Natsev, A. (2008). Query-Adaptive Fusion for Multimodal Search, Proceedings of the IEEE.
17. 17#seocamp
▪ Prédiction de la performance des requêtes
○ le but : la gestion des requêtes incomplètes ou bruitées
■ re-contextualiser
■ à partir des documents
○ le moyen : le prolongement de la représentation
■ segmentation de requête
■ mesure d’overlap des vecteurs
○ le défi : la rationalisation du flux
■ optimiser le pré-traitement des requêtes
■ évaluer la complexité pour adapter le workflow
Focus Mutimodal
L’interaction dans toutes ses dimensions
D’après Kennedy et al. 2008, Kennedy, L., Chang, S-F., & Natsev, A. (2008). Query-Adaptive Fusion for Multimodal Search, Proceedings of the IEEE.
18. 18#seocamp
▪ Redesign des principes d’interface
○ le but : adapter la conception à la multimodalité
■ répondre aux enjeux identifiés aujourd’hui
■ avoir un cadre pour penser ceux de demain
○ le moyen : l’expérimentation
■ associer les commandes uni / multi
■ ajouter la dimension gestuelle
■ préciser les différentes méthodes
○ le défi : la gestion des interactions
■ entre les composants
■ avec l’utilisateur et à l’échelle
Focus Mutimodal
L’interaction dans toutes ses dimensions
D’après Etzold et al. 2012, Etzold, J., Brousseau, A., Grimm, P. & Steiner, T. (2012). Context-aware Querying for Multimodal Search Engines, Google Germany.
19. 19#seocamp
Les défis seront à penser systématiquement en n-dimensions (principe de l’embedding
et du prolongement des représentations, fusion des modalités
texte/son/image/temps/contexte) : autant de compétences à intégrer et organiser
Les prochaines avancées dans la conception des dimensions viendront pour partie de
l’analyse automatique des interactions et des conversations, émergente en TAL
Multimodal = pluridisciplinarité + interaction