Opinion Mining : Etat de l'art et exemples d'applications
Upcoming SlideShare
Loading in...5
×
 

Opinion Mining : Etat de l'art et exemples d'applications

on

  • 2,933 views

Salon Documation/MIS : ...

Salon Documation/MIS :
Conférence Expert organisée par Lingway à l’occasion de la sortie de l’ouvrage de Dominique Boullier et Audrey Lohard « Opinion mining et sentiment analysis : méthodes et outils », premier opus de la nouvelle collection qu’ouvre le médialab de Sciences Po en freemium chez Open Edition Press www.openedition.org . Elle a pour objectif de présenter l’état de l’art en matière d’analyse de l’opinion et d’analyse de sentiment, ainsi que plusieurs exemples d’applications opérationnelles.

Statistics

Views

Total Views
2,933
Views on SlideShare
2,346
Embed Views
587

Actions

Likes
0
Downloads
42
Comments
0

1 Embed 587

http://blog.lingway.com 587

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Opinion Mining : Etat de l'art et exemples d'applications Opinion Mining : Etat de l'art et exemples d'applications Presentation Transcript

  • Opinion MiningEtat de l’art et exemples d’applications Documation / MIS 22 mars 2012 dominique.boullier@sciences-po.fr bernard.normier@lingway.comwww.lingway.com
  • > Qui sommes nous ?Une société spécialisée sur l’analyse des données textuelles Transformer une information non structurée en données utilisables par des logiciels Une centaine de clients dans différents domaines Une offre e-Reputation lancée il y a un peu plus d’un anUn laboratoire de Sciences-PO Spécialiste de la sociologie des nouveaux médias Ouvrage de Dominique Boullier et Audrey Lohard « opinion mining »Le projet iPinion 2010-2011 Avec Sciences-PO MEDIALAB et PIKKO Projet CAP DIGITAL, financement Ministère de l’ Industrie 2
  • e-Réputation: un enjeu incontournableSelon plusieurs études concordantes, en gros:Les 3/4 des français sont des internautesLes 3/4 des internautes consultent Internet avant d’acheter unproduitLa moitié des internautes consultent les avis des autres avantde choisir un produitL’analyse des opinions est au cœur de la e-réputation 3
  • Opinion mininget sentiment analysisMéthodes et outils Dominique Boullier et Audrey Lohard
  • Opinion Mininget Sentiment Analysis Dominique Boullier Et Audrey Lohard
  • Les SHS Sciences Humaines etSociales et l’opinion mining Traditions quantitatives: questionnaires et de sondages qualitatives: entretiens = des opinions provoquées et attribuées à des auteurs aux propriétés socio-démographiques prédéfinies Web des opinions spontanées dans une conversation sans auteur à identité fiable Mais des opinions quantifiables en masse et analysables en détail (qualiquantitatif) (Tarde): la sociologie devrait être la « science des conversations »
  • Un état de l’art académique Sources: TAL (NLP) Linguistique de corpus Text mining (Fouille de texte) Opinion mining (spécialisée web) Sentiment analysis (analyse de tonalité)
  • Les Défis Fouille de Textes (DEFT) 2005 : identification du locuteur dun discours. 2006 : segmentation thématique de textes. 2007 : détection de lopinion exprimée dans un texte, quatre corpus, deux à trois classes (positif, neutre, négatif) par corpus. 2008 : classification automatique de textes en genre et en thème. 2009 : Analyse multilingue dopinion 2010 : Étude de la variation diachronique et diatopique du français : identification de la période et du lieu de publication darticles de presse. 2011: la variation diachronique en corpus de presse et lappariement darticles scientifiques et de résumés.
  • État de l’art commercial Prérequis avant toute analyse de tonalité Sourcing (mots-clés ou bouquets) L’actuelle ruée sur Twitter, l’oubli des blogs Extraction Nettoyage Base de données des verbatims
  • Sourcing et influence Risques niveler tous les verbatims attribuer a priori un poids plus grand à certains émetteurs Théorie de l’influence Avec un indicateur « Médialab Influence Ranking » domaine par domaine
  • Rôle des experts Connaissance du domaine toujours requise Pour le sourcing Pour la structure de traitement de la base de données Pour le traitement Retour de pertinence Les solutions prétendument tout automatiques sont sans intérêt
  • Ce que l’on mesure en analyse detonalité n’est pas assez distingué Avis Jugement Évaluation Sentiment Goût Récits d’expérience
  • Méthodes Détection de phrases subjectives Dictionnaires de mots Niveau de l’analyse: n-grams vs document en fait le niveau de la phrase est le plus pertinent Analyseur syntaxique et sémantique nécessaires avec méthodes d’apprentissage (non statistiques)
  • Utilité et limites E-reputation? Oui mais sans la stratégie et au-delà pour la relation client Limites Non traitement des figures rhétoriques par exemple D’où limites pour les analyses politiques sur des thèmes Ok pour des produits/ services/ entités bien identifiées Veiller à pouvoir identifier Target and features
  • Des exemples de réalisation Basés sur la plateforme LINGWAY e-Reputation 16
  • Liste de sourceswww.xxx.com… Pages et messagesMOTS CLES Transformation en données structurées personnes, lieux, marques, thèmes, tonalités, avis, etc. Analyseurs sémantiques = Logiciels + dictionnaires Base de données de textes enrichis et structurés
  • Analyse du contenu: exemple sur un forum
  • Contenu analysé, structuré automatiquement
  • Exemple: suivi de médicaments 20
  • Exemple: Que se dit-il sur les médicaments dans les blogs etforums ? 21
  • Thèmes + et – associés aux benzodiazépines 22
  • Verbatims négatifs autour de l’angoisse« angoisse » est un élément du lexique marqué comme« Négatif » 23
  • Verbatims positifs autour de l’angoisseInversion de la tonalité: Exemples : La négation Certains verbes à tonalité positive 24
  • Les différents types d’extractionLes Entités nommées Entités nommées standard • Noms de personnes, de sociétés, de lieux • E-mails, téléphone, URLs, dates, evènements, N°siret, …Les Thèmes Thèmes contrôlés (catégorisation selon des thématiques prédéfinies) Thèmes libres ( qui ne sont pas préalablement connus)La Tonalité Identification d’une opinion, d’ un avis à l‘égard d’une personne, d’un produit, d’une société, d’une marque… 25
  • Extraction d’entités nommées standardSur la base de Lexiques de prénoms, noms de villes, régions, pays, sociétés Règles contextuelles : Marqueurs d’introduction de noms de personnes, de lieu ou d’organisation Exemples avec noms de personnes, d’organisations et de lieux 26
  • Extraction de thèmes puis de la tonalitéEn français 27
  • Types de tonalités dans les lexiquesTypes de tonalité utilisésdans les lexiques Type de Exemples d’entrées des lexiques de tonalité tonalité Négatif / positif / positif ambigu / négatif ambigu Positif Embellie, agréable, adorer, agréablement deux fonctions : Intensifieur et Modérateur qui influent Negatif Horreur, déplorable, détester, grandement sur la tonalité horriblement, en dépit de celle des mots qui leur sont proches. Positif ambigu rentabilitéMultilingue Anglais, Français, Espagnol Négatif coût ambigu Plusieurs autres langues en préparation sur la base des Modérateur Diminution, limiter, Peu dictionnaires Lingway Intensifieur Augmentation, progresser, impressionnant, manifestement 28
  • Importance de l’Analyse linguistiqueImportance analyse morpho-syntaxique : la tonalitéd’un mot peu dépendre de sa catégorie En français on distingue « bien » adjectif positif de « bien » adverbe intensifieur En anglais, lanalyse permet de distinguer le nom « good » qui est neutre, de ladjectif « good » qui est positif. 29
  • Analyse de la tonalité : Exemples FRTexte avec séquences analysées comme négativesTexte avec séquences analysées comme positives 30
  • L’analyse lnguistique de la phraseUne phrase comprend souvent plusieurs opinions qu’il fautsavoir identifier 31
  • Analyse de la tonalité : cas simples 32
  • Analyse de la tonalité : cas simples Négatif Exemples en français Exemples en anglais Exemples en espagnolLes mots encadrés sont à l’origine de 33tonalité de la séquence
  • Impact des intensifieurs (FR) Les intensifieurs permettent de révéler la tonalité d’un mot ambigu positif comme « rentabilité » séquence neutreséquences positives Mais aussi de renforcer celle de mots déjà positifs comme « efficace » 34
  • Impact des intensifieurs(EN) L’intensifieur « increase » révèle la tonalité positive de « benefit » séquence neutreséquence positive Exemple de renforcement de la tonalité sur un mot déjà négatif comme « disaster » 35
  • L’inversion de tonalitéNégation de verbes (ne pas, ne plus, …)Négations de noms (aucun, pas de, zéro) 36
  • L’inversion de tonalitéVerbes négatifs inversant la tonalité de leurscompléments et/ou sujet 37
  • L’inversion de tonalitéImpact des « modérateurs » 38
  • Exemples avec plusieurs inversionsVerbe modérateur à la forme négativeDouble négation de verbe 39
  • En conclusionLes technologies duTAL sontindispensables2 cas d’utilisationSans révision Même si l’analyse automatique ne marche pas à 100%, les résultats sont globalement significatifsAvec révision 3 à 5 fois plus rapide que sans ce type d’outil d’aide à la lecture 40
  • Quelques casConstructeur automobile Suivi des critiques de la marque, community managementMarques de grandes consommation Suivi des opinions sur les « valeurs » mises en avant Environnement, Ethique, Qualité… Base de données de suivi permanent des marquesAssurances Analyse des remontées sur les réseaux sociauxTelecoms Suivi du lancement de nouvelles offresAdministration Veille « sujets sensibles » 41
  • MERCI…bernard.normier@lingway.comdominique.boullier@sciences-po.fr 42