• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Text mining, sentiment analysis, big data.
 

Text mining, sentiment analysis, big data.

on

  • 735 views

A l’ère du digital et de la société de l’information nous conjuguons deux phénomènes auxquels les entreprises sont confrontées et doivent faire faces: le déluge informationnel « Big Data ...

A l’ère du digital et de la société de l’information nous conjuguons deux phénomènes auxquels les entreprises sont confrontées et doivent faire faces: le déluge informationnel « Big Data » et le déluge publicitaire que j’ai désigné par l’expression « Big Ads » dans un article précédent. Avec l’évolution du web 2.0 vers ce que l’on appelle désormais le web 3.0 ou web sémantique, on assiste à une explosion des données textuelles, données non structurées par excellence et qui soulèvent nombre de questions et de potentialités pour les entreprises qui ne peuvent en ignorer l’existence et les impacts sur leur écosystème : collaborateurs, fournisseurs, image de marque, notoriété, tous les composants du mix- marketing, concurrents, prospects et clients...

Statistics

Views

Total Views
735
Views on SlideShare
735
Embed Views
0

Actions

Likes
1
Downloads
24
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Text mining, sentiment analysis, big data. Text mining, sentiment analysis, big data. Document Transcript

    • 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 1 sur 8http://lecercle.lesechos.fr/print/69745 Publié sur Le Cercle Les Echos (http://lecercle.lesechos.fr) Text Mining, Sentiment Analysis, Big Data. Espaces vectoriels et sémantique distributionnelle… Introduction A l’ère du digital et de la société de l’information nous conjuguons deux phénomènes auxquels les entreprises sont confrontées et doivent faire faces: le déluge informationnel « Big Data » et le déluge publicitaire que j’ai désigné par l’expression « Big Ads » dans un article précédent. Avec l’évolution du web 2.0 vers ce que l’on appelle désormais le web 3.0 ou web sémantique, on assiste à une explosion des données textuelles, données non structurées par excellence et qui soulèvent nombre de questions et de potentialités pour les entreprises qui ne peuvent en ignorer l’existence et les impacts sur leur écosystème : collaborateurs, fournisseurs, image de marque, notoriété, tous les composants du mix- marketing, concurrents, prospects et clients… Le passage du Web 2.0 au Web 3.0 a eu pour conséquence de créer la diffusion d’une communication sociale sans limite dans l’espace et le temps, une conversation sociale ubiquitaire qui se traduit par l’émergence des plates-formes de blogging, d’espaces d’expression tels que les forums, les sites acceptant les commentaires, et surtout les échanges conversationnels via les réseaux sociaux tels que Facebook, Twitter, Foursquare, Linkedin, Viadeo, Pinterest, Slideshare pour former une réunion de moyen de communication sociale et pervasive (omniprésence) entre individus à distance et sans précédent. Tout ce contenu textuel généré par les internautes s’appelle « User Generated Content ». Ce nouvel espace d’expression représente une gigantesque manne et mine d’informations, notamment en termes d’avis, d’idées, de jugements, de commentaires, d’opinions susceptibles d’être exploitées à des fins diverses. Les données textuelles, notamment, peuvent être analysées dans différents buts. Par exemple, dans le domaine de la fouille d’opinion (Opinion Mining), les textes sont utilisées afin de permettre à des entreprises de connaître automatiquement l’image que les consommateurs ont de leur marque, de leurs produits, de leurs services, de leurs concurrents, d’un marché, de même pour les projets et les personnalités politiques, réaliser des sondages, détecter des rumeurs, anticiper des crises etc. En effet, les textes rédigés par les internautes sont en général plus subjectifs que les articles rédigés par des professionnels et sont donc beaucoup plus porteurs d’opinion. Dès lors, toutes les initiatives en matière de recherche d’information (Information Retrieval),
    • 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 2 sur 8http://lecercle.lesechos.fr/print/69745 d’indexation et d’analyse du langage automatisé via le web font appel à des techniques de plus en plus sophistiquées, mais qui reposent sur des bases algorithmiques souvent simples empruntées à la logique booléenne, aux statistiques et/ou à une approche probabiliste qui finalement en limite l’efficience. Nous verrons qu’il existe une voie inexploitée en France qui fait référence à l’algèbre linéaire et aux bons vieux espaces vectoriels : au recours à la fonction cosinus, aux produits scalaires et autres souvenirs en mathématiques que nos confrères américains n’ont pas manqués d’utiliser pour développer les Lucene, Yahoo !, Google ou encore Bing… Les technologies utilisées aujourd’hui en Text et Opinion Mining mais aussi en Search ont évoluées considérablement depuis 10 ans et font références aux dernières avancées en Intelligence Artificielle et en Linguistique Computationnelle pour permettre à de nouveaux acteurs du Web Semantic d’utiliser le modèle vectoriel dans la fouille, l’analyse et la clustérisation des data afin de contribuer au traitement du déluge informationnel (Big Data). Nous verrons notamment avec l’apparition de la Sémantique Distributionnelle (Distributional Semantic) l’utilisation de l’analyse sémantique fondée sur le modèle vectoriel se propose de réduire les dimensions de l’espace linguistique investigué, d’optimiser les calculs, d’affiner les résultats obtenus le tout par la maximisation des capacités computationnelles au service du sens, d’une meilleure interprétation des data textuelles (data non structurées)... 1/ Du Text Mining au Sentiment Analysis… La fouille d’opinion (Opinion Mining) est un sous-domaine de la fouille de textes (Text Mining) qui consiste à analyser des textes afin d’en extraire des informations liées aux opinions et aux sentiments (Sentiment Analysis). Le terme Opinion Mining apparaît dans un article de Dave en 2003 qui a été publié dans l’acte de conférence WWW 2003. Selon Dave, l’Opinion Mining devrait « traiter un ensemble de résultats de recherche pour un cas donné, générer une liste des attributs (qualité, caractéristiques, etc.) et agréger des avis sur chacun d’entre eux (mauvais, modéré, de bonne qualité) ». Toutefois, l’Opinion Mining a récemment été interprétée de manière plus générale pour inclure de nombreux types d’analyse d’évaluation de texte. Le terme « Analyse des Sentiments » est utilisé pour décrire l’analyse automatique de texte évaluatif et pour la recherche de valeur prédictive des jugements. Elle a été introduite dans les travaux de Das et Chen en 2001 afin d’analyser des sentiments dans le cadre de l’économie de marché. Depuis 2002, un nombre important d’articles citant l’Analyse des Sentiments ont vus le jour, ces travaux se concentrent sur la classification des commentaires et à leur polarité (positif ou négatif). Aujourd’hui, l’Opinion Mining et l’Analyse des Sentiments font partie du même domaine de recherche. L’une des tâches de la fouille d’opinion, appelée classification d’opinion et a pour objectif de classer les textes suivant l’opinion qu’ils expriment. Cette classification peut se faire sur deux classes (positif ou négatif), sur trois classes (positif, négatif ou neutre) ou sur plus de classes encore. Ces classes sont ordonnées et peuvent donc être assimilées à des notes. Ainsi, les internautes ont à leur disposition une tribune sans précédent, de portée et de puissance, permettant de partager leurs expériences et de marquer leur avis (positifs ou négatifs) sur n’importe quel sujet, sur n’importe quelle marque, sur n’importe quel produit ou service. Les entreprises peuvent répondre aux besoins des consommateurs en effectuant de la surveillance et de l’analyse des opinions pour améliorer leurs produits et leurs services. Malheureusement le risque de modification des opinions est important. De ce fait, il est nécessaire d’avoir un système capable d’analyser automatiquement les comportements généraux liés à la consommation, afin de mieux comprendre comment les différents produits et les services sont perçus par les clients. Un tel système devrait premièrement collecter les opinions des consommateurs et des utilisateurs dans des documents qui montrent les opinions et les phrases subjectives. Parfois, cela est relativement facile, comme dans les cas de grands sites où les opinions des utilisateurs sont bien structurées comme par exemple
    • 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 3 sur 8http://lecercle.lesechos.fr/print/69745 Amazon.com, Allociné.com. Le problème devient plus complexe dans le cas des blogs ou de sites à forte audience avec une grande partie dédiée au blogging tels que Doctissimo.com, Auféminin.com, pour n’en citer que deux et qui contiennent aussi bien des parties de texte de fonds rédigées par des journalistes professionnels et des parties plus subjectives, qui peuvent varier assez largement dans le contenu, le style, la présentation, la structure syntaxique et la grammaticalité. Il est très intéressant de travailler sur des commentaires venant des blogs car ils sont plus pertinents que sur les sites de vente, car plus détaillés, plus détachés de « l’opinion des autres » et de la modération supposée du site ; enfin ils sont généralement plus expressifs quant à l’intensité des opinions exprimées elles-mêmes. Une fois que les documents intéressants sont collectés, nous sommes confrontés au problème d’identification de l’ensemble des avis et sentiments exprimés par ces documents. Pour résoudre cette tâche, il faut préciser le domaine d’intérêt, car si par exemple nous notons les opinions sur un produit de grande consommation ou sur un produit bancaire nous remarquons que la langue est spécifique à un secteur, cette spécificité linguistique tient à la technicité et à la richesses du vocabulaire utilisé dans un secteur donné : c’est pourquoi ces mêmes attributs linguistiques peuvent être groupés dans des ensembles prédéfinis ce qui facilitera l’analyse automatique. La dernière étape est de présenter les résultats de sa notation en précisant l’intensité de chaque opinion, car la simple polarité (positif/négatif) ne suffit plus. Comme nous l’avons rappelé précédemment, depuis l’avènement d’Internet et par conséquent l’explosion de l’information disponible, la recherche d’information ou « information retrieval » s’est vue confrontée à de nouveaux problèmes comme par exemple la surabondance d’information, la redondance, le problème de la qualification de l’information... La recherche d’information ne concerne plus seulement la documentation : des techniques de recherche d’information apparaissent dans de nombreux domaines tels que l’analyse de données, la bio-informatique, la linguistique, les statistiques, l’optimisation de grandes bases de données, l’intelligence artificielle... La grande variété des méthodes souligne la diversité des communautés qui travaillent sur le domaine de la recherche d’information. Le terme « recherche d’information » ou « information retrieval » est employé pour la première fois par Moers pour désigner le processus d’indexation automatique et de recherche d’information. Les premiers projets de recherche d’information portaient sur l’indexation de documents (projet Cranfield, projet SMART...). 2/ Les modèles mathématiques sous-tendant le Text Mining : dépassement de la logique booléenne par l’algèbre linéaire… Nous présentons ici deux modèles de systèmes de recherche d’informations qui sont utilisés par différents types de sociétés : d’une côté des entreprises récentes positionnées sur le marché de l’e-réputation et de l’autre des éditeurs de logiciel en « open source » de type Lucene, SolR ou encore les fameux « moteurs de recherche » tels que Yahoo ! Google ou Bing. Le premier modèle dit « modèle booléen » est plutôt classique et limité mais encore utilisé par des start-ups françaises spécialisées dans la e-réputation. En effet, ce modèle issu de la logique classique est très limité, peu opérant dans un environnement Big Data du fait de sa conception théorique (mathématique). Dans le modèle Booléen, chaque document Di est représenté par un ensemble de descripteurs {d1,..,dj,...,dn}. Tous les descripteurs des documents sont rangés dans un fichier appelé dictionnaire. Une requête est composée d’un ensemble de descripteurs et un ou des opérateurs logiques comme « ET », « OU » ou « NON ». Par exemple, je recherche un document en français sur le modèle booléen en recherche
    • 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 4 sur 8http://lecercle.lesechos.fr/print/69745 d’information, ma requête pourra s’écrire : « modèle ET booléen ET recherche ET information ». Le système évalue chaque document en fonction de la requête : ainsi tous les documents dont la liste des descripteurs correspond à la requête seront fournis à l’utilisateur. Sur notre exemple, tous les documents ayant exactement dans leur liste « modèle », « booléen », « recherche » et « information » nous seront présentés. Les documents auxquels il manquerait un descripteur ne seront pas fournis. Les principaux avantages de ce modèle sont : – sa transparence : l’outil restitue les documents qui répondent exactement à la 
requête de l’utilisateur, – sa facilité de mise en œuvre. 
 Il présente néanmoins des limites sérieuses et rédhibitoires: – la nécessité d’une bonne maîtrise des opérateurs pour obtenir exactement ce 
que l’on cherche, – les documents ne sont pas classés et leur nombre pas maîtrisé, – raisonnement et fonctionnement binaires, – un document qui ne correspond pas à la requête sur un seul point sera rejeté. Le second modèle qu’est le « modèle vectoriel » nous paraît beaucoup pertinent, beaucoup plus actuel et très efficace. En effet, ce modèle à rapidement été décrit dans la littérature spécialisée comme extrêmement innovant et opérant dans un environnement flou, complexe et de déluge informationnel (Big Data). En effet, contrairement au modèle booléen, l’utilisateur n’a pas besoin d’exprimer sa requête à l’aide d’opérateurs. Les documents et les requêtes sont représentés par des vecteurs : à chaque composante du vecteur est associé un descripteur issu de l’indexation. La valeur de la composante est le poids attribué au descripteur par rapport au document. Le modèle le plus simple est : 
 – on met la composante à 1 si le descripteur est attribué au document, 
 – 0 sinon.
 Un document est d’autant plus pertinent à une requête que le vecteur associé est similaire à celui de la requête. Ainsi, on va utiliser un calcul de similarité pour obtenir une liste ordonnée de documents pertinents. Dans un espace de mot, les divers sens d'un terme se distinguent par des valeurs différentes d'un certain nombre de paramètres (informations sur le contexte du mot, lexicales, syntaxiques, sémantiques, etc.). Chaque sens (ou emploi) du mot est donc représenté par une région de son espace sémantique, plus ou moins grande dans une dimension donnée, et les proximités de sens entre acceptions se traduisent dans l'espace par des relations de voisinage ou de recouvrement. La représentation en espaces vectoriels sémantiques est donc particulièrement adaptée pour rendre compte des phénomènes sémantiques tels que la polysémie car ils permettent de déterminer avec précision le sens de chaque acception d'un terme ambigu tout en conservant la notion de proximité, essentielle, dans la définition-même de la polysémie. La désambiguïsation consiste alors à étudier la position du vecteur représentant une acception donnée à désambiguïser dans l'espace sémantique du mot et à lui assigner le sens le plus proche. L'idée de base de la clustérisation est de regrouper ensemble des objets qui se ressemblent dans une ou plusieurs dimensions données, en l'occurrence des mots regroupés en classes de voisins/co- occurrents. En analyse des données, le but de la clustérisation est de créer un partitionnement d'un ensemble de données (mots, documents) en un ensemble de sous-classes pertinentes, appelées « clusters » (grappes), représentées par un « centroïd » ou barycentre (élément le plus représentatif ou moyenne de tout ou partie de leurs membres).
    • 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 5 sur 8http://lecercle.lesechos.fr/print/69745 Le choix de la méthode de calcul de la similarité entre les objets du modèle (mots, documents) dépend du choix du modèle de représentation (espaces vectoriels, graphes, arbres de décision, etc.). Dans le cas de notre modèle vectoriel, le point de départ de cette méthode est un espace vectoriel sémantique de grande dimension construit à partir d'un corpus et dont la dimensionnalité est souvent réduite à l’aide de divers procédés de réduction matricielle, notamment la décomposition en valeur singulière on parle de Latent Semantic Analysis (LSA). 3/ De la sémantique distributionnelle… C’est en 1968 que Gérard Salton définit pour la première sa fonction Cosinus Similarité : le Cosinus de Salton est l'analyse de la pertinence d'une page (=un document) par rapport à un requête. Il présente pour la première fois le modèle vectoriel. Cette technique était principalement utilisée par les renseignements généraux et autres agences d’espionnage à l’époque. Elle permet aujourd’hui de prendre un texte et de le transformer en un vecteur, ainsi l'ensemble d'un texte peut faire ressortir une idée, un concept. Cette approche va se propager dans tous les milieux de la linguistique et de l’intelligence artificielle durant près de 20 ans et pour finalement produire en 1990 un nouveau type d’analyse la Latent Semantic Analysis qui s'appuie sur la matrice utilisée par Salton pour y appliquer des méthodes de réduction matricielle via la Décomposition en Valeur Singulière (SVD). En effet c’est en 1990, dans un article fondateur pour la sémantique vectorielle que Deerwester, Dumais, Landauer et al (Indexing by Latent Semantic Analysis, Journal of The American society for Information Science, sept.1990 ; 41, 6) définissent les bases de Latent Semantic Analysis (LSA) en mettant au point une méthode de représentation sous la forme d’un espace sémantique de très grande dimension, du sens contextuel des mots à l'aide de calculs statistiques sur un large corpus qui leur permettent d'inférer des relations profondes entre mots ou ensembles de mots. L'information de base utilisée par cette technique est la distribution des mots dans la somme de leurs contextes. L'idée sous-jacente est que la somme de tous les contextes d'apparition ou non d'un mot fournit un ensemble de contraintes mutuelles qui déterminent largement la similarité sémantique entre mots et ensembles de mots. Le point de départ de la Latent Semantic Analysis est une matrice de cooccurrences dont les dimensions sont les mots et leurs contextes d'apparition à laquelle on applique une décomposition en valeurs singulières, cette technique s’appelle la (SVD) qui produit une sorte de lissage des associations mot-à-mot. La matrice de cooccurrences est ainsi transformée en une matrice plus petite contenant la partie la plus pertinente de l'information contenues dans les cooccurrences initiales. Ceci permet de résoudre le problème de la disparité des fréquences de cooccurrence (probabilités nulles) entre mots entraînée par le fait que, même dans un grand corpus de textes, la plupart des mots sont relativement rares. Cela permet non seulement d'améliorer la complexité en temps (pour le calcul des distances ou des plus proches voisins) mais aussi en espace puisque la caractérisation d'un mot devient plus petite. Le positionnement des mots et de leurs sens, représentés par des vecteurs, dans l'espace sémantique ainsi obtenu permet toujours de mesurer leur proximité par le cosinus. Les clusters peuvent ensuite être construits à partir des vecteurs des mots proches dans l'espace. Le cosinus permet de calculer l'angle entre deux vecteurs, soit comparer leur direction. Comme les documents et les requêtes sont des vecteurs, on peut calculer leur proximité par leur cosinus. La valeur du cosinus est normée (entre 0 et 1, car les composantes sont positives) : - si le cosinus tend vers 1 => les deux documents sont proches - si le cosinus tend vers 0 => les deux documents sont éloignés
    • 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 6 sur 8http://lecercle.lesechos.fr/print/69745 La pertinence d'une requête par rapport à un document n'est pas binaire (ex. cosinus entre vecteurs) par opposition au modèle booléen. On constante une très nette amélioration de la précision de la réponse du système, auxquels on peut ajouter la grande simplicité et la popularité du modèle issu de l’algèbre linéaire. On parle de Similarité Cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminant l'angle entre eux. Elle est représentée par la formule ci-dessous : cos(thêta) = A . B / ||A|| ||B|| Soient deux vecteurs A et B, l'angle s'obtient par le produit scalaire et la norme des vecteurs. Les valeurs, et donc les objets qu’elles représentent, peuvent alors être interprétées comme des vecteurs formant un espace vectoriel. L’avantage de cette représentation est que l’on sait faire certaines opérations assez facilement dans de tels espaces, notamment des calculs de distance/similarité très rapides. Dans le cas des data textuelles, ces représentations consistent souvent à considérer le document (ou n’importe quelle donnée textuelle) comme un sac-de-mots, c’est-à-dire un ensemble non structuré, sans information sur la séquentialité des mots dans le texte. Usuellement, on calcule pour chaque mot présent dans le document une valeur reflétant son importance comme descripteur du document. Les mots du vocabulaire (ou de la collection de documents traitée) absents du document ont une valeur nulle. Finalement, le texte est donc décrit comme un vecteur d’un espace ayant pour dimensions tous les mots du vocabulaire. Certains auteurs évoquent les limites de la Latent Semantic Analysis en se référant à l’approche Harrissienne de la sémantique. Dans son œuvre magistrale datée de 1951, Zellig Harris définit la méthode distributionnelle qui sera la première tentative de traitement formel de la langue. La formalisation est poussée, et elle refuse toute utilisation du sens comme critère de définition formelle de la langue. Harris remplace les sens par le critère formel de la somme totale des environnements (la distribution) des éléments abstraits. Il réussit ainsi à axiomatiser entièrement l'analyse de la langue, avec une rigueur poussée à l’extrême. La Sémantique Distributionnelle suppose l’existence d’une forte corrélation entre les caractéristiques distributionnelles observables des mots et leur sens : la sémantique d’un mot est reliée à l’ensemble des contextes dans lesquels il apparaît. La sémantique distributionnelle fait l’hypothèse qu’il est possible de déterminer, de déduire automatiquement la sémantique d’un mot à partir de l’ensemble de ses contextes dans un corpus. C’est ce qui conduit Cohen et Widdows dans un article de 2009 intitulé Empirical distributional semantics : methods and biomedical applications (in Journal of Biomedical Informatics) à considérer qu’en recherche d’information on atteint vite les limites de l’exercice si on se base uniquement sur un système qui ne prend en compte que l’exacte correspondance entre la requête par mots- clés et la parfaite pertinence des résultats dans une logique booléenne. C’est justement pour les auteurs la première motivation à l'utilisation de la méthode distributionnelle. Bien que prometteuse, l’indexation sémantique latente (Latent Semantic Indexing) pour les moteurs de recherche ne s'est pas révélée être une « killing application ». Cela s'explique en partie parce qu’en dépit de quelques bons résultats, la précision n'a pas été améliorée de manière fiable lorsqu’il s’agit d’appréhender des masses de données (Big Data). Il est également devenu peu à peu évident que le moteur de recherche « sémantique » (au sens de langage naturel) doit être beaucoup plus efficace qu'un simple moteur de recherche par « mot-clé » (booléen), même si les utilisateurs ont pris l'habitude de rechercher par mots clés et ont tendance à préférer les outils qu'ils peuvent manipuler facilement et de manière prévisible ». C’est ainsi qu’a germé à l’Université de Technologie de Pittsburgh, le premier projet de moteur de recherche utilisant la sémantique distributionnelle pour une
    • 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 7 sur 8http://lecercle.lesechos.fr/print/69745 communauté universitaire spécifique et donnant naissance à une solution permettant de traiter en langage naturel et donc de modéliser la signification des mots, des phrases et des documents à partir de la distribution et de l'utilisation des mots dans un large corpus de texte. Ce projet est détaillé dans un second article « The Semantic Vectors Package: New Algorithms and Public Tools for Distributional Semantics » toujours publié par Trevor Cohen (University of Texas) et Dominic Widdows (Google Inc) en 2010 à l’Université Carnegie Mellon lors d’une conférence sur les derniers développements en Sémantique Computationnelle. Les auteurs rappellent qu’en 2007 l’Université de Pittsburg a décidé de développer en open source (Apache Lucene) une librairie en java portant le nom de « Semantic Vector Package ». L’accès à cette plateforme évolutive et stable se fait via le site de Project Hosting de Google à l’adresse suivante : http://code.google.com/p/semanticvectors/ Package for creating and searching semantic vector indexes by wrapping Apache Lucene. Conclusion Par conséquent, on peut affirmer que le modèle théorique (mathématique) de base des moteurs de recherche tels que Lucene, Yahoo !, Google ou encore Bing est bien vectoriel. Il peut se résumer ainsi: un index géant contient tous les mots du vocabulaire contenu dans les documents indexés, un fichier dit inverse recense pour chaque mot de cet index sa présence dans les documents indexés (les pages html pour le web), et pour retrouver ces pages en fonction d’une requête, il est réalisé un calcul de similarité (notre fameuse fonction Similarité Cosinus héritée de Gérard Salton) entre un vecteur de poids de mot correspondants à la requête et un autre correspondant au poids des mots contenus dans un document. Les scores obtenus pour chaque mesure de similarité servent ensuite à ordonner la liste de résultat. Le modèle vectoriel exploite généralement des espaces avec de très nombreuses dimensions, par exemple lorsqu’il est utilisé pour l’étiquetage sémantique. Ce modèle est en effet applicable à toutes les activités de recherche d’information et pas seulement aux moteurs de recherche. Le problème intrinsèque de ce modèle est qu’il n’est pas sémantique: si votre requête affiche en résultat les pages contenant les mots Ordinateur ou Tablette, vous ne pourrez pas recevoir les documents qui contiennent les mots Apple, Dell, Sony, Samsung ou bien iPad, Galaxy Tab, Surface qui sont pourtant pertinents. Pour introduire de la sémantique dans un système de recherche d’information, plusieurs techniques ont été proposées. Et notamment Latent Semantic Analysis (LSA) qui permet d’identifier automatiquement quels mots sont « sémantiquement proches ». Cette méthode réalise nous l’avons vu un processus d'abstraction des relations sémantiques latentes entre les termes via la méthode Singular Value Decomposition (SVD). Une des critiques que l'on peut faire du modèle LSA avec SVD est qu'il est couteux d'un point de vue computationnel. Cependant, il a ouvert la voie dans le domaine de l'analyse sémantique « latente ». Les modèles qui arrivent après la Latent Semantic Analysis pallie au problème du traitement computationnel en optimisant les calculs par des méthodes de projections aléatoires. Le modèle en question a été révélé par une équipe de chercheurs suédois en « computer sciences » en 1998 (Kanerva et al) : ils ont élaborés ce qui s’appelle « Random Indexing » (RI) qui s’impose comme l’alternative au modèle LSA classique. C’est sans aucun doute le modèle RI est bien celui à utiliser aujourd’hui: car avec la méthode SVD et sa modélisation mathématique encore complexe et trop gourmande sur un plan computationnel fait place à une approche beaucoup plus efficace en matière de Text Mining. Les travaux de Kanerva ont ouvert une nouvelle dimension en mettant en place un modèle
    • 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 8 sur 8http://lecercle.lesechos.fr/print/69745 porteur d’avenir pour la sémantique computationnelle. Le Random Indexing (RI) en s’appuyant non plus sur les formules mathématiques habituelles de réduction que l’on a décrit plus haut dans notre article (SVD dans LSA), mais sur des méthodes de projection aléatoire rend possible le text mining massif voire exhaustif, en accélérant le traitement de l’information tout en préservant la pertinence des résultats : pour appréhender le déluge informationnel d’origine textuel... Cette magnifique perspective offrent aux entreprises françaises désireuses de traiter le tsunami de données non structurées (Big Data) une occasion rare et unique de profiter des derniers développements et algorithmes produits par la sémantique computationnelle, dans le but de rattraper le retard et la distance pris avec nos voisins américains, pour qui le Big Data n’est pas un « buzz word » mais une priorité à traiter… J’en suis convaincu, le champ académique français est très fécond, j’en veux pour preuve les nombreuses publications scientifiques de doctorants et docteurs en Sciences Cognitives et en Intelligence Artificielle spécialisée en Linguistique Computationnelle qui traitent de ces mêmes sujets et s’imposent progressivement sur la scène de la recherche mondiale. Aussi, je ne doute pas un seul instant que ces avancées scientifiques et techniques donneront naissance à quelques jeunes pousses issues de la recherche-développement qui deviendront très vite des usines à transformer les data non structurées en information pertinentes et actionnables et non pas en ressource fossile (allusion au fameux « Data is new oil » qui me paraît galvaudé et déjà dépassé) mais à l’énergie digitale nouvelle et durable dont toutes les entreprises ont besoin pour se développer et se transformer grâce à l’ingéniosité de quelques entrepreneurs spécialisés dans le traitement du Big Data et qui deviendront peut-être les Lucene, Yahoo !, Google ou Bing de demain… Bruno Teboul Bruno TEBOUL URL source: http://lecercle.lesechos.fr/entrepreneur/internet/221169745/text-mining-sentiment-analysis-big-data