2. Content Analytics et Big Data
« Big Data » et « Content Analytics » sont sur toutes les bouches comme si une nouvelle révolution
était en marche. Une réelle évolution sans doute, du fait des réseaux sociaux et des nouvelles
applications qui permettent à tout un chacun de participer à la construction des contenus. Chacun
est en mesure de dire ce qu’il pense sur Internet, de dire ce qu’il « aime », de dire où il se trouve et ce
qu’il fait.
Toute cette information constituée par des millions d’internautes représente un volume de contenu
colossal disponible et accessible sur la toile. Au-delà de la capacité à gérer ces volumes gigantesques
et à pouvoir les interroger même s’ils sont disparates, le véritable enjeu est celui de l’analyse de ces
masses d’informations structurées et non structurées.
Le but avoué ou inavoué de cette analyse des contenus consiste à permettre une compréhension et
une synthèse comportementale et temporelle fournie par l’analyse des tendances et l’analyse de la
pensée. La difficulté est grande. Le chemin est semé d’embuches.
Avant de pouvoir analyser les contenus, il faut en faire l’acquisition et collecter les
informations où elles se trouvent. Il faut extraire de cette masse d’information souvent non
structurée, une forme compréhensible et intelligible d’information. L’analyse syntaxique,
sémantique et morphologique des contenus et la réconciliation est alors possible en prenant
en compte l’identification des exceptions. Le résultat de ce travail ne serait pas audible sans la
mise en œuvre de systèmes de représentation qui permettent une navigation progressive et
multidimensionnelle dans la connaissance extraite.
Le contenu sous toutes ses « Text Mining » ou fouille de
formes textes
Avant d’aborder les techniques qui s’attachent Le « Text mining » ou fouille des textes est un
au Content Analytics, le guide dresse un sujet central dans la problématique du
état des lieux du contenu sous Content Analytics. On sait bien en effet
toutes ses formes, en apportant des que de l’ordre de 80 à 90% de
réponses à différentes questions : l’information (« content ») interne ou
De quel contenu parle-t-on ? externe qui intéresse l’entreprise est non
Comment l’information évolue-t-elle ? structurée. Le « text mining » s’est
Quelles sont les formes rencontrées ? développé pour répondre au besoin de
disposer d’une meilleure « indexation
Etat des lieux de la gestion du automatique » des textes, visant à enrichir
les textes de métadonnées en représentant
contenu le sens.
Les solutions de gestion de contenu (ECM)
sont souvent mises en œuvre pour gérer Informatique décisionnelle (BI).
les contenus. Le périmètre de ces
L’informatique décisionnelle ou « Business
solutions est variable : Capture de
Intelligence » en anglais, est
données, cycle de vie de
probablement le concept le plus proche du
l’information, accès aux données,
Content Analytics. Les objectifs de la
fonctions collaboratives, archivage
« BI » et du Content Analytics sont
des données. Dans leur périmètre
communs : mettre à disposition du
traditionnel, ces solutions atteignent des
décideur une vue d’ensemble des données
limites qui peuvent être dépassées par les
traitées et permettre une navigation
apports de l’analyse de contenu.
multidimensionnelle. Le guide aborde les
différences entre ces deux concepts.
3. Réseaux sociaux Analyse
L’avènement des réseaux sociaux en
Après l’extraction, l’analyse traite les
ligne et la généralisation progressive de
contenus par des techniques de
leur pratique ne cessent de démultiplier le
catégorisation (ajout des marqueurs
volume des contenus échangés par les
de sens), de réconciliation de
internautes. Ces réseaux sociaux sont
contenu, de gestion des exceptions
devenus un vrai phénomène de masse, qui
et signaux faibles.
génère chaque jour des millions
d'interactions. Le guide explique comment
il faut prendre en compte ce phénomène
Représentation et navigation
pour en tirer un bénéfice. Le rôle de la représentation des contenus est
a priori de rendre ceux-ci facilement
Cloud Computing compréhensibles et de permettre de
saisir d’un seul coup d’œil les points de
Le cloud computing est également analysé
données importants, l’allure des
pour mettre en évidence la manière dont il
évolutions, bref l’idée mise en évidence
contribue à la valorisation des contenus au
par le croisement visuel des
travers de son architecture distribuée.
informations. Le guide explique quelles
données représenter et les différents
Big Data types de représentation les plus utilisés.
Les concepts et outils du Content Analytics
sont souvent mis en perspective du « Big Exemples de déclinaison de la
Data ». Qu’est-ce que le Big Data ? Quel valorisation de contenu
est le rapport entre le Big Data et le
Content Analytics ? Un ensemble de cas d’utilisation réels ou
potentiels des technologies de Content
Acquisition et collecte Analytics permet d’illustrer les
explications du guide : réduction des
Avant de pouvoir analyser le contenu, il faut le risques dans une compagnie d’assurance,
collecter. Le guide propose un parcours mise en adéquation des offres
dans les types de sources de contenus : du universitaires, réduction du taux
document papier à la numérisation, du d’attrition clients dans une société de
formulaire web à la base de données, de la télécommunication, application d’une
parole et de l’image au texte, de la vidéo taxe écologiste, amélioration de
au contenu. Disposer de l’ensemble de l’efficacité des investigations policières,
l’information et de façon cohérente eRéputation en B to B.
suppose de mettre en œuvre des
connecteurs et de définir un formalisme Exemple de Projets Lab autour
des données collectées. Les sources
sont souvent différentes mais les du Content Analytics
traitements sont souvent similaires.
Deux exemples de projets Lab permettent
d’illustrer la puissance des technologies
Extraction du Content Analytics. Projet Watson
Pour permettre d’exploiter les contenus bruts d’IBM, Analyse de tendance : My
dans un système de Content Analytics, il Presenting Avatar.
est nécessaire de passer du texte au
sens. Les techniques d’extraction
d’information (entités nommées, thèmes,
opinions, …) reposent sur les composants
d’analyse "Morphologique", les
composants "Syntaxiques", les
composants "Sémantiques".
4. REMERCIEMENTS
Ce guide dédié aux apports des technologies du « Content Analytics » a été rédigé par des
spécialistes du domaine traité qui sont, pour la plupart, membres de l’Association des
Professionnels pour l'Economie Numérique (APROGED). Cette association a été créée en
1993 et représente l’ensemble des professionnels (éditeurs, constructeurs, distributeurs,
intégrateurs, prestataires de services, sociétés de conseil, tiers archiveurs, …) des secteurs
de la dématérialisation, de la gestion de contenu et de document, de l'archivage, de la
capture, de l'éditique, du workflow,...
En 2011, l’Association des professionnels des Industries de la Langue (APIL) qui regroupe
les acteurs du traitement automatique des langues et de la gestion des connaissances
(indexation, linguistique, moteurs de recherche, sémantique, …) a rejoint l’APROGED.
Ce document représente le premier travail commun entre les acteurs de l’APROGED et
ceux de l’ex-APIL dans la nouvelle configuration. Le groupe de travail qui a rédigé ce
document en mode collaboratif a souhaité vous offrir une vision précise de l’état de l’art
du « Content Analytics ».
Merci donc à tous les auteurs y ayant contribué :
Contributeurs membres APROGED
• Christian Dubourg, Ever Team
• Guillaume Fouquet, Novadys
• Elie Francis, Ever Team
• Thierry Guillotin, Ever Team
• Patrick Hofleitner, IBM
• Ian Nathan, Intellique
• Bernard Normier, Consultant
Création : APROGED – Suzanne NUNES
• Sofia Rolland, Banctec
• Eglantine Schmitt, Proxem
Animateur du groupe de travail « Content Analytics » organisé par l’Aproged
Christian Dubourg- Secrétaire APROGED
* Contributeur externe à l’APROGED
• Arnaud Goumain, Magillem