SlideShare a Scribd company logo
1 of 7
Download to read offline
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   25	
  mai	
  2015	
  
©	
  Dominic	
  Forest,	
  École	
  de	
  bibliothéconomie	
  et	
  des	
  sciences	
  de	
  l'informa=on,	
  Université	
  de	
  Montréal	
   1	
  
Fouille de textes et cartographie
thématique des corpus numériques
Dominic Forest, Ph.D. et Marcela Baiocchi
École de bibliothéconomie et des sciences de l’information
Université de Montréal
dominic.forest@umontreal.ca
www.dominicforest.me | www.ebsi.umontreal.ca
www.twitter.com/dforest
ACFAS 2015 - Une plateforme de recherche et d’expérimentation pour l’édition ouverte
25 mai 2015
Contexte
•  Augmentation constante de la quantité d’informations disponibles en
format numérique
–  Documents et métadonnées
•  Isidore : 3 482 385 ressources
•  HathiTrust : 13 374 801 volumes (4 681 180 350 pages)
•  Erudit : +/- 300 000 ressources
–  Données contextuelles (réseaux sociaux, plates-formes de publ. alternatives)
–  Données de recherche
•  Il y a dans le millieu académique – et plus spécifiquement dans les SHS
– plus de données que nul part ailleurs
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   25	
  mai	
  2015	
  
©	
  Dominic	
  Forest,	
  École	
  de	
  bibliothéconomie	
  et	
  des	
  sciences	
  de	
  l'informa=on,	
  Université	
  de	
  Montréal	
   2	
  
Contexte
•  Des big data au thick data
–  « Big data is really just a big collection of what people in the humanities
would call thin data. Thin data is the sort of data you get when you look at the
traces of our actions and behaviors. We travel this much every day; we search
for that on the Internet; we sleep this many hours; we have so many
connections; we listen to this type of music, and so forth. It’s the data
gathered by the cookies in your browser, the FitBit on your wrist, or the GPS in
your phone. These properties of human behavior are undoubtedly important,
but they are not the whole story. To really understand people, we must also
understand the aspects of our experience — what anthropologists refer to as
thick data. Thick data captures not just facts but the context of facts. »
Krenchel, M. et Madsbjerg, C.
« Your big data is worthless if you don’t bring it into the real world ».
Wired, 11 avril 2014.
Contexte
•  Les chercheurs en humanités numériques tentent de tirer profit des
informations disponibles en format numérique.
•  La quantité d’informations disponibles en format numérique soulève
cependant d’importants enjeux auxquels aucune solution définitive n’a
été proposée.
•  Question de recherche : comment tirer profit de la masse d’information
textuelle disponible pour en assister la description, l’organisation, la
recherche et l’analyse?
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   25	
  mai	
  2015	
  
©	
  Dominic	
  Forest,	
  École	
  de	
  bibliothéconomie	
  et	
  des	
  sciences	
  de	
  l'informa=on,	
  Université	
  de	
  Montréal	
   3	
  
Objectif
•  Développer des stratégies de fouille de textes (big data, text analytics) et
de visualisation pour assister des tâches d'extraction et d’organisation
d’informations à partir de gros corpus documentaires en sciences
humaines
•  Développement méthodologique plutôt que logiciel
–  Évaluation de plateformes génériques existantes
•  Tâches :
–  Analyse conceptuelle
–  Analyse thématique
–  Attribution d’auteur
–  Datation
–  Fouille d’opinions
Démarche méthodologique
•  Démarche méthodologique fondée sur des processus de fouille de textes
–  « La fouille de textes est la découverte (à l’aide d’outils informatiques) de
nouvelles informations en extrayant différentes données provenant de
plusieurs documents textuels. Un élément fondamental de ce processus
réside dans les relations identifiées entre les informations extraites afin
d’identifier de nouveaux faits [de nouvelles connaissances] ou de nouvelles
hypothèses à explorer. » (Hearst, 2003, notre traduction)
•  Algorithmes d'apprentissage-machine
–  Algorithmes supervisés (prédiction) vs non supervisés (description)
•  Méthodologie algorithmique et systématique (formelle et répétable)
•  Approche centrée sur l’utilisateur
–  Interfaces riches, flexibles et intuitives
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   25	
  mai	
  2015	
  
©	
  Dominic	
  Forest,	
  École	
  de	
  bibliothéconomie	
  et	
  des	
  sciences	
  de	
  l'informa=on,	
  Université	
  de	
  Montréal	
   4	
  
Forest (2009), inspirée de Fayyad et al. (1996)
Démarche méthodologique
Méthodologie de la fouille de textes
Forest (2014), inspirée de Fayyad et al. (1996)
Démarche méthodologique
Méthodologie de la fouille de textes
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   25	
  mai	
  2015	
  
©	
  Dominic	
  Forest,	
  École	
  de	
  bibliothéconomie	
  et	
  des	
  sciences	
  de	
  l'informa=on,	
  Université	
  de	
  Montréal	
   5	
  
Visualisation
•  Objectifs :
–  Représenter de manière synthétique les informations identifiées par les
processus de fouille de textes
–  Assister l’analyse des données
–  Permettre de parcourir le contenu thématique du corpus
•  Principe : Visual information-seeking mantra (Shneiderman 1996)
–  « Overview first, zoom and filter, then details-on-demand. »
•  Point de départ : mots-clés thématiques
(erudit.org)
Résultats
Cinémas, revue d’études
cinématographiques
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   25	
  mai	
  2015	
  
©	
  Dominic	
  Forest,	
  École	
  de	
  bibliothéconomie	
  et	
  des	
  sciences	
  de	
  l'informa=on,	
  Université	
  de	
  Montréal	
   6	
  
Évaluation des résultats
•  Classification
–  Évaluation difficile sans données de référence
•  Comparaison d’algorithmes
–  Stabilité
–  Sensibilité à l’ordre de présentation des données
–  Évaluation en fonction de l’application
•  Évaluation qualitative
–  Consultation subjective
–  Pureté ou consistance des regroupements
–  Comparaison avec résultats manuels
Évaluation des résultats
•  Mesure Silhouettes (Rousseeuw 1987)
–  a(i) représente la distance moyenne entre une chanson et les autres
chansons du même regroupement et b(i) représente la distance moyenne qui
la sépare des chansons appartenant au regroupement le plus proche
–  Cette mesure permet de calculer la cohésion ainsi que la dispersion des
regroupements, mais elle ne tient pas compte des chevauchements
possibles
ACFAS	
  2015	
  -­‐	
  Une	
  plateforme	
  de	
  recherche	
  et	
  d’expérimenta=on	
  pour	
  l’édi=on	
  ouverte	
   25	
  mai	
  2015	
  
©	
  Dominic	
  Forest,	
  École	
  de	
  bibliothéconomie	
  et	
  des	
  sciences	
  de	
  l'informa=on,	
  Université	
  de	
  Montréal	
   7	
  
Évaluation des résultats
•  Mesure de Davies-Bouldin(Davies et Bouldin 1979)
–  I(ci ) est la moyenne des distances entre les documents appartenant
regroupement ci et le centre du regroupement. I(ci,cj) représente la distance
entre les centres des regroupement ci et cj.
–  Selon cette mesure, la partition optimale est celle qui minimise la valeur
calculée pour chaque regroupement
Conclusion
•  Développement d’une méthodologie et d’un prototype reposant sur des
processus de fouille de textes et de visualisation de l’information afin
d’assister l'extraction de données et de structures d’informations
pouvant être utilisées pour assister la description, l’organisation et
l’analyse les documents
•  Approche fondée sur les thèmes des documents
•  Quelques défis :
•  Description difficile en raison de la richesse de la langue
•  Corpus multilingue
•  Visualisation difficile des gros réseaux de données liées
•  La quantité de données disponible pose cependant des enjeux –
techniques, mais aussi épistémologiques - importants

More Related Content

Viewers also liked

Viewers also liked (20)

Plan Marketing Nike+
Plan Marketing Nike+Plan Marketing Nike+
Plan Marketing Nike+
 
Concreto vs acero
Concreto vs aceroConcreto vs acero
Concreto vs acero
 
EDUCACIÓN COLOMBIANA
EDUCACIÓN COLOMBIANAEDUCACIÓN COLOMBIANA
EDUCACIÓN COLOMBIANA
 
Ley de profesiones_para_el_estado_de_guanajuato__texto_vigente_
Ley de profesiones_para_el_estado_de_guanajuato__texto_vigente_Ley de profesiones_para_el_estado_de_guanajuato__texto_vigente_
Ley de profesiones_para_el_estado_de_guanajuato__texto_vigente_
 
Una novena de cinco días por los sacerdotes
Una novena de cinco días por los sacerdotesUna novena de cinco días por los sacerdotes
Una novena de cinco días por los sacerdotes
 
Medios de transmision
Medios de transmisionMedios de transmision
Medios de transmision
 
La amistad
La amistadLa amistad
La amistad
 
Pulsera de cuero trenzada
Pulsera de cuero trenzadaPulsera de cuero trenzada
Pulsera de cuero trenzada
 
Aportes web 2.0 1
Aportes web 2.0 1Aportes web 2.0 1
Aportes web 2.0 1
 
mémoire
mémoiremémoire
mémoire
 
Anaytics et le A/B Testing
Anaytics et le A/B TestingAnaytics et le A/B Testing
Anaytics et le A/B Testing
 
Ejercicio 1 maquete utilizando css externo
Ejercicio 1 maquete utilizando css externoEjercicio 1 maquete utilizando css externo
Ejercicio 1 maquete utilizando css externo
 
Plantilla con-normas-icontec finalizado
Plantilla con-normas-icontec finalizadoPlantilla con-normas-icontec finalizado
Plantilla con-normas-icontec finalizado
 
Base de datos ACCESS 2010
Base de datos ACCESS 2010Base de datos ACCESS 2010
Base de datos ACCESS 2010
 
Un été 100% antique!
Un été 100% antique!Un été 100% antique!
Un été 100% antique!
 
los animales
los animaleslos animales
los animales
 
LES DERNIERS SACREMENTS
LES  DERNIERS SACREMENTSLES  DERNIERS SACREMENTS
LES DERNIERS SACREMENTS
 
J.faizant
J.faizantJ.faizant
J.faizant
 
Trabajo De Tecnologia
Trabajo De TecnologiaTrabajo De Tecnologia
Trabajo De Tecnologia
 
Presentacion de tecnologia educativa
Presentacion de tecnologia educativaPresentacion de tecnologia educativa
Presentacion de tecnologia educativa
 

Similar to Fouille de textes et cartographie thématique des corpus numériques

R montreal-2014-10-22-v3
R montreal-2014-10-22-v3R montreal-2014-10-22-v3
R montreal-2014-10-22-v3Diane Mercier
 
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...infoclio.ch
 
Projet hubble et Learning analytics 2015
Projet hubble et Learning analytics 2015Projet hubble et Learning analytics 2015
Projet hubble et Learning analytics 2015Vanda Luengo
 
IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?ABES
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...olivier
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsolivier
 
TICE : normativité, interopérabilité et pratiques convergentes
TICE : normativité, interopérabilité et pratiques convergentesTICE : normativité, interopérabilité et pratiques convergentes
TICE : normativité, interopérabilité et pratiques convergentesMokhtar Ben Henda
 
Vers une littératie des Communs : un parcours professionnel et universitaire
Vers une littératie des Communs : un parcours professionnel et universitaire    Vers une littératie des Communs : un parcours professionnel et universitaire
Vers une littératie des Communs : un parcours professionnel et universitaire Hélène MULOT
 
Système d'aide à l’indexation et à la recherche d’information sur le web
Système d'aide à l’indexation et à la recherche d’information sur le webSystème d'aide à l’indexation et à la recherche d’information sur le web
Système d'aide à l’indexation et à la recherche d’information sur le webespenel
 
Place du document numérique dans les ENT
Place du document numérique dans les ENTPlace du document numérique dans les ENT
Place du document numérique dans les ENTClément Dussarps
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017Bertrand Tavitian
 
Le transfert de connaissances - Favoriser des pratiques et des politiques fon...
Le transfert de connaissances - Favoriser des pratiques et des politiques fon...Le transfert de connaissances - Favoriser des pratiques et des politiques fon...
Le transfert de connaissances - Favoriser des pratiques et des politiques fon...valéry ridde
 
Didactique de l’Information-Documentation, des modèles, des concepts et un p...
Didactique de l’Information-Documentation, des modèles, des  concepts et un p...Didactique de l’Information-Documentation, des modèles, des  concepts et un p...
Didactique de l’Information-Documentation, des modèles, des concepts et un p...FADBEN
 
Learning analytics, projet Hubble
Learning analytics, projet HubbleLearning analytics, projet Hubble
Learning analytics, projet HubbleVanda Luengo
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)Mathieu d'Aquin
 

Similar to Fouille de textes et cartographie thématique des corpus numériques (20)

R montreal-2014-10-22-v3
R montreal-2014-10-22-v3R montreal-2014-10-22-v3
R montreal-2014-10-22-v3
 
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
Raymond Werlen (CRUS) - Les enjeux de l’information scientifique. Le point de...
 
Projet hubble et Learning analytics 2015
Projet hubble et Learning analytics 2015Projet hubble et Learning analytics 2015
Projet hubble et Learning analytics 2015
 
IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?IST, comment préparer l'avenir ?
IST, comment préparer l'avenir ?
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutions
 
TICE : normativité, interopérabilité et pratiques convergentes
TICE : normativité, interopérabilité et pratiques convergentesTICE : normativité, interopérabilité et pratiques convergentes
TICE : normativité, interopérabilité et pratiques convergentes
 
Vers une littératie des Communs : un parcours professionnel et universitaire
Vers une littératie des Communs : un parcours professionnel et universitaire    Vers une littératie des Communs : un parcours professionnel et universitaire
Vers une littératie des Communs : un parcours professionnel et universitaire
 
CULTURES DES DONNEES, CULTURES DE L’INFORMATION: Enjeux pour humanisme numéri...
CULTURES DES DONNEES, CULTURES DE L’INFORMATION: Enjeux pour humanisme numéri...CULTURES DES DONNEES, CULTURES DE L’INFORMATION: Enjeux pour humanisme numéri...
CULTURES DES DONNEES, CULTURES DE L’INFORMATION: Enjeux pour humanisme numéri...
 
Système d'aide à l’indexation et à la recherche d’information sur le web
Système d'aide à l’indexation et à la recherche d’information sur le webSystème d'aide à l’indexation et à la recherche d’information sur le web
Système d'aide à l’indexation et à la recherche d’information sur le web
 
Presentation jeudistv2
Presentation jeudistv2Presentation jeudistv2
Presentation jeudistv2
 
Place du document numérique dans les ENT
Place du document numérique dans les ENTPlace du document numérique dans les ENT
Place du document numérique dans les ENT
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017
 
Le transfert de connaissances - Favoriser des pratiques et des politiques fon...
Le transfert de connaissances - Favoriser des pratiques et des politiques fon...Le transfert de connaissances - Favoriser des pratiques et des politiques fon...
Le transfert de connaissances - Favoriser des pratiques et des politiques fon...
 
Didactique de l’Information-Documentation, des modèles, des concepts et un p...
Didactique de l’Information-Documentation, des modèles, des  concepts et un p...Didactique de l’Information-Documentation, des modèles, des  concepts et un p...
Didactique de l’Information-Documentation, des modèles, des concepts et un p...
 
Le projet SemanSciences
Le projet SemanSciencesLe projet SemanSciences
Le projet SemanSciences
 
Estampages_EfA_dec2016
Estampages_EfA_dec2016Estampages_EfA_dec2016
Estampages_EfA_dec2016
 
Learning analytics, projet Hubble
Learning analytics, projet HubbleLearning analytics, projet Hubble
Learning analytics, projet Hubble
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
 
Presentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonusPresentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonus
 

More from Érudit

Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar Érudit
 
Partenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accèsPartenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accèsÉrudit
 
Open Access Network Presentation
Open Access Network PresentationOpen Access Network Presentation
Open Access Network PresentationÉrudit
 
Les transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numériqueLes transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numériqueÉrudit
 
A Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open accessA Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open accessÉrudit
 
Valorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la rechercheValorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la rechercheÉrudit
 
Extraction et structuration de connaissances pour une plateforme interactive ...
Extraction et structuration de connaissances pour une plateforme interactive ...Extraction et structuration de connaissances pour une plateforme interactive ...
Extraction et structuration de connaissances pour une plateforme interactive ...Érudit
 
Utilisation des citations pour le résumé automatique de la contribution d'art...
Utilisation des citations pour le résumé automatique de la contribution d'art...Utilisation des citations pour le résumé automatique de la contribution d'art...
Utilisation des citations pour le résumé automatique de la contribution d'art...Érudit
 
Fouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoisesFouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoisesÉrudit
 
Projets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.orgProjets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.orgÉrudit
 

More from Érudit (10)

Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar Partnership for Open Access : Érudit webinar
Partnership for Open Access : Érudit webinar
 
Partenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accèsPartenariat pour la diffusion en libre accès
Partenariat pour la diffusion en libre accès
 
Open Access Network Presentation
Open Access Network PresentationOpen Access Network Presentation
Open Access Network Presentation
 
Les transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numériqueLes transformations de l'édition savante à l'ère numérique
Les transformations de l'édition savante à l'ère numérique
 
A Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open accessA Library-Publisher Partnership for Open access
A Library-Publisher Partnership for Open access
 
Valorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la rechercheValorisation du fonds documentaire numérique pour la recherche
Valorisation du fonds documentaire numérique pour la recherche
 
Extraction et structuration de connaissances pour une plateforme interactive ...
Extraction et structuration de connaissances pour une plateforme interactive ...Extraction et structuration de connaissances pour une plateforme interactive ...
Extraction et structuration de connaissances pour une plateforme interactive ...
 
Utilisation des citations pour le résumé automatique de la contribution d'art...
Utilisation des citations pour le résumé automatique de la contribution d'art...Utilisation des citations pour le résumé automatique de la contribution d'art...
Utilisation des citations pour le résumé automatique de la contribution d'art...
 
Fouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoisesFouille textuelle de revues intellectuelles québécoises
Fouille textuelle de revues intellectuelles québécoises
 
Projets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.orgProjets de données liées chez Canadiana.org
Projets de données liées chez Canadiana.org
 

Fouille de textes et cartographie thématique des corpus numériques

  • 1. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   1   Fouille de textes et cartographie thématique des corpus numériques Dominic Forest, Ph.D. et Marcela Baiocchi École de bibliothéconomie et des sciences de l’information Université de Montréal dominic.forest@umontreal.ca www.dominicforest.me | www.ebsi.umontreal.ca www.twitter.com/dforest ACFAS 2015 - Une plateforme de recherche et d’expérimentation pour l’édition ouverte 25 mai 2015 Contexte •  Augmentation constante de la quantité d’informations disponibles en format numérique –  Documents et métadonnées •  Isidore : 3 482 385 ressources •  HathiTrust : 13 374 801 volumes (4 681 180 350 pages) •  Erudit : +/- 300 000 ressources –  Données contextuelles (réseaux sociaux, plates-formes de publ. alternatives) –  Données de recherche •  Il y a dans le millieu académique – et plus spécifiquement dans les SHS – plus de données que nul part ailleurs
  • 2. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   2   Contexte •  Des big data au thick data –  « Big data is really just a big collection of what people in the humanities would call thin data. Thin data is the sort of data you get when you look at the traces of our actions and behaviors. We travel this much every day; we search for that on the Internet; we sleep this many hours; we have so many connections; we listen to this type of music, and so forth. It’s the data gathered by the cookies in your browser, the FitBit on your wrist, or the GPS in your phone. These properties of human behavior are undoubtedly important, but they are not the whole story. To really understand people, we must also understand the aspects of our experience — what anthropologists refer to as thick data. Thick data captures not just facts but the context of facts. » Krenchel, M. et Madsbjerg, C. « Your big data is worthless if you don’t bring it into the real world ». Wired, 11 avril 2014. Contexte •  Les chercheurs en humanités numériques tentent de tirer profit des informations disponibles en format numérique. •  La quantité d’informations disponibles en format numérique soulève cependant d’importants enjeux auxquels aucune solution définitive n’a été proposée. •  Question de recherche : comment tirer profit de la masse d’information textuelle disponible pour en assister la description, l’organisation, la recherche et l’analyse?
  • 3. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   3   Objectif •  Développer des stratégies de fouille de textes (big data, text analytics) et de visualisation pour assister des tâches d'extraction et d’organisation d’informations à partir de gros corpus documentaires en sciences humaines •  Développement méthodologique plutôt que logiciel –  Évaluation de plateformes génériques existantes •  Tâches : –  Analyse conceptuelle –  Analyse thématique –  Attribution d’auteur –  Datation –  Fouille d’opinions Démarche méthodologique •  Démarche méthodologique fondée sur des processus de fouille de textes –  « La fouille de textes est la découverte (à l’aide d’outils informatiques) de nouvelles informations en extrayant différentes données provenant de plusieurs documents textuels. Un élément fondamental de ce processus réside dans les relations identifiées entre les informations extraites afin d’identifier de nouveaux faits [de nouvelles connaissances] ou de nouvelles hypothèses à explorer. » (Hearst, 2003, notre traduction) •  Algorithmes d'apprentissage-machine –  Algorithmes supervisés (prédiction) vs non supervisés (description) •  Méthodologie algorithmique et systématique (formelle et répétable) •  Approche centrée sur l’utilisateur –  Interfaces riches, flexibles et intuitives
  • 4. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   4   Forest (2009), inspirée de Fayyad et al. (1996) Démarche méthodologique Méthodologie de la fouille de textes Forest (2014), inspirée de Fayyad et al. (1996) Démarche méthodologique Méthodologie de la fouille de textes
  • 5. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   5   Visualisation •  Objectifs : –  Représenter de manière synthétique les informations identifiées par les processus de fouille de textes –  Assister l’analyse des données –  Permettre de parcourir le contenu thématique du corpus •  Principe : Visual information-seeking mantra (Shneiderman 1996) –  « Overview first, zoom and filter, then details-on-demand. » •  Point de départ : mots-clés thématiques (erudit.org) Résultats Cinémas, revue d’études cinématographiques
  • 6. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   6   Évaluation des résultats •  Classification –  Évaluation difficile sans données de référence •  Comparaison d’algorithmes –  Stabilité –  Sensibilité à l’ordre de présentation des données –  Évaluation en fonction de l’application •  Évaluation qualitative –  Consultation subjective –  Pureté ou consistance des regroupements –  Comparaison avec résultats manuels Évaluation des résultats •  Mesure Silhouettes (Rousseeuw 1987) –  a(i) représente la distance moyenne entre une chanson et les autres chansons du même regroupement et b(i) représente la distance moyenne qui la sépare des chansons appartenant au regroupement le plus proche –  Cette mesure permet de calculer la cohésion ainsi que la dispersion des regroupements, mais elle ne tient pas compte des chevauchements possibles
  • 7. ACFAS  2015  -­‐  Une  plateforme  de  recherche  et  d’expérimenta=on  pour  l’édi=on  ouverte   25  mai  2015   ©  Dominic  Forest,  École  de  bibliothéconomie  et  des  sciences  de  l'informa=on,  Université  de  Montréal   7   Évaluation des résultats •  Mesure de Davies-Bouldin(Davies et Bouldin 1979) –  I(ci ) est la moyenne des distances entre les documents appartenant regroupement ci et le centre du regroupement. I(ci,cj) représente la distance entre les centres des regroupement ci et cj. –  Selon cette mesure, la partition optimale est celle qui minimise la valeur calculée pour chaque regroupement Conclusion •  Développement d’une méthodologie et d’un prototype reposant sur des processus de fouille de textes et de visualisation de l’information afin d’assister l'extraction de données et de structures d’informations pouvant être utilisées pour assister la description, l’organisation et l’analyse les documents •  Approche fondée sur les thèmes des documents •  Quelques défis : •  Description difficile en raison de la richesse de la langue •  Corpus multilingue •  Visualisation difficile des gros réseaux de données liées •  La quantité de données disponible pose cependant des enjeux – techniques, mais aussi épistémologiques - importants