Transformer 4 millions d'articles de presse en un système d'information

4,471 views

Published on

Published in: Data & Analytics

Transformer 4 millions d'articles de presse en un système d'information

  1. 1. 1 1 Transformer 4 millions d’articles en un système d’information FREDERIC  KAPLAN   DIGITAL  HUMANITIES  LABORATORY ! ! En partenariat avec Le Temps La Bibliothèque nationale suisse
  2. 2. 2 4 millions d’articles 200 ans d’information ! Le Journal de Genève (1826 > 1998) 550 000 pages / 2 000 000 articles La Gazette de Lausanne (1798 > ) 450 000 pages / 1 700 000 articles Le Nouveau Quotidien (1991 > 1998) 50 000 pages / 200 000 article
  3. 3. 3 Que peut-on apprendre d’un tel corpus ?
  4. 4. 9 Nous souhaitons transformer ce corpus de texte en un système d’information.
  5. 5. 10 Un projet qui s’étale sur presque dix ans.
  6. 6. 11 2005 : Etude sur la numérisation par la Bibliothèque nationale suisse
  7. 7. 12 2006 : Projet pilote de numérisation du « Journal de Genève » accepté par la BN en collaboration avec la Bibliothèque de Genève et Le Temps.
  8. 8. 13 2008 : Mise en ligne annoncée au Salon du Livre de Genève.
  9. 9. 14 2008-2009 : Numérisation de la “Gazette de Lausanne” et “Nouveau Quotidien”
  10. 10. 15 Mise en ligne d’un moteur de recherche permet la recherche “plein texte” dans l’ensemble du corpus.
  11. 11. 16 2009 : Numérisation de l’Express et de l’ Impartial, en collaboration avec la BN, la bibliothèque cantonale de Neuchâtel et la bibliothèque de la ville  de la Chaux de Fonds.
  12. 12. 17 2009 : Puis, numérisation du « Confédéré" (Martigny) et du « Nouvelliste" et "Feuille d’avis du Valais », en collaboration avec la "Médiathèque Valais ».
  13. 13. 18 2011 : L’EPFL participe à la redaction d’un projet de recherche nationale sur les “Humanités digitales”. Le corpus des trois journaux numérisés est identifiés comme un des plus intéressant à exploiter.
  14. 14. 19 2011 : Numérisation par la BCU et Edipresse de la « Feuille d’avis de Lausanne/ 24heures » et « La Tribune de Lausanne/Le Matin »
  15. 15. 20 2012 : Avant même, la création du laboratoire d’humanités digitales, rencontre avec le Temps pour la mise en place d’un projet de recherche collaboratif sur ce corpus.
  16. 16. 21 2012 : Signature d’un convention de recherche entre l’EPFL et le Temps.
  17. 17. 22 2013 : Mise en place d’un comité scientifique regroupant historiens et journalistes.
  18. 18. 23 Alain Clavien, Université de Fribourg Marie-Christine Doffey, BN Frédéric Koller, Le Temps Joëlle Kuntz, Le Temps Enrico Natale, infoclio.ch François Vallotton, Université de Lausanne
  19. 19. 24 2014 : Soutien financier la Bibliothèque Nationale au Projet.
  20. 20. 25 2014 : Lancement d’une nouvelle indexation du corpus en utilisant une approche “Big data”.
  21. 21. 26 2014 : Mise en ligne d’un “n-gram viewer” pour le corpus du “Journal de Genève”.
  22. 22. 27 2014 : Extension sur les autres corpus et analyses comparatives
  23. 23. 28 2015 : Indexation sémantique du corpus. Mise en ligne d’un “Facebook” du passé à partir des données extraites.
  24. 24. 29 Avec ce corpus en extension, la Suisse a un outil stratégique précieux, unique en Europe.
  25. 25. 30 1 million de pages
  26. 26. 31 Comment se représenter un tel corpus de documents ?
  27. 27. 32 Mis bout à bout : Plusieurs centaines de kms de documents
  28. 28. 33 1 milliard de mots
  29. 29. 34 Un “mégatexte”
  30. 30. 35 L’archive complète occupe 21 Terabytes.
  31. 31. 36 1 kilo 1 page de texte
  32. 32. 37 1 mega 500 pages 1 photo
  33. 33. 38 1 giga 1 heure de video
  34. 34. 39 1 tera Toute les conversation d’une vie en mp3 500 h video Texte d’un million de livres Notre archive
  35. 35. 40 1 peta Archives du Net en 2012 Données produites chaque année par le LHC au CERN
  36. 36. 41 Un journal est un média structuré. Sa structure évolue au cours du temps
  37. 37. 42 Comment évolue le nombre d’article par an sur 200 ans ?
  38. 38. 43 Le  nombre  d’ar?cles  par  année  croit  linéairement  en  fonc?on   du  temps.   !"!!!!!! !5'000!!!! !10'000!!!! !15'000!!!! !20'000!!!! !25'000!!!! !30'000!!!! !35'000!!!! !40'000!!!! !45'000!!!! !50'000!!!! 1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!
  39. 39. 44 Le  nombre  de  caractères  par  année  se  stabilise  à  la  fin  du  XIXe   siècle  puis  recommence  à  croitre  dans  les  années  1960. !"!!!!!! !20000'000!!!! !40000'000!!!! !60000'000!!!! !80000'000!!!! !100000'000!!!! !120000'000!!!! 1800! 1820! 1840! 1860! 1880! 1900! 1920! 1940! 1960! 1980! 2000! 2020!
  40. 40. 45 La  taille  des  ar?cles  oscille. 0" 100" 200" 300" 400" 500" 600" 700" 1800" 1820" 1840" 1860" 1880" 1900" 1920" 1940" 1960" 1980" 2000" 2020"
  41. 41. 46 Analyse des distributions temporelles de séquences de mots (n-grammes)
  42. 42. 47
  43. 43. 48
  44. 44. 49 n-­‐gramme  :     sequence  de  n  mots   consécu?fs.
  45. 45. 50 Nous  sommes  en   train  d’indexer   l’ensemble  du  corpus   jusqu’à    n=9.  
  46. 46. 51 Nous  avons  en  par?culier   déjà  générer  un  milliard   de  courbes  correspondant   au  1-­‐gramme  du  journal   de  Genève.  
  47. 47. 52
  48. 48. 53
  49. 49. 54 Fonda?on   du  club   en  1890
  50. 50. 55 Un  corpus  comme  le  notre  est   différent  de  celui  Google  Books   dans  la  mesure  où  il  caractérise   un  média  spécifique  avec  ses   caractéris?ques  par?culières.  
  51. 51. 56 En  étudiant  ce  corpus  nous   pouvons  non  seulement   étudier  l’évolu?on  culturelle   mais  aussi  l’évolu?on  du   média  lui-­‐même.  
  52. 52. 57 En  comparant   systéma?quement  comment   deux  medias  rendent  compte   des  évènements  du  monde   nous  pourrons  tenter  de   caractériser  finement  leur  biais.    
  53. 53. 58 “Champ attentionnel” d’un média
  54. 54. 59 Attention temporelle
  55. 55. 60
  56. 56. 61 différents  régimes   de  stabilisa?on
  57. 57. 62
  58. 58. 63
  59. 59. 64
  60. 60. 65 Attention spatiale
  61. 61. 66
  62. 62. 67 Point   de  bascule
  63. 63. 68 Equivalence  a`en?onnelle
  64. 64. 69
  65. 65. 70
  66. 66. 71
  67. 67. 72 Un  prototype  est  en   ligne   h`p://jdg.dhlab.ch/  
  68. 68. 73 Ex : Trouver un mot qui génère un pic.
  69. 69. 74 pic  a`en?onnel
  70. 70. 75
  71. 71. 76 pic  de  découverte stabilisa?on
  72. 72. 77 pic  des  piccard
  73. 73. 78 Ex : Trouver un mot qui génère un peigne.
  74. 74. 79
  75. 75. 80 Ex : Trouver un mot qui croit dans le temps.
  76. 76. 81
  77. 77. 82
  78. 78. 83
  79. 79. 84
  80. 80. 85
  81. 81. 86
  82. 82. 87 Ex : Trouver un mot qui décroit dans le temps.
  83. 83. 88
  84. 84. 89
  85. 85. 90
  86. 86. 91 Ex : Trouver un mot qui fait une colline
  87. 87. 92
  88. 88. 93 Ex : Trouver un mot qui fait deux collines
  89. 89. 94
  90. 90. 95 Ex : Trouver deux courbes qui se rejoignent en une seule.
  91. 91. 96
  92. 92. 97
  93. 93. 98
  94. 94. 99
  95. 95. 100 Ex : Trouver un mot qui remplace un autre.
  96. 96. 101
  97. 97. 102 Ex : Quelle est la courbe du mot voiture ?
  98. 98. 103
  99. 99. 104 Ex : Les Beatles sont-ils plus célèbres que le Christ ?
  100. 100. 105
  101. 101. 106 Ex : Qui l’emporte le bien ou le mal ?
  102. 102. 107
  103. 103. 108 Ex : Qui l’emporte le haut ou le bas ?
  104. 104. 109
  105. 105. 110 Ex : Qui l’emporte le chien ou le chat ?
  106. 106. 111
  107. 107. 112 Ex : Qui l’emporte la musique, la peinture ou la littérature ?
  108. 108. 113
  109. 109. 114 Ex : Qui l’emporte Mozart, Debussy ou Vivaldi ?
  110. 110. 115
  111. 111. 116 Ex : Qui l’emporte le rouge, le bleu ou le jaune ?
  112. 112. 117
  113. 113. 118 Ex : Qui l’emporte le 1, le 10 ou le 100 ?
  114. 114. 119
  115. 115. 120 Ex : Qui l’emporte le 100, le 1000 ou le 10000 ?
  116. 116. 121
  117. 117. 122 Ex : Est-ce que cela marche si les nombres sont écrits en lettres ?
  118. 118. 123
  119. 119. 124 Ex : Qui l’emporte entre le million ou le milliard ?
  120. 120. 125
  121. 121. 126 Richesse et l’importance stratégique de ce corpus de presse.
  122. 122. 127 Potentiel de l’analyse comparative avec les autres corpus numérisés.
  123. 123. 128 La prochaine étape est l’indexation sémantique
  124. 124. 129
  125. 125. 130
  126. 126. 131
  127. 127. 132 Une  nouvelle   manière  de  classifier   et  de  naviguer  au   sein  des  ar?cles.
  128. 128. 133 La  possibilité  de   construire  un   “Facebook”  du  passé.
  129. 129. 134 Rendez-­‐vous   dans  un  an.
  130. 130. 135 125 dhlab.epfl.ch ! frederic.kaplan@epfl.ch   @frederickaplan

×