Odile Gaultier Voituriez et Diego Antolinos-Basso_La sondothèque du CEVIPOF
1. LA SONDOTHEQUE DU
CEVIPOF
Diego Antolinos-Basso, développeur data-scientist
Odile Gaultier-Voituriez, responsable de la documentation et des archives
Centre de recherches politiques de Sciences Po (CEVIPOF)
RASAD, Angoulême, 2 février 2018
Une coopération fructueuse entre un spécialiste
du traitement des données numériques et
une responsable de la documentation et des
archives
2. Plan
Introduction
Sciences Po
Le CEVIPOF
Laboratoire
Projet scientifique
Le centre de documentation
La sondothèque
En chiffres
Traitement
Histoire
Un cas d’étude
Conclusion
3. Introduction
Coopération
Dans un laboratoire de recherche
À tous les niveaux
Une histoire d’« archéologie numérique »
Conserver, consolider et valoriser
Projet exploratoire et inédit
Nous espérons que cela
vous sera utile !
4. Sciences Po
L’Ecole libre des sciences politiques (ELSP) puis
la Fondation nationale des sciences politiques
(FNSP) et l’Institut d’études politiques (IEP) de
Paris
Deux dates fondatrices : 1872 et 1945
Quatre missions :
Enseignement
Recherche
Documentation
Edition
5. Le CEVIPOF
Un laboratoire de recherche en science politique,
à Paris
Fondé en 1960 par la Fondation nationale des
sciences politiques (FNSP)
Unité mixte de recherche (UMR) du CNRS en
1968
Deux axes de recherche interdisciplinaires :
Pensée politique
Partis, comportement politique et élections
=> besoin de documentation et de sources
6. Le CEVIPOF
Projets et questions de recherche
Travailler avec et pour les chercheurs
Archives par et pour la recherche
Objectivité parfaite et exhaustivité utopiques
Mise à disposition de tous
Volonté du directeur de recruter un spécialiste
des données (compétences intellectuelles et
techniques)
7. Documentation :
Production scientifique des chercheurs : ouvrages,
rapports, thèses, mémoires, chapitres et articles
Ouvrages de référence
Résultats électoraux et livres blancs
Archives électorales
Tracts politiques hors élections
Archives d’enquêtes
Archives administratives
« Sondothèque »
Le centre de documentation
8. Sondages d’opinion en France
Domaine politique, économique et social
Co-construction par et pour la recherche
Fonds unique en France car les instituts ont
très mal conservé leurs sondages
Années 1950 à aujourd’hui
Différents instituts : BVA, CSA, ELABE, Harris
Interactive, IFOP, IPSOS, Louis Harris,
SOFRES
Papier (1958 à 2000) numérique (depuis 2004)
Rapports, presse et publications scientifiques
La sondothèque
10. 25.000 sondages d’opinion
800 cartons d’archives
80 mètres linéaires
579 thématiques
53 ans
La sondothèque : en papier
11. 9000 sondages
600 à 700 sondages par an
depuis 17 ans
La sondothèque : numérique
12. La sondothèque : équipe
Missions
Nadia Dehan
Guy Michelat
Diégo Antolinos-Basso
Odile Gaultier-Voituriez
Émilie Fromont
Lauren Clark
Martial Foucault
Années 70 à 2010 2014-2018
13. Classement par institut de sondage
Chronologiquement, sauf pour certaines séries
spécifiques, à part : baromètre politique, images des
personnalités politiques
Fonds ouvert : s’enrichit quotidiennement
Description documentaire & classement
Type de document : rapport, presse, livre, web
Numérisé ou papier
Institut
La sondothèque : traitement
14. Alimentation : ~1970 à décembre 2010
Logiciel Fox Pro (outil de bases de données)
Chaque pièce (unité intellectuelle et matérielle)
dispose également d’un code
sur le document et dans la base
Plan de classement thématique qui a
progressivement évolué (579 thèmes en 2008)
Dates de collecte et de publication pas toujours
évidentes à identifier
La sondothèque : données
15. Problèmes techniques :
Développement d’un outil spécifique : la version de
Fox Pro a été modifiée par Guy Michelat
Obsolescence de l’outil : ni maintenance, ni mise à
jour, ni migration en temps voulu
Projet lié à une personne :
Alimentation au long de sa carrière
Seule à maîtriser la base, à en connaître les détails
Problèmes intrinsèques aux données :
Identification des informations du document
Qualification thématique
La sondothèque : écueils
16. Pendant 4 ans après le départ à la retraite de
la documentaliste chargée de la sondothèque
Combat pour récupérer les données et les
métadonnées car conscience de leur intérêt
Problème d’accès pour le public : uniquement
via les impressions papier de la base
Traitement documentaire et non archivistique
(pas de cote ; code correspond à la pièce et non
au carton)
La sondothèque : pause
17. Besoin de compétences en« archéologie
numérique »
Compréhension du problème
Connaissance des données : repérage des champs,
etc.
Identification et propositions de solutions techniques
Discussions et échanges nourris à chaque étape
du projet de récupération
Les choix intellectuels et techniques ont des
conséquences bien réelles
La sondothèque : renaissance
18. Migrer une base de données prisonnière d’un
outil obsolète : sauver l’existant sans détruire
Extraction du disque dur de la machine
Récupération des données brutes de la base
Conversion des fichiers obsolètes
Itérations : nettoyage-sauvegarde, etc.
Résultats : un tableau Excel de 25000 lignes
La sondothèque : récupération
21. Index : numéro de document
Type de document : rapport, presse, livre
Numérisé : parfois entre 2000 et 2008
Titre et complément : encore souvent inversé
Dates de publication : deux dates possibles
Date de collecte : début de collecte
Institut chargé de réaliser le sondage
Commanditaire du sondage
Type d’échantillon
Âge des membres de l’échantillon
Codes thématiques
La sondothèque : variables
22. Travail effectué par une archiviste
professionnelle
Récolement du fonds
Cotation du fonds : sous-séries par institut de
sondage
Inventaire sommaire sous Excel
La sondothèque : version n°2
24. Volonté du directeur du CEVIPOF de valoriser la
sondothèque
Cas d’étude dans le cadre de la présidentielle 2017
Projet Enquête électorale française (ENEF) 2017
Repérer les sondages d’intentions de vote à la
présidentielle depuis 1965 dans la sondothèque
Saisir les données
Prototyper une visualisation des données extraites
Mettre en ligne sur Internet ces visualisations
La sondothèque : cas d’étude
Les sondages d’intention de vote pour
l’élection présidentielle depuis 1965
25. Extraction des sondages d’intentions de vote par
requêtes dans la base par Diego Antolinos-
Basso : dates, mots-clefs, thématiques
Repérage physique des sondages dans le fonds
d’archives par Émilie Fromont, archiviste
Saisie des données contenues dans les
sondages d’intentions de vote par Lauren Clark,
stagiaire en science politique
La sondothèque : cas d’étude
Les sondages d’intention de vote pour
l’élection présidentielle depuis 1965
26. Exemples de problèmes posés lors de la saisie
Quand il y a plusieurs hypothèses de candidats,
laquelle retenir ?
18 mois avant la présidentielle, certaines hypothèses
ne contiennent aucun candidat réellement présent au
2d tour, que faire ?
Combien de candidats retenir quand liste d’une
vingtaine de candidats potentiels ?
=> risque de biais méthodologique
La sondothèque : cas d’étude
Les sondages d’intention de vote pour
l’élection présidentielle depuis 1965
27. Autres problèmes posés par la mise en ligne
Juridiques : ne pas mettre en ligne les rapports de
sondages eux-mêmes, propriété du commanditaire,
mais une visualisation à valeur ajoutée
Graphiques : difficile de tout représenter (date,
candidat, institut, plusieurs sondages à la même date)
=> choix
La sondothèque : cas d’étude
Les sondages d’intention de vote pour
l’élection présidentielle depuis 1965
28. La sondothèque : cas d’étude
Intentions de vote pour l’élection présidentielle de
1974
29. Conclusion
Complémentarité :
Entre les différentes personnes
Entre les compétences de chacun
Compréhension et reconnaissance :
Mutuelles des personnes (permanents et ponctuels)
De l’apport du travail des autres
Les choix techniques et intellectuels ont des
conséquences en termes archivistiques mais
également pour la recherche scientifique.