Cf la seconde partie https://www.slideshare.net/lespetitescases/ralisation-dun-mashup-de-donnes-avec-dss-de-dataiku-et-visualisation-avec-palladio-deuxime-partie
Tutoriel pour réaliser un mashup à partir de jeux de données libres téléchargés sur data.gouv.fr et Wikidata entre autres avec le logiciel DSS de Dataiku. Après une introduction sur la notion de mashup et des exemples, cette première partie s'intéresse à la préparation de deux jeux de données issues de data.gouv.fr et provenant du Centre national du cinéma.
Ce tutoriel a servi de support de cours au Master 2 "Technologies numériques appliqués à l'histoire" de l'Ecole nationale des chartes lors de l'année universitaire 2016-2017.
2. Qu’est-ce-qu’un mashup ?
Tristan Eaton, 4-6 rue du Chevaleret, Paris 13
CC-BY https://www.flickr.com/photos/lespetitescases/29003193065/
Un mashup est une œuvre/création originale
mise au point à partir de l’assemblage/mise en
relation d’œuvres/créations existantes.
Le mot mashup est le plus souvent utilisé pour la
musique mais on le retrouve dans les autres arts
ainsi que dans le monde numérique lorsqu’on parle
de mashup de données.
3. Objectifs de l’exercice noté
Chaque groupe devra réaliser un mashup de
données. Les propositions :
?
5. Présentation du projet
• Créer une application à forte valeur ajoutée à partir de sources
hétérogènes
• Consolider des données éparses, individuellement faibles pour
créer une application riche.
REF DPT COM INSEE TICO
PA00078014 10Aix-en-Othe 10003Chapelle Saint-Avit
PA00078015 10Aix-en-Othe 10003Eglise de la Nativité
PA00078016 10Allibaudières 10004Eglise
PA00078017 10Arcis-sur-Aube 10006Château (ancien)
PA00078018 10Arcis-sur-Aube 10006Eglise
PA00078019 10Arrembécourt 10010Eglise Saint-Etienne
PA00078020 10Arsonval 10012Eglise
PA00078021 10Auxon 10018Eglise
REF : PA00088801
DPT : 75007
ETUD : RecensementimmeublesMH
INSEE : 75107
TICO : Tour Eiffel
ADRS : Champ-de-Mars
STAT : propriété de la commune
PPRO : La tour Eiffel : inscription par arrêté du 24 juin
AUTR : Eiffel Gustave (maître de l'œuvre)
SCLE : 4e quart 19e siècleun fichier .CSV contenant 43 720 enregistrements
de monuments
Objectifs
Source principale
6. Principes généraux
Maillage et enrichissement avec 6 sources
complémentaires : stations de métro, de trains, bases
de photos et description de Wikipedia…
Source
principale
Sources complémentaires
Web Service de
géo localisation
AIF
normalisation et
enrichissement
AFS
moteur de
recherche
AFS
Application
Monuments
Historiques
19. Principes généraux d’élaboration
Captation Sémantisation
Alignement Exploitation
du graphe
L’ajout d’un nouveau format d’exposition se limite à l’ajout d’un module
dans la chaîne d’exploitation du graphe et à l’écriture du mapping.
22. Jeux de données du mashup
Films sur
Wikidata
via
sparqlendpoint
Films sur
OMDB
via API
Liste des films
agréés CNC
1996-2015
via data.gouv.fr
Liste des 1er
films agréés CNC
2003-2015
via data.gouv.fr
Distribution
sur Wikidata
via
sparqlendpoint
Visa d’exploitation
Identifiant Wikidata
Identifiant Imdb
Titre du film + Année
23. Développement du Mashup avec Dataiku DSS
DSS (Data Science Studio) est un logiciel édité par la société française Dataiku (
http://www.dataiku.com/) qui offre un outil complet pour manipuler des données et
les traiter avec des algorithmes de machine learning
Version gratuite et instructions d’installation
http://www.dataiku.com/dss/trynow/
24. Visualisation du Mashup avec Palladio
Palladio est une application Web du HDALab (http://hdlab.stanford.edu/) de
Stanford qui permet de visualiser en quelques clics de souris sous différentes formes
(Galerie, Graphe, Carte…) des données historiques en chargeant un ou plusieurs
fichiers CSV.
http://hdlab.stanford.edu/palladio/
36. Interface de chargement du fichier
Charger le fichier principal du mashup : liste des films agréés CNC 1996-2015
ListeFilmsPremièreExclusivité.xlsx
37. Interface de prévisualisation du fichier
Dans ce cas, les données à charger ne
sont pas sur la première feuille affichée
par défaut.
Les colonnes détectées automatiquement
Format du fichier
Eléments de configuration spécifiques à
chaque format
38. Interface de prévisualisation du fichier
Ignorer les N premières lignes et indiquer la
ligne précédant celle correspondant aux en-
têtes de colonnes
44. Liste des jeux de données
Reproduire la procédure en chargeant le fichier : liste des 1er
films agréés 2003-2015
production cinématographique - liste des premiers films.xlsx
45. Affichage du flux de traitement
Les différents types de « recette » de
manipulation de données
56. Le travail s’effectue sur un échantillon
Quand tous les traitements sont configurés, n’oubliez pas de cliquer
sur « Run » pour l’appliquer à tout le jeu de données
58. Filtrer les données
Filtrer, repérer ou supprimer des lignes en fonction d’une valeur, d’un intervalle de dates ou de
nombres, de la validité de la donnée, de la présence d’une valeur, supprimer des colonnes
59. Nettoyage de données
Normaliser des données de mesure, repérer ou filtrer des données, remplir des cellules vides
avec une valeur ou une valeur d’une ligne suivante ou précédente, convertir des nombres…
60. Manipulation de chaînes de caractères
Découper, transformer (casse, trim, diacritiques, encodage URL, XML…), manipuler une chaîne,
exécuter une expression régulière
61. Manipulation de nombres
Extraire des nombres, convertir les nombres suivant un format national, convertir une date
UNIX, effectuer des opérations entre les valeurs de colonnes, arrondir, convertir une devise
62. Séparer/extraire
Séparer une colonne, extraire avec une expression régulière, séparer une adresse email, extraire
une donnée dans une cellule contenant un flux Json
63. Manipulation de logs de serveur Web
Classer les user-agent, découper une chaîne HTTP, générer un identifiant de visiteur, trouver le
pays d’un internaute à partir de son adresse IP
64. Manipulation des dates
Analyser une chaîne de date, extraire des éléments de date, formater une date, calculer la
différence entre deux dates, calcul si le jour est chômé
65. Manipulation de données géographiques
Joindre deux jeux de données par les coordonnées géographiques, géolocaliser (via API
externe), changer le système de coordonnées, calculer distance entre deux points, géographie
administrative à partir d’une coordonnée géographique…
66. Enrichir les données
Enrichir des données à partir des départements, des codes postaux, jointure entre deux jeux de
données, extraire à partir d’une colonne géographique…
68. Manipulation de longues chaînes
Simplifier une chaîne (normalisation, stop words, stemmatisation), « tokeniser » une chaîne,
extraire des ngrams, extraire des nombres, compter des occurrences
69. Jointure de deux jeux de données
Jointure entre deux jeux de données avec des valeurs de cellules, jointure entre deux jeux de
données avec des valeurs approchantes, jointure géographique
77. et les visualiser
Dans notre cas, on voit qu’une colonne de type « integer » (entier) contient des valeurs avec des
lettres, il est nécessaire de modifier le typage de données.
90. Construire le patron de dates
Lettre Date ou composant Type de données Exemples
G Era designator Text AD
y Year Year 1996; 96
Y Week year Year 2009; 09
M Month in year Month July; Jul; 07
w Week in year Number 27
W Week in month Number 2
D Day in year Number 189
d Day in month Number 10
F Day of week in month Number 2
E Day name in week Text Tuesday; Tue
u
Day number of week (1 = Monday, ..., 7
= Sunday)
Number 1
a Am/pm marker Text PM
H Hour in day (0-23) Number 0
k Hour in day (1-24) Number 24
K Hour in am/pm (0-11) Number 0
h Hour in am/pm (1-12) Number 12
m Minute in hour Number 30
s Second in minute Number 55
S Millisecond Number 978
z Time zone General time zone Pacific Standard Time; PST; GMT-08:00
Z Time zone RFC 822 time zone -0800
X Time zone ISO 8601 time zone -08; -0800; -08:00
91. Indiquer le patron de la date et
générer le résultat dans une nouvelle
colonne
92. Analyser le résultat du traitement
Certaines lignes sont vides donc le
traitement n’a pas fonctionné pour
ces lignes
93. Filtrer pour voir les lignes vides
Le patron est différent pour ces lignes
111. Effectuez les traitements suivants
• Harmoniser les valeurs de la colonne NATIONALITE
• Enlever les espaces entre les slahs de la colonne
NATIONALITE
• Harmoniser les valeurs de la colonne DISTRIBUTEUR
• Remplacer dans la colonne ART ET ESSAI OUI par true et
NON par false
Penser à sauvegarder !!!
Exécuter sur l’ensemble du jeu de données