Définition
Les big data, littéralement les « grosses données »,
ou mégadonnées, désignent des ensembles de données qui
deviennent tellement volumineux qu'ils en deviennent
difficiles à travailler avec des outils classiques de gestion
de base de données ou de gestion de l'information.
-wikipédia-
2
D’où vient les données ?
Les applications et les services professionnels:
- ERP ’Entreprise Resource planning’
en français « progiciel de gestion intégré » (PGI) : Ce type de
logiciel correspond, pour une organisation, au support de base
capable d'assurer une « gestion intégrée», définie comme étant
l'interconnexion et l'intégration de l'ensemble des fonctions de
l'entreprise dans un système informatique centralisé (et
généralement configuré selon le mode client-serveur).
Les sources de production des données :
3
- CRM ’Customer Relationship Management’
en français « La gestion de la relation client » (GRC) : est l'ensemble
des outils et techniques destinés à capter, traiter, analyser les
informations relatives aux clients et aux prospects, dans le but de les
fidéliser en leur offrant le meilleur service
- SCM ‘supply chain management’
en français «gestion de la chaîne logistique» (GCL)
vise à garantir l'organisation et la qualité du service logistique en
conformité avec les dispositions figurant au cahier des charges
logistique.
- les outils de production de contenu et de bureautique (série
office) ou les intranets, etc.
Les sources de production des données : (suite)
4
Le Web
En utilisant le Web, Les entreprises et les organisations créent
un volume considérable de données (sites d’actualités, e-
commerce, publicités … )
Avec l’utilisation des moteurs de recherche et les annuaires
dans le web, le nombre des données crées est de plus en plus
innombrables.
"Nous créons actuellement en deux jours autant d'information
que nous en avions créée depuis la naissance de la civilisation
jusqu'en 2003".
rappelait récemment Eric Schmidt, Chairman de Google.
Les sources de production des données : (suite)
5
Les Media sociaux
Avec le développement des outils d’expression (le Web 2.0) ces
dix dernières années, le volume des données produites à eu une
croissance phénoménale.
exemples :
Réseaux sociaux : facebook, twitter, youtube, etc
Plateformes de partage : SlideShare, Flickr, Instagram, etc
Statistique :
Chaque minute, plus de 30 heures de vidéo sont uploadées sur
YouTube, 2 millions de posts sont publiés sur Facebook et
100.000 tweets diffusés sur Twitter.
Les sources de production des données : (suite)
6
Le Mobile
Avec l’évolution du mobile, et l’apparition du ‘smartphone’, Le
téléphone mobile est devenu une source respectable de
production des données.
Les statistiques prouvent qu’ il y a actuellement 4 fois plus de
téléphone mobiles en usage que des ordinateurs et tablettes.
Statistique :
A la fin 2013, l'App Store de Apple et Google Play auront
dépassé les 50 milliards d'applications téléchargées.
Les sources de production des données : (suite)
7
Internet des objets (IdO)
en anglais « Internet Of Things » (IoT)
un réseau qui permet, via des systèmes d’identification
électronique normalisés et sans fil, d’identifier et de
communiquer numériquement avec des objets physiques afin de
pouvoir mesurer et échanger des données entre les mondes
physiques et virtuels.
L'internet des objets est considéré comme la troisième
évolution de l'Internet, baptisée Web 3.0
Les sources de production des données : (suite)
8
Les catégories des données
Données Structurées
les informations structurées sont disposées de façon à être traitées
automatiquement et efficacement par un logiciel, mais non
nécessairement par un humain.
La ligne de code Java : int salaire = 6000; String nom=« Ali";
est un exemple simple d’informations structurées ,nous connaissons
les valeurs, dont le nom est associé à la fonction. Nous pouvons ici
supposer que le nom de l’individu est Jean et que son salaire est de
6 000 Dh.
Par opposition, la chaîne de caractères « Ali gagne un salaire de
60 000 dirhams » n’est pas structurée, car nous ne pouvons nous
attendre à ce qu’un logiciel puisse lire et comprendre une phrase
écrite en français.
9
Les catégories des données (suite)
Le plus souvent, nous disposons les informations structurées
dans des tableaux, comme dans une base de données
relationnelle
Nom Salaire
Ali 6000
Mohammed 7000
10
Les catégories des données (suite)
Les données non structurées
Il est impossible de tout stocker sous la forme d’informations
structurées (p. ex. lettres, courriels, livres, rapports, collections
d’images ou de vidéos, brevets, images satellites, offres de service
et CV, appels d’offre). Il s’agit pourtant d’informations que les
organisations doivent traiter.
Les big data sont généralement des données semi structurées.
11
Les dimensions du BIG DATA
Les
dimensions
du big data
Volume
Vitesse
Variété
Véracité
Visibilité
Valeur
12
Le Volume : Le premier concept qui intervient dans la notion
du big data, données en petabyte( 1015 bytes )
La Vitesse : Analyse et exploitation des données en temps réel.
La Variété : Les données sont non structurées, et de plus sont de
formats différents (images, texte, sons, vidéos , etc.)
La Valeur : Les données concernées sont de valeur importante
dans l’entreprise.
Les 4v principaux
13
Pourquoi la notion du big data est
récente ?
L’expression « Big data » fait finalement son apparition en
octobre 1997 dans la bibliothèque numérique de l’ACM*, au sein
d’articles scientifiques qui pointent du doigt les défis
technologiques à visualiser les « grands ensembles de données ».
Le Big data est né, et avec lui ses nombreux défis..
*Association For Computing Machinery, association américaine à but non
lucratif fondée en 1947 et vouée à l’informatique. Sa bibliothèque
numérique est particulièrement riche quand il s’agit de retracer l’histoire
de la discipline.
14
Facteurs de naissance du Big data
Le cout du stockage : Ce concept n’est plus un problème majeur
pour les entreprises avec l’apparition du Cloud Computing.
Réseaux à très haut débit (THD) : Le stockage des données dans
des serveurs distants n’est pas une vrai solution sans un réseau
hait débit pour atteindre ces données avec une transparence à la
localisation.
Evolution des technologie de gestion et d’analyse des données :
Analyse et gestion en temps réel
15
Usages des Big Data
Optimisation
Optimisation du temps de calcul, recherche, traitement des
données, etc.
exemple:
Une société de de fabrication d’éoliennes nommée Vestas ,
utilise les ‘ big data analytics ’ d’IBM pour décider la localisation
d’éoliennes en optimisant le temps de traitement des données
variées et non structurées (données météorologiques et géo
spatiales, des images satellites, etc. )
>> résultat fournit en quelques heures, au lieu des études qui
prennent des semaines sur terrain.
16
Tracer et cibler
Les big data permettent d’analyser la situation et le contexte de
millier de personnes en temps réel.
Application : (big data dans l’aéroport)
les passagers doivent obligatoirement passer un certain
nombre de tests de sécurité (ce qui génère du stress, des temps
d’attente).
Une application de géolocalisation dans l’aéroport pourrait
offrir aux passagers, en retour de leurs données émises, un guide
interactif du lieu, des informations sur les temps d’attente aux
différents postes de sécurité, sur les horaires des vols et portes
d’embarquement, alors ils peuvent exploiter leurs temps
d’attente dans des boutiques ou des restaurants, etc.
17
Usages des Big Data (suite)
Usages des Big Data (suite)
Prévoir et prédire
L’analyse prédictive permet de faire des projections ultra
réalistes pour identifier des nouvelles sources d’opportunités (ou
des menaces) et ainsi anticiper les réponses adaptées à la
situation réelle.
Exemple :
‘Flu Trends’ est un modèle de Google qui permet d’estimer la
propagation des cas réels de grippe en fonction des recherches
sur Internet, prenant en compte le fait que tous les internautes
qui tapent « grippe » sur leur clavier ne sont pas nécessairement
malades.
Automobile et Autres usages …
18
Visualisation des données
Pourquoi on visualise les données ?
‘’ Une image (data visualisation) vaut mieux qu'un long (big)
discours (data) ‘’
Une visualisation intelligente et utilisable des analytics sont un
facteur clé dans le déploiement du Big Data dans les entreprises.
Le développement des infographies va d'ailleurs de pair avec le
développement des techniques d'exploitation des données.
19
Visualisation des données (suite)
La visualisation des big data permet :
La prise de décision
Une Data Visualisation de qualité donnera aux managers le
moyen de manipuler de larges volumes de données pour faire
émerger des tendances, ou encore répondre à des questions
spécifiques.
Grâce à des outils de comparaison et de croisement dynamiques,
les managers peuvent faire apparaître des informations perdues
sous le flot de données, qui ne peuvent se révéler qu’après avoir
été visualisées.
20
Visualisation des données (suite)
se concentrer sur l’essentiel, plus rapidement
La principale raison pour laquelle la Data Visualisation est
demandée par les entreprises est la confusion qui accompagne la
surcharge de données : celles-ci sont éparpillées dans des feuilles
de calculs, des bases de données, des espaces de stockages… Leur
interprétation devient difficile. A l’inverse, le but de la Data
Visualisation va à l’essentiel en regroupant toutes ces données
sur un seul écran, et en les traitant intelligemment grâce à des
filtres, des groupes et des classements pertinents.
21
Visualisation des données (suite)
22
Exemple :
Fichier visualisé :
Les misérables de Victor Hugo
Nombre de nœuds : 77
Nombre des liens : 254
Algorithme de spatialisation :
Force Atlas
Outil de visualisation :
Gephi 0.8.1
Visualisation des données (suite)
Même fichier avec d’autres algorithmes de spatialisation :
23
Fruchterman-Reingold Force Atlas 2
Conclusion
Avec la notion du big data, les problèmes volume des
données, variance, hétérogénéité, le temps d’analyse
des données et plein d’autres problèmes ne sont plus
de la même complexité qu’avant. C’est la nouvelle
génération des données.
24