Your SlideShare is downloading. ×
Matinée 01 Big Data
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Matinée 01 Big Data

2,039
views

Published on

Published in: Business

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,039
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
138
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Digital universe grew by 62% last year to 800 000 petabytes (peta=million gigabytes) and will grow to 1.2 “zettabytes” (zetta=million petabytes) this year then in 2020 we expect 35 zettabytes
  • Big Data Processing. New connectivity in Informatica 9.1 enables IT to load data from any source into Hadoop, and extract data from Hadoop for delivery to any target. The connectivity also allows the application of Informatica data quality, data profiling, and other techniques to data in Hadoop. These capabilities open new possibilities for enterprises combining transaction and interaction data either inside or outside of Hadoop. Confidently deploy the Hadoop platform for Big Data processing with seamless source-and-target data integration Integrate insights from Hadoop Big Data analytics into traditional enterprise systems to improve business processes and decision-makingLeverage petabyte-scale performance to process large data sets of virtually any type and origin  We are also looking to develop Graphical integrated development environment for Hadoop environment in the future release
  • Business Problem: Develop a centralized clearing house of sensor data for continual analytics to improve yield and safety.Raw data size of 2+ TB per rig per day, over centralized storage environment will be at 4 PB+ in 18 months easily.Shell has 40k sensors per rig but only uses data from 10% of them.Technical Challenges:Log on to sensor units from a central location.Preprocess & manage large amounts of data at multiple remote sites.Move the data from the site to a more central location often using poor commutations connections.Load the sensor data onto an server (separate from the hardware at the remote site) and determining whether they can optimize the data streams form this server to the central database.Create a central repository where data from multiple sites can be collected and kept for a long period of time.Opportunity Identification:What percentage of your sensor data do you actually use?How are you doing your real-time analytics?What is your big data strategy for dealing with theseHow are you doing your cross-rig correlation and learning.
  • There is news of a large meteorite approaching your datacenters. Some call it Big Data.Others ignore it. But early signs of cosmic particles tells us that its arrival is imminent.I’d like to help you prepare for it, at least from the perspective of your storage strategy.
  • Big Data is not just big. It is very fast, more real-time than we are used to and will need to be widely shared. Quite the contrast for the more batched G00211490 G00226066Latency can be cripplingSource:
  • All the interest comes from the promise of bigger fortunes. Real-time inputs bring us greater situational awareness, which lead to better, more timely decisions, which result in better financial outcomes.I’m feeling rich already.
  • When you take a closer look at Big Data, you uncover some very challenging attributes.Whereas today information appears to settle into convenient buckets and relatively easy to characterize, Big Data is never at rest. It roars in while it’s hot and quickly becomes lukewarm almost stale. Which means that our retention policies must change as well or we’ll become hoarders.G00211490
  • I see this as one of the few opportunities in our short careers to make major structural renovations. A rare chance to justify modernizing and aligning to the business needs by re-architecting our storage management techniques and making them highly adaptable.Fortunately, it’s not that difficult to pull this off. G00214426
  • Let’s consider a major innovation helping facilitate our task. The recent development of a storage hypervisor layer sitting between apps and storage insulating data management from all the hardware variables that Big Data throws our way.I’m going to spend a few minutes on this topic, since it has broad applicability across your infrastructure from the on-premises resources that you are so familiar with to the new cloud-based assets available for harnessing.You’ll also find it an essential ally in accelerating access to data
  • Inless abstract terms, the storage hypervisor is your agent of change in making raw data not only quicker to get to, but far more shareable. Automatically directing traffic among the assortment of storage devices at your disposal, and caching it close to the apps. Operationally, it gives you centralized control.You may already be employing these techniques in your server virtualization efforts, now apply them to disks.I’ll speak about each of them individually.
  • Resource pooling has the most immediate impact, enablingyou to aggregate the combined disk capacity across your IT infrastructure. This has the effect of making disks shareable to the most needy app while reclaiming apreviously inaccessible space.You’ll need a storage hypervisor to pull this off. Just like a server hypervisor, the specialized software emulates hardware so as to hide incompatibilities between different models.
  • This diagram may give you a good idea of the relative position of the storage hypervisor in the processing stack.
  • Perhaps it even makes more sense when seen alongside other forms of hypervisors, notably server and desktop variants.
  • The storagevirtualization software incorporates a great deal of automation.First to avoid waste, and more dynamically, to direct higher priority workloads to the fastest disks.Underneath, you’ll discover the magic of device-independent thin provisioning and auto-tiering at work.
  • Ready for more adventure?Travel with me one more hop into the hybrid cloud. That’s where you auto tier between your on-premises capacity and off-site disks rented from one of the commercial Cloud providers. Comes in real handy when you need a little scratch space, or when you are archiving documents that don’t require the same security or regulatory oversight as other consumers. It’s also a great option for storing contents that may need to be recovered during a disaster. More on that in a minute.
  • Such dynamic juggling of diverse resources, particularly operating across equipment from different suppliers, is on the leading edge of 21st century cloud technologies. What seems like exceptionally well-running apps to the user, is largely a product of a well- balanced arsenal of purpose-built devices orchestrated by DataCore’s storage hypervisor. Combined with thin provisioning, they translate into major savings and big time agility.
  • The answer to speed needs a little more explanation.
  • During your selection, look for the storage hypervisor to encompass these off-site disks as merely an extension of on-premises capacity.
  • The most visible aspect of your newly enlightened sky view comes from centralized management. While much has been said in the past about monitoring dissimilar units, the innovations we’re speaking about extend into achieving common control.One menu with discrete actions across device families whether from the same manufacturer or different suppliers.Similar to a universal remote, with equally powerful universal scripting commands used by 3rd parties for rich cross-integration.
  • Which brings me to all the standardization talk going around. You may have noticed how small groups of vendors are banding together under the guise of standardization to dictate building blocks for private clouds. Each club has a different recipe calling out their hardware. They also imply that choosing components outside that elite member list jeopardizes the outcome.In stark contrast, the DataCore angle on standardization is all about interchangeability. Giving you the freedom to harness the best purpose-built equipment for each tier in the cloud. Allowing you to shop for the best value among competing hardware suppliers – all of which can do a good job. Key to making this work is sticking to established disk interfaces, and treating storage as no more than largely interchangeable chunks of disk space.
  • Usually, after incorporating the principles of pooling, automation, caching and centralized management, our clients are ready to reinvent themselves in other ways. They tap into nearby facilities which help them inexpensively overcome the confines of their four walls.
  • These measures bring significant benefit well beyond mere expansion. They are key to achieving continuous availability in the face of routine causes of planned and unplanned downtime. With equipment reliability hitting five 9s, outages these days are more frequently the result of ongoing changes in the surrounding environment. Be it upgrades to the devices or to the physical plant. Sometimes the interruptions are expected, other times they are not.My number one suggestion: Mirror your critical volumes between two rooms, as far as possible within a metro area so you can still treat them as one logical site. Normally, you will be OK within 100 kilometers.Once again, automation in the storage hypervisor kicks in to replicate the information in real-time, even between unlike storage devices. Then when one site has to be taken down, the other site takes over transparently. For added safeguard against regional disasters (earthquakes, storms, floods, etc,) you may want to keep a third copy very far away at a contingency site.
  • Where will you experience the biggest payoffs?Our clients quantify them this way:They postpone and even avoid major disk acquisitions as a result of fully utilizing the capacity already on hand. They attain much better service levels through faster provisioning, eliminating storage-related disruptions and speeding up response from applications.
  • I’d be glad to spend more time with you individually to discuss these techniques and hear what you anticipate running into as the Big Data meteor gets closer.Thank you.
  • Transcript

    • 1. le Mardi 14 février 2012Matinée 01BIG DATA
    • 2. 9h00 – 09h15 - OUVERTUREQu’entend-on réellement par BigData ?ParOlivier Rafal, directeur de recherche chez Pierre Audoin Consultants
    • 3. Big DataConcept et perspectives :la réalité derrière le ‘buzz’
    • 4. SommaireI. Perspectives marché Définition du Big Data Exemple concretII. Perspectives technologiques Pourquoi le NoSQL et Hadoop L‟après Big Data
    • 5. PAC en bref: l’analyse du marché informatique depuis 35 ans ! De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance des acteurs des TIC PAC est une société de conseil et d’études de marché spécialisée dans le domaine du logiciel et des services informatiques Plus de 35 ans d’expérience PAC aide:- Les fournisseurs de services informatiques à optimiser leurs stratégies en offrant des analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique.- Nous conseillons les DSI et les investisseurs Plus de 30 pays couverts dans l‟évaluation des fournisseurs TIC et leurs 6 bureaux PAC projets d‟investissements.- Les organisations et les institutions publiques se réfèrent également à nos études ciblées pour développer et mettre en place leurs politiques informatiques. Dernières actualités PAC sur notre blog : http://blog.pac-online.com/
    • 6. PAC en bref:suivi particulier de la Business Intelligence
    • 7. PERSPECTIVES MARCHÉ
    • 8. Le Big Data, c’est au choix… « Un buzz orchestré par les fournisseurs de technologies, les « On verra quand on aura des analystes et les médias » Pétaoctets de données à gérer » « L’avenir de la BI, la réponse à tous les « Une évolution problèmes » naturelle » « Seulement utile aux « Réservé aux grands comptes » quelques grands acteurs du Web » « Uniquement lié à la technologie Hadoop »
    • 9. Big Data : une évolution naturelle Nouvelles sources de données Importance des Explosion du (M2M, Open Data, Science…) conversations ‘UGC’ Big Data : intégrer ces évolutions et contraintes pour Métriques Accélérationapplicatives transformer les données en des cycles de orientées information exploitable dans le décision business cadre de son business Démocratisation de la BIPatrimoine informationnel non structuré / Découverte
    • 10. Big Data : les problématiques de M. Jourdain Volumétrie : gestion de stocks, gestion de commandes,transport/logistique/RFID, transactions financières, services grandpublic… Variété : CRM / Marketing / SAV, communication financière… Vélocité : Mode, Jeu, Electronique grand public, gestion desstocks, gestion des commandes… Mieux connaître son client Améliorer son offre Agir avant la compétition
    • 11. Exemple concret de Big Data Kobojo, PME française Jeux pour les réseaux sociaux Evolutions quotidiennes Indicateurs techniques : 300 à 400millions de données par jour et par jeu  Au-delà ? Facebook, Twitter…
    • 12. PERSPECTIVES TECHNOLOGIQUES
    • 13. Le point de départBase OLTP Datamart Datawarehouse ? Contenu non structuré
    • 14. Big Data : perspectives technologiques Des systèmes traditionnels au NoSQL Problématique apparue il y a dataune dizaine d’années chez les Applicationsgros « producteurs » de data analytiquesdonnées : Finance, Retail,Services online… data Hadoop / Besoin de solutions plus Mapperformantes que les SGBDR Reducestandards pour ce besoin dataparticulier de volumétrie Base d’analyse Not Only SQL data Consensus sur Hadoop /MapReduce
    • 15. Big Data : perspectives technologiques Du NoSQL au futur SQL ? Maturité du marché Hadoop  IBM : InfoSphere BigInsights  Oracle : Big Data Appliance (avec Cloudera)  Microsoft : exit Dryad, bonjour Hadoop  Informatica : Data Integration Platform for Hadoop … Besoins non couverts par Hadoop  transactions ACID  SQL comme langage d’interaction  Mécanismes de verrouillage non bloquants …
    • 16. Big Data : perspectives technologiques Quand le Big Data deviendra la norme… Emergence de nouvelles solutions  In-Memory  SSD  CEP (CloudScale…)  Moteurs de stockage (Xeround, GenieDB…)  SQL nouvelle génération (VoltDB, Clustrix…) … Qui préfigure une assimilation progressive !
    • 17. L’évolution possible Contenu Web Data as a Moteur de service recherches / BI visuelle / text Data analytics flux C NoSQL / Data NewSQL flux E P Data Applications ETL/ analytiques flux Data Quality ? Datawarehouse Contenu DB
    • 18. Olivier Rafal Directeur de recherches, Marchés logiciels Information Management o.rafal@pac-online.com @olivierrafalMERCI !
    • 19. 09h15 – 09h50 - TABLE RONDEBig Data : juste un concept ou une réponse àde réels besoins ? Attentes et Usages Pour quels types d’entreprise et de besoins ? Remplaçant du datawarehouse traditionnel ? Quid du temps réel et du transactionnel ?Avec Jacques Milman, expert avant-vente Big Data et analytique chez IBMDominique Girardot, directeur d’Anteo, Groupe SodifranceFrançois Guérin, directeur technique chez Sybase
    • 20. 09h50 – 10h10 - Avis d’expertPourquoi et comment intégrer les volumineusesdonnées du Web (réseaux sociaux, e-commerce…)dans son système d‘information décisionnel ? Quels services de l’entreprise sont concernés ? Le triptyque “Big Transaction Data- Big Interaction Data- Big Data Processing (Hadoop)” Le MDM, pierre angulaire d’un SI destiné aux utilisateurs métierAvec Bruno Labidoire, directeur technique Europe du Sud chez Informatica
    • 21. #BigData, au-delà du concept marketing Bruno Labidoire Directeur Technique, Europe du Sud21 21 21
    • 22. Big DataUne convergence de 3 domaines BIG TRANSACTION DATA BIG INTERACTION DATA Online Online Analytical Données des Transaction Processing média sociaux Processing (OLAP) & Tickets d’appels, (OLTP) DW Appliances Click stream, etc Données scientifiques Capteurs BIG DATA PROCESSING 22 22
    • 23. Big Transaction DataBases relationnelles et analytiques BIG TRANSACTION DATA Online Online Analytical Transaction Processing Processing (OLAP) & (OLTP) DW Appliances Oracle EMC Greenplum DB2 Teradata Britton-Lee Redbrick Ingres EssBase Informix Sybase IQ Sybase Netezza SQLServer DataAllegro Asterdata Vertica Paraccel Hana 23 23
    • 24. Le décisionnel proactif• On peut par exemple définir de nouvelles campagnes potentielles associées à ces média sociaux !American Express a aidé les PME à augmenterleurs revenus d„années en années de 28%pendant le week-end suivant Thanksgiving avec“Small Business Saturday” une campagneimpliquant 1,5 million de fans Facebook 24 24
    • 25. Les challengesLes données issues des média sociaux peuvent êtrecolossales! Interactions Transactions Source: An IDC White Paper - sponsored by EMC. As the Economy Contracts, the Digital Universe Expands. May 2009. . 25 25
    • 26. Réseaux sociaux Un potentiel en pleine croissance Consommateur Entreprise Consommateurs utilisant les principaux Réseaux Sociaux 2004-20111,000 900 800 700 600 500 400 300 200 100 0 2004 2005 2006 2007 2008 2009 2010 2011 Facebook LinkedIn Twitter 26 26
    • 27. Réseaux sociauxDes formes multiples 27 27
    • 28. Réseaux sociaux Comment profiter de ces grands volumes d’informations ?Curriculum Extraire Curriculum Analyser Curriculum Gérer Curriculum Associer 28 28
    • 29. Réseaux sociaux Comment profiter de ces grands volumes d’informations ? T_Young Tony Y. iDroidBerry 9800 challenged meeting our enterprise security requirements and battery life is also area of concern.Curriculum Extraire Curriculum Analyser Curriculum Gérer Curriculum Associer 29 29
    • 30. Réseaux sociaux Comment profiter de ces grands volumes d’informations ? Entity Extraction & Identity Resolution T_Young = Tony Young Relationship Resolution Tony Young works @ Informatica Relationship Analysis Tony‟s Sphere of Influence, CIO @ INFA Sentiment Scoring Enterprise Security -3.5, Battery Life -3.2Curriculum Extraire Curriculum Analyser Curriculum Gérer Curriculum Associer 30 30
    • 31. Réseaux sociaux Comment profiter de ces grands volumes d’informations ? Databases Informatica MDM External Data Applications Client Produit … Providers DataCurriculum Extraire Curriculum Analyser Curriculum Gérer Curriculum Associer Warehouses Operational Applications 31 31
    • 32. Big Transaction DataComment profiter des données transactionnelles ? Cloud Computing Enterprise Partner Trading Network (B2B) Warehouses … SWIFT NACHA HIPAA Cloud Computing Partner Data Application Database UnstructuredCurriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 32 32
    • 33. Big Transaction DataComment profiter des données transactionnelles ? Cloud Computing Enterprise Partner Trading Network (B2B)Curriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 33 33
    • 34. Big Transaction DataComment profiter des données transactionnelles ? Cloud Computing Enterprise Partner Trading Network (B2B) COMPLETENESS CONFORMITY CONSISTENCY DUPLICATION INTEGRITY ACCURACYCurriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 34 34
    • 35. Big Transaction DataComment profiter des données transactionnelles ? Cloud Computing Enterprise Partner Trading Network (B2B)Curriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 35 35
    • 36. Big Transaction DataComment profiter des données transactionnelles? Cloud Computing Enterprise Partner Trading Network (B2B)Curriculum Extraire Curriculum Découvrir Curriculum Nettoyer Curriculum Intégrer Curriculum Analyser 36 36
    • 37. Big Data ProcessingQu’apporte Hadoop ?• Une montée en puissance économique • Fonctionne sur des fermes de serveurs banalisés• Supporte tous les types de données • Structuré, Semi-structuré et non structuré• Extensible • Interfaces (APIs) ouvertes permettant d‟implémenter une logique spécifique 37 37
    • 38. Big Data ProcessingConnectivité Hadoop par InformaticaAnalyse de Détection des Analyses Analyses des Smart DevicesSentiment fraudes Predictives risques Hadoop Cluster Connectivité Hadoop (HDFS)• Load data to Hadoop from any source• Extract data from Hadoop to any target Weblogs, Mobile Databases, Dat Semi-structured Cloud Applications, Data, Sensor Data a Warehouses Unstructured Enterprise Applications Social Data 38 38
    • 39. Un exemple de mise en œuvre dans le décisionnel39 39 39
    • 40. Le décisionnel « classique » • La qualité des données est globalement égale à celle des systèmes opérationnels • Les indicateurs sont disponibles à J+1 • Les données clients/prospects peuvent être périmées et induire des tendances incorrectes dans les indicateursIl peine à répondre aux demandes métiers de fraîcheurde l‟information, rapidité de décision, et gestion proactivedes clients ! 40 40
    • 41. Le décisionnel avancé • Une solution de qualité des données a été mise en œuvre pour détecter (et corriger quand cela est possible) les erreurs dans les données. Ces erreurs sont notifiées aux systèmes opérationnels amonts pour correction. • Une partie des indicateurs est mise à jour au fil de l‟eau (intervalle d‟une minute à une heure en fonction du besoin fonctionnel). Les solutions de CDC (Changed Data Capture), bus messages et WebServices supportent cette mise en œuvre. • Des solutions de vérification d‟adresses postales et de croisement avec des bases externes entreprises (D&B) permettent d‟améliorer les données clients/prospects.Le métier accorde une plus grande confiance auxinformations du décisionnel et peut réagir plus rapidement,mais il supporte mal une approche proactive ! 41 41
    • 42. Le décisionnel proactif • Des « DB Appliances » sont mises en places pour supporter les volumes de données croissants (WebLog, etc) • Des solutions de connectivité aux médias sociaux sont mises en place pour enrichir la connaissance du client • Les clients peuvent être évalués non seulement sur les produits qu‟ils ont acquis mais aussi sur leur capacité d‟influence (nombre de leurs contacts dans les réseaux sociaux) et sur leur comportement (weblog) • Les marques concurrentes citées par ces clients peuvent être analysées pour compléter l‟analyse concurrentielle • Etc…Le métier découvre de nouvelles informations luipermettant une approche proactive et une anticipationdes besoins/tendances du marché ! 42 42
    • 43. La plate-forme Informatica43 43 43
    • 44. Informatica 9.1: Plate-forme de services de données Data Integration Projects Big Data Ultra Data Big Data Data Social Master Cloud Complex Big DataWarehousing Messaging Services Archiving Consolidation Data Data Event Collection & Management Integration Processing Exchange ODBC/ Web SUPPORT TOUS PROJETS SQL Batch JDBC Services Accès Qualité Retention Confidentialité Fraicheur GESTION DE TOUTES REGLES Data Integration Master Data Data Quality Test Data Management B2B SOA/ Business Management & Archiving Composite Apps Intelligence Client Commande Réclamation Support Produit Facture ACCES A TOUTES LES DONNEES Transactions Interactions SWIFT NACHA HIPAA …Cloud Computing Applications Databases Unstructured Warehouses NoSQL Social Partner Data 44 44
    • 45. 4545
    • 46. 10h10 – 10h30 - Avis d’expertIntégrer les solutions Big Data à l’existant. Apporter une réelle valeur ajoutée, en lien avec un existant multiforme, décisionnel comme transactionnelParIsabelle Claverie-Berge, expert technique Database Big Data chez IBM
    • 47. Information Management – Big Data Intégrer les solutions Big Data à lexistant Isabelle Claverie-Bergé, IBM Software, Information Management Architecte Isabelle_claverie@fr.ibm.com © 2012 IBM Corporation
    • 48. Information Management – Big DataBig Data : Une opportunité Acquerir/Observer Explorer/Gerer Analyser/Optimiser Customer Experience Customer Un Structuredcomment Intégrer les solutions Big Data à lexistant ? Mais Data Insight Transactional Data Profitability Optimization Historical Data Network Structured Data Referential Analytics Data Sets Audience Management Asset Optimization Streaming Data48 © 2012 IBM Corporation
    • 49. Information Management – Big DataBig Data: Un complément à l‟approche traditionnelle Approche Traditionelle Nouvelle Approche Structuré, analytique, logique Creative, Vue holistic , intuition Data Hadoop Streams Warehouse Transaction Data Web Logs Internal App Data Social Data Structured Unstructured Structuré Enterprise Exploratoire Exploratory Repeatable Mainframe Data Repetable Linear Integration Iterative Iterative Text Data: emails Lineaire Monthly sales reports Brand sentiment Profitability analysis Product strategy OLTP System Datasurveys Sensor data: images Maximum asset utilization Customer ERP data Sources Nouvelles RFID Sources traditionnelles © 2012 IBM Corporation
    • 50. Information Management – Big DataBig Data : Les points d‟intégration Rules / BPM IBM Big Data Solutions Client and Partner Solutions iLog & Lombardi Data Warehouse InfoSphere Warehouse Big Data Analytics Warehouse Appliances Applications Text Statistics Financial Geospatial Acoustic IBM & non-IBM Image/Video Mining Times Series Mathematical Master Data Mgmt INTEGRATION InfoSphere MDM Data Big Data Enterprise Engines Database DB2 & non-IBM Content Analytics Processes InfoSphere Streams InfoSphere BigInsights ECM Productivity Tools & Optimization Business Analytics Workload Job Data Provisioning Job Management & Workflow Ingestion Information Server Scheduling Tracking Cognos & SPSS Optimization Manageability Management Admin Configuration Activity Identity & Data Marketing Tools Manager Monitor Access Mgmt Protection Unica Connectors Applications Blue Prints Data Growth Management InfoSphere Optim © 2012 IBM Corporation
    • 51. Information Management – Big Data Exemple: Vision client 360 Guardium Customer Identification Privacy Master Data Management Data Privacy InfoSphere InfoSphere Optim for Test Quality DB2 Data, Redaction, +++ MDM Stage Data Customer Intelligence Appliance Quality Data Models Out-of-the-box analytics Information Server Cognos Pre-built Customer Integration behavioral IBM Global Business Appliance attributes Services IBM Retail Data Model Core Metrics Unica Enterprise Data Warehouse Applications and Operational Analytics Online Archive OLTP and Big Data Integration Managing Growth Built-in Integration into Big Data Optim Data Archive Informix DB2 SAP solidDB DB2 © 2012 IBM Corporation
    • 52. Information Management – Big Data Exemple: exploration et surveillance pétrolière Volumes of raw structured and unstructured data Reservoir and Process Staging Platform Modeling and Simulation Applications Cleansing and Transformation of many types of data with different formats Operational BI and Statistical InfoSphere Subject-area source Applications BigInsights systems ODS Real-time streaming data (structured and unstructured) Netezza DW Cognos and Real-time SPSS dashboards InfoSphere and analytics Streams Traditional data sources Event detection and (ERP, CRM, databases) capture of real-time data52 © 2012 IBM Corporation
    • 53. Information Management – Big Data THINKhttps://www.ibm.com/services/forms/signup.do?source=sw-infomgt&S_PKG=bdebook153 © 2012 IBM Corporation
    • 54. Information Management – Big Data © 2012 IBM Corporation
    • 55. 10h30 – 10h50 - Avis d’expertPourquoi et comment préparer le SI à l’avènementdu BIG DATA ? Quel est l’enjeu métier de cette approche ? Pourquoi l’urbanisation, le management des données et la création de référentiel sont incontournables dans un tel contexte ? Pourquoi la qualité des données est-elle au centre du débat ?Par Stéphane Lextreyt, Sodifrance
    • 56. Comment préparer le SI à l’avènement du BIG DATA ? Maîtrisez votre capital Données
    • 57. BIG DATA : POURQUOI S’Y PRÉPARER ?Déluge informationnel … Où sont les données « métiers » ? Exploiter les tendances qui se Cloud dégagent de l’écosystème environnant OUI MAIS … Quel crédit accorder à ces données ? Comment en faire un élément de décision ? Alors les données doivent être : Fiables Cohérentes Centralisées Source d’agilité Partagées du SI ….
    • 58. UNE APPROCHE GLOBALE ET STRUCTURÉEAccroître l’efficacité duSI… Maitriser les données internes au SI Transformer les données en informations fiables Partager des informations à forte valeur ajoutée Capitaliser sur les données Métiers Maintenir un niveau de qualité élevé Diminuer significativement le coût de gestion des données
    • 59. DATA MANAGEMENT, UNE FORTE EXPÉRIENCESODIFRANCE, SSII innovante 25 ans d‟expérience Un CA de 68,2 M€ en 2011 (+8,2%) 930 collaborateurs sur 12 implantations en France Une approche projet : 53 % du CA en engagement de résultats Un Centre R&D dédié au développement de nos solutions outillées Une clientèle de grands comptes fidèles  170 projetsALCARA CREDIT MUTUEL MALAKOFF-MEDERICCREDIT AGRICOLE STE GENERALE CNP-ASSURANCESGMF BPCE YVES ROCHERMAAF ADP-GSI DIAC en Data ManagementMMA RSI AXABNP-PARIBAS AIR France MERIALEUROPCAR STACI AREAS
    • 60. DATA MANAGEMENT : DÉFINIR SA TRAJECTOIRE Définir la stratégie et la gouvernance Concevoir l’architecture cible et la trajectoire Recommander les choix technologiques Cadrer le projet et la démarche Sécuriser l’atteinte des objectifs Conduire le changement
    • 61. LE CYCLE DE VIE DE A à Z … Industrialiser la maîtrise et l’évolution du SI Accélérer l’adaptation de l’entreprise Ouvrir le SI aux nouvelles applications Réduire les coûts de maintenance
    • 62. COMPRENDRE ET MAITRISER L’EXISTANT Cartographie applicative outillée Références Analyse exhaustive • AXA Références croisées • CNP-Assurances Flot de données • CIMUT Algorithmes • CRÉDIT MUTUEL • EDF • ING • I-BP • MAAF • RSI, … Un référentiel vivant Rafraichissement permanent CIMUT Système de requêtage utilisateur « Nous avons choisi Mia-Insight pour la pertinence des analyses fines et précises, irréalisables sans outillage »Utiliser les données Métiers,Analyser les impacts au niveau applicatif
    • 63. LA QUALITÉ AU CENTRE DES PRÉOCCUPATIONS Automatiser la qualité des données Références Faire un état des lieux • ARKEA Listes de valeurs • APICIL / UPESE Volume de données erronées • CAISSES Taux de doublons D’EPARGNE • CREDIT AGRICOLE • GROUPAMA • NOVALIS-TAITBOUT • MERIAL, … Impliquer tous les acteurs MOA Gestion MALAKOFF-MÉDÉRIC MOE Projets « Grâce à ses outils danalyse performants, Pérenniser la démarche SODIFRANCE nous Planifier les actions dans le temps garantissait un audit Auditer de façon récurrente et des recommandations Engager de nouvelles actions factuelles et rapides »Toujours être vigilant et proactif
    • 64. ORGANISER LE SI AUTOUR DES DONNÉES MÉTIER Du référentiel métier à l’agilité du SI Références Création de référentiels de • CDC données partagées • CNP-Assurances Référentiels « Maitre » / « Esclaves » • CIMUT Fiabilité et cohérence des données • ENERGY POOL Accessibilité des données par toutes • MALAKOFF- les applications MÉDÉRIC • SI2M Démarche d’urbanisation • MMA,… Approche par les processus Métiers Identification du meilleur découpage applicatif SI2M Recherche de la modularité « Les résultats de optimale l’audit et le conseil Transformation des applications en de SODIFRANCE service Métier nous ont permis de Ouverture multicanal faire avancer notre vision sur Bénéfices Métier attendus lurbanisation de Efficacité opérationnelle notre SI » Rester Time To MarketFaites de votre référentiel un Référentiel
    • 65. LES DONNÉES DANS TOUS LEURS ÉTATS RéférencesDémarche = Méthodologie et Solutions • AGF • AIR FRANCE Capitaliser sur les données • BNP-PARIBAS Métiers de référence • CHU DE NICE Fiabiliser • GROUPAMA Dédoublonner • MALAKOFF- Normaliser MÉDÉRIC • MORNAY • VILLE DE LYON • RATP, … MALAKOFF-MÉDÉRIC « Grâce à l’usine de migration TRANSMIG, les données du Référentiel Personne sont fiables et cohérentes. Engagements sur la qualité Aujourd’hui, les coûts Sécurisation du Projet d’exploitation sont Gouvernance améliorée réduits et les actes deAugmentez votre capital données gestion bien plus rapides »
    • 66. GARDER LA MÉMOIRE… À PORTÉE DE WEB Diminuer les coûts de possession Références • DCNS • MALAKOFF- MEDERIC • MERIAL en place de PRA – PCA • AEROPORT NANTES • CH LE MANS,…. •… MERIAL stifications CAC « La fonction d’archivage Web de TRANSMIG a permis de restituer une vision des données historiques que nous n’avions plus suite à l’arrêt du Mainframe et à la disparition de l’application métier »Réduire les coûts et améliorer le service
    • 67. APPROCHE GLOBALE DU CYCLE DE VIE DES DONNÉESEfficacité et rigueur Diagnostic  Audit  Cartographie Cible  Cible et stratégie Diagnostic  Recueil des besoins  Alignement MOA /MOE Trajectoire  Référentiel maitre / esclavesCible Trajectoire  Méthodologie projet éprouvée Indicateurs  Solutions outillées Maintenir Qualité couts  Accompagnement  Formation Maintenir
    • 68. RETOUR D’EXPÉRIENCE Périmètre Création du Référentiel Personne Conseil &Conseil Urbanisation Audit Migrer Dédoublonner Synchroniser Audit Audit Projet Cartographie Fiabiliser Charger Archiver régulier régulierSolutions outilléesExpertise Experts en urbanisation et Data Management Formation – Conduite du changement 2009 2012 Temps
    • 69. Stéphane LEXTREYTConsultant Data Managementslextreyt@sodifrance.fr+33 6 86 89 23 20
    • 70. 10h50 – 11h20 - PAUSE Pause / Networking
    • 71. 11h20 – 12h00 - Table RondeCloud et Stockage, supports incontournables duBig Data Les acteurs du cloud et les éditeurs/constructeurs se positionnent déjà Actuellement, y a-t-il un intérêt à installer sa propre solution Big Data ? En quoi le cloud incarne-t-il un moyen intéressant ?Avec Jean-Pascal Ancelin, directeur général, MicroStrategy France& Said Boukhizou, responsable technique chez Datacore
    • 72. 12h00 – 12h10 - Avis d’expertTémoignage utilisateur : Malakoff-MedericRé-urbaniser le SI autour des données métiers, unenjeu concurrentiel Les enjeux de la mise en œuvre de référentiel de données Métiers, vecteur d’agilité de l’entreprise Comment alimenter un référentiel de données tout en synchronisant les applications périphériques contributrices ?Par Romaric Hatit de Malakoff-Mederic
    • 73. 12h10 – 12h30 - Avis d’expertLe stockage : innovation et nouvelles réponsesPart 1ParSaid Boukhizou, responsable technique chez Datacore
    • 74. How Big Data Influences Storage Innovations Impact on policies, scale, clouds and data management74
    • 75. Not Just Big Fast Real-time ► Event-driven Shared75 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 76. Motivation Greater Situational Awareness Better Decision Making Competitive Advantage76 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 77. Where does Big Data come from? Enterprise Office Apps Apps Web AppsDevice explosion Social Media DataMachine Data 77 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 78. Applications that are driving StorageGrowth Archiving Data Protection/DR Email CRM File sharing Content Mgt Regulatory mandates DE Convert analog - digital records Data warehousing/BI WE eCommerce Digital Imaging ERP Social Platfom SCM 0% 20% 40% 60% Source: IDC‟s European Storage Survey 2011 – N=50978 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 79. Challenging Storage Characteristics Never at rest  Different formats ► In-demand ► Less relevant ► Outdated  All shapes & sizes Multiple, linked sources ► Intelligent devices ► Outside of IT‟s control ► Housed separately ► No time to pre-stage79 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 80. Renovation Opportunity Modernize Align Architect Adapt Not that difficult80 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 81. 81 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 82. Technology Innovations on Your Side Storage hypervisor layer ► Insulates data management from hardware variables ► Comprehensive set of advanced functions ► Device-dependent Broad span ► Infrastructure-wide ► From on-premises to the Cloud ► Virtual & physical domains Accelerates data access82 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 83. Virtualize Storage for Sharing & Speed Pool resources Direct traffic automatically Cache near apps Manage centrally83 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 84. Pooling Combine overall capacity Make disks shareable Recover inaccessible or isolated disk space ► No longer isolated Hide equipment incompatibilities ► Standard server / app connections bridged to device-specific interfaces84 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 85. Adaptive Layer Server Cluster Caching Caching Shared Virtual Disks Storage Hypervisor Variable sources / destinations85 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 86. 3-Dimensional Virtualization Strategy DESKTOP HYPERVISOR USERS SERVER HYPERVISOR APPS STORAGE HYPERVISOR DISKS86 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 87. Automation  Allocate space just-in-time ► Thin provision small groups of disk blocks ► No waste  Dynamically direct workloads to most appropriate resource ► Auto-tiering ► Determined by access frequency & business rules (high priority override)87 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 88. Hottest Data Gets Most Attention Auto-Tiering Tier 1 Tier 2 Tier 3 Tier nChuns Hot Warm Cold Stale88 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 89. Dynamic Optimization of Assets Mail Database File Web Apps Storage Hypervisor Price / TBSpeed On-Premises Public Cloud 5% 35% 60% Private Cloud Price/ Capacity89 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 90. Caching Rapid retrieval Fast updates Memory-access speeds ► Read (anticipate) ► Write (coalesce) ► Bypass disk latencies Turbo-charge native disk array performance Self-tuning90 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 91. Off-premises storage appears to be local Users and apps can‟t tell ► Storage hypervisor makes it transparent Same principles merely extended ► Pooling ► Automation ► Central management91 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 92. Central Management Common menus & commands ► Across diverse equipment Single console ► Status dashboard ► Performance view ► Consolidated notifications & alerts External integration point ► Virtualization92 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 93. Lots of Standardization Talk One interpretation ► Buy more of the same hardware ► Always buy it from me and my club Really about interchangeability ► Stick to established interfaces ► Add or swap out equipment as needed ► Shop for best value among hardware suppliers ► Treat storage as interchangeable chunks of disk space93 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 94. Stage 2 – Beyond Your Walls Leverage nearby branch or colocation facility Rent capacity from public cloud94 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 95. Under a Different Roof Continue operations despite facility problems ► Equipment upgrades / maintenance ► Air conditioning / ventilation ► Construction ► Water leaks ► Etc., Mirror or replicate critical volumes to a secondary site ► Auto-failover within metropolitan area ► Take advantage of different storage devices95 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 96. Expected Outcomes Higher levels of service ► Rapidly provision space ► Remove storage-related disruptions ► Speed up app response Optimal use of available resources ► Take full advantage of existing capacity ► Defer acquisition of more disks96 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 97. Get ready, Big Data is almost here!97 Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 98. QUESTIONS www.datacore.com98
    • 99. www.datacore.com Copyright © 2012 DataCore Software Corp. – All Rights Reserved.
    • 100. 12h30 – 12h50 - Avis d’expertLe stockage : innovation et nouvelles réponsesPart 2ParJean-François Ruppé, Solution Architect EMEA chez Quantum
    • 101. Les solutions Big DataJean-François RUPPÉArchitecte Solution
    • 102. Caractéristiques de nos clients 30%-60% Volumétrie Non-structurée DB Sources multiples Performance Protection © 2011 Quantum Corporation. Company Confidential. Forward-looking information is102 based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 103. Principaux Secteurs d‟Activité Média • Post production (effet spéciaux, correction des couleurs, …) • Passage à la HD, 3D Sécurité / Imaging / Défense • Vidéosurveillance • Capture & traitement des données satellites Recherche scientifique • Calculs • Séquençage de génome (décryptage d‟informations) Pétrole et gaz • Exploration sismique • Modélisation 3D103
    • 104. Les défis Gérer efficacement la croissance des données – +100 Millions de fichiers, >100 To de données par environnement – Transfert des données entre différentes chaînes de traitement – Protéger & Archiver à long terme Adapter les performances aux besoins – De 100 Mo/s à > 600 Mo/s Séquenceur/calcul sismique : 2 To par « run »/millions de fichiers Traitement d‟images satellite : – 600 Mo/s (FC 4Gb = 512 Mo/s) – 37 millions de fichiers, 1 Po de données avec gestion de Tiers (5% rapide, 63% lent, 32% bandes) Gourvernement : 4 milliards de fichiers + PRA © 2011 Quantum Corporation. Company Confidential. Forward-looking information is104 based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 105. 1. Créer un espace de stockage partagé haute performance – SAN ou LAN en fonction des besoins en performance – Hétérogène Linux, Unix, Windows, MAC 2. Optimiser les ressource stockage – Gestion de différents Tiers : SSD, SAS, SATA, Bandes – Déplacement automatique des données (HSM) 3. Protection des données – Sauvegarde – Externalisation – Réplication © 2011 Quantum Corporation. Company Confidential. Forward-looking information is105 based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 106. © 2011 Quantum Corporation. Company Confidential. Forward-looking information is106 based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 107. Accélération des processus Stockage local ou disparate Mouvement des données fastidieux Besoin d‟une grande quantité de stockage © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 108. Evolution des processus Stockage partagé Accès concurrents Depuis plusieurs types de client © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 109. Différents type d‟accès LAN CIFS / NFS Storage Area Network (SAN) Gateway Servers WIN LAN Clients LINUX LAN Clients Haute performances  Load Balancing Milliers de clients  CIFS/NFS support © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 110. Gestion des données TIERS 2 Storage Area Network (SAN) SAUVEGARDE VAULT DEDUPLICATION REPLICATION © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 111. Architecture StorNext Solution “End-to-End” StorNext File System Gestion des données Stockage partagé StorNext StorNext SAN Clients Replication PRIMARY TIER Gateway ServersStorNext DLC CIFS/NFS SECONDARY TIER HA StorNext Storage GigE TCP/IP Infiniband IP Metadata Controllers Manager TAPE LIBRARY ARCHIVE VAULT Version « Logicielle » © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 112. Appliances StorNext Solution “End-to-End” StorNext File System Gestion des données Stockage partagé StorNext StorNext SAN Clients Replication PRIMARY TIER Gateway G300StorNext DLC CIFS/NFS SECONDARY TIER Q-Series StorNext Storage GigE TCP/IP Infiniband IP Manager Q-Series M330 Metadata Controllers Scalar VAULT © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 113. Cas client : Recherche ADN PRIMARY TIER 80-100TB FC Disk FC/iSCSIDISTRIBUTED LAN CLIENTS StorNext DLC StorNext Gateway Servers Policy Engine FC GigE TCP/IP DDM Server FC TAPE LIBRARY ARCHIVE Metadata HA MDC Séquencement Controller PB of Tape• Chaque serveur de séquencement lance des analyses (ADN). Chaque expérimentation génère 1 To de données• Les résultats sont copiés ou déplacés vers l‟archive (rétention à long terme + externalisation)• Temps de traitement global réduit par 3
    • 114. Questions/Réponses © 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company‟s outlook and is for planning purposes only.
    • 115. 12h50 – 13h00 - ConclusionUne révolution informatique en douceur Distribution et parallélisation des traitements, autre forme de virtualisation du stockage, système de gestion de fichiers plus universel… Le phénomène Big Data n’annonce-t-il pas une évolution majeure ?Par José Diz, Journaliste, Evénements 01
    • 116. BIG DATAdétour par la „SILICON Valley‟ José DIZ
    • 117. Hadoop : kesako? Google et fortes contributions Yahoo! Framework open source Java  HDFS : système de gestion de fichiers distribué avec stockage en cluster de serveurs  MapReduce : distribue de façon parallèle les traitements sur chaque nœud au plus près des données.
    • 118. Hadoop : kesako? tout type de données  structurées  non structurées  Web, et autres Croissance linéaire sur du matériel standard (commodité) Appliquer rapidement des algorithmes simples à de très gros volumes de données Batch ? Ou plus ?
    • 119. Des pionniers : Cloudera (CDH) l‟interface graphique pour accès via un navigateur workflow langage de type SQLIntégrer Hadoop et SGBD SGDB distribué non relationnel orienté colonnes Service distribué de collecte et d‟agrégation gestion de configuration pour pour stockage HDFS systèmes distribués langage de haut niveau
    • 120. Cloudera : un écosystème
    • 121. Hortonworks Data Platform (HDP) Core Apache Hadoop Related Hadoop Projects Open APIs for: • Data Integration • Data Movement • App Job Management (Columnar NoSQL Store) Pig Hive • System Management (Data Flow) (SQL) HBase MapReduce Zookeeper (Coordination) (Manaement) Ambari (Distributed Programing Framework) HCatalog (Table & Schema Management) HDFS (Hadoop Distributed File System)
    • 122. Hortonworks – la cohabitation Traditional Data Warehouses, BI & Analytics Serving Applications NoSQL RDMS … Traditional ETL Data BI / EDW Marts Analytics Apache Hadoop EsTsL (s = Store) Gartner predicts 80-90% of data800% data growth produced today over next 5 years is unstructured Call Social Senso Server … Center Media r Data Logs
    • 123. MapR : affinage, spécifique ? Big data s‟avère lourd et coûteux à déplacer. Pig Hive Web Services Sequential File Map/OLAP OLTP Hbase Processing Reduce RDBMS NAS HDFS Pig Hive Web Services Sequential File Map/ OLAP OLTP Hbase Processing Reduce RDBMS NAS HDFS Next Generation Distribution
    • 124. MapR : affinage, spécifique ? MapR Distribution for Apache Hadoop Hive Pig Oozie Sqoop HBase Plume Nagios Ganglia Vaidya Haute disponibilité et continuité : Mahout Cascading Flume Integration Integration Integration - snapshots, - mirroring, MapReduce - namecode de stockage distribué - … Distributed JobTracker HA NameNode HA™ MapR’s Lockless Storage Services ™
    • 125. Big Data : batch pour BI, et après ? Complément au-delà du batch  Streaming  « Temps réel » Stockage primaire ? Environnement de production principal ?  Deux écoles :  Pas pour Cloudera et Hortonworks  Certainement pour MapR
    • 126. Un fourmillement de projets
    • 127. 13h00 – 13h05 - JEUTIRAGE AU SORT iPad Et le gagnant est……?
    • 128. 13h05– 14h00 - COCKTAIL DEJEUNATOIRE Cocktail / Networking MERCI DE VOTRE PARTICIPATION BON APPETIT!!