ICTA Meetup 11 - Big Data


Published on

Big Data

Published in: Technology
1 Like
  • Be the first to comment

No Downloads
Total views
On SlideShare
From Embeds
Number of Embeds
Embeds 0
No embeds

No notes for slide

ICTA Meetup 11 - Big Data

  1. 1. ICTA Technology Meetup 11 By Crishantha Nanayakkara
  2. 2. Meetup Recap ● 1 – Enterprise Application Integration ● 2 – Enterprise Level High Availability Options ● 3 – SOA Security ● 4 – Towards Hybrid Mobile App Development ● 5 – The Semantic Web and Linked Data ● 6 – Enterprise Application Design Patterns ● 7 – GIS – An Introduction ● 8 – The Future of the Database World ● 9 – The Enterprise Storage Management ● 10 – An Introduction to Content Management with Joomla
  3. 3. The Scope ● Big Data – The Definition ● The Sources of Data ● Structured, Semi­Structured vs Unstructured Data ● Relational Data vs Big Data ● Towards Big Data ● Big Data Adoption in other countries ● Big Data Technologies and the ecosystem ● Big Data Open Source and Commercial Options
  4. 4. Big Data Definition
  5. 5. A new generation of technologies and  architectures, designed to economically  extract VALUE from very large VOLUMES of a  wide variety of data by enabling high­ VELOCITY capture, discovery, and/or analysis.
  6. 6. The Three Vs of Big Data
  7. 7. The Three Vs of Big Data ● Volume – Big ● Variety – From different sources and types ● Velocity – Frequency of its generation: how   quickly the data arrives and is stored, and how  quickly it can be retrieved
  8. 8. The Sources of Data
  9. 9. The Sources of Data ● Documents ● Sensor Data ● Emails  ● Click Streams  ● Images ● Relational Databases ● Logs ● Social Media feeds ● Videos
  10. 10. Structured, Semi Structured and  Unstructured Data
  11. 11. Structured Data ● Structured: – The information with a high degree of  organization – Seamless and readily search­able by  straightforward search algorithms or  operations  – e.g: relational databases, spreadsheets, XML  
  12. 12. Semi­Structured Data ● Semi­Structured: – This is a form of structured data that does not  conform to an explicit and fixed schema – The data is inherently self­describing and  contains tags or other markers to enforce  hierarchies of records and fields within the  data – e.g: web logs, social media feeds
  13. 13. Unstructured Data ● Unstructured: – This type of data consists of formats which  cannot easily be indexed into relational tables  for analysis or querying – e.g.: images, videos
  14. 14. Relational Vs Big Data
  15. 15. Relational Data vs Big Data ● ● ● Thinking of Big Data as “just lots more enterprise  data” is tempting, but it’s a serious mistake. Big Data is commonly generated outside of traditional  enterprise applications Big Data is often composed of unstructured or semi­ structured information types that continually arrive in  enormous amounts
  16. 16. Relational Data vs Big Data ● To get maximum value from Big Data, it needs to be  associated with traditional enterprise data,  automatically or via purpose built applications,  reports, queries, and other approaches
  17. 17. Towards Big Data
  18. 18. The Digital Universe ● From 2005 to 2020, the digital universe will grow from 130  exabytes to 40,000 exabytes, or 40 trillion gigabytes. 
  19. 19. According to IDC,  the Big Data technology and service market was about  US$4.8 billion in 2011. The market is projected to grow at a compound annual  growth rate (CAGR) of 37.2% between 2011 and 2015.  By 2015, the market size is expected to be US$16.9 billion. [Source: IDC. Worldwide Big Data Technology and Services 2012­2015 Forecast.]
  20. 20. Gartner reported that more than 65 billion devices were connected  to the internet by 2010. By 2020, this number will go up to 230 billion [Source: https://www.gartner.com/doc/1799626]
  21. 21. The Opportunity for Big Data ● ● ● Only a tiny fraction of the digital universe has been  explored for analytic value so far.  By 2020, as much as 33% of the digital universe will  contain information that might be valuable if  analyzed. But only if it is tagged and analyzed. That is the  opportunity for Big Data. Source: IDC's Digital Universe Study, 2012
  22. 22. The Candidates for Big Data ● Not all data is necessarily useful for Big Data  analytics. However, some data types are particularly  good for analysis – Surveillance Footage – Embedded medical devices – Entertainment and Social Media – Images and Voice Data – Data Processing Source: IDC's Digital Universe Study, 2012
  23. 23. The Statistics ● ● ● Over a history that spans more than 30 years, SQL  database servers have traditionally held gigabytes of   information — and reaching that milestone took a  long time.  In the past 15 years, data warehouses and enterprise  analytics expanded these volumes to terabytes.  And in the last 5 years, the distributed file systems  that store Big Data now routinely house petabytes of  information. 
  24. 24. The Big Data Adoption in the  World
  25. 25. Source: http://www.informationweek.com/government/information-management/white-house-shares-200-million-big-data/232700522
  26. 26. http://www.informationweek.com/regulations/federal-standards-body-focuses-on-big-data-cloud/d/d-id/1102703?
  27. 27. Singapore Transport System (Land Transport Authority ­ LTA) Source: How Cities using Big Data in Asia? - FutureGov Report
  28. 28. Singapore Transport System (Land Transport Authority ­ LTA) ● Data Collection: – Junction Electronic Eyes – Green Link Determining System – Web cams – Parking Guidance Systems – Expressway monitoring Systems – Traffic Scan Source: How Cities using Big Data in Asia? - FutureGov Report
  29. 29. Singapore Transport System (Land Transport Authority ­ LTA) ● Data Processing: – – ● All the data is fed into this integrated i­ Transport Processing System The data is aggregated, integrated and  analyzed  Data Dissemination: – Via web portals, radio broadcasting, navigation  devices, smart phones, etc  – Certain data elements are given as “open data” Source: How Cities using Big Data in Asia? - FutureGov Report
  30. 30. Singapore National Environment Agency ● Dengue related data: – The data is pulled from dengue cases, public  feedback, mosquito inspections and other  sources for analysis.  – Making use of GIS to identify high­risk  areas,they are also able to prioritize places  for checks Source: How Cities using Big Data in Asia? - FutureGov Report
  31. 31. iPlan Project (Urban Redevelopment Authority ­ URA) ● iPLAN is among the world’s first nationwide  enterprise GIS systems for urban planning and  it contains comprehensive land, building,  planning and approval information which is  readily available to URA’s planners Source: How Cities using Big Data in Asia? - FutureGov Report
  32. 32. Kuala Lampur Government ● The government has created a Big Data  Analytics fund to support four government­ initiated projects by 2015 focusing on,  – Transport,  – Planning, Environment and  – Security  Source: How Cities using Big Data in Asia? - FutureGov Report
  33. 33. Technologies behind Big Data
  34. 34. Reference: http://www.bdisys.com/27/1/17/BIG%20DATA/HADOOP
  35. 35. Hadoop
  36. 36. Hadoop – An Introduction ● ● ● ● Hadoop is a framework that provides open source  libraries for distributed computing using MapReduce  software and its own distributed file system Hadoop  Distributed File System (HDFS) Open Source, written in Java Maintained by Apache Software Foundation as a top  level project Original deployments – Yahoo, Facebook, LinkedIn
  37. 37. Hadoop – The Core Components ● The kernal(core) of Hadoop provides:  – – ● A reliable shared storage (HDFS)  An Analysis system (MapReduce) There are other components in Hadoop, which  makes a complete Hadoop ecosystem
  38. 38. Hadoop Architecture ● ● ● Designed to scale out from a few computing nodes to  thousands of machines, each offering local computation  and storage Leverages the power of massive parallel processing to  take advantage of Big Data, generally by using lots of  inexpensive commodity servers, which has  a high  tolerance of hardware failure. In Hadoop, hardware  failure is taken as rule rather than an exception Designed to abstract away much of the complexity of  distributed processing. This lets developers focus on the  task at hand
  39. 39. Hadoop Architecture Reference: Hadoop In Action 
  40. 40. Hadoop Architecture p Reference: Hadoop In Action 
  41. 41. Hadoop Distributed File System  (HDFS)
  42. 42. Scale Up Vs Scale Out Reference: http://quickfileaccounting.wordpress.com/2013/07/02/scale­out­vs­scale­up/
  43. 43. Scale Up Vs Scale Out
  44. 44. HDFS ● ● ● A fault­tolerant storage system that can store huge  amounts of information Scale up incrementally and survive storage failure  without losing data Hadoop clusters are built with inexpensive computers.  If one computer (or node) fails, the cluster can  continue to operate without losing data or  interrupting work by simply re­distributing the work  to the remaining machines in the cluster
  45. 45. HDFS ● ● ● HDFS manages storage on the cluster by breaking  files into small blocks and storing duplicated copies of  them across the pool of nodes In the common case, HDFS stores three complete  copies of each file by copying each piece to three  different servers If any two servers can fail, and the entire file will still  be available HDFS notices when a block or a node is  lost, and creates a new copy of missing data from the  replicas it manages.
  46. 46. HDFS ● HDFS offers two key advantages over RAID:  – It requires no special hardware, since it can be  built from commodity servers,  and can  survive more kinds of failure – a disk, a node  on the network or a network interface
  47. 47. HDFS
  48. 48. Reference: Hadoop In Action 
  49. 49. MapReduce
  50. 50. MapReduce ● ● Hadoop takes advantage of HDFS’ data  distribution strategy to push work out to many  nodes in a cluster. This allows analyses to run  in parallel and eliminates the bottlenecks  imposed by monolithic storage systems. Hadoop uses MapReduce for this task. 
  51. 51. MapReduce
  52. 52. MapReduce ● ● A new programming framework — created and  successfully deployed by Google — that uses the  divide­and­conquer method (and lots of commodity  servers) to break down complex Big Data problems  into small units of work, and then process them in  parallel MapReduce is built on the proven concept of divide  and conquer: it’s much faster to break a massive task  into smaller chunks and process them in parallel.
  53. 53. MapReduce ● MapReduce is a data processing algorithm that uses a  parallel programming implementation. In simple  terms, MapReduce is a programming paradigm that  involves distributing a task across multiple nodes  running a "map" function. The map function takes the  problem, splits it into sub parts and sends them to  different machines so that all the sub­parts can run  concurrently. The results from the parallel map  functions are collected and distributed to a set of  servers running "reduce" functions, which then takes  the results from the sub­parts and re­combines them  to get the single answer.
  54. 54. Source: http://www.youtube.com/watch?v=HFplUBeBhcM (MapR Demo)
  55. 55. Hadoop Eco­System
  56. 56. The Hadoop Eco­System ● In addition to MapReduce and HDFS, Hadoop  also refers to a collection of other software  projects that uses the MapReduce and HDFS  framework – HBase – Hive – Pig – Mahout – Zookeeper – Sqoop
  57. 57. The Hadoop Eco­System Reference: http://www.bdisys.com/27/1/17/BIG%20DATA/HADOOP
  58. 58. Apache Pig ● ● ● This is a platform for analyzing large data sets  that consists of a high­level language for  expressing data analysis programs Those who want to have a simple job tracking  with MapReduce, can use Apache Pig.  This can reduce the overhead of learning and  writing complex MapReduce jobs mainly in  Java Language
  59. 59. Apache Pig Pig Pig MapReduce MapReduce HDFS HDFS
  60. 60. Apache Hive ● ● Those who like to use SQL like query  languages for job tracking with MapReduce  and whom does not like Apache Pig style of  coding can use Apache Hive Hive manages data stored in HDFS and  provides a query language based on SQL (and  which is translated by the runtime engine to  MapReduce jobs) for querying the data
  61. 61. Apache Hive Pig Pig Hive Hive MapReduce MapReduce HDFS HDFS
  62. 62. Apache HBase ● ● A distributed, column­oriented database.  HBase uses HDFS for its underlying storage,  and supports not only batch­style computations  real time queries (random reads) as well. Facebook messages are using Apache Hbase as  the real time processing
  63. 63. Apache HBase Pig Pig Hive Hive HBase HBase MapReduce MapReduce HDFS HDFS
  64. 64. Apache ZooKeeper ● ● ● A distributed, highly available coordination  service most of the components in the Hadoop  ecosystem.  It stores some of the metadata of the Apache  Hbase as well ZooKeeper provides primitives such as  distributed locks that can be used for building  distributed applications.
  65. 65. Apache Zookeeper Pig Pig Hive Hive ZooKeeper ZooKeeper HBase HBase MapReduce MapReduce HDFS HDFS
  66. 66. Apache Sqoop ● A tool for efficiently moving data between  relational databases and HDFS
  67. 67. Hadoop support for GIS http://esri.github.io/gis-tools-for-hadoop/
  68. 68. Hadoop Distributions ● Open Source: – ● Apache Hadoop Commercial: – Cloudera – Hortonworks – MapR – AWS MapReduce – Microsoft HDInsight 
  69. 69. NoSQL
  70. 70. References ● ● ● ● Big Data Right Now: Five Trendy Open Source Technologies:  http://techcrunch.com/2012/10/27/big­data­right­now­five­trendy­ open­source­technologies/  An Introduction to NOSQL Data Management for Big Data:  http://data­informed.com/introduction­nosql­data­management­big­ data/  Overview of Big Data and NOSQL Technologies as of January 2013:  http://www.syoncloud.com/big_data_technology_overview  The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and  Biggest Growth in Far East, December 2012, EMC Corporation, [IDC  Report 2012]
  71. 71. References ● ● ● ● ● White House Shares $200 Million Big Data Plan:  http://www.informationweek.com/government/information­ management/white­house­shares­200­million­big­data/232700522  Federal Standards Body Focuses On Big Data, Cloud:  http://www.informationweek.com/regulations/federal­standards­ body­focuses­on­big­data­cloud/d/d­id/1102703?  The Internet of Things Is Coming:   https://www.gartner.com/doc/1799626 What is Data Science?  http://radar.oreilly.com/2010/06/what­is­data­science.html Google Flu Trends :  http://www.google.org/flutrends/about/how.html 
  72. 72. References ● ● ● ● Hadoop: The Definitive Guide, Second Edition, by Tom White.  Copyright 2011 Tom White, 978­1­449­38973­4 Hadoop In Action: by Chuck Lam, 2011, 978­1­935­18219­1  MapR Demo on Introduction to MapReduce:  http://www.youtube.com/watch?v=HFplUBeBhcM Basic Introduction to Apache Hadoop by HortonWorks:  http://www.youtube.com/watch?v=OoEpfb6yga8