Big Data và Hadoop

4,599
-1

Published on

* Trang tài nguyên IBM developerWorks Việt Nam: http://www.ibm.com/developerworks/vn/
* Trang Fanpage của IBM developerWorks Việt Nam: https://www.facebook.com/developerworks.ibmvn

Published in: Technology, Business
0 Comments
10 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,599
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
410
Comments
0
Likes
10
Embeds 0
No embeds

No notes for slide

Big Data và Hadoop

  1. 1. Global TLE Framework IBM M c đích M c đích c a bài trình bày này là gi i thi u t ng Big Data và MapRedure quan v Big Data, Apache Hadoop và IBM BigInsights, là g i m cho nh ng bư c ti p c n sâu hơn, c ng như ng d ng trong th c ti n. ũ Nguyễn Khiêm, khiem@vn.ibm.com Feb. 2013© 2011 IBM Corporation © 2011 IBM Corporation 2 Global TLE Framework IBM 4 IBMN i dung Big Data là gì? K nguyên Big Data Khối lượng dữ liệu cực lớn (volume) MapReduce và Apache Hadoop Chủng loại dữ liệu đa dạng (variety) Mô hình l p trình Tốc độ cập nhật nhanh (velocity) H th ng t p phân tán Kh năng ch u l i B t đ u v i Hadoop và IBM BigInsights Tóm t t © 2011 IBM Corporation 3 © 2011 IBM Corporation
  2. 2. IBM IBM Information Sources Users Reporting, Trend Analysis,Point of Structured Decision Sale Information Making Traditional DW Call Executive Center At Rest AnalyticsCustomer Data Integration Power UserUntapped Big Data PlatformSources V3 Variety Ability to handle V3 Ease of Use for Structured & End Users Call Unstructured Center Enable Analytics In motion & At Rest Text, Video, Audio… Velocity Speed of data Easy In motion Ease of Use for Visualization analytics Developers Tools Customers Enterprise Class Volume GPFS, Security, Better Business Petabytes, Governance, Outcomes Zetabytes Data Integration 6 © 2011 IBM Corporation © 2011 IBM Corporation IBM IBM Hồ Tú Bảo, bài “Dữ liệu lớn, cơ hội và thách thức lớn” trên Tia sáng, 25/1/2013 http://tiasang.com.vn/Default.aspx?tabid=111&News=6103&CategoryID=2 © 2011 IBM Corporation © 2011 IBM Corporation
  3. 3. Global TLE Framework IBM Global TLE Framework IBMTri t lý v i Big Data? M r ng “ngang” – Khó khăn (Scaling out) Đ c 100 terabytes là m t “v n đ ” (ch m) – Máy tính tiêu chu n (100 MBPS) ~11 ngày Máy h ng, đ c bi t n u có nhi u máy – Th i gian h ng trung bình c a 1 máy PC = 3 năm, 1000 máy = 1 ngày – Đ a cao c p (10Gbit) 1 ngày ĩ – Siêu máy v n có th h ng và máy tính PC thư ng có hi u năng cao hơn n u – 1000 máy tính tiêu chu n 15 phút! tính theo giá ti n Th i gian tìm ki m ng u nhiên trên đ a là m t “v n đ ”: ĩ ĩ ĩ L p trình phân tán khó khăn – 1 TB d li u có 1010 b n ghi đ dài 100-byte/b n ghi – Giao ti p, đ ng b , và deadlocks • C p nh t 1% s c n 1 tháng – Khôi ph c do máy h ng • Đ c và Ghi toàn b m t 1 ngày* – G l i – T i ưu M t “máy” (node) là không đ ! V n đ l i l p l i v i m i bài toán C n m r ng “ngang” Scale-out, không ph i “d c” Scale-up! Yêu c u: X lý song song v i các máy tính r ti n? * From the Hadoop mailing list © 2011 IBM Corporation 9 © 2011 IBM Corporation 10 Global TLE Framework IBM Global TLE Framework IBMC n thi t ph i có mô hình m i N i dung K nguyên Big Data • Che d u chi ti t m c h th ng v i ngư i phát tri n MapReduce và Apache Hadoop – Không các đi u ki n ch y đua, không tranh ch p khóa, thêm máy không c n s a chương trình… Mô hình l p trình • Tách bi t gi a “làm cái gì” và “làm th nào” H th ng t p phân tán – Ngư i l p trình ch t p trung vào bài toán c a mình (làm cái gì) Kh năng ch u l i – Khung công tác (“runtime”) s ch u trách nhi m th c hi n các vi c c th (làm th nào) B t đ u v i Hadoop và IBM BigInsights Tóm t t © 2011 IBM Corporation 11 © 2011 IBM Corporation 12
  4. 4. Global TLE Framework IBM Global TLE Framework IBMGi i thi u v MapReduce MapReduce dùng đư c vào vi c gì? Năm 2003 và 2004 Google đăng hai bài báo gi i thi u các thành công n i b t c a h Nhi u d li u, đ nh hư ng x lý kh i lư ng l n – The Google File System Ví d : – Index building at Google and Yahoo! – MapReduce: X lý d li u rút g n v i các bó nhi u máy tính (Simplified Data Processing on Large Clusters) – Statistical machine translation – Spam detection Gi i thi u cách ti p c n vi c x lý d li u kh i – Ad optimization lư ng l n, đư c bi t v i tên MapReduce – Natural Language Processing – Image analysis “M t giao di n m nh và đơn gi n cho phép tính toán phân tán, – OCR song song, t đ ng trên quy mô l n, v i vi c tri n khai giao – IBM’s Watson di n này nó đã đ t đư c hi u năng cao v i bó các máy tính – IBM’s latest w3 search (GumShoe) PC thông thư ng” © 2011 IBM Corporation 13 © 2011 IBM Corporation 14 Global TLE Framework IBM IBMMapReduce không dùng vào vi c gì? Nó không thay th chi n lư c Database & Data Warehouse c ab n Nó không thi t k cho các x lý s ki n ph c t p theo th i gian th c Không t t cho s lý giao d ch (truy c p ng u nhiên) Không t t cho bài toán tu n t Không t t khi x lý nhi u t p nh Không t t cho tính toán hi u năng cao v i ít d li u Nó không ph i là đ a th n! ũ © 2011 IBM Corporation 15 © 2011 IBM Corporation
  5. 5. Global TLE Framework IBM Global TLE Framework IBM MapReduce MapReduce, th c tTính toán truyền thống Nhiều nodes, ít giao tiếp giữa các nodes, Tính toán MapReduce Một số có thể chậm và hỏng © 2011 IBM Corporation 17 © 2011 IBM Corporation 18 Global TLE Framework IBM Global TLE Framework IBM N i dung Mô hình l p trình MapReduce Mô hình l p trình K nguyên Big Data – L y c m h ng t l p trình hàm ch c năng MapReduce và Apache Hadoop – Cho phép bi u di n các tính toán phân tán trên kh i Mô hình l p trình lư ng d li u r t l n H th ng t p phân tán Khung-công-tác th c hi n (Execution framework) Kh năng ch u l i – Thi t k cho x lý kh i lư ng d li u r t l n – Thi t k đ ch y trên bó các máy tính thông thư ng B t đ u v i Hadoop và IBM BigInsights Tóm t t “Trong Hadoop, bạn ịnh ngh a các việc thực hiện map và reduce bằng cách mở rộng các lớp ĩ cơ sở riêng của Hadoop. Các việc thực hiện này ược gắn chặt với nhau bằng một cấu hình quy ịnh chúng, cùng với các ịnh dạng ầu vào và ầu ra.” Bài “Phát triển Java 2.0: Phân tích dữ liệu lớn bằng MapReduce của Hadoop” trên dW © 2011 IBM Corporation 19 © 2011 IBM Corporation 20
  6. 6. Global TLE Framework IBM Global TLE Framework IBMMapReduce, mô hình l p trình Pha Map X lý các b n ghi theo c p khóa-giá tr (key-value) Chỉ với các phép toán ặc trưng trên cặp key-value! Hàm Map: (Kin, Vin) list(Kinter, Vinter) C p đ u vào C p đ u ra (key,value) (key,value) Hàm Reduce: (key,value) (Kinter, list(Vinter)) list(Kout, Vout) Có các bư c đ m gi a 2 pha Map và Reduce (key,value) Pha s p th t (Sort) chuy n và nhóm các khóa (không ho c nhi u c p đ u ra) (K) gi ng nhau Mỗi “con voi” làm việc với cặp ầu vào, không hề biết các con voi khác © 2011 IBM Corporation 21 © 2011 IBM Corporation 22 Global TLE Framework IBM Global TLE Framework IBMPha Map, ví d đ m s t Pha Sort, ví d đ m t (“hello”, 1)(line1, “Hello there.”) (“hello”,1) (“hello”, 1) (“there”,1) (“why”,1) (“there”, 1)(line2, “Why, hello.”) (“hello”,1) (“why”, 1) © 2011 IBM Corporation 23 © 2011 IBM Corporation 24
  7. 7. Global TLE Framework IBM Global TLE Framework IBMPha Reduce, ví d đ m t MapReduce, t đ u đ n cu i (đ m t )(“hello”, 1) (“hello”, 2)(“hello”, 1)(“there”, 1) (“there”, 1)(“why”, 1) (“why”, 1) © 2011 IBM Corporation 25 © 2011 IBM Corporation 26 Global TLE Framework IBM Global TLE Framework IBMKi n trúc c a khung-công-tác MapReduce Ki n trúc c a khung công tác MapReduce Client JobTracker Ki n trúc Khách-Ch (Master-slave) • Gửi các Jobs • Chấp nhận MR jobs Master: JobTracker • Thu trạng thái • Gán các tasks • Xử lý hỏng hóc – Ch p nh n công vi c đ trình c a ngư i s d ng – Gán công vi c Map và Reduce cho TaskTrackers – Giám sát công vi c và tr ng thái c a TaskTracker • Khởi ộng Map và Reduce Tasks • Chạy các hàm Run Map và Reduce • Quản lý ầu ra trung gian • Báo các tiến ộ Slaves: TaskTrackers – Ch y các công vi c Map và Reduce TaskTrackers – Qu n lý lưu tr và truy n các đ u ra trung gian Thu t ng : ClientJob, JobTracker, TaskTracker Task Task Task Task Task Task Task Task Task Task Task Task © 2011 IBM Corporation 27 © 2011 IBM Corporation 28
  8. 8. IBM Global TLE Framework IBMWhat is MapRedure clip N i dung K nguyên Big Data MapReduce và Apache Hadoop Mô hình l p trình H th ng t p phân tán (HDFS) Kh năng ch u l i B t đ u v i Hadoop và IBM BigInsights Tóm t t © 2011 IBM Corporation © 2011 IBM Corporation 30 Global TLE Framework IBM Global TLE Framework IBM H th ng t p phân tán Hadoop Distributed File System (HDFS) L y c m h ng t Google File System T p chia thành Kh i (block), đ c trưng là 64 MB ho c l n hơn (128MB) Kh i đư c chép trên nhi u DataNodes (dư th a) M t NameNode lưu tr metadata (tên t p, ví trí kh i, v.v..) Dự án Hadoop của Apache có hai NameNode gi metadata trong b nh v i vi c đ nh k ghi lên đ a. Có th có thành phần cốt lõi, kho lưu trữ ỳ ĩ NameNode th c p (an toàn) tệp gọi là Hadoop Distributed File System (HDFS – Hệ thống T i ưu hóa cho t p l n, đ c tu n t tệp phân tán Hadoop) và khung Các t p ch đư c thêm vào (append- công tác lập trình gọi là only), không ghi đ ng th i vào cùng MapReduce. m t kh i D li u s a v i CRC32 (check sum The Modern Data Operating System 521B) https://www.ibm.com/developerworks/vn/library/data/2013Q1/dm-1209hadoopbigdata/ Các thu t ng : Block, Node, Rack, Hadoop cluster, Namenode, Datanode © 2011 IBM Corporation 31 © 2011 IBM Corporation 32
  9. 9. Global TLE Framework IBM Global TLE Framework IBM Ki n trúc c a Apache Hadoop Page 17- 27 of 1.5 Hadoop © 2011 IBM Corporation 33 © 2011 IBM Corporation 34 IBM Global TLE Framework IBM Th c hi n Hadoop MapReduce jobGiao di n dòng l nh c a HDFS Nhiều lệnh POSIX-like (portable operating system for UNIX) • cat, chgrp, chmode, chown, cp, du, ls, mkdir, mv, rm, stat, tail Một số lệnh riêng của HDFS • CopyFromLocal, copyToLocal, get, getmerge, put, setrep Ví dụ https://www.ibm.com/developerworks/vn/ library/java/201301/j-javadev2-15/ Page 21-30 of 1.6 MapRedure.pdf © 2011 IBM Corporation © 2011 IBM Corporation 36
  10. 10. IBM Global TLE Framework IBMWhat is Hadoop clip Outline K nguyên Big Data MapReduce và Apache Hadoop Mô hình l p trình H th ng t p phân tán Kh năng ch u l i B t đ u v i Hadoop và IBM BigInsights Tóm t t © 2011 IBM Corporation © 2011 IBM Corporation 38 Global TLE Framework IBM Global TLE Framework IBM Kh năng ch u l i: s c Task, TastTracker, JobTracker Kh năng ch u l i: S c Task © 2011 IBM Corporation 39 © 2011 IBM Corporation 40
  11. 11. Global TLE Framework IBM Global TLE Framework IBMKh năng ch u l i: S c TaskTracker Kh năng ch u l i: S c JobTracker © 2011 IBM Corporation 41 © 2011 IBM Corporation 42 Global TLE Framework IBM Global TLE Framework IBMN i dung B t đ u v i Hadoop K nguyên Big Data T i v và cài đ t – Typically unzip and set JAVA_HOME MapReduce và Apache Hadoop – S d ng k ch b n v (shell scripts) và các d ch v Mô hình l p trình • D dàng v i Linux và OS X • Windows thì c n Cygwin H th ng t p phân tán S d ng m t máy o Kh năng ch u l i – D nh t đ b t đ u B t đ u v i Hadoop và IBM BigInsights Eclipse IDE là tuy t v i cho phát tri n Tóm t t – Nh p kh u jars m c cao nh t ho c s d ng plugin – Plugin có s n đ k t n i v i bó máy xa S d ng InfoSphere BigInsights c a IBM © 2011 IBM Corporation 43 © 2011 IBM Corporation 44
  12. 12. Global TLE Framework IBM IBMTi p c n chung cho vi c phát tri n ng d ng (job) Entry Points are Accelerated by Products Within the Big Data Platform IBM Vision: – Data-in-Motion Velocity & Variety – Data-at-Rest Volume & Variety Analytic Applications 1 – Unlock Big Data BI / Exploration / Functional Industry Predictive Content BI / Hi u đ nh d ng/c u trúc d li u IBM Vivisimo Reporting Visualization App App Analytics Analytics Reportin g Vi t các hàm map và reduce IBM Big Data Platform 3 – Simplify your – S d ng ki m đơn v (unit tests!) Visualization Application Systems warehouse & Discovery Development Management 2 – Analyze Raw Data IBM Warehouse Vi t trình đi u khi n đ ch y m t ng d ng (job) Solutions InfoSphere – ng d ng có th ch y trên IDE c a b n v i m t t p con d li u BigInsights Accelerators – Kh năng s d ng g l i (debugger!) Hadoop Stream Data System Computing Warehouse Khi ng d ng làm vi c, c n ph i ch y trên bó các máy và tinh 5 – Analyze Streaming ch nh n u c n thi t 4 – Reduce costs with Data Hadoop InfoSphere Streams InfoSphere Information Integration & Governance BigInsights © 2011 IBM Corporation 45 © 2011 IBM Corporation IBM IBMIBM InfoSphere BigInsights editions Hadoop components included in BigInsights 1.2The Basic edition is free and hasa few more features than justHadoop. It provides a fully testedenvironment with other opensource components..Enterprise edition is fee-based(AI members should be able touse the Enterprise edition at nocost as long as it’s used forteaching purposes or researchpurposes) Download: Download: ibm.com/software/data/infosphere/biginsights/basic.html ibm.com/software/data/infosphere/biginsights/basic.html © 2011 IBM Corporation © 2011 IBM Corporation
  13. 13. IBM IBM How Streams Works What is Streams Processing Language? Continuous ingestion Infrastructure provides services for Designed for stream computing Continuous analysis Scheduling analytics across hardware hosts, – Define a streaming-data flow graph Establishing streaming connectivity Filter / Sample – Rich set of data types to define tuple attributes Transform Annotate Declarative – Operator invocations name the input and output streams – Referring to streams by name is enough to connect the graph Procedural support – Full-featured C++/Java-like language – Custom logic in operator invocations Correlate Classify – Expressions in attribute assignments and parameter definitions Extensible – User-defined data types – Custom functions written in SPL or a native language (C++ or Java) – Custom operator written in SPLAchieve scale: Where appropriate: – User-defined operators written in C++ or Java By partitioning applications into software components Elements can be fused together By distributing across stream-connected hardware hosts for lower communication latency © 2011 IBM Corporation © 2011 IBM Corporation Global TLE Framework IBM Global TLE Framework IBM N i dung Tóm t t K nguyên Big Data MapReduce gi u s ph c t p c a mô hình l p trình cho làm MapReduce và Apache Hadoop vi c phân tán và kh năng ch u l i Tri t lý thi t k : Mô hình l p trình – M r ng kh năng, gi m lo ng i v ph n c ng H th ng t p phân tán – R hơn, c u hình ph n c ng th p, giá l p trình và qu n tr th p Kh năng ch u l i MapReduce không phù h p v i m i v n đ , nhưng khi nó B t đ u v i Hadoop và IBM BigInsights đư c dùng s ti t ki m đư c th i gian Tóm t t Đi n toán đám mây s làm vi c s d ng Hadoop d dàng hơn © 2011 IBM Corporation 51 © 2011 IBM Corporation 52
  14. 14. Global TLE Framework IBM Global TLE Framework IBMResources Resources • Hadoop: http://hadoop.apache.org/core/ Bắt đầu khóa học của bạn về https://www.ibm.com/developerworks/vn/library/12/dm- • Video: http://www.ibmbigdatahub.com/videos dữ liệu lớn 1205bigdatauniversity • IBM Big Insights: http://www-01.ibm.com/software/data/infosphere/biginsights/ Phát triển Java 2.0: Phân tích https://www.ibm.com/developerworks/vn/library/java/2013 dữ liệu lớn bằng MapReduce • Pig: http://hadoop.apache.org/pig 01/j-javadev2-15/ của Hadoop • Hive: http://hadoop.apache.org/hive Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu https://www.ibm.com/developerworks/vn/library/data/2013 • Video tutorials: http://www.cloudera.com/hadoop-training có cấu trúc với BigInsights Q1/dm-1206socialmedia/ InfoSphere • Amazon Web Services: http://aws.amazon.com/ S d ng các ngôn ng như- • Google Code University Distributed Systems: SQL v i khung công tác http://www.ibm.com/developerworks/vn/library/12/os- http://code.google.com/edu/parallel MapReduce mapreducesql/index.html • Amazon Elastic MapReduce guide: http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGui X lý d li u phân tán b ng de/ https://www.ibm.com/developerworks/vn/library/l-hadoop- Hadoop, Ph n 1: Kh i đ u (2, 1/ 3) • Big Data University: bigdatauniversity.com Giáo trình có liên quan - Hadoop Fundamentals (BD001) • Video: (chương trình AI) - InfoSphere BigInsights Essentials using Apache Hadoop https://www.ibm.com/developerworks/mydeveloperworks/wikis/home/w (DW602) iki/BigInsights/page/Video%20Guide?lang=en © 2011 IBM Corporation 53 © 2011 IBM Corporation 54 Global TLE Framework IBM IBMResourcesSách miễn phí về Big Data:https://www.ibm.com/developerworks/wikis/display/db2oncampus/FREE+ebook+-+Understanding+Big+DataCác sách khác: Trang dW tiếng Việthttps://www.ibm.com/developerworks ibm.com/developerworks/vn/wikis/display/db2oncampus/FREE+eBooks © 2011 IBM Corporation 55 © 2011 IBM Corporation
  15. 15. Global TLE Framework IBMQuestions © 2011 IBM Corporation 57
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×