Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
การบริหารจัดการข้อมูลขนาดใหญ่ (Big Data Analytics)
1. Big Data คืออะไร
ที่ รวมของชุดข้อมูลที่มีขนาดใหญ่และซับซ้อน ยากต่อกา...
1.1 สภาพแวดล้อมสาหรับ Big Data
 รองรับและจัดเก็บข้อมูลมากกว่า Petabyte ขึ้นไป
 มีการจัดเก็บข้อมูลชนิดที่มีระบบทดแทน รวมท...
1.2.1 ปริมาณ (Volume)
ปริมาณของข้อมูล :
องค์กรต่างๆ จมอยู่ใต้ข้อมูลทุกประเภทที่เติบโตขึ้นเรื่อยๆ จนถึงขนาดเทราไบต์ (teraby...
 Facebook
 Twitter
 Youtube
1.2.3 ความเร็ว (Velocity)
Data Velocity:
 โดยปกติองค์กรมีการวิเคราะห์ข้อมูลโดยใช้กระบวนการ...
 ปี 2000 มีการจัดเก็บข้อมูล 800,000 Petabytes (PB)
 ปี 2020 คาดว่าจะมีมากถึง 35 Zettabytes (ZB)
 Twitter มีการจัดสร้างข...
 ดาราศาสตร์, วิทยาศาสตร์สภาพอากาศ, จีโนมิคส์,
 การวิจัยทางชีวธรณีเคมี ชีววิทยา และการวิจัยทางวิทยาศาสตร์ที่ซับซ้อน
 การ...
1.5 อะไรคือกุญแจหลักที่ผลักดันสาหรับ Big Data
 ด้านธุรกิจ
 โอกาสที่จะช่วยให้เกิดนวัตกรรมทางธุรกิจรูปแบบใหม่
 ศักยภาพที่...
 บริการข้อมูลแสดงตาแหน่งที่อยู่ของลูกค้าจากโทรศัพท์มือถือ รวมทั้งข้อมูลเกี่ยวกับตาแหน่งที่อยู่
จาก GPS
1.6.2 การทาแคมเปญก...
1.6.5 High-velocity fraud detection
 การใช้ smartphone หรืออุปกรณ์อื่นๆอย่างเช่น laptop หรือ Tablet เพื่อการสร้าง Hotspot...
2. การนา Big Data ไปใช้ในองค์กร
 ต้องมี Data เพียงพอที่จะนามาวิเคราะห์ในรูปแบบ Digital (ไม่จาเป็นต้องเป็น Structured data...
สามารถประมวลผลและจัดการข้อมูลในตาแหน่งที่จัดเก็บเดิม โดยรองรับการรับส่งที่สูงมาก เพื่อ
จัดการกับขั้นตอนการประมวลผลข้อมูลจา...
 Real-Time Analytics and Streaming ดาเนินการวิเคราะห์ข้อมูลปริมาณสูงแบบกระแส
ตลอดเวลาคิดเป็นความเร็วระดับมิลลิวินาที แหล่...
 คลังข้อมูล หมายถึง ฐานข้อมูลขนาดใหญ่ขององค์กรหรือหน่วยงานหนึ่งๆ ซึ่งเก็บรวบรวมข้อมูล
จากฐานข้อมูลระบบงานประจาวัน โดยข้อม...
2.6.2 กรณีการใช้งานด้านบริการทางการเงิน
 การปฏิบัติตามกฎระเบียบและการรายงาน
 การวิเคราะห์และบริหารจัดการความเสี่ยง
 การ...
 การบริหารจัดการเกี่ยวกับอุปทานของเครื่องมือแพทย์และยา
o ข้อมูลการแพทย์และสาธารณสุข ช่วย ให้หน่วยงานที่เกี่ยวข้องในภาครัฐ...
ความชัดเจนในห่วงโซ่อุปาทาน: ลูกค้า คาดหวังที่จะได้ความชัดเจนเกี่ยวกับความพร้อมในการ
ส่งมอบ สถานะของการสั่งซื้อ และเป็นเรื่...
3. การประมวลผลแบบกระจาย (Distributed Computing)
ทางานโดยการกระจายภาระการประมวลผลไปยังเครื่องต่าง ๆ ที่เชื่อมกันอยู่เป็นเคร...
 ระบบการรายงาน
 Application
 ระบบ Hardware
 Infrastructure Software
 Management Software
 Operation Software
 Softw...
4. Technology Foundation สาหรับ Big Data
เทคโนโลยีที่ใช้ประมวลผล Big Data
 Hadoop
 ใช้ประมวลผลแบบกระจาย (Distributed Com...
สถาปัตยกรรมของเครือข่าย Cluster
Job Tracker: Job Tracker เป็น master ทาหน้าที่กากับการดูแลโดยรวมของงานจาก Map Reduce ทาหน้...
Task Tracker: Task Trackers ทาหน้าที่บริหารจัดการกับการปฏิบัติงานต่างๆบน Slave Node ทุกเครื่อง
Name node: Name node เป็น m...
Information Security Architecture
 ระบบรักษาความปลอดภัยโครงสร้างพื้นฐาน : รักษาความปลอดภัยโครงข่ายและเครือข่ายการ
ประมวลผ...
เทคโนโลยีสาคัญสาหรับ Big Data
 Cloud Infrastructure (การทาลิงค์แยกไปอีกหน้า)
 Virtualization
 ระบบเครือข่าย
 ระบบ Stor...
ข้อมูลได้มากเท่าที่ต้องการ ลักษณะเช่นนี้ ให้ประโยชน์แก่โครงการ Big Data ซึ่งท่านต้องการ
ทรัพยากรในการประมวลผล เพื่อให้ได้ค...
4. ท่านอาจต้องการประมวลผลข้อมูล ประเภท Click-Stream จากลูกค้าเป้ าหมายของท่านที่มีอยู่นับล้าน
ในแบบ real-time ก็ได้
ข้อควร...
5. การบริหารจัดการ Big Data
14 เทคโนโลยีใหม่สาหรับ Big Data
5.1 Column-oriented databases
ฐานข้อมูลประเภท Row-Oriented แบบ...
 ไม่ใช่ฐานข้อมูลเชิงสัมพันธ์ จึงไม่สามารถนาเอา Join, Where มาใช้งาน
 เน้นใช้งานกับปริมาณข้อมูลที่มีจานวนมากมายมหาศาล ระด...
สาหรับข้อที่แตกต่างระหว่างสองระบบก็คือ SAN ใช้เน็ตเวิร์คในการแยกการเชื่อมต่อระหว่างเซิร์ฟ
เวอร์และระบบจัดเก็บข้อมูลจากข้อจ...
ข้อดีของ Hadoop
มีความยืดหยุ่นสูงทาให้สามารถเพิ่มหรือลดจานวนคอมพิวเตอร์เมื่อใดก็ได้ตามที่ต้องการ
1. สามารถติดตั้งบนคอมพิวเ...
ความแตกต่างระหว่าง Relational กับ Hadoop
Relational Database Hadoop
 มีแบบแผนที่ต้องการเขียน
 อ่านข้อมูลได้เร็ว
 มีโครง...
 เดิม HDFS ถูกออกแบบให้เป็น โครงสร้างพื้นฐานสาหรับโครงการ Apache Nutch web search
engine และปัจจุบันเป็นโครงการย่อยของ Ap...
 MapReduce คือ Programming Model ถูกใช้ในการกระจายการประมวลผลไปยังเครื่อง computer
เครื่องอื่นๆใน Network
 Map Reduce แบ...
5.11 Chukwa
 Chukwa เป็นโครงการย่อยของ Hadoop ที่อุทิศให้กับงานประเภทการจัดเก็บ Log ขนาดใหญ่และ
ทาการวิเคราะห์
 Chukwa ถ...
5.13 Mahout
 การทาให้ข้อมูลที่มีอยู่อย่างมหาศาล ให้สามารถนามาใช้งานได้ในทันที ไม่ว่าจะเป็นการ
ประมวลผลข่าวสาร e-mail นับพ...
5.14 ZooKeeper
Zookeeper เป็นบริการที่ใช้เพื่อประสานงานเกี่ยวกับกระบวนการทางานของ Application แบบกระจาย
และให้บริการ Repli...
6. Big data Analytics
การวิเคราะห์เบื้องต้น
 แบ่งข้อมูลขนาดใหญ่ออกเป็นข้อมูลชุดย่อย
 การเฝ้ามองดู (Monitoring) ขั้นพื้นฐ...
 Prescriptive Analytics: เน้นความเข้าใจว่าอะไรจะเกิดขึ้นบนพื้นฐานของทางเลือกต่างๆกัน และ
สถานการณ์ที่เกิดขึ้น จากนั้นเลือ...
7. ข้อพิจารณาระบบรักษาความปลอดภัยของ Big Data
ข้อพิจารณาเบื้องต้น
 ใช้ Kerberos — รวมเข้าไปในการทางานของ Hadoop — เพื่อตร...
Big Data
Big Data
Big Data
Big Data
Big Data
Big Data
Big Data
Big Data
Big Data
Upcoming SlideShare
Loading in …5
×

Big Data

9,511 views

Published on

รวบรวมจากเว็บไซค์ http://www.cyberthai.com/index.php/knowledge-center ทำเป็นรูปเล่ม เอามาแบ่งปันกันอ่านเป็นความรู้

Published in: Education
  • Follow the link, new dating source: ♥♥♥ http://bit.ly/2u6xbL5 ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating for everyone is here: ❤❤❤ http://bit.ly/2u6xbL5 ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Big Data

  1. 1. การบริหารจัดการข้อมูลขนาดใหญ่ (Big Data Analytics) 1. Big Data คืออะไร ที่ รวมของชุดข้อมูลที่มีขนาดใหญ่และซับซ้อน ยากต่อการประมวลผล หรือเกินความสามารถที่จะดัก จับ บริหารจัดการ การจัดเก็บ การค้นหา การแบ่งปัน การส่งถ่าย และการวิเคราะห์ ด้วยเครื่องมือระบบ ฐานข้อมูลที่มีอยู่ในปัจจุบัน ด้วยเหตุนี้ แพลตฟอร์มใหม่สาหรับ "big data" จึงได้เกิดขึ้นเพื่อให้สามารถจัดการ กับข้อมูลจานวนมากเช่นนั้นได้ ตัวอย่างเช่น Apache Hadoop Big Data เป็น ระเบียบวิธีในการวิเคราะห์ข้อมูล ที่รองรับโดยสถาปัตยกรรมและเทคโนโลยียุคใหม่ที่ รองรับการตรวจจับข้อมูลที่ ไหลด้วยความเร็วสูง รวมทั้งการจัดเก็บเพื่อนามาวิเคราะห์ (Villars, Olofson, & Eastwood, 2011) ข้อมูลเหล่านี้ไม่เพียงแต่ชนิดที่มีโครงสร้างเท่านั้น แต่รวมทั้งที่เป็นแบบไร้โครงสร้าง และไม่มี รูปแบบหรือฟอร์แมตมาตรฐาน (Coronel, Morris, & Rob, 2013). แหล่งที่มาของข้อมูลและปริมาณมีมากเกินกว่าระบบฐานข้อมูลในองค์กรจะรับมือได้ ข้อมูลเหล่านี้รวมทั้ง e-mail ข้อมูลที่มาจากอุปกรณ์โทรศัพท์เคลื่อนที่ รวมทั้งข้อมูลจากสังคมออนไลน์ (Villars, Olofson, & Eastwood, 2011)  1 PB = 1000000000000000B = 1015bytes = 1000terabytes.  1 ZB = 1000000000000000000000bytes = 10007bytes = 1021bytes = 1000exabytes = 1 billion terabytes.  1 YB = 1000000000000000000000000bytes = 10008bytes = 1024bytes = 1000zettabytes = 1 trillion terabytes.
  2. 2. 1.1 สภาพแวดล้อมสาหรับ Big Data  รองรับและจัดเก็บข้อมูลมากกว่า Petabyte ขึ้นไป  มีการจัดเก็บข้อมูลชนิดที่มีระบบทดแทน รวมทั้งให้บริการแบบกระจาย  การประมวลผลข้อมูลเป็นแบบขนาน  มีการประมวลผลข้อมูลข่าวสารที่มีขีดความสามารถแบบ MapReduce หรือเทียบเท่า  มีการบริหารจัดการแบบรวมศูนย์และเป็นระบบผสานการทางานกับทรัพยากรประมวลผลต่างๆ  ระบบต้องไม่มีค่าใช้จ่ายสูง  ความสามารถในการเข้าถึงข้อมูล – ใช้งานง่าย และมีความพร้อมของข้อมูลอยู่เสมอ  ขีดความสามารถในการให้บริการจะต้องสามารถแปรผันไปตามความต้องการใช้งานเสมอ 1.2 ลักษณะพิเศษของ Big Data ลักษณะพิเศษ 3 ประการของ Big Data 1.2.1 volume 1.2.2 velocity 1.2.3 variety
  3. 3. 1.2.1 ปริมาณ (Volume) ปริมาณของข้อมูล : องค์กรต่างๆ จมอยู่ใต้ข้อมูลทุกประเภทที่เติบโตขึ้นเรื่อยๆ จนถึงขนาดเทราไบต์ (terabyte) หรือแม้แต่ เพทาไบท์(petabyte) แล้วเราจะใช้ประโยชน์จาก big data ปริมาณมหาศาลเหล่านี้ได้อย่างไรบ้าง  เปลี่ยนข้อมูล 12 เทราไบต์จากการ Tweet ในแต่ละวันให้เป็นการวิเคราะห์ความเชื่อมั่นผลิตภัณฑ์ที่ดีขึ้น  แปลงข้อมูลจากการอ่านมิเตอร์ประจาปี 350 พันล้านครั้งให้เป็นข้อมูลการคาดการณ์การใช้พลังงานที่ดี กว่าเดิม 1.2.2 ความหลากหลาย (Variety) Data Variety:  จากตาราง excel ไปจนถึงฐานข้อมูล ที่ใช้งานในปัจจุบัน โครงสร้างข้อมูลนับวันจะสูญเสียความเป็น โครงสร้างมากขึ้น และมี Format เพิ่มมากยิ่งขึ้นนับร้อยแบบ เริ่มตั้งแต่ข้อความเปล่าๆ ภาพถ่าย แฟ้มข้อมูลเสียงเพลง แฟ้มข้อมูลวิดีโอ ข้อมูล Web ข้อมูล GPS ข้อมูลจาก Sensor ต่างๆ ข้อมูลจาก ฐานข้อมูลเชิงสัมพันธ์ เอกสารทั่วไป ข่าวสาร SMS แฟ้มข้อมูลประเภท pdf แฟ้มข้อมูล Flash และอื่นๆ มากมาย Veracity  หมาย ถึงข้อมูลที่ได้มานั้นมีความถูกต้องแม่นยาเพียงใด เนื่องจากข้อมูลมีความหลากหลาย และมาจาก แหล่งต่างๆที่อยู่เหนือการควบคุมของเราเช่น
  4. 4.  Facebook  Twitter  Youtube 1.2.3 ความเร็ว (Velocity) Data Velocity:  โดยปกติองค์กรมีการวิเคราะห์ข้อมูลโดยใช้กระบวนการ Batch หรือการประมวลผลที่ต่อเนื่อง ตามลาดับโดยมีข้อมูลที่ถูกจัดเตรียมไว้เรียบร้อยแล้ว เหมาะสาหรับข้อมูลที่หลั่งไหลมาแบบช้าๆ  ปัจจุบัน แหล่งของข้อมูลมาจากสื่อสังคม และ อุปกรณ์มือถือ รวมทั้งอุปกรณ์คอมพิวเตอร์เคลื่อนที่ การ ประมวลผลแบบ Batch Processing ไม่สามารถรองรับลักษณะการไหลของข้อมูลแบบนี้ เนื่องจากเป็น กระแสของข้อมูลข่าวสารที่หลั่งเข้ามายัง Server และเป็นแบบ Real-Time และมีความต่อเนื่อง แต่ ผลลัพธ์ยังใช้งานได้ดี หากมีค่าหน่วงเวลาน้อย
  5. 5.  ปี 2000 มีการจัดเก็บข้อมูล 800,000 Petabytes (PB)  ปี 2020 คาดว่าจะมีมากถึง 35 Zettabytes (ZB)  Twitter มีการจัดสร้างข้อมูล มากกว่า 7 Terrabytes (TB) ต่อวัน  Facebook 10 Terrabytes ต่อวัน  องค์กรขนาดวิสาหกิจทั่วไป 1 Terrabytes ต่อชั่วโมงต่อวันทางาน 1.3 ตัวอย่างข้อมูลที่ทาให้เกิด Big Data  ปูมบันทึกการใช้งานเว็บ (Web log)  ข้อมูลจาก RFID  เครือข่ายเซ็นเซอร์,  เครือข่ายสังคม, ข้อมูลสังคม (social data),  เอกสารและข้อความบนอินเทอร์เน็ต, การทาดัชนีค้นหาอินเทอร์เน็ต,  บันทึกการรับโทรศัพท์,
  6. 6.  ดาราศาสตร์, วิทยาศาสตร์สภาพอากาศ, จีโนมิคส์,  การวิจัยทางชีวธรณีเคมี ชีววิทยา และการวิจัยทางวิทยาศาสตร์ที่ซับซ้อน  การสอดส่องทางการทหาร, เวชระเบียน, คลังภาพถ่าย, คลังภาพเคลื่อนไหว, และพาณิชย์อิเล็กทรอนิกส์ ขนาดใหญ่ 1.4 เมื่อใดที่ควรพิจารณาใช้ Big Data  Big Data เหมาะสาหรับวิเคราะห์ข้อมูลดิบ ข้อมูลกึ่งโครงสร้างและไร้โครงสร้างจาก แหล่งต่างๆ  เมื่อใดที่ต้องการวิเคราะห์ข้อมูล และหรือข้อมูลที่นามาวิเคราะห์ไม่เกิดประสิทธิผลเมื่อนามาวิเคราะห์ ด้วยระบบบริหารจัดการในปัจจุบัน  เหมาะสาหรับจัดการกับความท้าทาย เมื่อข้อมูลไม่สามารถถูกนามาบริหารจัดการโดยระบบฐานข้อมูล ปัจจุบัน  โซลูชั่นจาก Big Data เหมาะเป็นเครื่องมือในการวิเคราะห์ข้อมูลทางธุรกิจที่ไม่ได้กาหนดไว้ก่อนหน้า
  7. 7. 1.5 อะไรคือกุญแจหลักที่ผลักดันสาหรับ Big Data  ด้านธุรกิจ  โอกาสที่จะช่วยให้เกิดนวัตกรรมทางธุรกิจรูปแบบใหม่  ศักยภาพที่อาจเกิดขึ้นสาหรับข้อมูลเชิงลึกใหม่ๆที่ใช้ขับดันความได้เปรียบในการแข่งขัน  ด้านเทคนิค  ข้อมูลที่เก็บรวบรวมและจัดเก็บไว้ยังคงมีขนาดเพิ่มขึ้นอย่างต่อเนื่อง  ข้อมูลที่เพิ่มขึ้นในทุกๆที่ และมีรูปแบบที่หลากหลายมากยิ่งขึ้น  โซลูชั่นแบบเดิม ไม่สามารถรองรับความต้องการใหม่ๆในการวิเคราะห์ข้อมูล  ด้านการเงิน  ต้นทุนของระบบข้อมูล คิดเป็นเปอร์เซ็นต์ของค่าใช้จ่ายด้านไอที และยังแนวโน้มใช้จ่ายมากขึ้น  ข้อได้เปรียบในด้านค่าใช้จ่ายของสินค้าฮาร์ดแวร์และซอฟแวร์ประเภทโอเพ่นซอร์ต 1.6 ประโยชน์ของ Big Data Analytics ต่อวงการโทรคมนาคม หลังจากติดตั้งเครื่องมือฺ Big data analytics ผู้ให้บริการระบบโทรคมนาคมจะมีขีดความสามารถใหม่ๆ ที่จะเพิ่มรายได้ และสร้างความพึงพอใจแก่ลูกค้า อีกทั้งลดค่าใช้จ่าย ขีดความสามารถนี้ประกอบด้วย 1.6.1 Location-based services 1.6.2 Intelligent marketing campaigns 1.6.3 Social media monitoring and insights 1.6.4 Network intelligence 1.6.5 High-velocity fraud detection 1.6.1 Location-based services  ผู้ให้บริการสามารถบ่งบอกตาแหน่งที่อยู่ของลูกค้าได้อย่างแม่นยาในลักษณะข้อมูล เรียลไทม์ ซึ่ง จะช่วยให้สามารถส่งมอบหรือนาเสนอโปรโมชั่นของบริการใหม่ๆ ได้ทันที ณ ตาแหน่งที่อยู่ ปัจจุบันของลูกค้า ขณะที่ยังคานึงถึงความเป็นส่วนตัวของลูกค้าอีกด้วย  มีรูปแบบการให้บริการภายใต้ Location Services 2 ชนิด
  8. 8.  บริการข้อมูลแสดงตาแหน่งที่อยู่ของลูกค้าจากโทรศัพท์มือถือ รวมทั้งข้อมูลเกี่ยวกับตาแหน่งที่อยู่ จาก GPS 1.6.2 การทาแคมเปญการตลาดที่ชาญฉลาด (Intelligent marketing campaigns)  เครื่องมือสาหรับ Big data analytics จะช่วยให้ผู้ให้บริการโทรคมนาคม มีความเข้าใจในลูกค้าได้ดี ขึ้น และยังสามารถพัฒนา Profile ของสมาชิกผู้ใช้บริการ ซึ่งยังประโยชน์ ต่อการสร้างแคมเปญทาง การตลาดได้ดียิ่งขึ้น  ตัวอย่างเช่น ใช้ Location Based Service เพื่อ จัดเก็บข้อมูลเกี่ยวกับตาแหน่งที่อยู่ของลูกค้าในแต่ละ วัน จากนั้นทาการวิเคราะห์การใช้ชีวิตตั้งแต่อยู่ในที่ทางานไปจนถึงกลับบ้านทุก วัน บนเส้นทาง ต่างๆ รวมทั้งการดาเนินชีวิตในวันหยุดสุดสัปดาห์ ข้อมูลเหล่านี้ถูกจัดเก็บใน Profile ของลูกค้า โดยผู้ให้บริการสามารถนาไปใช้เพื่อสร้าง Service ใหม่มานาเสนอต่อไป  การทาแคมเปญการตลาดที่ชาญฉลาดจะใช้ Big data analytics เพื่อปรับปรุงผลลัพธ์จากการส่งเสริม ทางการตลาด เพื่อเพิ่มรายได้และป้ องกันลูกค้าหนีหาย 1.6.3 การ Monitor ดู Social media และรู้ข้อมูลเชิงลึก (Social media monitoring and insights)  ผู้ให้บริการสามารถใช้เครื่องมือวิเคราะห์ Big Data เพื่อติดตามและวิเคราะห์การตอบสนองและ ความรู้สึกของลูกค้าได้อย่างรวดเร็วจากสื่อสังคมออนไลน์อย่างเช่น Twitter – Facebook – YouTube รวมทั้ง Message Board ตลอดจน สถานที่ออนไลน์อื่นๆ ที่ซึ่งลูกค้าใช้เป็นที่สนทนา รวมทั้งบันทึกการติดต่อและแลกเปลี่ยน E-mail กับลูกค้า  ขีดความสามารถนี้จะช่วยให้สามารถประเมินว่าการทาแคมเปญตลาดใหม่ๆ รวมทั้งผลิตภัณฑ์และ บริการจะให้ผลลัพธ์ออกมาอย่างไร? และยังสามารถระบุภูมิศาสตร์และกลุ่มเป้ าหมายผู้ใช้ ผลิตภัณฑ์ที่ตอบสนองเชิงบวก และใช้ข้อมูลนี้ เพื่อเพิ่มการขายและลดการตอบสนองเชิงลบ 1.6.4 Network intelligence  การ เพิ่มความพึงพอใจแก่ลูกค้า และลดการสูญเสียลูกค้า โดยการเพิ่มประสิทธิภาพการให้บริการ ของเครือข่าย ผู้ให้บริการสามารถใช้เครื่องมือวิเคราะห์ Big Data เพื่อพิสูจน์ทราบปัญหา รวมทั้ง การหาจุดเสียแบบเรียลไทม์ ซึ่งจะช่วยปรับปรุงประสิทธิภาพของเครือข่ายและลดค่าใช้จ่ายการ ปฏิบัติงาน  การวิเคราะห์แบบเรียลไทม์จะให้ข้อมูลที่รวดเร็วและชาญฉลาดแก่ผู้ให้บริการอย่างรวดเร็วเพื่อการ พิสูจน์ทราบจุดบริการที่มีปัญหาเพื่อปรับแต่งแก้ไขทันการณ์
  9. 9. 1.6.5 High-velocity fraud detection  การใช้ smartphone หรืออุปกรณ์อื่นๆอย่างเช่น laptop หรือ Tablet เพื่อการสร้าง Hotspot ปลอม โดยมีจุดประสงค์เพื่อแอบเชื่อมต่อกับผู้ใช้งานหลายๆคน กิจกรรมแบบนี้จะทาให้มีการแผ่ข้อมูล ออกมามากมาย ทาให้ผู้ให้บริการสูญเสียรายได้  ระบบ สามารถพิสูจน์ทราบการเกิดฉ้อโกง หรือความไม่ตั้งใจใช้งานซึ่งละเมิดต่อข้อตกลงการใช้ บริการระบบไร้สายของ สมาชิก และทีมงานผู้ให้บริการลูกค้า สามารถติดต่อกับสมาชิกผู้ใช้บริการ เพื่อลดกิจกรรมเหล่านี้หรืออัพเกรดสัญญา ของเขา 1.7 Customer Churn Analysis วิเคราะห์พฤติกรรมของผู้บริโภค ในการใช้บริการโทรศัพท์เคลื่อนที่ โดยนาเอาข้อมูลจากระบบ CRM (Customer relationship Management) มาเพื่อใช้ในการวิเคราะห์หาลูกค้าที่มีแนวโน้มว่าจะเปลี่ยน หรือลูกค้าที่ ต้องรักษาเอาไว้การจัดเตรียมข้อเสนอพิเศษต่างๆ
  10. 10. 2. การนา Big Data ไปใช้ในองค์กร  ต้องมี Data เพียงพอที่จะนามาวิเคราะห์ในรูปแบบ Digital (ไม่จาเป็นต้องเป็น Structured data คือเป็น Unstructured ก็ได้)  โครงสร้างพื้นฐานของระบบไอที : เช่น อุปกรณ์จัดเก็บข้อมูลขนาดใหญ่พร้อมด้วยระบบทดแทน ตลอดจนระบบประมวลผลที่ทรงพลัง และเครือข่ายที่มีประสิทธิภาพสูง  Analytical Skills ส่วน นี้ยากที่สุด คือมีแต่ข้อมูลก็ไม่เกิดประโยชน์อันใด ต้องมีคนที่มีทักษะด้านการ วิเคราะห์ข้อมูล เพื่อมาหาความสัมพันธ์ของข้อมูลแล้วสกัดเอาสาระออกมา 2.1 การสร้างแพลตฟอร์ม Big Data  เป้าหมายสาคัญคือ การผนวกรวมข้อมูล Big Data เข้ากับข้อมูลองค์กรของท่านอย่างง่ายดาย เพื่อให้ ท่านสามารถทาการวิเคราะห์เชิงลึกสาหรับชุดข้อมูลที่รวมเข้าด้วยกัน 2,2 ข้อกาหนดของโครงสร้างพื้นฐาน :  การรับข้อมูล  การจัดระเบียบข้อมูล  การวิเคราะห์ข้อมูล 2.3 การรับข้อมูล Big Data  เนื่องจาก Big data มี ลักษณะเป็นลากระแสของข้อมูลที่หลากหลายและมีการรับส่งรวดเร็ว ดังนั้น โครงสร้างพื้นฐานที่รองรับข้อมูลต้องมีค่าดีเลย์ต่า และสามารถคาดการณ์ได้ทั้งในส่วนบันทึกและ ค้นหาข้อมูล และต้องสามารถจัด ทรานแซคชั่นจานวนมาก  ฐานข้อมูล NoSQL มักถูกนามาใช้เพื่อรับและจัดเก็บข้อมูล Big Data สามารถปรับขนาดได้อย่าง ยืดหยุ่น สามารถรวบรวมและจัดเก็บข้อมูลโซเชียลมีเดีย ที่มีความหลากหลาย 2.4 การจัดระเบียบข้อมูล Big Data  ระบบคลังข้อมูลเก่าเรียกว่า การผนวกข้อมูลเข้าด้วยกัน เนื่องจากข้อมูลใน Big Data มหาศาล จึง ต้องทาการจัดระเบียบข้อมูลในตาแหน่งที่จัดเก็บดั้งเดิม เพื่อประหยัดเวลาและค่าใช้จ่าย เพราะไม่ ต้องย้ายข้อมูลมหาศาลไปมา โครงสร้างพื้นฐานที่จาเป็นสาหรับจัดระเบียบข้อมูล Big Data จะ ต้อง
  11. 11. สามารถประมวลผลและจัดการข้อมูลในตาแหน่งที่จัดเก็บเดิม โดยรองรับการรับส่งที่สูงมาก เพื่อ จัดการกับขั้นตอนการประมวลผลข้อมูลจานวนมาก  Apache Hadoop ช่วยให้เราจัดระเบียบและประมวลผลข้อมูลจานวนมาก พร้อมทั้งจัดเก็บข้อมูล ในคลัสเตอร์สตอเร็จดั้งเดิม  Hadoop HDFSเป็นระบบจัดเก็บข้อมูลระยะยาวสาหรับ Web Log โดย Web Log จะถูกแปลงเป็น ลักษณะการท่องเว็ป ด้วยการรันโปรแกรม Map Reduce บนคลัสเตอร์ และสร้างผลลัพธ์รวม บนคลัสเตอร์เดียวกัน จากนั้นจะโหลดผลลัพธ์รวมเหล่านี้เข้าสู่ระบบฐานข้อมูลเชิงสัมพันธ์ต่อไป 2.5 การวิเคราะห์ข้อมูล Big Data  เนื่อง จากข้อมูลไม่ได้ถูกเคลื่อนย้ายไปมาระหว่างขั้นตอนการจัดระเบียบ จึงสามารถทาการ วิเคราะห์ข้อมูลในสภาพแวดล้อมเครือข่ายแบบกระจัดกระจาย โดยข้อมูลบางส่วนจะยังคงอยู่ใน ตาแหน่งที่จัดเก็บเดิม และจะเข้าถึงอย่างโปร่งใสจากคลังข้อมูล  โครงสร้างพื้นฐานที่จาเป็นสาหรับการวิเคราะห์ข้อมูล Big Data จะต้องสามารถวิเคราะห์ข้อมูลที่ ลึกซึ้งมากขึ้น เช่นการวิเคราะห์เชิงสถิติ  ตัวอย่าง เช่น เมื่อมีการวิเคราะห์ข้อมูลสต็อกสินค้าจากตู้ขายสินค้าอัตโนมัติ ร่วมกับปฏิทินกิจกรรม สาหรับสถานที่ตั้งวางตู้ขายสินค้า ก็จะสามารถระบุสินค้าที่ขายดีที่สุด รวมทั้งตารางเวลาที่ เหมาะสมสาหรับการเติมสินค้าในตู้
  12. 12.  Real-Time Analytics and Streaming ดาเนินการวิเคราะห์ข้อมูลปริมาณสูงแบบกระแส ตลอดเวลาคิดเป็นความเร็วระดับมิลลิวินาที แหล่งข้อมูลสามารถมาจากหลายแหล่ง เช่น Sensor – Social Media Site – ภาพ Digital ข้อมูล Video บันทึก Transaction ต่างๆ และข้อมูลจากการสอด แนม ซึ่งมีรูปแบบที่หลากหลาย เหมาะสาหรับการรองรับข้อมูลที่มีความเร็วสูง  ลักษณะ การทางานเป็นแบบการวิเคราะห์ชนิดเรียลไทม์ และรองรับข้อมูลที่หลั่งไหลเข้ามาแบบ กระแส รวมทั้งการประมวลผลแบบขนาน รองรับการทางานของระบบ I/O ขนาดใหญ่ แต่ไม่ ต้องการการจัดเก็บข้อมูลขนาดใหญ่  โครงสร้างหรือกรอบการทางานของ Map Reduce อยู่บนพื้นฐานของ Hadoop และเทคโนโลยีที่ ทางานคล้ายคลึงกับ hadoop เป็น เครื่องมือที่มีการทางานแบบคู่ขนาน ที่กระจายข้อมูลชุดต่างๆไป บนเซิร์ฟเวอร์หลายๆตัว การใช้งานเบื้องต้นคือ การประมวลผลข้อมูลขนาดใหญ่  กรณีตัวอย่างใช้งานคือ วิเคราะห์ธุรกิจ การสกัดข้อความ การแปลงและการโหลดข้อมูล การ วิเคราะห์ Log และ Web Search Engines  ผู้ใช้งาน Hadoop ส่วนใหญ่อาศัยการทางานของ Distributed File System (HDFS) ที่มากับตัว Hadoop เอง  HDFS เป็นระบบ File แบบกระจายที่ให้บริการดูแลระบบจัดเก็บข้อมูลที่การทดแทนกันได้ รวมทั้ง จัดการกับการกระจายของข้อมูลบนโหนดหลายๆตัว
  13. 13.  คลังข้อมูล หมายถึง ฐานข้อมูลขนาดใหญ่ขององค์กรหรือหน่วยงานหนึ่งๆ ซึ่งเก็บรวบรวมข้อมูล จากฐานข้อมูลระบบงานประจาวัน โดยข้อมูลที่ถูกจัดเก็บในคลังข้อมูลนั้น มีวัตถุประสงค์ในการ นามาใช้งานและมีลักษณะของการจัดเก็บแตกต่างไปจากข้อมูล ในฐานข้อมูลระบบงานอื่น และ สามารถเก็บข้อมูลย้อนหลังได้หลายๆปี เพื่อใช้เป็นข้อมูลในการตัดสินใจหรือใช้ในการวิเคราะห์ ข้อมูลที่ถูกต้องและ มีประสิทธิภาพ โดยการวิเคราะห์ต้องทาได้แบบหลายมิติ และข้อมูลใน คลังข้อมูลจะถูกนามาใช้เพื่อสนับสนุนการตัดสินใจบริหารงานของผู้ บริหาร โดยเฉพาะการเป็น ข้อมูลพื้นฐานให้กับระบบงาน เพื่อการบริหารงานอื่น เช่น ระบบ DSS และระบบ CRM เป็นต้น) 2.6 กรณีตัวอย่างการใช้งานในองค์กรต่างๆ 2.6.1 งานที่เกี่ยวข้องกับค้าปลีก/ผู้บริโภค  การวางตลาดของผลิตภัณฑ์และการวิเคราะห์ทางการตลาด  การบริหารจัดการส่งเสริม การขาย และโปรแกรมการสร้างความภักดีต่อ Brand ของลูกค้า  การวิเคราะห์และบริหารจัดการห่วงโซ่อุปทาน  การสารวจข้อมูลพฤติกรรมของผู้บริโภคผ่านทาง Web  การแบ่งส่วนตลาดของผู้บริโภค
  14. 14. 2.6.2 กรณีการใช้งานด้านบริการทางการเงิน  การปฏิบัติตามกฎระเบียบและการรายงาน  การวิเคราะห์และบริหารจัดการความเสี่ยง  การตรวจสอบทุจริตและวิเคราะห์และการวิเคราะห์การรักษาความปลอดภัย  CRM กับโปรแกรมสร้างความภักดีของลูกค้า  ความเสี่ยงเกี่ยวกับการปล่อยเครดิต การให้คะแนนและการวิเคราะห์  การวิเคราะห์แบบแผนทางการค้าขายที่ผิดปกติ  การเฝ้าระวังการค้า (Trade Surveillance) 2.6.3 การใช้งานด้านบริการ Web และ Digital Media  วิเคราะห์ปริมาณของ click stream ขนาดใหญ่  การกาหนดเป้ าหมายการโฆษณา การวิเคราะห์ และพยากรณ์แนวโน้ม  การป้ องกันการใช้งานผิดวิธี และการฉ้อโกงทาง Web  การวิเคราะห์กราฟการใช้งานบนสังคมออนไลน์ และการแบ่งส่วนประเภทลูกค้าและการจัดทา Profile  การจัดทาและบริหารจัดการแคมเปญ ทางการตลาดและโปรแกรมสร้างความภักดีต่อ ผลิตภัณฑ์ 2.6.4 การใช้งานด้านสุขภาพและสาธารณสุข  ข้อมูล ประกอบการรักษา เช่นข้อมูลประวัติผู้ป่วย ประวัติการรักษาพยาบาล ประวัติการแพ้ยา หรือข้อมูลประวัติครอบครัวที่ใช้ประกอบการวิเคราะห์  ผู้ ผลิตยาและเวชภัณฑ์ใช้ข้อมูลมากและหลากหลายเพื่อหาสาเหตุของการเจ็บป่วยที่ แท้จริง การวิเคราะห์เพื่อจาเพาะเจาะจงกลุ่มผู้ป่วยที่จะทดลองและติดตามผลของการ รักษาจากยาและ เวชภัณฑ์ที่พัฒนาขึ้นใหม่ และเพื่อการพัฒนากลยุทธ์ด้านการตลาดของยานั้นๆ  การวิเคราะห์ลักษณะรูปแบบการแพร่เชื้อ เพื่อใช้ในงานวิจัยทางการแพทย์  การวิเคราะห์คุณภาพในการดูแลรักษาผู้ป่วย
  15. 15.  การบริหารจัดการเกี่ยวกับอุปทานของเครื่องมือแพทย์และยา o ข้อมูลการแพทย์และสาธารณสุข ช่วย ให้หน่วยงานที่เกี่ยวข้องในภาครัฐมีข้อมูล ประกอบการตัดสินใจ ในการกาหนดนโยบายและกฎระเบียบที่เกี่ยวข้องกับทาง สาธารณสุข เช่น สิ่งแวดล้อม มลภาวะเป็นพิษ เป็นต้น o ผู้รับผิดชอบค่ารักษาพยาบาล เช่น ผู้ให้บริการประกันสุขภาพ โดยมีส่วนช่วยในการ วิเคราะห์ลักษณะการเจ็บป่วย การรักษาพยาบาลตามแต่ลักษณะเฉพาะกลุ่ม จาแนก ตามอายุ กลุ่มอาชีพ หรือพฤติกรรมส่วนบุคคล โรคประจาตัว หรือโยงไปถึงข้อมูล อื่นๆ เช่น ข้อมูลพฤติกรรมการขับขี่ยานพาหนะ สถิติอุบัติเหตุ เพื่อออกแบบจาลองใน การวางแผนคิดคานวณค่าเบี้ยประกัน การเคลมค่ารักษาพยาบาล 2.6.5 กรณีใช้งานในส่วนของราชการ  การตรวจสอบทุจริต  การตรวจสอบภัยคุกคาม  การรักษาความปลอดภัยในระบบไอที  การปฏิบัติตามกฎระเบียบและการวิเคราะห์  การปฏิบัติตามกฎหมายภาษีอากร – การทุจริตและการละเมิด  การพยากรณ์แนวโน้มอาชญากรรมและการป้ องกัน 2.7 กรณีที่นามาใช้งานกับ E-Commerce และบริการลูกค้า  Cross-channel analytics : ใช้ตรวจวัดความพึงพอใจของลูกค้า จากประสบการณ์ของลูกค้าที่มีต่อ ผู้ให้บริการ  Event analytics : ช่วยในการตรวจวัดว่าผู้ใช้งานมีปฏิสัมพันธ์กับเนื้อหาใน Website ของท่าน อย่างไร เช่นต้องการทราบจานวนครั้งของปุ่มถูกกด หรือมีชิ้นของข้อความหรือหัวข้อใดที่ถูกใช้ งานมาก  Predictive Analytics: ช่วย ให้สามารถพิสูจน์ทราบเหตุการณ์ก่อนที่จะเกิดขึ้นจริง เช่นการพิสูจน์ ทราบแบบแผนการขาย จากกรอบของเวลาที่ผ่านมาเพื่อการพยากรณ์ปริมาณของสินค้าที่จะต้อง จัดเก็บใน สต็อก สาหรับการขายรอบต่อไป
  16. 16. ความชัดเจนในห่วงโซ่อุปาทาน: ลูกค้า คาดหวังที่จะได้ความชัดเจนเกี่ยวกับความพร้อมในการ ส่งมอบ สถานะของการสั่งซื้อ และเป็นเรื่องซับซ้อน หากห่วงโซ่อุปาทานนี้ ต้องเข้าไปเกี่ยวข้องกับ Third party หลายแห่ง เช่นโกดังเก็บสินค้า บริษัทขนส่ง ผู้ให้บริการ E-commerce จะต้องสามารถ รวบรวมข้อมูลอย่างรวดเร็วจาก Third Party หลายแห่งเหล่านี้ เพื่อให้สามารถจัดส่งสินค้าตรงตาม ตารางเวลาที่กาหนด 2.8 กรณีที่นามาใช้งานกับข้อมูลการเลือกตั้ง  จัดเก็บข้อมูลของผู้มีสิทธิ์รับเลือกตั้ง ในรูปแบบ Profile ต่างๆ  เก็บข้อมูลเกี่ยวกับการเปลี่ยนแปลงที่อยู่ของผู้มีสิทธิ์เลือกตั้ง  เก็บข้อมูลเกี่ยวกับ profile ของผู้สมัครรับเลือกตั้ง  ข้อมูลเกี่ยวกับรายงานทุจริตเลือกตั้งที่ส่งเข้ามา  ข้อมูลความคิดเห็นของผู้มีสิทธิ์เลือกตั้งเกี่ยวกับวิธีการจัดการเลือกตั้ง สถานที่ และความสะดวก  วิเคราะห์แนวโน้มและความต้องการความสะดวกในการเดินทางของผู้มีสิทธิ์เลือกตั้ง โดยดูจาก ข้อมูลภูมิลาเนา จาก GPS เพื่อกาหนดสถานที่เลือกตั้งที่สะดวก  ให้บริการตรวจสอบข้อมูลการเลือกตั้ง สถานที่จัดเลือกตั้ง ทางอินเตอร์เนต
  17. 17. 3. การประมวลผลแบบกระจาย (Distributed Computing) ทางานโดยการกระจายภาระการประมวลผลไปยังเครื่องต่าง ๆ ที่เชื่อมกันอยู่เป็นเครือข่ายคอมพิวเตอร์ และนาผลลัพธ์ที่ได้มารวมกัน วิธีนี้ทาให้เพิ่มประสิทธิภาพในการประมวลผลของระบบโดยรวม สามารถลด จานวนข้อมูลที่ส่งผ่านเครือข่ายได้ด้วยนอกจากนี้ยังเป็นระบบที่ กิจกรรมการประมวลผล สารสนเทศขององค์กร ตลอดจนทรัพยากรคอมพิวเตอร์กระจายอยู่มากกว่าหนึ่งที่ และมีการเชื่อมโยงเป็นเครือข่ายเดียวกัน งานต่าง ๆ จะถูกประมวลด้วยเครื่องคอมพิวเตอร์ 2 -3 ตัว เหตุใดจึงต้องใช้ Distributed Computing สาหรับ big data  การเปลี่ยนแปลงทางเศรษฐศาสตร์ของการประมวลผล  ปัญหาเกี่ยวกับ Latency  ความต้องการในด้านโซลูชั่นสาหรับการประมวลผลข้อมูลมหาศาล  ความต้องการในด้านประสิทธิภาพที่ถูกต้อง สภาพแวดล้อมที่สนับสนุน Big Data  Storage และเครือข่าย  Analytics
  18. 18.  ระบบการรายงาน  Application  ระบบ Hardware  Infrastructure Software  Management Software  Operation Software  Software Developer Tools  (API) ใช้เชื่อมต่อระหว่างโปรแกรมประยุกต์ต่างๆหรือ OS
  19. 19. 4. Technology Foundation สาหรับ Big Data เทคโนโลยีที่ใช้ประมวลผล Big Data  Hadoop  ใช้ประมวลผลแบบกระจาย (Distributed Computing)  Hadoop Ecosystem (ผลิตภัณฑ์ในกลุ่มของ Hadoop เพื่อเพิ่มขีดความสามารถของ Hadoop เช่น Pig Hive เป็นต้น  ฐานข้อมูลที่ไม่ใช้ภาษา SQL (NoSQL) ใช้เพื่อรองรับข้อมูลแบบ กึ่งมีโครงสร้างและแบบไม่มี โครงสร้าง ตัวอย่างผลิตภัณฑ์ Cassandra Couchbase Hbase รวมทั้ง MongoDB  Data Visualization Tools  เป็นเครื่องมือที่ใช้แปลงข้อมูล Big Data ที่ได้รับการกลั่นกรองแล้วมาแสดงในรูปของแผ่นภาพ ง่ายต่อความเข้าใจ และนาไปสู่การตัดสินใจในขั้นถัดไป  Analytic Database  ผลิตภัณฑ์ กลุ่มนี้อาจนาไปใช้กับระบบคลังข้อมูลได้ด้วย ใช้เทคนิคในการทางานแบบต่างๆเพื่อ ตอบโจทย์ด้านความเร็ว ไม่ว่าจะเป็น การประมวลผลในหน่วยความจา (In-Memory Computing) การประมวลผลในระบบฐานข้อมูล (In-Database Computing) ทั้งหมดต่อเชื่อมกับ Hadoop ตัวอย่างผลิตภัณฑ์คือ Aster Data (Teradata) Exadata (Oracle) Greenplum (EMC) Vertica (HP) สถาปัตยกรรมทางานของ Big Data 1. Cluster Design 2. Hardware Architecture 3. Network Architecture 4. Storage Architecture 5. Information Security Architecture
  20. 20. สถาปัตยกรรมของเครือข่าย Cluster Job Tracker: Job Tracker เป็น master ทาหน้าที่กากับการดูแลโดยรวมของงานจาก Map Reduce ทาหน้าที่เป็น ผู้ประสานงานระหว่าง Application กับ Hadoop.
  21. 21. Task Tracker: Task Trackers ทาหน้าที่บริหารจัดการกับการปฏิบัติงานต่างๆบน Slave Node ทุกเครื่อง Name node: Name node เป็น master Node ของ HDFS ที่อานวยการ slave Data nodes ให้ทาหน้าที่ดูแลงาน input output ในระดับล่าง และจัดเก็บระบบ File System Data node: เครื่องที่เป็น Slave เราเรียกว่า Data node ทาหน้าที่ จัดเก็บข้อมูลตัวจริง Secondary Name node : หรือ (SNN) ใช้สาหรับ Monitor ดูสถานการณ์ทางานของ HDFS cluster
  22. 22. Information Security Architecture  ระบบรักษาความปลอดภัยโครงสร้างพื้นฐาน : รักษาความปลอดภัยโครงข่ายและเครือข่ายการ ประมวลผลการโปรแกรมมิ่ง แบบกระจาย  รักษาความปลอดภัยของข้อมูล : การแยกส่วนข้อมูลที่สาคัญ การเข้ารหัสข้อมูล การควบคุมการเข้าถึง ข้อมูลที่ผ่าน Application  การบริหารจัดการข้อมูล : รักษาความปลอดภัยอุปกรณ์จัดเก็บข้อมูล และกาหนดให้มีการจัดบันทึก ทรานแซคชั่น จัดให้มีการ Audit ข้อมูล  รักษาความปลอดภัยที่ปลายทาง : กาหนดให้มีการพิสูจน์สิทธิ์และตรวจสอบความถูกต้องของผู้เข้ามา ใช้งาน มีการเฝ้าดูการเข้าถึงข้อมูลแบบเรียลไทม์
  23. 23. เทคโนโลยีสาคัญสาหรับ Big Data  Cloud Infrastructure (การทาลิงค์แยกไปอีกหน้า)  Virtualization  ระบบเครือข่าย  ระบบ Storage  In-Memory Database (Solid State Memory)  Tiered Storage Software (สามารถย้ายข้อมูลไปยังอุปกรณ์จัดเก็บข้อมูลต่างๆในทุกระดับ)  Deduplication (เทคนิคการบีบอัดข้อมูลเพื่อลดข้อมูลซ้าซ้อน)  ระบบป้ องกันข้อมูล (การทาสาเนา การจัดเก็บ การกู้คืน) Cloud ในบริบทของ Big Data มีรูปแบบและวิธีการหลายอย่างที่ทาให้สามารถนาเอา Big Data ไปใช้ร่วมกับ Cloud ตัวอย่างเช่น ท่าน สามารถใช้ Public Cloud laaS หรือ Private Cloud laaS สาหรับ Big Data และการที่ Big Data สามารถถูก นาไปใช้บน Cloud ได้เนื่องจาก ความต้องการใช้ Distributed Cluster เพื่อการประมวลผลที่มีพลังอานาจสูง ซึ่ง สิ่งนี้มีอยู่ในสถาปัตยกรรมของ Cloud คุณลักษณะการทางานของ Cloud ที่เอื้อประโยชน์แก่ Big Data ได้แก่ 1. ความสามารถในการขยาย : ใน มุมมองของฮาร์ดแวร์ หมายถึงความสามารถในการประมวลผล จากความสามารถในการประมวลผลขนาดเล็กสู่การประมวลผลขนาดใหญ่ ในมุมมองทางซอฟแวร์ หมายถึง ประสิทธิภาพที่ไม่เปลี่ยนแปลงต่อหน่วยของกาลังเมื่อมีการเพิ่มขึ้นของ ทรัพยากรของ ฮาร์ดแวร์ 2. ระบบ Cloud สามารถ ขยายขนาดเพื่อรองรับข้อมูลปริมาณสูงและด้วยประสิทธิภาพการทางานของ การประมวล ผลแบบกระจาย ดังนั้นข้อมูลที่มีปริมาณสูง จะถูกจัดแบ่งออกเป็นส่วนๆ แล้วส่ง กระจายไปยัง Cloud Server หลายๆตัว และคุณลักษณะพิเศษของ laaS คือความสามารถในการ ขยายแบบพลวัตร 3. ความยืดหยุ่น : ความยืดหยุ่นหมายถึง ขีดความสามารถในการขยายและลดจานวนของทรัพยากรที่ ใช้เพื่อการประมวลผล ได้ทันที ตามความต้องการ ข้อดีของ Cloud คือ ผู้ใช้บริการสามารถเข้ามาใช้
  24. 24. ข้อมูลได้มากเท่าที่ต้องการ ลักษณะเช่นนี้ ให้ประโยชน์แก่โครงการ Big Data ซึ่งท่านต้องการ ทรัพยากรในการประมวลผล เพื่อให้ได้ความเร็ว และสามารถประมวลผลข้อมูลในปริมาณมากๆ ซึ่งแน่นอนผู้ให้บริการจะต้องออกแบบ Platform เพื่อจะมารองรับความต้องการแบบนี้ 4. เป็นที่รวมของทรัพยากรเพื่อประมวลผล : สถาปัตยกรรมของ Cloud จะช่วยให้สามารถจัดสร้าง กลุ่มทรัพยากรเพื่อประมวลผล ให้บริการที่สร้างความประหยัดแก่ผู้ใช้บริการ 5. Self-service: ด้วยบริการแบบ ผู้ใช้งาน Cloud สามารถใช้ Browser หรือ Interface ใดๆ ก็ตาม เข้า มาขอใช้ทรัพยากรประมวลผล เช่นขอให้มีการประมวลผลแบบร่างพยากรณ์ ขนาดใหญ่สาหรับทาง ธุรกิจ ซึ่งให้ความแตกต่างจากการเรียกข้อมูลจาก Data Center เนื่องจากท่านต้องขอข้อมูล หรือ ทรัพยากรประมวลผลจากการปฏิบัติงานไอที 6. ประหยัดการลงทุนในส่วนฮาร์ดแวร์ประมวลผล รวมทั้งซอร์ฟแวร์ที่เกี่ยวข้อง เนื่องจากท่านไม่ต้อง ติดตั้ง ระบบฮาร์ดแวร์/ซอฟแวร์และเช่าพื้นที่ติดตั้งอุปกรณ์เพื่อดาเนินงาน Big Data ลดภาระ ค่าใช้จ่ายได้เป็นจานวนมาก 7. Pay as you go: รูปแบบการจ่ายค่าบริการของผู้ให้บริการ Cloud อีกแบบหนึ่งคือ Pay as You Go (PAYG) ซึ่ง หมายความว่าท่านชาระเฉพาะทรัพยากรประมวลผลที่ท่านได้ใช้จริงด้วยราคาที่ กาหนดไว้วิธีนี้มีประโยชน์ หากท่านไม่แน่ใจว่า ทรัพยากรแบบใดที่ท่านจะต้องใช้ในโครงการ Big 8. Fault tolerance: ผู้ให้บริการ Cloud ควรมีระบบ fault tolerance อยู่ในสถาปัตยกรรมการให้บริการ ของเขา เพื่อทดแทนหรือสารองแทนกันในกรณีที่ระบบหรืออุปกรณ์หลักไม่สามารถทางานได้ การใช้ประโยชน์ของ Cloud สาหรับ Big Data 1. การใช้งาน IaaS ใน public cloud: ท่านอาจใช้ Infrastructure ของผู้ให้บริการ Cloud สาหรับ Big Data เนื่องจากท่านไม่ต้องการใช้ Infrastructure ภายในของหน่วยงานท่าน 2. IaaS สามารถสร้าง Virtual Machine ที่ ระบบประมวลผลและการจัดเก็บข้อมูลที่แทบไม่จากัด ท่าน สามารถเลือกระบบปฏิบัติการได้ตามที่ท่านต้องการ อีกทั้งยังสามารถปรับขนาดของสภาพแวดล้อมการ ทางานของท่านได้ตามที่ต้องการ 3. ตัวอย่างผู้ให้บริการได้แก่การใช้ Amazon Elastic Compute Cloud (Amazon EC2) service เพื่อที่จะ เรียกใช้งานแบบร่างพยากรณ์ชนิด real-time ที่ต้องการประมวลผลข้อมูลแบบขนาน
  25. 25. 4. ท่านอาจต้องการประมวลผลข้อมูล ประเภท Click-Stream จากลูกค้าเป้ าหมายของท่านที่มีอยู่นับล้าน ในแบบ real-time ก็ได้ ข้อควรพิจารณาเมื่อจะต้องใช้ Cloud services ✓ ความสมบูรณ์ของข้อมูล : ตรวจ สอบให้แน่ใจว่า ผู้ให้บริการมีระบบ ควบคุมข้อมูลและการดูแลรักษาที่ เพียงพอ เพื่อให้แน่ใจว่าข้อมูลนั้นมีความถูกต้อง ไม่ได้รับการเปลี่ยนแปลงไปจากเดิม ✓ การปฏิบัติตามมาตรฐาน : ตรวจสอบให้แน่ใจว่า ผู้ให้บริการของท่าน ได้ปฏิบัติตามกฎกติกา มาตรฐานสากล และสอดคล้องกับองค์กร หรืออุตสาหกรรมธุรกิจของท่าน ✓ ต้นทุนค่าใช้จ่าย : ตรวจ สอบค่าใช้จ่ายให้ครบถ้วน โดยจัดตั้งความต้องการของท่าน จากนั้นตรวจสอบ ข้อเสนอและค่าใช้จ่ายของผู้ให้บริการที่สอดคล้องกับงานของ ท่าน ✓ การส่งถ่ายข้อมูล : ตรวจสอบให้แน่ใจว่า วิธีการที่ท่านได้รับข้อมูลของท่านลงบน Cloud ตัวอย่างเช่น ผู้ ให้บริการบางแห่งขอให้ท่านส่ง Mail บน Media ส่วนบางแห่งยืนยันให้ อัพโหลดบนเครือข่าย ✓ประสิทธิภาพ และความพร้อมของการให้บริการ (Performance & Availability) ◦ ค่า Latency ◦ ค่า Uptime ◦ ระบบ Data Recovery ◦ มีระบบการดูแลรักษาแบบมีกาหนดการ ✓ การเข้าถึงข้อมูล : ความปลอดภัยในการเข้าถึงข้อมูล ◦ มีระบบบริหารตัวตน (Identity Management) ◦ มีระบบ Authentication ◦ มีระบบ Secure Communication เช่นการใช้ SSL ✓ สถานที่จัดเก็บข้อมูล : ในบางประเทศมีกฎหมายที่จากัดการจัดเก็บข้อมูล และมีการป้ องกันมิให้มีการ จัดเก็บข้อมูลไว้นอกประเทศ
  26. 26. 5. การบริหารจัดการ Big Data 14 เทคโนโลยีใหม่สาหรับ Big Data 5.1 Column-oriented databases ฐานข้อมูลประเภท Row-Oriented แบบดั้งเดิม ทางานได้ดีเยี่ยมสาหรับการประมวลผลแบบ Online transaction และมีความเร็วในการอัพเดทสูง แต่มีจุดด้อยในประสิทธิภาพด้านการ Query เมื่อข้อมูลมีขนาดโต มากขึ้น และเริ่มมีสภาพที่ไร้โครงสร้าง ฐานข้อมูลแบบ Column Oriented มีการจัดเก็บข้อมูลในรูปแบบ Column แทนที่จะเป็นแบบ Row ซึ่งจะช่วยให้ สามารถบีบอัดข้อมูลได้มากมาย และช่วยให้การ Query มีความรวดเร็วมากขึ้น แต่ฐานข้อมูลประเภทนี้มีจุดด้อย ตรงที่ยอมให้มีการอัพเดทแบบ Batch และใช้เวลาในการอัพเดทมากกว่า 5.2 Schema-less databases, หรือ NoSQL databases มีฐานข้อมูลหลายชนิดที่เข้ากับการทางานแบบนี้ เช่น Key Value Store และ Document Store ซึ่งเน้นไป ที่การจัดเก็บและการดึงข้อมูลขนาดใหญ่ที่มีลักษณะแบบมีโครงสร้าง หรือกึ่งโครงสร้าง และแม้กระทั่งไร้ โครงสร้างได้ 5.3 NoSQL  เป็นฐานข้อมูลที่ไม่มี หรือไม่ต้องใช้ภาษา 4th Gen. language แบบ SQL
  27. 27.  ไม่ใช่ฐานข้อมูลเชิงสัมพันธ์ จึงไม่สามารถนาเอา Join, Where มาใช้งาน  เน้นใช้งานกับปริมาณข้อมูลที่มีจานวนมากมายมหาศาล ระดับ Facebook Twitter Google  NoSQL ไม่มีโครงสร้างตายตัว สามารถขยายได้ในระดับแนวนอน คือเพิ่มเครื่องได้ง่ายกว่า  NoSQL เป็นฐานข้อมูลแบบกระจาย มีสถาปัตยกรรมที่รองรับระบบทดแทน หรือสารองในกรณีที่ ระบบหลักเกิดขัดข้อง  เน้นการทางานแบบ Key/Value หรือ Key/Column 5.4 Hive จะทาให้ Hadoop ทางานเสมือนหนึ่ง เป็น data warehouse. มันจะซ้อนตัวมันเองเข้าไปในข้อมูลภายใต้ HDFS จากนั้นอนุญาตให้มีการเข้ามาสอบถามข้อมูลโดยใช้ Syntax ที่คล้ายกันกับ SQL เช่นเดียวกันกับ Pig ตัว Hive มีแกนการทางานที่สามารถขยายได้ 5.5 PIG เป็นภาษาโปรแกรมมิ่ง ที่สามารถทาให้งานที่ทาร่วมกับ hadoop มีความเรียบง่าย ไม่ว่าจะเป็นโหลด ข้อมูล การแสดงการเปลี่ยนแปลงของข้อมูล และจัดเก็บผลลัพธ์สุดท้าย ในตัว PIG มี ระบบการทางานที่เข้าใจข้อมูลประเภท Semi-Structured เช่น Log Files และภาษาที่ขยาย ได้โดยใช้ Java เพื่อเพิ่มการสนับสนุนสาหรับข้อมูลที่มีการเปลี่ยนแปลงแบบ Custom 5.6 เทคโนโลยีจัดเก็บข้อมูล เมื่อ ขนาดของข้อมูลเพิ่มขึ้น จาเป็นต้องมีระบบและเทคนิคการจัดเก็บข้อมูลที่มีประสิทธิภาพมากขึ้น โดยเฉพาะขีดความสามารถในการบีบอัดข้อมูลเพื่อเพิ่มพื้นที่ รวมทั้ง Storage Virtualization ไอดีซีได้ให้คาจากัดความของ Storage Virtualizationไว้ดังนี้  มีการทางานแยกจากฮาร์ดดิสก์  มีความสามารถในการทางานภายใต้สภาพแวดล้อมของระบบการจัด  เก็บข้อมูลที่หลากหลาย และสามารถเคลื่อนย้ายได้อย่างอิสระ  สามารถปรับการจัดเก็บข้อมูลได้อย่างอัตโนมัติ และยังจัดเก็บข้อมูลที่ทางานภายใน policy-based ได้โดยอัตโนมัติ
  28. 28. สาหรับข้อที่แตกต่างระหว่างสองระบบก็คือ SAN ใช้เน็ตเวิร์คในการแยกการเชื่อมต่อระหว่างเซิร์ฟ เวอร์และระบบจัดเก็บข้อมูลจากข้อจากัดทางกายภาพ ในขณะที่ Virtual Storageใช้การจัดการผ่านซอฟต์แวร์ และความแตกต่างอีกข้อหนึ่ง คือ SAN จะรวบรวมเครือข่ายระบบการจัดเก็บข้อมูลในขณะที่ Virtual Storage รวบรวมการบริหารจัดการระบบการจัดเก็บข้อมูล Virtual Storage ประกอบด้วย  Network Storage Controller  ซอฟต์แวร์บริหารจัดการ 5.7 SkyTree: SkyTree เป็นแพลตฟอร์มของ Machine learning รวมทั้ง ระบบวิเคราะห์ข้อมูล ที่มุ่งเน้นกับการรับมือ ระบบ Big Data โดยระบบ Machine learning ถือเป็นส่วนที่สาคัญยิ่งสาหรับ Big Data 5.8 Hadoop: Apache Hadoop คืออะไร เป็นซอฟท์แวร์เฟรมเวิร์ค (Framework) ถูกออกแบบมาเพื่อทางานบนระบบคอมพิวเตอร์แบบกระจาย (Distributed Computing i.e. Cloud Computing) และสนับสนุนการทางานแบบขนาน (Parallel) โดยมีชุดคาสั่ง (API) เพื่อช่วยอานวยความสะดวกแก่นักพัฒนาแอพพลิเคชั่นที่จะสร้างระบบค้นหาหรือ วิเคราะห์ข้อมูลขนาด ใหญ่ (Large Dataset, Internet Scale Dataset) Hadoop สามารถแบ่งออกเป็น 2 ส่วนใหญ่คือ MapReduce Framework ซึ่งเป็นส่วนของการปฎิบัติงาน ในการวิเคราะห์ข้อมูล และ Hadoop File System (HDFS) ซึ่งมีความสามารถในการจัดเก็บข้อมูลขนาดใหญ่ ใน ปัจจุบัน Hadoop ได้รับการสนับสนุนจากองค์กรต่างๆ มากมายไม่ว่าจะเป็น Adobe, Alibaba, Amazon Web Services, Baidu, Microsoft Bing, China Mobile, eBay, Facebook, Hulu, IBM, Twitter, Rackspace และ Yahoo!
  29. 29. ข้อดีของ Hadoop มีความยืดหยุ่นสูงทาให้สามารถเพิ่มหรือลดจานวนคอมพิวเตอร์เมื่อใดก็ได้ตามที่ต้องการ 1. สามารถติดตั้งบนคอมพิวเตอร์ชนิดใดก็ได้ รวมทั้งสามารถทาการติดตั้งระบบได้อย่างรวดเร็ว 2. สามารถเพิ่มหรือลดประสิทธิภาพได้ตามความต้องการของแต่ละงาน 3. Reliable เชื่อถือได้และสามารถพยากรณ์ล่วงหน้าได้ 4. เฟรมเวิร์ค Hadoop เป็นระบบการจัดการข้อมูลขนาดใหญ่แบบกระจายระบบหนึ่งที่ Facebook เลือกใช้ ซึ่งมีระบบนิเวศต่าง ๆ ให้พร้อมสรรพ เช่น ระบบโครงสร้างไฟล์ HDFS, ระบบฐานข้อมูล Hbase, ระบบวิเคราะห์และประมวลผลข้อมูล Hive, และโครงสร้างภาษาโปรแกรม Hadoop MapReduce เป็นต้น ตัวอย่างของผู้ที่ใช้งาน Apache Hadoop  Facebook มี Apache Hadoop Cluster อยู่ด้วยกัน 2 ชุด ชุดแรกประกอบจาก Server จานวน 1,100 เครื่อง ,CPU 8,800 Cores และพื้นที่ 12PB (12,000TB) และชุดที่สองประกอบจาก Server จานวน 300 เครื่อง ,CPU 2,400 Cores และพื้นที่ 3PB (3,000TB)  Yahoo! ใช้เซิร์ฟเวอร์มากกว่า 40,000 เครื่อง,CPU มากกว่า 100,000 ชุดสาหรับรองรับระบบ Ads และ Web Search  นอกจากนี้ยังมีผู้ให้บริการรายใหญ่ๆ มากมายอย่าง Twitter, ImageShack, Adobe, AOL และอื่นๆ อีก มากมายที่ใช้ Apache Hadoop ในการจัดเก็บข้อมูลแทนฐานข้อมูลแบบ SQL รวมถึง Microsoft เองก็มี แผนที่จะให้ MS SQL สามารถทางานเชื่อมต่อกับ Apache Hadoop ได้เช่นกัน อีกทั้งผู้ผลิตรายใหญ่ๆ อย่าง IBM ส่วนในวงการการศึกษาและทางภาคธุรกิจเอง Apache Hadoop ถือเป็นทางเลือกที่ดีในงาน หลายๆ ประเภท ไม่ว่าจะเป็นงานประมวลผลประสิทธิภาพสูง (High Performance Computing), Scientific Computing, Image Processing, Information Retrieval, Machine Learning, Social Network Analysis, Data Mining, Business Intelligence (BI), Network Security, Sensor Data Storage, Biomedical, Statistic, Machine Translation, Language Modeling, Bioinformatic, Email Analysis และ อื่นๆ อีกมากมาย และแนวโน้มการเติบโตของ Apache Hadoop ก็จะยังคงมีต่อไปเรื่อยๆ และ Supermicro เองก็ให้การสนับสนุน Apache Hadoop กันเป็นอย่างมากอีกด้วย
  30. 30. ความแตกต่างระหว่าง Relational กับ Hadoop Relational Database Hadoop  มีแบบแผนที่ต้องการเขียน  อ่านข้อมูลได้เร็ว  มีโครงสร้างและมีรูปแบบมาตรฐาน  มีข้อจากัดและไม่มีการประมวลผล  ข้อมูลเป็นชนิดโครงสร้าง  ใช้เป็น Data Store และวิเคราะห์ OLAP แบบ Interactive  มีแบบแผนที่ต้องการอ่าน  เขียนข้อมูลได้เร็ว  มีโครงสร้างหลวม  ประมวลผลและจัดสร้างข้อมูล  มีโครงสร้างหลายอย่างผสมผสาน  ค้นพบข้อมูลและประมวลผลเชิงขนาน ใช้กับ ข้อมูลที่ไม่มีโครงสร้างได้ดี 5.9 HDFS  Hadoop Distributed File System (HDFS) เป็น ระบบแฟ้มข้อมูลแบบกระจาย ที่ถูกออกแบบมาให้ ทางานบนเซิร์ฟเวอร์ และ แพลตฟอร์ม ทั่วไป มีความคล้ายคลึงกันกับระบบแฟ้ มข้อมูลแบบ กระจาย โดยมีข้อแตกต่างเพียงเล็กน้อย  HDFS มีระบบทดแทนความผิดพลาดสูง ถูกออกแบบมาเพื่อให้ทางานบนระบบ Hardware ราคา ประหยัด HDFS สามารถให้ประสิทธิภาพด้านความเร็วในการเข้าถึงข้อมูลของแอพพลิเคชั่นและ เหมาะสาหรับแอพพลิเคชั่นที่มีชุดของข้อมูลขนาดใหญ่
  31. 31.  เดิม HDFS ถูกออกแบบให้เป็น โครงสร้างพื้นฐานสาหรับโครงการ Apache Nutch web search engine และปัจจุบันเป็นโครงการย่อยของ Apache Hadoop เป้ าหมายของ HDFS  แก้ปัญหาระบบข้อมูลล่มเนื่องจากฮาร์ดแวร์ทางานผิดพลาด  สามารถเข้าถึงข้อมูลข่าวสารแบบ Streaming ได้ดี  รองรับชุดของข้อมูลขนาดใหญ่  เป็นโมเดลการเชื่อมต่อที่เรียบง่าย 5.10 MapReduce MapReduce เป็น framework ใน การเขียนโปรแกรมแบบหนึ่งที่ช่วยในงานประมวลผลที่มีชุดของ ข้อมูล จานวนมาก เป็นการทางานแบบขนาน ซึ่งจะอาศัยเครื่องคอมพิวเตอร์หลายๆเครื่องช่วยกันทางาน โดยที่ ผู้ใช้งานนั้นไม่ต้องสนใจเบื้องหลังการทางานเช่น parallelization, data distribution, loads balancing และ fault tolerance ในการทางานแล้วผู้ใช้งาน MapReduce จะสนใจแค่ส่วนของ Map และส่วนของ Reduce ซึ่ง Map จะ ทาการจับคู่ของ Key/Value ที่เราต้องการ แล้วก็จะส่งไปให้ Reduce ทาการประมวลผลเพื่อให้ได้ผลลัพธ์ที่ ต้องการ หลักการทางาน หลักการทางานของ MapReduce คือจะกระจายงานต่างๆไปให้ Map-Worker ที่อยู่บนแต่ละเครื่อง ทางาน ซึ่งผู้ที่ควบคุมการกระจายงานก็คือ Master โดยหลังจากที่ worker ทางานเสร็จแล้วก็จะแจ้งให้ Master เพื่อที่ Master จะส่งต่อผลของการ Map ให้กับ Reduce-Worker เพื่อทางานให้ได้ผลลัพธ์ต่อไป
  32. 32.  MapReduce คือ Programming Model ถูกใช้ในการกระจายการประมวลผลไปยังเครื่อง computer เครื่องอื่นๆใน Network  Map Reduce แบ่งการทางานเป็น 2 เฟสใหญ่ๆ คือ Map กับ Reduce  Map Reduce คือ การแบ่งงาน(Map) ชิ้นใหญ่ๆให้เป็นชิ้นเล็กๆ แล้วนาชิ้นเล็กๆไปประมวลผลบน Computing Cluster หลังจากนั้นจะรวบรวมงาน(Reduce)จากทุกๆ Node ใน Cluster เข้าเป็นชิ้นเดียวกัน  มีคุณสมบัติ Fault-Tolerant หมายถึง ถ้ามี Node หนึ่งใน Cluster ไม่สามารถทางานได้ในขณะที่ ประมวลผลแล้ว Task นั้นๆที่ถูก Run อยู่จะถูก Re-Run ขึ้นมาอีกครั้งด้วย small overhead  มีการทางานแบบ Master/Slave Architecture โดยเรียก Master ว่า JobTracker และเรียก Slave ว่า TaskTracker Map/Reduce ทางานอย่างไร  ในขั้นตอนการ Map เครื่องที่ทาหน้าที่เป็น Master Node นา input ที่ได้รับมาแบ่งเป็น Sub-Problem หลายๆชิ้น และกระจายไปยังเครื่องที่ทาหน้าที่เป็น Worker Node ซึ่งเครื่อง Worker Node อาจจะนา ข้อมูลที่ได้รับไปแบ่งเป็น Sub-Problem อีกที (ในลักษณะของ Multi Level Tree) Worker Node จะทา การประมวลผล Sub-Problem ที่ได้รับ และส่งผลลัพธ์กลับไปยัง Master Node  ขั้นตอนการ Reduce จะเกิดขึ้นที่ Master Node โดยที่ Master Node จะนาผลลัพธ์ทั้งหมดที่ได้รับจาก Worker Node และนามาสรุปเป็นผลลัพธ์สุดท้ายก่อนส่งไปที่ Client
  33. 33. 5.11 Chukwa  Chukwa เป็นโครงการย่อยของ Hadoop ที่อุทิศให้กับงานประเภทการจัดเก็บ Log ขนาดใหญ่และ ทาการวิเคราะห์  Chukwa ถูกสร้างขึ้นให้ทางานที่ส่วนบนของ Framework ของ HDFS และ MapReduce และสืบ ทอดความสามารถในการขยายของ Hadoop รวมทั้งความแกร่ง มีส่วนประกอบ 4 รายการ:  Agents ที่ทางานบนเครื่องคอมพิวเตอร์ต่างๆ และเป็นผู้ปล่อยข้อมูล  Collectors ที่รับเอาข้อมูลจาก Agent จากนั้นบันทึกข้อมูลลงบนอุปกรณ์จัดเก็บข้อมูล  MapReduce jobs สาหรับ การแยกและจัดเก็บข้อมูล  HICC หรือ Hadoop Infrastructure Care Center ใช้สาหรับแสดงข้อมูลในรูปแบบของหน้า Web 5.12 HBase  HBase เป็น open source ไม่ใช่ฐานข้อมูลเชิงสัมพันธ์ และเป็นฐานข้อมูลแบบกระจายที่มาทีหลัง BigTable ของ Google เขียนขึ้นด้วยภาษา Java ถูกพัฒนาให้เป็นส่วนหนึ่งของโครงการ Apache Hadoop project และทางานอยู่ส่วนบนเหนือ HDFS (Hadoop Distributed Filesystem) มีขีด ความสามารถคล้ายกันกับ Bigtable แต่ทางานภายใต้ Hadoop นั่นคือสามารถมีระบบ Fault Tolerance ในการจัดเก็บข้อมูลปริมาณมาก ที่ผู้ใช้งานเรียกหาตามต้องการ  HBase ไม่ได้ถูกนามาแทนที่ ฐานข้อมูล SQL ดั้งเดิม ถึงแม้ว่า ประสิทธิภาพการทางานได้รับการ ปรับปรุง และปัจจุบัน ถูกนามาใช้กับ Website ที่ต้องใช้ข้อมูลจานวนมากอย่างเช่น Facebook 's Messaging Platform
  34. 34. 5.13 Mahout  การทาให้ข้อมูลที่มีอยู่อย่างมหาศาล ให้สามารถนามาใช้งานได้ในทันที ไม่ว่าจะเป็นการ ประมวลผลข่าวสาร e-mail นับพันฉบับหรือ การจัดเก็บและประมวลผล Web Log ที่มีขนาดนับ Petabyte เครื่องมือที่จะมารวบรวมและจัดการกับข้อมูลเหล่านี้ จาเป็นต้องมีขีดความสามารถที่ เรียกว่า Machine Learning เครื่องมือนี้ได้แก่ Mahout  Mahout เป็น Machine Learning Library แบบ Open Source ที่มีขีดความสามารถสูงจาก Apache เหมาะเป็นเครื่องมือสาหรับประมวลผลข้อมูลที่ถูกจัดเก็บขนาดจานวนมหาศาลและมากเกินกว่าที่ คอมพิวเตอร์เครื่องหนึ่งจะสามารถจัดการได้  การโหลดข้อมูลขนาดมหึมาเข้าไปในHadoop จากระบบการผลิตหรือการเข้าถึงมันจาก Map- Reduce Application ที่ทางานบน Cluster ขนาดใหญ่ เป็นเรื่องที่ท้าทายต่อความเสี่ยง รวมทั้งการส่ง ถ่ายข้อมูลโดยใช้ Data Scripts ไม่มีประสิทธิผล และกินเวลามาก  Sqoop เป็น เครื่องมือที่ใช้ส่งถ่ายข้อมูลขนาดใหญ่ที่จะช่วยให้สามารถนาเข้าหรือส่งออก ข้อมูล จาก สถานจัดเก็บข้อมูล อย่างเช่น ฐานข้อมูลเชิงสัมพันธ์ รวมทั้ง Data warehouse และระบบ NoSQL  Sqoop จะช่วยให้ท่านสามารถสารองข้อมูลจากระบบจัดเก็บข้อมูลจากภายนอก เข้าไปไว้ใน HDFS เช่นเดียวกับการเติมตารางใน Hive และ HBase  Sqoop ใช้สถาปัตยกรรมบนพื้นฐานของการเชื่อมต่อ ซึ่งสนับสนุนการเชื่อมต่อกับระบบภายนอก เพิ่มเติม
  35. 35. 5.14 ZooKeeper Zookeeper เป็นบริการที่ใช้เพื่อประสานงานเกี่ยวกับกระบวนการทางานของ Application แบบกระจาย และให้บริการ Replicate ข้อมูลจาก Server อื่นๆ หากเกิดความผิดพลาดบน Server ผู้ใช้งานก็เพียงแต่เปลี่ยน Server ที่เขาเชื่อมต่อเท่านั้น และเพื่อให้ หลักประกันว่า Application นั้นสามารถทางานได้อย่างถูกต้องถึงแม้จะ มีการเข้ามาใช้งานพร้อมๆกันหลายคนก็ตาม
  36. 36. 6. Big data Analytics การวิเคราะห์เบื้องต้น  แบ่งข้อมูลขนาดใหญ่ออกเป็นข้อมูลชุดย่อย  การเฝ้ามองดู (Monitoring) ขั้นพื้นฐาน  การพิสูจน์ทราบสิ่งผิดปกติที่เกิดขึ้น การวิเคราะห์ระดับ Advanced  การจัดทาโมเดลพยากรณ์  การวิเคราะห์ถ้อยความ  อัลกอริธึมสาหรับทาเหมืองข้อมูล และข้อมูลทางสถิติอื่นๆ แนวโน้มการวิเคราะห์ของ Big Data ในอนาคต  Predictive Analytics : มอง ไปข้างหน้าเพื่อให้มีความรู้เชิงลึกว่าอะไรจะเกิดขึ้น และสถานการณ์ที่ เป็นไปได้อย่างไรบ้าง รวมทั้งการประเมินความเสี่ยง ใช้เพื่อพยากรณ์ และทดสอบสมมติฐาน การจัดทา โมเดลวิเคราะห์ความเสี่ยง โดยใช้ข้อมูลในอดีตที่อยู่ในลักษณะเรียลไทม์และกึ่งเรียลไทม์
  37. 37.  Prescriptive Analytics: เน้นความเข้าใจว่าอะไรจะเกิดขึ้นบนพื้นฐานของทางเลือกต่างๆกัน และ สถานการณ์ที่เกิดขึ้น จากนั้นเลือกทางเลือกที่ดีที่สุด เครื่องมือที่ใช้วิเคราะห์ Big Data  Discovery Tools : ใช้ค้นพบข้อมูลแบบต่างๆทั้งที่เป็นแบบมีโครงสร้างและไร้โครงสร้าง โดยสามารถ แยกประเภทของข้อมูลเพื่อใช้วิเคราะห์  BI Tools : ใช้สาหรับรายงาน ทาหน้าปัดข้อมูล รวมทั้งวิเคราะห์และบริหารประสิทธิภาพสาหรับ ข้อมูลทรานแซคชั่น จากคลังข้อมูล  In-Database Analysis : รวม เทคนิคหลากหลายสาหรับการค้นหารูปแบบและความสัมพันธ์ในข้อมูล เทคนิคเหล่านี้ถูกนามาใช้ภายในฐานข้อมูลโดยตรง ตัดปัญหาการโยกย้ายข้อมูลไปยังเซิรฟ์ เวอร์อื่นเพื่อ ประมวลผล  Hadoop : มีประโยชน์สาหรับเตรียมการประมวลผลข้อมูล  Decision Management : รวมทั้งการจัดทา Model พยากรณ์ กฎกติกาทางธุรกิจ การปรับแต่งข่าวสารทางธุรกิจเพื่อรับมือกับ Big Data ข้อมูล  แหล่งที่มาของข้อมูล อาจมาจากแหล่งที่ไม่น่าเชื่อถือ  มีความผิดพลาดสูง ไม่สมบูรณ์ ไม่น่าเชื่อถือ  ปริมาณของข้อมูลที่สามารถนาไปใช้งานได้  ข้อมูลอาจเป็นแบบ Real Time อัลกอริธึมที่ใช้สาหรับวิเคราะห์  การสนับสนุนด้าน Infrastructure การควบรวมระหว่างเทคโนโลยีเก่าและใหม่ สามารถจัดเก็บข้อมูลขนาดใหญ่และมีความหลากหลาย สามารถประมวลผลข้อมูลที่เคลื่อนที่ตลอดเวลาได้ โซลูชั่นสาหรับวิเคราะห์และจัดเก็บและจัดการกับข้อมูลที่ ไว้วางใจได้
  38. 38. 7. ข้อพิจารณาระบบรักษาความปลอดภัยของ Big Data ข้อพิจารณาเบื้องต้น  ใช้ Kerberos — รวมเข้าไปในการทางานของ Hadoop — เพื่อตรวจสอบความถูกต้องของ Application บน Node และ Client ก่อนที่จะอนุญาตให้เข้ามาใช้งานใน Cluster และเพื่อตรวจสอบความถูกต้องของ Application ที่มีต่อ MapReduce (MR) รวมทั้งฟังชั่นที่คล้ายคลึงกัน  ใช้ การเข้ารหัสในระดับระบบปฏิบัติการและแฟ้ มข้อมูล : เพื่อป้ องกันข้อมูลที่จัดเก็บไว้และเพื่อให้ แน่ใจว่า Administrator หรือ Application อื่นๆไม่สามารถเข้าถึงแฟ้ มข้อมูลได้โดยตรง และเพื่อป้ องกัน การรั่วไหลของข้อมูลข่าวสาร  ใช้ระบบบริหารจัดการ key/certificate: ท่านไม่สามารถจัดเก็บกุญแจลงบน Disk และคาดหวังว่าจะมี ความปลอดภัย ให้ใช้ระบบบริหารจัดการกุญแจแบบส่วนกลาง ซึ่งเป็น Server เพื่อป้ องกันกุญแจ เข้ารหัสและบริการกุญแจที่ต่างกันสาหรับ File ต่างๆ  มีการตรวจสอบความถูกต้องของ Node ขณะใช้งาน : โดยใช้ virtualization management สิ่งอานวย ความสะดวกจากผู้ให้บริการ Cloud หรือผลิตภัณฑ์ จากผู้ผลิตอย่างเช่น Chef และ Puppet  จัดทาระบบวิเคราะห์ Log transactions และกิจกรรมการตรวจสอบความผิดปกติ ด้วยเครื่องมือวิเคราะห์ Logging  ใช้ SSL เพื่อรักษาความปลอดภัยการสื่อสารบนเครือข่าย และเพื่อพิสูจน์สิทธิ์ตลอดจน เพื่อให้แน่ใจว่ามี ความเป็นส่วนตัวและปลอดภัยระหว่าง Node รวมทั้ง Name Server และ Application ขณะที่มีการ สื่อสารข้อมูลระหว่างกัน

×