Big data 101
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Big data 101

on

  • 2,876 views

Introduction to Big Data concept that talk at BugDay Bangkok 2013

Introduction to Big Data concept that talk at BugDay Bangkok 2013

Statistics

Views

Total Views
2,876
Views on SlideShare
2,875
Embed Views
1

Actions

Likes
4
Downloads
136
Comments
0

1 Embed 1

https://twitter.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Big data 101 Presentation Transcript

  • 1. Big Data 101 #BugDay2013 @somkiat-- สยามชํานาญกิจ --
  • 2. Gartner Identify Top Technology 2013● Big Data● Modern Information Infrastructure● Semantic Technology● The Logical Data Warehouse● NoSQL DBMS● In-Memory Computing● Information * http://www.gartner.com/newsroom/id/2359715
  • 3. คําถามที 1ข้อมูลมาจากไหน ?
  • 4. ข้อมูลมาจากไหน ? Social Media Sensor - Location - Climate ScientistMobile usage Data Social Media Purchase Tx Photo VDO
  • 5. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 6. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 7. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 8. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 9. การเติบโตของข้อมูลhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 10. คําถามที 2ทําไม Big Data ถึงมีความสําค ัญล่ะ !!
  • 11. ทําไมต้อง Big Data ? สันๆ ง่ายๆ คือ การวิเคราะห์ เพือ การต ัดสินใจ เพือ สร้างองค์ความรู ้
  • 12. คําเหล่านีแตกต่างก ันอย่างไร ? Data = ? Information = ? Knowledge = ? Decision = ?
  • 13. คําเหล่านีแตกต่างก ันอย่างไร ? Data = ความจริงInformation = ความจริงบางส่วนกับความรู ้ Knowledge = สิงทีคุณรู ้ Decision = การตัดสินใจเพือลงมือทํา
  • 14. Modelhttp://www.infogineering.net/data-information-knowledge.htm
  • 15. คําถามที 3Big Data คืออะไร
  • 16. Big Data คืออะไรWikipediaBig data usually includes data sets with sizesbeyond the ability of commonly used softwaretools to capture, curate, manage, and processthe data within a tolerable elapsed time.
  • 17. Big Data คืออะไร● ข ้อมูลคืออะไร ( What )● จัดการมันอย่างไร ( How )● เพือเปิ ดให ้รู ้ว่าข ้อมูลมันเกียวกับอะไร ( What with )
  • 18. Big Data คืออะไร● การรวบรวมข ้อมูล● การวิเคราะห์● การดึงส่วนทีมีประโยชน์ออกมา● การหาวิธการใหม่ๆ มาใช ้งาน ี● การใช ้งานข ้อมูล● การปรับปรุงทางธุรกิจ● การวางแผนงาน● ทําให ้โลกน่าอยูขน ่ ึ
  • 19. Big Data คืออะไร● การรวบรวมข ้อมูล● การวิเคราะห์● การดึงส่วนทีมีประโยชน์ออกมา● การหาวิธการใหม่ๆ มาใช ้งาน to YOU ี UP● การใช ้งานข ้อมูล● การปรับปรุงทางธุรกิจ● การวางแผนงาน● ทําให ้โลกน่าอยูขน ่ ึ
  • 20. คุณล ักษณะของ Big Data (3V)● Volume● Variety● Velocity
  • 21. คุณล ักษณะของ Big Data● Volume ○ ปริมาณข ้อมูลทีมีจํานวนมากขึนๆๆๆๆๆๆ ○ GB -> TB -> PB -> EB -> ZB -> YB● EB = Zettabyte● 1 EB = Trillion GB● 1 EB = Billion TB
  • 22. คุณล ักษณะของ Big Data● Variety ○ รูปแบบข ้อมูลทีหลายหลาย ■ Structured ■ Unstructured ■ Semistructured ○ มีวธการนํ ามาใช ้งานอย่างไร ิ ี ○ VDO, Photo, Audio, Document, Text ○ Log, Monitoring ○ Stock reacord, Transaction ○ Need pre-processing and data cleaning
  • 23. คุณล ักษณะของ Big Data● Velocity ○ ความรวดเร็วในการประมวลผล วิเคราะห์ ○ Batch, Near real time ○ Stream processing ○ Need real time ○ Online VDO, Location tracking, AR
  • 24. Real time processing model http://www-01.ibm.com/software/data/bigdata/
  • 25. 3V
  • 26. คุณล ักษณะของ Big Data ( IBM ) 4V● Volume● Variety● Velocity● Veracity ○ ความน่าเชือถือของข ้อมูล ○ คุณภาพ ○ แหล่งทีมา ○ Noise/Outlier
  • 27. Example of Veracity issue● Twitter ○ Message from Spam bot ? ○ Message from human ? ○ Fake account ?
  • 28. 4VVolume Velocity ValueVariety Veracity
  • 29. สร้างความท้าทาย● ไม่รู ้ Volume และ Variety ของข ้อมูล● จัดเก็บข ้อมูลอย่างไร● วิเคราะห์ข ้อมูลทังหมดอย่างไร ใช ้เวลาเท่าไร● หาชุดข ้อมูลทีมีความสําคัญอย่างไร● จะทดสอบอย่างไร
  • 30. สร้างความท้าทาย● Visualization● Big Data application● แนวทางการวิเคราะห์ข ้อมูล● ศึกษาพฤติกรรมของผู ้บริโภค● Public data● New information และ Data service
  • 31. สร้างเทคโนโลยี● ถูก● ขยายได ้ง่าย● เร็ว● ทํางานบน memory ขนาดใหญ่● ทีจัดเก็บข ้อมูลรองรับข ้อมูล Volume, Variety● Parallel● Clustering● Cloud
  • 32. เทคโนโลยี● การประมวลผล ○ MapReduce● การจัดเก็บข ้อมูล ○ Distributed File System ○ Object Storage ○ NoSQL
  • 33. Distributed File System● เก็บข ้อมูลแบบถาวร● แยกข ้อมูลออกเป็ นส่วนๆ เช่น file, shard, chunk, และ block เป็ นต ้น● สนับสนุนการเข ้าถึง file server และ remote server● สนับสนุน concurrency● สนับสนุน distribution● สนับสนุน replication
  • 34. Distributed File System● Hadoop File System (HDFS)● GlusterFS● MogileFS● Google File System ( GFS )● MooseFS
  • 35. HDFS Architecturehttp://www.ibm.com/developerworks/library/wa-introhdfs/
  • 36. NoSQL● Key-value ○ Memcached, Redis, Riak● Column ○ Cassandra, HBase● Graph ○ Neo4J, FlockDB● Document ○ MongoDB, CouchDB
  • 37. สร้างโอกาส● ทางธุรกิจ● ทางด ้าน Testing http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  • 38. Big Testinghttp://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  • 39. Big Testing Big Mistakehttp://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  • 40. Big Testing● ถ ้า Big Data คือ นามัน ้ํ● ดังนัน Big Testing คือ ส่วนทีทําให ้รถวิงไปข ้างหน ้าได ้อย่างถูกต ้อง
  • 41. Cycle of Big Dataความต ้องการเพิมสูงทําให ้เกิดเทคโนโลยีเพือรองรับ นํ าไปใช ้เพือเพิมประสิทธิภาพในห ลากหลายองค์กร ได ้ผลลัพธ์ทดี ี แต่ยงต ้องการสูงขึนไปเรือย ั
  • 42. ข้อแนะนําในการสร้างระบบ● คุณเก็บข ้อมูลอะไรบ ้าง● ผลการวิเคราะห์แสดงออกมาในรูปแบบทีเข ้าใจง่าย● ระบบต ้องเสถียร เมือมีผู ้ใช ้จํานวนมากขึน● จําไว ้ว่าระบบหลังบ ้านเล็กๆ จะแก ้ปั ญหาทุกอย่างไม่ได ้● การสร ้าง software ทีว่ายาก แต่การทีจะให ้ Software หรือ Service นันทํางานไปได ้ยากยิงกว่า
  • 43. กฎของ Big Data● ทําการวิเคราะห์ได ้รวดเร็ว● ดูแลข ้อมูลเพียงชุดเดียว● ต ้องใช ้ข ้อมูลทีหลายหลาย● ข ้อมูลจะมีคาเมือเวลาผ่านไป ดังนันห ้ามลบทิง ่● วางแผนสําหรับการเดิบโตแบบก ้าวกระโดด● แก ้ปั ญหาให ้ถูกจุด● ต ้องทํางานร่วมกับมนุษย์เสมอ● Big Data คือการ transform business เหมือนทีทํากับระบบ IT
  • 44. ข้อควรจํา● จะเริม Big Data ไม่ใช่การ migrate ระบบทีมีอยูเดิม เช่น Data Warehouse ่● จะเริม Big Data เมือ 3V + Technology ทีมีอยูไม่รองรับ ่
  • 45. รูไว้ใช่วา !! ้ ่● Big data that is very small● Large datasets that aren’t big http://mike2.openmethodology.org/wiki/Big_Data_Definition
  • 46. แนวคิดการสร้างระบบจ ัดการข้อมูล โดย Nathan Marzhttp://www.slideshare.net/nathanmarz/the-secrets-of-building-realtime-big-data-systems
  • 47. ข้อมูล View 1Raw View 2Data View 3
  • 48. ข้อมูลจากระบบ Twitter URLTweet Retweet Trend Topic
  • 49. คุณสมบ ัติของระบบข้อมูล● มีความเี สถียร จาก Server ล่ม และ Human error● การอ่านและแก ้ไขใช ้เวลาน ้อย ( Low latency )● ขยายได ้ง่าย ( Scalable )● เรียบง่าย● เพิมความสามารถได ้ง่าย● สามารถทําการวิเคราะห์ได ้ง่าย● ดูแลง่าย● Debug ง่าย
  • 50. Architecture● Batch Layer● Speed Layer
  • 51. Batch Layer● ประมวลผลนานๆ ( High latency )● ขยายในแนวนอน ( Horizontal )● เรียบง่าย● เช่น Apache Hadoop ○ MapReduce ○ ทํางานแบบขนาน ○ ขยายระบบได ้ง่าย
  • 52. Batch Layer● ข ้อมูลทังหมดอยูใน Master data set ่● ข ้อมูลจะถูกเพิมไปเรือยๆ● ดังนัน view = function( Master data set )
  • 53. Batch Layer View 1 Batchข ้อมูลใหม่ View 2 process เพิมข ้อมูล ดึงข ้อมูล View 3 ข ้อมูลทังหมด
  • 54. Batch Layer● เสถียร● ขยายได ้ง่าย● เพิมความสามารถได ้ง่าย● เรียบง่าย● ดูแลรักษาได ้ง่าย● Debug ง่าย● ใช้เวลาการ อ่าน และ แก้ไขสูง
  • 55. Speed Layer● แก ้ไขเรือง เวลาการทํางานทีสูงของ Batch layer
  • 56. Speed Layer● ต ้องการวิธการจัดการ ี● วิธการส่งข ้อมูล ี● ฐานข ้อมูลสําหรับการอ่าน และ เขียน ทีรวดเร็ว ○ Riak ○ Cassandra ○ HBase● ทําให ้เกิดความซับซ ้อน !!
  • 57. การทํางานร่วมก ันBatch Layer MergeSpeed Layer
  • 58. ผลทีได้ร ับ● Batch layer ทํางานช ้า แต่ได ้ความถูกต ้อง● Speed layer ทํางานรวดเร็ว● เมือนํ าทังสอง layer มาทํางานร่วมกัน คือ "Eventual Accuracy"
  • 59. อย่าลืม Data model● ในเวลาหนึงๆ ข ้อมูลแต่ละ record ต ้องไม่ซากัน ้ํ
  • 60. Data model● เวลา 1 นาย A อยูกรุงเทพ ่● เวลา 1 นาย B อยูกรุงเทพ ่● เวลา 10 นาย A อยูเชียงใหม่ ่
  • 61. Data model● ข ้อมูลใน Master จะต ้องเพิมเข ้าไปใหม่เสมอ● ต ้องมีข ้อมูล History ทังหมดเสมอ ○ ใช ้ในการวิเคราะห์ ○ แก ้ไขเมือทํางานผิดพลาด
  • 62. แนะนํา Storm● Framework สําหรับการประมวลผลข้อมูลแบบ Real time● Open source● Free● http://storm-project.net/
  • 63. โครงสร้างของ Storm
  • 64. This is Big DataYoull never walk alone
  • 65. Big Data is Art Thank you