Big data 101

  • 2,588 views
Uploaded on

Introduction to Big Data concept that talk at BugDay Bangkok 2013

Introduction to Big Data concept that talk at BugDay Bangkok 2013

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,588
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
147
Comments
0
Likes
5

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Big Data 101 #BugDay2013 @somkiat-- สยามชํานาญกิจ --
  • 2. Gartner Identify Top Technology 2013● Big Data● Modern Information Infrastructure● Semantic Technology● The Logical Data Warehouse● NoSQL DBMS● In-Memory Computing● Information * http://www.gartner.com/newsroom/id/2359715
  • 3. คําถามที 1ข้อมูลมาจากไหน ?
  • 4. ข้อมูลมาจากไหน ? Social Media Sensor - Location - Climate ScientistMobile usage Data Social Media Purchase Tx Photo VDO
  • 5. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 6. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 7. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 8. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 9. การเติบโตของข้อมูลhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  • 10. คําถามที 2ทําไม Big Data ถึงมีความสําค ัญล่ะ !!
  • 11. ทําไมต้อง Big Data ? สันๆ ง่ายๆ คือ การวิเคราะห์ เพือ การต ัดสินใจ เพือ สร้างองค์ความรู ้
  • 12. คําเหล่านีแตกต่างก ันอย่างไร ? Data = ? Information = ? Knowledge = ? Decision = ?
  • 13. คําเหล่านีแตกต่างก ันอย่างไร ? Data = ความจริงInformation = ความจริงบางส่วนกับความรู ้ Knowledge = สิงทีคุณรู ้ Decision = การตัดสินใจเพือลงมือทํา
  • 14. Modelhttp://www.infogineering.net/data-information-knowledge.htm
  • 15. คําถามที 3Big Data คืออะไร
  • 16. Big Data คืออะไรWikipediaBig data usually includes data sets with sizesbeyond the ability of commonly used softwaretools to capture, curate, manage, and processthe data within a tolerable elapsed time.
  • 17. Big Data คืออะไร● ข ้อมูลคืออะไร ( What )● จัดการมันอย่างไร ( How )● เพือเปิ ดให ้รู ้ว่าข ้อมูลมันเกียวกับอะไร ( What with )
  • 18. Big Data คืออะไร● การรวบรวมข ้อมูล● การวิเคราะห์● การดึงส่วนทีมีประโยชน์ออกมา● การหาวิธการใหม่ๆ มาใช ้งาน ี● การใช ้งานข ้อมูล● การปรับปรุงทางธุรกิจ● การวางแผนงาน● ทําให ้โลกน่าอยูขน ่ ึ
  • 19. Big Data คืออะไร● การรวบรวมข ้อมูล● การวิเคราะห์● การดึงส่วนทีมีประโยชน์ออกมา● การหาวิธการใหม่ๆ มาใช ้งาน to YOU ี UP● การใช ้งานข ้อมูล● การปรับปรุงทางธุรกิจ● การวางแผนงาน● ทําให ้โลกน่าอยูขน ่ ึ
  • 20. คุณล ักษณะของ Big Data (3V)● Volume● Variety● Velocity
  • 21. คุณล ักษณะของ Big Data● Volume ○ ปริมาณข ้อมูลทีมีจํานวนมากขึนๆๆๆๆๆๆ ○ GB -> TB -> PB -> EB -> ZB -> YB● EB = Zettabyte● 1 EB = Trillion GB● 1 EB = Billion TB
  • 22. คุณล ักษณะของ Big Data● Variety ○ รูปแบบข ้อมูลทีหลายหลาย ■ Structured ■ Unstructured ■ Semistructured ○ มีวธการนํ ามาใช ้งานอย่างไร ิ ี ○ VDO, Photo, Audio, Document, Text ○ Log, Monitoring ○ Stock reacord, Transaction ○ Need pre-processing and data cleaning
  • 23. คุณล ักษณะของ Big Data● Velocity ○ ความรวดเร็วในการประมวลผล วิเคราะห์ ○ Batch, Near real time ○ Stream processing ○ Need real time ○ Online VDO, Location tracking, AR
  • 24. Real time processing model http://www-01.ibm.com/software/data/bigdata/
  • 25. 3V
  • 26. คุณล ักษณะของ Big Data ( IBM ) 4V● Volume● Variety● Velocity● Veracity ○ ความน่าเชือถือของข ้อมูล ○ คุณภาพ ○ แหล่งทีมา ○ Noise/Outlier
  • 27. Example of Veracity issue● Twitter ○ Message from Spam bot ? ○ Message from human ? ○ Fake account ?
  • 28. 4VVolume Velocity ValueVariety Veracity
  • 29. สร้างความท้าทาย● ไม่รู ้ Volume และ Variety ของข ้อมูล● จัดเก็บข ้อมูลอย่างไร● วิเคราะห์ข ้อมูลทังหมดอย่างไร ใช ้เวลาเท่าไร● หาชุดข ้อมูลทีมีความสําคัญอย่างไร● จะทดสอบอย่างไร
  • 30. สร้างความท้าทาย● Visualization● Big Data application● แนวทางการวิเคราะห์ข ้อมูล● ศึกษาพฤติกรรมของผู ้บริโภค● Public data● New information และ Data service
  • 31. สร้างเทคโนโลยี● ถูก● ขยายได ้ง่าย● เร็ว● ทํางานบน memory ขนาดใหญ่● ทีจัดเก็บข ้อมูลรองรับข ้อมูล Volume, Variety● Parallel● Clustering● Cloud
  • 32. เทคโนโลยี● การประมวลผล ○ MapReduce● การจัดเก็บข ้อมูล ○ Distributed File System ○ Object Storage ○ NoSQL
  • 33. Distributed File System● เก็บข ้อมูลแบบถาวร● แยกข ้อมูลออกเป็ นส่วนๆ เช่น file, shard, chunk, และ block เป็ นต ้น● สนับสนุนการเข ้าถึง file server และ remote server● สนับสนุน concurrency● สนับสนุน distribution● สนับสนุน replication
  • 34. Distributed File System● Hadoop File System (HDFS)● GlusterFS● MogileFS● Google File System ( GFS )● MooseFS
  • 35. HDFS Architecturehttp://www.ibm.com/developerworks/library/wa-introhdfs/
  • 36. NoSQL● Key-value ○ Memcached, Redis, Riak● Column ○ Cassandra, HBase● Graph ○ Neo4J, FlockDB● Document ○ MongoDB, CouchDB
  • 37. สร้างโอกาส● ทางธุรกิจ● ทางด ้าน Testing http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  • 38. Big Testinghttp://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  • 39. Big Testing Big Mistakehttp://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  • 40. Big Testing● ถ ้า Big Data คือ นามัน ้ํ● ดังนัน Big Testing คือ ส่วนทีทําให ้รถวิงไปข ้างหน ้าได ้อย่างถูกต ้อง
  • 41. Cycle of Big Dataความต ้องการเพิมสูงทําให ้เกิดเทคโนโลยีเพือรองรับ นํ าไปใช ้เพือเพิมประสิทธิภาพในห ลากหลายองค์กร ได ้ผลลัพธ์ทดี ี แต่ยงต ้องการสูงขึนไปเรือย ั
  • 42. ข้อแนะนําในการสร้างระบบ● คุณเก็บข ้อมูลอะไรบ ้าง● ผลการวิเคราะห์แสดงออกมาในรูปแบบทีเข ้าใจง่าย● ระบบต ้องเสถียร เมือมีผู ้ใช ้จํานวนมากขึน● จําไว ้ว่าระบบหลังบ ้านเล็กๆ จะแก ้ปั ญหาทุกอย่างไม่ได ้● การสร ้าง software ทีว่ายาก แต่การทีจะให ้ Software หรือ Service นันทํางานไปได ้ยากยิงกว่า
  • 43. กฎของ Big Data● ทําการวิเคราะห์ได ้รวดเร็ว● ดูแลข ้อมูลเพียงชุดเดียว● ต ้องใช ้ข ้อมูลทีหลายหลาย● ข ้อมูลจะมีคาเมือเวลาผ่านไป ดังนันห ้ามลบทิง ่● วางแผนสําหรับการเดิบโตแบบก ้าวกระโดด● แก ้ปั ญหาให ้ถูกจุด● ต ้องทํางานร่วมกับมนุษย์เสมอ● Big Data คือการ transform business เหมือนทีทํากับระบบ IT
  • 44. ข้อควรจํา● จะเริม Big Data ไม่ใช่การ migrate ระบบทีมีอยูเดิม เช่น Data Warehouse ่● จะเริม Big Data เมือ 3V + Technology ทีมีอยูไม่รองรับ ่
  • 45. รูไว้ใช่วา !! ้ ่● Big data that is very small● Large datasets that aren’t big http://mike2.openmethodology.org/wiki/Big_Data_Definition
  • 46. แนวคิดการสร้างระบบจ ัดการข้อมูล โดย Nathan Marzhttp://www.slideshare.net/nathanmarz/the-secrets-of-building-realtime-big-data-systems
  • 47. ข้อมูล View 1Raw View 2Data View 3
  • 48. ข้อมูลจากระบบ Twitter URLTweet Retweet Trend Topic
  • 49. คุณสมบ ัติของระบบข้อมูล● มีความเี สถียร จาก Server ล่ม และ Human error● การอ่านและแก ้ไขใช ้เวลาน ้อย ( Low latency )● ขยายได ้ง่าย ( Scalable )● เรียบง่าย● เพิมความสามารถได ้ง่าย● สามารถทําการวิเคราะห์ได ้ง่าย● ดูแลง่าย● Debug ง่าย
  • 50. Architecture● Batch Layer● Speed Layer
  • 51. Batch Layer● ประมวลผลนานๆ ( High latency )● ขยายในแนวนอน ( Horizontal )● เรียบง่าย● เช่น Apache Hadoop ○ MapReduce ○ ทํางานแบบขนาน ○ ขยายระบบได ้ง่าย
  • 52. Batch Layer● ข ้อมูลทังหมดอยูใน Master data set ่● ข ้อมูลจะถูกเพิมไปเรือยๆ● ดังนัน view = function( Master data set )
  • 53. Batch Layer View 1 Batchข ้อมูลใหม่ View 2 process เพิมข ้อมูล ดึงข ้อมูล View 3 ข ้อมูลทังหมด
  • 54. Batch Layer● เสถียร● ขยายได ้ง่าย● เพิมความสามารถได ้ง่าย● เรียบง่าย● ดูแลรักษาได ้ง่าย● Debug ง่าย● ใช้เวลาการ อ่าน และ แก้ไขสูง
  • 55. Speed Layer● แก ้ไขเรือง เวลาการทํางานทีสูงของ Batch layer
  • 56. Speed Layer● ต ้องการวิธการจัดการ ี● วิธการส่งข ้อมูล ี● ฐานข ้อมูลสําหรับการอ่าน และ เขียน ทีรวดเร็ว ○ Riak ○ Cassandra ○ HBase● ทําให ้เกิดความซับซ ้อน !!
  • 57. การทํางานร่วมก ันBatch Layer MergeSpeed Layer
  • 58. ผลทีได้ร ับ● Batch layer ทํางานช ้า แต่ได ้ความถูกต ้อง● Speed layer ทํางานรวดเร็ว● เมือนํ าทังสอง layer มาทํางานร่วมกัน คือ "Eventual Accuracy"
  • 59. อย่าลืม Data model● ในเวลาหนึงๆ ข ้อมูลแต่ละ record ต ้องไม่ซากัน ้ํ
  • 60. Data model● เวลา 1 นาย A อยูกรุงเทพ ่● เวลา 1 นาย B อยูกรุงเทพ ่● เวลา 10 นาย A อยูเชียงใหม่ ่
  • 61. Data model● ข ้อมูลใน Master จะต ้องเพิมเข ้าไปใหม่เสมอ● ต ้องมีข ้อมูล History ทังหมดเสมอ ○ ใช ้ในการวิเคราะห์ ○ แก ้ไขเมือทํางานผิดพลาด
  • 62. แนะนํา Storm● Framework สําหรับการประมวลผลข้อมูลแบบ Real time● Open source● Free● http://storm-project.net/
  • 63. โครงสร้างของ Storm
  • 64. This is Big DataYoull never walk alone
  • 65. Big Data is Art Thank you