Your SlideShare is downloading. ×
0
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Big data 101
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Big data 101

2,889

Published on

Introduction to Big Data concept that talk at BugDay Bangkok 2013

Introduction to Big Data concept that talk at BugDay Bangkok 2013

Published in: Technology
0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,889
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
175
Comments
0
Likes
7
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  1. Big Data 101 #BugDay2013 @somkiat-- สยามชํานาญกิจ --
  2. Gartner Identify Top Technology 2013● Big Data● Modern Information Infrastructure● Semantic Technology● The Logical Data Warehouse● NoSQL DBMS● In-Memory Computing● Information * http://www.gartner.com/newsroom/id/2359715
  3. คําถามที 1ข้อมูลมาจากไหน ?
  4. ข้อมูลมาจากไหน ? Social Media Sensor - Location - Climate ScientistMobile usage Data Social Media Purchase Tx Photo VDO
  5. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  6. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  7. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  8. ข้อมูลมาจากไหนhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  9. การเติบโตของข้อมูลhttp://whatsthebigdata.com/2013/02/04/the-big-data-explosion-infographic/
  10. คําถามที 2ทําไม Big Data ถึงมีความสําค ัญล่ะ !!
  11. ทําไมต้อง Big Data ? สันๆ ง่ายๆ คือ การวิเคราะห์ เพือ การต ัดสินใจ เพือ สร้างองค์ความรู ้
  12. คําเหล่านีแตกต่างก ันอย่างไร ? Data = ? Information = ? Knowledge = ? Decision = ?
  13. คําเหล่านีแตกต่างก ันอย่างไร ? Data = ความจริงInformation = ความจริงบางส่วนกับความรู ้ Knowledge = สิงทีคุณรู ้ Decision = การตัดสินใจเพือลงมือทํา
  14. Modelhttp://www.infogineering.net/data-information-knowledge.htm
  15. คําถามที 3Big Data คืออะไร
  16. Big Data คืออะไรWikipediaBig data usually includes data sets with sizesbeyond the ability of commonly used softwaretools to capture, curate, manage, and processthe data within a tolerable elapsed time.
  17. Big Data คืออะไร● ข ้อมูลคืออะไร ( What )● จัดการมันอย่างไร ( How )● เพือเปิ ดให ้รู ้ว่าข ้อมูลมันเกียวกับอะไร ( What with )
  18. Big Data คืออะไร● การรวบรวมข ้อมูล● การวิเคราะห์● การดึงส่วนทีมีประโยชน์ออกมา● การหาวิธการใหม่ๆ มาใช ้งาน ี● การใช ้งานข ้อมูล● การปรับปรุงทางธุรกิจ● การวางแผนงาน● ทําให ้โลกน่าอยูขน ่ ึ
  19. Big Data คืออะไร● การรวบรวมข ้อมูล● การวิเคราะห์● การดึงส่วนทีมีประโยชน์ออกมา● การหาวิธการใหม่ๆ มาใช ้งาน to YOU ี UP● การใช ้งานข ้อมูล● การปรับปรุงทางธุรกิจ● การวางแผนงาน● ทําให ้โลกน่าอยูขน ่ ึ
  20. คุณล ักษณะของ Big Data (3V)● Volume● Variety● Velocity
  21. คุณล ักษณะของ Big Data● Volume ○ ปริมาณข ้อมูลทีมีจํานวนมากขึนๆๆๆๆๆๆ ○ GB -> TB -> PB -> EB -> ZB -> YB● EB = Zettabyte● 1 EB = Trillion GB● 1 EB = Billion TB
  22. คุณล ักษณะของ Big Data● Variety ○ รูปแบบข ้อมูลทีหลายหลาย ■ Structured ■ Unstructured ■ Semistructured ○ มีวธการนํ ามาใช ้งานอย่างไร ิ ี ○ VDO, Photo, Audio, Document, Text ○ Log, Monitoring ○ Stock reacord, Transaction ○ Need pre-processing and data cleaning
  23. คุณล ักษณะของ Big Data● Velocity ○ ความรวดเร็วในการประมวลผล วิเคราะห์ ○ Batch, Near real time ○ Stream processing ○ Need real time ○ Online VDO, Location tracking, AR
  24. Real time processing model http://www-01.ibm.com/software/data/bigdata/
  25. 3V
  26. คุณล ักษณะของ Big Data ( IBM ) 4V● Volume● Variety● Velocity● Veracity ○ ความน่าเชือถือของข ้อมูล ○ คุณภาพ ○ แหล่งทีมา ○ Noise/Outlier
  27. Example of Veracity issue● Twitter ○ Message from Spam bot ? ○ Message from human ? ○ Fake account ?
  28. 4VVolume Velocity ValueVariety Veracity
  29. สร้างความท้าทาย● ไม่รู ้ Volume และ Variety ของข ้อมูล● จัดเก็บข ้อมูลอย่างไร● วิเคราะห์ข ้อมูลทังหมดอย่างไร ใช ้เวลาเท่าไร● หาชุดข ้อมูลทีมีความสําคัญอย่างไร● จะทดสอบอย่างไร
  30. สร้างความท้าทาย● Visualization● Big Data application● แนวทางการวิเคราะห์ข ้อมูล● ศึกษาพฤติกรรมของผู ้บริโภค● Public data● New information และ Data service
  31. สร้างเทคโนโลยี● ถูก● ขยายได ้ง่าย● เร็ว● ทํางานบน memory ขนาดใหญ่● ทีจัดเก็บข ้อมูลรองรับข ้อมูล Volume, Variety● Parallel● Clustering● Cloud
  32. เทคโนโลยี● การประมวลผล ○ MapReduce● การจัดเก็บข ้อมูล ○ Distributed File System ○ Object Storage ○ NoSQL
  33. Distributed File System● เก็บข ้อมูลแบบถาวร● แยกข ้อมูลออกเป็ นส่วนๆ เช่น file, shard, chunk, และ block เป็ นต ้น● สนับสนุนการเข ้าถึง file server และ remote server● สนับสนุน concurrency● สนับสนุน distribution● สนับสนุน replication
  34. Distributed File System● Hadoop File System (HDFS)● GlusterFS● MogileFS● Google File System ( GFS )● MooseFS
  35. HDFS Architecturehttp://www.ibm.com/developerworks/library/wa-introhdfs/
  36. NoSQL● Key-value ○ Memcached, Redis, Riak● Column ○ Cassandra, HBase● Graph ○ Neo4J, FlockDB● Document ○ MongoDB, CouchDB
  37. สร้างโอกาส● ทางธุรกิจ● ทางด ้าน Testing http://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  38. Big Testinghttp://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  39. Big Testing Big Mistakehttp://searchengineland.com/why-big-testing-will-be-bigger-than-big-data-145452
  40. Big Testing● ถ ้า Big Data คือ นามัน ้ํ● ดังนัน Big Testing คือ ส่วนทีทําให ้รถวิงไปข ้างหน ้าได ้อย่างถูกต ้อง
  41. Cycle of Big Dataความต ้องการเพิมสูงทําให ้เกิดเทคโนโลยีเพือรองรับ นํ าไปใช ้เพือเพิมประสิทธิภาพในห ลากหลายองค์กร ได ้ผลลัพธ์ทดี ี แต่ยงต ้องการสูงขึนไปเรือย ั
  42. ข้อแนะนําในการสร้างระบบ● คุณเก็บข ้อมูลอะไรบ ้าง● ผลการวิเคราะห์แสดงออกมาในรูปแบบทีเข ้าใจง่าย● ระบบต ้องเสถียร เมือมีผู ้ใช ้จํานวนมากขึน● จําไว ้ว่าระบบหลังบ ้านเล็กๆ จะแก ้ปั ญหาทุกอย่างไม่ได ้● การสร ้าง software ทีว่ายาก แต่การทีจะให ้ Software หรือ Service นันทํางานไปได ้ยากยิงกว่า
  43. กฎของ Big Data● ทําการวิเคราะห์ได ้รวดเร็ว● ดูแลข ้อมูลเพียงชุดเดียว● ต ้องใช ้ข ้อมูลทีหลายหลาย● ข ้อมูลจะมีคาเมือเวลาผ่านไป ดังนันห ้ามลบทิง ่● วางแผนสําหรับการเดิบโตแบบก ้าวกระโดด● แก ้ปั ญหาให ้ถูกจุด● ต ้องทํางานร่วมกับมนุษย์เสมอ● Big Data คือการ transform business เหมือนทีทํากับระบบ IT
  44. ข้อควรจํา● จะเริม Big Data ไม่ใช่การ migrate ระบบทีมีอยูเดิม เช่น Data Warehouse ่● จะเริม Big Data เมือ 3V + Technology ทีมีอยูไม่รองรับ ่
  45. รูไว้ใช่วา !! ้ ่● Big data that is very small● Large datasets that aren’t big http://mike2.openmethodology.org/wiki/Big_Data_Definition
  46. แนวคิดการสร้างระบบจ ัดการข้อมูล โดย Nathan Marzhttp://www.slideshare.net/nathanmarz/the-secrets-of-building-realtime-big-data-systems
  47. ข้อมูล View 1Raw View 2Data View 3
  48. ข้อมูลจากระบบ Twitter URLTweet Retweet Trend Topic
  49. คุณสมบ ัติของระบบข้อมูล● มีความเี สถียร จาก Server ล่ม และ Human error● การอ่านและแก ้ไขใช ้เวลาน ้อย ( Low latency )● ขยายได ้ง่าย ( Scalable )● เรียบง่าย● เพิมความสามารถได ้ง่าย● สามารถทําการวิเคราะห์ได ้ง่าย● ดูแลง่าย● Debug ง่าย
  50. Architecture● Batch Layer● Speed Layer
  51. Batch Layer● ประมวลผลนานๆ ( High latency )● ขยายในแนวนอน ( Horizontal )● เรียบง่าย● เช่น Apache Hadoop ○ MapReduce ○ ทํางานแบบขนาน ○ ขยายระบบได ้ง่าย
  52. Batch Layer● ข ้อมูลทังหมดอยูใน Master data set ่● ข ้อมูลจะถูกเพิมไปเรือยๆ● ดังนัน view = function( Master data set )
  53. Batch Layer View 1 Batchข ้อมูลใหม่ View 2 process เพิมข ้อมูล ดึงข ้อมูล View 3 ข ้อมูลทังหมด
  54. Batch Layer● เสถียร● ขยายได ้ง่าย● เพิมความสามารถได ้ง่าย● เรียบง่าย● ดูแลรักษาได ้ง่าย● Debug ง่าย● ใช้เวลาการ อ่าน และ แก้ไขสูง
  55. Speed Layer● แก ้ไขเรือง เวลาการทํางานทีสูงของ Batch layer
  56. Speed Layer● ต ้องการวิธการจัดการ ี● วิธการส่งข ้อมูล ี● ฐานข ้อมูลสําหรับการอ่าน และ เขียน ทีรวดเร็ว ○ Riak ○ Cassandra ○ HBase● ทําให ้เกิดความซับซ ้อน !!
  57. การทํางานร่วมก ันBatch Layer MergeSpeed Layer
  58. ผลทีได้ร ับ● Batch layer ทํางานช ้า แต่ได ้ความถูกต ้อง● Speed layer ทํางานรวดเร็ว● เมือนํ าทังสอง layer มาทํางานร่วมกัน คือ "Eventual Accuracy"
  59. อย่าลืม Data model● ในเวลาหนึงๆ ข ้อมูลแต่ละ record ต ้องไม่ซากัน ้ํ
  60. Data model● เวลา 1 นาย A อยูกรุงเทพ ่● เวลา 1 นาย B อยูกรุงเทพ ่● เวลา 10 นาย A อยูเชียงใหม่ ่
  61. Data model● ข ้อมูลใน Master จะต ้องเพิมเข ้าไปใหม่เสมอ● ต ้องมีข ้อมูล History ทังหมดเสมอ ○ ใช ้ในการวิเคราะห์ ○ แก ้ไขเมือทํางานผิดพลาด
  62. แนะนํา Storm● Framework สําหรับการประมวลผลข้อมูลแบบ Real time● Open source● Free● http://storm-project.net/
  63. โครงสร้างของ Storm
  64. This is Big DataYoull never walk alone
  65. Big Data is Art Thank you

×