พันเอก มารวย ส่งทานินทร์ maruays@hotmail.com
9 กรกฎาคม 2558
James R. Kalyvas and Michael R. Overly
CRC Press, 2015
Big Data will materially change the way businesses and organizations make decisions
ข้อมูลขนาดใหญ่ จะเป็นสาระสาคัญต่อการเปลี่ยนแปลงการตัดสินใจ ของธุรกิจและองค์กร
ข้อมูลขนาดใหญ่ สาหรับผู้บริหาร
 บทความนี้ เป็นการอธิบายคาว่า ข้อมูลขนาดใหญ่ (Big Data) ใน
ภาษาคนธรรมดา (จากมุมมองของคนไม่มีความรู้ด้านเทคนิค)
ถึงลักษณะที่แตกต่างจากข้อมูลขนาดใหญ่ กับรูปแบบฐานข้อมูล
แบบดั้งเดิม ว่า
 1. อะไรคือข้อมูลขนาดใหญ่? และลักษณะของข้อมูลขนาดใหญ่ (ปริมาณ
ความแตกต่าง ความเร็ว และการตรวจสอบ)
 2. แนวคิดการทางานข้ามสายงาน ทักษะใหม่ และการลงทุน
 3. วิธีการแสวงหาข้อมูลที่เกี่ยวข้อง
 4. พื้นฐานของการทางานด้านเทคโนโลยีของข้อมูลขนาดใหญ่
เกริ่นนา
 ทุกวันนี้ มีการหารือถึงความสาคัญที่เพิ่มขึ้ นและเร่งด่วน ของ "ข้อมูลขนาด
ใหญ่" (Big Data) ในห้องประชุมคณะกรรมการบริหาร การประชุมเชิงกลยุทธ์
และการดาเนินงานอื่น ๆ ขององค์กรทั่วโลก
 มีข้อสังเกตว่า ผู้บริหาร ผู้จัดการ และที่ปรึกษา อาจจะมีความเข้าใจที่แตกต่าง
กันมาก ในสิ่งที่เป็นข้อมูลขนาดใหญ่ เมื่อเทียบกับนักเทคโนโลยีและ
นักวิทยาศาสตร์ข้อมูล ที่อยู่ในองค์กรของพวกเขา
 ความเข้าใจที่แตกต่างกันเหล่านี้ มาจากการขาดคานิยามที่ได้รับการยอมรับ
ของข้อมูลขนาดใหญ่ ทาให้เกิดความเข้าใจร่วมกันน้อยมากระหว่างผู้บริหาร
ผู้จัดการ และที่ปรึกษา ที่ไม่ได้มีส่วนเกี่ยวข้องกับเทคโนโลยีการทางานของ
ข้อมูลขนาดใหญ่ในชีวิตประจาวัน
1. อะไรคือข้อมูลขนาดใหญ่?
 ข้อมูลขนาดใหญ่ เป็นกระบวนการส่งมอบข้อมูลเชิงลึกที่ใช้ในการ
ตัดสินใจ โดยการใช้คนและเทคโนโลยีวิเคราะห์ข้อมูลจานวนมาก
ที่แตกต่างกัน ได้อย่างรวดเร็ว (ของข้อมูลที่มีโครงสร้างแบบ
ดั้งเดิม และข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพ วิดีโอ อีเมล์
ข้อมูลการทาธุรกรรม และปฏิสัมพันธ์สื่อสังคม) จากความ
หลากหลายของแหล่งที่มา ในการผลิตกระแสความรู้ที่สามารถ
นามาใช้ในการดาเนินการได้
นิยามที่ใช้อ้างอิงบ่อย
 "ข้อมูลขนาดใหญ่" หมายถึงชุดข้อมูลที่มีขนาดเกินกว่า
ความสามารถของซอฟต์แวร์ฐานข้อมูลทั่วไปที่จะ บันทึก จัดเก็บ
จัดการ และวิเคราะห์ (McKinsey Global Institute)
 ข้อมูลขนาดใหญ่ คือสินทรัพย์ทางสารสนเทศที่มีปริมาณสูง
ความเร็วสูง และความหลากหลายสูง ต้องอาศัยค่าใช้จ่ายที่มี
ประสิทธิภาพและนวัตกรรมรูปแบบใหม่ของการประมวลผล
ข้อมูล เพื่อความเข้าใจที่ดีขึ้น และใช้ในการตัดสินใจ (Gartner. IT
Glossary. 2013)
ลักษณะของข้อมูลขนาดใหญ่
 ในการอภิปรายของ ข้อมูลขนาดใหญ่ มักมีการอ้างอิงถึง "3 Vs"
คือ ปริมาณ (Volume) ความเร็ว (Velocity) และลักษณะความ
หลากหลาย (Variety) ของข้อมูลขนาดใหญ่
 พูดง่ายๆ คือ ปริมาณ (ปริมาณของข้อมูล) ความเร็ว (ความเร็ว
ในการประมวลผล และการเปลี่ยนแปลงของข้อมูล) และ ความ
หลากหลาย (แหล่งที่มาของข้อมูล และชนิดของข้อมูล) เป็น
ลักษณะที่โดดเด่นที่สุดของข้อมูลขนาดใหญ่ ต่างกับวิธีการแบบ
ดั้งเดิมที่ใช้ในการบันทึก จัดเก็บ จัดการ และวิเคราะห์ข้อมูล
ปริมาณ
 ปริมาณของข้อมูล เพิ่มขึ้ นอย่างรวดเร็วตั้งแต่ปี 2004 โดยในปี 2004
จานวนของข้อมูลที่เก็บไว้บนอินเทอร์เน็ตมีทั้งหมด 1 petabyte (1,000
terabytes) เทียบเท่ากับ 100 ปี ของเนื้ อหาโทรทัศน์ทั้งหมด
 ในปี 2011 จานวนรวมของข้อมูลทั่วโลกที่เก็บไว้ด้วยระบบอิเล็กทรอนิกส์
คือ 1 Zettabyte (1,000,000 petabytes หรือ 36 ล้านปี ของวิดีโอความ
ละเอียดสูง [HD]) โดยในปี 2015 ตัวเลขคาดว่าจะถึง 7.9 zettabytes (หรือ
7,900,000 petabytes)
 ขนาดของชุดข้อมูลที่มีการใช้งานอย่างต่อเนื่อง มีการเจริญเติบโตแซงหน้า
ความสามารถของเครื่องมือแบบดั้งเดิม ในการบันทึก จัดเก็บ จัดการ และ
วิเคราะห์ข้อมูล
ความหลากหลาย
 ข้อมูลขนาดใหญ่ เป็นการรวมของข้อมูลที่เก็บไว้ในฐานข้อมูลของ ข้อมูลที่
มีโครงสร้างแบบดั้งเดิม (structured databases) และข้อมูลใหม่ที่ทีที่มาจาก
แหล่ง ข้อมูลแบบที่ไม่มีโครงสร้าง (unstructured data)
 ข้อมูลที่ไม่มีโครงสร้างรวมถึง ข้อมูลที่ไม่ได้มีโครงสร้าง (เช่น Facebook,
Twitter, Instagram และ Tumblr) ที่มีการเติบโตอย่างรวดเร็วของ ภาพ วิดีโอ
ข้อมูลการเฝ้าระวัง ข้อมูลจากเซ็นเซอร์ ข้อมูลศูนย์โทรศัพท์ ข้อมูลตาแหน่ง
ทางภูมิศาสตร์ ข้อมูลสภาพอากาศ ข้อมูลทางเศรษฐกิจ ข้อมูลของรัฐบาล
รายงานการวิจัย แนวโน้มการค้นหาอินเทอร์เน็ต และ web log files
 ทุกวันนี้ กว่า 95% ของข้อมูลทั้งหมดที่มีอยู่ทั่วโลก คาดว่าจะเป็นข้อมูล
แบบที่ไม่มีโครงสร้าง
ความเร็ว
 จานวนที่เพิ่มมากขึ้นอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง มา
จากตัวเลขของกระแสการเติบโตแบบก้าวกระโดด ผ่านทาง
อินเทอร์เน็ตอย่างต่อเนื่อง
 ความเร็วของข้อมูลเหล่านี้ จะต้องได้รับการจัดเก็บและวิเคราะห์
ด้วยลักษณะที่ถือว่า เป็นความเร็วของข้อมูลขนาดใหญ่
การตรวจสอบ (Validation เป็น V ที่สี่)
 กลยุทธ์ข้อมูลขนาดใหญ่ขององค์กร จะต้องมีขั้นตอนการ
ตรวจสอบ (validation step) และมีการหยุดที่เหมาะสมในการ
วิเคราะห์ เพื่อประเมินผลกระทบต่อกฎหมาย ระเบียบข้อบังคับ
หรือภาระผูกพันตามสัญญา ของ
 สถาปัตยกรรมของระบบข้อมูลขนาดใหญ่
 การออกแบบขั้นตอนวิธีการค้นหาข้อมูลขนาดใหญ่
 การดาเนินการบนพื้นฐานของข้อมูลเชิงลึกที่ได้มา
 การจัดเก็บและการกระจายของผลลัพธ์และข้อมูล
2. แนวทางการทางานข้ามสายงาน ทักษะใหม่ และการลงทุน
 องค์กรที่ต้องการใช้ประโยชน์จากข้อมูลขนาดใหญ่ในการ
ดาเนินงาน ต้องพัฒนาทีมข้ามสายงานที่มีความรู้ลึกของธุรกิจที่มี
การใช้เทคโนโลยี
 องค์ประกอบที่สาคัญของทีมเหล่านี้ คือ นักวิทยาศาสตร์ข้อมูล
(data scientist) ไม่ว่าจะเป็นพนักงานหรือผู้รับจ้างเหมา เพื่อสกัด
ข้อมูลเชิงลึกทางธุรกิจของข้อมูลขนาดใหญ่สาหรับองค์กร (เช่น
การสั่งซื้ อ และความรู้จากความวุ่นวายของข้อมูลขนาดใหญ่)
 นักวิทยาศาสตร์ข้อมูล เป็นนักคิดหลายมิติที่ทางานได้อย่างมี
ประสิทธิภาพ ในการพูดคุยเกี่ยวกับปัญหาทางธุรกิจด้วยภาษา
ธุรกิจ ในขณะที่อยู่ในระดับยอดของเทคโนโลยี การศึกษาสถิติ
และประสบการณ์
 นักวิทยาศาสตร์ข้อมูล ไม่ได้เป็นเพียงผู้เชี่ยวชาญเฉพาะเรื่องที่
จาเป็นในการออกแบบกลยุทธ์ข้อมูลขนาดใหญ่ แต่มีบทบาท
สาคัญที่จะทางานร่วมกับผู้เชี่ยวชาญเรื่องธุรกิจขององค์กร เช่น
สถาปนิกและนักวิเคราะห์ข้อมูล ทีมโครงสร้างพื้นฐานด้าน
เทคโนโลยี ด้านการจัดการ และด้านอื่น ๆ ที่จะส่งมอบข้อมูลเชิง
ลึกของข้อมูลขนาดใหญ่
3. การแสวงหาข้อมูลที่เกี่ยวข้อง
 องค์กรจะต้องเข้าถึงข้อมูลที่เกี่ยวข้องกับวัตถุประสงค์ ที่พวกเขา
พยายามจะให้ประสบความสาเร็จ ด้วยข้อมูลขนาดใหญ่
 ข้อมูลนี้ สามารถนามาจากแหล่งใด ๆ ก็ได้ รวมทั้งจากฐานข้อมูล
ที่มีอยู่ทั่วทั้งองค์กร หรือจากระบบจัดเก็บข้อมูลภายใน หรือ
ระยะไกลโดยตรงจากแหล่งข้อมูลสาธารณะบนอินเทอร์เน็ต หรือ
จากรัฐบาล หรือสมาคมการค้าโดยใบอนุญาตจากบุคคลที่สาม
หรือจากข้อมูลของบุคคลที่สาม หรือผู้ให้บริการที่รวบรวมจาก
ระยะไกล และเจ้าของแหล่งที่มาของข้อมูล
4. พื้นฐานการทางานทางเทคโนโลยีของข้อมูลขนาดใหญ่
 โดยอาศัยตัวเลขการเติบโตของการแก้ปัญหาแบบเปิด (ที่เปิดเผย
ต่อสาธารณชนโดยไม่ต้องเสียค่าใช้จ่าย) และข้อมูลขนาดใหญ่บน
แพลตฟอร์มการวิเคราะห์ ที่มีอยู่เพื่อผู้ประกอบการ
 Hadoop (ชื่อตุ๊กตาสัตว์ ของเด็กของหนึ่งในผู้สร้าง) เป็นกรอบเปิด
(open-source framework) ที่นิยม ประกอบด้วยเครื่องมือซอฟแวร์
จานวนมาก ที่ใช้ในการดาเนินการวิเคราะห์ข้อมูลขนาดใหญ่
 Hadoop จะทาการกระจายข้อมูลที่มีขนาดใหญ่มาก โดยแบ่ง
ออกเป็นชิ้นเล็ก ๆ เพื่อให้มีการจัดการได้ง่ายขึ้น
 Hadoop ทางานโดยการเชื่อมต่อเครื่องคอมพิวเตอร์จานวนมากที่มี
ขนาดเล็กและราคาที่ต่ากว่าเข้าด้วยกัน ในการทางานแบบคู่ขนาน
เป็นกลุ่มคอมพิวเตอร์ (computing cluster) ที่มีประสิทธิภาพ
 Hadoop จะกระจายข้อมูลโดยอัตโนมัติให้คอมพิวเตอร์ทุกเครื่อง
ในกลุ่ม ดังนั้นจึงไม่มีความจาเป็นที่จะต้องรวมข้อมูลบนเครือข่าย
การจัดเก็บข้อมูลแบบพื้นที่ (SAN - storage-area network)
 ในขณะเดียวกันที่ข้อมูลถูกกระจาย บล็อกของข้อมูลแต่ละอัน จะ
ถูกจาลองลงในคอมพิวเตอร์อีกหลายตัวในกลุ่ม
 Hadoop จะย่อยงานเป็นชิ้น ๆ จานวนมากลงในคอมพิวเตอร์ และ
โดยการลงข้อมูลที่มีอยู่บนคอมพิวเตอร์หลายเครื่อง เป็นการลด
โอกาสที่ข้อมูลไม่สามารถเรียกใช้ได้เมื่อมีเหตุจาเป็ น
 แต่ละคุณสมบัติเหล่านี้ จึงทาให้มีประสิทธิภาพมากกว่าเครื่อง
คอมพิวเตอร์สถาปัตยกรรมแบบดั้งเดิม
 Hadoop คือการรวมกันของซอฟแวร์ขั้นสูงและฮาร์ดแวร์
คอมพิวเตอร์ ซึ่งมักจะเรียกว่า "เวที " หรือ platform ที่ทาให้
องค์กรที่มีวิธีการดาเนินการแบบ client application
 โปรแกรมเหล่านี้ จะมุ่งเน้นไปที่ การเปิดเผยรูปแบบต่าง ๆ
ความสัมพันธ์ที่ไม่เคยรู้จักมาก่อน และสารสนเทศที่เป็ นประโยชน์
อื่น ๆ (uncovering patterns, unknown correlations, and other
useful information ) ซึ่งมีอยู่ในข้อมูลขนาดใหญ่ ที่ไม่เคยได้รับการ
ระบุด้วยการใช้แบบจาลองข้อมูลเชิงสัมพันธ์แบบดั้งเดิม
 เมื่อคอมพิวเตอร์ในกลุ่ม ทาการประมวลผลที่ได้รับมอบหมาย
เสร็จ ก็จะส่งผลลัพธ์และข้อมูลที่เกี่ยวข้องใด ๆ กลับไปที่
คอมพิวเตอร์ส่วนกลางแล้วของานอื่นต่อ
 ผลลัพธ์ของแต่ละเรื่องและข้อมูล จะถูกประกอบโดยคอมพิวเตอร์
ส่วนกลาง เพื่อส่งกลับไปยังโปรแกรมไคลเอนต์ (client
application) หรือเก็บไว้ในระบบไฟล์ของ Hadoop หรือฐานข้อมูล
อื่น ๆ
สรุป
 บทความนี้ อธิบายความหมายของคาว่า ข้อมูลขนาดใหญ่ (Big
Data) และอภิปรายเทคโนโลยีที่ซับซ้อน ที่อยู่เบื้องหลังการทางาน
ของข้อมูลขนาดใหญ่
 แต่จุดประสงค์บทความนี้ ไม่ได้เป็นพิมพ์เขียวสาหรับการสร้าง
แพลตฟอร์มของข้อมูลขนาดใหญ่ในองค์กร เพียงแต่ให้มีความ
เข้าใจพื้นฐานร่วมกันว่า ข้อมูลขนาดใหญ่ หมายถึงอะไรเท่านั้น
Confucius

ข้อมูลขนาดใหญ่ Big data

  • 1.
    พันเอก มารวย ส่งทานินทร์maruays@hotmail.com 9 กรกฎาคม 2558
  • 2.
    James R. Kalyvasand Michael R. Overly CRC Press, 2015 Big Data will materially change the way businesses and organizations make decisions ข้อมูลขนาดใหญ่ จะเป็นสาระสาคัญต่อการเปลี่ยนแปลงการตัดสินใจ ของธุรกิจและองค์กร
  • 3.
    ข้อมูลขนาดใหญ่ สาหรับผู้บริหาร  บทความนี้เป็นการอธิบายคาว่า ข้อมูลขนาดใหญ่ (Big Data) ใน ภาษาคนธรรมดา (จากมุมมองของคนไม่มีความรู้ด้านเทคนิค) ถึงลักษณะที่แตกต่างจากข้อมูลขนาดใหญ่ กับรูปแบบฐานข้อมูล แบบดั้งเดิม ว่า  1. อะไรคือข้อมูลขนาดใหญ่? และลักษณะของข้อมูลขนาดใหญ่ (ปริมาณ ความแตกต่าง ความเร็ว และการตรวจสอบ)  2. แนวคิดการทางานข้ามสายงาน ทักษะใหม่ และการลงทุน  3. วิธีการแสวงหาข้อมูลที่เกี่ยวข้อง  4. พื้นฐานของการทางานด้านเทคโนโลยีของข้อมูลขนาดใหญ่
  • 4.
    เกริ่นนา  ทุกวันนี้ มีการหารือถึงความสาคัญที่เพิ่มขึ้นและเร่งด่วน ของ "ข้อมูลขนาด ใหญ่" (Big Data) ในห้องประชุมคณะกรรมการบริหาร การประชุมเชิงกลยุทธ์ และการดาเนินงานอื่น ๆ ขององค์กรทั่วโลก  มีข้อสังเกตว่า ผู้บริหาร ผู้จัดการ และที่ปรึกษา อาจจะมีความเข้าใจที่แตกต่าง กันมาก ในสิ่งที่เป็นข้อมูลขนาดใหญ่ เมื่อเทียบกับนักเทคโนโลยีและ นักวิทยาศาสตร์ข้อมูล ที่อยู่ในองค์กรของพวกเขา  ความเข้าใจที่แตกต่างกันเหล่านี้ มาจากการขาดคานิยามที่ได้รับการยอมรับ ของข้อมูลขนาดใหญ่ ทาให้เกิดความเข้าใจร่วมกันน้อยมากระหว่างผู้บริหาร ผู้จัดการ และที่ปรึกษา ที่ไม่ได้มีส่วนเกี่ยวข้องกับเทคโนโลยีการทางานของ ข้อมูลขนาดใหญ่ในชีวิตประจาวัน
  • 5.
    1. อะไรคือข้อมูลขนาดใหญ่?  ข้อมูลขนาดใหญ่เป็นกระบวนการส่งมอบข้อมูลเชิงลึกที่ใช้ในการ ตัดสินใจ โดยการใช้คนและเทคโนโลยีวิเคราะห์ข้อมูลจานวนมาก ที่แตกต่างกัน ได้อย่างรวดเร็ว (ของข้อมูลที่มีโครงสร้างแบบ ดั้งเดิม และข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพ วิดีโอ อีเมล์ ข้อมูลการทาธุรกรรม และปฏิสัมพันธ์สื่อสังคม) จากความ หลากหลายของแหล่งที่มา ในการผลิตกระแสความรู้ที่สามารถ นามาใช้ในการดาเนินการได้
  • 6.
    นิยามที่ใช้อ้างอิงบ่อย  "ข้อมูลขนาดใหญ่" หมายถึงชุดข้อมูลที่มีขนาดเกินกว่า ความสามารถของซอฟต์แวร์ฐานข้อมูลทั่วไปที่จะบันทึก จัดเก็บ จัดการ และวิเคราะห์ (McKinsey Global Institute)  ข้อมูลขนาดใหญ่ คือสินทรัพย์ทางสารสนเทศที่มีปริมาณสูง ความเร็วสูง และความหลากหลายสูง ต้องอาศัยค่าใช้จ่ายที่มี ประสิทธิภาพและนวัตกรรมรูปแบบใหม่ของการประมวลผล ข้อมูล เพื่อความเข้าใจที่ดีขึ้น และใช้ในการตัดสินใจ (Gartner. IT Glossary. 2013)
  • 7.
    ลักษณะของข้อมูลขนาดใหญ่  ในการอภิปรายของ ข้อมูลขนาดใหญ่มักมีการอ้างอิงถึง "3 Vs" คือ ปริมาณ (Volume) ความเร็ว (Velocity) และลักษณะความ หลากหลาย (Variety) ของข้อมูลขนาดใหญ่  พูดง่ายๆ คือ ปริมาณ (ปริมาณของข้อมูล) ความเร็ว (ความเร็ว ในการประมวลผล และการเปลี่ยนแปลงของข้อมูล) และ ความ หลากหลาย (แหล่งที่มาของข้อมูล และชนิดของข้อมูล) เป็น ลักษณะที่โดดเด่นที่สุดของข้อมูลขนาดใหญ่ ต่างกับวิธีการแบบ ดั้งเดิมที่ใช้ในการบันทึก จัดเก็บ จัดการ และวิเคราะห์ข้อมูล
  • 8.
    ปริมาณ  ปริมาณของข้อมูล เพิ่มขึ้นอย่างรวดเร็วตั้งแต่ปี 2004 โดยในปี 2004 จานวนของข้อมูลที่เก็บไว้บนอินเทอร์เน็ตมีทั้งหมด 1 petabyte (1,000 terabytes) เทียบเท่ากับ 100 ปี ของเนื้ อหาโทรทัศน์ทั้งหมด  ในปี 2011 จานวนรวมของข้อมูลทั่วโลกที่เก็บไว้ด้วยระบบอิเล็กทรอนิกส์ คือ 1 Zettabyte (1,000,000 petabytes หรือ 36 ล้านปี ของวิดีโอความ ละเอียดสูง [HD]) โดยในปี 2015 ตัวเลขคาดว่าจะถึง 7.9 zettabytes (หรือ 7,900,000 petabytes)  ขนาดของชุดข้อมูลที่มีการใช้งานอย่างต่อเนื่อง มีการเจริญเติบโตแซงหน้า ความสามารถของเครื่องมือแบบดั้งเดิม ในการบันทึก จัดเก็บ จัดการ และ วิเคราะห์ข้อมูล
  • 11.
    ความหลากหลาย  ข้อมูลขนาดใหญ่ เป็นการรวมของข้อมูลที่เก็บไว้ในฐานข้อมูลของข้อมูลที่ มีโครงสร้างแบบดั้งเดิม (structured databases) และข้อมูลใหม่ที่ทีที่มาจาก แหล่ง ข้อมูลแบบที่ไม่มีโครงสร้าง (unstructured data)  ข้อมูลที่ไม่มีโครงสร้างรวมถึง ข้อมูลที่ไม่ได้มีโครงสร้าง (เช่น Facebook, Twitter, Instagram และ Tumblr) ที่มีการเติบโตอย่างรวดเร็วของ ภาพ วิดีโอ ข้อมูลการเฝ้าระวัง ข้อมูลจากเซ็นเซอร์ ข้อมูลศูนย์โทรศัพท์ ข้อมูลตาแหน่ง ทางภูมิศาสตร์ ข้อมูลสภาพอากาศ ข้อมูลทางเศรษฐกิจ ข้อมูลของรัฐบาล รายงานการวิจัย แนวโน้มการค้นหาอินเทอร์เน็ต และ web log files  ทุกวันนี้ กว่า 95% ของข้อมูลทั้งหมดที่มีอยู่ทั่วโลก คาดว่าจะเป็นข้อมูล แบบที่ไม่มีโครงสร้าง
  • 12.
    ความเร็ว  จานวนที่เพิ่มมากขึ้นอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง มา จากตัวเลขของกระแสการเติบโตแบบก้าวกระโดดผ่านทาง อินเทอร์เน็ตอย่างต่อเนื่อง  ความเร็วของข้อมูลเหล่านี้ จะต้องได้รับการจัดเก็บและวิเคราะห์ ด้วยลักษณะที่ถือว่า เป็นความเร็วของข้อมูลขนาดใหญ่
  • 13.
    การตรวจสอบ (Validation เป็นV ที่สี่)  กลยุทธ์ข้อมูลขนาดใหญ่ขององค์กร จะต้องมีขั้นตอนการ ตรวจสอบ (validation step) และมีการหยุดที่เหมาะสมในการ วิเคราะห์ เพื่อประเมินผลกระทบต่อกฎหมาย ระเบียบข้อบังคับ หรือภาระผูกพันตามสัญญา ของ  สถาปัตยกรรมของระบบข้อมูลขนาดใหญ่  การออกแบบขั้นตอนวิธีการค้นหาข้อมูลขนาดใหญ่  การดาเนินการบนพื้นฐานของข้อมูลเชิงลึกที่ได้มา  การจัดเก็บและการกระจายของผลลัพธ์และข้อมูล
  • 14.
    2. แนวทางการทางานข้ามสายงาน ทักษะใหม่และการลงทุน  องค์กรที่ต้องการใช้ประโยชน์จากข้อมูลขนาดใหญ่ในการ ดาเนินงาน ต้องพัฒนาทีมข้ามสายงานที่มีความรู้ลึกของธุรกิจที่มี การใช้เทคโนโลยี  องค์ประกอบที่สาคัญของทีมเหล่านี้ คือ นักวิทยาศาสตร์ข้อมูล (data scientist) ไม่ว่าจะเป็นพนักงานหรือผู้รับจ้างเหมา เพื่อสกัด ข้อมูลเชิงลึกทางธุรกิจของข้อมูลขนาดใหญ่สาหรับองค์กร (เช่น การสั่งซื้ อ และความรู้จากความวุ่นวายของข้อมูลขนาดใหญ่)
  • 15.
     นักวิทยาศาสตร์ข้อมูล เป็นนักคิดหลายมิติที่ทางานได้อย่างมี ประสิทธิภาพในการพูดคุยเกี่ยวกับปัญหาทางธุรกิจด้วยภาษา ธุรกิจ ในขณะที่อยู่ในระดับยอดของเทคโนโลยี การศึกษาสถิติ และประสบการณ์  นักวิทยาศาสตร์ข้อมูล ไม่ได้เป็นเพียงผู้เชี่ยวชาญเฉพาะเรื่องที่ จาเป็นในการออกแบบกลยุทธ์ข้อมูลขนาดใหญ่ แต่มีบทบาท สาคัญที่จะทางานร่วมกับผู้เชี่ยวชาญเรื่องธุรกิจขององค์กร เช่น สถาปนิกและนักวิเคราะห์ข้อมูล ทีมโครงสร้างพื้นฐานด้าน เทคโนโลยี ด้านการจัดการ และด้านอื่น ๆ ที่จะส่งมอบข้อมูลเชิง ลึกของข้อมูลขนาดใหญ่
  • 16.
    3. การแสวงหาข้อมูลที่เกี่ยวข้อง  องค์กรจะต้องเข้าถึงข้อมูลที่เกี่ยวข้องกับวัตถุประสงค์ที่พวกเขา พยายามจะให้ประสบความสาเร็จ ด้วยข้อมูลขนาดใหญ่  ข้อมูลนี้ สามารถนามาจากแหล่งใด ๆ ก็ได้ รวมทั้งจากฐานข้อมูล ที่มีอยู่ทั่วทั้งองค์กร หรือจากระบบจัดเก็บข้อมูลภายใน หรือ ระยะไกลโดยตรงจากแหล่งข้อมูลสาธารณะบนอินเทอร์เน็ต หรือ จากรัฐบาล หรือสมาคมการค้าโดยใบอนุญาตจากบุคคลที่สาม หรือจากข้อมูลของบุคคลที่สาม หรือผู้ให้บริการที่รวบรวมจาก ระยะไกล และเจ้าของแหล่งที่มาของข้อมูล
  • 17.
    4. พื้นฐานการทางานทางเทคโนโลยีของข้อมูลขนาดใหญ่  โดยอาศัยตัวเลขการเติบโตของการแก้ปัญหาแบบเปิด(ที่เปิดเผย ต่อสาธารณชนโดยไม่ต้องเสียค่าใช้จ่าย) และข้อมูลขนาดใหญ่บน แพลตฟอร์มการวิเคราะห์ ที่มีอยู่เพื่อผู้ประกอบการ  Hadoop (ชื่อตุ๊กตาสัตว์ ของเด็กของหนึ่งในผู้สร้าง) เป็นกรอบเปิด (open-source framework) ที่นิยม ประกอบด้วยเครื่องมือซอฟแวร์ จานวนมาก ที่ใช้ในการดาเนินการวิเคราะห์ข้อมูลขนาดใหญ่
  • 19.
     Hadoop จะทาการกระจายข้อมูลที่มีขนาดใหญ่มากโดยแบ่ง ออกเป็นชิ้นเล็ก ๆ เพื่อให้มีการจัดการได้ง่ายขึ้น  Hadoop ทางานโดยการเชื่อมต่อเครื่องคอมพิวเตอร์จานวนมากที่มี ขนาดเล็กและราคาที่ต่ากว่าเข้าด้วยกัน ในการทางานแบบคู่ขนาน เป็นกลุ่มคอมพิวเตอร์ (computing cluster) ที่มีประสิทธิภาพ  Hadoop จะกระจายข้อมูลโดยอัตโนมัติให้คอมพิวเตอร์ทุกเครื่อง ในกลุ่ม ดังนั้นจึงไม่มีความจาเป็นที่จะต้องรวมข้อมูลบนเครือข่าย การจัดเก็บข้อมูลแบบพื้นที่ (SAN - storage-area network)
  • 20.
     ในขณะเดียวกันที่ข้อมูลถูกกระจาย บล็อกของข้อมูลแต่ละอันจะ ถูกจาลองลงในคอมพิวเตอร์อีกหลายตัวในกลุ่ม  Hadoop จะย่อยงานเป็นชิ้น ๆ จานวนมากลงในคอมพิวเตอร์ และ โดยการลงข้อมูลที่มีอยู่บนคอมพิวเตอร์หลายเครื่อง เป็นการลด โอกาสที่ข้อมูลไม่สามารถเรียกใช้ได้เมื่อมีเหตุจาเป็ น  แต่ละคุณสมบัติเหล่านี้ จึงทาให้มีประสิทธิภาพมากกว่าเครื่อง คอมพิวเตอร์สถาปัตยกรรมแบบดั้งเดิม
  • 21.
     Hadoop คือการรวมกันของซอฟแวร์ขั้นสูงและฮาร์ดแวร์ คอมพิวเตอร์ซึ่งมักจะเรียกว่า "เวที " หรือ platform ที่ทาให้ องค์กรที่มีวิธีการดาเนินการแบบ client application  โปรแกรมเหล่านี้ จะมุ่งเน้นไปที่ การเปิดเผยรูปแบบต่าง ๆ ความสัมพันธ์ที่ไม่เคยรู้จักมาก่อน และสารสนเทศที่เป็ นประโยชน์ อื่น ๆ (uncovering patterns, unknown correlations, and other useful information ) ซึ่งมีอยู่ในข้อมูลขนาดใหญ่ ที่ไม่เคยได้รับการ ระบุด้วยการใช้แบบจาลองข้อมูลเชิงสัมพันธ์แบบดั้งเดิม
  • 22.
     เมื่อคอมพิวเตอร์ในกลุ่ม ทาการประมวลผลที่ได้รับมอบหมาย เสร็จก็จะส่งผลลัพธ์และข้อมูลที่เกี่ยวข้องใด ๆ กลับไปที่ คอมพิวเตอร์ส่วนกลางแล้วของานอื่นต่อ  ผลลัพธ์ของแต่ละเรื่องและข้อมูล จะถูกประกอบโดยคอมพิวเตอร์ ส่วนกลาง เพื่อส่งกลับไปยังโปรแกรมไคลเอนต์ (client application) หรือเก็บไว้ในระบบไฟล์ของ Hadoop หรือฐานข้อมูล อื่น ๆ
  • 23.
    สรุป  บทความนี้ อธิบายความหมายของคาว่าข้อมูลขนาดใหญ่ (Big Data) และอภิปรายเทคโนโลยีที่ซับซ้อน ที่อยู่เบื้องหลังการทางาน ของข้อมูลขนาดใหญ่  แต่จุดประสงค์บทความนี้ ไม่ได้เป็นพิมพ์เขียวสาหรับการสร้าง แพลตฟอร์มของข้อมูลขนาดใหญ่ในองค์กร เพียงแต่ให้มีความ เข้าใจพื้นฐานร่วมกันว่า ข้อมูลขนาดใหญ่ หมายถึงอะไรเท่านั้น
  • 24.