Tanapat Limsaiprom
BigData101 Chapter8
Tanapat Limsaiprom
BigData101 Chapter8
 การดาเนินการเก็บรวบรวมข้อมูล เพื่อนามาจัดทาเป็นข้อมูลสถิติมีวิธีการที่ใช้โดยทั่วไปมี 5 วิธี ดังนี้
 1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ (Reporting System)
เป็นผลพลอยได้จากระบบการบริหารงาน เป็นการเก็บรวบรวมข้อมูลจากรายงานที่ทาไว้หรือข้อมูลที่
เก็บไว้ในระบบหรือ จากเอกสารประกอบการทางาน ซึ่งการเก็บรวบรวมข้อมูลจากรายงานส่วนมาก
ใช้เพียงครั้งเดียว จากรายงานดังกล่าว อาจมีข้อมูลเบื้องต้น บางประเภทที่สามารถนามาประมวลเป็น
ยอดรวมข้อมูลสถิติได้
 วิธีเก็บรวบรวมข้อมูลจากรายงานของหน่วยบริหาร นับว่าเป็นวิธีการรวบรวมข้อมูลสถิติโดยไม่ต้อง
สิ้นเปลืองค่าใช้จ่ายในการดาเนินงานมากนัก ค่าใช้จ่ายที่ใช้ส่วนใหญ่ก็เพื่อการประมวลผล พิมพ์
แบบฟอร์มต่างๆ ตลอดจนการพิมพ์ รายงาน วิธีการนี้ใช้กันมากทั้งในหน่วยงาน รัฐบาลและเอกชน
Tanapat LimsaipromBigData101 Chapter8
 2. การเก็บรวบรวมข้อมูลจากทะเบียน (Registration) เป็นข้อมูลสถิติที่
รวบรวมจากระบบทะเบียน มีลักษณะคล้ายกับการรวบรวมจากรายงานตรงที่เป็นผล
พลอยได้เช่นเดียวกัน จะต่างกันตรงที่ แหล่งเบื้องต้นของข้อมูลเป็นเอกสารการ
ทะเบียนซึ่งการเก็บมีลักษณะต่อเนื่อง มีการปรับแก้หรือเปลี่ยนแปลง ให้ถูกต้อง
ทันสมัย
Tanapat LimsaipromBigData101 Chapter8
 3. การเก็บรวบรวมข้อมูลโดยวิธีสามะโน (Census ) เป็นการเก็บรวบรวม
ข้อมูลสถิติของทุกๆ หน่วยของประชากรที่สนใจศึกษาภายในพื้นที่ที่กาหนด และ
ภายในระยะเวลาที่กาหนด การเก็บรวบรวม ข้อมูลสถิติด้วยวิธีนี้ จะทาให้ได้ข้อมูล
ในระดับพื้นที่ย่อย เช่น หมู่บ้าน ตาบล อาเภอ และทาให้ได้ข้อมูลที่เป็นค่าจริง
Tanapat LimsaipromBigData101 Chapter8
 4. วิธีการทดลอง (Experimental Design) การเก็บรวบรวม
ข้อมูล โดยวิธีนี้จะต้องอาศัยวิชาสถิติในเรื่องการวางแผนการทดลองมาช่วย การวิจัย
ทางสังคมส่วนใหญ่จะใช้วิธีนี้ไม่ได้โดยมากจะใช้กับการทดลองทางด้านเกษตร
วิทยาศาสตร์ การแพทย์ เช่น ทดสอบผลของการใช้ปุ๋ยชนิดต่างๆ ต่อ การ
เจริญเติบโตของพืช เป็นต้น
Tanapat LimsaipromBigData101 Chapter8
 5. การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey) เป็นการเก็บรวบรวมข้อมูล
สถิติ จากบางหน่วยของประชากรด้วยวิธีการเลือกตัวอย่าง การเก็บรวบ รวมข้อมูลสถิติด้วยวิธีนี้ จะทาให้
ได้ข้อมูลในระดับรวม เช่น จังหวัด ภาค เขตการปกครอง และรวมทั่วประเทศ และข้อมูลที่ได้จะเป็นค่า
โดยประมาณ การสารวจเป็นวิธีการเก็บรวบรวมข้อมูลที่ใช้งบประมาณ เวลา และกาลังคนไม่มากนักจึง
สามารถจัดทาได้เป็นประจาทุกปี หรือ ทุก 2 ปี ปัจจุบันการสารวจเป็นวิธีการเก็บรวบรวมข้อมูลสถิติที่มี
ความสาคัญ และใช้กันอย่างแพร่หลายมากที่สุด ทั้งในวงการราชการและเอกชน
Tanapat LimsaipromBigData101 Chapter8
 การเก็บรวบรวมข้อมูลโดยวิธีสารวจ
(Sample Survey)
Tanapat LimsaipromBigData101 Chapter8
Tanapat Limsaiprom
BigData101 Chapter8
กรณีที่มีจำนวนคำถำมในแบบสอบถำมมากๆ ผู้ใส่รหัสอาจจะจารหัสได้ไม่ครบจึงจาเป็นต้องจัดทา
คู่มือลงรหัส อันประกอบด้วย
1. เลขที่แบบสอบถาม หมายถึงเลขที่ของแบบสอบถามที่ได้รับคืนกลับมา การใส่เลขที่แบบสอบถามจะ
ทำให้สำมำรถตรวจสอบข้อมูลจำกแบบสอบถำมได้ง่ำย ในกรณีที่มีการพิมพ์ข้อมูล เช่น ถ้าพบว่าอายุ
ของผู้ตอบจากแบบสอบถามชุดที่ 150 เป็น 99 ปี ทำให้สำมำรถตรวจสอบว่ำพิมพ์ผิดหรือไม่ โดย
ตรวจสอบจากแบบสอบถามชุดที่ 150
Tanapat LimsaipromBigData101 Chapter8
 2. เลขที่คาถาม ( Question Number )
เป็นเลขที่คาถามในแบบสอบถาม ผู้วิจัยจะกาหนดรหัสให้ตรงกับเลขที่ข้อในแบบสอบถาม
3. ชื่อตัวแปร ( Variable Name )
ส่วนใหญ่มักจะกาหนดให้ชื่อตัวแปรสอดคล้องกับความหมายของข้อมูล เช่น เพศ มักจะ
ใช้ SEX รายได้ เป็น INCOME เป็นต้น
4. รายการของข้อมูล
เป็นส่วนที่ระบุถึงคาถามในแต่ละข้อ
Tanapat LimsaipromBigData101 Chapter8
 5. ขนาดของตัวแปร
เป็นการกาหนดความกว้างของตัวแปร ถ้าเป็นตัวแปรเชิงปริมาณ เช่น คะแนน
สอบ ตัวแปรอาจจะมีจุดทศนิยม ต้องกาหนดจานวนหลักหลังจุดทศนิยม
ด้วย เช่น ถ้าความกว้างของตัวแปร คะแนนสอบ เป็น 8.2 หมายถึงมีจานวนจุด
หน้าจุดทศนิยม 5 หลัก และจานวนหลักหลังจุดทศนิยม 2 หลัก ( เลข 8 รวม
หมายถึงจานวนหลักหน้าจุดทศนิยม จุดทศนิยมและจานวนหลักหลังจุดทศนิยม )
Tanapat LimsaipromBigData101 Chapter8
 6. ค่าที่เป็นไปได้พร้อมคาอธิบายความหมาย ( Possible Values or Label )
หมายถึงส่วนที่จะระบุค่าที่เป็นไปได้ของตัวแปร เช่น ตัวแปร SEX มีค่า “ 0
” หมายถึง ชาย และค่า “ 1 ” หมายถึงหญิง ส่วนเลข 9 หมายถึง ผู้ตอบไม่
ตอบคาถามนี้ ( missing values )
ตัวอย่างการจัดทาคู่มือการกาหนดรหัสของแบบสอบถามเรื่องความพึงพอใจของ
การให้บริการของบริษัทดีทัวร์ ซึ่งจะสอบถามจากลูกค้าที่เคยใช้บริการของบริษัท
ฯ
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
 1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ
ถ้าเป็นข้อมูลในระบบจะเข้า สู่กระบวนการ ETL เพื่อเตรียมข้อมูลต่อไป
 2.การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey)
ถ้าเป็นข้อมูลจากการสารวจจะต้องนาข้อมูลมาลงรหัส และทาความสะอาด
ข้อมูลก่อนเข้าสู่กระบวนการวิเคราห์ต่อไป
Tanapat LimsaipromBigData101 Chapter8
 ETL ย่อมาจาก Extract-Transform-Load เป็นการนาข้อมูล (Extract) จากหลากหลาย
แหล่งข้อมูล เช่น จากฝ่าย Marketing, จากฝ่าย Sale, จากฝ่าย Customer Service ฯลฯ มา
แปลงรูปแบบให้เหมาะสม (Transform) แล้วเก็บ (Load) เข้าไปใน Data Warehouse หรือ
Data Lake
ที่มาภาพ : DataTH.com Tanapat LimsaipromBigData101 Chapter8
 เป็นการนาข้อมูล (Extract) จากหลากหลายแหล่งข้อมูล เช่น จากฝ่ายขายแล
การตลาด Marketing, จากฝ่ายชาย Sale, จากฝ่ายบริการลูกค้า
Customer Service มาเพื่อรวบรวมข้อมูลไปมาในขั้นตอนต่อไป
 ในขั้นตอนนี้จะเลือกข้อมูลจากแหล่งต่างๆที่ต้องการนามาวิเคราะห์
Tanapat LimsaipromBigData101 Chapter8
 นามาแปลงรูปแบบให้เหมาะสม (Transform)เช่น
- เปลี่ยนประเภทข้อมูล เช่น จาก ตัวอักษร เป็น ตัวเลข
- ทาความสะอาดข้อมูล เช่น ที่พิมพ์ผิด
Tanapat LimsaipromBigData101 Chapter8
 เป็นขั้นตอนนาข้อมูลที่ได้จากการ Transform โหลดข้อมูลเข้าไปใน
Data Warehouse หรือ Data Lake
Tanapat LimsaipromBigData101 Chapter8
โปรดติดตามโมดูลถัดไป
Tanapat LimsaipromBigData101 Chapter8

Big Data 101 : Chapter 8 Module 1

  • 1.
  • 2.
  • 3.
     การดาเนินการเก็บรวบรวมข้อมูล เพื่อนามาจัดทาเป็นข้อมูลสถิติมีวิธีการที่ใช้โดยทั่วไปมี5 วิธี ดังนี้  1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ (Reporting System) เป็นผลพลอยได้จากระบบการบริหารงาน เป็นการเก็บรวบรวมข้อมูลจากรายงานที่ทาไว้หรือข้อมูลที่ เก็บไว้ในระบบหรือ จากเอกสารประกอบการทางาน ซึ่งการเก็บรวบรวมข้อมูลจากรายงานส่วนมาก ใช้เพียงครั้งเดียว จากรายงานดังกล่าว อาจมีข้อมูลเบื้องต้น บางประเภทที่สามารถนามาประมวลเป็น ยอดรวมข้อมูลสถิติได้  วิธีเก็บรวบรวมข้อมูลจากรายงานของหน่วยบริหาร นับว่าเป็นวิธีการรวบรวมข้อมูลสถิติโดยไม่ต้อง สิ้นเปลืองค่าใช้จ่ายในการดาเนินงานมากนัก ค่าใช้จ่ายที่ใช้ส่วนใหญ่ก็เพื่อการประมวลผล พิมพ์ แบบฟอร์มต่างๆ ตลอดจนการพิมพ์ รายงาน วิธีการนี้ใช้กันมากทั้งในหน่วยงาน รัฐบาลและเอกชน Tanapat LimsaipromBigData101 Chapter8
  • 4.
     2. การเก็บรวบรวมข้อมูลจากทะเบียน(Registration) เป็นข้อมูลสถิติที่ รวบรวมจากระบบทะเบียน มีลักษณะคล้ายกับการรวบรวมจากรายงานตรงที่เป็นผล พลอยได้เช่นเดียวกัน จะต่างกันตรงที่ แหล่งเบื้องต้นของข้อมูลเป็นเอกสารการ ทะเบียนซึ่งการเก็บมีลักษณะต่อเนื่อง มีการปรับแก้หรือเปลี่ยนแปลง ให้ถูกต้อง ทันสมัย Tanapat LimsaipromBigData101 Chapter8
  • 5.
     3. การเก็บรวบรวมข้อมูลโดยวิธีสามะโน(Census ) เป็นการเก็บรวบรวม ข้อมูลสถิติของทุกๆ หน่วยของประชากรที่สนใจศึกษาภายในพื้นที่ที่กาหนด และ ภายในระยะเวลาที่กาหนด การเก็บรวบรวม ข้อมูลสถิติด้วยวิธีนี้ จะทาให้ได้ข้อมูล ในระดับพื้นที่ย่อย เช่น หมู่บ้าน ตาบล อาเภอ และทาให้ได้ข้อมูลที่เป็นค่าจริง Tanapat LimsaipromBigData101 Chapter8
  • 6.
     4. วิธีการทดลอง(Experimental Design) การเก็บรวบรวม ข้อมูล โดยวิธีนี้จะต้องอาศัยวิชาสถิติในเรื่องการวางแผนการทดลองมาช่วย การวิจัย ทางสังคมส่วนใหญ่จะใช้วิธีนี้ไม่ได้โดยมากจะใช้กับการทดลองทางด้านเกษตร วิทยาศาสตร์ การแพทย์ เช่น ทดสอบผลของการใช้ปุ๋ยชนิดต่างๆ ต่อ การ เจริญเติบโตของพืช เป็นต้น Tanapat LimsaipromBigData101 Chapter8
  • 7.
     5. การเก็บรวบรวมข้อมูลโดยวิธีสารวจ(Sample Survey) เป็นการเก็บรวบรวมข้อมูล สถิติ จากบางหน่วยของประชากรด้วยวิธีการเลือกตัวอย่าง การเก็บรวบ รวมข้อมูลสถิติด้วยวิธีนี้ จะทาให้ ได้ข้อมูลในระดับรวม เช่น จังหวัด ภาค เขตการปกครอง และรวมทั่วประเทศ และข้อมูลที่ได้จะเป็นค่า โดยประมาณ การสารวจเป็นวิธีการเก็บรวบรวมข้อมูลที่ใช้งบประมาณ เวลา และกาลังคนไม่มากนักจึง สามารถจัดทาได้เป็นประจาทุกปี หรือ ทุก 2 ปี ปัจจุบันการสารวจเป็นวิธีการเก็บรวบรวมข้อมูลสถิติที่มี ความสาคัญ และใช้กันอย่างแพร่หลายมากที่สุด ทั้งในวงการราชการและเอกชน Tanapat LimsaipromBigData101 Chapter8
  • 8.
  • 9.
  • 10.
    กรณีที่มีจำนวนคำถำมในแบบสอบถำมมากๆ ผู้ใส่รหัสอาจจะจารหัสได้ไม่ครบจึงจาเป็นต้องจัดทา คู่มือลงรหัส อันประกอบด้วย 1.เลขที่แบบสอบถาม หมายถึงเลขที่ของแบบสอบถามที่ได้รับคืนกลับมา การใส่เลขที่แบบสอบถามจะ ทำให้สำมำรถตรวจสอบข้อมูลจำกแบบสอบถำมได้ง่ำย ในกรณีที่มีการพิมพ์ข้อมูล เช่น ถ้าพบว่าอายุ ของผู้ตอบจากแบบสอบถามชุดที่ 150 เป็น 99 ปี ทำให้สำมำรถตรวจสอบว่ำพิมพ์ผิดหรือไม่ โดย ตรวจสอบจากแบบสอบถามชุดที่ 150 Tanapat LimsaipromBigData101 Chapter8
  • 11.
     2. เลขที่คาถาม( Question Number ) เป็นเลขที่คาถามในแบบสอบถาม ผู้วิจัยจะกาหนดรหัสให้ตรงกับเลขที่ข้อในแบบสอบถาม 3. ชื่อตัวแปร ( Variable Name ) ส่วนใหญ่มักจะกาหนดให้ชื่อตัวแปรสอดคล้องกับความหมายของข้อมูล เช่น เพศ มักจะ ใช้ SEX รายได้ เป็น INCOME เป็นต้น 4. รายการของข้อมูล เป็นส่วนที่ระบุถึงคาถามในแต่ละข้อ Tanapat LimsaipromBigData101 Chapter8
  • 12.
     5. ขนาดของตัวแปร เป็นการกาหนดความกว้างของตัวแปรถ้าเป็นตัวแปรเชิงปริมาณ เช่น คะแนน สอบ ตัวแปรอาจจะมีจุดทศนิยม ต้องกาหนดจานวนหลักหลังจุดทศนิยม ด้วย เช่น ถ้าความกว้างของตัวแปร คะแนนสอบ เป็น 8.2 หมายถึงมีจานวนจุด หน้าจุดทศนิยม 5 หลัก และจานวนหลักหลังจุดทศนิยม 2 หลัก ( เลข 8 รวม หมายถึงจานวนหลักหน้าจุดทศนิยม จุดทศนิยมและจานวนหลักหลังจุดทศนิยม ) Tanapat LimsaipromBigData101 Chapter8
  • 13.
     6. ค่าที่เป็นไปได้พร้อมคาอธิบายความหมาย( Possible Values or Label ) หมายถึงส่วนที่จะระบุค่าที่เป็นไปได้ของตัวแปร เช่น ตัวแปร SEX มีค่า “ 0 ” หมายถึง ชาย และค่า “ 1 ” หมายถึงหญิง ส่วนเลข 9 หมายถึง ผู้ตอบไม่ ตอบคาถามนี้ ( missing values ) ตัวอย่างการจัดทาคู่มือการกาหนดรหัสของแบบสอบถามเรื่องความพึงพอใจของ การให้บริการของบริษัทดีทัวร์ ซึ่งจะสอบถามจากลูกค้าที่เคยใช้บริการของบริษัท ฯ Tanapat LimsaipromBigData101 Chapter8
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
     1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ ถ้าเป็นข้อมูลในระบบจะเข้าสู่กระบวนการ ETL เพื่อเตรียมข้อมูลต่อไป  2.การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey) ถ้าเป็นข้อมูลจากการสารวจจะต้องนาข้อมูลมาลงรหัส และทาความสะอาด ข้อมูลก่อนเข้าสู่กระบวนการวิเคราห์ต่อไป Tanapat LimsaipromBigData101 Chapter8
  • 22.
     ETL ย่อมาจากExtract-Transform-Load เป็นการนาข้อมูล (Extract) จากหลากหลาย แหล่งข้อมูล เช่น จากฝ่าย Marketing, จากฝ่าย Sale, จากฝ่าย Customer Service ฯลฯ มา แปลงรูปแบบให้เหมาะสม (Transform) แล้วเก็บ (Load) เข้าไปใน Data Warehouse หรือ Data Lake ที่มาภาพ : DataTH.com Tanapat LimsaipromBigData101 Chapter8
  • 23.
     เป็นการนาข้อมูล (Extract)จากหลากหลายแหล่งข้อมูล เช่น จากฝ่ายขายแล การตลาด Marketing, จากฝ่ายชาย Sale, จากฝ่ายบริการลูกค้า Customer Service มาเพื่อรวบรวมข้อมูลไปมาในขั้นตอนต่อไป  ในขั้นตอนนี้จะเลือกข้อมูลจากแหล่งต่างๆที่ต้องการนามาวิเคราะห์ Tanapat LimsaipromBigData101 Chapter8
  • 24.
     นามาแปลงรูปแบบให้เหมาะสม (Transform)เช่น -เปลี่ยนประเภทข้อมูล เช่น จาก ตัวอักษร เป็น ตัวเลข - ทาความสะอาดข้อมูล เช่น ที่พิมพ์ผิด Tanapat LimsaipromBigData101 Chapter8
  • 25.
     เป็นขั้นตอนนาข้อมูลที่ได้จากการ Transformโหลดข้อมูลเข้าไปใน Data Warehouse หรือ Data Lake Tanapat LimsaipromBigData101 Chapter8
  • 26.