SlideShare a Scribd company logo
Tanapat Limsaiprom
BigData101 Chapter8
Tanapat Limsaiprom
BigData101 Chapter8
 การดาเนินการเก็บรวบรวมข้อมูล เพื่อนามาจัดทาเป็นข้อมูลสถิติมีวิธีการที่ใช้โดยทั่วไปมี 5 วิธี ดังนี้
 1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ (Reporting System)
เป็นผลพลอยได้จากระบบการบริหารงาน เป็นการเก็บรวบรวมข้อมูลจากรายงานที่ทาไว้หรือข้อมูลที่
เก็บไว้ในระบบหรือ จากเอกสารประกอบการทางาน ซึ่งการเก็บรวบรวมข้อมูลจากรายงานส่วนมาก
ใช้เพียงครั้งเดียว จากรายงานดังกล่าว อาจมีข้อมูลเบื้องต้น บางประเภทที่สามารถนามาประมวลเป็น
ยอดรวมข้อมูลสถิติได้
 วิธีเก็บรวบรวมข้อมูลจากรายงานของหน่วยบริหาร นับว่าเป็นวิธีการรวบรวมข้อมูลสถิติโดยไม่ต้อง
สิ้นเปลืองค่าใช้จ่ายในการดาเนินงานมากนัก ค่าใช้จ่ายที่ใช้ส่วนใหญ่ก็เพื่อการประมวลผล พิมพ์
แบบฟอร์มต่างๆ ตลอดจนการพิมพ์ รายงาน วิธีการนี้ใช้กันมากทั้งในหน่วยงาน รัฐบาลและเอกชน
Tanapat LimsaipromBigData101 Chapter8
 2. การเก็บรวบรวมข้อมูลจากทะเบียน (Registration) เป็นข้อมูลสถิติที่
รวบรวมจากระบบทะเบียน มีลักษณะคล้ายกับการรวบรวมจากรายงานตรงที่เป็นผล
พลอยได้เช่นเดียวกัน จะต่างกันตรงที่ แหล่งเบื้องต้นของข้อมูลเป็นเอกสารการ
ทะเบียนซึ่งการเก็บมีลักษณะต่อเนื่อง มีการปรับแก้หรือเปลี่ยนแปลง ให้ถูกต้อง
ทันสมัย
Tanapat LimsaipromBigData101 Chapter8
 3. การเก็บรวบรวมข้อมูลโดยวิธีสามะโน (Census ) เป็นการเก็บรวบรวม
ข้อมูลสถิติของทุกๆ หน่วยของประชากรที่สนใจศึกษาภายในพื้นที่ที่กาหนด และ
ภายในระยะเวลาที่กาหนด การเก็บรวบรวม ข้อมูลสถิติด้วยวิธีนี้ จะทาให้ได้ข้อมูล
ในระดับพื้นที่ย่อย เช่น หมู่บ้าน ตาบล อาเภอ และทาให้ได้ข้อมูลที่เป็นค่าจริง
Tanapat LimsaipromBigData101 Chapter8
 4. วิธีการทดลอง (Experimental Design) การเก็บรวบรวม
ข้อมูล โดยวิธีนี้จะต้องอาศัยวิชาสถิติในเรื่องการวางแผนการทดลองมาช่วย การวิจัย
ทางสังคมส่วนใหญ่จะใช้วิธีนี้ไม่ได้โดยมากจะใช้กับการทดลองทางด้านเกษตร
วิทยาศาสตร์ การแพทย์ เช่น ทดสอบผลของการใช้ปุ๋ยชนิดต่างๆ ต่อ การ
เจริญเติบโตของพืช เป็นต้น
Tanapat LimsaipromBigData101 Chapter8
 5. การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey) เป็นการเก็บรวบรวมข้อมูล
สถิติ จากบางหน่วยของประชากรด้วยวิธีการเลือกตัวอย่าง การเก็บรวบ รวมข้อมูลสถิติด้วยวิธีนี้ จะทาให้
ได้ข้อมูลในระดับรวม เช่น จังหวัด ภาค เขตการปกครอง และรวมทั่วประเทศ และข้อมูลที่ได้จะเป็นค่า
โดยประมาณ การสารวจเป็นวิธีการเก็บรวบรวมข้อมูลที่ใช้งบประมาณ เวลา และกาลังคนไม่มากนักจึง
สามารถจัดทาได้เป็นประจาทุกปี หรือ ทุก 2 ปี ปัจจุบันการสารวจเป็นวิธีการเก็บรวบรวมข้อมูลสถิติที่มี
ความสาคัญ และใช้กันอย่างแพร่หลายมากที่สุด ทั้งในวงการราชการและเอกชน
Tanapat LimsaipromBigData101 Chapter8
 การเก็บรวบรวมข้อมูลโดยวิธีสารวจ
(Sample Survey)
Tanapat LimsaipromBigData101 Chapter8
Tanapat Limsaiprom
BigData101 Chapter8
กรณีที่มีจำนวนคำถำมในแบบสอบถำมมากๆ ผู้ใส่รหัสอาจจะจารหัสได้ไม่ครบจึงจาเป็นต้องจัดทา
คู่มือลงรหัส อันประกอบด้วย
1. เลขที่แบบสอบถาม หมายถึงเลขที่ของแบบสอบถามที่ได้รับคืนกลับมา การใส่เลขที่แบบสอบถามจะ
ทำให้สำมำรถตรวจสอบข้อมูลจำกแบบสอบถำมได้ง่ำย ในกรณีที่มีการพิมพ์ข้อมูล เช่น ถ้าพบว่าอายุ
ของผู้ตอบจากแบบสอบถามชุดที่ 150 เป็น 99 ปี ทำให้สำมำรถตรวจสอบว่ำพิมพ์ผิดหรือไม่ โดย
ตรวจสอบจากแบบสอบถามชุดที่ 150
Tanapat LimsaipromBigData101 Chapter8
 2. เลขที่คาถาม ( Question Number )
เป็นเลขที่คาถามในแบบสอบถาม ผู้วิจัยจะกาหนดรหัสให้ตรงกับเลขที่ข้อในแบบสอบถาม
3. ชื่อตัวแปร ( Variable Name )
ส่วนใหญ่มักจะกาหนดให้ชื่อตัวแปรสอดคล้องกับความหมายของข้อมูล เช่น เพศ มักจะ
ใช้ SEX รายได้ เป็น INCOME เป็นต้น
4. รายการของข้อมูล
เป็นส่วนที่ระบุถึงคาถามในแต่ละข้อ
Tanapat LimsaipromBigData101 Chapter8
 5. ขนาดของตัวแปร
เป็นการกาหนดความกว้างของตัวแปร ถ้าเป็นตัวแปรเชิงปริมาณ เช่น คะแนน
สอบ ตัวแปรอาจจะมีจุดทศนิยม ต้องกาหนดจานวนหลักหลังจุดทศนิยม
ด้วย เช่น ถ้าความกว้างของตัวแปร คะแนนสอบ เป็น 8.2 หมายถึงมีจานวนจุด
หน้าจุดทศนิยม 5 หลัก และจานวนหลักหลังจุดทศนิยม 2 หลัก ( เลข 8 รวม
หมายถึงจานวนหลักหน้าจุดทศนิยม จุดทศนิยมและจานวนหลักหลังจุดทศนิยม )
Tanapat LimsaipromBigData101 Chapter8
 6. ค่าที่เป็นไปได้พร้อมคาอธิบายความหมาย ( Possible Values or Label )
หมายถึงส่วนที่จะระบุค่าที่เป็นไปได้ของตัวแปร เช่น ตัวแปร SEX มีค่า “ 0
” หมายถึง ชาย และค่า “ 1 ” หมายถึงหญิง ส่วนเลข 9 หมายถึง ผู้ตอบไม่
ตอบคาถามนี้ ( missing values )
ตัวอย่างการจัดทาคู่มือการกาหนดรหัสของแบบสอบถามเรื่องความพึงพอใจของ
การให้บริการของบริษัทดีทัวร์ ซึ่งจะสอบถามจากลูกค้าที่เคยใช้บริการของบริษัท
ฯ
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
Tanapat LimsaipromBigData101 Chapter8
 1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ
ถ้าเป็นข้อมูลในระบบจะเข้า สู่กระบวนการ ETL เพื่อเตรียมข้อมูลต่อไป
 2.การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey)
ถ้าเป็นข้อมูลจากการสารวจจะต้องนาข้อมูลมาลงรหัส และทาความสะอาด
ข้อมูลก่อนเข้าสู่กระบวนการวิเคราห์ต่อไป
Tanapat LimsaipromBigData101 Chapter8
 ETL ย่อมาจาก Extract-Transform-Load เป็นการนาข้อมูล (Extract) จากหลากหลาย
แหล่งข้อมูล เช่น จากฝ่าย Marketing, จากฝ่าย Sale, จากฝ่าย Customer Service ฯลฯ มา
แปลงรูปแบบให้เหมาะสม (Transform) แล้วเก็บ (Load) เข้าไปใน Data Warehouse หรือ
Data Lake
ที่มาภาพ : DataTH.com Tanapat LimsaipromBigData101 Chapter8
 เป็นการนาข้อมูล (Extract) จากหลากหลายแหล่งข้อมูล เช่น จากฝ่ายขายแล
การตลาด Marketing, จากฝ่ายชาย Sale, จากฝ่ายบริการลูกค้า
Customer Service มาเพื่อรวบรวมข้อมูลไปมาในขั้นตอนต่อไป
 ในขั้นตอนนี้จะเลือกข้อมูลจากแหล่งต่างๆที่ต้องการนามาวิเคราะห์
Tanapat LimsaipromBigData101 Chapter8
 นามาแปลงรูปแบบให้เหมาะสม (Transform)เช่น
- เปลี่ยนประเภทข้อมูล เช่น จาก ตัวอักษร เป็น ตัวเลข
- ทาความสะอาดข้อมูล เช่น ที่พิมพ์ผิด
Tanapat LimsaipromBigData101 Chapter8
 เป็นขั้นตอนนาข้อมูลที่ได้จากการ Transform โหลดข้อมูลเข้าไปใน
Data Warehouse หรือ Data Lake
Tanapat LimsaipromBigData101 Chapter8
โปรดติดตามโมดูลถัดไป
Tanapat LimsaipromBigData101 Chapter8

More Related Content

What's hot

การออกแบบเอาต์พุต/การออกแบบอินพุต
การออกแบบเอาต์พุต/การออกแบบอินพุตการออกแบบเอาต์พุต/การออกแบบอินพุต
การออกแบบเอาต์พุต/การออกแบบอินพุต
CC Nakhon Pathom Rajabhat University
 
บทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบ
บทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบบทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบ
บทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบSarawut Panchon
 
สถาปัตยกรรมฐานข้อมูล
สถาปัตยกรรมฐานข้อมูลสถาปัตยกรรมฐานข้อมูล
สถาปัตยกรรมฐานข้อมูลskiats
 
สถิติ คณิตศาสตร์
สถิติ คณิตศาสตร์สถิติ คณิตศาสตร์
สถิติ คณิตศาสตร์
Pla FC
 
Mis_hrcc
Mis_hrccMis_hrcc
Mis_hrcc
KruBeeKa
 
สถิติเบื่องต้น
สถิติเบื่องต้นสถิติเบื่องต้น
สถิติเบื่องต้น
othanatoso
 
01 introduction-to-system-analysis-and-design
01 introduction-to-system-analysis-and-design01 introduction-to-system-analysis-and-design
01 introduction-to-system-analysis-and-design
NuNa DeeNa
 
วิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณ
วิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณวิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณ
วิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณSaiiew
 
งานนำเสนอ1 คอม
งานนำเสนอ1 คอมงานนำเสนอ1 คอม
งานนำเสนอ1 คอมnuknook
 
คู่มือการใช้งานSpss
คู่มือการใช้งานSpssคู่มือการใช้งานSpss
คู่มือการใช้งานSpss
prapapan20
 
ฐานข้อมูลเชิงสัมพันธ์ 2
ฐานข้อมูลเชิงสัมพันธ์ 2ฐานข้อมูลเชิงสัมพันธ์ 2
ฐานข้อมูลเชิงสัมพันธ์ 2
kanjana Pongkan
 
ค32203 โครงการสอน
ค32203 โครงการสอนค32203 โครงการสอน
ค32203 โครงการสอนothanatoso
 
การวิเคราะห์ข้อมูลเชิงปริมาณ
การวิเคราะห์ข้อมูลเชิงปริมาณการวิเคราะห์ข้อมูลเชิงปริมาณ
การวิเคราะห์ข้อมูลเชิงปริมาณ
tanongsak
 
ใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศ
ใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศ
ใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศNattapon
 
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSSการสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
เบญจวรรณ กลสามัญ
 

What's hot (20)

การออกแบบเอาต์พุต/การออกแบบอินพุต
การออกแบบเอาต์พุต/การออกแบบอินพุตการออกแบบเอาต์พุต/การออกแบบอินพุต
การออกแบบเอาต์พุต/การออกแบบอินพุต
 
บทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบ
บทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบบทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบ
บทที่ 3 การวิเคราะห์ระบบและการออกแบบระบบ
 
สถาปัตยกรรมฐานข้อมูล
สถาปัตยกรรมฐานข้อมูลสถาปัตยกรรมฐานข้อมูล
สถาปัตยกรรมฐานข้อมูล
 
Epi info unit06
Epi info unit06Epi info unit06
Epi info unit06
 
สถิติ คณิตศาสตร์
สถิติ คณิตศาสตร์สถิติ คณิตศาสตร์
สถิติ คณิตศาสตร์
 
Role math stat_cs
Role math stat_csRole math stat_cs
Role math stat_cs
 
Mis_hrcc
Mis_hrccMis_hrcc
Mis_hrcc
 
สถิติเบื่องต้น
สถิติเบื่องต้นสถิติเบื่องต้น
สถิติเบื่องต้น
 
01 introduction-to-system-analysis-and-design
01 introduction-to-system-analysis-and-design01 introduction-to-system-analysis-and-design
01 introduction-to-system-analysis-and-design
 
วิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณ
วิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณวิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณ
วิธีการสำคัญในการวิเคราะห์ข้อมูลเชิงปริมาณ
 
งานนำเสนอ1 คอม
งานนำเสนอ1 คอมงานนำเสนอ1 คอม
งานนำเสนอ1 คอม
 
คู่มือการใช้งานSpss
คู่มือการใช้งานSpssคู่มือการใช้งานSpss
คู่มือการใช้งานSpss
 
ฐานข้อมูลเชิงสัมพันธ์ 2
ฐานข้อมูลเชิงสัมพันธ์ 2ฐานข้อมูลเชิงสัมพันธ์ 2
ฐานข้อมูลเชิงสัมพันธ์ 2
 
ค32203 โครงการสอน
ค32203 โครงการสอนค32203 โครงการสอน
ค32203 โครงการสอน
 
การวิเคราะห์ข้อมูลเชิงปริมาณ
การวิเคราะห์ข้อมูลเชิงปริมาณการวิเคราะห์ข้อมูลเชิงปริมาณ
การวิเคราะห์ข้อมูลเชิงปริมาณ
 
Epi info unit07
Epi info unit07Epi info unit07
Epi info unit07
 
ใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศ
ใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศ
ใบความรู้ที่ 1 การแก้ปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศ
 
Chapter4
Chapter4 Chapter4
Chapter4
 
9 spss
9 spss9 spss
9 spss
 
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSSการสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
การสร้างแฟ้มข้อมูลจากแบบสอบถามโดยโปรแกรม SPSS
 

Similar to Big Data 101 : Chapter 8 Module 1

Static excel
Static excelStatic excel
Static excel
smittichai chaiyawong
 
หน่วยการเรียนรู้ที่ 2
หน่วยการเรียนรู้ที่ 2หน่วยการเรียนรู้ที่ 2
หน่วยการเรียนรู้ที่ 2
Ja Phenpitcha
 
หน่วยการเรียนรู้ที่ 2-คอม
หน่วยการเรียนรู้ที่ 2-คอมหน่วยการเรียนรู้ที่ 2-คอม
หน่วยการเรียนรู้ที่ 2-คอม
Ja Phenpitcha
 
ระบบ (System)
ระบบ (System)ระบบ (System)
ระบบ (System)
tumetr
 
งานคอม อลิตา
งานคอม  อลิตางานคอม  อลิตา
งานคอม อลิตาalita122
 
ใบความรู้ที่1
ใบความรู้ที่1ใบความรู้ที่1
ใบความรู้ที่1
Orapan Chamnan
 
Chapter 02
Chapter 02Chapter 02
Chapter 02
Komsun See
 
ความหมายของเทคโนโลยีสารสนเทศ
ความหมายของเทคโนโลยีสารสนเทศความหมายของเทคโนโลยีสารสนเทศ
ความหมายของเทคโนโลยีสารสนเทศPaweena Kittitongchaikul
 
Database analysis & pivot table
Database analysis & pivot tableDatabase analysis & pivot table
Database analysis & pivot table
smittichai chaiyawong
 
บทที่ 2
บทที่ 2บทที่ 2
บทที่ 2
pianojrtk
 
บทที่ 2
บทที่ 2บทที่ 2
บทที่ 2
pianojrtk
 
สัปดาห์ที่ 11
สัปดาห์ที่ 11สัปดาห์ที่ 11
สัปดาห์ที่ 11
Nattaka_Su
 
ระบบสารสนเทศ
ระบบสารสนเทศระบบสารสนเทศ
ระบบสารสนเทศTheerapat Nilchot
 
ระบบสารสนเทศ
ระบบสารสนเทศระบบสารสนเทศ
ระบบสารสนเทศTheerapat Nilchot
 

Similar to Big Data 101 : Chapter 8 Module 1 (20)

1
11
1
 
Static excel
Static excelStatic excel
Static excel
 
หน่วยการเรียนรู้ที่ 2
หน่วยการเรียนรู้ที่ 2หน่วยการเรียนรู้ที่ 2
หน่วยการเรียนรู้ที่ 2
 
หน่วยการเรียนรู้ที่ 2-คอม
หน่วยการเรียนรู้ที่ 2-คอมหน่วยการเรียนรู้ที่ 2-คอม
หน่วยการเรียนรู้ที่ 2-คอม
 
M
MM
M
 
M
MM
M
 
ระบบ (System)
ระบบ (System)ระบบ (System)
ระบบ (System)
 
งานคอม อลิตา
งานคอม  อลิตางานคอม  อลิตา
งานคอม อลิตา
 
ใบความรู้ที่1
ใบความรู้ที่1ใบความรู้ที่1
ใบความรู้ที่1
 
Chapter 02
Chapter 02Chapter 02
Chapter 02
 
Chapter 02 Flowchart
Chapter 02 FlowchartChapter 02 Flowchart
Chapter 02 Flowchart
 
ความหมายของเทคโนโลยีสารสนเทศ
ความหมายของเทคโนโลยีสารสนเทศความหมายของเทคโนโลยีสารสนเทศ
ความหมายของเทคโนโลยีสารสนเทศ
 
Database analysis & pivot table
Database analysis & pivot tableDatabase analysis & pivot table
Database analysis & pivot table
 
บทที่ 2
บทที่ 2บทที่ 2
บทที่ 2
 
บทที่ 2
บทที่ 2บทที่ 2
บทที่ 2
 
Data Mining
Data MiningData Mining
Data Mining
 
สัปดาห์ที่ 11
สัปดาห์ที่ 11สัปดาห์ที่ 11
สัปดาห์ที่ 11
 
Problem solution
Problem solutionProblem solution
Problem solution
 
ระบบสารสนเทศ
ระบบสารสนเทศระบบสารสนเทศ
ระบบสารสนเทศ
 
ระบบสารสนเทศ
ระบบสารสนเทศระบบสารสนเทศ
ระบบสารสนเทศ
 

More from ธนาพัฒน์ ลิ้มสายพรหม

AWS Identity and access management , tanapat limsaiprom
AWS Identity and access management , tanapat limsaipromAWS Identity and access management , tanapat limsaiprom
AWS Identity and access management , tanapat limsaiprom
ธนาพัฒน์ ลิ้มสายพรหม
 
AWS Technical Essential , Tanapat Limsaiprom
AWS Technical Essential , Tanapat LimsaipromAWS Technical Essential , Tanapat Limsaiprom
AWS Technical Essential , Tanapat Limsaiprom
ธนาพัฒน์ ลิ้มสายพรหม
 
AWS Amazon DynamoDB
AWS Amazon DynamoDB AWS Amazon DynamoDB
ฺBig Data 101Chapter 8 Module 2
ฺBig Data 101Chapter 8 Module 2ฺBig Data 101Chapter 8 Module 2
Mt60307 ch7-data visulization
Mt60307 ch7-data visulizationMt60307 ch7-data visulization
Chapter 6 predictive Analytics
Chapter 6 predictive AnalyticsChapter 6 predictive Analytics
Ch1 Business Information foundation concept
Ch1 Business Information foundation conceptCh1 Business Information foundation concept
Ch1 Business Information foundation concept
ธนาพัฒน์ ลิ้มสายพรหม
 
Chapter2 module 4 Peopleware
Chapter2 module 4 PeoplewareChapter2 module 4 Peopleware
Chapter2 M1-foundation concepts-thai-62 feb
Chapter2 M1-foundation concepts-thai-62 febChapter2 M1-foundation concepts-thai-62 feb
Chapter2 M1-foundation concepts-thai-62 feb
ธนาพัฒน์ ลิ้มสายพรหม
 

More from ธนาพัฒน์ ลิ้มสายพรหม (20)

Tanapat-AWS-Certifacate-6-10.pdf
Tanapat-AWS-Certifacate-6-10.pdfTanapat-AWS-Certifacate-6-10.pdf
Tanapat-AWS-Certifacate-6-10.pdf
 
Tanapat-AWS-certificate-1-5.pdf
Tanapat-AWS-certificate-1-5.pdfTanapat-AWS-certificate-1-5.pdf
Tanapat-AWS-certificate-1-5.pdf
 
AWS Identity and access management , tanapat limsaiprom
AWS Identity and access management , tanapat limsaipromAWS Identity and access management , tanapat limsaiprom
AWS Identity and access management , tanapat limsaiprom
 
AWS Technical Essential , Tanapat Limsaiprom
AWS Technical Essential , Tanapat LimsaipromAWS Technical Essential , Tanapat Limsaiprom
AWS Technical Essential , Tanapat Limsaiprom
 
AWS Amazon DynamoDB
AWS Amazon DynamoDB AWS Amazon DynamoDB
AWS Amazon DynamoDB
 
Hr clinic2
Hr clinic2Hr clinic2
Hr clinic2
 
ฺBig Data 101Chapter 8 Module 2
ฺBig Data 101Chapter 8 Module 2ฺBig Data 101Chapter 8 Module 2
ฺBig Data 101Chapter 8 Module 2
 
Mt60307 ch7-data visulization
Mt60307 ch7-data visulizationMt60307 ch7-data visulization
Mt60307 ch7-data visulization
 
Chapter 6 predictive Analytics
Chapter 6 predictive AnalyticsChapter 6 predictive Analytics
Chapter 6 predictive Analytics
 
Ch4 e retailing strategy v62-a4
Ch4 e retailing strategy v62-a4Ch4 e retailing strategy v62-a4
Ch4 e retailing strategy v62-a4
 
Chapter5 descriptive statistic
Chapter5 descriptive statisticChapter5 descriptive statistic
Chapter5 descriptive statistic
 
Ch2 bi gdata
Ch2 bi gdataCh2 bi gdata
Ch2 bi gdata
 
Chapter 2 : Data Management
Chapter 2 : Data ManagementChapter 2 : Data Management
Chapter 2 : Data Management
 
Ch1 Business Information foundation concept
Ch1 Business Information foundation conceptCh1 Business Information foundation concept
Ch1 Business Information foundation concept
 
Chapter2 e-retailing
Chapter2 e-retailingChapter2 e-retailing
Chapter2 e-retailing
 
Chapter2 module 4 Peopleware
Chapter2 module 4 PeoplewareChapter2 module 4 Peopleware
Chapter2 module 4 Peopleware
 
Chapter 2 Module 2 Hardware
Chapter 2 Module 2 HardwareChapter 2 Module 2 Hardware
Chapter 2 Module 2 Hardware
 
Chapter2 M1-foundation concepts-thai-62 feb
Chapter2 M1-foundation concepts-thai-62 febChapter2 M1-foundation concepts-thai-62 feb
Chapter2 M1-foundation concepts-thai-62 feb
 
Tv Rating
Tv RatingTv Rating
Tv Rating
 
Chapter2 communication-v62 a
Chapter2 communication-v62 aChapter2 communication-v62 a
Chapter2 communication-v62 a
 

Big Data 101 : Chapter 8 Module 1

  • 3.  การดาเนินการเก็บรวบรวมข้อมูล เพื่อนามาจัดทาเป็นข้อมูลสถิติมีวิธีการที่ใช้โดยทั่วไปมี 5 วิธี ดังนี้  1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ (Reporting System) เป็นผลพลอยได้จากระบบการบริหารงาน เป็นการเก็บรวบรวมข้อมูลจากรายงานที่ทาไว้หรือข้อมูลที่ เก็บไว้ในระบบหรือ จากเอกสารประกอบการทางาน ซึ่งการเก็บรวบรวมข้อมูลจากรายงานส่วนมาก ใช้เพียงครั้งเดียว จากรายงานดังกล่าว อาจมีข้อมูลเบื้องต้น บางประเภทที่สามารถนามาประมวลเป็น ยอดรวมข้อมูลสถิติได้  วิธีเก็บรวบรวมข้อมูลจากรายงานของหน่วยบริหาร นับว่าเป็นวิธีการรวบรวมข้อมูลสถิติโดยไม่ต้อง สิ้นเปลืองค่าใช้จ่ายในการดาเนินงานมากนัก ค่าใช้จ่ายที่ใช้ส่วนใหญ่ก็เพื่อการประมวลผล พิมพ์ แบบฟอร์มต่างๆ ตลอดจนการพิมพ์ รายงาน วิธีการนี้ใช้กันมากทั้งในหน่วยงาน รัฐบาลและเอกชน Tanapat LimsaipromBigData101 Chapter8
  • 4.  2. การเก็บรวบรวมข้อมูลจากทะเบียน (Registration) เป็นข้อมูลสถิติที่ รวบรวมจากระบบทะเบียน มีลักษณะคล้ายกับการรวบรวมจากรายงานตรงที่เป็นผล พลอยได้เช่นเดียวกัน จะต่างกันตรงที่ แหล่งเบื้องต้นของข้อมูลเป็นเอกสารการ ทะเบียนซึ่งการเก็บมีลักษณะต่อเนื่อง มีการปรับแก้หรือเปลี่ยนแปลง ให้ถูกต้อง ทันสมัย Tanapat LimsaipromBigData101 Chapter8
  • 5.  3. การเก็บรวบรวมข้อมูลโดยวิธีสามะโน (Census ) เป็นการเก็บรวบรวม ข้อมูลสถิติของทุกๆ หน่วยของประชากรที่สนใจศึกษาภายในพื้นที่ที่กาหนด และ ภายในระยะเวลาที่กาหนด การเก็บรวบรวม ข้อมูลสถิติด้วยวิธีนี้ จะทาให้ได้ข้อมูล ในระดับพื้นที่ย่อย เช่น หมู่บ้าน ตาบล อาเภอ และทาให้ได้ข้อมูลที่เป็นค่าจริง Tanapat LimsaipromBigData101 Chapter8
  • 6.  4. วิธีการทดลอง (Experimental Design) การเก็บรวบรวม ข้อมูล โดยวิธีนี้จะต้องอาศัยวิชาสถิติในเรื่องการวางแผนการทดลองมาช่วย การวิจัย ทางสังคมส่วนใหญ่จะใช้วิธีนี้ไม่ได้โดยมากจะใช้กับการทดลองทางด้านเกษตร วิทยาศาสตร์ การแพทย์ เช่น ทดสอบผลของการใช้ปุ๋ยชนิดต่างๆ ต่อ การ เจริญเติบโตของพืช เป็นต้น Tanapat LimsaipromBigData101 Chapter8
  • 7.  5. การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey) เป็นการเก็บรวบรวมข้อมูล สถิติ จากบางหน่วยของประชากรด้วยวิธีการเลือกตัวอย่าง การเก็บรวบ รวมข้อมูลสถิติด้วยวิธีนี้ จะทาให้ ได้ข้อมูลในระดับรวม เช่น จังหวัด ภาค เขตการปกครอง และรวมทั่วประเทศ และข้อมูลที่ได้จะเป็นค่า โดยประมาณ การสารวจเป็นวิธีการเก็บรวบรวมข้อมูลที่ใช้งบประมาณ เวลา และกาลังคนไม่มากนักจึง สามารถจัดทาได้เป็นประจาทุกปี หรือ ทุก 2 ปี ปัจจุบันการสารวจเป็นวิธีการเก็บรวบรวมข้อมูลสถิติที่มี ความสาคัญ และใช้กันอย่างแพร่หลายมากที่สุด ทั้งในวงการราชการและเอกชน Tanapat LimsaipromBigData101 Chapter8
  • 10. กรณีที่มีจำนวนคำถำมในแบบสอบถำมมากๆ ผู้ใส่รหัสอาจจะจารหัสได้ไม่ครบจึงจาเป็นต้องจัดทา คู่มือลงรหัส อันประกอบด้วย 1. เลขที่แบบสอบถาม หมายถึงเลขที่ของแบบสอบถามที่ได้รับคืนกลับมา การใส่เลขที่แบบสอบถามจะ ทำให้สำมำรถตรวจสอบข้อมูลจำกแบบสอบถำมได้ง่ำย ในกรณีที่มีการพิมพ์ข้อมูล เช่น ถ้าพบว่าอายุ ของผู้ตอบจากแบบสอบถามชุดที่ 150 เป็น 99 ปี ทำให้สำมำรถตรวจสอบว่ำพิมพ์ผิดหรือไม่ โดย ตรวจสอบจากแบบสอบถามชุดที่ 150 Tanapat LimsaipromBigData101 Chapter8
  • 11.  2. เลขที่คาถาม ( Question Number ) เป็นเลขที่คาถามในแบบสอบถาม ผู้วิจัยจะกาหนดรหัสให้ตรงกับเลขที่ข้อในแบบสอบถาม 3. ชื่อตัวแปร ( Variable Name ) ส่วนใหญ่มักจะกาหนดให้ชื่อตัวแปรสอดคล้องกับความหมายของข้อมูล เช่น เพศ มักจะ ใช้ SEX รายได้ เป็น INCOME เป็นต้น 4. รายการของข้อมูล เป็นส่วนที่ระบุถึงคาถามในแต่ละข้อ Tanapat LimsaipromBigData101 Chapter8
  • 12.  5. ขนาดของตัวแปร เป็นการกาหนดความกว้างของตัวแปร ถ้าเป็นตัวแปรเชิงปริมาณ เช่น คะแนน สอบ ตัวแปรอาจจะมีจุดทศนิยม ต้องกาหนดจานวนหลักหลังจุดทศนิยม ด้วย เช่น ถ้าความกว้างของตัวแปร คะแนนสอบ เป็น 8.2 หมายถึงมีจานวนจุด หน้าจุดทศนิยม 5 หลัก และจานวนหลักหลังจุดทศนิยม 2 หลัก ( เลข 8 รวม หมายถึงจานวนหลักหน้าจุดทศนิยม จุดทศนิยมและจานวนหลักหลังจุดทศนิยม ) Tanapat LimsaipromBigData101 Chapter8
  • 13.  6. ค่าที่เป็นไปได้พร้อมคาอธิบายความหมาย ( Possible Values or Label ) หมายถึงส่วนที่จะระบุค่าที่เป็นไปได้ของตัวแปร เช่น ตัวแปร SEX มีค่า “ 0 ” หมายถึง ชาย และค่า “ 1 ” หมายถึงหญิง ส่วนเลข 9 หมายถึง ผู้ตอบไม่ ตอบคาถามนี้ ( missing values ) ตัวอย่างการจัดทาคู่มือการกาหนดรหัสของแบบสอบถามเรื่องความพึงพอใจของ การให้บริการของบริษัทดีทัวร์ ซึ่งจะสอบถามจากลูกค้าที่เคยใช้บริการของบริษัท ฯ Tanapat LimsaipromBigData101 Chapter8
  • 21.  1. การเก็บรวบรวมข้อมูลจากรายงานหรือข้อมูลในระบบ ถ้าเป็นข้อมูลในระบบจะเข้า สู่กระบวนการ ETL เพื่อเตรียมข้อมูลต่อไป  2.การเก็บรวบรวมข้อมูลโดยวิธีสารวจ (Sample Survey) ถ้าเป็นข้อมูลจากการสารวจจะต้องนาข้อมูลมาลงรหัส และทาความสะอาด ข้อมูลก่อนเข้าสู่กระบวนการวิเคราห์ต่อไป Tanapat LimsaipromBigData101 Chapter8
  • 22.  ETL ย่อมาจาก Extract-Transform-Load เป็นการนาข้อมูล (Extract) จากหลากหลาย แหล่งข้อมูล เช่น จากฝ่าย Marketing, จากฝ่าย Sale, จากฝ่าย Customer Service ฯลฯ มา แปลงรูปแบบให้เหมาะสม (Transform) แล้วเก็บ (Load) เข้าไปใน Data Warehouse หรือ Data Lake ที่มาภาพ : DataTH.com Tanapat LimsaipromBigData101 Chapter8
  • 23.  เป็นการนาข้อมูล (Extract) จากหลากหลายแหล่งข้อมูล เช่น จากฝ่ายขายแล การตลาด Marketing, จากฝ่ายชาย Sale, จากฝ่ายบริการลูกค้า Customer Service มาเพื่อรวบรวมข้อมูลไปมาในขั้นตอนต่อไป  ในขั้นตอนนี้จะเลือกข้อมูลจากแหล่งต่างๆที่ต้องการนามาวิเคราะห์ Tanapat LimsaipromBigData101 Chapter8
  • 24.  นามาแปลงรูปแบบให้เหมาะสม (Transform)เช่น - เปลี่ยนประเภทข้อมูล เช่น จาก ตัวอักษร เป็น ตัวเลข - ทาความสะอาดข้อมูล เช่น ที่พิมพ์ผิด Tanapat LimsaipromBigData101 Chapter8
  • 25.  เป็นขั้นตอนนาข้อมูลที่ได้จากการ Transform โหลดข้อมูลเข้าไปใน Data Warehouse หรือ Data Lake Tanapat LimsaipromBigData101 Chapter8