Data Preparation
การเก็บรวบรวมและการจัดการข้อมูล
Week V
117-503 การวิเคราะห์ข้อมูลและการแสดงแผนภาพข้อมูล
Data Analytics and Visualizations
Outline
• ความหมายของข้อมูล
• ประเภทของข้อมูลทางสถิติ (Types of Statistical Data)
• แหล่งที่มาของข้อมูล (Source of Data)
• วิธีการเก็บรวบรวมข้อมูล (Methods of Data Collection)
• การออกแบบการเก็บรวบรวมข้อมูล (Designing Data Collection
Process)
• การตรวจสอบคุณภาพของข้อมูล (Ensuring Data Quality)
• สรุป (Conclusion)
4. การออกแบบการเก็บรวบรวมข้อมูล(Designing Data
Collection Process)
1. กาหนดวัตถุประสงค์ของการศึกษา (Define Research Objectives)
2. เลือกแหล่งข้อมูลและวิธีการเก็บข้อมูลที่เหมาะสม (Select Appropriate
Data Sources and Collection Methods)
3. ออกแบบแบบสอบถามหรือแนวทางการสัมภาษณ์ให้มีความชัดเจน (Design
Clear Questionnaires or Interview Guidelines)
4. กาหนดขนาดของกลุ่มตัวอย่างให้เพียงพอและเป็นตัวแทนของประชากร
(Determine a Representative and Sufficient Sample
Size)
การตรวจสอบคุณภาพของข้อมูล (Ensuring Data Quality)
ในการวิเคราะห์ข้อมูล จาเป็นต้องมีการประเมิน
คุณภาพของข้อมูลเพื่อให้มั่นใจว่าข้อมูลที่ใช้งานมีความถูกต้อง
เชื่อถือได้ครบถ้วน และสอดคล้องกับความต้องการในการ
วิเคราะห์หรือการตัดสินใจทางธุรกิจ ซึ่งการตรวจสอบคุณภาพ
ของข้อมูลจะช่วยลดปัญหาที่เกิดจากข้อมูลที่ผิดพลาดหรือไม่
สมบูรณ์
กระบวนการตรวจสอบคุณภาพของข้อมูล (Data
Quality Process)
1️⃣ รวบรวมข้อมูล (Data Collection)
2️⃣ ทาความสะอาดข้อมูล (Data Cleaning)
3️⃣ ตรวจสอบคุณภาพข้อมูล (Data Validation & Profiling)
4️⃣ วิเคราะห์ข้อมูลและสร้าง Visualization
5️⃣ นาข้อมูลที่ได้ไปใช้งาน (Data Utilization)
ขั้นตอนการรวบรวมข้อมูล Data Collection
• กาหนดวัตถุประสงค์ของการเก็บรวมรวมข้อมูล เช่นเพื่อสารวจข้อมูลที่เป็นจุดคอขวดในการผลิตสินค้า
• กาหนดเป้าหมาย โดยพิจารณาจากวัตถุประสงค์ เช่น ขั้นตอนการปฏิบัติงานในสถานีงานของสายการผลิตสบู่
ก้อน
• ออกแบบเครื่องมือที่เหมาะสมเพื่อใช้ในการรวบรวมข้อมูลที่ต้องการ เช่น ใช้การสังเกต ใช้ตารางข้อมูล ใช้การ
สัมภาษณ์
• ระบุกลุ่มตัวอย่างที่จะทาการสารวจข้อมูล จานวนการสารวจ เทคนิคการสุ่มตัวอย่าง รวมถึงแหล่งข้อมูลต่างๆ ที่
จะต้องสารวจ เช่น พนักงานที่ปฏิบัติงานในแต่ละสถานีงาน ขั้นตอนการปฏิบัติงาน (work Instruction)
• จัดทาแผนรวบรวมข้อมูล โดยกาหนดวันเวลาสารวจ ทีมสารวจ ระยะเวลาสารวจ เป็นต้น
• จัดหาทีมสารวจแล้วทาการอบรมให้เข้าใจวิธีการสุ่มกลุ่มตัวอย่าง การอธิบายแบบสอบถาม และวิธีการสารวจ ใน
กรณีใช้แบบสอบถามออนไลน์ก็จะสะดวกในการสารวจมากยิ่งขึ้น รวมทั้งวิธีการรวบรวมข้อมูล
• ดาเนินการรวบรวมข้อมูล (Data Collection) จากกลุ่มตัวอย่าง ตามแผนงานที่กาหนดไว้
• รวบรวมแบบสอบถามที่ตอบแล้ว รวมถึงข้อมูลจากแหล่งทุติยภูมิ เพื่อนามาวิเคราะห์ (Data analysis ) และ
หาผลลัพธ์หรือข้อสรุป
องค์ประกอบของคุณภาพข้อมูล (Data Quality Dimensions)
1. ความถูกต้อง (Accuracy) ข้อมูลต้องมีความถูกต้อง (ตัวอย่างเช่น ชื่อนามสกุล มีการสะกดถูกต้อง)
2. ความสมบูรณ์ (Completeness)ข้อมูลต้องมีการกรอกครบถ้วน ไม่มีข้อมูลที่ขาดหายไป
3. ความสอดคล้อง (Consistency)ข้อมูลต้องไม่มีความขัดแย้งภายในชุดข้อมูลเดียวกัน เช่นสถานะภาพ
ของพนักงาน (โสด สมรส) ในระบบจะต้องถูกต้องตรงกันในทุกส่วน
4. ความเชื่อถือได้ (Reliability) ข้อมูลที่เก็บรวบรวมและใช้งานต้องสามารถเชื่อถือได้ในทุกสถานการณ์
ตัวอย่าง: หากข้อมูลจากเซ็นเซอร์มีค่าเบี่ยงเบนไปจากความเป็นจริงมากอาจส่งผลกระทบต่อการตัดสินใจ
5. ความทันเวลา (Timeliness) ข้อมูลต้องมีการอัปเดตอย่างสม่าเสมอและมีความเหมาะสมในการใช้งาน
ในเวลานั้นๆตัวอย่าง: ข้อมูลสต็อกสินค้าควรจะได้รับการอัปเดตทุกครั้งที่มีการซื้อขาย
6. ความตรงตามมาตรฐาน (Conformance) ข้อมูลต้องปฏิบัติตามมาตรฐานที่กาหนด เช่น รูปแบบวันที่,
รูปแบบหมายเลขโทรศัพท์ตัวอย่าง: วันเดือนปีในรูปแบบ DD-MM-YYYY หรือ YYYY/MM/DD
7. ความมีความหมายหรือความเกี่ยวข้อง (Relevance) ข้อมูลที่เก็บรวบรวมต้องมีความหมาย(เกี่ยวข้อง)
และใช้ประโยชน์ได้ตามจุดประสงค์ตัวอย่าง: ข้อมูลที่ไม่เกี่ยวข้องกับการวิเคราะห์ธุรกิจไม่ควรเก็บไว้ใน
ฐานข้อมูล
กระบวนการทาความสะอาดข้อมูล (Data Cleaning)
• คือกระบวนการตรวจสอบและแก้ไขข้อมูลดิบ (Raw Data)
เพื่อให้มีคุณภาพที่ดีขึ้น ลดข้อผิดพลาด และทาให้พร้อม
สาหรับการวิเคราะห์หรือการนาไปใช้งานต่อ เช่น Machine
Learning, Data Analytics หรือ Business Intelligence
ทาไมต้องทา Data Cleaning?
ข้อมูลที่ยังไม่ได้ทาความสะอาดอาจมีปัญหา เช่น:
Missing Data (ข้อมูลขาดหายไป) → ข้อมูลไม่ครบทาให้วิเคราะห์ไม่ได้
Duplicate Data (ข้อมูลซ้าซ้อน) → ส่งผลให้ผลลัพธ์จากการนับหรือคานวณคลาดเคลื่อน
Incorrect Data (ข้อมูลผิด) → เช่น ชื่อผิด, ที่อยู่อีเมลไม่ถูกต้อง (บางกรณีตรวจยาก)
Outliers (ค่าผิดปกติ) → มีผลกระทบต่อการวิเคราะห์เชิงสถิติ
Inconsistent Data (ข้อมูลไม่สอดคล้องกัน) → ตัวอย่างเช่น วันที่จัดเก็บในรูปแบบ
ต่างกัน ("01-02-2024" และ "2024/02/01") หรือข้อมูลคานาหน้าที่มีรูปแบบไม่ตรงกัน เช่น
“นางสาว” และ “นส.” ทาให้ยากต่อการนับและประมวลผลด้วยโปรแกรม
ขั้นตอนการทา Data Cleaning
1. ตรวจสอบคุณภาพของข้อมูล (Data Quality
Assessment/ Data Inspection)
2. การจัดการ Missing Data
3. การจัดการข้อมูลซ้าซ้อน (Duplicate Data)
4. การแก้ไขค่าผิดพลาดและไม่สอดคล้องกัน (Incorrect &
InconsistentData)
5. การแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสม (Data
Transformation & Standardization)
การตรวจสอบคุณภาพของข้อมูล
(Data Quality Assessment)
ข้อมูลที่ไม่มีคุณภาพสามารถส่งผลเสียต่อการวิเคราะห์
การตัดสินใจ และกระบวนการทางธุรกิจ ดังนั้นจาเป็นต้องมีการ
ตรวจสอบคุณภาพของข้อมูลด้วยกระบวนการวิเคราะห์และประเมิน
ในหัวข้อต่างๆ อาทิเช่น ความถูกต้อง (Accuracy), ความสมบูรณ์
(Completeness), ความสม่าเสมอ (Consistency), ความ
ถูกต้องตามรูปแบบ (Validity), ความน่าเชื่อถือ (Reliability)
และ ความเป็นปัจจุบัน (Timeliness) ของข้อมูล เพื่อให้แน่ใจว่า
ข้อมูลสามารถนาไปใช้งานได้อย่างมีประสิทธิภาพและถูกต้อง
ประโยชน์ของการตรวจสอบคุณภาพของข้อมูล
ลดข้อผิดพลาดในการตัดสินใจ
ป้องกันข้อมูลที่ผิดพลาดหรือซ้าซ้อน
เพิ่มประสิทธิภาพของระบบงาน
ช่วยให้การวิเคราะห์ข้อมูลแม่นยามากขึ้น
องค์ประกอบของคุณภาพข้อมูล
1. ความเที่ยงตรง (Accuracy)
2. ความสมบูรณ์ (Completeness)
3. ความสม่าเสมอ (Consistency)
4. ความสะท้อนความเป็นจริง(Validity)
5. ความน่าเชื่อถือ (Reliability)
6. ความเป็นปัจจุบัน (Timeliness)
7. ความตรงตามมาตรฐาน (Conformance)
8. ความเกี่ยวข้องของข้อมูล (Relevant)
1. ความแม่นยา (Accuracy)
ข้อมูลต้องมีความแม่นยาไม่มีข้อผิดพลาด เช่น
• เครื่องมือที่ใช้วัด เช่นเครื่องชั่งน้าหนักต้องมีความถูกต้อง แม่นยา
• ชื่อ-นามสกุลที่บันทึกต้องเขียนตรงกันกับข้อมูลต้นฉบับในเอกสาร
• ที่อยู่ต้องเป็นที่อยู่ที่มีอยู่จริง
ตัวอย่างการตรวจสอบ
• ใช้น้าหนักมาตรฐานทดสอบเครื่องชั่งก่อนนาไปใช้งาน
• เปรียบเทียบกับแหล่งข้อมูลที่น่าเชื่อถือเช่นทะเบียนบ้าน บัตร
ประชาชน
• ตรวจสอบค่าที่ผิดปกติ เช่น อายุ 200 ปี (เป็นไปไม่ได้)
2. ความสมบูรณ์ (Completeness)
ข้อมูลต้องครบถ้วน ไม่มีค่าหายไป เช่น
• หมายเลขโทรศัพท์ไม่ควรเป็นค่าว่าง
• รหัสลูกค้าต้องมีทุกแถว
ตัวอย่างการตรวจสอบ
• ตรวจหาค่า NULL หรือ Missing Values
• วิเคราะห์จานวนข้อมูลที่หายไป
3. ความสม่าเสมอ (Consistency)
ข้อมูลต้องไม่มีความขัดแย้งกัน เช่น
• วันที่ออกใบแจ้งหนี้ควรต้องไม่มากกว่าวันที่ชาระเงิน
• ฐานข้อมูลหลายแหล่งต้องให้ค่าตรงกัน
ตัวอย่างการตรวจสอบ
• เปรียบเทียบข้อมูลจากหลายระบบ
• ตรวจหาค่าที่แตกต่างกันในฟิลด์เดียวกัน
4. ความสะท้อนความเป็นจริง (Validity)
ข้อมูลต้องสะท้อนตามความเป็นจริง เช่น
• รหัสไปรษณีย์ต้องมีตัวเลขครบทั้ง 5 หลัก ไม่ขาด ไม่เกิน
• ที่อยู่อีเมลต้องมี @ และ .com/.net/.org ต้องเป็นโดเมนที่มีอยู่จริง
• อายุต้องไม่ติดลบ
• ไม่มีวันที่ 30 ในเดือนกุมภาพันธ์
ตัวอย่างการตรวจสอบ
• ใช้Regular Expression (Regex) ในการตรวจสอบรูปแบบของ
ข้อมูล เพื่อช่วยลดความผิดพลาดประเภท human error
• ใช้Data Validation กาหนดกฎการป้อนข้อมูล
5. ความน่าเชื่อถือ (Reliability)
ข้อมูลต้องมาจากแหล่งที่น่าเชื่อถือและสามารถใช้งานได้ เช่น
• ข้อมูลจากหน่วยงานทางการ
• ข้อมูลที่ผ่านการตรวจสอบแล้ว
ตัวอย่างการตรวจสอบ
• ตรวจสอบแหล่งที่มาของข้อมูล
• ตรวจดู log เพื่อวิเคราะห์ข้อมูลย้อนหลังว่ามีข้อผิดพลาดบ่อย
หรือไม่
6. ความตรงตามมาตรฐาน (Conformance)
ข้อมูลเป็นไปตามรูปแบบ โครงสร้าง หรือกฎเกณฑ์ที่กาหนดไว้
เช่น
• รหัสไปรษณีย์
• Email
• หมายเลขโทรศัพท์
ตัวอย่างการตรวจสอบ
รหัสไปรษณีย์ต้องมี 5 หลัก
อีเมลต้องมี @ และโดเมนที่ถูกต้อง
หมายเลขโทรศัพท์ต้องเป็น ตัวเลข 10 หลัก เป็นไปตาม
มาตรฐานสากลหรือข้อกาหนดระหว่างประเทศ
ความสาคัญของความตรงตามมาตรฐาน
ป้องกันข้อผิดพลาดในระบบฐานข้อมูล
ลดปัญหาข้อมูลไม่สมบูรณ์และข้อมูลซ้าซ้อน
ช่วยให้การวิเคราะห์และใช้งานข้อมูลแม่นยาขึ้น
ปรับปรุงประสิทธิภาพของกระบวนการทางาน
7. ความเป็นปัจจุบัน (Timeliness)
ข้อมูลต้องเป็นข้อมูลล่าสุด เช่น
• ราคาสินค้าต้องเป็นราคาปัจจุบัน
• ข้อมูลสต็อกสินค้าต้องอัปเดตเรียลไทม์
ตัวอย่างการตรวจสอบ
• ตรวจสอบ Timestamp หรือวันที่อัปเดตล่าสุด
• เปรียบเทียบกับข้อมูลที่อัปเดตล่าสุด
8. ความเกี่ยวข้องของข้อมูล (Relevant)
ข้อมูลที่ดีต้องมีความเกี่ยวข้องกับวัตถุประสงค์ที่กาลัง
ศึกษา ไม่ควรมีข้อมูลที่ไม่เกี่ยวข้องปะปนมา เช่น
• การคานวณค่าคอมมิสชันของพนักงาน ไม่ควรมีค่าไฟฟ้า
ประจาเดือนเข้ามาเกี่ยวข้อง
ตัวอย่างการตรวจสอบ
• ตรวจวัตถุประสงค์และรายชื่อฟิลด์ข้อมูล ตัวอย่างข้อมูลใน
แต่ละฟิลด์
เปรียบเทียบ Accuracy, Validity และ
Conformance
หัวข้อ ความหมาย แนวคิด ตัวอย่าง
ความเที่ยงตรง
(Accuracy)
ระดับที่ค่าที่วัดได้
ใกล้เคียงกับค่าจริง
มุ่งไปที่ความเที่ยงตรง
ของเครื่องมือที่ใช้วัด
น้าหนักจริง 10 Kg แต่
เครื่องชั่งวัดได้10.5 Kg.
ความสะท้อนความเป็นจริง
(Validity)
การวัดสามารถ
สะท้อนสิ่งที่ต้องการ
วัดได้อย่างถูกต้อง
หรือไม่
เน้นการใช้เครื่องมือหรือ
วิธีที่เหมาะสมกับสิ่งที่
ต้องการวัด
ใช้แบบประเมินวัดค่า IQ
ของผู้สัมภาษณ์
(ใช้เครื่องมือถูกประเภท
และค่าที่ได้ถูกต้องแม่นยา)
ความเป็นไปตามมาตรฐาน
(Conformance)
การปฏิบัติตาม
ข้อกาหนด มาตรฐาน
หรือข้อกาหนดที่
กาหนดไว้
เน้นการปฏิบัติตาม
มาตรฐานหรือข้อกาหนด
จัดเก็บข้อมูลหมายเลข
โทรศัพท์ด้วยรูปแบบที่
ถูกต้องตามสากล
ความสัมพันธ์ระหว่าง Accuracy, Validity และ
Conformance
• มี Accuracy แต่ไม่มี Validity
ข้อมูลถูกต้องแต่ใช้เครื่องมือผิด (เช่น ใช้เครื่องชั่งวัด IQ)
• มี Validity แต่ไม่มี Accuracy
ใช้วิธีวัดที่ถูกต้อง แต่ค่าที่ได้ผิดพลาด (แบบทดสอบ IQ ดีแต่ให้คะแนนผิด)
• มี Conformance แต่ไม่มี Accuracy และ Validity
ปฏิบัติตามมาตรฐานแต่ไม่ได้ผลที่ต้องการ
(โรงงานผลิตสินค้าได้ตามข้อกาหนดแต่สินค้าใช้ไม่ได้จริง)
• ถ้ามีทั้ง 3 อย่าง
ข้อมูลถูกต้อง, ใช้เครื่องมือที่เหมาะสม และเป็นไปตามมาตรฐานที่กาหนด
วิธีการตรวจสอบคุณภาพของข้อมูล
1. ใช้ Excel
Conditional Formatting → ตรวจสอบค่าที่หายไป
Pivot Table → ค้นหาค่าที่ไม่สอดคล้องกัน
Remove Duplicates → ลบค่าซ้า
2. ใช้ Tableau หรือ Power BI
Scatter Plot → ค้นหาค่าผิดปกติ
Box Plot → ตรวจจับ Outliers
Heatmap → ตรวจสอบค่าที่ซ้ากัน
3. ใช้ Python หรือ SQL
Pandas (Python) → ตรวจหาค่าหายไป
SQL Queries → ตรวจสอบค่าที่ซ้าและ Outliers
การจัดการ Missing Data
• บางครั้งการตอบแบบสอบถาม ผู้ตอบอาจใส่ข้อมูลไม่
ครบถ้วน ทาให้การประมวลผลอาจเกิดความผิดพลาดขึ้นได้
• จาเป็นต้องมีการจัดการกับข้อมูลเหล่านี้ อาจใช้วิธีตัดข้อมูล
ที่ไม่ครบสมบูรณ์เหล่านี้ออกไป (ไม่ควรใช้วิธีแทนด้วย
ค่าเฉลี่ย เพราะไม่ใช่ข้อมูลที่แท้จริง จะทาให้ข้อมูลที่ได้มี
โอกาสไม่สอดคล้องกับความเป็นจริงสูง)
การแทนที่ข้อมูลที่แตกต่างกัน
• ในบางครั้งการจดบันทึกข้อมูล อาจมีการใส่ข้อมูลที่แตกต่าง
กัน เช่นชื่อจังหวัด กทม กรุงเทพฯ กท. หรือคานาหน้าชื่อ
เช่น นาย นาง นางสาว นส. ศ. ศาสตราจารย์ เป็นต้น การ
แทนที่ข้อมูลเหล่านี้ให้เป็นข้อมูลเดียวกัน จะลดปัญหาความ
ผิดพลาดและลดความยุ่งยากในการวิเคราะห์ลงได้
การทา Normalization
• เป็นกระบวนการปรับข้อมูลให้อยู่ในรูปแบบที่เหมาะสม เพื่อ
ลดความซ้าซ้อน (Redundancy) และเพิ่มความถูกต้อง
(Integrity) ของข้อมูล โดยเฉพาะในการจัดการ
ฐานข้อมูลและการวิเคราะห์ข้อมูลทางสถิติ เช่น การคานวณ
z-score เพื่อให้สามารถเปรียบเทียบข้อมูลทางสถิติที่มี
ฐานไม่เท่ากัน ให้สามารถเปรียบเทียบกันได้
การปรับรูปแบบข้อมูล (Data Transformation)
• ข้อมูลเช่นวันเวลา อาจมีการเขียนในรูปแบบที่แตกต่างกัน
เช่น วัน/เดือน/ปี หรือ ปี/เดือน/วัน หรือเวลาที่ใช้อาจเป็น
คนละ Time zone ทาให้ยุ่งยากต่อการประมวลผล
จาเป็นต้องมีการปรับรูปแบบข้อมูลให้อยู่ในรูปแบบเดียวกัน
การจัดโครงสร้างข้อมูล (Data Structuring)
จัดรูปแบบข้อมูลให้อยู่ในโครงสร้างที่ใช้งานได้ง่าย เช่น
ฐานข้อมูลเชิงสัมพันธ์ (Relational Database) หรือไฟล์
CSV/JSON
การใช้Excel ในการจัดการข้อมูล
1. การตรวจสอบค่าที่หายไป (Missing Values)
2. การตรวจสอบค่าผิดปกติ (Outliers)
3. การตรวจสอบค่าซ้าซ้อน (Duplicate Values)
4. การตรวจสอบความสัมพันธ์ของข้อมูล (Correlation)
1. การตรวจสอบค่าที่หายไป (Missing Values)
วิธีที่ 1: ใช้ Conditional Formatting
1. เลือกช่วงข้อมูลที่ต้องการตรวจสอบ
2. ไปที่ Home → Conditional Formatting →
New Rule
3. เลือก "Format only cells that contain"
4. เลือก "Blanks" แล้วตั้งค่ารูปแบบ เช่น เติมสีพื้นหลังเป็นสีแดง
5. กด OK
จะแสดงสีแดงในเซลล์ที่มีค่าว่าง
1. การตรวจสอบค่าที่หายไป (Missing Values)
วิธีที่ 2: ใช้ Filter หาค่าหายไป
1. คลิกที่เซลล์ใดก็ได้ในตาราง
2. ไปที่ Data → Filter
3. คลิกที่ลูกศรหัวตาราง → เลือก (Blanks)
4. Excel จะแสดงเฉพาะค่าที่หายไป
ช่วยให้เห็นว่าค่าหายไปตรงไหนบ้าง
2. การตรวจสอบค่าผิดปกติ (Outliers)
วิธีที่ 1: ใช้ Box Plot
1. เลือกช่วงข้อมูลที่ต้องการวิเคราะห์
2. ไปที่ Insert → Charts → Box and Whisker
ใช้ Box Plot เพื่อดูค่าที่อยู่นอกช่วงปกติ
2. การตรวจสอบค่าผิดปกติ (Outliers)
วิธีที่ 2: ใช้ Z-Score หรือ IQR
1. ใช้สูตรในเซลB2 (เมื่อข้อมูลอยู่ใน column A
ตั้งแต่ 2เป็นต้นไป)
2. ใช้ Conditional Formatting เพื่อไฮไลต์ค่าที่
มากกว่า 3
=ABS((A2 - AVERAGE(A:A)) / STDEV(A:A))
3. การตรวจสอบค่าซ้าซ้อน (Duplicate Values)
วิธีที่ 1: ใช้ Conditional Formatting
1. เลือกช่วงข้อมูลที่ต้องการตรวจสอบ
2. ไปที่ Home → Conditional Formatting →
Highlight Cells Rules → Duplicate
Values
3. เลือกรูปแบบสี แล้วกด OK
ดูว่ามีข้อมูลที่ซ้ากันหรือไม่
3. การตรวจสอบค่าซ้าซ้อน (Duplicate Values)
วิธีที่ 2: ใช้การ Remove Duplicates
1. คลิกที่ข้อมูลที่ต้องการตรวจสอบ
2. ไปที่ Data → Remove Duplicates
3. เลือกคอลัมน์ที่ต้องการตรวจสอบ → กด OK
วิธีการนี้จะลบข้อมูลซ้าออกไปได้
4. การตรวจสอบความสัมพันธ์ของข้อมูล(Correlation)
วิธีที่ 1 ใช้ Scatter Plot + Trendline
1. เลือกข้อมูลที่ต้องการวิเคราะห์
2. ไปที่ Insert → Scatter Plot
3. คลิกที่กราฟ → Add Trendline
4. เลือก Display Equation on Chart
ดูว่าข้อมูลมีความสัมพันธ์กันมากแค่ไหน
4. การตรวจสอบความสัมพันธ์ของข้อมูล(Correlation)
วิธีที่ 2 ใช้Data Analysis Toolpak (ต้องเปิดใช้งานก่อน)
1. ไปที่ File → Options → Add-ins
2. เลือก Analysis ToolPak → กด OK
3. ไปที่ Data → Data Analysis → Correlation
4. เลือกช่วงข้อมูล → กด OK
จะแสดงค่าความสัมพันธ์ระหว่างตัวแปรต่าง ๆ
5. การตรวจสอบค่าที่ไม่สอดคล้องกัน (Inconsistent Data)
วิธีที่ 1 ใช้ Pivot Table เพื่อดูค่าสัมพันธ์
1. เลือกข้อมูล
2. ไปที่ Insert → Pivot Table
3. ลากคอลัมน์ที่ต้องการตรวจสอบไปไว้ใน Row Labels
4. ลากค่าเดิมซ้าไปไว้ใน Values แล้วเปลี่ยนเป็น Count
ตรวจดูว่ามีค่าที่ไม่ควรอยู่หรือไม่
5. การตรวจสอบค่าที่ไม่สอดคล้องกัน (Inconsistent
Data)
วิธีที่ 2: ใช้ Data Validation ป้องกันการป้อนค่า
ผิดพลาด
1. เลือกคอลัมน์ที่ต้องการควบคุมค่า
2. ไปที่ Data → Data Validation
3. เลือกประเภทข้อมูลที่ถูกต้อง เช่น List (กาหนดค่าที่
ถูกต้อง)
วิธีการนี้ช่วยป้องกันการใส่ค่าที่ผิดพลาดตั้งแต่แรก
สรุปการใช้ Excel ตรวจสอบข้อมูล
ประเภทการตรวจสอบ วิธีที่ใช้ใน Excel
ค่าหายไป Conditional Formatting, Filter
ค่าผิดปกติ Box Plot, Z-Score
ค่าซ้าซ้อน Conditional Formatting, Remove
Duplicates
ความสัมพันธ์ของข้อมูล Scatter Plot, Correlation Matrix
ค่าที่ไม่สอดคล้องกัน Pivot Table, Data Validation
การใช้ Tableau เพื่อตรวจสอบคุณภาพของข้อมูล
1. การตรวจสอบค่าที่หายไป (Missing Values)
2. การตรวจสอบค่าผิดปกติ (Outliers)
3. การตรวจสอบค่าซ้าซ้อน (Duplicate Values)
4. การตรวจสอบความสัมพันธ์ของข้อมูล
(Correlation)
1. การตรวจสอบค่าที่หายไป (Missing Values)
วิธีที่ 1: ใช้ Filter เพื่อค้นหาค่าที่หายไป
1. ลากฟิลด์ที่ต้องการตรวจสอบไปที่ Rows หรือ
Columns
2. คลิกที่ Filter → เลือก "Special" → "Null
Values“
Tableau จะแสดงเฉพาะแถวที่มีค่า NULL เพื่อให้
คุณเห็นว่าข้อมูลไหนที่ขาดหายไป
1. การตรวจสอบค่าที่หายไป (Missing Values)
วิธีที่ 2: ใช้ Bar Chart วิเคราะห์ Missing
Values
1. ลาก ฟิลด์ที่ต้องการตรวจสอบ ไปที่ Columns
2. ลาก COUNT(Number of Records) ไปที่
Rows
3. คลิกขวาที่แกน Y → เลือก Show Missing
Values
แสดงแผนภูมิแท่งที่ระบุว่ามีข้อมูลที่หายไปกี่รายการ
2. การตรวจสอบค่าผิดปกติ (Outliers)
วิธีที่ 1: ใช้ Box Plot (Box-and-Whisker
Plot)
1. ลาก ตัวแปรที่ต้องการวิเคราะห์ ไปที่ Columns
2. ลาก Measure Values ไปที่ Rows
3. คลิกที่ Show Me → เลือก Box Plot
ช่วยแสดง Outliers โดยอัตโนมัติ
2. การตรวจสอบค่าผิดปกติ (Outliers)
วิธีที่ 2: ใช้ Scatter Plot ดูค่าผิดปกติ
1. ลาก ตัวแปร X และ Y ไปที่ Columns และ Rows
2. คลิกที่ Marks → เลือก Shape
3. ใช้ Color หรือ Size เพื่อไฮไลต์ค่าที่อยู่นอกขอบเขต
ช่วยให้เห็นจุดที่มีค่าผิดปกติได้ง่าย
3. การตรวจสอบค่าซ้าซ้อน (Duplicate Values)
ใช้ Count Distinct เพื่อตรวจสอบค่าที่ซ้ากัน
1. ลาก คอลัมน์ที่ต้องการตรวจสอบ ไปที่ Rows
2. ลาก COUNTD(ชื่อคอลัมน์) ไปที่ Columns
ถ้าค่าที่ได้แตกต่างจากจานวนทั้งหมด แสดงว่ามีค่าซ้ากัน
ในข้อมูล
4. การตรวจสอบความสัมพันธ์ของข้อมูล(Correlation)
ใช้ Scatter Plot
1. ลาก ตัวแปรที่ต้องการวิเคราะห์ ไปที่ Columns และ
Rows
2. คลิกที่ Marks → เลือก Circle
3. ใช้ Trend Line → Show Trend Line
ดูแนวโน้มความสัมพันธ์ระหว่างตัวแปร
5. การตรวจสอบค่าที่ไม่สอดคล้องกัน (Inconsistent Data)
ใช้ Pivot Table วิเคราะห์ค่าที่ไม่ปกติ
1. ลาก Category หรือ Dimension ที่ต้องตรวจสอบ
ไปที่ Rows
2. ลาก Measure Values ไปที่ Columns
3. ใช้ Color Encoding เพื่อไฮไลต์ค่าที่แตกต่างกัน
ช่วยให้เห็นว่ามีค่าที่ไม่ตรงกันหรือไม่
เปรียบเทียบการตรวจสอบข้อมูลด้วย Tableau กับ Excel
การตรวจสอบ Excel Tableau
ค่าที่หายไป Conditional Formatting, Filter Filter, Bar Chart
ค่าผิดปกติ Box Plot, Z-Score Box Plot, Scatter Plot
ค่าซ้าซ้อน Remove Duplicates Count Distinct
ความสัมพันธ์ของข้อมูล Scatter Plot, Correlation Matrix Scatter Plot, Trend Line
ค่าที่ไม่สอดคล้องกัน Pivot Table, Data Validation Pivot Table, Heatmap
Tableau เหมาะกับการวิเคราะห์ข้อมูลเชิงลึกและแสดงผลแบบ Interactive
Excel เหมาะกับการจัดการข้อมูลทั่วไปและการตรวจสอบเบื้องต้น
สรุป (Conclusion)
การรวบรวมข้อมูล
(Data
Collection)
การตรวจสอบและทา
ความสะอาดข้อมูล
(Data Cleaning)
การวิเคราะห์และใช้
ประโยชน์จากข้อมูล
-Objective
-Accuracy
-Completeness
-Consistency
-Validity
-Reliability
-Timeliness
-Conformance
-Relevance
-Missing Data
-Normalization
-การจัดการ Outliers
-การจัดโครงสร้างข้อมูล
(Data Structuring)
- Analytics
- Insight
- Visualization
Data preparation
หากไม่เตรียมข้อมูลอย่างถูกต้อง อาจทาให้การวิเคราะห์
ผิดพลาด และการตัดสินใจคลาดเคลื่อนได้
Assignment: Week 5
ให้นศ.จับกลุ่มและใช้ข้อมูลจากที่อ.ผู้สอนส่งให้
ทาความสะอาดข้อมูลโดยใช้ Excel และ Tableau
ทาPresentation นาเสนอวิธีการและผลลัพธ์ที่ได้หน้าชั้น
เรียน

การทำความสะอาดข้อมูลสำหรับการวิเคราะห์ข้อมูล

  • 1.
    Data Preparation การเก็บรวบรวมและการจัดการข้อมูล Week V 117-503การวิเคราะห์ข้อมูลและการแสดงแผนภาพข้อมูล Data Analytics and Visualizations
  • 2.
    Outline • ความหมายของข้อมูล • ประเภทของข้อมูลทางสถิติ(Types of Statistical Data) • แหล่งที่มาของข้อมูล (Source of Data) • วิธีการเก็บรวบรวมข้อมูล (Methods of Data Collection) • การออกแบบการเก็บรวบรวมข้อมูล (Designing Data Collection Process) • การตรวจสอบคุณภาพของข้อมูล (Ensuring Data Quality) • สรุป (Conclusion)
  • 3.
    4. การออกแบบการเก็บรวบรวมข้อมูล(Designing Data CollectionProcess) 1. กาหนดวัตถุประสงค์ของการศึกษา (Define Research Objectives) 2. เลือกแหล่งข้อมูลและวิธีการเก็บข้อมูลที่เหมาะสม (Select Appropriate Data Sources and Collection Methods) 3. ออกแบบแบบสอบถามหรือแนวทางการสัมภาษณ์ให้มีความชัดเจน (Design Clear Questionnaires or Interview Guidelines) 4. กาหนดขนาดของกลุ่มตัวอย่างให้เพียงพอและเป็นตัวแทนของประชากร (Determine a Representative and Sufficient Sample Size)
  • 4.
    การตรวจสอบคุณภาพของข้อมูล (Ensuring DataQuality) ในการวิเคราะห์ข้อมูล จาเป็นต้องมีการประเมิน คุณภาพของข้อมูลเพื่อให้มั่นใจว่าข้อมูลที่ใช้งานมีความถูกต้อง เชื่อถือได้ครบถ้วน และสอดคล้องกับความต้องการในการ วิเคราะห์หรือการตัดสินใจทางธุรกิจ ซึ่งการตรวจสอบคุณภาพ ของข้อมูลจะช่วยลดปัญหาที่เกิดจากข้อมูลที่ผิดพลาดหรือไม่ สมบูรณ์
  • 5.
    กระบวนการตรวจสอบคุณภาพของข้อมูล (Data Quality Process) 1️⃣รวบรวมข้อมูล (Data Collection) 2️⃣ ทาความสะอาดข้อมูล (Data Cleaning) 3️⃣ ตรวจสอบคุณภาพข้อมูล (Data Validation & Profiling) 4️⃣ วิเคราะห์ข้อมูลและสร้าง Visualization 5️⃣ นาข้อมูลที่ได้ไปใช้งาน (Data Utilization)
  • 6.
    ขั้นตอนการรวบรวมข้อมูล Data Collection •กาหนดวัตถุประสงค์ของการเก็บรวมรวมข้อมูล เช่นเพื่อสารวจข้อมูลที่เป็นจุดคอขวดในการผลิตสินค้า • กาหนดเป้าหมาย โดยพิจารณาจากวัตถุประสงค์ เช่น ขั้นตอนการปฏิบัติงานในสถานีงานของสายการผลิตสบู่ ก้อน • ออกแบบเครื่องมือที่เหมาะสมเพื่อใช้ในการรวบรวมข้อมูลที่ต้องการ เช่น ใช้การสังเกต ใช้ตารางข้อมูล ใช้การ สัมภาษณ์ • ระบุกลุ่มตัวอย่างที่จะทาการสารวจข้อมูล จานวนการสารวจ เทคนิคการสุ่มตัวอย่าง รวมถึงแหล่งข้อมูลต่างๆ ที่ จะต้องสารวจ เช่น พนักงานที่ปฏิบัติงานในแต่ละสถานีงาน ขั้นตอนการปฏิบัติงาน (work Instruction) • จัดทาแผนรวบรวมข้อมูล โดยกาหนดวันเวลาสารวจ ทีมสารวจ ระยะเวลาสารวจ เป็นต้น • จัดหาทีมสารวจแล้วทาการอบรมให้เข้าใจวิธีการสุ่มกลุ่มตัวอย่าง การอธิบายแบบสอบถาม และวิธีการสารวจ ใน กรณีใช้แบบสอบถามออนไลน์ก็จะสะดวกในการสารวจมากยิ่งขึ้น รวมทั้งวิธีการรวบรวมข้อมูล • ดาเนินการรวบรวมข้อมูล (Data Collection) จากกลุ่มตัวอย่าง ตามแผนงานที่กาหนดไว้ • รวบรวมแบบสอบถามที่ตอบแล้ว รวมถึงข้อมูลจากแหล่งทุติยภูมิ เพื่อนามาวิเคราะห์ (Data analysis ) และ หาผลลัพธ์หรือข้อสรุป
  • 7.
    องค์ประกอบของคุณภาพข้อมูล (Data QualityDimensions) 1. ความถูกต้อง (Accuracy) ข้อมูลต้องมีความถูกต้อง (ตัวอย่างเช่น ชื่อนามสกุล มีการสะกดถูกต้อง) 2. ความสมบูรณ์ (Completeness)ข้อมูลต้องมีการกรอกครบถ้วน ไม่มีข้อมูลที่ขาดหายไป 3. ความสอดคล้อง (Consistency)ข้อมูลต้องไม่มีความขัดแย้งภายในชุดข้อมูลเดียวกัน เช่นสถานะภาพ ของพนักงาน (โสด สมรส) ในระบบจะต้องถูกต้องตรงกันในทุกส่วน 4. ความเชื่อถือได้ (Reliability) ข้อมูลที่เก็บรวบรวมและใช้งานต้องสามารถเชื่อถือได้ในทุกสถานการณ์ ตัวอย่าง: หากข้อมูลจากเซ็นเซอร์มีค่าเบี่ยงเบนไปจากความเป็นจริงมากอาจส่งผลกระทบต่อการตัดสินใจ 5. ความทันเวลา (Timeliness) ข้อมูลต้องมีการอัปเดตอย่างสม่าเสมอและมีความเหมาะสมในการใช้งาน ในเวลานั้นๆตัวอย่าง: ข้อมูลสต็อกสินค้าควรจะได้รับการอัปเดตทุกครั้งที่มีการซื้อขาย 6. ความตรงตามมาตรฐาน (Conformance) ข้อมูลต้องปฏิบัติตามมาตรฐานที่กาหนด เช่น รูปแบบวันที่, รูปแบบหมายเลขโทรศัพท์ตัวอย่าง: วันเดือนปีในรูปแบบ DD-MM-YYYY หรือ YYYY/MM/DD 7. ความมีความหมายหรือความเกี่ยวข้อง (Relevance) ข้อมูลที่เก็บรวบรวมต้องมีความหมาย(เกี่ยวข้อง) และใช้ประโยชน์ได้ตามจุดประสงค์ตัวอย่าง: ข้อมูลที่ไม่เกี่ยวข้องกับการวิเคราะห์ธุรกิจไม่ควรเก็บไว้ใน ฐานข้อมูล
  • 8.
    กระบวนการทาความสะอาดข้อมูล (Data Cleaning) •คือกระบวนการตรวจสอบและแก้ไขข้อมูลดิบ (Raw Data) เพื่อให้มีคุณภาพที่ดีขึ้น ลดข้อผิดพลาด และทาให้พร้อม สาหรับการวิเคราะห์หรือการนาไปใช้งานต่อ เช่น Machine Learning, Data Analytics หรือ Business Intelligence
  • 9.
    ทาไมต้องทา Data Cleaning? ข้อมูลที่ยังไม่ได้ทาความสะอาดอาจมีปัญหาเช่น: Missing Data (ข้อมูลขาดหายไป) → ข้อมูลไม่ครบทาให้วิเคราะห์ไม่ได้ Duplicate Data (ข้อมูลซ้าซ้อน) → ส่งผลให้ผลลัพธ์จากการนับหรือคานวณคลาดเคลื่อน Incorrect Data (ข้อมูลผิด) → เช่น ชื่อผิด, ที่อยู่อีเมลไม่ถูกต้อง (บางกรณีตรวจยาก) Outliers (ค่าผิดปกติ) → มีผลกระทบต่อการวิเคราะห์เชิงสถิติ Inconsistent Data (ข้อมูลไม่สอดคล้องกัน) → ตัวอย่างเช่น วันที่จัดเก็บในรูปแบบ ต่างกัน ("01-02-2024" และ "2024/02/01") หรือข้อมูลคานาหน้าที่มีรูปแบบไม่ตรงกัน เช่น “นางสาว” และ “นส.” ทาให้ยากต่อการนับและประมวลผลด้วยโปรแกรม
  • 10.
    ขั้นตอนการทา Data Cleaning 1.ตรวจสอบคุณภาพของข้อมูล (Data Quality Assessment/ Data Inspection) 2. การจัดการ Missing Data 3. การจัดการข้อมูลซ้าซ้อน (Duplicate Data) 4. การแก้ไขค่าผิดพลาดและไม่สอดคล้องกัน (Incorrect & InconsistentData) 5. การแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสม (Data Transformation & Standardization)
  • 11.
    การตรวจสอบคุณภาพของข้อมูล (Data Quality Assessment) ข้อมูลที่ไม่มีคุณภาพสามารถส่งผลเสียต่อการวิเคราะห์ การตัดสินใจและกระบวนการทางธุรกิจ ดังนั้นจาเป็นต้องมีการ ตรวจสอบคุณภาพของข้อมูลด้วยกระบวนการวิเคราะห์และประเมิน ในหัวข้อต่างๆ อาทิเช่น ความถูกต้อง (Accuracy), ความสมบูรณ์ (Completeness), ความสม่าเสมอ (Consistency), ความ ถูกต้องตามรูปแบบ (Validity), ความน่าเชื่อถือ (Reliability) และ ความเป็นปัจจุบัน (Timeliness) ของข้อมูล เพื่อให้แน่ใจว่า ข้อมูลสามารถนาไปใช้งานได้อย่างมีประสิทธิภาพและถูกต้อง
  • 12.
  • 13.
    องค์ประกอบของคุณภาพข้อมูล 1. ความเที่ยงตรง (Accuracy) 2.ความสมบูรณ์ (Completeness) 3. ความสม่าเสมอ (Consistency) 4. ความสะท้อนความเป็นจริง(Validity) 5. ความน่าเชื่อถือ (Reliability) 6. ความเป็นปัจจุบัน (Timeliness) 7. ความตรงตามมาตรฐาน (Conformance) 8. ความเกี่ยวข้องของข้อมูล (Relevant)
  • 14.
    1. ความแม่นยา (Accuracy) ข้อมูลต้องมีความแม่นยาไม่มีข้อผิดพลาดเช่น • เครื่องมือที่ใช้วัด เช่นเครื่องชั่งน้าหนักต้องมีความถูกต้อง แม่นยา • ชื่อ-นามสกุลที่บันทึกต้องเขียนตรงกันกับข้อมูลต้นฉบับในเอกสาร • ที่อยู่ต้องเป็นที่อยู่ที่มีอยู่จริง ตัวอย่างการตรวจสอบ • ใช้น้าหนักมาตรฐานทดสอบเครื่องชั่งก่อนนาไปใช้งาน • เปรียบเทียบกับแหล่งข้อมูลที่น่าเชื่อถือเช่นทะเบียนบ้าน บัตร ประชาชน • ตรวจสอบค่าที่ผิดปกติ เช่น อายุ 200 ปี (เป็นไปไม่ได้)
  • 15.
    2. ความสมบูรณ์ (Completeness) ข้อมูลต้องครบถ้วนไม่มีค่าหายไป เช่น • หมายเลขโทรศัพท์ไม่ควรเป็นค่าว่าง • รหัสลูกค้าต้องมีทุกแถว ตัวอย่างการตรวจสอบ • ตรวจหาค่า NULL หรือ Missing Values • วิเคราะห์จานวนข้อมูลที่หายไป
  • 16.
    3. ความสม่าเสมอ (Consistency) ข้อมูลต้องไม่มีความขัดแย้งกันเช่น • วันที่ออกใบแจ้งหนี้ควรต้องไม่มากกว่าวันที่ชาระเงิน • ฐานข้อมูลหลายแหล่งต้องให้ค่าตรงกัน ตัวอย่างการตรวจสอบ • เปรียบเทียบข้อมูลจากหลายระบบ • ตรวจหาค่าที่แตกต่างกันในฟิลด์เดียวกัน
  • 17.
    4. ความสะท้อนความเป็นจริง (Validity) ข้อมูลต้องสะท้อนตามความเป็นจริงเช่น • รหัสไปรษณีย์ต้องมีตัวเลขครบทั้ง 5 หลัก ไม่ขาด ไม่เกิน • ที่อยู่อีเมลต้องมี @ และ .com/.net/.org ต้องเป็นโดเมนที่มีอยู่จริง • อายุต้องไม่ติดลบ • ไม่มีวันที่ 30 ในเดือนกุมภาพันธ์ ตัวอย่างการตรวจสอบ • ใช้Regular Expression (Regex) ในการตรวจสอบรูปแบบของ ข้อมูล เพื่อช่วยลดความผิดพลาดประเภท human error • ใช้Data Validation กาหนดกฎการป้อนข้อมูล
  • 18.
    5. ความน่าเชื่อถือ (Reliability) ข้อมูลต้องมาจากแหล่งที่น่าเชื่อถือและสามารถใช้งานได้เช่น • ข้อมูลจากหน่วยงานทางการ • ข้อมูลที่ผ่านการตรวจสอบแล้ว ตัวอย่างการตรวจสอบ • ตรวจสอบแหล่งที่มาของข้อมูล • ตรวจดู log เพื่อวิเคราะห์ข้อมูลย้อนหลังว่ามีข้อผิดพลาดบ่อย หรือไม่
  • 19.
    6. ความตรงตามมาตรฐาน (Conformance) ข้อมูลเป็นไปตามรูปแบบโครงสร้าง หรือกฎเกณฑ์ที่กาหนดไว้ เช่น • รหัสไปรษณีย์ • Email • หมายเลขโทรศัพท์ ตัวอย่างการตรวจสอบ รหัสไปรษณีย์ต้องมี 5 หลัก อีเมลต้องมี @ และโดเมนที่ถูกต้อง หมายเลขโทรศัพท์ต้องเป็น ตัวเลข 10 หลัก เป็นไปตาม มาตรฐานสากลหรือข้อกาหนดระหว่างประเทศ
  • 20.
  • 21.
    7. ความเป็นปัจจุบัน (Timeliness) ข้อมูลต้องเป็นข้อมูลล่าสุดเช่น • ราคาสินค้าต้องเป็นราคาปัจจุบัน • ข้อมูลสต็อกสินค้าต้องอัปเดตเรียลไทม์ ตัวอย่างการตรวจสอบ • ตรวจสอบ Timestamp หรือวันที่อัปเดตล่าสุด • เปรียบเทียบกับข้อมูลที่อัปเดตล่าสุด
  • 22.
    8. ความเกี่ยวข้องของข้อมูล (Relevant) ข้อมูลที่ดีต้องมีความเกี่ยวข้องกับวัตถุประสงค์ที่กาลัง ศึกษาไม่ควรมีข้อมูลที่ไม่เกี่ยวข้องปะปนมา เช่น • การคานวณค่าคอมมิสชันของพนักงาน ไม่ควรมีค่าไฟฟ้า ประจาเดือนเข้ามาเกี่ยวข้อง ตัวอย่างการตรวจสอบ • ตรวจวัตถุประสงค์และรายชื่อฟิลด์ข้อมูล ตัวอย่างข้อมูลใน แต่ละฟิลด์
  • 23.
    เปรียบเทียบ Accuracy, Validityและ Conformance หัวข้อ ความหมาย แนวคิด ตัวอย่าง ความเที่ยงตรง (Accuracy) ระดับที่ค่าที่วัดได้ ใกล้เคียงกับค่าจริง มุ่งไปที่ความเที่ยงตรง ของเครื่องมือที่ใช้วัด น้าหนักจริง 10 Kg แต่ เครื่องชั่งวัดได้10.5 Kg. ความสะท้อนความเป็นจริง (Validity) การวัดสามารถ สะท้อนสิ่งที่ต้องการ วัดได้อย่างถูกต้อง หรือไม่ เน้นการใช้เครื่องมือหรือ วิธีที่เหมาะสมกับสิ่งที่ ต้องการวัด ใช้แบบประเมินวัดค่า IQ ของผู้สัมภาษณ์ (ใช้เครื่องมือถูกประเภท และค่าที่ได้ถูกต้องแม่นยา) ความเป็นไปตามมาตรฐาน (Conformance) การปฏิบัติตาม ข้อกาหนด มาตรฐาน หรือข้อกาหนดที่ กาหนดไว้ เน้นการปฏิบัติตาม มาตรฐานหรือข้อกาหนด จัดเก็บข้อมูลหมายเลข โทรศัพท์ด้วยรูปแบบที่ ถูกต้องตามสากล
  • 24.
    ความสัมพันธ์ระหว่าง Accuracy, Validityและ Conformance • มี Accuracy แต่ไม่มี Validity ข้อมูลถูกต้องแต่ใช้เครื่องมือผิด (เช่น ใช้เครื่องชั่งวัด IQ) • มี Validity แต่ไม่มี Accuracy ใช้วิธีวัดที่ถูกต้อง แต่ค่าที่ได้ผิดพลาด (แบบทดสอบ IQ ดีแต่ให้คะแนนผิด) • มี Conformance แต่ไม่มี Accuracy และ Validity ปฏิบัติตามมาตรฐานแต่ไม่ได้ผลที่ต้องการ (โรงงานผลิตสินค้าได้ตามข้อกาหนดแต่สินค้าใช้ไม่ได้จริง) • ถ้ามีทั้ง 3 อย่าง ข้อมูลถูกต้อง, ใช้เครื่องมือที่เหมาะสม และเป็นไปตามมาตรฐานที่กาหนด
  • 25.
    วิธีการตรวจสอบคุณภาพของข้อมูล 1. ใช้ Excel ConditionalFormatting → ตรวจสอบค่าที่หายไป Pivot Table → ค้นหาค่าที่ไม่สอดคล้องกัน Remove Duplicates → ลบค่าซ้า 2. ใช้ Tableau หรือ Power BI Scatter Plot → ค้นหาค่าผิดปกติ Box Plot → ตรวจจับ Outliers Heatmap → ตรวจสอบค่าที่ซ้ากัน 3. ใช้ Python หรือ SQL Pandas (Python) → ตรวจหาค่าหายไป SQL Queries → ตรวจสอบค่าที่ซ้าและ Outliers
  • 26.
    การจัดการ Missing Data •บางครั้งการตอบแบบสอบถาม ผู้ตอบอาจใส่ข้อมูลไม่ ครบถ้วน ทาให้การประมวลผลอาจเกิดความผิดพลาดขึ้นได้ • จาเป็นต้องมีการจัดการกับข้อมูลเหล่านี้ อาจใช้วิธีตัดข้อมูล ที่ไม่ครบสมบูรณ์เหล่านี้ออกไป (ไม่ควรใช้วิธีแทนด้วย ค่าเฉลี่ย เพราะไม่ใช่ข้อมูลที่แท้จริง จะทาให้ข้อมูลที่ได้มี โอกาสไม่สอดคล้องกับความเป็นจริงสูง)
  • 27.
    การแทนที่ข้อมูลที่แตกต่างกัน • ในบางครั้งการจดบันทึกข้อมูล อาจมีการใส่ข้อมูลที่แตกต่าง กันเช่นชื่อจังหวัด กทม กรุงเทพฯ กท. หรือคานาหน้าชื่อ เช่น นาย นาง นางสาว นส. ศ. ศาสตราจารย์ เป็นต้น การ แทนที่ข้อมูลเหล่านี้ให้เป็นข้อมูลเดียวกัน จะลดปัญหาความ ผิดพลาดและลดความยุ่งยากในการวิเคราะห์ลงได้
  • 28.
    การทา Normalization • เป็นกระบวนการปรับข้อมูลให้อยู่ในรูปแบบที่เหมาะสมเพื่อ ลดความซ้าซ้อน (Redundancy) และเพิ่มความถูกต้อง (Integrity) ของข้อมูล โดยเฉพาะในการจัดการ ฐานข้อมูลและการวิเคราะห์ข้อมูลทางสถิติ เช่น การคานวณ z-score เพื่อให้สามารถเปรียบเทียบข้อมูลทางสถิติที่มี ฐานไม่เท่ากัน ให้สามารถเปรียบเทียบกันได้
  • 29.
    การปรับรูปแบบข้อมูล (Data Transformation) •ข้อมูลเช่นวันเวลา อาจมีการเขียนในรูปแบบที่แตกต่างกัน เช่น วัน/เดือน/ปี หรือ ปี/เดือน/วัน หรือเวลาที่ใช้อาจเป็น คนละ Time zone ทาให้ยุ่งยากต่อการประมวลผล จาเป็นต้องมีการปรับรูปแบบข้อมูลให้อยู่ในรูปแบบเดียวกัน
  • 30.
  • 31.
    การใช้Excel ในการจัดการข้อมูล 1. การตรวจสอบค่าที่หายไป(Missing Values) 2. การตรวจสอบค่าผิดปกติ (Outliers) 3. การตรวจสอบค่าซ้าซ้อน (Duplicate Values) 4. การตรวจสอบความสัมพันธ์ของข้อมูล (Correlation)
  • 32.
    1. การตรวจสอบค่าที่หายไป (MissingValues) วิธีที่ 1: ใช้ Conditional Formatting 1. เลือกช่วงข้อมูลที่ต้องการตรวจสอบ 2. ไปที่ Home → Conditional Formatting → New Rule 3. เลือก "Format only cells that contain" 4. เลือก "Blanks" แล้วตั้งค่ารูปแบบ เช่น เติมสีพื้นหลังเป็นสีแดง 5. กด OK จะแสดงสีแดงในเซลล์ที่มีค่าว่าง
  • 33.
    1. การตรวจสอบค่าที่หายไป (MissingValues) วิธีที่ 2: ใช้ Filter หาค่าหายไป 1. คลิกที่เซลล์ใดก็ได้ในตาราง 2. ไปที่ Data → Filter 3. คลิกที่ลูกศรหัวตาราง → เลือก (Blanks) 4. Excel จะแสดงเฉพาะค่าที่หายไป ช่วยให้เห็นว่าค่าหายไปตรงไหนบ้าง
  • 34.
    2. การตรวจสอบค่าผิดปกติ (Outliers) วิธีที่1: ใช้ Box Plot 1. เลือกช่วงข้อมูลที่ต้องการวิเคราะห์ 2. ไปที่ Insert → Charts → Box and Whisker ใช้ Box Plot เพื่อดูค่าที่อยู่นอกช่วงปกติ
  • 35.
    2. การตรวจสอบค่าผิดปกติ (Outliers) วิธีที่2: ใช้ Z-Score หรือ IQR 1. ใช้สูตรในเซลB2 (เมื่อข้อมูลอยู่ใน column A ตั้งแต่ 2เป็นต้นไป) 2. ใช้ Conditional Formatting เพื่อไฮไลต์ค่าที่ มากกว่า 3 =ABS((A2 - AVERAGE(A:A)) / STDEV(A:A))
  • 36.
    3. การตรวจสอบค่าซ้าซ้อน (DuplicateValues) วิธีที่ 1: ใช้ Conditional Formatting 1. เลือกช่วงข้อมูลที่ต้องการตรวจสอบ 2. ไปที่ Home → Conditional Formatting → Highlight Cells Rules → Duplicate Values 3. เลือกรูปแบบสี แล้วกด OK ดูว่ามีข้อมูลที่ซ้ากันหรือไม่
  • 37.
    3. การตรวจสอบค่าซ้าซ้อน (DuplicateValues) วิธีที่ 2: ใช้การ Remove Duplicates 1. คลิกที่ข้อมูลที่ต้องการตรวจสอบ 2. ไปที่ Data → Remove Duplicates 3. เลือกคอลัมน์ที่ต้องการตรวจสอบ → กด OK วิธีการนี้จะลบข้อมูลซ้าออกไปได้
  • 38.
    4. การตรวจสอบความสัมพันธ์ของข้อมูล(Correlation) วิธีที่ 1ใช้ Scatter Plot + Trendline 1. เลือกข้อมูลที่ต้องการวิเคราะห์ 2. ไปที่ Insert → Scatter Plot 3. คลิกที่กราฟ → Add Trendline 4. เลือก Display Equation on Chart ดูว่าข้อมูลมีความสัมพันธ์กันมากแค่ไหน
  • 39.
    4. การตรวจสอบความสัมพันธ์ของข้อมูล(Correlation) วิธีที่ 2ใช้Data Analysis Toolpak (ต้องเปิดใช้งานก่อน) 1. ไปที่ File → Options → Add-ins 2. เลือก Analysis ToolPak → กด OK 3. ไปที่ Data → Data Analysis → Correlation 4. เลือกช่วงข้อมูล → กด OK จะแสดงค่าความสัมพันธ์ระหว่างตัวแปรต่าง ๆ
  • 40.
    5. การตรวจสอบค่าที่ไม่สอดคล้องกัน (InconsistentData) วิธีที่ 1 ใช้ Pivot Table เพื่อดูค่าสัมพันธ์ 1. เลือกข้อมูล 2. ไปที่ Insert → Pivot Table 3. ลากคอลัมน์ที่ต้องการตรวจสอบไปไว้ใน Row Labels 4. ลากค่าเดิมซ้าไปไว้ใน Values แล้วเปลี่ยนเป็น Count ตรวจดูว่ามีค่าที่ไม่ควรอยู่หรือไม่
  • 41.
    5. การตรวจสอบค่าที่ไม่สอดคล้องกัน (Inconsistent Data) วิธีที่2: ใช้ Data Validation ป้องกันการป้อนค่า ผิดพลาด 1. เลือกคอลัมน์ที่ต้องการควบคุมค่า 2. ไปที่ Data → Data Validation 3. เลือกประเภทข้อมูลที่ถูกต้อง เช่น List (กาหนดค่าที่ ถูกต้อง) วิธีการนี้ช่วยป้องกันการใส่ค่าที่ผิดพลาดตั้งแต่แรก
  • 42.
    สรุปการใช้ Excel ตรวจสอบข้อมูล ประเภทการตรวจสอบวิธีที่ใช้ใน Excel ค่าหายไป Conditional Formatting, Filter ค่าผิดปกติ Box Plot, Z-Score ค่าซ้าซ้อน Conditional Formatting, Remove Duplicates ความสัมพันธ์ของข้อมูล Scatter Plot, Correlation Matrix ค่าที่ไม่สอดคล้องกัน Pivot Table, Data Validation
  • 43.
    การใช้ Tableau เพื่อตรวจสอบคุณภาพของข้อมูล 1.การตรวจสอบค่าที่หายไป (Missing Values) 2. การตรวจสอบค่าผิดปกติ (Outliers) 3. การตรวจสอบค่าซ้าซ้อน (Duplicate Values) 4. การตรวจสอบความสัมพันธ์ของข้อมูล (Correlation)
  • 44.
    1. การตรวจสอบค่าที่หายไป (MissingValues) วิธีที่ 1: ใช้ Filter เพื่อค้นหาค่าที่หายไป 1. ลากฟิลด์ที่ต้องการตรวจสอบไปที่ Rows หรือ Columns 2. คลิกที่ Filter → เลือก "Special" → "Null Values“ Tableau จะแสดงเฉพาะแถวที่มีค่า NULL เพื่อให้ คุณเห็นว่าข้อมูลไหนที่ขาดหายไป
  • 45.
    1. การตรวจสอบค่าที่หายไป (MissingValues) วิธีที่ 2: ใช้ Bar Chart วิเคราะห์ Missing Values 1. ลาก ฟิลด์ที่ต้องการตรวจสอบ ไปที่ Columns 2. ลาก COUNT(Number of Records) ไปที่ Rows 3. คลิกขวาที่แกน Y → เลือก Show Missing Values แสดงแผนภูมิแท่งที่ระบุว่ามีข้อมูลที่หายไปกี่รายการ
  • 46.
    2. การตรวจสอบค่าผิดปกติ (Outliers) วิธีที่1: ใช้ Box Plot (Box-and-Whisker Plot) 1. ลาก ตัวแปรที่ต้องการวิเคราะห์ ไปที่ Columns 2. ลาก Measure Values ไปที่ Rows 3. คลิกที่ Show Me → เลือก Box Plot ช่วยแสดง Outliers โดยอัตโนมัติ
  • 47.
    2. การตรวจสอบค่าผิดปกติ (Outliers) วิธีที่2: ใช้ Scatter Plot ดูค่าผิดปกติ 1. ลาก ตัวแปร X และ Y ไปที่ Columns และ Rows 2. คลิกที่ Marks → เลือก Shape 3. ใช้ Color หรือ Size เพื่อไฮไลต์ค่าที่อยู่นอกขอบเขต ช่วยให้เห็นจุดที่มีค่าผิดปกติได้ง่าย
  • 48.
    3. การตรวจสอบค่าซ้าซ้อน (DuplicateValues) ใช้ Count Distinct เพื่อตรวจสอบค่าที่ซ้ากัน 1. ลาก คอลัมน์ที่ต้องการตรวจสอบ ไปที่ Rows 2. ลาก COUNTD(ชื่อคอลัมน์) ไปที่ Columns ถ้าค่าที่ได้แตกต่างจากจานวนทั้งหมด แสดงว่ามีค่าซ้ากัน ในข้อมูล
  • 49.
    4. การตรวจสอบความสัมพันธ์ของข้อมูล(Correlation) ใช้ ScatterPlot 1. ลาก ตัวแปรที่ต้องการวิเคราะห์ ไปที่ Columns และ Rows 2. คลิกที่ Marks → เลือก Circle 3. ใช้ Trend Line → Show Trend Line ดูแนวโน้มความสัมพันธ์ระหว่างตัวแปร
  • 50.
    5. การตรวจสอบค่าที่ไม่สอดคล้องกัน (InconsistentData) ใช้ Pivot Table วิเคราะห์ค่าที่ไม่ปกติ 1. ลาก Category หรือ Dimension ที่ต้องตรวจสอบ ไปที่ Rows 2. ลาก Measure Values ไปที่ Columns 3. ใช้ Color Encoding เพื่อไฮไลต์ค่าที่แตกต่างกัน ช่วยให้เห็นว่ามีค่าที่ไม่ตรงกันหรือไม่
  • 51.
    เปรียบเทียบการตรวจสอบข้อมูลด้วย Tableau กับExcel การตรวจสอบ Excel Tableau ค่าที่หายไป Conditional Formatting, Filter Filter, Bar Chart ค่าผิดปกติ Box Plot, Z-Score Box Plot, Scatter Plot ค่าซ้าซ้อน Remove Duplicates Count Distinct ความสัมพันธ์ของข้อมูล Scatter Plot, Correlation Matrix Scatter Plot, Trend Line ค่าที่ไม่สอดคล้องกัน Pivot Table, Data Validation Pivot Table, Heatmap Tableau เหมาะกับการวิเคราะห์ข้อมูลเชิงลึกและแสดงผลแบบ Interactive Excel เหมาะกับการจัดการข้อมูลทั่วไปและการตรวจสอบเบื้องต้น
  • 52.
    สรุป (Conclusion) การรวบรวมข้อมูล (Data Collection) การตรวจสอบและทา ความสะอาดข้อมูล (Data Cleaning) การวิเคราะห์และใช้ ประโยชน์จากข้อมูล -Objective -Accuracy -Completeness -Consistency -Validity -Reliability -Timeliness -Conformance -Relevance -MissingData -Normalization -การจัดการ Outliers -การจัดโครงสร้างข้อมูล (Data Structuring) - Analytics - Insight - Visualization Data preparation หากไม่เตรียมข้อมูลอย่างถูกต้อง อาจทาให้การวิเคราะห์ ผิดพลาด และการตัดสินใจคลาดเคลื่อนได้
  • 53.
    Assignment: Week 5 ให้นศ.จับกลุ่มและใช้ข้อมูลจากที่อ.ผู้สอนส่งให้ ทาความสะอาดข้อมูลโดยใช้Excel และ Tableau ทาPresentation นาเสนอวิธีการและผลลัพธ์ที่ได้หน้าชั้น เรียน