statistic_research.ppt

สถิติกับการวิจัยสิ่งแวดล้อม
ผศ.ศรัณยา สุจริตกุล

สถิติกับการวิจัย
 คิดว่ามีอะไรบ้างในเรื่องใกล้ตัว?
 ทาไมต้องใช้สถิติ?
 ทุกเรื่องหรือไม่ที่ต้องใช้สถิติ?
ในการวิจัยแต่ละประเด็น
มีการใช้สถิติที่มีความลึกซึ้งมากน้อยแตกต่างกัน

วิธีการทางสถิติ
 Descriptive statistics (สถิติเชิงพรรณา)
 ค่าเฉลี่ย ค่าส่วนเบี่ยงเบนมาตรฐาน จานวน ร้อยละ สัดส่วน ที่
ประมวลผลได้มาจากกลุ่มตัวอย่าง
 Inferential statistics (สถิติเชิงอ้างอิง-สถิติเชิง
อนุมาน)
 การประมาณค่า เช่น การประมาณค่าเฉลี่ย ค่าส่วนเบี่ยงเบนมาตรฐาน
ให้กับประชากร
 การทดสอบสมมติฐาน

วิธีการทางสถิติ
 Descriptive Statistics กับ Inferential
Statistics มีความลึกซึ้งที่แตกต่างกัน สามารถใช้ใน
การอธิบายเสริมกัน
 เครื่องมืออานวยความสะดวกทางด้านสถิติ เช่น SPSS,
Excel, STATA,…
 ข้อมูลที่บันทึกลงในโปรแกรม มีการบันทึกเป็นตัวเลข ซึ่ง
มีความหมายในตัวของมัน

ที่มาของข้อมูล
 Primary Data (ข้อมูลปฐมภูมิ)
 Secondary Data (ข้อมูลทุติยภูมิ)

มาตรวัดของข้อมูล
 ถึงแม้ว่าข้อมูลจะถูกบันทึกไว้เป็นตัวเลข เพื่อให้เอื้อต่อ
การประมวลผลด้วยคอมพิวเตอร์ แต่ในขณะที่วิเคราะห์
หรือนาเสนอข้อมูล ต้องคานึงถึงความหมายของตัวเลข
นั้นๆอยู่เสมอ
 แบบสอบถามแต่ละชุด แต่ละข้อคาถามนั้นมีมาตรวัดที่
แตกต่างกัน ดังนั้น การนาเสนอข้อมูลและการวิเคราะห์
ข้อมูลก็ย่อมมีความแตกต่างกันไปด้วย

ตัวอย่าง
ตัวแปรและการจาแนกประเภท
Norminal Scale
Ordinal Scale
Interval Scale
Ratio Scale

Nominal Scale
จังหวัด (1: กทม. 2:นนทบุรี 3:สมุทรปราการ,…)
การเดินทางโดยรถยนต์ส่วนบุคคล (1: yes 0: no)
ชนิดพันธุ์พืชที่เพาะปลูก (1:ข้าว 2:สัปปะรด ……)
หมายเลขโทรศัพท์(081-7777777,…..)

Ordinal Scale
ระดับการมีส่วนร่วมกับชุมชน (3:มาก 2:ปานกลาง 1:น้อย)
ระดับรายได้/หนี้สิน (ไม่ถึง 5,000 / 5,001-10,000 /
10,001-20,000 / 20,000 บาทขึ้นไป)
ช่วงคะแนนพฤติกรรม (0/ 1-3/ 4-7/ 8-10 คะแนน)
ระดับการศึกษา (0: ไม่ได้เรียน 1:ประถม 2:มัธยม
3:ป.ตรีหรือสูงกว่า)

Interval Scale
ปี พ.ศ./ค.ศ. 1000, 2000, 2001,
2002,…., 2007,…
อุณหภูมิ 0C 100 C 200 F
คะแนนพฤติกรรม (0,1,2,…,10, ..,20,…
คะแนน)

Ratio Scale
รายได้/หนี้สิน 5,000 บาท 10,000 บาท 198 บาท
จานวนปีที่ศึกษา 0,1,2,3,…,16,17,….ปี

Descriptive Statistics
 การนาเสนอเป็นตาราง และกราฟ แสดงจานวน และร้อยละ
 การสรุปข้อมูลเบื้องต้น โดยค่ากลาง และการกระจาย
 ค่าเฉลี่ยเลขคณิต / ค่าส่วนเบี่ยงเบนมาตรฐาน / ค่าความแปรปรวน/
สัมประสิทธิ์ความแปรผัน
 มัธยฐาน
 ฐานนิยม

Inferential Statistics
 Sample & Population
 การประมาณค่า
 การทดสอบสมมติฐาน หรือ การทดสอบความมีนัยสาคัญ
 การแปลผลจากการทดสอบสมมติฐาน
ต้องตั้งสมมติฐานทางสถิติก่อน
ซึ่งต้องสอดคล้องกับการทบทวนวรรณกรรม และทฤษฎีที่เกี่ยวข้อง

การเก็บรวบรวมข้อมูล
 การสัมภาษณ์ (แบบตัวต่อตัว หรือโดยโทรศัพท์)
 การส่งแบบสอบถามทางไปรษณีย์
 การชั่ง วัด นับ
 การสังเกต

วิธีการสุ่มตัวอย่าง

Simple Random Sampling
วิธีนี้เหมาะสาหรับกรณีที่หน่วยต่างๆในประชากรมี
ลักษณะแตกต่างกันไม่มาก
 มีวิธีการดังนี้
การจับฉลาก
ใช้ได้ดีเมื่อมีประชากรไม่มากนัก
การใช้ตาราง Random number
ใช้ได้ดีเมื่อมีประชากรมากๆ

Systematic Sampling
 ถ้าในกรณีที่ข้อมูลในประชากรมีลักษณะการเรียงลาดับเป็น
ลูกคลื่นต่อเนื่องกัน ไม่ควรใช้การเลือกตัวอย่างด้วยวิธีนี้
เพราะอาจจะทาให้ได้ตัวอย่างที่มีลักษณะเหมือนกันมาเป็น
ตัวแทน ทาให้ได้ตัวอย่างมาไม่ครบทุกลักษณะ จึงเป็นตัว
แทนที่ไม่ดี

Systematic Sampling
 มีวิธีการดังนี้
กาหนดขนาดตัวอย่าง n
หาค่าช่วงกว้างของการสุ่มตัวอย่าง sampling interval
ให้เลขที่แก่ทุกหน่วยในประชากร
เลือกเลขสุ่ม R ให้มีค่าไม่เกิน i หลังจากนั้นจะได้ว่าหน่วยตัวอย่าง
ได้แก่หน่วยที่มีหมายเลข R, R+i, R+2i, … จนครบจานวนที่
ต้องการ
n
N
i 

Stratified Sampling
ประชากรจะถูกแบ่งออกเป็น Stratum ตามลักษณะอย่าง
ใดอย่างหนึ่ง ภายในชั้นภูมิเดียวกันประกอบไปด้วยหน่วยที่มี
ลักษณะคล้ายคลึงกันมากที่สุด และมีความแตกต่างระหว่าง
ชั้นภูมิมากที่สุด
การกาหนดขนาดตัวอย่างในแต่ละชั้นภูมิ ทาได้3 ลักษณะ

Stratified Sampling
 ขนาดตัวอย่างเท่ากันในทุกชั้นภูมิ
 ขนาดตัวอย่างเป็นสัดส่วนกับจานวนประชากร
 ขนาดตัวอย่างไม่เป็นสัดส่วนกับจานวน
ประชากร
n
N
N
n i
i 

n
N
N
n
all
i
i
i
i
i 

i



Cluster Sampling
 แบ่งประชากรออกเป็นกลุ่มย่อย โดยภายในแต่ละกลุ่ม
ย่อยประกอบด้วยหน่วยที่มีลักษณะต่างๆกัน เหมือนกับ
ส่วนประกอบในประชากร เพื่อทาให้การเลือกกลุ่มย่อย
เพียงบางกลุ่มสามารถใช้เป็นตัวแทนที่ดีของประชากร
 การเลือกตัวอย่างแบบกลุ่มสามารถทาได้หลายขั้นตอน
 two-stage cluster sampling
 three-stage cluster sampling
 multi-stage cluster sampling

การกาหนดขนาดตัวอย่าง
 ขนาดตัวอย่างจะมากน้อยเพียงใดขึ้นอยู่กับ
 ความแปรปรวนของประชากร
 ความถูกต้องของการประมาณค่าที่ผู้วิจัยต้องการ
 ความเชื่อมั่นในการประมาณค่า
 ค่าพารามิเตอร์ที่ต้องการประมาณ ส่วนใหญ่จะเป็น ค่าเฉลี่ย
ยอดรวม และค่าสัดส่วน

ขนาดตัวอย่างสาหรับประมาณค่าเฉลี่ย
 .
 เมื่อรู้ขนาดประชากร
 กรณีที่ประชากรขนาดใหญ่มากๆ ทั้งสองสูตร จะให้
จานวนตัวอย่างใกล้เคียงกัน
 d = ความผิดพลาดที่ผู้วิจัยยอมรับได้
 S = ค่าเบี่ยงเบนมาตรฐาน
 Z = ค่าที่ได้จากตาราง Normal Distribution เป็นตัวที่แสดงให้ทราบ
ถึงความเชื่อมั่นของการประมาณค่า เช่น ถ้าต้องการความเชื่อมั่น 95% จะมี
ค่า Z=1.96
2
2
2
d
S
Z
n 
2
2
2
2
2
S
Z
Nd
S
NZ
n



ขนาดตัวอย่างสาหรับประมาณค่าสัดส่วน
 p = สัดส่วนหรือความน่าจะเป็นของการเกิดเหตุการณ์ที่สนใจ
 q = 1-p = สัดส่วนของการไม่เกิดเหตุการณ์ที่สนใจ
2
2
d
pq
Z
n 
pq
Z
Nd
pq
NZ
n 2
2
2



ขนาดตัวอย่างสาหรับประมาณยอดรวม
 d = ความแตกต่างที่ยอมรับได้ระหว่างยอดรวมจริง และยอดรวมจาก
การประมาณ
2
2
2
2
2
2
S
NZ
d
S
Z
N
n



การทดสอบสมมติฐาน
 คือขบวนการที่ใช้หลักฐานจากตัวอย่าง และทฤษฎีความน่าจะเป็น เข้ามา
ช่วยในการตัดสินใจว่าข้อความในสมมติฐาน H0 นั้นมีเหตุผลพอที่จะ
เชื่อถือหรือไม่
 ในการยอมรับสมมติฐาน H0 ที่ตั้งไว้นั้น ไม่ได้หมายความว่าข้อความ
ในสมมติฐานเป็นจริงแน่นอน เพียงแต่จากตัวอย่างที่มีอยู่นั้นเราไม่มี
หลักฐานพอที่จะเชื่อได้ว่าเป็นอย่างอื่นเท่านั้น

5 ขั้นตอน ของการทดสอบสมมติฐาน
 1. ตั้งสมมติฐานการวิจัย
 2. กาหนดค่าระดับนัยสาคัญที่ต้องการใช้เพื่อการทดสอบ
 3. เลือกวิธีการทดสอบทางสถิติ
 4. สั่งให้โปรแกรมคานวณผล
 5. แปลความหมายของผลลัพธ์ที่ได้

การตั้งสมมติฐาน
 T-test (2-tailed)
H0 : pH = 5.5
H1 : pH  5.5
=5.5
เขตยอมรับว่า
H0 เป็นจริง
เขตปฏิเสธ H0

 T-test (1-tailed Right)
H0 : pH  5.5
H1 : pH > 5.5
=5.5

 T-test (1-tailed Left)
H0 : µ of pH  5.5
H1 : µ of pH < 5.5
=5.5
pH
of
x

ระดับนัยสาคัญ
Level of Significance: 
 หมายถึง ค่าความน่าจะเป็น หรือ โอกาสที่สมมติฐาน H0 ที่ตั้งไว้จะถูก
ปฏิเสธทั้งๆ ที่สมมติฐานนั้นเป็นจริง (ความน่าจะเป็นที่จะตัดสินใจ
ผิดพลาด อันเนื่องมาจากการนาหลักฐานที่ได้จากการสุ่มตัวอย่าง มาช่วย
ในการบ่งบอกคุณลักษณะของประชากร)
  ก็คือพื้นที่ใต้โค้งปกติ ที่เป็นเขตปฏิเสธ H0

กรณี 2-tailed
=0.10
เขตปฏิเสธ H0 เขตปฏิเสธ H0
เขตปฏิเสธ H0 เขตปฏิเสธ H0
=5.5
=0.05
=0.01
ttable
ttable
ttable
ttable

กรณี 1-tailed Right
=0.10 เขตปฏิเสธ H0
=5.5
=0.05
=0.01
ttable
ttable = 1.64
Ttable ช

กรณี 1-tailed Left
=5.5
=0.05
=0.01
ttable
ttable
ttable

ตัวอย่าง. กระบวนการบาบัดน้าเสียมีประสิทธิภาพหรือไม่
 ทดลอง น้า วัดค่า BOD ก่อนบาบัด กับหลังบาบัด
 ถ้ามีประสิทธิภาพ ค่า BOD หลังบาบัดจะมีค่าต่ากว่าก่อนบาบัด
 ตั้งสมมติฐาน 2 ประโยคที่มีความหมายแย้งกัน ดังนี้
 H0:.......................ไม่ต่ากว่า ≥............................( ........ไม่มีประสิทธิภาพ)
 H1: BOD หลังบาบัด ต่ากว่า< BOD ก่อนบาบัด (ระบบมีประสิทธิภาพ)

กระบวนการบาบัดน้าเสียมีประสิทธิภาพหรือไม่ (ต่อ)
 H0: BOD หลังบาบัด ≥ (ไม่ต่ากว่า) BOD ก่อนบาบัด
 หรือ BOD หลังบาบัด – BOD ก่อนบาบัด ≥ 0
 H1: BOD หลังบาบัด < (ต่ากว่า) BOD ก่อนบาบัด
 หรือ BOD หลังบาบัด – BOD ก่อนบาบัด < 0
µหลัง -µก่อน =0

สูตรคานวณค่า t เพื่อนาไปเปรียบเทียบกับ ttable
n
S
x
t 0



ถ้าค่าเฉลี่ยจากตัวอย่าง > ค่าที่ตั้งไว้ในสมมติฐาน จะได้ t เป็น +
ถ้าค่าเฉลี่ยจากตัวอย่าง < ค่าที่ตั้งไว้ในสมมติฐาน จะได้ t เป็น -

สูตรคานวณค่า t เพื่อนาไปเปรียบเทียบกับ ttable
   
2
1
2
1
2
1
1
1
n
n
S
x
x
t
p 






   
2
2
2
1
2
1
2
1
2
1
n
S
n
S
x
x
t







ใช้ในกรณีความแปรปรวนของสองกลุ่ม
ไม่แตกต่างกัน
ใช้ในกรณีความแปรปรวนของสองกลุ่มแตกต่างกัน

T-test ใช้สาหรับ...
 ทดสอบความแตกต่างระหว่างค่าเฉลี่ย ของประชากร1 กลุ่ม เทียบกับค่า
อ้างอิง (one sample t-test)
 ทดสอบความแตกต่างระหว่างค่าเฉลี่ยของประชากร 2 กลุ่ม
(Independent sample t-test)
 กรณี ความแปรปรวน สองกลุ่ม ไม่แตกต่างกัน
 กรณี ความแปรปรวน สองกลุ่ม แตกต่างกัน
 ทดสอบความแตกต่างระหว่างค่าเฉลี่ย ก่อนทดลอง กับหลังทดลอง
(paired t-test)

กรณี 1-tailed Right
ttable = 1.64
ถ้า tcalculated = 2.15 จะหมายความว่าอย่างไร
ถ้า tcalculated = 1.60 จะหมายความว่าอย่างไร
tcalculated = 1.620

P-value
 P-value คือค่าความน่าจะเป็น (พื้นที่ใต้โค้งปกติ) ทางปลายหาง โดย
นับตั้งแต่ค่า tcalculated เป็นต้นไป
สังเกตได้ว่า ถ้า p-value < α จะอยู่ในเขตปฏิเสธ H0
ttable = 1.96
tcalculated = 1.11

ค่า P-value หาได้อย่างไร?
 โปรแกรม SPSS จะคานวณค่า p-value ให้ในบางวิธีการทดสอบ
ซึ่งเราสามารถนาค่า p-value นี้มาใช้เปรียบเทียบกับ  ที่เรากาหนด
ไว้ได้เลย
 แต่บางวิธีการทดสอบ โปรแกรม SPSS ไม่ได้ให้ค่า p-value แต่ให้
มาเป็นค่า Sig 2-tailed แทนซึ่งมีความเกี่ยวข้องกับ p-value
โดยตรง ดังนี้
 ถ้าสมมติฐานเป็นแบบ 2 tailed ค่า p-value = ค่า sig 2 tailed
 ถ้าสมมติฐานเป็นแบบ 1 tailed ค่า p-value = ค่า sig 2 tailed2

ทดสอบค่าเฉลี่ย 2 กลุ่ม
 ผู้หญิง ได้รับค่าจ้างเริ่มต้นโดยเฉลี่ยน้อยกว่า ผู้ชาย หรือไม่?
 H0: ผู้หญิง ได้รับค่าจ้างเริ่มต้น ≥ ผู้ชาย
 H1: ………………….<
 ระดับนัยสาคัญ 0.05
 ได้p-value = 0/2 = 0
 พบว่า p-value < ระดับนัยสาคัญ ดังนั้น สรุปได้ว่าปฏิเสธ H0 ที่
ระดับนัยสาคัญ 0.05 นั่นคือ จากข้อมูลตัวอย่าง มีหลักฐานให้เชื่อได้ว่า
ผู้หญิง ได้รับค่าจ้างเริ่มต้นโดยเฉลี่ยน้อยกว่าผู้ชาย

เงินเดือนโดยเฉลี่ย ณ ปัจจุบันของพนักงาน สูงขึ้นจาก
เงินเดือนเมื่อตอนเริ่มต้นทางานหรือไม่
 H0: เงินเดือนปัจจุบัน ≤ เงินเดือนเริ่มต้น
 H1: เงินเดือนปัจจุบัน > เงินเดือนเริ่มต้น
 กาหนดระดับนัยสาคัญ 0.05
 เลือกใช้paired t-test
 สั่งโปรแกรมคานวณ ได้ค่า sig 2-tailed = 0.000
 แต่เราทดสอบแบบ one-taile ดังนั้น p-value = 0.000 / 2
 0.000 < 0.05 ดังนั้น ปฏิเสธ H0 ที่ระดับนัยสาคัญ 0.05
สรุปว่า จากข้อมูลตัวอย่าง มีหลักฐานเพียงพอที่ทาให้เชื่อได้ว่า เงินเดือนโดยเฉลี่ย ณ
ปัจจุบัน สูงขึ้นจากเมื่อตอนเริ่มต้นทางาน

ลองทาดู
 1. ผู้ชายกับผู้หญิง มีการศึกษา(จานวนปีที่เรียน) พอๆกันหรือไม่
 H0……H1……..α=0.01……ใช้สถิติทดสอบอะไร ..........ได้
ค่า p-value เท่าไร....... คุณตัดสินใจปฏิเสธหรือยอมรับ H0
 2. ผู้หญิง มีการศึกษา(จานวนปีที่เรียน) โดยเฉลี่ย เกิน 12 ปี หรือไม่
 H0 <= 12……H1…>12…..α=0.01……ใช้สถิติ
ทดสอบอะไร ..........ได้ค่า p-value เท่าไร..= 0.0099...< 0.0100..
คุณตัดสินใจปฏิเสธH0 สรุปได้ว่า ผู้หญิงมีการศึกษาโดยเฉลี่ย สูงกว่า 12 ปี

ข้อควรระวังในการแปลผล t-test
 การอ่านค่า p-value เป็นค่าหนึ่งที่ใช้ประกอบการตัดสินใจปฏิเสธ
หรือยอมรับ H0
 แต่ทั้งนี้ต้องดูค่า t ที่คานวณได้ด้วย
 ถ้าค่า t เป็น + หมายถึงค่าเฉลี่ยตัวอย่าง มากกว่า ค่าที่อ้างอิงใน H0
 ถ้าค่า t เป็น – หมายถึง ค่าเฉลี่ยตัวอย่าง น้อยกว่า ค่าที่อ้างอิงใน H0
 ดังนั้น ก่อนที่จะดูค่า p-value ต้องดูเครื่องหมายของ t ก่อน ว่าสื่อ
ความหมายสอดคล้องกับสมมติฐานที่เราจะทดสอบหรือไม่ ทั้งนี้เพื่อการ
สรุปผลที่สมเหตุสมผล

การทดสอบด้วย ANOVA
 H0: ค่าเฉลี่ยของประชากรกลุ่มที่ 1 = กลุ่มที่ 2= กลุ่มที่ 3 =
……
 H1: ค่าเฉลี่ยของประชากร อย่างน้อยหนึ่งกลุ่ม แตกต่างไปจากกลุ่ม
อื่น ซึ่ง H1 จะไม่เขียนว่า กลุ่มที่ 1≠ กลุ่ม 2 ≠ กลุ่ม 3 ≠ ......
เพราะว่าจะมีความหมายผิดเพี้ยนไป
 การสรุปผล เปรียบเทียบค่า p-value กับ ระดับนัยสาคัญที่กาหนด
เช่นเดียวกันกับที่ทราบมาแล้ว
 ถ้าสรุปว่า ยอมรับ H0 ถือว่าการทดสอบนั้นได้ข้อสรุปเรียบร้อยแล้ว
 แต่ถ้าสรุปว่า ปฏิเสธ H0 เราต้องทดสอบอีกขั้นหนึ่งเพื่อดูว่า ค่าเฉลี่ย
ของกลุ่มใด แตกต่างจากกลุ่มใดบ้าง ด้วยคาสั่งPosthoc

ในระหว่าง 3 กลุ่มงาน เงินเดือนเริ่มต้นต่างกันหรือไม่
 H0:เงินเดือนเริ่มต้นโดยเฉลี่ย ของกลุ่มงานที่ 1 = กลุ่ม 2 = กลุ่ม 3
 H1: อย่างน้อยหนึ่งกลุ่มงาน มีเงินเดือนเริ่มต้น แตกต่างไปจากกลุ่มอื่น
 กาหนดระดับนัยสาคัญ 0.05
 เลือกใช้ANOVA
 P-value = 0.000
 ปฏิเสธ H0 ที่ระดับนัยสาคัญ 0.05 สรุปได้ว่า มีอย่างน้อย 1 กลุ่มงาน ที่
เงินเดือนเริ่มต้นแตกต่างไปจากกลุ่มอื่น ดังนั้นเราจะสั่งคาสั่งให้
เปรียบเทียบค่าเฉลี่ยรายคู่ โดยคาสั่ง Post Hoc

 จากการเปรียบเทียบค่าเฉลี่ยรายคู่โดยPost Hoc จะได้ว่า
manager มีค่าเฉลี่ยของเงินเดือนเริ่มต้น แตกต่างไปจาก
Custodial และกลุ่ม Clerical อย่างมีนัยสาคัญที่ระดับ 0.05
 โดยพบว่า manager มีเงินเดือนเริ่มต้นสูงกว่าอีกสองกลุ่ม

statistic_research.ppt

Recommended

Recommended

More Related Content

Similar to statistic_research.ppt

Similar to statistic_research.ppt (20)

statistic_research.ppt