2. Veriler için Güvenirlik ve Geçerlik
Saed Jama Abdi
Anadolu Üniversitesi
İstatistik Bölüm
25 Mayıs, 2016
2
3. SUNUM İÇERİĞİ
Giriş
Terimlerin tanımı
Güvenilirlik Türleri
Güvenilirlik ölçümü
Örnek (spss)
Geçerlilik Türleri
Geçerlilik ölçümü
Örnek (spss)
3
4. Giriş
Veri, araştırmada süreçten geçirilecek, işlenecek, ve
anlam verilecek enformasyon veya ölçülmüş bilgi
demektir.
Temel olarak iki ana veri türü vardır. niceliksel ve
nitelikseldir. Eğer veri sayısal biçimdeyse niceliksel veri
denir. sayısal olmayan ise nitelikseldir.
Her niteliksel veri ölçeklere konularak, gruplaştılırak,
nicesel bakimdan ifade edebilir.
4
5. Bilimsel araştırma sürecinde araştırmacı temelde
bir açıklama bir soruya cevap aramaktadır.
Bu cevabın doğruluğu, yanlışlığı ya da hatalı
ölçümü ile ilgili olarak ise bilimsel araştırma
yöntemlerinin geliştirdiği iki kavram ön plana
çıkmaktadır; geçerlilik ve güvenilirlilik.
5
6. Güvenirlik ve geçerlik bir tasarımda,
uygulamada, analiz ve değerlendirmede hata
yapmamayla ilgilidir.
Bu hatalardan önde gelenleri; yanliş nedensellik
bağları kurmayla beslenen yanlışlıklar, nüfusun
tanımı, örneklem çerçevesinin çıkartılması ve
örneklem almayla ilgili hatalar; sorularla ve
ölçmeyle ilgili hatalar.
6
7. Güvenirlik
Bir ölçme aracının ölçmeye çalıştığı bir özelliği her
defasında aynı sonucu verecek şekilde ölçebilmesi
(Sabancı, 2000).
Güvenirlik, bir ölçme aracının, ölçe hedeflediği özelliği
ne kadar doğru ölçütüğü anlamı gelmektedir.
Bir ölçme aracı her uygulanışında aynı sonucu veriyorsa
güvenilirdir.
7
8. Bu açıdan ele alındığında, güvenirlik kavramı,
ölçümlerin dakıklığı tutarlılığı, yordanabilirliği ve hatan
arınıklığı kavramlarıyla yakından ılışkıdı.
Güvenirlik ile ölçme hatası arasında ters bir ilişki
vardır; yani güvenirlik arttıkça ölçme işleminde yapılan
hata oranı da o derece düşer (Sabancı, 2000).
Bir ölçme aracı ne kadar çok hatalı sonuç veriyorsa o
kadar az güvenilirdir.
8
9. ölçüm aracı yardımıyla alınan ölçümün iki birleşen vardır.
𝜎𝑡
2
= 𝜎𝑔
2
+𝜎𝑒
2
𝜎𝑡
2
= toplam varyans
𝜎𝑔
2
= gerçek varyans
𝜎𝑒
2 = hata varyans. Anlamina gelmektedir.
Buna dayanarak, güvenirlik şöyle tanımlanabilir.
Gerçek varyansın, toplam varyansa oranı güvenirliktir.
Güvenirlik, bir korelasyon katsayısı olduğundan, yukarıdakı
tanım dıkkate alınarak şu eşitlik yazılabilir.
9
11. 1. Test-Tekrar Test Güvenirliği
(Test-Retest Reliability)
2. İç Tutarlılık Güvenirlik
(Internal consistency
reliability)
iki yarı güvenirliği (Split half
Reliability Test)
Cronbach’s alpha güvenirliği
Kuder-Richardson (KR20).
11
12. Güvenilirlik Teknikleri
1. Test-retest
2. Parallel Forms
3. Split-half
T1 T2
A1 A2
T
A B
Score Score
1
100
50 pairs
4. Internal Consistency
K-R-20 Coefficient
Alpha
12
13. Test-Tekrar Test Güvenirliği
(Test-Retest Reliability)
Bu yöntemle test güvenirliğini kestirmek için, bir test aynı
gruba belli bir zaman aralığıyla iki kez uygulanır. Daha sonra
bireylerin birinci uygulamada aldıkları puanlarla ikinci
uygulamada aldıkları puanlar arasındaki korelasyon bulunur.
Elde edilen korelasyon katsayısı testin güvenirlik katsayısıdır.
Güvenirlikle ilgili korelasyon tam yani 1 olması hiç sıra
değişmesi olmadığını, 0 olması ise sıralar arasında hiçbir ilişki
bulunmadığını gösterir.
13
15.
NN
N
YX
XY
Y
Y
X
X
rXY
)()
2
2
2
2
(
)()(
95.0
15
33856
2492
15
33489
2479
15
184183
2478
rXY
Sunulan örnekte bir test aynı öğrenci grubuna belli bir süre
arayla iki kez uygulanıyor ve uygulama sonuçları arasındaki
korelasyon katsayısı 0.95 olarak bulunuyor ve testin
güvenirlinin yüksek olduğu söylenebilir.
15
16. İç Tutarlılık Güvenirlik
iki yarı güvenirliği (Split half Reliability Test)
iki yarım güvenirliği için tek bir test formu hazırlanır ve
mümküm olan durumlarda, maddelerin sırası
seçkisizleştirilir (randamizyon).
Test uyguladıktan sorna her hangı bir yolla ikiye ayrılır
ve testın iki yarısından alınan puanlar arasındakı
korelesyon hesaplanır.
16
17. Uygulanmış olan test iki eşdeğer (equivalence) yarıya
bölünerek öğrencilerin testin iki yarısından aldıkları puanlar
arasındaki korelasyon hesaplanır ve daha sonra bu hesaplanan
korelasyondan hareketle Spearman–Brown formülünden de
yararlanarak testin bütünün güvenirliği kestirilir.
Bu yöntem, aslında iç tutarlılık katsayısı verir. Spearman-
Brown formülü aşağıdaki gibidir.
17
19. Örnek
Reliability Statistics
Cronbach's Alpha
Part 1
Value .593
N of Items 4a
Part 2
Value .239
N of Items 3b
Total N of Items 7
Correlation Between Forms .517
Spearman-Brown Coefficient
Equal Length .682
Unequal Length .685
Guttman Split-Half Coefficient .654
a. The items are: K11a. K11b. K11c.K11d.
b. The items are: K11e. K11f. K11g.
Tüm
Testinin
Güvenilirliği
İlk 4 madd
ikinci 3 mad
ortalamasi/to
bulmak ve
sonra korel
k. hesaplan
19
20. Kuder-Richardson (KR20)
Kuder-Richardson (KR20) Anket soruları iki şıklı olduğu
durumda, mesela geçti kaldı veya evet hayır gibi kullanıllan
bir yöntemdir.
Geçti oranı p ile gösterilir ve kaldı oranı 1-p ile gösterilir.
𝑟𝑥𝑥 =
𝑛
𝑛 − 1
𝑠 𝑥
2
− 𝑖=1
𝑛
𝑝 𝑖 𝑞 𝑖
𝑠 𝑥
2
• n = Testin soru sayısı
• p = Madde güçlüğü
• q = 1- p
• 𝑠 𝑥
2
= Testin varyansı
20
23. Cronbach’s Alpha Güvenirliği
Alpha güvenirlik katsayısı tek bir uygulama gerektiren
güvenirlik bulma tekniklerinden biridir.
Ağırlıklı puanlama veya dereceleme yöntemiyle puanlama
uygulandığı durumlarda kullanılabilecek bir güvenirlik
hesaplama tekniğidir.
23
24. Testi oluşturan maddelerin dereceleme ölçeğine göre
puanlanması (1’den 5’e kadar veya 0’dan 4’e kadar gibi)
genellikle tutum amacıyla hazırlanan ölçme araçlarının
puanlanmasında veya tutum ölçeklerinin puanlanmasında
kullanılmakla birlikte kısa cevaplı testlerin güvenirliğinin
kestirilmesinde de kullanılabilir.
Alpha katsayısının hesaplanması için kullanılan bağıntı
aşağıdaki gibidir.
24
26. (Nunnally, 1978) göre minimum kabul edilebilir
güvenilirlik değeri 0.7’dir, ayrica (Cronbach, 1951;
Helmstater 1964) göre 0.5 daha fazla güvenilirlik testi
kabul edilebilir.
Örnek:
Reliability Statistics
Cronbach's Alpha Cronbach's Alpha
Based on
Standardized Items
N of Items
.621 .613 8
26
27. Geçerlilik
...ölçme sonuçlarının ölçerlığı, amaclanan ölçmenin
gerçekleştirebilme derecesidir.
…bir araştırma tasarımının ölçmek istediğini ölçüp ölçmediği
ile ilgilidir.
Açık uçlu ve kapalı uçlu olarak biçimlendirilmiş sorular ölçme
isteneni ölçüyor mu. eğer ölmüyorsa geçerlilik sorunu vardır.
27
28. Genellikle anket bütün olarak probleme
uydurulmaya çalışılmış, tüm problemin ayrı ayrı
özellikleriyle ilgili, nispeten özel ve birbirinden
bağımsız sorulardan meydana gelmiştir.
Bu bakımdan tüm anketin geçerlik derecesi
yerine değişik soruların geçerliğini düşünmek
daha doğru görülmektedir.
28
29. Geçerli (doğru) bir test aynı zamanda güvenilir
bir testtir, ancak, Güvenilir bir test geçerli bir test
olmayabilir !!!!
29
30. • Ölçme aracı belli bir amaç ve belli durumlar için geçerlidir.
Başka bir amaç için geçerli sayılmaz. Örneğin bir grup
öğrenciye uygulandığında geçerli olan test diğer öğrenci
grubuna uygulandığında geçerli olmayabilir (Karasar:
2003; 151).
• Örneğin Türkçe dersinde yazılı anlatım becerisini ölçen bir
test bu amaca hizmet ettiği sürece geçerlidir. Aynı testi
beden eğitimi dersi için kullanamayız. Çünkü o dersin
amaçları için hazırlanmamıştır (Sönmez:2003;418).
30
31. Geçerlik Türler
literatürde değişik sınıflandırılmalara rastlamakla APA
1997 ile Croceker ve Algina’nin geçerlik türlerin üç
toplanması daha çok tercih edilmektedir.
1. İçerik (Kapsam) Geçerliği (Content Validity).
2. Yordama (deneysel) Geçerliği (predictive validity).
3. Yapı Geçerliği (construct validity).
31
32. İçerik Geçerliği (content validity).
İçerik geçerliği, ölçme aracında bulunan soruların
(maddelerin) ölçme amacına uygun olup olmadığı, ölçülmek
istenen alanı temsil edip etmediği sorunu ile ilgili olup,
"uzman görüşüne göre saptanır.
Kapsam geçerliği, bir bütün olarak testin ve testteki her bir
maddenin maksada ne derece hizmet ettiğidir (Tekin: 2008;
45).
32
33. Örneğin, öğrencinin basketbol uygulama durumu
değerlendirildiğinde sadece pas çalışması ile değerlendirmenin
yapılması diğer basketbol tekniklerinin durumunu anlamak
için bilgi vermez.
Bu durumun önlenmesi için uzman grubuna başvurulup
görüşleri alınarak ölçme aracının geçerliği yapılmış olur.
33
34. Yordama Geçerliği (predictive validity)
Yordama geçerliği, yapılan ölçme ile ölçülmeye çalışılan şeyin
gerçek hayattaki yansımalarının karşılaştırılmasındaki
uyumdur.
Örneğin okulda alınan notların hayattaki başarı ile olan ilişkisi
aranabilir. Okuldaki notları yüksek olanlar hayatta da başarılı
oluyorlarsa, okuldaki ölçmeler geçerlidir denir.
34
35. ÖSS korelasyon Akademik başarı
(yordayıcı) (ölçüt)
İşe giriş sınavı korelasyon İş yerindeki performans
(yordayıcı) (ölçüt)
35
36. Yapı Geçerliği (Construct Validity)
Yapı geçerliği, bilimsel olduğu kadar, felsefi yönü de ağır
basan bir geçerlik ölçütüdür. Kuramsal (theoritical) olarak,
geçerlik ölçmenin dayandığı "temel kuramların" geçerliği ile
ilgilidir.
Yani, önceden kabul edilen olası "neden-sonuç" ilişkileri ile
ilgilidir özellikle, dolaylı ölçmelerin yapıldığı (asıl ölçülmek
istenen şeyin onun çeşitli belirtileri ile ölçüldüğü) durumlarda,
ölçülen belirtilerin, gerçekten aranan belirtiler olup olmadığı
sorunu vardır.
36
37. Geçerlik ve Güvenirlik Arasındaki İlişki
Güvenirlik sabit ve sistemli hatalardan etkilenmeyip
sadece rasgele hatalardan etkilenir.
Güvenirlik, geçerlik için gerekli koşuldur, fakat
yeterli koşul değildir.
Güvenirliği yüksek olan bir testin geçerliği yüksek
olmayabilir.
37
38. Geçerlilik Test için EFA kullanılır
SD = Strongly disagree, D = Disagree, N = Neither, A = Agree, SA = Strongly Agree
S D D N A S A
1 Statistics makes me cry O O O O O
2 My friends will think I'm stupid for not being able to cope with SPSS. O O O O O
3 Standard deviations excite me. O O O O O
4 I dream that Pearson is attacking me with correlation coefficients. O O O O O
5 I don't understand statistics. O O O O O
6 I have little experience of computers. O O O O O
7 All computers hate me. O O O O O
8 I have never been good at mathematics. O O O O O
9 My friends are better at statistics than me. O O O O O
10 Computers are useful only for playing games O O O O O
11 I did badly at mathematics at school. O O O O O
12 O O O O O
13 O O O O O
14 O O O O O
15 Computers are out to get me. O O O O O
16 I weep openly at the mention of central tendency. O O O O O
17 I slip into a coma whenever I see an equation. O O O O O
18 SPSS always crashes when I try to use it. O O O O O
19 Everybody looks at me when I use SPSS. O O O O O
20 I can't sleep for thoughts of eigenvectors. O O O O O
21 O O O O O
22 My friends are better a SPSS than I am. O O O O O
23 If I am good at statistics people will think I am a nerd. O O O O O
People try to tell you that SPSS makes statistics easier to understand
but it doesn't.
I worry that I will cause irreparable damage because of my incomptence
with computers.
Computers have minds of their own and deliberately go wrong
whenever I use them.
I wake up under my duvet thinking that I am trapped under a normal
distribution.
38
39. Örnek
KMO and Bartlett's Test
,930
19334,492
253
,000
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Approx. Chi-Square
df
Sig.
Bartlett's Test of
Sphericity
KMO-measures >.9
are superb!
KMO measures the ratio of the squared
correlation between variables
to the squared partial correlation
between variables.
KMO measures for
individual factors are
produced on the diagonal
of the anti-image corr
matrix
The KMO-measures
give us a hint at
which variables should
be excluded from
the factor analysis
Bartlett's test tests if the matrix is an
identity matrix (matrix with only 1's in the
diagonal and 0's off-diagonal). However,
we want to have correlated variables, so
the off-diagonal elements should NOT be
0. Thus, the test should be significant,
i.e., the R-matrix should NOT be an
identity matrix.
39
40. Factor structure refers to the Intercorrelations among the variables being tested in
the EFA
Pattern Matrixa
,706
,591
-,511
,405
,400
,643
,621
,615
,507
,885
,713
,653
,650
,588
,585
,412 ,462
,411
-,902
-,774
-,774
Q20 I can't sleep for thoughts of eigen vectors
Q21 I wake up under my duvet thinking that I am trapped under a normal
distribtion
Q03 Standard deviations excite me
Q04 I dream that Pearson is attacking me with correlation coefficients
Q16 I weep openly at the mention of central tendency
Q01 Statiscs makes me cry
Q05 I don't understand statistics
Q22 My friends are better at SPSS than I am
Q09 My friends are better at statistics than me
Q23 If I'm good at statistics my friends will think I'm a nerd
Q02 My friends will think I'm stupid for not being able to cope with SPSS
Q19 Everybody looks at me when I use SPSS
Q06 I have little experience of computers
Q18 SPSS always crashes when I try to use it
Q07 All computers hate me
Q13 I worry that I will cause irreparable damage because of my
incompetenece with computers
Q14 Computers have minds of their own and deliberately go wrong
whenever I use them
Q10 Computers are useful only for playing games
Q12 People try to tell you that SPSS makes statistics easier to understand
but it doesn't
Q15 Computers are out to get me
Q08 I have never been good at mathematics
Q17 I slip into a coma whenever I see an equation
Q11 I did badly at mathematics at school
1 2 3 4
Component
Extraction Method: Principal Component Analysis.
Rotation Method: Oblimin with Kaiser Normalization.
Rotation converged in 29 iterations.a.
F1:
'Fear of statistics'
F2:
'Fear of peer
evaluation'
F3:
'Fear of computers'
F4:
‘ Fear of mathemat
40
41. Güvenirlik Belirleme Tekniklerine İlişkin Özet
Bilgiler
Güvenirlik
Katsayısı Tipi Anlamı
Gereken form
sayısı
Uygulama sayısı Hata varyansı
kaynağı
KUDER-
RICHARSON KR
- 20 ve KR - 21
İç tutarlık Bir Bir
Kapsam örneklemi
ve heterojenliği
CRONBACH ALFA İç tutarlık Bir Bir
Kapsam örneklemi
ve heterojenliği
İKİ YARI İç tutarlık Bir Bir Kapsam örneklemi
TEST-TEKRAR
TEST
Kararlılık Bir İki Zaman örneklemi
PARALEL
FORMLAR
Tutarlık İki İki Zaman ve kapsam
41
42. Kaynaklar
• Making Sense of Cronbach’s alpha, Article, MOHSEN TAVAKOL, REG DENNIC,
2011
• Handbook of Health Research Methods: Investigation Measurement and Analysis,
SHAH EBRAHIM, ANN BOWLING.
• Statistical Analysis in psychology and Education. George A.Ferguson. FIFTH
EDITION.
• Best Split-Half and Maximum Reliability Satyendra Nath Chakrabartty (Prof,
Galgotias Business School, India).
• Assessing Construct Validity: The Utility of Factor Analysis Cheng Hsiung Lu.
• Reliability and validity testing of a new scale for measuring attitude towards
learning statistics with technology, Article. Volume 4, November 1, 2011.
• http://badmforum.blogspot.com.tr/2012/08/factor-analysis-kmo-bartletts-test.html.
• ARAŞTIRMA YÖNTEMLERİ DERSİ ÖDEVİ. YRD. DOÇ. DR. HASAN
HÜSEYİN AKSOY. Ankara Mayis 2006.
• Ölçme Araçlarının Yapısal Nitelikleri, Dr. Fatih DERVENT.
42