2. Outline workshop
Mark Wilson: Four Building Blocks
Praktek-2: Analisis data politomi,
pengujian instrumen
◦ Reliabilitas & Validitas data cleaning
◦ Wright Map item
◦ Fit statistik item
2
3.
4. Pengukuran manusia: mengukur variabel
laten
1. Konseptualisasi variabel; (contoh:
definisi kecerdasan)
2. Mengukur variabel dengan instrumen
(contoh: IQ test)
3. Analisis variabel, hubungan antar
variabel, statistik inferensial (contoh:
uji perbedaan; uji hubungan).
5. 4 Building Blocks
- Construct Maps
- Item design
- Outcome space
- Measurement
model
7. Four Building Blocks
1. Construct Maps/Peta Konstruk
- Variable laten apa yang akan diukur?
- Definisi variabel?
- Unidimensionalitas/rentang variabel?
8.
9. 9
Tingkat kesulitan butir
Skala Pengukuran Abilitas
Responden
Sedang
Mudah
Susah
X
X
X
X
X
X
X
X
X
X
Pintar
Lambat
belajar
Konseptualisasi Variabel: Peta Konstruk
10.
11. Four Building Blocks
2. The Items Design/Disain Item
- Struktur Instrument (Variabel-
Konstruk)
- Observasi konstruk: pernyataan Item
- Respon tertutup/Standardized fixed-
response? (tes pilihan ganda; skala
peringkat Likert; semantic differential;
rubrik)
- Pertanyaan terbuka? (pertanyaan
essay)
12.
13.
14. Four Building Blocks
3. The Outcome Space/Ruang
keluaran
- Pola skor yang digunakan
- Skor untuk pertanyaan terbuka?
- Skor untuk pertanyaan tertutup?
- Skor Rubrik?
- Jenis Skor, dikotomi, politomi, multi-
rating?
- Panjang skor ideal?
17. Four Building Blocks
4. The Measurement Model
- Classical Test Theory (CTT): data
mentah dianggap sebagai pengukuran
- Item Response Theory (IRT): data
mentah adalah jenis ordinal, dan
ditransformasi sebagai probabilitas
dan di-logaritma-kan
18. Pengukuran manusia yang valid
HARUS memenuhi lima syarat
1. Menghasilkan skala interval yang linier
2. Menangani data yang hilang (missing data)
3. Mendapatkan pengukuran yang tepat
4. Mendeteksi adanya outlier dan misfit
5. Bersifat replikabel
(Wright & Mok, 2004)
19. Measurement
Model
1. Classical Test Theory
(Spearman: 1863-1945)
2. Generalizibility Theory
(Cronbach: 1916-2001)
3. Factor Analysis
(Thurstone: 1887-1955)
Provide group-centered statistics
20. Rasch Model
Rumus data dikotomi rasch model:
“probabilitas orang n menjawab benar pada item
i (atau dari respon orang n ke item i yang diberi
skor 1) berdasar abilitas orang (kemampuan) βn
dan lokasi item (tingkat kesulitan) δi.”
21. Isu reliabilitas (variansi)
1. Reliabilitas > 0,67 [tentang statistik,
keragaman dan banyaknya data, makin
besar makin bagus]
a) Reliabilitas person
b) Reliabilitas item
c) Alpha cronbach
2. Indeks Separasi [pengelompokkan data;
makin banyak kelompok makin
representatif]
a) Item separation (> 3)
b) Person separation (> 2)
22. Validitas (isu argumen apa
yang mau dibuktikan)
1. Validitas konstruk uni-dimensionality test,
item-item yang ada, apakah mampu mengukur
keragaman abilitas responden; mengukur satu
variabel secara komprehensif.
a. Ketepatan data dengan model
b. Raw-variance : > 40%
c. Item dari dimensi lain
2. Rating scale analysis/diagnostic apakah
skala peringkat yang diberikan dipahami dengan
baik oleh responden? Threshold antar rating 1,4
– 5,0 logit
a) Lebih kecil dari 1,4 logit: rating harus digabungkan
b) Lebih besar dari 5,0 logit: rating harus dipecah
23. Fit statistic (item analysis)
How Much (nilai logit), How Precise
(standard error) dan How Good
(ketepatan pengukuran)
1) Outfit MNSQ: 0,5 - 1,5 (nilai ideal = 1)
2) Outfit Zstd: -2 - + 2 (nilai ideal = 0)
3) Point measure correlation: 0,4 - 0,85
24. Pengembangan Instrumen-
2
Pilot test instrumen secara empirik
1. Instrumen mengukur satu variable
laten dengan lima buah konstruk
2. Setiap konstruk terdapat lima item
(total 25 item), dengan lima pilihan
rating
3. Semua item dikerjakan oleh 75
responden
2:06 PM 24
25. File-file untuk praktek mandiri
Install software Ministep
MS Excel: data mentah pilot test
responden
Notepad: data pilot test
Coding/Script Ministep: data pilot tes
Data dummy: 25 item dengan lima pilihan
jawaban, diuji coba pada 75 responden
54. Hasil akhir dari pengujian
instrumen
1. Setelah pilot tes ke-3 atribut
psikometrik biasanya lebih stabil.
2. Level instrumen: instrumen unidimensi,
item dari dimensi lain < 3, skala
peringkat fungsional
3. Level item: setiap konstruk mempunyai
item dari mudah ke susah; fit statistik
bagus; tidak ada item yang mempunyai
DIF
4. Bisa menjelaskan level descriptor (peta
konstruk variabel laten)
54