Validitas dan reliabilitas tes

26,997 views
26,883 views

Published on

Published in: Business, Technology
2 Comments
3 Likes
Statistics
Notes
No Downloads
Views
Total views
26,997
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
807
Comments
2
Likes
3
Embeds 0
No embeds

No notes for slide

Validitas dan reliabilitas tes

  1. 1. VALIDITAS DAN RELIABILITAS TES: Deskripsi Konsep dan Aplikasinya dalam EvaluasiAbstractValidity of a test is its most important characteristic. A test is valid to the degree that itaccurately measures some characteristics. There are three basic types of validity: contentvalidity, which is most important for the classroom teacher’s achievement test, describes theadequacy of the test to sample the domains of a subject as stressed in classroom instruction.Criterion-related validity describes the relationship between test scores and independentexternal criterion measures. Construct validity is the degree to which test scores can beaccounted for by certain explanatory actions that support a psychological theory.Reliability of test result is a universal criterion of educational measurement. Higher reliabilitymeasures are obtained as chance errors associated with the complete process of testing arereduced. Coefficients of reliability are the best statistical data available to the teacher who isstriving to determine the degree of success in testing and who is making efforts to improvefuture tests. One major aspect of test reliability is the degree to which a test measures withconsistency.Kata Kunci: validitas, reliabilitasA. PENDAHULUANEvaluasi pendidikan melibatkan banyak kegiatan teknis dalam menentukan metode danformat penilaian yang dapat digunakan untuk mendapatkan informasi yang dibutuhkan.Informasi tersebut diperlukan dalam menafsir dan menetapkan keputusan untuk kepentinganpendidikan. Penilai membutuhkan keterampilan dalam mengidentifikasi dan memahamiberbagai macam perspektif penilaian, baik penilaian kontekstual dan proses maupunpenilaian hasil. Karena penilaian merupakan pusat kontrol keberhasilan program pendidikan,maka terdapat dua syarat utama yang harus dipenuhi oleh suatu instrumen penilaian, yaituvaliditas dan reliabilitas.Validitas mengacu pada keberartian, kebenaran, kemanfaatan, dan kesesuaian skor tes.Validitas merupakan karakteristik suatu tes ketika diujikan pada suatu kelompok peserta tes.Validasi suatu instrumen mencakup pengumpulan data empiris dan argumentasi logis untukmenunjukkan bahwa kesimpulan tertentu adalah tepat. Sedangkan reliabilitas yang berartikonsistensi adalah ciri umum dari suatu instrumen pengukuran dan penilaian pendidikan.Konsistensi tinggi skor instrumen dari suatu pengukuran ke pengukuran berikutnyamerupakan ciri terpenting dari instrumen yang berkualitas tinggi.Tulisan ini adalah sebuah kajian teoretis tentang apa dan bagaimana validitas dan reliabilitasitu apabila dikaitkan dengan kualitas instrumen dan penerapannya dalam penilaian hasil suatuprogram pembelajaran. Selanjutnya, tulisan ini diharapkan untuk mengundang wacana bagipembaca tentang: Bagaimana instrumen penilaian yang berkualitas? Bagaimanameningkatkan validitas dan reliabilitas suatu instrumen penilaian? Faktor-faktor apa yangmempengaruhi validitas dan reliabilitas suatu instrumen penilaian?B. DESKRIPSI KONSEP1. Konsep ValiditasValiditas merupakan produk dari validasi. Validasi adalah suatu proses yang dilakukan olehpenyusun atau pengguna instrumen untuk mengumpulkan data secara empiris guna
  2. 2. mendukung kesimpulan yang dihasilkan oleh skor instrumen. Sedangkan validitas adalahkemampuan suatu alat ukur untuk mengukur sasaran ukurnya.Untuk menjadi valid suatu instrumen tidak hanya konsisten dalam penggunaannya, namunyang terpenting adalah harus mampu mengukur sasaran ukurnya. Hal ini berarti bahwavaliditas merupakan ciri instrumen yang terpenting. Berbagai usaha dilakukan untukmeningkatkan validitas instrumen, baik langsung ataupun tidak berhubungan denganpeningkatan validitas instrumen itu sendiri. Untuk menjadi valid maka suatu instrumen harusdikonstruksi dengan baik dan mencakup materi yang benar-benar mewakili sasaran ukurnya.Validitas instrumen bersifat relatif terhadap situasi tertentu dan tergantung pada kondisitertentu. Instrumen yang mempunyai validitas tinggi terhadap tujuan atau kegunaan tertentumungkin akan mempunyai validitas sedang atau mungkin rendah terhadap tujuan lainnya.Menurut Messik (1989) terdapat lima aspek yang berbeda dalam konsep validitas. Kelimaaspek tersebut secara bersama-sama berfungsi sebagai ukuran validitas umum atau standaruntuk semua pengukuran psikologis dan pendidikan. Kelima aspek tersebut adalah: (1)Substansi. Aspek substansi validitas mencakup verifikasi proses utama dalam pengungkapantugas penilaian. Hal ini dapat dikenali melalui penggunaan teori substansi dan pemodelanproses. Ketika menentukan substansi instrumen, seseorang perlu mempertimbangkan dua halpokok: Pertama, tugas penilaian harus mewakili materi yang akan dinilai. Kedua, penilaianharus ditetapkan berdasarkan fakta-fakta empiris. (2) Strukrur pensekoran. Strukrurpensekoran harus secara rasional konsisten dengan apa yang diketahui tentang sifat hubunganstruktural dari keberadaan konstruk yang dipersoalkan. Struktur internal penilaian haruskonsisten dengan apa yang diketahui tentang struktur internal dari domain konstruk. (3)Ketergeneralisasian. Ketergene-ralisasian penilaian harus memenuhi keterwakilan isi dankonstruk. Hal ini memungkinkan penafsiran skor untuk penggeneralisasian secara luas dalamkonstruk yang ditetapkan. Fakta seperti kemampuan generalisasi tersebut tergantung padatingkat korelasi suatu tugas dengan tugas lainnya yang juga mewakili konstruk atau aspek-aspek konstruk. (4) Faktor-faktor eksternal. Aspek eksternal dari validitas mengacu padatingkat hubungan skor assessment dengan ukuran lain dan perilaku nonassessment yangmencerminkan tinggi, rendah, dan hubungan interaksi antara konstruk yang ditetapkan. (5)Akibat dari validitas. Akibat validitas meliputi bukti dan dasar pemikiran dalammengevaluasi konsekuensi penafsiran dan menggunakan skor yang tidak diharapkan danyang diharapkan. Penyelidikan jenis ini terutama penting ketika berhubungan dengan akibatyang merugikan bagi individu dan kelompok yang dihubungkan dengan penyimpangan dalampenskoran dan penafsiran.Ke lima aspek validitas tersebut berlaku bagi semua pengukuran psikologis dan pendidikan;umumnya penafsiran berbasis skor dan kesimpulan tindakan mengasumsikannya secara tegasatau secara tersembunyi. Tantangan dalam validasi instrumen selanjutnya adalahmenghubungkan kesimpulan ini terhadap fakta-fakta terpusat yang mendukungnya sepertihalnya terhadap fakta-fakta berbeda yang merupakan bagian kesimpulan tandingan yangrasional.2. Konsep ReliabilitasReliabilitas telah didefinisikan dengan cara yang berbeda oleh pengarang yang berbeda. Carayang terbaik untuk membahas reliabilitas adalah sejauhmana hasil pengukuran dari suatuinstrumen mewakili karakteristik yang diukur. Sebagai contoh, reliabilitas didefinisikanseberapa besar konsistensi skor tes yang dicapai peserta tes pada pengujian ulang. Definisi iniakan memuaskan jika skor tes dapat menggambarkan kemampuan peserta tes; jika tidak makaskor tes tidak sistematis, tidak dapat diulangi atau tidak terikat. Reliabilitas juga diartikan
  3. 3. sebagai indikator ketidakhadiran kesalahan acak. Jika kesalahan acak dapat diperkecil makaskor tes akan lebih konsisten dari suatu pengujian ke pengujian berikutnya.Definisi teoretis dari reliabilitas adalah proporsi keragaman skor tes yang disebabkan olehkeragaman sistematis dalam populasi peserta tes. Jika terdapat keragaman sistematis yanglebih besar dalam suatu populasi dibanding dengan populasi lainnya, seperti dalam semuasiswa sekolah negeri dibandingkan hanya dengan kelas tertentu, tes akan mempunyaireliabilitas lebih besar untuk populasi yang lebih bervariasi. Reliabilitas adalah karakteristikbersama antara tes dan kelompok peserta tes. Reliabilitas tes bervariasi dari suatu kelompokdengan kelompok lainnya.Para profesional pengukuran menganggap reliabilitas sebagai persyaratan utama suatuinstrumen penilaian. Dalam teori tes diakui bahwa skor tes akan valid (benar) jika skor testersebut reliabel (Mehrens & Lehmann, 1991). Asumsi ini didasarkan pada suatu modelmatematika teori tes dimana skor perolehan terdiri atas skor tulen dan skor galat (obtainedscore = true score + error score). Semakin sedikit kesalahan dalam suatu tes (yaitu semakinreliabel) semakin valid skor tes. Karenanya, suatu penilaian yang tidak reliabel secaraotomatis tidak valid.Penekanan utama dalam mengumpulkan data untuk menentukan reliabilitas tes adalah padakonsistensi dihubungkan dengan reliabilitas skor atau reliabilitas penilai. Reliabilitas skorberarti bahwa jika suatu tes telah diadministrasikan pada penempuh ujian untuk keduakalinya, maka penempuh ujian akan tetap memperoleh skor yang sama denganpengadministrasian yang pertama. Salah satu cara para spesialis pengukuran dalammenentukan reliabilitas skor tes adalah melalui tes standar. Jika penempuh ujian diujikembali, mereka harus melengkapi tugas yang sama persis dalam kondisi yang juga persissama. Hal ini akan membantu dalam pencapaian hasil tes yang konsisten.C. PEMBAHASAN 1. Validitas 2. a. Jenis-jenis Validitas dan Ukurannya Crocker dan Algina (1986) membedakan tiga jenis validitas, yaitu: 1) validitas isi, mengkaji kepadanan sampel yang terdapat dalam suatu instrumen; 2) validitas konstruk, mengkaji sifat-sifat psikologis yang menjelaskan keragaman skor responden dalam instrumen tertentu; 3) dan validitas relasi kriteria, membandingkan skor responden dengan satu atau lebih variabel eksternal. Validitas konstruk mencakup syarat-syarat empiris dan logis dari validitas isi dan validitas kriteria. Hal Ini berari bahwa validitas konstruk menggabungkan syarat-syarat yang terdapat dalam validitas isi dan validitas relasi kriteria (Anastasi, 1997). Validitas konstruk menghubungkan gagasan dan praktek pengukuran di satu pihak, dengan gagasan teoretik di pihak lain. Para penyusunan instrumen biasanya bertolak dengan bekal suatu konstruk, kemudian mengembangkan instrumen untuk mengukur konstruk tersebut. Selanjutnya, butir-butir instrumen yang telah dikembambangkan diujicobakan secara empiris. Validitas isi dan validitas konstruk berhubungan dengan kecocokan butir-butir instrumen dengan tujuan ukurnya. Kedua jenis validitas tersebut dapat ditentukan melalui pengkajian secara teoretis dan secara empiris, yang mencakup: (1) menjelaskan pokok bahasan dan sub pokok bahasan; (2) menetapkan pokok bahasan dan subpokok bahasan
  4. 4. yang diukur oleh setiap butir instrumen; (3) mencocokkan butir-butir instrumen denganpokok bahasan dan subpokok bahasan yang diukurnya. Secara teoretis validitas isi danvaliditas konstruk dapat dikaji melalui penilaian panelis. Penilaian panelis dimaksudkanuntuk menilai kesesuaian setiap butir instrumen dengan pokok bahasan dan subpokokbahasan yang diukurnya. Prosedur yang digunakan adalah meminta para panelis untukmencermati butir-butir instrumen. Kemudian menilai kesesuaian setiap butir instrumendengan pokok bahasan dan subpokok bahasan yang diukurnya.Suatu contoh penilaian validitas isi dan validitas konstruk secara teoretis dapat dilakukanmelalui penilaian panelis (pakar). Pengembangan prosedur penilaian panelis dapatdilakukan melalui beberapa langkah, yaitu: Pertama, menetapkan skala yang digunakan,yaitu: 1 = tidak relevan, 2 = kurang relevan, 3 = cukup relevan, 4 = relevan, dan 5 =sangat relevan. Kedua, menetapkan kriteria penilaian yang mencakup: (1) mengukurindikatornya; (2) hanya memiliki satu arti; (3) jelas dan mudah dipahami; (4) tidakbersifat faktual; dan (5) tidak tumpang tindih dengan butir-butir lainnya. Ketiga,menetapkan pilihan, yaitu: 1 (tidak relevan) jika hanya satu atau semua kriteria tidakterpenuhi; 2 (kurang relevan) jika hanya dua kriteria yang terpenuhi; 3 (cukup relevan)jika hanya tiga kriteria yang terpenuhi; 4 (relevan) jika hanya empat kriteria yangterpenuhi; dan 5 (sangat relevan) jika semua kriteria terpenuhi. Keempat, kualitas masing-masing butir instrumen didasarkan atas rerata hasil penilaian panelis, dengan kriteriasebagai berikut:Rerata Penilaian Keputusan1,0 – 2,9 Tidak sesuai Direvisi3,0 – 3,9 Cukup sesuai Diterima dengan revisi4,0 – 5,0 SesuaiDiterimaPenilaian validitas isi dan validitas konstruk secara empiris dilakukan dengan ujicobainstrumen kepada responden yang sesuai dengan karakteristik responden tempatpemberlakuan instrumen final. Penetapan jumlah sampel dapat diacuh dari pendapatNunnaly (1970) bahwa untuk mengurangi resiko kehilangan butir-butir instrumen danagar memungkinkan untuk mengeliminasi faktor-faktor yang tidak dikehendaki makadalam analisis instrumen direkomendasikan untuk digunakan sampel 5–10 kali jumlahbutir instrumen.Ujicoba secara empiris dimaksudkan untuk menganalisis validitas isi dan validitaskonstruk instrumen secara empiris. Validitas isi biasanya digunakan untuk menyebutvaliditas instrumen tes, sedangkan validitas konstruk biasanya digunakan untuk menyebutvaliditas instrumen non tes. Secara empiris, kedua jenis validitas tersebut dianalisisdengan cara yang berbeda.Validitas isi. Secara empiris alat analisis validitas isi yang biasa digunakan (khusus untuktes pilihan ganda) adalah Item and Test Analysis (ITEMAN). Alat analisis inidimaksudkan untuk mendapatkan informasi tentang: indeks kesukaran butir tes, indeksdaya beda butir, dan keberfungsian pengecoh. Disamping itu, juga untuk menentukan:korelasi biserial titik (point biserial correlation), dan keseimbangan isi atau keterwakilanmateri yang hendak diukur. Secara empiris kelima informasi tersebut dibutuhkan karenasaling berhubungan antara satu dengan yang lainnya, dimana keberfungsian pilihan dapatmeningkatkan indeks kesukaran butir tes, indeks kesukaran butir tes dapat menentukandaya beda butir, dan indeks kesukaran dan daya beda butir dapat mempengaruhiinterkorelasi butir, dan secara keseluruhan kelima informasi tersebut merupakan penentutingkat reliabilitas tes. Untuk jelasnya prosedur analisis butir dan penetapan kriteria untuk
  5. 5. menerima, menolak atau merevisi butir-butir tes, secara berturut-turut sebagai berikut:(1) Indeks kesukaran butir (p). Indeks kesukaran butir tes adalah proporsi peserta yangmenjawab benar butir tes. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 palingbaik pada 0,5; karena p=0,5 dapat memberikan kontribusi optimal terhadap korelasibiserial titik, daya pembeda butir, dan reliabilitas tes. Butir-butir tes yang memiliki indekskesukaran di bawah atau di atas kriteria 0,3 - 0,7 dapat digunakan apabila adapertimbangan keterwakilan pokok bahasan yang diukurnya.(2) Daya pembeda butir (D). Daya pembeda butir adalah kemampuan butir tes untukmembedakan siswa mampu dan kurang mampu. Indeks daya beda butir mempunyairentang nilai –1 ke +1, namun nilai negatif dan rendah menunjukkan kinerja butir yangrendah. Suatu butir tes dapat dipertahankan apabila memiliki nilai D ³ 2,0. Indeks dayabeda butir dihitung dengan menggunakan rumus: D= pu - pi; dimana: pu = proporsikelompok atas yang menjawab benar, pi = proporsi kelompok bawah yang menjawabbenar. Pembagian kelompok responden didasarkan atas pendapat Kelly (1939) yangdikutip oleh Crocker dan Algina (1996) bahwa indeks daya beda butir yang lebih stabildan sensitif dapat dicapai dengan menggunakan 27 persen kelompok atas dan 27 persenkelompok bawah.(3) Korelasi biserial titik (rpbi). Korelasi biserial titik adalah korelasi antara skor butir tesdengan skor total. Korelasi biserial titik dapat disamakan dengan daya beda butir, namunrpbi itu sendiri perlu dihitung karena dapat menyediakan refleksi yang sebenarnya darikontribusi setiap butir tes terhadap keberfungsian tes. Semakin tinggi rpbi suatu butir tessemakin tinggi kontribusinya dalam memprediksi kriteria. Suatu butir tes dapatdipertahankan apabila memiliki rpbi ³ 0,30.(4) Keberfungsian pengecoh. Suatu pengecoh dapat dipertahankan apabila memenuhisyarat-syarat: (1) kunci jawaban (keyed answer) harus dipilih lebih banyak olehkelompok atas daripada kelompok bawah; (2) setiap penggagal (foils) harus dipilihminimal 2 persen dari keseluruhan peserta tes dan dipilih minimal 5 persen kelompokbawah, (3) Indeks daya beda kunci jawaban harus positif dan indeks daya beda penggagalharus negatif.Validitas konstruk. Sama halnya dengan prosedur ujicoba instrumen tes, instrumen nontes juga diujicobakan secara empiris kepada sejumlah responden (5-10 kali jumlah butirinstrumen). Data hasil ujicoba secara empiris dari instrumen non tes biasanya dianalisisdengan menggunakan Analisis Faktor Konfirmasi (Confirmatory Factor Analysis) denganmenggunakan metode ekstraksi komponen utama (principle component extraction).Analisis tersebut bertujuan untuk menguji kebenaran konstruk teori yang dijadikan acuandalam pengembangan instrumen, dengan cara menentukan struktur atau model faktor darisejumlah butir instrumen berdasarkan muatan faktor (factor loading) jumlah varians(eigenvalue), dan proporsi varians (communality). Dalam analisis ini juga digunakanrotasi ortogonal dan varimax. Beberapa kriteria yang dijadikan acuan dalam analisisfaktor adalah:(1) Ukuran kecukupan pensampelan (sampling adequacy). Ditentukan dengan menggunakan rumus Kaiser-Meyer-Olkin (KMO), yaitu dengan membandingkan nilai koefisien korelasi observasi dengan koefisien korelasi parsial (Norusis, 1996). Jika koefisien korelasi parsial kecil maka nilai KMO besar (mendekati satu) berarti dapat digunakan analisis faktor, sebaliknya jika nilai koefisien korelasi parsial besar maka nilai KMO kecil (mendekati nol) berarti tidak dapat digunakan analisis faktor. Jelasnya penafsiran nilai KMO diacuh dari ciri yang dikemukakan oleh Kaiser (1974) seperti dikutip oleh Norusis (1996) bahwa KMO 0,90 baik sekali
  6. 6. (marvelous); 0,80 baik (meritorius); 0,70 sedang (middling); 0,60 kurang (mediocre); 0,50 sangat kurang (miserable); dan dibawah 0,50 tidak dapat diterima (unacceptable).(2) Uji Bartlett tentang bentuk matriks korelasi (Bartlett’s test of sphericity). Uji ini dimaksudkan untuk memastikan apakah matriks korelasi berasal dari matriks identitas atau bukan. Dalam uji ini digunakan pendekatan Chisquare dan dibutuhkan data yang berasal dari populasi normal multivariat. Dengan ketentuan bahwa bila matriks korelasi merupakan matriks identitas (makriks dengan diagonal 1 dan selain diagonal 0) maka tidak dapat digunakan analisis faktor, sebaliknya bila matriks korelasi bukan matriks identitas maka dapat digunakan analisis faktor.(3) Banyaknya faktor. Banyaknya faktor ditetapkan berdasarkan aturan yang dikemukakan oleh Norusis (1996) bahwa jumlah faktor harus diekstraksi sama dengan jumlah faktor yang mempunyai varians (eigenvalue) lebih besar dari 1,0. (4) Muatan faktor (factor loading). Muatan faktor diseleksi setelah melalui ekstraksi komponen utama (extracting principal component) dengan rotasi ortogonal untuk memaksimalkan varians (variance maximizing/ varimax) antara variabel utama. Muatan faktor yang tetap dipertahankan adalah di atas 0,3. Hal ini sesuai dengan aturan yang dikemukakan oleh Crocker dan Algina (1996) bahwa muatan faktor yang lebih dari 0,3 cenderung siginifikan, sebaliknya muatan faktor yang kurang dari 0,3 tidak dapat memberikan kontribusi yang siginifikan terhadap suatu faktor tertentu. b. Penyebab invaliditas Ancaman utama terhadap validitas instrumen adalah: (1) ketakterwakilan konstruk; menunjukkan bahwa tugas yang diukur dalam penilaian tidak mencakup dimensi penting dari konstruk. Oleh karena itu, hasil tes tersebut tidak mungkin untuk mengungkapkan kemampuan siswa sebenarnya dalam konstruk yang hendak diukur oleh instrumen; (2) penyimpangan keragaman konstruk berarti bahwa instrumen tersebut mengukur terlalu banyak variabel, dan kebanyakan variabel tersebut tidak relevan terhadap isi konstruk. Jenis penyimpangan validitas seperti ini mencakup dua bentuk, yaitu penyimpangan kemudahan konstruk (Construct irrelevant easiness) dan penyimpangan kesukaran konstruk (Construct irrelevant difficulty). Penyimpangan kemudahan konstruk terjadi ketika faktor-faktor luar seperti kata- kata kunci atau bentuk instrumen memungkinkan seseorang untuk menjawab benar dengan cara yang tidak sesuai dengan konstruk yang diukur, dan penyimpangan kesukaran konstruk terjadi bila aspek-aspek luar dari tugas membuat tingkat kesukaran tugas tidak sejalan terhadap sebagian atau keseluruhan anggota kelompok. Sementara bila terjadi penyimpangan keragaman konstruk yang pertama menyebabkan seseorang memperoleh skor yang lebih tinggi dibanding dengan kemampuan yang sebenarnya, dan terjadinya penyimpangan keragaman konstruk yang kedua menyebabkan seseorang memperoleh skor yang lebih rendah dibanding dengan kemampuan yang sebenarnya. 2. Reliabilitas a. Ukuran Reliabilitas
  7. 7. Terdapat beberapa statistik yang digunakan untuk menghitung stabilitas skorseperangkat tes dari suatu kelompok peserta tes, yaitu: reliabilitas test-retest,reliabilitas split-half, dan reliabilitas konsistensi internal.Reliabilitas test-retest. Suatu koefisien reliabilitas test-retest diperoleh denganmengadministrasikan tes yang sama dua kali dan mengkorelasikan skor tes tersebut.Dalam konsep, hal ini merupakan ukuran konsistensi skor yang sempurna sebabmemungkinkan pengukuran konsistensi langsung dari suatu ujian ke ujianberikutnya. Namun, koefisien ini tidaklah direkomendasikan dalam praktek, olehkarena masalah dan keterbatasannya, yaitu memerlukan dua kali pengadministrasiantes yang sama dalam kelompok yang sama dan memerlukan pemilihan waktu yangtepat. Jika interval waktunya singkat, mungkin skor siswa akan sangat konsistensebab mereka masih mengingat sebagian atau seluruh pertanyaan dan jawabanmereka. Dan jika intervalnya lama, maka hasilnya akan dipengaruhi oleh perubahanbelajar dan kematangan yang terjadi pada diri siswa.Reliabilitas Split-Half. Sesuai dengan namanya, reliabilitas split-half adalah suatukoefisien yang diperoleh dengan pembagian suatu skor tes ke dalam dua bagianyang masing-masing separuhnya, kemudian kedua bagian skor tes tersebutdikorelasikan untuk menentukan koefisien reliabilitasnya. Pembagian data dipecahatas nomor ganjil dan genap, memecah butir-butir tes menjadi dua bagian yang samajumlahnya, memilih butir secara acak, atau berdasarkan keseimbangan materi dantingkat kesukaran. Pendekatan ini mempunyai suatu keuntungan, yakni hanyamemerlukan satu kali pengujian. Kelemahannya adalah koefisien yang dihasilkanakan bervariasi tergantung bagaimana tes tersebut dipecah. Juga tidak cocokdigunakan untuk mengukur reliabilitas tes kecepatan (speed test), karena skor siswadipengaruhi oleh seberapa banyak butir tes yang dijawab dalam waktu yang tersedia.Konsistensi internal. Konsistensi internal tergantung pada interkorelasi butir tes,yang juga disebut homogenitas. Rumus statistik terbaik yang digunakan untukmenentukan koefisien reliabilitas konsistensi internal adalah: Alpha Cronbach danKuder-Richardson (KR-20 dan KR-21). Kebanyakan program pengujianmelaporkan bahwa hasil pengujian dengan Alfa Cronbach secara fungsional setaradengan KR-20.Keuntungan penggunaan statistik ini adalah hanya memerlukan satu kaliadministrasi tes dan tidak tergantung pada pemecahan materi tes. Sedangkankerugiannya adalah akan efektif diterapkan jika tes hanya mengukur areaketerampilan tunggal. Hanya membutuhkan rerata skor tes, simpangan baku atauvarians, dan sejumlah butir, KR-20 adalah rumusan reliabilitas yang palingsederhana. Dan rumus KR-21 hampir selalu menghasilkan koefisien yang lebihrendah dari KR-20. Kesederhanaannya menjadikannya sebagai rumus reliabilitasyang paling banyak digunakan khususnya untuk mengevaluasi tes yangdikembangkan di kelas. Namun, rumus ini tidak dapat digunakan untuk menentukanreliabilitas skor dikotomi.b. Seberapa Tinggi Koefisien ReliabilitasReliabilitas tes adalah proporsi varians tulen (true variance) dalam skor tes(Guilford, 1982). Penilaian kecukupan koefisien reliabilitas tes dapat diacuh daripendapat Aiken (1988) bahwa jika tes akan digunakan untuk menentukansignifikansi perbedaan rerata skor dua kelompok siswa maka koefisien reliabilitassebesar 0,65 dianggap memuaskan. Dan jika tes akan digunakan untuk
  8. 8. membandingkan siswa yang satu dengan yang lainnya maka paling tidak diperlukankoefisien reliabilitas sebesar 0,85. Untuk menjelaskan keberartian koefisienreliabilitas dapat pula diacuh dari galat baku pengukuran, yang dihitung denganmenggunakan rumus: ; dimana: Sm = galat baku pengukuran; Sx = simpangan bakuskor tes; dan rx = koefisien reliabilitas tes.Misalnya, dari hasil perhitungan koefisien reliabilitas instrumen denganmenggunakan rumus Alpha Cronbach diperoleh 0,93 dengan galat baku pengukuran6,88. Hal ini berarti bahwa tes tersebut sangat terandalkan karena dapat mengukur93 persen keragaman skor yang sebenarnya, dan bila dalam jangka waktu tertentudan dalam kondisi yang sama para responden merespon kembali tes tersebut makarentangan penyimpangan skor total yang dicapai masing-masing responden berkisarantara + 6,88; jadi bila pada tes pertama seseorang siswa memperoleh skor total 450maka kemungkinan rentangan skor total yang dicapai pada tes berikutnya adalah -450+ 6,88 atau paling rendah 443,12 dan paling tinggi 456,88.Jika tes yang diadministrasikan memiliki konsekuensi tinggi, seperti tes yangdigunakan untuk penempatan dalam pendidikan, misalnya ujian akhir SMU, dansertifikasi profesional, maka diperlukan reliabilitas konsistensi internal yang tinggipaling sedikit di atas 0,90, dan paling baik jika di atas 0,95. Kesalahan klasifikasiyang disebabkan oleh kesalahan pengukuran harus diperkecil. Tetapi perlu dicatatbahwa tidak satu pun tes dengan sendirinya dapat digunakan untuk membuat suatukeputusan penting bagi seseorang.Tes di kelas tidak selalu membutuhkan koefisien reliabilitas tinggi. Ketika parasiswa lebih menguasai materi yang diujikan, variabilitas tes akan menurun, sehinggareliabilitas tes juga akan menurun. Para guru mengawasi siswa mereka sepanjanghari dan mempunyai peluang untuk mengumpulkan masukan dari berbagai sumberinformasi. Jika pengetahuan dan pertimbangan guru digunakan bersama denganinformasi yang diperoleh dari tes, maka akan dapat menyediakan informasi yanglebih lengkap. Jika suatu tes tidak reliabel atau tidak akurat untuk siswa secaraperorangan, maka guru perlu membuat koreksi penyesuaian. Suatu koefisienreliabilitas sebesar 0.50 atau 0.60 mungkin cukup untuk tes di kelas.Selanjutnya, reliabilitas adalah karakteristik bersama antara tes dan kelompokpeserta tes. Reliabilitas juga perlu dievaluasi dalam kaitan dengan kelompok pesertates. Suatu tes dengan koefisien reliabilitas 0.92 ketika diujikan pada siswa dalambeberapa kelas maka koefisien reliabilitas yang diperoleh tidak akan sama jika testersebut hanya diujikan pada satu kelas saja.Reliabilitas berhubungan dengan konsistensi hasil pengukuran. Reliabiltasdipengaruhi oleh cakupan instrumen penilaian. Misalnya, suatu instrumen testertentu yang mencakup sasaran belajar dan butir yang terbatas memiliki reliabilitasyang lebih rendah dibanding dengan tes yang mencakup sasaran belajar yang lebihluas dengan jumlah butir yang lebih banyak.Instrumen yang representatif dengan kesalahan pengukuran yang relatif kecil akanmemiliki reliabilitas tinggi. Kesalahan pengukuran dapat diperkecil melaluipenulisan butir instrumen yang jelas, petunjuk yang mudah dipahami, administrasiinstrumen yang sesuai, dan penskoran yang konsisten. Suatu instrumen tes adalahsuatu sampel perilaku dari keterampilan yang diinginkan, tes lebih panjang dengansampel yang lebih besar, memungkinkan untuk lebih reliabel. Hasil ujian akhir dari
  9. 9. suatu unit pembelajaran dengan waktu satu jam akan lebih reliabel ketimbang hasilujian harian dengan jangkauan materi dan waktu yang terbatas.c. Ancaman terhadap ReliabilitasSemua jenis instrumen tes atau nontes tidak terlepas kesalahan. Hal ini berlakuuntuk instrumen tes dalam ilmu-ilmu eksakta dan dalam ilmu-ilmu psikologi danpendidikan. Misalnya, dalam mengukur panjang dengan suatu penggaris, mungkinada kesalahan sistematis berhubungan dengan di mana titik nol dicetak padapenggaris dan kesalahan acak berhubungan dengan kemampuan mata dalammembaca tanda-tanda dan memperhitungkan tanda-tanda tersebut. Jugamemungkinkan bahwa panjang obyek dapat berubah dari waktu ke waktu dan padalingkungan yang berbeda (misalnya perubahan temperatur). Salah satu tujuanpenilaian adalah untuk mengurangi kesalahan tersebut hingga ke tingkatan yangsesuai dengan tujuan tes. Tes yang beresiko tinggi (high-stakes tes), seperti ujianuntuk mendapatkan SIM, harus mempunyai kesalahan yang sangat kecil. Tes dikelas dapat mentolerir kesalahan yang lebih tinggi secara wajar kesalahan tersebutmudah dikoreksi sepanjang proses pengujian. Reliabilitas hanya mengacu padaderajat tingkat kesalahan yang tidak sistematis, yang disebut kesalahan acak.Ada tiga sumber kesalahan utama, yaitu: faktor dalam tes itu sendiri, faktor siswayang dites, dan faktor penskoran. Umumnya tes berisi suatu koleksi butir yangmengukur keterampilan tertentu. Adakalanya guru secara khas menggeneralisasikanmasing-masing butir tes ke semua materi yang diukur oleh tes itu. Sebagai contoh,jika seorang siswa dapat memecahkan beberapa permasalahan seperti 7x8, makamungkin akan disamaratakan kemampuannya dalam mengalikan angka tunggalbilangan bulat. Juga mungkin akan menyamaratakan suatu kumpulan materi kepadasuatu domein yang lebih luas. Jika siswa dapat menyelesaikan penjumlahan,pengurangan, perkalian, dan pembagian, maka mungkin akan disimpulkan bahwasiswa tersebut mampu menyele-saikan operasi pecahan. Kesalahan dapat puladisebabkan oleh pemilihan butir untuk mengukur domein dan keterampilan tertentu.Materi yang tercakup dalam tes berbeda menurut format masing-masing tes,kesalahan pensampelan, pembatasan butir tes, dan karena menyamaratakan ke datayang tidak diamati, yakni, kemampuan siswa terhadap keseluruhan butir yangmungkin terdapat dalam tes. Ketika keterampilan dan domain yang diukur menjadilebih rumit, mungkin akan terjadi lebih banyak kesalahan yang disebabkan olehpensampelan materi. Sumber lain kesalahan tes adalah ketidakefektifan pengecohdalam tes pilihan ganda, seperti jawaban benar yang lebih banyak, dan tingkatkesukaran butir tes.Sebagai manusia, para siswa tidaklah selalu konsisten dan juga tidak terlepas darikesalahan dalam menyelesaikan tes. Apakah tes itu dimaksudkan untuk mengukurkemampuan khusus atau kemampuan siswa secara optimal, perubahan dalamberbagai hal seperti sikap siswa, kesehatan, dan rasa kantuk dapat mempengaruhikualitas usaha dan konsistensi siswa dalam menyelesaikan tes. Sebagai contoh,peserta tes mungkin membuat kesalahan karena teledor, salah menafsirkan petunjuktes, melupakan instruksi tes, melupakan beberapa butir tes, atau salah baca butir tes.Kesalahan penskoran merupakan sumber sepertiga dari kesalahan potensial. Padabentuk tes objektif, penskoran bersifat mekanik, dan kesalahan penskoran harusdiperkecil. Pada tes uraian, sumber kesalahan meliputi ketidakjelasan rubrikpenskoran, ketidakjelasan apa yang diharapkan dari siswa, dan beberapa kesalahanyang bersumber dari penilai. Para penilai tidaklah selalu konsisten, kadang-kadang
  10. 10. merubah ukuran-ukuran mereka selagi menskor, dan terkadang terpengaruh olehhal-hal yang tidak berhubungan dengan skor tes seperti efek halo, latar belakangsiswa, perbedaan persepsi, kebaikan hati atau kepelikan, dan kesalahan dalampenskalaan (Rudner, 1992).D. KESIMPULANValiditas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya.Validitas dibedakan atas: validitas isi mengkaji kepadanan sampel yang terdapatdalam suatu instrumen; validitas konstruk mengkaji sifat-sifat psikologis yang dapatmenjelaskan perbedaan-perbedaan responden dalam hal keragaman pencapaian skortes dalam instrumen tertentu; dan validitas relasi kriteria membandingkan skorresponden dengan satu atau lebih variabel eksternal.Reliabilitas adalah proporsi keragaman skor tes yang disebabkan oleh keragamansistematis dalam populasi peserta tes. Reliabilitas adalah karakteristik bersamaantara tes dan kelompok peserta tes. Reliabilitas tes bervariasi dari suatu kelompokdengan kelompok lainnya. Terdapat beberapa statistik untuk menghitung stabilitasskor tes yaitu: reliabilitas test-retest, reliabilitas split-half, dan reliabilitas konsistensiinternal.Para profesional pengukuran menempatkan kebanyakan penekanan mereka dalampenilaian pada reliabilitas. Suatu pengakuan umum dalam teori tes bahwa suatu tesakan menjadi valid (benar) jika tes tersebut reliabel. Asumsi ini didasarkan padasuatu model matematika teori tes dimana skor perolehan terdiri atas skor tulen dangalat. Semakin sedikit kesalahan dalam suatu tes (yaitu semakin reliabel) semakinvalid skor tes tersebut. Suatu penilaian yang tidak reliabel secara otomatis tidakvalid. Instrumen yang memiliki reliabilitas tinggi diperlukan jika hasil penilaianakan digunakan untuk pengambilan keputusan yang penting. Sebaliknya, reliabilitastingkat menengah diperlukan jika hasil penilain kurang penting, dan penilaiandidasarkan atas beberapa sumber informasi.Faktor-faktor yang mempengaruhi reliabilitas suatu instumen adalah: (1) instrumenyang lebih panjang lebih reliabel dari instrumen yang lebih pendek; (2) reliabilitasakan rendah bila penyebaran skor rendah; (3) semakin obyektif penskoran semakintinggi reliabilitas; (4) reliabilitas instrumen akan berbeda jika diadministrasikankepada responden yang memiliki sebaran kemampuan yang berbeda; (5) intervalwaktu pengambilan data dalam penentuan reliabilitas test-retest juga dapatmengaruhi relibiabilitas instrumen.DAFTAR PUSTAKAAiken, lewis R. Psychological Testing and Assessment. Massachusetts: Allyn andBacon Inc., 1988.Anastasi, A. Psychological Testing. New York: MacMillan Publishing Company,1987.Bloom, B. S., Madaus, G.F., & Hastings, J. T. Evaluation to Improve Learning. NewYork: McGraw-Hill Book Company, 1981.Crocker, Linda and James Algina. Introduction to Classical and Modern TestTheory. Orlando, Florida: Holt, Rinehart and Winston, Inc., 1986.
  11. 11. Cronbach, L. J. Essentials of Psychological Testing. Third Edition. New York:Harper & Row, Publishers, 1970.Fredericksen, J.R., & Collins, A. A systems approach to educational testing.Educational Researcher, 1989.Gregory, Robert J. Psychological Testing History, Principles, and Applications.Boston: Allyn & Bacon, 2000.Gronlund, Norman E. Measurement and Evaluation in Teaching. New York:McMillan Publishing Company, 1985.Guilford, J.P. Psychomeric Methods. New Delhi: Tata McGraw-Hill Publishing Co.Ltd., 1982.Hopkins, Charles D., and Richard L. Antes. Classroom Measurement andEvaluation. Itasca, Illinois, 1990.Linn, R. L., & Gronlund, N. E. Measurement and Assessment in Teaching, SeventhEdition. Englewood Cliffs, NJ: Merrill, an imprint of Prentice Hall, 1995.Mehrens, W. A., & Lehmann, I. J. Measurement and Evaluation in Education andPsychology. Fourth Edition. Fort Worth, TX: Holt, Rinehart, and Winston, Inc.,1991.Messick, S. Validity In Educational Measurement. Robert Linn (Ed.). Washington,DC: American Council on Education, 1989.Nitko, A. J. Educational Assessment of Students. Englewood Cliffs, NJ: Merrill animprint of Prentice Hall, 1996.Nunnaly, Jum C. Jr. Introduction to Psychological Measurement. New York:McGraw-Hill Book Company, 1970.Oosterhof, A. Developing and Using Classroom Assessments. Englewood Cliffs,NJ: Merrill, an imprint of Prentice Hall, 1996.Popham, W. James. Classroom Assessment, What Teachers Need to Know. Boston:Allyn and Bacon, 1998.Shavelson, R., G. Baxter, & J. Pine. Performance Assessments: Political Rhetoricand Measurement Reality. Educational Researcher, 1992.Stapleton, Connie D. Basic Concepts in Exploratory Factor Analysis (EFA) as aTool to Evaluate Score Validity : A Right-Brained Approach.http://www.utexas.Edu /stat/packs. html., 2002.

×