1. JENIS-JENIS ALAT EVALUASI DAN CARA MENGANALISISNYA
A. Jenis Alat Evaluasi
Secara garis besar alat evaluasi yang dapat digunakan digolongkan menjadi 2 jenis,
yaitu non tes dan tes.
1. Tes
Dalam pembahasan kali ini, pengetian tes ini akan dibatasi dalam ruang lingkup
pendidikan, khususnya pendidikan matematika.
Istilah tes berasal dari kata “testum” yang diambil dari bahasa Perancis kuno
yang berarti piring yang digunakan untuk memisahkan (mendulang) logam mulia dari
pasir dan tanah. Ada beberapa pengertian tes yang dikemukakan oleh pakar
pendidikan. Indrakusumah (1975:27) menyatakan bahwa tes adalah suatu alat atau
prosedur yang sistematik dan obyektif untuk memperoleh data atau keterangan
tentang seseorang, dengan cara yang boleh dikatakan tepat dan cepat.
Sedangkan Muchtar Buchori (1967) menyatakan bahwa tes adalah suatu
percobaan yang diadakan untuk mengetahui ada atau tidak adanya hasil-hasil
pelajaran tertentu pada seseorang atau sekelompok siswa. Dalam Webster’s
Collegiate dinyatakan bahwa tes adlah serangkaian pertanyaan atau latihan atau alat
lain yang digunakan untuk mengukur keterampilan, pengetahuan, intelegensi,
kemampuan atau bakat yang dimiliki oleh individu atau kelompok.
Tes dalam penerapannya pada pengajaran matematika, yaitu bahwa tes
matematika adalah alat pengumpul informasi tentang hasil belajar matematika.
Teknik tes atau cara melaksanakan tes dapat digolongkan ke dalam 3 cara, yaitu tes
tertulis, tes lisan, dan tes perbuatan.
Dalam tes tertulis, testi menjawab tes tersebut secara tertulis pada lembar
jawaban. Instrumen tes disampaikan secara lisan atau tertulis. Tes tertulis sangat
bermanfaat untuk mengetahui kemahiran testi dalam teknik menulis yang benar,
menyusun kalimat menurut kaidah bahasa yang baik dan benar secara efisien,
mengungkapkan buah pikiran melalui bahasa tulisan dengan kata-kata sendiri.
Tes tertulis menurut tipenya dikelompokkan menjadi 2 macam, yaitu tes tipe
subyektif (subjective test) dan tes tipe obyektif (objective test). Pada tes tipe
subyektif, istilah subyektif diartikan sebagai adanya faktor lain diluar kemampuan
testi dna perlengkapan instrumen tes yang memperngaruhi proses pemeriksaan dan
hasil akhir berupa skot/nilai. Misalkan faktor dari guru berupa emosi/perasaan,
kelelahan, kecermatan, dan kondisi lainnya. Faktor dari siswa berupa tulisan dna
kerapihan pekerjaan.
Bentuk soal tes tipe subyektif adalah bentuk uraian (essay). Hal ini disebabkan
karena untuk menjawab soal tersebut siswa dituntut untuk menyusun jawaban secara
terurai. Jawaban tidak cukup hanya dengan satu atau dua kata saja, tetapi memerlukan
uraian yang lengkap dan jelas. Selain harus menguasai materi tes, siswa dituntut
untuk bisa mengungkapkannya dalam bahasa tulisan dengan baik.
Sedangkan dalam pengertian tes tipe obyektif, istilah obyektif diartikan sebagai
tidak adanya faktor lain yang mempengaruhi proses pemeriksaan pekerjaan testi dan
penentuan skor/nilai akhir yang diberikan oleh tester. Jadi benar-benar murni hasil
pekerjaan siswa. Istilah lain dari tes tipe obyektif ini adalah tes dengan jawaban
singkat (short answet test). Dinamakan demikian karena tes ini hanya memerlukan
2. jawaban pendek, singkat tapi tepat. Siswa yang diuji (testi) tidak perlu menjawab
secar terurai, namun cukup hanya dengan kata-kata seperlunya, bahkan bisa cukup
hanya dengan memberikan tanda silang (X) atau tanda cek (√) saja pada jawaban
yang paling tepat yang telah tersedia.
2. Non Tes
Teknik non-tes biasanya digunakan untuk mengevaluasi bidang afektif atau
psikomotorik. Hal ini dapat dilakukan dengan cara sebagai berikut:
a. Angket (questionaire)
Angket adalah sebuah daftar pertanyaan atau pernyataan yang harus
dijawab oleh orang yang akan dievaluasi (responden) Angket berfungsi sebagai
pengumpul data, berupa keadaan atau data diri, pengalaman, pengetahuan,
sikap, pendapat mengenai sesuatu hal. Angket mempunyai 4 jenis, yaitu: angket
terbuka langsung, angket terbuka tak langsung, angket tertutup langsung, dan
angket tertutup tak langsung.
b. Wawancara (interview)
Wawancara merupakan teknik non-tes secara lisan. Pertanyaan yang
diungkapkan umumnya menyangkut segi-segi sikap dan kepribadian siswa
dalam proses belajarnya. Taknik dilakukan secara langsung dan dimaksudkan
untuk memperoleh bahan-bahan penilaian bagi siswa Wawancara dapat dibagi
menjadi 3 macam, yaitu: wawancara diagnostik, wawancara survey, dan
wawancara penyembuhan.
c. Observasi (pengamatan)
Observasi adalah suatu teknik evaluasi non-tes yang menginventarisasikan
data tentang sikap dan kepribadian siswa dalam kegiatan belajarnya. Observasi
dilakukan dengan mengamati kegiatan dan prilaku siswa secara langsung.
d. Inventori (inventory)
Inventori mengandung sejumlah pertanyaan yang tersusun dalam rangka
mengetahui tentang sikap, pendapat, dan perasaan siswa terhadap kegiatan
proses penyelenggaraan belajar mengajar. Data sebagai informasi umumnya
telah disediakan dalam bentuk pilihan ganda, yang harus dipilih oleh siswa.
e. Daftar Cek (checklist) dan Daftar Skala Bertingkat (rating scale)
Daftar cek adalah sederetan pertanyaan atau pernyataan yang dijawab oleh
responden dengan membubuhkan tanda cek (√) pada tempat yang telah
3. disediakan. Sedangkan skala bertingkat adalah sejenis daftar cek dengan
kemungkinan jawaban terurut menurut tingkatan atau hierarki.
B. Kualitas Alat Evaluasi
Untuk mendapatkan hasil evaluasi yang baik tentunya diperlukan alat evaluasi yang
kualitasnya baik pula, di samping faktor lain yang dapat mempengaruhinya. Misalkan
pelaksanaan evaluasi (pengawasan), kondisi tester (pembuat dan pemeriksa hasil tes),
dan keadaan lingkungan. Untuk mendapatkan alat evaluasi yang kualitasnya baik perlu
diperhatikan beberapa kriteria yang harus dipenuhi. Alat evaluasi yang baik dapat
ditinjau dari beberapa hal, 4 diantaranya adalah validitas, reliabilitas, daya pembeda, dan
indeks kesukaran.
1. Validitas
Suatu alat evaluasi disebut valid (absah atau sahih) apabila alat tersebut mampu
mengevaluasi apa yang seharusnya dievaluasi. Oleh karena itu keabsahannya
tergantung pada sejauh mana ketepatan alat evaluasi itu dalam melaksanakan
fungsinya (Suherman dan Sukjaya, 1990:135).
Secara diagram, macam-macam validitas itu dapat digambarkan seperti berikut
ini.
Validitas
ValiditasEmpirik(Kriterium)ValiditasTeoritik (Logik)
Validitas
Isi
Validitas
Muka
Validitas
Konstruksi
Validitas
Banding
Validitas
Ramal
4. a. Validitas Teoritik
Validitas teoritik atau validitas logik adalah validitas alat evaluasi yang
dilakukan berdasarkan pertimbangan (judgement) teoritik atau logika. Hal ini
dimaksudkan bahwa untuk mempertimbangkan suatu alat evaluasi berdasarkan
validitas teoritik dikaji atau dipertimbangkan oleh evaluator. Agar hasil
pertimbangan tersebut memadai sebaiknya dilakukan oleh para ahli atau orang
yang dianggap ahli untuk itu, minimal orang yang berpengalaman dalam
bidangnya.
Validitas Isi (Content Validity)
Validitas isi suatu alat evaluasi artinya ketepatan alat tersebut ditinjau
dari segi materi yang dievaluasikan, yaitu materi (bahan) yang dipakai
sebagai alat evaluasi tersebut yang merupakan sampel representatif dari
pengetahuan yang harus dikuasai
Validitas Muka (Face Validity)
Validitas muka suatu alat evaluasi disebut pula validitas bentuk soal
(pertanyaan, pernyataan, suruhan) atau validitas tampilan, yaitu keabsahan
susunan kalimat atau kata-kata dalam soal sehingga jelas pengertiannya
atau tidak menimbulkan tafsiran lain.
Validitas Konstruksi Psikologik (Contrast Validity)
Istilah konstruksi (construct) dalam pengertian ini bukan berarti susunan
seperti yang sering dijumpai dalam bidang konstruksi, tetapi berkenaan
dengan aspek psikologik. Pada umumnya alat evaluasi yang sering
menyangkut validitas konstruksi ini berkenaan dengan aspek sikap,
kepribadian, motivasi, minat, bakat. Jadi, berupa evaluasi non tes.
b. Validitas Kriterium (Criterion Related Validity)
Validitas kriterium atau lengkapnya validitas berdasarkan kriteria atau
validitas yang ditinjau dalam hubungannya dengan kriterium tertentu. Validitas
ini diperoleh dengan melalui observasi atau pengalaman yang bersifat empirik,
kriterium itu dipergunakan untuk menentukan tinggi-rendahnya koefisien
validitas alat evaluasi yang dibuat melalui perhitungan korelasi.
Ada dua macam validitas yang termasuk ke dalam validitas kriterium ini,
yaitu :
Validitas Banding (Concurrent Validity)
Validitas banding sering kali disebut validitas bersama atau validitas
yang ada sekarang. Validitas ini kriteriumnya terdapat pada waktu yang
bersamaan dengan alat evaluasi yang diselidiki validitasnya, atau hampir
bersamaan. Biasanya dilakukan terhadap subyek yang sama.
Validitas Ramal (Predictive Validity)
Memprediksi artinya meramal berkenaan dengan hal yang akan datang
berdasarkan kondisi yang ada sekarang. Sebuah alat evaluasi dikatakan
memiliki validitas prediksi yang baik jika ia mempunyai kemampuan untuk
meramalkan hal-hal yang akan terjadi di masa yang akan datang.
Dalam uji coba instrumen, salah satu cara untuk menghitung koefisien
validitas tes adalah dengan menggunakan rumus korelasi produk momen
memakai angka kasar (raw score) ( Suherman, 1990:154), sebagai berikut :
5. 𝑟𝑥𝑦 =
𝑁 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
√(𝑁∑ 𝑋2 − (∑ 𝑋)2)(𝑁∑ 𝑌2 − (∑ 𝑌)2)
dengan rxy = koefisien korelasi antara variabel x dan variabel y
N = banyak subyek (hasil)
X = skor masing-masing butir soal
Y = skor total
Adapun interpretasi dari validitas tersebut dilakukan dengan menggunakan
derajat validitas berikut :
0,90 ≤ 𝑟𝑥𝑦 ≤ 1,00 validitas sangat tinggi (sangat baik)
0,70 ≤ 𝑟𝑥𝑦 < 0,90 validitas tinggi (baik)
0,40 ≤ 𝑟𝑥𝑦 < 0,70 validitas sedang (cukup)
0,20 ≤ 𝑟𝑥𝑦 < 0,40 validitas rendah (kurang)
0,00 ≤ 𝑟𝑥𝑦 < 0,20 validitas sangat rendah, dan
𝑟𝑥𝑦 < 0,00 tidak valid
2. Reliabilitas
Reliabilitas suatu alat ukur atau alat evaluasi dimaksudkan sebagai suatu alat
yang memberikan hasil yang tetap sama (konsisten, ajeg). Hasil pengukuran itu
harus tetap sama (relatif sama) jika pengukurannya diberikan pada subjek yang sama
meskipun dilakukan oleh orang yang berbeda, waktu yang berbeda, dan tempat yang
berbeda pula. Tidak terpengaruhi oleh pelaku, situasi, dan kondisi. Alat ukur yang
reliabilitasnya tinggi disebut alat ukur yang reliabel (Suherman, 1990:167).
Koefisien reliabilitas menyatakan derajat keterandalan alat evaluasi,
dinotasikan dengan r11. Rumus yang digunakan untuk mencari koefisien reliabilitas
bentuk multiple choise dikenal dengan rumus KR-20, sedangkan untuk mencari
koefisien reliabilitas bentuk essay dikenal dengan rumus Alpha (Suherman,
1990:194)
a. Untuk Soal Multiple Choise
Rumus KR-20 adalah sebagai berikut :
𝑟11 = (
𝑛
𝑛 − 1
)(
𝑠𝑡
2
− ∑ 𝑝𝑖 𝑞𝑖
𝑠𝑡
2
)
dengan : n = banyaknya butir soal
pi = proporsi banyak subyek yang menjawab benar pada butir
soal ke-i
qi = proporsi banyak subyek yang menjawab salah pada buti soal
ke-i, jadi qi = 1 - pi
𝑠𝑡
2
= varianisi skor total
b. Untuk Soal Essay
Rumus alpha adalah sebagai berikut :
6. 𝑟11 = (
𝑛
𝑛 − 1
)(1 −
∑ 𝑠𝑖
𝑠
𝑠𝑡
2
)
dengan : n = banyak butir soal (item),
𝑠𝑖
𝑠
= jumlah varians skor setiap item, dan
𝑠𝑡
2
= varians skor total.
Tolak ukur untuk menginterpretasikan derajat reliabilitas alat evaluasi dapat
digunakan tolak ukur yang dibuat oleh J.P. Guilford (1956: 145) sebagai berikut
ini
𝑟11 ≤ 0,20 derajat reliabilitas sangat rendah
0,20 < 𝑟11 ≤ 0,40 derajat reliabilitas rendah
0,40 < 𝑟11 ≤ 0,70 derajat reliabilitas sedang
0,70 < 𝑟11 ≤ 0,90 derajat reliabilitas tinggi
0,90 < 𝑟11 ≤ 1,00 derajat reliabilitas sangat tinggi
3. Daya Pembeda
Pengertian Daya Pembeda (DP) dari sebuah butir soal menyatakan seberapa jauh
kemampuan butir soal tersebut mampu membedakan antara testi yang mengetahui
jawabannya dengan benar dengan testi yang tidak dapat menjawab soal tersebut
(atau testi yang menjawab salah)(Suherman dan Sukjaya, 1990:199-200). Dengan
perkataan lain daya pembeda sebuah butir soal adalah kemampuan butir soal itu
untuk membedakan antara testi (siswa) yang berkemampuan tinggi dengan siswa
yang berkemampuan rendah.
Cara menentukan daya pembeda dapat dihitung dengan menggunakan rumus
berikut :
𝐷𝑃 =
𝐽𝐵 𝐴 − 𝐽𝐵 𝐵
𝐽𝑆 𝐴
𝑎𝑡𝑎𝑢
𝐷𝑃 =
𝐽𝐵 𝐴 − 𝐽𝐵 𝐵
𝐽𝑆 𝐵
Dengan : DP = Daya Pembeda
JBA = Jumlah siswa kelompok atas yang menjawab soal itu dengan
benar, atau jumlah benar untuk kelompok atas.
JBB = Jumlah siswa kelompok bawah yang menjawab soal itu
dengan benar, atau jumlah benar untuk kelompok bawah.
JSA = Jumlah siswa kelompok atas (higher group atau upper group)
JSB = Jumlah siswa kelompok rendah (lower group)
Klarifikasi interpretasi untuk daya pembeda yang banyak digunakan adalah :
7. 𝐷𝑃 ≤ 0,00 sangat jelek
0,00 < 𝐷𝑃 ≤ 0,20 jelek
0,20 < 𝐷𝑃 ≤ 0,40 cukup
0,40 < 𝐷𝑃 ≤ 0,70 baik
0,70 < 𝐷𝑃 ≤ 1,00 sangat baik
4. Indeks Kesukaran
Indeks kesukaran suatu butir soal dinyatakan dengan bilangan yang disebut
Indeks Kesukaran (Difficulty Index). Bilangan tersebut adalah bilangan real pada
interval (kontium) 0,00 sampai dengan 1,00. Soal dengan indeks kesukaran
mendekati 0,00 berarti butir soal tersebut terlalu sukar, sebaliknya soal dengan
indeks kesukaran 1,00 berarti soal terlalu mudah.
Rumus untuk menentukan indeks kesukaran butir soal, yaitu
𝐼𝐾 =
𝐽𝐵 𝐴+𝐽𝐵 𝐵
𝐽𝑆 𝐴 + 𝐽𝑆 𝐵
Karena JSA = JSB = 27% dari jumlah subyek dalam populasi, rumus tersebut
dapat diubah menjadi
𝐼𝐾 =
𝐽𝐵 𝐴 +𝐽𝐵 𝐵
2𝐽𝑆 𝐴
atau 𝐼𝐾 =
𝐽𝐵 𝐴+𝐽𝐵 𝐵
2𝐽𝑆 𝐵
dengan : IK = indeks kesukaran
JBA = Jumlah siswa kelompok atas yang menjawab soal itu dengan
benar, atau jumlah benar untuk kelompok atas.
JBB = Jumlah siswa kelompok bawah yang menjawab soal itu dengan
benar, atau jumlah benar untuk kelompok bawah.
JSA = Jumlah siswa kelompok atas (higher group atau upper group)
JSB = Jumlah siswa kelompok rendah (lower group)
Klarifikasi indeks kesukaran yang paling banyak digunakan adalah :
𝐼𝐾 = 0,00 soal terlalu sukar
0,00 < 𝐼𝐾 ≤ 0,30 soal sukar
0,30 < 𝐼𝐾 ≤ 0,70 soal sedang
0,70 < 𝐼𝐾 ≤ 1,00 soal mudah
𝐼𝐾 = 1,00 soal terlalu mudah
8. DAFTAR PUSTAKA
Suherman, E. 2003. Hands-Out perkuliahan Belajar dan Pembelajaran Matematika. Bandung :
Jurdikmat FPMIPA UPI.
Suherman, E., dan Kusumah, Y. S. (1990). Petunjuk Praktis Untuk Melaksanakan Evaluasi Pendidikan
Matematika. Bandung : Wijayakusumah.