 KESESUAIAN
           ITEM DAN
 KEBOLEHPERCAYAAN
 Sejauh  mana alat tersebut dapat
  mengukur apa yang sepatutnya diukur
  oleh alat tersebut (Hanna & Dettmer,2004).
 Ciri kesahan bagi sesuatu alat ukuran
  adalah amat penting supaya alat ukuran
  tersebut dapat mengukur apa yang hendak
  diukur.
   Alat yang dibina untuk mengukur sikap, hendaklah berupaya
    mengukur sikap, dan bukannya konstruk lain, seperti minat
    atau motivasi.
   Ujian diagnosis adalah tidak sah digunakan untuk tujuan
    penggredan.
   Dalam bidang bahasa,misalnya, ujian ejaan hanyalah sah,
    sekiranya ia benar-benar dapat mengukur kebolehan
    mengeja; ujian mendengar hanyalah sah, sekiranya ia dapat
    mengukur kemahiran
    mendengar.
 Contoh: mengenal pasti di antara kecergasan
  pernafasan kardio dan kebolehan bermain tenis.
 Contoh: Ujian kecergasan tidak boleh digunakan
  untuk menentukan kemahiran dalam permainan
  tenis.
 Mehrens  dan Lehmann (1991) - empat
 jenis kesahan
 (1) kesahan kandungan (content validity),
 (2) kesahan konstruk (contruct validity), (3)
 kesahan muka (face validity), dan
 (4) kesahan hubungan kriteria(criterion-
 related validity).
   Sejauh mana sesuatu alat ukuran itu mencakupi
    kandungan pelajaran yang telah ditetapkan.
    Kesahan kandungan adalah penting, terutama
    bagi ujian pencapaian, sebab markah
    yangdiperolehi pelajar akan menunjukkan tahap
    pencapaian pelajar tersebut bagi kandungan
    pelajaran tertentu.
   Sekiranya soalan ujian tidak meliputi secukupnya
    kandungan pelajaran tersebut, penilaian terhadap
    pencapaian pelajar menjadi tidak sah/bais.
 Beberapakaedah boleh diguna untuk
 meningkatkan kesahan kandungan, seperti
 merujuksemula kepada buku rekod
 pengajaran dan juga sukatan pelajaran.
 Guru boleh menggunakan Jadual Penentuan
 Ujian (JPU) dan membina soalan-soalan ujian
 mengikut jadual tersebut. Kaedah-kaedah ini
 dapat memastikan soalan-soalan ujian
 mewakili semua objektif pengajaran serta
 semua tajuk dan kemahiran yang telah diajar.
1.Pengetahuan
 Memerlukan calon mengingat semula.
 Contoh kata kerja:
 Labelkan (label) , Senaraikan (list),
  Nyatakan (state), Pilih (select), Ingat
  kembali (recall), Susun (arrange), Hasilkan
  semula (reproduce), Hubungkaitkan
  (relate), Beri definisi (define), Huraikan
  (describe).
 2. Kefahaman
 Memerlukan calon    memahami dan
  menghuraikan fakta serta memberi contoh
  atau illustrasi.
 Contoh kata kerja:
 Terangkan (explain), Huraikan (describe),
  Ramalkan (predict), Tukarkan (change),
  Nyatakan semula (restate), Ringkaskan
  (summarise), Kaji semula (review),
  Bincangkan (discuss), Kenalpastikan
  (identify), Laporkan (report), Terjemahkan
  (translate).
3. Aplikasi
 Memerlukan calon menyelesaikan masalah „non-
  routine‟ atau masalah baru. Ciri soalan adalah
  „problem-solving‟. Masalah diselesaikan dengan
  cara tersendiri menggunakan gabungan teori,
  pengalaman dan pelbagai kaedah penyelesaian
  masalah yang mempunyai unsur persamaan.
 Contoh kata kerja:
 Aplikasikan (apply), Tunjukkan (show), Kelolakan
  (organise), Kaitkan (relate), Tafsirkan (interpret),
  Selesaikan (solve), Lakarkan (sketch), Terapkan
  (adopt), Jadualkan (schedule).
4. Analisis
 Memerlukan calon menganalisis,
  memecah/mencerakinkan fakta untuk mengkaji unsur-
  unsurnya secara mendalam termasuk membanding,
  membeza, mengupas dan membukti.
 Contoh kata kerja:
 Analisis (analyse), Taksirkan (appraise), Hitungkan
  (calculate), Bandingkan (compare), Kategorikan
  (categorise), Diskriminasikan (discriminate), Kaji
  (examine), Lakarkan (sketch), Kenalpastikan (identify),
  Buat kesimpulan (infer), Bahagikan (Subdivide),
  Tunjukkan (point out), Gariskan (outline), Bezakan
  (distinguĂ­sh/contrast), Buktikan (prove)
5. Sintesis
 Memerlukan calon merancang, mereka/mencipta dan
  menghasilkan sesuatu yang kreatif yang
  menggabungkan pelbagai unsur. Ini termasuk
  penghasilan sesuatu rancangan, rumusan,
  kaedah/prosedur, atau cadangan.
 Contoh kata kerja:
 Susunkan (arrange), Bentukkan (formulate), Aturkan
  (organise), Bina (build), Gambarkan (illustrate), Ubah
  (change), Karang (compose), Pasang (assemble),
  Semak (revise), Buat hipotesis (hypothesise),
  Ramalkan (predict), Uruskan (manage), Susun semula
  (reorder), Himpunkan (collect), Hasilkan (produce),
  Rancangkan (plan), Sediakan
6. Penilaian
 Memerlukan calon menilai, membuat
  pertimbangan atau justifikasi untuk mencapai atau
  mendapatkan sesuatu kesimpulan. Calon perlu
  melihat fakta dari aspek „pro dan cons‟ semasa
  membuat penilaian.
 Contoh kata kerja:
 Taksirkan (evaluate), Nilaikan (appraise),
  Pertimbangkan (justify), Gredkan (grade), Sokong
  (support), Utamakan (prioritise), Arbitrasikan
  (arbitrate), Pertahankan (defend), Syorkan
  (recommend), Simpulkan (conclude), Ramalkan
  (predict), Kritik (criticize).
 Kesahan   konstruk/gagasan merujuk
  kepada sejauh mana sesuatu alat ukuran
  itu dapat mengukur sesuatu
  konstruk/gagasan berasaskan teori
 Contoh, alat yang dibina untuk mengukur
  konstruk “sabar” sepatutnya dapat
  mengukur konstruk ini dengan baik.
 Contoh: Kemahiran
 Kesahan    muka bukanlah “kesahan” seperti
  definisinya yang kita fahami, tetapi ia lebih
  kepada sesuatu alat ukuran “nampak pada
  permukaannya” mempunyai kesahan yang
  tinggi.
 Ini bermaksud, sekali pandang, nampak
  alat ukuran itu sah, atau orang biasa/tidak
  terlatih nampak alat ini sebagai sah.
   Bagaimanapun, kesahan muka mempunyai kepentingannya
    sendiri, mempengaruhi orang yang menjawab item inventori
    merasa yakin terhadap inventori tersebut.
   Sekiranyainventori ini dirasakan tidak sesuai, besar
    kemungkinan orang tidak akan menjawab item-itemnya
    secara serius, skornya dirasakan tidak sah dan, dengan
    demikian, tidakboleh digunakan.
   Sebaliknya, kesahan muka juga memberikan masalah kepada
    kesahan konstruk dan kesahan berkaitan kriteria, sebabnya,
    apabila seseorang itu mengetahui siapa yang ingin diukur, dia
    akan memberikan jawapan yang sentiasa “positif”.
 Merujukkepada sejauh mana sesuatu
 alatukuran itu dapat menghasilkan skor
 yang mempunyai hubungan dengan
 beberapa ukuran luaran (kriteria).
 Ukuran  luaran ini boleh dibahagikan kepada
  dua jenis, iaitu pertama, ukuran serentak
  (concurrent measure), iaitu apabila ukuran
  luaran diambil serentak dengan ukuran
  alat;dan kedua, ukuran ramalan (predictive
  measure), iaitu apabila ukuran luaran
  diambilselepas ukuran alat.
 Daripada ukuran-ukuran luaran ini, kita boleh
  mencari kesahan serentak dan kesahan
  ramalan seperti berikut.
 Kesahan serentak merujuk kepada sejauh mana
  sesuatu alat ukuran itudapat menghasilkan skor
  yang mempunyai hubungan dengan
  ukurandaripada alat lain yang diambil serentak.
 Sebagai contoh, sekiranya alat ukuran kecerdasan
  A menghasilkan skor yangmempunyai hubungan
  (pekali korelasi tinggi) yang kuat dengan skor
  daripada alatukuran kecedasan B, maka alat A
  dikatakan mempunyai kesahan serentak
  yangtinggi. Dengan demikian, alat A boleh
  mengganti alat B untuk mengukur kecerdasan
 Kesahan ramalan merujuk kepada sejauh mana
  sesuatu alat ukuran itudapat menghasilkan skor
  yang mempunyai hubungan dengan
  ukurandaripada alat lain yang diambil kemudian
 Sebagai contoh, sekiranya ujian percubaan
  matematik menghasilkan markah yangmempunyai
  hubungan yang kuat dengan gred matematik SPM,
  maka ujian matematikpercubaan dikatakan
  mempunyai kesahan ramalan yang tinggi. Ini
  bermaknapencapaian pelajar dalam ujian
  percubaan dapat meramal keputusan SPM.
 Bagaimanapun, kesahan muka mempunyai
  kepentingannya sendiri, mempengaruhi orangyang
  menjawab item inventori merasa yakin terhadap
  inventori tersebut.
 Sekiranyainventori ini dirasakan tidak sesuai, besar
  kemungkinan orang tidak akan menjawab item-
  itemnya secara serius, skornya dirasakan tidak sah
  dan, dengan demikian, tidakboleh digunakan.
 Sebaliknya, kesahan muka juga memberikan masalah
  kepada kesahankonstruk dan kesahan berkaitan
  kriteria, sebabnya, apabila seseorang itu
  mengetahuisapa yang ingin diukur, dia akan
  memberikan jawapan yang sentiasa “positif”.
 Ketekalanukuran-ukuran   (consistency of
  measures) yang dihasilkan oleh alat
  tersebut(Hanna & Dettmer, 2004).
- Justeru, kebolehpercayaan ujian
  bermaksud ketekalan markah-markah
  yang dihasilkan oleh ujian tersebut
   Darjah ketekalan ukuran-ukuran boleh ditentukan
    dalam pelbagai keadaan, misalnya, apabila ujian
    yang sama diambil oleh pelajar kali kedua, ujian
    yang sama ditadbirkan oleh guru lain,ujian yang
    sama diambil oleh pelajar pada waktu yang
    berbeza (pagi/petang), jawapan kepadaujian yang
    sama diperiksa oleh pemeriksa yang berbeza.
    Ujian yang baik/sesuai adalah ujianyang
    mempunyai darjah ketekalan (degree of
    consistency) yang tinggi, iaitu markah/skoryang
    dihasilkan adalah hampir sama dalam apa jua
    keadaan.
 Dari
     segi definisi operasi, pekali/indeks
 kebolehpercayaan boleh dikira/dianggar
 (compute/estimate) dengan menggunakan
 pekali korelasi antara dua (2) ukuran yang
 boleh dikira menggunakan pelbagai
 kaedah
    Seperti julat pekali korelasi, julat indeks kebolehpercayan juga
    adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif
    menunjukkan ketekalan yang songsang, iaitu pelajar yang mendapat
    skor tinggi dalam ujian kali pertamaakan mendaapat skor yang
    rendah dalam ujian kali kedua, dan sebaliknya. Kita berharap
    keadaan begini tidak berlaku dalam mana-mana ujian.
    Kebiasaannya indeks kebolehpercayaan bernilai positif, dan bagi
    kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai.
   Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan
    mengikut indeks (r) seperti yangditunjukkan dalam Jadual
    5.5.Seterusnya, Mehrens dan Lehmann (1991)
    menyenaraikan lima jenis kebolehpercayaan danjuga kaedah
    menentukan indeksnya. Jenis-jenis kebolehpercayaan
    tersebut ialah: (1) UkuranKestabilan (Measure of Stability),
    Ukuran Kesetaraan (Measure of Equivalence), (3)
    UkuranKesetaraan dan Kesetabilan (Measure of Equivalence
    and Stability ), (4) Ukuran KetekalanDalaman (Measure of
    Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa
    (ScorerReliability). Jenis-jenis kebolehpercayaan, kaedah
    pengukuran dan kaedah pengiraan indekskebolehpercayaan
    berkenaan dijelaskan dalam bahagian berikut.
 Jadual   5.5: Indeks Kebolehpercayaan
  dan Pengkelasan Ujian Nilai
 Nilai (r) Pengkelasan Ujian
 < 0.20 Tidak baik
 0.21 – 0.40 Kurang baik
 0.41 – 0.60 Sederhana baik
 0.61 – 0.80 Baik
 0.81 – 1.00 Sangat baik
 Mehrens dan Lehmann (1991) menyenaraikan
  lima jenis kebolehpercayaan dan
 juga kaedah menentukan indeksnya. Jenis-jenis
  kebolehpercayaan tersebut ialah: (1) Ukuran
 Kestabilan (Measure of Stability), Ukuran
  Kesetaraan (Measure of Equivalence), (3) Ukuran
 Kesetaraan dan Kesetabilan (Measure of
  Equivalence and Stability ), (4) Ukuran Ketekalan
 Dalaman (Measure of Internal Consistency), dan
  (5) Kebolehpercayaan Pemeriksa (Scorer
 Reliability).
 Ukuran  Kestabilan, yang juga dipanggil
  “anggaran kebolehpercayaan uji-uji
 semula” (test-restest estimate of reliability)
  boleh dikira dengan memberikan
 ujian yang sama sekali lagi kepada kumpulan
  pelajar yang sama selepas
 ujian pertama ditadbirkan, dan seterusnya,
  mengira pekali korelasi Pearson
 antara dua/pasangan skor yang diperoleh
  setiap pelajar.
 Berbeza daripada kaedah uji-uji semula yang
  menggunakan ujian yang sama,
 Ukuran Kesetaraan [atau Ukuran Keselarian
  (parallel)] dikira dengan
 memberikan dua (2) ujian yang berbeza tapi setara
  (kesamaan dari segi
 kandungan, Jadual Spesifikasi Ujian, format
  soalan dan arahan menjawab
 serta min, varians dan interkorelasi skor) kepada
  kumpulan pelajar dan hari
 yang sama, dan seterusnya, mengira pekali
  korelasi Pearson antara dua/
 pasangan skor yang diperoleh setiap pelajar.
   Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan
    kepada kita untuk membuat
   generalisasi skor yang akan diperoleh pelajar, sekiranya
    mereka diberi ujian yang terdiri
   daripada item-item lain yang setara dengan item-item ujian
    yang telah diberikan. Ujian
   yang setara ini penting sekiranya seseorang penyelidik
    enggan menggunakan soalan
   yang sama sebagai ujian-pra dan ujian-pos (untuk mengelak
    daripada pelajar menghafal
   jawapan). Dalam hal ini, dua ujian yang setara boleh
    digunakan, satu sebagai ujian-pra
   dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara
    juga boleh digunakan untuk
   menguji dua kumpulan pelajar yang berbeza pada berlainan
    masa.
   Ada kalanya kita ingin melihat ketekalan pencapaian
    seseorang pelajar untuk jangkamasa yang panjang
    dengan menggunakan ujian yang berbeza. Justeru,
    kaedah yang sesuai untuk membuat pengukuran ini
    ialah dengan mentadbirkan ujian kedua yang
    setaradengan ujian pertama (Ukuran Kesetaraan)
    pada suatu masa yang lain (UkuranKestabilan).
    Kebolehpercayaan ini, yang merangkumi Ukuran
    Kesetaraan dan UkuranKestabilan, dinamakan Ukuran
    Kesetaraan dan Kestabilan. Indeks
    kebolehpercayaanini boleh ditentukan oleh pekali
    korelasi Pearson antara dua/pasangan skor yang
    diperolehsetiap pelajar, iaitu skor ujian pertama dan
    skor ujian kedua yang ditadbirkan kemudian
 Berbeza daripada ketiga-tiga ukuran ketekalan
  yang dijelaskan sebelum ini, Ukuran
 Ketekalan Dalaman boleh ditentukan dengan
  menggunakan sekali ujian sahaja. Salah
 satu daripada kaedah yang digunakan untuk
  mengukur ketekalan dalaman ialah dengan
 membelah/memecahkan ujian kepada separuh-
  separuh (split-half), iaitu separuh pertama
 dan separuh kedua. Ukuran Ketekalan Dalaman
  Belah-Dua ini dapat menggambarkan
 kesetaraan dalaman ujian, iaitu antara separuh
  pertama dengan separuh kedua sesuatu
 ujian.
 Kebolehpercayaan    pemeriksa bermaksud
  ketekalan ukuran/skor yang
 diberikan oleh dua atau lebih pemeriksa
  apabila memeriksa kertas jawapan
 yang sama. Kebolehpercayaan ini tidak
  diperlukan bagi ujian berbentuk
 objektif, sebab jawapan kepada setiap soalan
  dalam ujian bentuk ini adalah
 sama, iaitu perbezaan skor antara pemeriksa
  tidak wujud (biasanya jawapan
 diperiksa oleh komputer sahaja).
 Beberapa  faktor didapati mempengaruhi
 kebolehpercayaan ujian, termasuk panjang
 ujian, kehomogenan kumpulan, kesukaran
 item dan objektiviti jawapan.

Tajuk 5

  • 1.
     KESESUAIAN ITEM DAN KEBOLEHPERCAYAAN
  • 2.
     Sejauh mana alat tersebut dapat mengukur apa yang sepatutnya diukur oleh alat tersebut (Hanna & Dettmer,2004).  Ciri kesahan bagi sesuatu alat ukuran adalah amat penting supaya alat ukuran tersebut dapat mengukur apa yang hendak diukur.
  • 3.
     Alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukur sikap, dan bukannya konstruk lain, seperti minat atau motivasi.  Ujian diagnosis adalah tidak sah digunakan untuk tujuan penggredan.  Dalam bidang bahasa,misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehan mengeja; ujian mendengar hanyalah sah, sekiranya ia dapat mengukur kemahiran mendengar.  Contoh: mengenal pasti di antara kecergasan pernafasan kardio dan kebolehan bermain tenis.  Contoh: Ujian kecergasan tidak boleh digunakan untuk menentukan kemahiran dalam permainan tenis.
  • 4.
     Mehrens dan Lehmann (1991) - empat jenis kesahan (1) kesahan kandungan (content validity), (2) kesahan konstruk (contruct validity), (3) kesahan muka (face validity), dan (4) kesahan hubungan kriteria(criterion- related validity).
  • 5.
     Sejauh mana sesuatu alat ukuran itu mencakupi kandungan pelajaran yang telah ditetapkan. Kesahan kandungan adalah penting, terutama bagi ujian pencapaian, sebab markah yangdiperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagi kandungan pelajaran tertentu.  Sekiranya soalan ujian tidak meliputi secukupnya kandungan pelajaran tersebut, penilaian terhadap pencapaian pelajar menjadi tidak sah/bais.
  • 6.
     Beberapakaedah bolehdiguna untuk meningkatkan kesahan kandungan, seperti merujuksemula kepada buku rekod pengajaran dan juga sukatan pelajaran.  Guru boleh menggunakan Jadual Penentuan Ujian (JPU) dan membina soalan-soalan ujian mengikut jadual tersebut. Kaedah-kaedah ini dapat memastikan soalan-soalan ujian mewakili semua objektif pengajaran serta semua tajuk dan kemahiran yang telah diajar.
  • 7.
    1.Pengetahuan  Memerlukan calonmengingat semula.  Contoh kata kerja:  Labelkan (label) , Senaraikan (list), Nyatakan (state), Pilih (select), Ingat kembali (recall), Susun (arrange), Hasilkan semula (reproduce), Hubungkaitkan (relate), Beri definisi (define), Huraikan (describe).
  • 8.
     2. Kefahaman Memerlukan calon memahami dan menghuraikan fakta serta memberi contoh atau illustrasi.  Contoh kata kerja:  Terangkan (explain), Huraikan (describe), Ramalkan (predict), Tukarkan (change), Nyatakan semula (restate), Ringkaskan (summarise), Kaji semula (review), Bincangkan (discuss), Kenalpastikan (identify), Laporkan (report), Terjemahkan (translate).
  • 9.
    3. Aplikasi  Memerlukancalon menyelesaikan masalah „non- routine‟ atau masalah baru. Ciri soalan adalah „problem-solving‟. Masalah diselesaikan dengan cara tersendiri menggunakan gabungan teori, pengalaman dan pelbagai kaedah penyelesaian masalah yang mempunyai unsur persamaan.  Contoh kata kerja:  Aplikasikan (apply), Tunjukkan (show), Kelolakan (organise), Kaitkan (relate), Tafsirkan (interpret), Selesaikan (solve), Lakarkan (sketch), Terapkan (adopt), Jadualkan (schedule).
  • 10.
    4. Analisis  Memerlukancalon menganalisis, memecah/mencerakinkan fakta untuk mengkaji unsur- unsurnya secara mendalam termasuk membanding, membeza, mengupas dan membukti.  Contoh kata kerja:  Analisis (analyse), Taksirkan (appraise), Hitungkan (calculate), Bandingkan (compare), Kategorikan (categorise), Diskriminasikan (discriminate), Kaji (examine), Lakarkan (sketch), Kenalpastikan (identify), Buat kesimpulan (infer), Bahagikan (Subdivide), Tunjukkan (point out), Gariskan (outline), Bezakan (distinguísh/contrast), Buktikan (prove)
  • 11.
    5. Sintesis  Memerlukancalon merancang, mereka/mencipta dan menghasilkan sesuatu yang kreatif yang menggabungkan pelbagai unsur. Ini termasuk penghasilan sesuatu rancangan, rumusan, kaedah/prosedur, atau cadangan.  Contoh kata kerja:  Susunkan (arrange), Bentukkan (formulate), Aturkan (organise), Bina (build), Gambarkan (illustrate), Ubah (change), Karang (compose), Pasang (assemble), Semak (revise), Buat hipotesis (hypothesise), Ramalkan (predict), Uruskan (manage), Susun semula (reorder), Himpunkan (collect), Hasilkan (produce), Rancangkan (plan), Sediakan
  • 12.
    6. Penilaian  Memerlukancalon menilai, membuat pertimbangan atau justifikasi untuk mencapai atau mendapatkan sesuatu kesimpulan. Calon perlu melihat fakta dari aspek „pro dan cons‟ semasa membuat penilaian.  Contoh kata kerja:  Taksirkan (evaluate), Nilaikan (appraise), Pertimbangkan (justify), Gredkan (grade), Sokong (support), Utamakan (prioritise), Arbitrasikan (arbitrate), Pertahankan (defend), Syorkan (recommend), Simpulkan (conclude), Ramalkan (predict), Kritik (criticize).
  • 13.
     Kesahan konstruk/gagasan merujuk kepada sejauh mana sesuatu alat ukuran itu dapat mengukur sesuatu konstruk/gagasan berasaskan teori  Contoh, alat yang dibina untuk mengukur konstruk “sabar” sepatutnya dapat mengukur konstruk ini dengan baik.  Contoh: Kemahiran
  • 14.
     Kesahan muka bukanlah “kesahan” seperti definisinya yang kita fahami, tetapi ia lebih kepada sesuatu alat ukuran “nampak pada permukaannya” mempunyai kesahan yang tinggi.  Ini bermaksud, sekali pandang, nampak alat ukuran itu sah, atau orang biasa/tidak terlatih nampak alat ini sebagai sah.
  • 15.
     Bagaimanapun, kesahan muka mempunyai kepentingannya sendiri, mempengaruhi orang yang menjawab item inventori merasa yakin terhadap inventori tersebut.  Sekiranyainventori ini dirasakan tidak sesuai, besar kemungkinan orang tidak akan menjawab item-itemnya secara serius, skornya dirasakan tidak sah dan, dengan demikian, tidakboleh digunakan.  Sebaliknya, kesahan muka juga memberikan masalah kepada kesahan konstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu mengetahui siapa yang ingin diukur, dia akan memberikan jawapan yang sentiasa “positif”.
  • 16.
     Merujukkepada sejauhmana sesuatu alatukuran itu dapat menghasilkan skor yang mempunyai hubungan dengan beberapa ukuran luaran (kriteria).
  • 17.
     Ukuran luaran ini boleh dibahagikan kepada dua jenis, iaitu pertama, ukuran serentak (concurrent measure), iaitu apabila ukuran luaran diambil serentak dengan ukuran alat;dan kedua, ukuran ramalan (predictive measure), iaitu apabila ukuran luaran diambilselepas ukuran alat.  Daripada ukuran-ukuran luaran ini, kita boleh mencari kesahan serentak dan kesahan ramalan seperti berikut.
  • 18.
     Kesahan serentakmerujuk kepada sejauh mana sesuatu alat ukuran itudapat menghasilkan skor yang mempunyai hubungan dengan ukurandaripada alat lain yang diambil serentak.  Sebagai contoh, sekiranya alat ukuran kecerdasan A menghasilkan skor yangmempunyai hubungan (pekali korelasi tinggi) yang kuat dengan skor daripada alatukuran kecedasan B, maka alat A dikatakan mempunyai kesahan serentak yangtinggi. Dengan demikian, alat A boleh mengganti alat B untuk mengukur kecerdasan
  • 19.
     Kesahan ramalanmerujuk kepada sejauh mana sesuatu alat ukuran itudapat menghasilkan skor yang mempunyai hubungan dengan ukurandaripada alat lain yang diambil kemudian  Sebagai contoh, sekiranya ujian percubaan matematik menghasilkan markah yangmempunyai hubungan yang kuat dengan gred matematik SPM, maka ujian matematikpercubaan dikatakan mempunyai kesahan ramalan yang tinggi. Ini bermaknapencapaian pelajar dalam ujian percubaan dapat meramal keputusan SPM.
  • 20.
     Bagaimanapun, kesahanmuka mempunyai kepentingannya sendiri, mempengaruhi orangyang menjawab item inventori merasa yakin terhadap inventori tersebut.  Sekiranyainventori ini dirasakan tidak sesuai, besar kemungkinan orang tidak akan menjawab item- itemnya secara serius, skornya dirasakan tidak sah dan, dengan demikian, tidakboleh digunakan.  Sebaliknya, kesahan muka juga memberikan masalah kepada kesahankonstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu mengetahuisapa yang ingin diukur, dia akan memberikan jawapan yang sentiasa “positif”.
  • 21.
     Ketekalanukuran-ukuran (consistency of measures) yang dihasilkan oleh alat tersebut(Hanna & Dettmer, 2004). - Justeru, kebolehpercayaan ujian bermaksud ketekalan markah-markah yang dihasilkan oleh ujian tersebut
  • 22.
     Darjah ketekalan ukuran-ukuran boleh ditentukan dalam pelbagai keadaan, misalnya, apabila ujian yang sama diambil oleh pelajar kali kedua, ujian yang sama ditadbirkan oleh guru lain,ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang), jawapan kepadaujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik/sesuai adalah ujianyang mempunyai darjah ketekalan (degree of consistency) yang tinggi, iaitu markah/skoryang dihasilkan adalah hampir sama dalam apa jua keadaan.
  • 23.
     Dari segi definisi operasi, pekali/indeks kebolehpercayaan boleh dikira/dianggar (compute/estimate) dengan menggunakan pekali korelasi antara dua (2) ukuran yang boleh dikira menggunakan pelbagai kaedah
  • 24.
     Seperti julat pekali korelasi, julat indeks kebolehpercayan juga adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif menunjukkan ketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertamaakan mendaapat skor yang rendah dalam ujian kali kedua, dan sebaliknya. Kita berharap keadaan begini tidak berlaku dalam mana-mana ujian. Kebiasaannya indeks kebolehpercayaan bernilai positif, dan bagi kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai.
  • 25.
     Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan mengikut indeks (r) seperti yangditunjukkan dalam Jadual 5.5.Seterusnya, Mehrens dan Lehmann (1991) menyenaraikan lima jenis kebolehpercayaan danjuga kaedah menentukan indeksnya. Jenis-jenis kebolehpercayaan tersebut ialah: (1) UkuranKestabilan (Measure of Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) UkuranKesetaraan dan Kesetabilan (Measure of Equivalence and Stability ), (4) Ukuran KetekalanDalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa (ScorerReliability). Jenis-jenis kebolehpercayaan, kaedah pengukuran dan kaedah pengiraan indekskebolehpercayaan berkenaan dijelaskan dalam bahagian berikut.
  • 26.
     Jadual 5.5: Indeks Kebolehpercayaan dan Pengkelasan Ujian Nilai  Nilai (r) Pengkelasan Ujian  < 0.20 Tidak baik  0.21 – 0.40 Kurang baik  0.41 – 0.60 Sederhana baik  0.61 – 0.80 Baik  0.81 – 1.00 Sangat baik
  • 27.
     Mehrens danLehmann (1991) menyenaraikan lima jenis kebolehpercayaan dan  juga kaedah menentukan indeksnya. Jenis-jenis kebolehpercayaan tersebut ialah: (1) Ukuran  Kestabilan (Measure of Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) Ukuran  Kesetaraan dan Kesetabilan (Measure of Equivalence and Stability ), (4) Ukuran Ketekalan  Dalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa (Scorer  Reliability).
  • 28.
     Ukuran Kestabilan, yang juga dipanggil “anggaran kebolehpercayaan uji-uji  semula” (test-restest estimate of reliability) boleh dikira dengan memberikan  ujian yang sama sekali lagi kepada kumpulan pelajar yang sama selepas  ujian pertama ditadbirkan, dan seterusnya, mengira pekali korelasi Pearson  antara dua/pasangan skor yang diperoleh setiap pelajar.
  • 29.
     Berbeza daripadakaedah uji-uji semula yang menggunakan ujian yang sama,  Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira dengan  memberikan dua (2) ujian yang berbeza tapi setara (kesamaan dari segi  kandungan, Jadual Spesifikasi Ujian, format soalan dan arahan menjawab  serta min, varians dan interkorelasi skor) kepada kumpulan pelajar dan hari  yang sama, dan seterusnya, mengira pekali korelasi Pearson antara dua/  pasangan skor yang diperoleh setiap pelajar.
  • 30.
     Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan kepada kita untuk membuat  generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang terdiri  daripada item-item lain yang setara dengan item-item ujian yang telah diberikan. Ujian  yang setara ini penting sekiranya seseorang penyelidik enggan menggunakan soalan  yang sama sebagai ujian-pra dan ujian-pos (untuk mengelak daripada pelajar menghafal  jawapan). Dalam hal ini, dua ujian yang setara boleh digunakan, satu sebagai ujian-pra  dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara juga boleh digunakan untuk  menguji dua kumpulan pelajar yang berbeza pada berlainan masa.
  • 31.
     Ada kalanya kita ingin melihat ketekalan pencapaian seseorang pelajar untuk jangkamasa yang panjang dengan menggunakan ujian yang berbeza. Justeru, kaedah yang sesuai untuk membuat pengukuran ini ialah dengan mentadbirkan ujian kedua yang setaradengan ujian pertama (Ukuran Kesetaraan) pada suatu masa yang lain (UkuranKestabilan). Kebolehpercayaan ini, yang merangkumi Ukuran Kesetaraan dan UkuranKestabilan, dinamakan Ukuran Kesetaraan dan Kestabilan. Indeks kebolehpercayaanini boleh ditentukan oleh pekali korelasi Pearson antara dua/pasangan skor yang diperolehsetiap pelajar, iaitu skor ujian pertama dan skor ujian kedua yang ditadbirkan kemudian
  • 32.
     Berbeza daripadaketiga-tiga ukuran ketekalan yang dijelaskan sebelum ini, Ukuran  Ketekalan Dalaman boleh ditentukan dengan menggunakan sekali ujian sahaja. Salah  satu daripada kaedah yang digunakan untuk mengukur ketekalan dalaman ialah dengan  membelah/memecahkan ujian kepada separuh- separuh (split-half), iaitu separuh pertama  dan separuh kedua. Ukuran Ketekalan Dalaman Belah-Dua ini dapat menggambarkan  kesetaraan dalaman ujian, iaitu antara separuh pertama dengan separuh kedua sesuatu  ujian.
  • 33.
     Kebolehpercayaan pemeriksa bermaksud ketekalan ukuran/skor yang  diberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas jawapan  yang sama. Kebolehpercayaan ini tidak diperlukan bagi ujian berbentuk  objektif, sebab jawapan kepada setiap soalan dalam ujian bentuk ini adalah  sama, iaitu perbezaan skor antara pemeriksa tidak wujud (biasanya jawapan  diperiksa oleh komputer sahaja).
  • 34.
     Beberapa faktor didapati mempengaruhi kebolehpercayaan ujian, termasuk panjang ujian, kehomogenan kumpulan, kesukaran item dan objektiviti jawapan.