Ch09 lengkap

Chapter 9
Addressing Methodological Challenges
(Mengatasi Tantangan Metodologis)
Heterogeneous Treatment Effects
(Efek Treatment Heterogen)
Kami telah melihat bahwa sebagian besar metode evaluasi dampak menghasilkan estimasi kontra
faktual yang valid hanya berdasarkan asumsi tertentu. Risiko utama dalam menerapkan metode
apa pun adalah bahwa asumsi yang mendasarinya tidak berlaku, menghasilkan estimasi yang bias
dari dampak program. Tetapi ada juga sejumlah risiko lain yang umum bagi sebagian besar
metodologi yang telah kita diskusikan. Kami akan membahas yang utama dalam bab ini.
Satu jenis risiko muncul jika Anda memperkirakan dampak program pada seluruh
kelompok, dan hasil Anda menutupi beberapa perbedaan dalam response terhadap treatment di
antara penerima yang berbeda (different recipients), yaitu, efek treatment yang heterogen.
Sebagian besar metode evaluasi dampak mengasumsikan bahwa suatu program mempengaruhi
hasil dengan cara yang sederhana dan linier untuk semua unit dalam populasi.
Jika Anda berpikir bahwa sub populasi yang berbeda mungkin mengalami dampak
program yang sangat berbeda, maka Anda mungkin ingin mempertimbangkan untuk membuat
stratifikasi sampel oleh/menurut (by) masing-masing sub populasi. Katakanlah, misalnya, bahwa
Anda tertarik untuk mengetahui dampak dari program jamuan sekolah pada anak perempuan
(school meal program on girls), tetapi hanya 10 persen siswa yang perempuan. Dalam hal itu,
bahkan sampel acak yang besar dari siswa mungkin tidak mengandung sejumlah gadis yang cukup
untuk memungkinkan Anda memperkirakan dampak program terhadap anak perempuan. Untuk
desain sampel evaluasi Anda, Anda ingin membuat stratifikasi sampel berdasarkan jenis kelamin
dan memasukkan sejumlah besar gadis untuk memungkinkan Anda mendeteksi ukuran efek yang
diberikan (given effect size).

Unintended Behavioral Effects
(Efek Perilaku yang Tidak Disengaja)
Saat melakukan evaluasi dampak, Anda juga dapat memicu respons perilaku yang tidak diinginkan
(unintended behavioral responses) dari populasi yang Anda pelajari, sebagai berikut:
 Efek Hawthorne (The Hawthorne effect) terjadi ketika fakta bahwa Anda sedang
mengamati unit membuatnya berperilaku berbeda (lihat box 9.1).
 Efek John Henry (The John Henry effect) terjadi ketika unit pembanding (comparison)
bekerja lebih keras untuk mengimbangi/mengkompensasi karena tidak ditawarkan
treatment (lihat box 9.1).
 Antisipasi (Anticipation) dapat menyebabkan/mengarahkan pada jenis lain dari efek
perilaku yang tidak diinginkan (unintended behavioral effect). Dalam peluncuran acak
(randomized rollout), unit dalam kelompok pembanding (comparison) dapat berharap
untuk menerima program di masa depan dan mulai mengubah perilaku mereka sebelum
program benar-benar mencapai (reaches) mereka.
 Bias substitusi (Substitution bias) adalah efek perilaku lain yang mempengaruhi
kelompok pembanding (comparison): unit yang tidak dipilih untuk menerima program
mungkin dapat menemukan pengganti yang baik (good substitutes) melalui inisiatif mereka
sendiri.
Respon perilaku (Behavioral responses) yang secara tidak proporsional mempengaruhi kelompok
pembanding (comparison) adalah masalah karena mereka dapat merusak validitas internal
(internal validity) dari hasil evaluasi, bahkan jika Anda menggunakan penugasan acak
(randomized assignment) sebagai metode evaluasi. Kelompok pembanding (comparison) yang
bekerja lebih keras untuk mengimbangi/mengkompensasi karena tidak ditawari treatment, atau
bahwa perubahan perilaku mengantisipasi program, bukanlah representasi yang baik dari
kontrafaktual.
Jika Anda memiliki alasan untuk meyakini bahwa respons perilaku yang tidak diinginkan
(unintended behavioral responses) ini mungkin ada, maka membangun kelompok pembanding
tambahan (additional comparison groups) yang sama sekali tidak terpengaruh oleh intervensi
kadang-kadang merupakan sebuah opsi — opsi yang memungkinkan Anda menguji secara

eksplisit untuk respons semacam itu. Mungkin juga merupakan ide yang baik untuk
mengumpulkan data kualitatif untuk lebih memahami respons perilaku (behavioral responses).
Box 9.1: Folk Tales of Impact Evaluation: The Hawthorne Effect and the John Henry Effect
(Box 9.1: Cerita Rakyat mengenai Evaluasi Dampak: Efek Hawthorne dan Efek John
Henry)
Istilah efek Hawthorne (Hawthorne effect) mengacu pada eksperimen yang dilakukan dari tahun
1924 hingga 1932 di Hawthorne Works, sebuah pabrik peralatan listrik di negara bagian Illinois
di AS. Eksperimen menguji dampak perubahan kondisi kerja (seperti meningkatkan atau
mengurangi intensitas cahaya) pada produktivitas pekerja, dan mereka menemukan bahwa setiap
perubahan dalam kondisi kerja (lebih banyak atau lebih sedikit cahaya, lebih banyak atau lebih
sedikit istirahat, dan sejenisnya) menyebabkan peningkatan produktivitas. Ini diinterpretasikan
sebagai efek pengamatan (observation effect): pekerja yang menjadi bagian dari percobaan
(experiment) melihat diri mereka istimewa, dan produktivitas mereka meningkat karena ini dan
bukan karena perubahan kondisi kerja. Sementara eksperimen asli kemudian (original experiments
later) menjadi subjek kontroversi dan agak didiskreditkan, istilah efek Hawthorne macet (stuck).
Istilah efek John Henry (John Henry effect)diciptakan oleh Gary Saretsky pada tahun 1972
untuk merujuk pada pahlawan rakyat Amerika legendaris John Henry, seorang "manusia baja
(steeldriving man)" yang bertugas mengendarai bor baja ke batu untuk membuat lubang untuk
bahan peledak selama pembangunan terowongan kereta api. Menurut legenda, ketika dia
mengetahui bahwa dia dibandingkan dengan bor uap, dia bekerja lebih keras untuk mengungguli
mesin. Sayangnya, dia meninggal sebagai akibatnya. Tetapi istilah itu terus hidup untuk
menunjukkan bagaimana unit perbandingan (comparison) kadang-kadang bekerja lebih keras
untuk mengimbangi/mengkompensasi tidak ditawarkannya sebuah treatment.
Sources: Landsberger 1958; Levitt and List 2009; Saretsky 1972.

Imperfect Compliance
(Kepatuhan yang tidak sempurna)
Kepatuhan yang tidak sempurna adalah perbedaan antara status perlakuan/treatmen yang
ditetapkan dan status perlakuan aktual. Kepatuhan yang tidak sempurna terjadi ketika beberapa
unit yang ditugaskan pada kelompok perlakuan tidak menerima perlakuan, dan ketika beberapa
unit yang ditugaskan pada kelompok pembanding menerima perlakuan. Dalam bab 5, kami
membahas kepatuhan tidak sempurna sehubungan dengan penugasan acak (random assigment),
tetapi kepatuhan tidak sempurna juga dapat terjadi dalam desain regression discontinuity (seperti
yang dibahas dalam bab 6) dan dalam difference in difference (Bab 7). Sebelum Anda dapat
menginterpretasikan perkiraan dampak yang dihasilkan oleh metode apa pun, Anda perlu
mengetahui apakah kepatuhan yang tidak sempurna telah terjadi dalam program. Kepatuhan yang
tidak sempurna dapat terjadi dalam berbagai cara:
 Tidak semua peserta program yang dituju benar-benar berpartisipasi dalam program ini.
Kadang-kadang unit yang ditugaskan untuk suatu program memilih untuk tidak
berpartisipasi.
 Beberapa peserta yang dimaksudkan dikeluarkan dari program karena kesalahan
administrasi atau implementasi.
 Beberapa unit kelompok pembanding secara keliru menawarkan program dan mendaftar
di dalamnya.
 Beberapa unit kelompok pembanding berhasil berpartisipasi dalam program, meskipun
tidak ditawarkan kepada mereka.
 Program ditugaskan berdasarkan indeks kelayakan berkelanjutan, tetapi batas kelayakan
tidak ditegakkan secara ketat.
 Migrasi selektif terjadi berdasarkan status perlakuan. Sebagai contoh, evaluasi dapat
membandingkan hasil untuk kota yang diberi perlakuan dan tidak diberi perlakuan, tetapi
individu dapat memilih untuk pindah ke kota lain jika mereka tidak menyukai status
perlakuan kotamadya mereka.
Secara umum, dalam kepatuhan yang tidak sempurna, metode evaluasi dampak standar
menghasilkan perkiraan niat-untuk-perlakuan (intention-to-treat). Namun, efek perlakuan rata-

rata lokal dapat dipulihkan dari perkiraan niat-untuk-perlakuan menggunakan pendekatan variabel
instrumental.
Dalam bab 5, kami menyajikan intuisi untuk menyelesaikan kepatuhan yang tidak
sempurna dalam konteks penugasan acak. Dengan menggunakan penyesuaian persentase
penyesuai dalam sampel evaluasi, kami dapat memulihkan efek perlakuan rata-rata lokal untuk
menyesuaikan dari perkiraan niat-untuk-perlakuan. "Perbaikan" ini dapat diperluas ke metode lain
melalui penerapan pendekatan variabel instrumental yang lebih umum. Variabel instrumental
berisi sumber variasi eksternal yang membantu Anda menjernihkan, atau memperbaiki, bias yang
mungkin berasal dari kepatuhan yang tidak sempurna. Dalam kasus penugasan acak dengan
kepatuhan tidak sempurna, kami menggunakan variabel 0/1 (variabel dummy) yang mengambil
nilai 1 jika unit awalnya ditugaskan ke kelompok perlakuan, dan 0 jika unit awalnya ditugaskan
untuk kelompok pembanding. Selama tahap analisis, variabel instrumental digunakan dalam
konteks two-stage-regression yang memungkinkan Anda untuk mengidentifikasi dampak dari
perlakuan pada penyesuai.
Logika pendekatan variabel instrumental dapat diperluas dalam konteks metode evaluasi lainnya:
 Dalam konteks desain regresi discontinuity, variabel instrumental yang akan Anda
gunakan adalah variabel 0/1 yang menunjukkan apakah unit berada di sisi yang tidak
memenuhi syarat atau sisi yang memenuhi syarat dari skor cutoff.
 Dalam konteks migrasi selektif, variabel instrumental yang mungkin untuk lokasi individu
setelah dimulainya program adalah lokasi individu sebelum pengumuman program.
Meskipun ada kemungkinan menangani kepatuhan yang tidak sempurna menggunakan variabel
instrumental, tiga poin penting untuk diingat:
1. Dari sudut pandang teknis, tidak diinginkan untuk memiliki sejumlah besar kelompok
pembanding yang ikut mendaftar dalam program. Ketika porsi kelompok pembanding
yang mendaftar dalam program meningkat, fraksi yang memenuhi persyaratan dalam
populasi akan berkurang, dan efek perlakuan rata-rata lokal yang diestimasi dengan metode
variabel instrumental hanya akan berlaku untuk sebagian kecil dari populasi yang diminati.
Jika ini berlangsung terlalu lama, hasilnya mungkin kehilangan semua kebijakan yang

signifikan, karena mereka tidak lagi berlaku untuk bagian yang cukup dari populasi yang
diminati.
2. Sebaliknya, tidak diinginkan untuk memiliki sebagian besar kelompok perlakuan tetap
tidak terdaftar. Sekali lagi, ketika porsi kelompok perlakuan yang mendaftar dalam
program menurun, fraksi penyesuai dalam populasi menurun. Efek perlakuan rata-rata
lokal yang diperkirakan dengan metode variabel instrumental hanya akan valid untuk
sebagian kecil populasi yang menyusut.
3. Sebagaimana dibahas dalam Bab 5, metode variabel instrumental hanya valid dalam
keadaan tertentu; ini jelas bukan solusi universal.
Spillover
Limpahan (atau efek limpahan) adalah masalah umum lain yang dapat mempengaruhi evaluasi,
apakah mereka menggunakan penugasan acak, desain diskontinuitas regresi, atau metode
perbedaan-dalam-perbedaan. Limpahan terjadi ketika intervensi memengaruhi orang yang tidak
berpartisipasi, dan itu mungkin positif atau negatif. Ada empat jenis efek limpahan, menurut
Angelucci dan Di Maro (2015):
 Eksternalitas. Ini adalah efek yang berubah dari subjek yang diobati ke subjek yang tidak
diobati. Misalnya, memvaksinasi anak-anak di desa terhadap influenza mengurangi
kemungkinan bahwa penduduk yang tidak divaksinasi di desa yang sama akan tertular penyakit
ini. Ini adalah contoh dari eksternalitas positif. Eksternalitas mungkin juga negatif. Misalnya,
tanaman petani dapat dihancurkan sebagian ketika tetangganya menggunakan herbisida di
lahannya sendiri dan beberapa herbisida berhembus ke sisi lain dari garis properti.
 Interaksi sosial. Limpahan mungkin timbul dari interaksi sosial dan ekonomi antara populasi
yang dirawat dan yang tidak diolah, yang mengarah ke dampak tidak langsung pada yang tidak
diolah. Misalnya, seorang siswa yang menerima tablet sebagai bagian dari program peningkatan
pembelajaran berbagi tablet dengan siswa lain yang tidak berpartisipasi dalam program ini.
 Efek kesetimbangan konteks. Efek ini terjadi ketika intervensi mempengaruhi norma-norma
perilaku atau sosial dalam konteks yang diberikan, seperti lokalitas yang dirawat. Misalnya,

meningkatkan jumlah sumber daya yang diterima pusat kesehatan yang dirawat sehingga
mereka dapat memperluas jangkauan layanan mereka dapat memengaruhi harapan dari populasi
tentang apa yang seharusnya menjadi kisaran layanan yang ditawarkan di semua pusat
kesehatan.
 Efek keseimbangan umum. Efek ini terjadi ketika intervensi mempengaruhi penawaran dan
permintaan barang atau jasa, dan dengan demikian mengubah harga pasar untuk layanan
tersebut. Sebagai contoh, sebuah program yang memberikan voucher wanita miskin untuk
menggunakan fasilitas pribadi untuk melahirkan mungkin tiba-tiba meningkatkan permintaan
untuk layanan di fasilitas pribadi, sehingga meningkatkan harga layanan untuk semua orang.
Kotak 9.2 menyajikan contoh limpahan negatif karena efek ekuilibrium umum dalam konteks
program pelatihan kerja.
Jika nonpartisipan yang mengalami spillover adalah anggota dari kelompok pembanding, maka
spillover melanggar persyaratan dasar bahwa hasil dari satu unit tidak terpengaruh oleh penugasan
perawatan tertentu ke unit lain. Asumsi nilai perlakuan unit stabil ini (SUTVA) diperlukan untuk
memastikan bahwa penetapan acak menghasilkan estimasi dampak yang tidak bias. Secara intuitif,
jika kelompok pembanding secara tidak langsung dipengaruhi oleh perlakuan yang diterima oleh
kelompok perlakuan (misalnya, siswa pembanding meminjam tablet dari siswa yang dirawat),
maka pembandingnya tidak. Jika nonpartisipan yang mengalami spillover adalah anggota dari
kelompok pembanding, maka spillover melanggar persyaratan dasar bahwa hasil dari satu unit
tidak terpengaruh oleh penugasan perawatan tertentu ke unit lain. Asumsi nilai perlakuan unit
stabil ini (SUTVA) diperlukan untuk memastikan bahwa penetapan acak menghasilkan estimasi
dampak yang tidak bias. Secara intuitif, jika kelompok pembanding secara tidak langsung
dipengaruhi oleh perlakuan yang diterima oleh kelompok perlakuan (misalnya, siswa pembanding
meminjam tablet dari siswa yang dirawat), maka perbandingan tersebut tidak secara akurat
mewakili apa yang akan terjadi pada kelompok perlakuan tanpa pengobatan. (kontrafaktual).
Jika nonpartisipan yang mengalami limpahan bukan anggota kelompok pembanding, maka asumsi
SUTVA akan berlaku, dan kelompok pembanding masih akan memberikan perkiraan yang baik
dari kontrafaktual. Namun, kami masih ingin mengukur limpahan karena ini mewakili dampak
nyata program. Dengan kata lain, membandingkan hasil dari kelompok perlakuan dan pembanding
akan menghasilkan perkiraan yang tidak bias dari dampak pengobatan pada kelompok yang
diobati, tetapi ini tidak akan memperhitungkan dampak program pada kelompok lain.

Sebuah contoh klasik dari limpahan akibat eksternalitas disajikan oleh Kremer dan Miguel (2004),
yang meneliti dampak pemberian obat cacing pada anak-anak di sekolah-sekolah Kenya (kotak
9.3). Cacing usus adalah parasit yang dapat ditularkan dari satu orang ke orang lain melalui kontak
dengan kotoran yang terkontaminasi. Ketika seorang anak menerima obat cacing, beban cacingnya
akan berkurang, tetapi demikian juga cacing akan memuat orang-orang yang tinggal di lingkungan
yang sama, karena mereka tidak akan lagi bersentuhan dengan cacing anak. Jadi dalam contoh di
Kenya, ketika obat diberikan kepada anak-anak di satu sekolah, obat itu tidak hanya bermanfaat
bagi anak-anak itu (manfaat langsung) tetapi juga mereka yang ada di sekolah tetangga (manfaat
tidak langsung).
Box 9.2 Limpahan Negatif Karena Efek Ekuilibrium Umum: Bantuan Penempatan Kerja
dan Hasil Pasar Tenaga Kerja di Prancis
Program bantuan penempatan kerja sangat populer di banyak negara industri. Pemerintah membuat
kontrak dengan entitas pihak ketiga untuk membantu pekerja yang menganggur dalam pencarian
pekerjaan mereka. Banyak penelitian menemukan bahwa program konseling ini memiliki dampak
yang signifikan dan positif pada pencari kerja.
Crépon dkk. (2013) menyelidiki apakah memberikan bantuan pekerjaan kepada pencari kerja muda
dan berpendidikan di Prancis mungkin memiliki efek negatif pada pencari kerja lain yang tidak
didukung oleh program. Mereka berhipotesis bahwa mekanisme spillover mungkin sedang bekerja:
ketika pasar tenaga kerja tidak tumbuh banyak, membantu satu pencari kerja untuk menemukan
pekerjaan mungkin akan merugikan pencari kerja lain yang mungkin mendapatkan pekerjaan yang
diperoleh oleh pencari kerja yang mendapat konseling. Untuk menyelidiki hipotesis ini, mereka
melakukan percobaan acak yang melibatkan 235 pasar tenaga kerja (seperti kota) di Perancis.
Pasar tenaga kerja ini dialokasikan secara acak ke salah satu dari lima kelompok, yang bervariasi
dalam hal proporsi pencari kerja yang akan ditugaskan untuk perawatan konseling (0 persen, 25
persen, 50 persen, 75 persen, dan 100 persen). Dalam setiap pasar tenaga kerja, pencari kerja yang
memenuhi syarat secara acak ditugaskan untuk perawatan setelah proporsi ini. Setelah delapan bulan,
para peneliti menemukan bahwa kaum muda yang menganggur yang ditugaskan untuk program ini
secara signifikan lebih mungkin menemukan pekerjaan yang stabil daripada mereka yang tidak.
Tetapi keuntungan ini tampaknya datang sebagian dengan mengorbankan pekerja yang memenuhi
syarat yang tidak mendapat manfaat dari program ini

Seperti yang digambarkan pada Gambar 9.1, cacing anak-anak di sekolah kelompok A juga
mengurangi jumlah cacing yang mempengaruhi anak-anak yang tidak menghadiri sekolah
kelompok A. Secara khusus, ini dapat mengurangi jumlah cacing yang memengaruhi anak-anak
yang menghadiri sekolah perbandingan kelompok B, yang terletak dekat dengan sekolah
kelompok A. Namun, sekolah pembanding yang lebih jauh dari sekolah kelompok A - sekolah
kelompok C - tidak mengalami efek limpahan seperti itu karena obat yang diberikan dalam
kelompok A tidak membunuh cacing yang mempengaruhi anak-anak yang menghadiri sekolah
kelompok C. Evaluasi dan hasilnya dibahas lebih rinci dalam kotak 9.3.
Designing an Impact Evaluation That Accounts for Spillovers
(Merancang Evaluasi Dampak dengan Mempertimbangkan adanya Spillovers)
Katakan bahwa Anda sedang merancang evaluasi dampak untuk suatu program di mana
Anda berpikir ada kemungkinan bahwa spillover akan terjadi. Bagaimana pendekatan yang harus
dilakukan? Hal pertama yang harus dilakukan adalah menyadari bahwa tujuan dari evaluasi Anda
yang perlu untuk diperluas. Jika evaluasi standar bertujuan untuk memperkirakan dampak (atau
efek sebab akibat) dari suatu program terkait tujuan/hasil tertentu bagi unit yang menerima
perlakuan, evaluasi dengan kemungkinan terjadinya spillovers ini harus menjawab 2 pertanyaan:
1. Pertanyaan evaluasi standar untuk dampak langsung. Apa dampaknya (atau pengaruh sebab
akibat) dari suatu program pada pencapaian hasil bagi unit yang menerima perlakuan? Ini
adalah dampak langsung dari program ini pada kelompok perlakuan.
2. Pertanyaan evaluasi tambahan untuk dampak tidak langsung (atau efek sebab akibat) dari
suatu program pada pencapaian hasil bagi unit yang tidak menerima perlakuan? Ini adalah
dampak tidak langsung dari program tersebut memiliki pada kelompok pembanding.

Box 9.3 Bekerja dengan Spillover: Deworming, Eksternalitas, dan Pendidikan di Kenya
Proyek Deworming pada level Sekolah Dasar di Busia, Kenya, dirancang untuk menguji varietas dari
aspek perawatan dan pencegahan cacing. Itu dilakukan oleh organisasi internasional nirlaba Belanda-
African Child Support, bekerja sama dengan kementerian kesehatan setempat. Proyek ini melibatkan
75 sekolah secara total dengan jumlah peserta program lebih dari 30.000 siswa antara usia 6 dan 18.
Para siswa dirawat dengan obat cacing menurut rekomendasi WHO, dan juga mendapat edukasi
terkait pencegahan cacingan dalam bentuk kesehatan kuliah, bagan dinding, dan pelatihan guru.
Karena kendala administrasi dan dana, peluncuran bertahap sesuai dengan urutan abjad nama sekolah,
dengan kelompok pertama dari 25 sekolah dimulai pada tahun 1998, kelompok kedua pada tahun
1999, dan kelompok ketiga pada tahun 2001. Dengan melakukan randomisasi di tingkat sekolah, studi
Kremer dan Miguel (2004) bertujuan memperkirakan dampak cacing di sekolah dan untuk
mengidentifikasi limpahan di sekolah menggunakan variasi eksogen yaitu kedekatan sekolah
perbandingan ke sekolah pengobatan. Meskipun kepatuhan dengan desain acak relatif tinggi (dengan
75 persen siswa ditugaskan untuk pengobatan yang menerima obat cacing, dan hanya sebagian kecil
dari unit kelompok pembanding yang menerima pengobatan), peneliti juga bisa memanfaatkan
ketidakpatuhan ini untuk menentukan dengan eksternalitas kesehatan sekolah, atau limpahan. Efek
langsung dari intervensi adalah untuk mengurangi infeksi cacing sedang hingga berat sebesar 26 poin
persen untuk siswa yang minum obat cacing. Sementara itu, infeksi sedang sampai berat di antara
siswa yang menghadiri sekolah pengobatan tetapi tidak minum obat turun 12 poin persentase melalui
efek limpahan tidak langsung. Ini menunjukkan ada eksternalitas di antara mereka sekolah.
Karena biaya pencegahan cacingan adalah sangat rendah dan dampak kesehatan dan pendidikan
relatif tinggi, para peneliti menyimpulkan bahwa program pencegahan cacingan adalah program yang
relatif hemat biaya yang dapat digunakan sebagai cara untuk meningkatkan tingkat partisipasi anak
sekolah (APS). Studi ini juga menggambarkan bahwa penyakit tropis seperti cacingan mungkin
memainkan peran penting dalam hasil pendidikan dan memperkuat klaim bahwa beban tinggi
penyakit di Afrika kaitannya dengan rendahnya pendapatan masyarakat Afrika. Demikian Kremer
dan Miguel berpendapat bahwa penelitian itu membuat kasus yang kuat untuk subsidi publik untuk
perawatan penyakit dengan spillover serupa manfaat di negara-negara berkembang.

Untuk memperkirakan dampak langsung pada kelompok perlakuan, Anda harus memilih
kelompok pembanding sedemikian rupa sehingga tidak terpengaruh oleh spillover. Misalnya,
Anda mungkin meminta agar desa, klinik, atau rumah tangga pembanding terletak cukup jauh satu
sama lain sehingga spillover tidak mungkin.
Evaluasi dengan spillover menimbulkan beberapa tantangan khusus. Pertama, kapan
kemungkinan efek spillover terjadi, penting untuk memahami mekanisme tumpahan: biologis,
sosial, lingkungan, atau sejenisnya. Jika kita tidak tahu apa mekanisme spillover itu, kita tidak
akan bisa memilih secara akurat kelompok pembanding yang sedang dan tidak terpengaruh oleh
spillover. Kedua, sebuah evaluasi dengan spillover membutuhkan pengumpulan data yang lebih
luas daripada evaluasi yang tidak memperhatikan efek spillover: ada kelompok pembanding
tambahan (dalam contoh sebelumnya, desa terdekat). Anda mungkin juga perlu mengumpulkan
data unit tambahan (dalam contoh sebelumnya, orang dewasa dalam rumah tangga menjadi sasaran

kunjungan gizi untuk anak-anak). Kotak 9.4 meneliti bagaimana para peneliti menangani limpahan
dalam evaluasi program transfer tunai bersyarat di Meksiko.
Box 9.4 MengevaluasiEfek Limpahan: Transfer Tunai Bersyarat dan Limpahan di Meksiko
Angelucci dan De Giorgi (2009) diperiksa limpahan dalam program transfer tunai yaitu Progresa di
Meksiko. Peneliti berusaha mencari tahu apakah ada berbagi risiko di dalam suatu desa. Jika rumah
tangga berbagi risiko bersama, maka rumah tangga yang memenuhi syarat bisa mentransfer sebagian
dari transfer tunai ke rumah tangga yang tidak memenuhi syarat melalui pinjaman atau hadiah.
Program Progresa secara bertahap di lebih dari dua tahun, dengan 320 desa secara acak dipilih untuk
menerima transfer tunai pada tahun 1998, dan 186 pada tahun 1999. Jadi antara tahun 1998 dan 1999
ada 320 desa perlakuan dan 186 desa pembanding. Di dalam desa-desa perlakuan, sebuah rumah
tangga berhak atas Progresa transfer ditentukan berdasarkan status kemiskinan. Data sensus
dikumpulkan untuk kedua kelompok. Ini menciptakan empat subkelompok dalam sampel: populasi
yang memenuhi syarat dan tidak memenuhi syarat di kedua desa perlakuan dan pembanding. Dengan
asumsi bahwa program itu tidak secara langsung mempengaruhi desa pembanding, rumah tangga
yang tidak memenuhi syarat dalam perbandingan desa menyediakan kontrafaktual yang valid untuk
rumah tangga yang tidak memenuhi syarat di desa-desa perlakuan, untuk tujuan memperkirakan
tumpahan desa ke keluarga yang tidak memenuhi syarat.
Para peneliti menemukan bukti bahwa konsumsi untuk makanan meningkat sekitar 10 persen per
bulan di rumah tangga yang tidak memenuhi syarat pada desa perlakuan. Ini sekitar setengah dari
rata-rata peningkatan konsumsi makanan di antara rumah tangga yang memenuhi syarat. Hasil ini
mendukung hipotesis pembagian risiko di desa. Rumah tangga yang tidak memenuhi syarat di desa
perlakuan menerima lebih banyak pinjaman dan transfer dari keluarga dan teman daripada rumah
tangga yang tidak memenuhi syarat di desa-desa perbandingan. Ini menyiratkan bahwa efek spillover
dioperasikan melalui asuransi lokal dan pasar kredit. Berdasarkan hasil ini, Angelucci dan De Giorgi
menyimpulkan bahwa evaluasi sebelumnya Progresa meremehkan dampak dari Program sebesar 12
persen karena mereka tidak mempertimbangkan efek tidak langsung yang terjadi pada ruta yang tidak
memenuhi syarat di desa perlakuan.

Attrition/Gesekan/Pengurangan
Bias gesekan adalah masalah umum yang dapat mempengaruhi evaluasi,apakah ketika
menggunakan randomized assignment, desain diskontinuitas regresi, atau metode difference in
difference. Gesekan terjadi ketika bagian sampel menghilang seiring waktu, dan peneliti tidak
dapat menemukan semuanya anggota awal kelompok perlakuan dan pembanding dalam survei
tindak lanjut atau data. Misalnya, dari 2.500 rumah tangga yang disurvei dalam baseline, peneliti
hanya dapat menemukan 2.300 dalam survei tindak lanjut dua tahun kemudian. Jika para peneliti
kembali dan mencoba menghidupkan kembali kelompok yang sama, katakanlah, 10 tahun
kemudian, mereka mungkin dapat menemukan lebih sedikit rumah tangga asli.
Gesekan mungkin terjadi karena berbagai alasan. Misalnya, anggota rumah tangga atau bahkan
seluruh rumah tangga mungkin pindah ke desa lain, kota, wilayah, atau bahkan negara. Dalam
sebuah contoh baru-baru ini dari tindak lanjut jangka panjang dari intervensi pengembangan anak
usia dini di Jamaika, pada tindak lanjut 22 tahun survei, 18 persen dari sampel telah bermigrasi ke
luar negeri (lihat kotak 9.5). Di dalam kasus lain, responden mungkin tidak lagi mau menanggapi
survei tambahan. Atau konflik dan kurangnya keamanan di daerah mungkin mencegah tim peneliti
dari melakukan survei di beberapa lokasi yang termasuk dalam baseline.
Gesekan bisa menjadi masalah karena dua alasan. Pertama, sampel tindak lanjut mungkin tidak
lagi secara akurat mewakili populasi yang diminati. Ingat bahwa ketika kita memilih sampel pada
saat randomized assignment, kami memilihnya sehingga secara akurat mewakili populasi yang
diminati. Dengan kata lain, kami memilih sampel yang memiliki validitas eksternal untuk populasi
yang kami minati. Jika survei lanjutan atau pengumpulan data dirusak oleh substansial gesekan,
kami akan khawatir bahwa sampel tindak lanjut mungkin hanya mewakili bagian tertentu dari
populasi yang diminati. Sebagai contoh, jika orang-orang yang paling terdidik dalam sampel asli
juga orang-orang yang bermigrasi, survei tindak lanjut kami akan kehilangan orang-orang yang
berpendidikan dan tidak ada lagi secara akurat mewakili populasi yang diminati, termasuk orang-
orang yang berpendidikan.
Kedua, sampel tindak lanjut mungkin tidak lagi seimbang antara kelompok yang diberi treatment
dan kelompok pembanding. Katakanlah Anda mencoba mengevaluasi suatu program yang
mencoba meningkatkan pendidikan anak perempuan, dan bahwa anak perempuan yang
berpendidikan lebih tinggi kemungkinan akan pindah ke kota untuk mencari pekerjaan. Maka
survei tindak lanjut Anda mungkin menunjukkan gesekan yang sangat tinggi pada kelompok

treatment, dibandingkan dengan kelompok pembanding. Ini dapat memengaruhi validitas internal
program: dengan membandingkan unit treatment dan perbandingan yang Anda temukan pada
tindak lanjut, Anda tidak akan lagi dapat secara akurat memperkirakan dampak dari program.
Box 9.5: Gesekan dalam Studi dengan Tindak Lanjut Jangka Panjang: Perkembangan Anak Usia Dini dan Migrasi
di Jamaika
Gesekan bisa sangat bermasalah di mana bertahun-tahun telah berlalu survei dasardan tindak lanjut. Di 1986, sebuah
tim di University of the West Hindia memulai penelitian untuk mengukur jangka panjang hasil dari intervensi anak
usia dini di Jamaika. Pada tahun 2008, tindak lanjutnya adalah dilakukan saat peserta asli berusia 22 tahun. Itu
menantang untuk melacak semua peserta studi asli. Intervensinya adalah program dua tahun yang memberikan
stimulasi psikososial dan suplemen makanan untuk pertumbuhan yang terhambat pada balita di Kingston, Jamaika.
Sebanyak 129 anak secara acak ditugaskan ke salah satu dari tiga kelompok treatment atau kelompok pembanding.
Para peneliti juga mensurvei 84 anak tanpa stunt untuk kelompok pembanding kedua. Dalam tindak lanjut, para
peneliti dapat melakukan penelitian ulang sekitar 80 persen peserta. Tidak ada bukti gesekan selektif dalam seluruh
sampel, artinya tidak ada perbedaan signifikan dalam karakteristik dasardari mereka yang bisa disurveipada 22 tahun,
dibandingkan dengan mereka yang tidak bisa disurvei. Namun ketika mempertimbangkan subkelompok anak-anak
yang menjadi pekerja migran, ada tanda-tanda gesekan selektif. Dari 23 pekerja migran, 9 telah keluar dari sampel,
dan bagian yang jauh lebih besar dari ini milik kelompok perlakuan. Ini menyiratkan bahwa treatment dikaitkan
dengan migrasi. Sejak pekerja migran biasanya berpenghasilan lebih dari mereka yang tetap di Jamaika, ini
membuatnya sulit untuk memperkirakan dampak. Untuk mengatasi bias potensial dari gesekan di antara pekerja
migran, para peneliti menggunakan teknik ekonometrik. Mereka meramalkan pendapatan untukpekerja migran yang
keluar dari sampel melalui regresi kuadrat terkecil biasa (OLS) menggunakan status perawatan, jenis kelamin, dan
migrasi sebagaipenentu.Menggunakan prediksiini dalam estimasi dampak, para peneliti menemukan bahwa program
tersebut memiliki hasil yang mengesankan. Intervensi anak usia dini meningkatkan penghasilan sebesar 25 persen
untuk kelompok perlakuan. Efek ini cukup besar untuk kelompok perawatan terhambat untuk mengejar ketinggalan
kelompok pembanding tanpa hambatan 20 tahun kemudian.
Jika Anda menemukan gesekan selama survei tindak lanjut, dua tes berikut dapat membantu Anda
menilai sejauh mana masalahnya. Pertama, periksa apakah baseline karakteristik unit yang keluar
dari sampel secara statistik sama dengan karakteristik dasar unit yang berhasil disurvei ulang.
Selama karakteristik dasar kedua kelompok tidak berbeda secara statistik, sampel baru Anda harus
terus mewakili populasi yang menarik.
Kedua, periksa apakah tingkat gesekan pada kelompok perlakuan adalah mirip dengan tingkat
gesekan pada kelompok pembanding. Jika tingkat gesekan sangat berbeda, maka ada kekhawatiran
bahwa sampel Anda tidak lagi valid dan Anda mungkin perlu menggunakan berbagai teknik
statistik untuk mencoba memperbaikinya. Salah satu metode yang umum adalah inverse
probability weighting/ pembobotan probabilitas terbalik, sebuah metode yang secara statistik
memundurkan data (dalam hal ini, data tindak lanjut) sehingga mengoreksi fakta bahwa sebagian
responden asli hilang. Metode ini mengulangi sampel tindak lanjut sehingga terlihat mirip dengan
sampel baseline.
Pengaturan Waktu dan Kegigihan Efek

Kemungkinan saluran transmisi antara input, kegiatan, output, dan hasil mungkin terjadi segera,
segera, atau dengan jeda waktu yang substansial, dan biasanya terkait erat dengan perubahan
perilaku manusia. Bab 2 menekankan betapa pentingnya untuk memikirkan saluran dan rencana
ini sebelum intervensi dimulai, dan untuk mengembangkan rantai sebab akibat yang jelas untuk
program yang sedang dievaluasi. Untuk kesederhanaan, kami telah meringkas masalah waktu.
Tetapi penting untuk mempertimbangkan aspek yang berkaitan dengan waktu ketika merancang
evaluasi.
Pertama, program tidak harus segera menjadi sepenuhnya efektif setelah di mulai (King and
Behrman 2009). Administrator program mungkin perlu waktu untuk menjalankan program,
penerima manfaat mungkin tidak segera memanfaatkan karena perubahan perilaku membutuhkan
waktu, dan lembaga mungkin tidak segera menyesuaikan perilaku mereka. Di sisi lain, institusi
dan penerima manfaat sekaligus mengubah perilaku tertentu, mungkin saja mereka melanjutkan
bahkan jika program dihentikan. Misalnya, program yang memberi insentif kepada rumah tangga
untuk memilah dan mendaur ulang sampah dan menghemat energi mungkin terus efektif setelah
insentif dihapus, jika berhasil mengubah norma rumah tangga tentang cara menangani sampah dan
energi. Saat merancang evaluasi, Anda harus sangat berhati-hati (dan realistis) dalam menilai
berapa lama waktu yang dibutuhkan suatu program untuk mencapai efektivitas penuh. Mungkin
perlu untuk melakukan beberapa survei lanjutan untuk mengukur dampak program dari waktu ke
waktu, atau bahkan setelah program dihentikan. Kotak 9.6 menggambarkan evaluasi di mana
beberapa efek baru terlihat setelah intervensi awal dihentikan.
Box 9.6: Mengevaluasi Efek Jangka Panjang: Subsidi dan Adopsi Kelambu yang Diinsektisida Di Kenya
Dupas (2014) merancang evaluasi dampak untuk mengukur jangka pendek dan jangka panjang
dampak pada permintaan untuk insektisida kelambu (ITN) di Busia, Kenya. Menggunakan
twophase percobaan penetapan harga, Dupas secara acak menugaskan rumah tangga ke berbagai
tingkat subsidi untuk tipe baru ITN. Satu tahun kemudian, semuanya rumah tangga di subset desa
diberi kesempatan untuk membeli jaring yang sama. Ini memungkinkan peneliti untuk mengukur
kesediaan rumah tangga untuk membayar ITN dan bagaimana perubahannya tergantung pada
subsidi diberikan pada fase pertama program.Secara keseluruhan, hasil menunjukkan bahwa sekali
pakai subsidi memiliki dampak positif yang signifikan terhadap adopsi ITN dan kesediaan untuk
membayar dalam jangka panjang. Pada fase pertama Percobaan, Dupas menemukan rumah tangga
itu yang menerima subsidi yang mengurangi harga ITN mulai dari US $ 3,80 hingga US $ 0,75 60
persen lebih mungkin untuk membelinya. Ketika ITN ditawarkan secara gratis, adopsi tingkat
meningkat menjadi 98 persen. Dalam waktu lama jalankan, semakin tinggi tingkat adopsi yang
diterjemahkan kemauan yang lebih tinggi untuk membayar, karena rumah tangga melihat manfaat
memiliki ITN. Mereka yang menerima salah satu subsidi yang lebih besar di yang pertama fase
tiga kali lebih mungkin untuk membeli ITN lain pada fase kedua di lebih dari dua kali lipat harga.

Hasil dari penelitian ini menyiratkan bahwa efek belajar terjadi dalam intervensi ITN. Ini
menunjukkan bahwa penting untuk dipertimbangkan dampak intervensi dalam jangka panjang,
juga untuk mengungkap kegigihan efek.

Ch09 lengkap

Recommended

Recommended

More Related Content

Similar to Ch09 lengkap

Similar to Ch09 lengkap (20)

Recently uploaded

Recently uploaded (17)

Ch09 lengkap