Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based Imputation Model)

MODEL IMPUTASI
BERBASIS DISTRIBUSI BERSYARAT
LAPORAN TUGAS AKHIR
Diajukan sebagai salah satu syarat
untuk memperoleh gelar Sarjana dari
Institut Teknologi Bandung
Oleh
INDAH NURINA FITRI HAPSARI
NIM: 10110094
(Program Studi Sarjana Matematika)
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI BANDUNG
2015

i
MODEL IMPUTASI
ABSTRAK
Data observasi merupakan sumber informasi yang mampu memberikan validasi
terhadap isu, masalah, dan dugaan yang ada di masyarakat. Sebagai sumber utama
analisa, kualitas data observasi sangatlah penting, sehingga masalah yang terjadi
selama pengambilan data berlangsung harus diperhatikan. Salah satu bentuk data
observasi yang memuat pengukuran berulang ialah bentuk data longitudinal. Pada
praktiknya, saat proses pengambilan data longitudinal berlangsung, fenomena
dropout kerap terjadi. Fenomena ini menyebabkan data longitudinal menjadi tidak
lengkap, sehingga dapat menyebabkan bias pada hasil analisa. Tugas akhir ini
akan membahas model imputasi untuk mengisi data yang hilang dengan meman-
faatkan distribusi bersyarat. Distribusi bersyarat dipilih karena observasi berulang
pada suatu subjek cenderung tidak saling bebas, sehingga dengan memanfaatkan
struktur korelasi beserta data terobservasi, data yang hilang dapat ditaksir. Distri-
busi bersyarat dapat dikonstruksi dengan menggunakan pendekatan copula, salah
satunya ialah copula Gaussian. Tiga struktur korelasi yang umum digunakan akan
dibahas dan diaplikasikan kedalam model, sehingga diperoleh empat formula
imputasi.
Kata kunci: data longitudinal, dropout, imputasi, copula Gaussian, distribusi ber-
syarat, dan struktur korelasi.
LAPORANTUGASAKHIR-INDAHNURINA-10110094-MAITB

ii
CONDITIONAL DISTRIBUTION BASED
IMPUTATION MODEL
ABSTRACT
Observation data is a useful source of information which can be used to validate
various social issues, problems, and assumptions shared by people within a
society. As a prime source of analysis, its quality becomes highly important, so
that any problems happen during the data collection must be treated carefully. One
type of observation data which involves repeated measurement is longitudinal
data. In practice, the dropout phenomenon has often happened during the process
of data collection, resulting incomplete longitudinal data which can lead to bias
results of analysis. This final assignment discusses an imputation model to fill in
the lost data using conditional distribution. Conditional distribution is selected on
the ground that repeated measurements on certain subject tend to be dependent.
Hence, based on the observed data and its possible correlation structure, the lost
data can thus be estimated. Conditional distribution can be constructed through
copula approach, e.g. Gaussian copula. Three commonly used correlation struc-
ture would be explained and applied on the model such that four imputation
formulas are acquired.
Key words: longitudinal data, dropout, imputation, Gaussian copula, conditional
distribution, and correlation structure.

iii
MODEL IMPUTASI
Oleh
INDAH NURINA FITRI HAPSARI
NIM:10110094
(Program Studi Sarjana Matematika)
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Teknologi Bandung
Telah diperiksa dan disetujui,
Bandung, Agustus 2015
Dosen Pembimbing
Dr. Sapto Wahyu Indratno
NIP. 197508041999031003

iv
Prakata
Alhamdulillahirabbil ‘alamin, puji syukur penulis panjatkan ke hadirat Allah SWT
karena atas rahmat dan karunia-Nya penulis dapat menyelesaikan tugas akhir yang
berjudul “Model Imputasi Berbasis Distribusi Bersyarat”.
Buku tugas akhir ini disusun untuk memenuhi persyaratan kurikulum pen-
didikan Program Studi Matematika, Fakultas Matematika dan Ilmu Pengetahuan
Alam, Institut Teknologi Bandung.
Penulis menyadari bahwa penyusunan buku tugas akhir ini masih jauh dari
sempurna dan masih terdapat banyak kekurangan dikarenakan oleh keterbatasan
kemampuan, pengalaman, dan pengetahuan yang dimiliki oleh penulis. Maka dari
itu, penulis menerima saran dan kritik sebagai masukan untuk perbaikan di masa
yang akan datang.
Penyusunan buku tugas akhir ini tidak akan terwujud tanpa adanya ban-
tuan dari berbagai pihak. Maka pada kesempatan ini, penulis menyampaikan rasa
terimakasih kepada :
1. Bapak, Ibu, dan Ayah yang penulis sayangi, Bapak Zaenal Abidin, Ibu
Suharti, dan Bapak Dodik Dwi Sasongko, yang selalu sabar dan terus
menerus memberikan semangat kepada penulis. Terimakasih atas perha-
tian, kepercayaan, dan kasih sayang yang telah diberikan kepada penulis.
2. Saudara-saudara penulis, Indah Kartika Buana Putri, Arsita Tiara Abidin,
dan Hidayat Ibnu Hadi. Terimakasih atas semangat dan surprise yang
sering diberikan untuk menghibur penulis.
3. Bapak Dr. Sapto Wahyu Indratno sebagai dosen pembimbing. Terimakasih
atas perhatian, kesabaran, semangat, pengalaman, ilmu, dan saran berharga
yang diberikan kepada penulis dalam pengerjaan tugas akhir ini. Penulis
memperoleh banyak pelajaran selama proses pengerjaan tugas akhir ini
berlangsung. Terimakasih telah menjadi tempat penulis berkeluh kesah.

v
Maaf kalau penulis sering merepotkan, labil, rame, dan heboh sendiri ya
Pak. Pak Sapto adalah orang paling sabar yang pernah penulis kenal.
4. Ibu RR Kurnia Novitasari, M.Si dan Ibu Dr. Hanni G. Yudhawisastra yang
telah bersedia menjadi dosen penguji dan memberikan banyak masukan
pada tugas akhir ini.
5. Ibu Dr. Rinovia Mery Garnierita Simanjuntak sebagai dosen wali penulis.
Terima kasih atas bimbingan dan nasehatnya selama ini.
6. Bapak Khreshna I.A. Syuhada, M.Sc, Ph.D yang telah menjadi tempat
penulis bercerita dan berkeluh kesah selama sekitar dua tahun terakhir.
Terimakasih atas perhatian, nasehat, semangat, keusilan, dan keperca-
yaanya ya Pak. Maaf sudah menjadi mahasiswa paling rame di dunia
maya. Sy akan selalu mengingat kata-kata motivasi pertama Bapak, ”Pasti
bisa!”.
7. Seluruh dosen pengajar Program Studi Matematika ITB yang telah meng-
ajar saya dan memberikan ilmu yang bermanfaat, serta staf karyawan yang
telah membantu berlangsungnya kegiatan belajar mengajar di Program
Studi Matematika ITB.
8. Sahabat penulis, si bulet dan kurus Nur Cahyanti, yang selalu menemani di
kala suka dan duka. Terimakasih telah menerima penulis apa adanya dan
memberikan dorongan agar cepat menyelesaikan tugas akhir ini.
9. Geng lurus, Yanti dan Hestin, terima kasih atas kebersamaan, canda, dan
tawa selama ini. Semoga persahabatan kita menjadi persahabatan yang
langgeng. Sukses dan bahagia selalu ya Gengs!
10. Teman-teman kelas Topik Statistika IV dengan berbagai karakternya. Ka-
lian adalah teman-teman yang mengajarkan penulis banyak hal, terutama
mengenai kesabaran dan kasih sayang. Terimakasih sudah menjadi kakak-
kakak terbaik dan telah sabar menghadapi adik yang suka ngambek ini.
11. Teman-teman satu bimbingan, Tria, Mona, Tessa, Bernard, Vivan, Kak
Fuad, Kak Maria, Kak Milla, Kak Ani, dan lainnya yang telah bersedia
berbagi info dan cerita.

vi
12. Teman-teman seperjuangan, Kawan-kawan Matematika ITB 2010 dan
Saudara-saudara Loedroek ITB 2010 yang telah memberikan banyak pe-
ngalaman berwarna selama kuliah di ITB.
13. Semua pihak yang tidak dapat saya sebutkan namanya satu per satu, yang
memberikan dukungan dan bantuan baik secara langsung maupun tidak
langsung kepada penulis, sehingga penulis dapat menyelesaikan buku tu-
gas akhir ini dan menjalani seminar tugas akhir dengan baik.
Semoga Allah SWT membalas bantuan dan kebaikan pihak-pihak tersebut
dengan segala rahmat dan kasih sayang-Nya. Akhir kata, penulis berharap agar
buku tugas akhir ini dapat berguna bagi pembacanya.
Bandung, Agustus 2015
Penulis

vii
Daftar Isi
MODEL IMPUTASI BERBASIS DISTRIBUSI BERSYARAT i
CONDITIONAL DISTRIBUTION BASED IMPUTATION MODEL ii
Prakata iv
Daftar Isi vii
Daftar Gambar x
Daftar Tabel xi
Bab 1 Pendahuluan 1
1.1 Latar Belakang........................................................................................... 1
1.2 Tujuan........................................................................................................ 2
1.3 Sistematika Pembahasan............................................................................ 3
Bab 2 Landasan Teori 4
2.1 Data Longitudinal...................................................................................... 4
2.1.1 Dropout dan Klasifikasinya.............................................................. 4
2.1.2 Imputasi ............................................................................................ 7
2.2 Konsep Dasar Teori Copula ...................................................................... 8
2.2.1 Densitas Copula.............................................................................. 11
2.3 Distribusi Multivariat Normal Standar.................................................... 12
2.3.1 Korelasi Pearson............................................................................. 13
2.4 Copula Gaussian...................................................................................... 16
2.4.1 Konstruksi Copula Gaussian .......................................................... 17
2.4.2 Densitas Copula Gaussian .............................................................. 18
2.4.3 Konstruksi Distribusi Bersama....................................................... 19

Daftar Isi
viii
2.4.4 Konstruksi Distribusi Bersyarat...................................................... 19
2.5 Titik Maksimum ...................................................................................... 20
2.5.1 Titik Maksimum Fungsi Densitas Distribusi Normal..................... 21
Bab 3 Model Imputasi 23
3.1 Model Umum Imputasi............................................................................ 24
3.2 Struktur Korelasi...................................................................................... 30
3.2.1 Struktur Korelasi Compound Symmetry ......................................... 30
3.2.2 Struktur Korelasi First Order Autoregressive................................ 33
3.2.3 Struktur Korelasi 1-Banded Toeplitz.............................................. 36
3.3 Penaksiran Parameter Koefisien Korelasi ............................................... 38
3.4 Pemilihan Model Terbaik ........................................................................ 40
3.5 Interval Prediksi....................................................................................... 41
Bab 4 Algoritma Imputasi dan Simulasi 44
4.1 Algoritma Imputasi.................................................................................. 44
4.2 Simulasi ................................................................................................... 45
4.2.1 Simulasi pada Data Bangkitan........................................................ 45
4.2.1.1 Struktur Korelasi CS ......................................................... 47
4.2.1.2 Struktur Korelasi AR1 ...................................................... 50
4.2.1.3 Struktur Korelasi 1BT....................................................... 53
4.2.2 Simulasi pada Data Rill.................................................................. 56
4.2.2.1 Deskripsi Data................................................................... 56
4.2.2.2 Penerapan Algoritma Imputasi pada Data ........................ 58
Bab 5 Kesimpulan 64

Daftar Isi
ix
Daftar Pustaka 66
Lampiran A 67
Lampiran B 71

x
Daftar Gambar
Gambar 2.1 Histogram data bangkitan dari distribusi 𝑒𝑥𝑝⁡(2)............................ 10
Gambar 2.2 Histogram data hasil transformasi. .................................................. 10
Gambar 2.3 Pengaruh ukuran sampel terhadap distribusi korelasi empiris. ....... 15
Gambar 2.4 Pengaruh korelasi populasi terhadap distribusi korelasi empiris..... 16
Gambar 4.1 Histogram hasil PIT untuk data kadar timbal dalam darah. ............ 59
Gambar 4.2 Plot CDF empirik hasil PIT data kadar timbal dalam darah............ 59
Gambar 4.3 Grafik fungsi likelihood densitas Gaussian..................................... 60
Gambar 4.4 Plot data kadar timbal dalam darah. ................................................ 62

xi
Daftar Tabel
Tabel 2.1 Random dropout..................................................................................... 6
Tabel 2.2 Informative dropout................................................................................ 6
Tabel 3.1 Ilustrasi data longitudinal dengan dropout........................................... 23
Tabel 3.2 Interval 𝜌 untuk beberapa ukuran matriks 𝑫........................................ 39
Tabel 3.3 Formula Var(𝑌𝑘|𝑯)̂ .............................................................................. 42
Tabel 4.1 Hasil simulasi pada data bangkitan (CS, normal,⁡𝜌 = 0,5).................. 47
Tabel 4.2 Frekuensi relatif pemilihan model (CS, normal, 𝜌 = 0,5)................... 48
Tabel 4.3 Hasil simulasi data bangkitan (CS, normal,⁡𝜌 = 0,8). ......................... 48
Tabel 4.4 Frekuensi relatif pemilihan model (CS, normal,⁡𝜌 = 0,8)................... 49
Tabel 4.5 Hasil simulasi data bangkitan (CS, skewed,⁡𝜌 = 0,5).......................... 49
Tabel 4.6 Frekuensi relatif pemilihan model (CS, skewed,⁡𝜌 = 0,5)................... 50
Tabel 4.7 Hasil simulasi data bangkitan (AR1, normal,⁡𝜌 = 0,5)........................ 50
Tabel 4.8 Frekuensi relatif pemilihan model (AR1, normal,⁡𝜌 = 0,5). ............... 51
Tabel 4.9 Hasil simulasi data bangkitan (AR1, normal,⁡𝜌 = 0,8)....................... 52
Tabel 4.10 Frekuensi relatif pemilihan model (AR1, normal,⁡𝜌 = 0,8). ............. 52
Tabel 4.11 Hasil simulasi data bangkitan (AR1, skewed,⁡𝜌 = 0,5). .................... 53
Tabel 4.12 Frekuensi relatif pemilihan model (AR1, skewed,⁡𝜌 = 0,5). ............. 53

Daftar Tabel
xii
Tabel 4.13 Hasil simulasi data bangkitan (1BT, normal,⁡𝜌 = 0,5)...................... 54
Tabel 4.14 Frekuensi relatif pemilihan model (1BT, normal,⁡𝜌 = 0,5)............... 54
Tabel 4.15 Hasil simulasi data bangkitan (1BT, normal,⁡𝜌 = 0,2)...................... 55
Tabel 4.16 Frekuensi relatif pemilihan model (1BT, normal,⁡𝜌 = 0,2)............... 55
Tabel 4.17 Hasil simulasi data bangkitan (1BT, skewed,⁡𝜌 = 0,5)...................... 56
Tabel 4.18 Frekuensi relatif pemilihan model (1BT, skewed,⁡𝜌 = 0,5)............... 56
Tabel 4.19 Data kadar timbal dalam darah (dalam μg/dl).................................... 57
Tabel 4.20 Hasil fitting distribusi data kadar timbal dalam darah. ...................... 59
Tabel 4.21 Hasil taksiran 𝑥20,4............................................................................. 61
Tabel 4.22 Eror model.......................................................................................... 61
Tabel 4.23 Hasil simulasi imputasi kasus single dropout pada data kadar timbal
dalam darah........................................................................................................... 62

1
Bab 1
Pendahuluan
1.1 Latar Belakang
Data observasi merupakan representasi dari sebuah keadaan, sehingga data obser-
vasi mampu memberikan validasi terhadap isu, masalah, dan dugaan yang ada di
masyarakat. Data observasi memiliki berbagai bentuk yang pemilihannya dise-
suaikan dengan tujuan dilaksanakannya studi. Salah satu bentuk data observasi
yang cukup sering digunakan ialah bentuk data longitudinal, dimana data memuat
observasi dari pengukuran berulang. Studi yang menggunakan data longitudinal
sebagai dasar penarikan kesimpulan disebut sebagai studi longitudinal. Dengan
adanya pengukuran berulang, studi longitudinal mampu mendeteksi perubahan
suatu variabel terhadap waktu, sehingga dapat digunakan untuk menarik inferensi
kausal.
Studi longitudinal telah banyak diterapkan di berbagai disiplin ilmu, seper-
ti kedokteran, psikologi, biologi, dan ekonomi. Salah satu contoh ialah studi di
bidang kedokteran yang diinisiasi oleh Lewis Terman pada tahun 1921. Studi
yang dikenal dengan nama “Genetics studies of Genius” ini bertujuan untuk
menentukan kurikulum pendidikan terbaik bagi orang-orang jenius.
Hingga saat ini, masalah besar yang kerap terjadi pada saat proses
pengambilan data longitudinal ialah adanya fenomena dropout (attrition), yaitu
hilangnya data karena subjek meninggalkan studi. Dropout dapat menyebabkan
adanya bias (kesalahan) dalam penarikan kesimpulan (lihat referenssi Fitzmaurice
dkk, 2004), sehingga dibutuhkan penanggulangan yang tepat. Salah satu metode
untuk menanggulangi dropout ialah dengan melakukan imputasi, yaitu mengisi
data yang hilang dengan menggunakan nilai taksiran.

Bab 1 Pendahuluan
2
Identifikasi struktur hilangnya data dan imputasi pertama kali dilakukan
oleh McKendrik pada tahun 1926. Kemudian teori mengenai data hilang mulai
berkembang pesat di tahun 1970-an yang ditandai dengan munculnya metode case
deletion dan metode single imputation. Sekitar tahun 1980, metode imputasi ber-
basis likelihood diperkenalkan. Bukan hanya single imputation, multiple imputa-
tion mulai dikembangkan di tahun 1990-an.
Pada tugas akhir ini, akan dibahas salah satu model imputasi yang tergo-
long sebagai single imputation. Berbeda dengan multiple imputation, sesuai de-
ngan namanya, single imputation menggunakan suatu nilai untuk mengisi data
yang hilang, sehingga hanya diperoleh satu data lengkap. Model imputasi yang
akan dibahas ialah model imputasi dengan memanfaatkan distribusi bersyarat.
Distribusi bersyarat dipilih karena pengukuran berulang pada suatu subjek
cenderung tidak saling bebas. Untuk memperoleh distribusi bersyarat dibutuhkan
distribusi bersama, dimana distribusi bersama dapat dikonstruksi menggunakan
pendekatan copula.
Istilah copula dalam bidang statistika dan matematika pertama kali diper-
kenalkan oleh Abe Sklar pada tahun 1959. Copula berasal dari bahasa latin yang
berarti ikatan. Sesuai dengan artinya, copula dapat menghubungkan distribusi-
distribusi marginal untuk memperoleh distribusi bersama. Copula yang akan
digunakan dalam tugas akhir ini adalah copula Gaussian.
1.2 Tujuan
1. Mengkonstruksi model imputasi dengan memanfaatkan distribusi bersya-
rat yang dikonstruksi dengan menggunakan copula Gaussian.
2. Menganalisis kebaikan model imputasi yang diperoleh berdasarkan tujuan
1.

Bab 1 Pendahuluan
3
1.3 Sistematika Pembahasan
Tugas akhir ini terdiri dari lima bab. Bab 1, yaitu pendahuluan memuat latar bela-
kang yang mendasari diangkatnya topik ini sebagai tugas akhir, tujuan yang ingin
dicapai, dan sistematika pembahasan.
Bab 2 berisi landasan teori yang dibutuhkan untuk mengkonstruksi model
imputasi. Sebelum mengkonstruksi model imputasi, dibutuhkan pemahaman lebih
dalam mengenai dropout dan imputasi, sehingga teori mengenai data longitudinal
diberikan di awal bab. Kemudian dilanjutkan dengan pembahasan mengenai kon-
sep dasar teori copula, distribusi multivariat normal standar, copula Gaussian, dan
konstruksi distribusi bersyarat dengan menggunakan copula Gaussian. Bab ini
ditutup dengan pembahasan mengenai titik maksimum sebagai salah satu bagian
dari teori optimisasi yang nantinya dibutuhkan dalam proses pemodelan.
Bab 3 berisi pembahasan mengenai langkah-langkah konstruksi model
imputasi. Setelah model umum imputasi diperoleh, beberapa struktur korelasi
yang umum digunakan dibahas dan diaplikasikan ke dalam model, sehingga di-
peroleh 4 formula (model) imputasi. Untuk memahami cara memperoleh penaksir
terbaik, bab ditutup dengan pembahasan mengenai penaksiran parameter koefisien
korelasi, pemilihan model terbaik, dan interval prediksi.
Bab 4 membahas mengenai algoritma imputasi yang dikonstruksi sesuai
dengan model imputasi yang telah diperoleh pada Bab 3. Kemudian untuk meng-
analisis kebaikan prosedur imputasi, algoritma imputasi tersebut diterapkan pada
data bangkitan dan data riil. Untuk simulasi pada data bangkitan, indikator
kebaikan model imputasi didasarkan pada perbandingan dengan hasil taksiran
dengan menggunakan metode yang sudah ada sebelumnya.
Bab 5 sebagai bab penutup memberikan kesimpulan mengenai kebaikan
model imputasi berbasis distribusi bersyarat yang didasarkan pada hasil analisa
penerapan algoritma imputasi pada data rill dan data bangkitan.

4
Bab 2
Landasan Teori
2.1 Data Longitudinal
Data longitudinal merupakan data yang memuat nilai-nilai observasi dari pe-
ngukuran berulang pada sejumlah subjek (sampel) dalam suatu periode (masa
studi) tertentu. Data ini umumnya direpresentasikan dalam bentuk matriks beruku-
ran 𝑛 × 𝑚, dimana 𝑛 dan 𝑚 secara berturut-turut menyatakan banyaknya sampel
dan titik waktu pengukuran yang ditetapkan sebelum masa studi dimulai. Dengan
adanya pengukuran berulang, data longitudinal mampu mengambil informasi me-
ngenai karakteristik suatu variabel terhadap perubahan waktu, sehingga seringkali
digunakan untuk menarik inferensi kausal.
Disamping keuntungan yang dimiliki oleh data longitudinal, terdapat be-
berapa kelemahan, yaitu waktu dan biaya yang dibutuhkan dalam pengambilan
data cukup besar dan adanya kerentanan terhadap dropout yang berakibat pada
validitas inferensi (lihat referensi Fitzmaurice dkk, 2004). Tugas akhir ini akan
membahas lebih lanjut mengenai dropout.
2.1.1 Dropout dan Klasifikasinya
Studi yang melibatkan data menarik kesimpulan berdasarkan analisis dari data,
sehingga masalah yang terjadi selama proses pengambilan data harus diperha-
tikan. Salah satu masalah yang kerap dialami dalam pengambilan data longitudi-
nal ialah terjadinya dropout yang menyebabkan data tidak lengkap.
Dropout/attrition ialah salah satu jenis hilangnya data yang terjadi karena
subjek meninggalkan studi sebelum masa studi berakhir. Misalkan terdapat 𝑛
subjek yang akan diukur sebanyak 𝑚 kali pada saat 𝑡1, 𝑡2, … , 𝑡 𝑚. Definisikan

Bab 2 Landasan Teori
5
𝑿 = (𝑋1, … , 𝑋 𝑚) 𝑇
sebagai vektor acak yang menyatakan pengukuran. Apabila
subjek 𝑖 mengalami dropout pada saat 𝑡 𝑘, maka data pada saat dan setelah 𝑡 𝑘
untuk subjek 𝑖, yaitu 𝑥𝑖𝑘 hingga 𝑥𝑖𝑚 tidak terobservasi. Untuk selanjutnya,
𝑡1, 𝑡2, … , 𝑡 𝑚 dituliskan sebagai 1,2, … , 𝑚.
Dropout dapat mengurangi efisiensi, menghilangkan informasi, dan ber-
potensi menyebabkan bias pada penarikan kesimpulan apabila karakteristik dari
individu yang mengalami dropout berbeda dengan individu yang tidak mengalami
dropout. Akibat ini akan lebih jelas terlihat apabila jumlah subjek yang terlibat
dalam studi cukup sedikit.
Ketika dropout terjadi, validitas dari inferensi bergantung pada keterkaitan
antara variabel yang ingin diteliti dengan penyebab dropout (lihat referensi
Fitzmaurice dkk, 2004). Keterkaitan ini selanjutnya akan disebut sebagai meka-
nisme dropout dan digunakan untuk mengklasifikasikan dropout. Pada umumnya,
mekanisme dropout berada diluar kontrol dari peneliti, sehingga sulit untuk dipa-
hami. Secara teoritis, dengan mengikuti analogi klasifikasi data hilang yang di-
perkenalkan oleh Rubin (1976), berdasarkan mekanisme dropout, dropout dapat
diklasifikasikan menjadi 3 jenis, yaitu:
1. Completely Random Dropout (CRD), yaitu ketika peluang terjadinya
dropout tidak bergantung pada nilai yang terobservasi maupun nilai spe-
sifik yang seharusnya dapat diobservasi. Dengan kata lain, dropout terjadi
secara acak, sehingga subjek yang tidak mengalami dropout dapat dikata-
kan sebagai sampel acak dari target populasi (𝑛 subjek). Dengan demikian,
inferensi berdasarkan analisis yang dibatasi pada data dari subjek yang
memiliki observasi lengkap dikatakan valid (lihat referensi Fitzmaurice
dkk, 2004).
2. Random Dropout (RD), yaitu ketika peluang terjadinya dropout bergan-
tung pada nilai yang terobservasi, tetapi tidak bergantung pada nilai spe-
sifik yang seharusnya dapat diobservasi. Kebergantungan peluang dropout
dengan nilai observasi historis untuk masing-masing subjek mengindikasi-

6
kan bahwa data yang hilang dapat ditaksir dengan memanfaatkan data his-
toris subjek.
Tabel 2.1 Random dropout.
𝑆𝑢𝑏𝑗𝑒𝑘
𝑇𝑖𝑡𝑖𝑘⁡𝑊𝑎𝑘𝑡𝑢
1 2 … 𝑗 … 𝑘 − 1 𝑘 … 𝑚
𝑋1 𝑋2 … 𝑋𝑗 … 𝑋 𝑘−1 𝑋 𝑘 … 𝑋 𝑚
1 𝑥11 𝑥12 … 𝑥1𝑗 … 𝑥1𝑘−1 𝑥1𝑘 … 𝑥1𝑚
2 𝑥21 𝑥22 … 𝑥2𝑗 … 𝑥2𝑘−1 𝑥2𝑘 … 𝑥2𝑚
… … … … … … … … … …
𝑖 𝑥𝑖1 𝑥𝑖2 … 𝑥𝑖𝑗 … 𝑥𝑖𝑘−1 − − −
… … … … … … … … … …
𝑛 𝑥 𝑛1 𝑥 𝑛2 … 𝑥 𝑛𝑗 … 𝑥 𝑛𝑘−1 𝑥 𝑛𝑘 … 𝑥 𝑛𝑚
Catatan: Dropout yang terjadi pada subjek 𝑖 pada waktu ⁡𝑘
bergantung pada observasi sebelumnya, yaitu 𝑥𝑖1 hingga 𝑥𝑖,𝑘−1.
3. Informative Dropout (IF), yaitu ketika peluang terjadinya dropout bergan-
tung pada nilai yang terobservasi maupun nilai spesifik yang seharusnya
dapat diobservasi. Karena dropout bergantung pada nilai yang tidak terob-
servasi, maka informasi mengenai data historis saja tidak cukup untuk di-
jadikan dasar dalam memprediksi data yang hilang.
Tabel 2.2 Informative dropout.
1 2 … 𝑗 … 𝑘 − 1 𝑘 … 𝑚
𝑋1 𝑋2 … 𝑋𝑗 … 𝑋 𝑘−1 𝑋 𝑘 … 𝑋 𝑚
1 𝑥11 𝑥12 … 𝑥1𝑗 … 𝑥1𝑘−1 𝑥1𝑘 … 𝑥1𝑚
2 𝑥21 𝑥22 … 𝑥2𝑗 … 𝑥2𝑘−1 𝑥2𝑘 … 𝑥2𝑚
… … … … … … … … … …
𝑖 𝑥𝑖1 𝑥𝑖2 … 𝑥𝑖𝑗 … 𝑥𝑖𝑘−1 − − −
… … … … … … … … … …
𝑛 𝑥 𝑛1 𝑥 𝑛2 … 𝑥 𝑛𝑗 … 𝑥 𝑛𝑘−1 𝑥 𝑛𝑘 … 𝑥 𝑛𝑚
Catatan: Dropout yang terjadi pada subjek 𝑖 pada waktu⁡⁡𝑘 ber-
gantung pada 𝑥𝑖1 hingga 𝑥𝑖,𝑘−1 dan pada nilai spesifik dari data
yang seharusnya dapat diobservasi.

7
2.1.2 Imputasi
Melihat besarnya risiko yang ditimbulkan oleh dropout, dibutuhkan strategi pe-
nanggulangan yang tepat. Salah satu metode primitif sederhana yang dahulu
digunakan untuk menanggulangi data tidak lengkap ialah metode listwise deletion.
Metode ini dapat diterapkan pada data longitudinal dengan dropout, yaitu dengan
membuang data dari subjek yang tidak mengikuti studi hingga akhir. Dengan
demikian, analisis hanya didasarkan pada subjek yang memiliki data lengkap.
Metode listwise deletion mengasumsikan bahwa subjek yang mengalami
dropout relatif sedikit dan data yang digunakan dalam analisis cukup repre-
sentatif. Asumsi representatif hanya dapat dipastikan terpenuhi apabila dropout
yang terjadi mengikuti mekanisme CRD dan jumlah subjek yang terlibat dalam
studi tidak telalu sedikit. Selain itu, metode ini dapat menyebabkan hilangnya
banyak informasi. Keterbatasan metode listwise deletion menyebabkan metode ini
sudah banyak ditinggalkan dan digantikan oleh metode berbasis imputasi.
Imputasi ialah strategi untuk mengisi data yang hilang dengan menggu-
nakan nilai taksiran. Nilai taksiran yang dimaksud diperoleh dari suatu model
dengan memanfaatkan data-data terobservasi. Setelah nilai yang hilang ditaksir,
data dapat dianalisis menggunakan metode yang umum digunakan untuk menga-
nalisis data longitudinal lengkap.
Terdapat dua jenis imputasi, yaitu single imputation dan multiple imputa-
tion. Berbeda dengan multiple imputation, sesuai dengan namanya, single imputa-
tion menggunakan suatu nilai untuk mengisi data yang hilang, sehingga hanya
diperoleh satu data lengkap. Beberapa metode single imputation yang sering digu-
nakan ialah:
1. Mean subtitution, yaitu mengisi data hilang dari suatu subjek dengan
menggunakan rata-rata dari seluruh observasi sebelumnya untuk subjek
tersebut. Metode ini tidak mempertimbangkan trend dari data dan dapat
menggeser nilai-nilai ekstrim ke tengah ditribusi, sehingga mengurangi
variansi sampel dari variabel acak yang diimput, yaitu 𝑋 𝑘.

8
2. Regression-based imputation, yaitu mengisi data hilang dengan menggu-
nakan persamaan regresi yang diperoleh dari subjek yang memiliki data
lengkap hingga waktu 𝑘. Metode ini mengasumsikan bahwa model regresi
yang sama dapat menjelaskan data dari subjek yang tidak mengalami
dropout seperti halnya data dari subjek yang mengalami dropout.
3. Last Observation Carried Forward (LOCF), yaitu mengisi data hilang
dengan menggunakan nilai observasi sebelumnya. Metode ini dapat digu-
nakan apabila nilai pengukuran relatif konstan terhadap waktu. Walaupun
metode LOCF hampir selalu menyebabkan adanya bias, kemudahan
penerapannya membuat metode ini masih banyak diterapkan di bidang
kedokteran.
4. Hot deck, yaitu mengisi data hilang dengan nilai observasi dari subjek lain
yang memiliki kemiripan nilai pada observasi-observasi sebelumnya.
Metode ini sulit diimplementasikan pada data kontinu dan lebih mudah
diimplementasikan pada data kategorikal. Semakin banyak titik waktu
yang dicocokkan, imputasi semakin akurat, namun kecocokan akan sema-
kin jarang.
2.2 Konsep Dasar Teori Copula
Copula merupakan alat untuk mengkonstruksi distribusi bersama dari marginal-
marginal yang tidak harus berasal dari distribusi yang sama. Kontruksi dilakukan
dengan mempertimbangkan struktur kebergantungan (asosiasi) antar marginal-
marginalnya, sehingga dengan marginal yang sama dapat dibentuk beberapa dis-
tribusi bersama yang berbeda.
Menurut Ene Käärik (2006b), konstruksi distribusi bersama menggunakan
pendekatan copula memiliki beberapa keuntungan, yaitu:
1. Dengan menggunakan copula, distribusi marginal dapat diestimasi terlebih
dahulu, kemudian mengkonstruksi distribusi bersamanya.

9
2. Fungsi kebergantungan dapat diperoleh secara eksplisit sehingga lebih mu-
dah untuk melihat kebergantungan secara spesifik.
3. Keluarga copula sangat banyak, sehingga dapat digunakan untuk memo-
delkan distribusi secara luas.
Berikut teorema yang menjadi dasar aplikasi teori copula pada bidang
statistika (lihat referensi Nelsen, 2006):
Teorema Sklar
Misalkan terdapat distribusi bersama⁡𝐹 dengan marginal univariat 𝐹1,…,𝐹𝑛.
Maka terdapat sebuah copula 𝐶 sedemikian sehingga untuk semua 𝐱⁡di⁡ℝ̅ 𝑛
,
𝐹(𝑥1, … , 𝑥 𝑛) = 𝐶(𝐹1(𝑥1), … , 𝐹𝑛(𝑥 𝑛)).
Jika 𝐹1, … , 𝐹𝑛 kontinu, maka⁡𝐶 unik.∎
Teorema Sklar secara eksplisit mengatakan bahwa setiap fungsi distribusi ber-
sama dapat dituliskan dalam bentuk copula, dimana copula merupakan fungsi
distribusi. Pada tugas akhir ini, pembahasan mengenai distribusi bersama dibatasi
hanya pada distribusi bersama dengan marginal-marginal kontinu. 𝐹 digunakan
untuk menotasikan fungsi distribusi dari suatu variabel acak kontinu.
Misalkan 𝐹𝑗 merupakan fungsi distribusi dari variabel acak 𝑋𝑗 dan 𝑈𝑗
merupakan Probability Integral Transform (PIT) dari 𝑋𝑗, yaitu 𝑈𝑗 = 𝐹𝑗(𝑋𝑗). De-
ngan menggunakan metode fungsi distribusi, akan dibuktikan bahwa 𝑈𝑗 berdistri-
busi uniform (0,1).
𝑃(𝑈𝑗 ≤ 𝑢)⁡⁡⁡⁡= 𝑃(𝐹𝑗(𝑋𝑗) ≤ 𝑢)
= 𝑃 (𝑋𝑗 ≤ 𝐹𝑗
−1
(𝑢))
= 𝐹𝑗 (𝐹𝑗
−1
(𝑢))
= 𝑢

10
Fungsi distribusi merupakan fungsi monoton naik dengan nilai fungsi yang berada
pada interval [0,1], sehingga 𝑢 ∈ [0,1]. Dapat disimpulkan bahwa 𝑈𝑗~𝑈(0,1).
Dengan demikian, copula dapat dikatakan sebagai fungsi distribusi yang memiliki
marginal-marginal uniform (0,1). Untuk lebih memahami PIT, akan dibangkitkan
10.000 data dari variabel acak 𝑋 yang berdistribusi 𝑒𝑥𝑝⁡(2). Berikut disajikan
histogram dari data bangkitan:
Gambar 2.1 Histogram data bangkitan dari distribusi 𝑒𝑥𝑝⁡(2).
Data yang telah dibangkitkan ditransformasikan menggunakan fungsi berikut:
1. 𝐹1(𝑥) = 1 − 𝑒−2𝑥
,
2. 𝐹2(𝑥) =⁡∫
1
√2𝜋
exp [
−⁡( 𝑥−0.5)2
2
]
𝑥
−∞
.
Berikut disajikan histogram dari data hasil transformasi dengan kedua fungsi:
Gambar 2.2 Histogram data hasil transformasi:
(a) Menggunakan fungsi distribusi 𝑒𝑥𝑝⁡(2); (b) Menggunakan fungsi distribusi 𝑁(0,5; 1).

11
Berdasarkan Gambar 2.2, histogram dari hasil tranformasi data menggunakan
fungsi distribusi 𝑒𝑥𝑝(2) mengindikasikan bahwa 𝐹1(𝑋) berdistribusi uniform, di-
mana densitas frekuensi tersebar merata pada interval (0,1). Histogram dari hasil
tranformasi data menggunakan fungsi distribusi 𝑁(0,5; 1) tidak mengindikasikan
bahwa 𝐹2(𝑋) berdistribusi uniform. Dengan demikian, variabel acak 𝑈 = 𝐹(𝑋)
akan berdistribusi uniform jika dan hanya jika 𝐹 merupakan fungsi distribusi dari
𝑋.
2.2.1 Densitas Copula
Copula merupakan fungsi distribusi bersama, sehingga copula juga memiliki den-
sitas bersama yang selanjutnya disebut sebagai densitas copula. Misalkan
𝑿 = (𝑋1, … , 𝑋 𝑘) 𝑇
merupakan vektor acak dengan fungsi distribusi marginal
𝐹1, 𝐹2, … , 𝐹𝑘 dan fungsi distribusi bersama 𝐹, sedemikian sehingga 𝑋𝑗~𝐹𝑗 dan
𝑿~𝐹. Jika copula 𝐶 dan 𝐹1, 𝐹2, … , 𝐹𝑘 memiliki turunan, maka dengan memanfaat-
kan teorema Sklar diperoleh
⁡𝑓(𝑥1, … , 𝑥 𝑘)⁡⁡=⁡
𝜕 𝑘
⁡𝐹(𝑥1, … , 𝑥 𝑘)
𝜕𝑥1 … . 𝜕𝑥 𝑘
=⁡
𝜕 𝑘
⁡𝐶(𝐹1(𝑥1), … , 𝐹𝑘(𝑥 𝑘))⁡
𝜕𝑥1⁡𝜕𝑥2 … ⁡𝜕𝑥 𝑘
=⁡
𝜕 𝑘
⁡𝐶(𝐹1(𝑥1), … , 𝐹𝑘(𝑥 𝑘))⁡
𝜕𝐹1(𝑥1) … ⁡𝜕𝐹𝑘(𝑥 𝑘)
×⁡⁡∏
𝜕𝐹𝑗(𝑥𝑗)
𝜕𝑥𝑗
⁡
𝑘
𝑗=1
= ⁡𝑐(𝐹1(𝑥1), … , 𝐹𝑘(𝑥 𝑘))⁡×⁡ 𝑓1(𝑥1)⁡× … .× 𝑓𝑘(𝑥 𝑘),⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2. 1)
dimana 𝑐(𝐹1(𝑥1), … , 𝐹𝑘(𝑥 𝑘)) merupakan turunan dari copula yang disebut seba-
gai densitas copula dan 𝑓𝑗 merupakan densitas dari variabel acak 𝑋𝑗. Misalkan 𝑿
merupakan vektor acak dengan marginal-marginal yang saling bebas, maka

12
⁡𝑐(𝐹1(𝑥1), … , 𝐹𝑘(𝑥 𝑘)) =⁡
𝑓(𝑥1, … , 𝑥 𝑘)
𝑓1(𝑥1)⁡× … .× 𝑓𝑘(𝑥 𝑘)
=
𝑓1(𝑥1)⁡× … .× 𝑓𝑘(𝑥 𝑘)
𝑓1(𝑥1)⁡× … .× 𝑓𝑘(𝑥 𝑘)
= 1.
Dengan demikian, copula dapat dianggap sebagai ukuran asosiasi yang memban-
dingkan antara densitas bersama dengan perkalian densitas marginalnya.
2.3 Distribusi Multivariat Normal Standar
Distribusi multivariat normal standar merupakan distribusi yang memiliki mar-
ginal-marginal normal standar. Misalkan 𝑮~𝑁𝑘(𝟎, 𝑰 𝑘) dan 𝑹k merupakan matriks
kovariansi Pearson berukuran 𝑘 × 𝑘⁡yang bersifat simetri dan definit positif,
dengan 𝑑𝑖𝑎𝑔(𝑹k) = (1,1, … , 1)T
. Untuk mengkonstruksi distribusi multivariat
normal standar dengan kovariansi 𝑹 𝑘, definisikan 𝒁 = 𝑹 𝑘
1
2
𝑮. Dengan demikian,
⁡𝒁~⁡𝑁𝑘(𝟎, 𝑹k). Karena 𝒁 memiliki marginal normal standar, maka matriks 𝑹k
dapat dikatakan sebagai matriks korelasi Pearson.
Akan dibuktikan bahwa matriks 𝑹k harus memenuhi sifat simetri dan semi
definit positif. Berikut definisi dari matriks simetri yang bersifat semi definit
positif (lihat referensi Anton dan Rorres, 2005):
Definisi
Suatu matriks simetri⁡𝑨 ∈ ℝnxn
dikatakan bersifat semi definit positif apabila
untuk seluruh 𝐮 ≠ 𝟎 dan 𝒖⁡ ∈ ℝn
berlaku⁡𝒖T
𝑨⁡𝒖 ≥ 0.∎
Untuk membuktikan bahwa 𝑹k bersifat semi definit positif, akan dicari selang
nilai dari 𝒖 𝑇
⁡𝑹k⁡𝒖. Pada kasus ini, distribusi marginal 𝑍𝑗 ialah distribusi yang
terpusat dan 𝑹k merupakan matriks kovariansi, sehingga
𝑹k = 𝐶𝑜𝑣⁡(𝒁) = 𝐸[𝒁𝒁 𝑇].
Dari definisi matriks kovariansi, dapat dilihat bahwa 𝑹 𝑘 bersifat simetri. Kemudi-
an dengan memanfaatkan sifat kelinieran ekspektasi, diperoleh

13
𝒖 𝑇
⁡𝐶𝑜𝑣⁡(𝒁)⁡𝒖 = ⁡𝐸[𝒖 𝑻
⁡𝒁𝒁 𝑇
⁡𝒖]⁡= 𝐸[(𝒖 𝑻
⁡𝒁) 𝟐].
Definisikan 𝑺 =⁡(𝒖 𝑻
⁡𝒁). 𝑺 merupakan variabel acak terpusat di 0, sehingga
𝒖 𝑇
⁡𝐶𝑜𝑣⁡(𝒁)⁡𝒖 = ⁡𝐸[𝑺 𝟐] =⁡ 𝜎𝒔
2
≥ 0.
Dapat disimpulkan bahwa 𝑹k bersifat semi definit positif. Namun, agar densitas
distribusi multivariat normal berdasarkan definisi vector acak 𝒁 dapat diperoleh,
matriks 𝑹k dibatasi memiliki sifat simetri dan definit positif (lihat referensi Hogg
dan Craig, 2005).
2.3.1 Korelasi Pearson
Korelasi Pearson merupakan ukuran kebergantungan linier (asosiasi linier) antara
dua variabel acak. Korelasi Pearson untuk dua variabel acak 𝑋 dan 𝑌 didefinisikan
sebagai
𝜌 𝑋𝑌 =
𝐶𝑜𝑣(𝑋, 𝑌)
√𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌)
=
𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌]
√(𝐸[𝑋2] − (𝐸[𝑋])2)(𝐸[𝑌2] − (𝐸[𝑌])2)
.⁡⁡
Beberapa hal yang harus dipahami mengenai korelasi Pearson adalah (Embrechts
dkk, 1999):
1. Interval dari nilai korelasi Pearson yang mungkin bergantung pada distri-
busi marginalnya (dalam hal ini distribusi dari 𝑋 dan distribusi dari 𝑌).
|𝜌 𝑋𝑌| ≤ 1 untuk seluruh (𝑋, 𝑌) yang merupakan bivariat eliptical distribu-
tion, yaitu distribusi bivariat yang memiliki densitas konstan pada suatu
elipsoid, contohnya distribusi bivariat normal. Secara umum, interval dari
nilai korelasi Pearson yang mungkin merupakan subset dari [-1,1].
2. Misalkan [𝜌 𝑚𝑖𝑛, 𝜌 𝑚𝑎𝑥] menyatakan interval dari nilai korelasi Pearson
yang mungkin dari dua peubah acak 𝑋 dan 𝑌, maka 𝜌 𝑋𝑌 = 𝜌 𝑚𝑎𝑥 menyata-
kan bahwa 𝑋 dan 𝑌 saling bergantung secara positif sempurna, sedangkan

14
𝜌 𝑋𝑌 = 𝜌 𝑚𝑖𝑛 menyatakan bahwa 𝑋 dan 𝑌 saling bergantung secara negatif
sempurna.
3. Korelasi Pearson hanya mengukur kebergantungan linier, sehingga apabila
dua peubah acak saling bebas, maka 𝜌 𝑋𝑌 = 0, tetapi tidak berlaku seba-
liknya. 𝜌 𝑋𝑌 = 0 menyatakan bahwa 𝑋 dan 𝑌 saling bebas jika dan hanya
jika (𝑋, 𝑌) berdistribusi bivariat normal.
4. Korelasi Pearson bersifat tidak invarian terhadap transformasi tak linier
naik murni (nonlinear strictly increasing transformation).
5. Korelasi Pearson hanya terdefinisi jika dan hanya jika kedua variabel acak
memiliki varansi yang berhingga.
Korelasi Pearson menggambarkan bagaimana dua variabel bergerak ber-
sama-sama. Hal yang sering disalahartikan ialah bahwa korelasi Pearson mengu-
kur hubungan kausalitas. Penyataan ini tidak selalu benar karena variabel 𝑋 dapat
dipengaruhi oleh 𝑌, variabel 𝑌 dapat dipengaruhi oleh 𝑋, atau variabel 𝑋 dan 𝑌
dipengaruhi oleh variabel ketiga, misalkan 𝑍.
Secara empiris, korelasi Pearson dapat diperoleh dengan menggunakan
formula
𝜌 𝑋𝑌̂ = 𝑝 𝑋𝑌 =
𝑆 𝑋𝑌
√𝑆 𝑋 𝑆 𝑌
=
∑ (𝑥𝑖 − 𝑥̅)(𝑦𝑖 − 𝑦̅)𝑛
𝑖=1
√∑ (𝑥𝑖 − 𝑥̅)2𝑛
𝑖=1 ⁡∑ (𝑦𝑖 − 𝑦̅)2𝑛
𝑖=1
⁡,
dimana 𝑛 menyatakan banyaknya sampel. Untuk selanjutnya, korelasi yang
dimaksud dalam tugas akhir ini adalah korelasi Pearson. Korelasi empiris meru-
pakan fungsi dari sampel (statistik) sehingga memiliki distribusi. Hotelling (1953)
menyatakan bahwa apabila (𝑋, 𝑌) berdistribusi bivariat normal, fungsi distribusi
dari korelasi sampel dapat dituliskan sebagai berikut:
𝑓𝑃 𝑋𝑌
(𝑝) =
(𝑛 − 2)Γ(𝑛 − 1)
√2𝜋Γ (𝑛 −
1
2
) (1 − 𝜌𝑝) 𝑛−
3
2
⁡(1 − 𝜌2)
𝑛−1
2
× (1 − 𝑝2)
𝑛−4
2 [1 +
1
4
(
𝜌𝑝 + 1
2𝑛 − 1
) +
9
32
(𝜌𝑝 + 1)2
(2𝑛 − 1)(2𝑛 + 1)
+ ⋯ ].

15
Dapat dilihat bahwa distribusi dari korelasi empiris bergantung pada korelasi po-
pulasi dan jumlah (ukuran) sampel. Kebergantungan dari masing-masing faktor
dapat dilihat melalui perbandingan bentuk kurva densitas apabila faktor lainnya
ditetapkan konstan.
Pengaruh ukuran sampel terhadap distribusi dari korelasi empiris dapat di-
lihat pada gambar berikut:
Gambar 2.3 Pengaruh ukuran sampel terhadap distribusi korelasi empiris:
(a) 𝜌 = 0.2 ; (b) 𝜌 = 0.5 ; (c) 𝜌 = −0.2 ; (d) 𝜌 = −0.5
Gambar 2.3 menunjukkan bahwa semakin besar ukuran sampel, maka peluang
𝑃𝑋𝑌 = 𝜌 𝑋𝑌 semakin besar. Ukuran sampel yang sedikit cenderung menyebabkan
korelasi empiris salah dalam memprediksi korelasi populasi. Hal ini dapat dilihat
dari grafik densitas peluang korelasi empiris untuk⁡𝑛 = 3, dimana nilai densitas-
nya semakin membesar ketika mendekati 1 untuk nilai korelasi populasi positif
dan semakin membesar ketika mendekati -1 untuk nilai korelasi populasi negatif.
(d)(c)
(b)(a)

16
Pengaruh nilai korelasi populasi terhadap distribusi dari korelasi empiris
dapat dilihat pada gambar berikut:
Gambar 2.4 Pengaruh korelasi populasi terhadap distribusi korelasi empiris.
Gambar 2.4 memperlihatkan bahwa apabila korelasi populasi mendekati -1 atau 1,
maka dengan jumlah sampel yang sama, fungsi densitas di titik 𝑃𝑋𝑌 = 𝜌 𝑋𝑌 sema-
kin besar.
Berdasarkan Pham-Gia dan Choulakian (2014), distribusi dari matriks ko-
relasi sampel juga bergantung pada jumlah sampel. Apabila 𝒀~𝑵 𝑘(𝝁, 𝚺 𝑘) dimana
matriks korelasi populasi 𝚲 𝑘 ≠ 𝑰 dan 𝚲 𝑘
−1
memiliki elemen diagonal 𝜆𝑖𝑖, maka
matriks korelasi sampel 𝑲 dari suatu sampel acak berukuran 𝑛 memiliki fungsi
peluang sebagai berikut :
𝑓𝑨(𝑲) =
[Γ (
𝑛 − 1
2
)]
𝑘
exp {− ∑
𝜆𝑖𝑗 𝑠𝑖𝑗
√ 𝜎𝑖𝑖 𝜎𝑗𝑗⁡𝑖<𝑗 }
𝜋
𝑘(𝑘−1)
4 ∏ Γ (
n − i
2
)𝑘
𝑖=1 ⁡[|𝚲 𝑘| ∏ 𝜆𝑖𝑖
𝑘
𝑖=1 ]
𝑛−1
2
|𝑲|
𝑛−𝑘−2
2 .
2.4 Copula Gaussian
Untuk memperoleh distribusi bersama, selain dibutuhkan distribusi marginal dan
nilai asosiasi (misalnya korelasi sebagai asosiasi linier), dibutuhkan pula struktur
kebergantungan. Gaussian copula merupakan alat untuk mengkontruksi distribusi

17
bersama dengan memanfaatkan struktur kebergantungan yang dimiliki oleh distri-
busi multivariat normal standar.
2.4.1 Konstruksi Copula Gaussian
Definisikan Φ 𝑘 dan 𝜙 𝑘 berturut-turut sebagai fungsi distribusi dan fungsi densitas
dari distribusi normal standar 𝑘-variat. Apabila 𝒁~⁡𝑁𝑘(𝟎, 𝑹k), maka sesuai de-
ngan Teorema Sklar berlaku
Φ 𝑘(𝑧1, … , 𝑧 𝑘|𝑹k) = 𝐶 𝑔𝑎𝑢𝑠𝑠(Φ1(𝑧1), … , Φ1(𝑧k)|𝑹k).⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2. 2)
Selanjutnya, definisikan 𝑈𝑗 = Φ1(𝑍𝑗) untuk 𝑗 = 1, . . . , 𝑘. Dengan mendefinisikan
variabel acak 𝑈𝑗, persamaan 2.2 dapat dituliskan sebagai berikut:
𝐶 𝑔𝑎𝑢𝑠𝑠(𝑢1, … , 𝑢k|𝑹k) = Φ 𝑘(Φ1
−1
(𝑢1), … , Φ1
−1
(𝑢k)|𝑹k).⁡⁡⁡⁡⁡⁡⁡(2. 3)
Sesuai dengan bukti yang telah dipaparkan pada sub bab 2.2, 𝑈𝑗 berdistri-
busi 𝑈(0,1). Dengan memanfaatkan PIT, distribusi 𝑈(0,1) dapat dibentuk dengan
mentrasformasikan suatu variabel acak kontinu sebarang dengan menggunakan
fungsi distribusinya sendiri. Dengan demikian, masing-masing 𝑈𝑗 dapat dibentuk
dari suatu variabel acak 𝑋𝑗, dimana 𝑋𝑗~𝐹𝑗. Langkah ini merupakan basis dari
proses konstruksi copula Gaussian.
Definisikan
𝑾 𝑘 = (𝑌1, … , 𝑌𝑘) 𝑇
= (Φ1
−1
(𝐹1(𝑋1)), … , Φ1
−1
(𝐹𝑘(𝑋 𝑘)))
𝑇
,
sehingga 𝑌𝑗~𝑁(0,1). Secara umum, matriks korelasi Pearson memiliki sifat tidak
invarian terhadap transformasi monoton. Akibatnya, apabila 𝑿 = (𝑋1, … , 𝑋 𝑘) 𝑇
tidak berdistribusi multivariat normal standar, maka 𝐶𝑜𝑟𝑟(𝑿) ≠ 𝐶𝑜𝑟𝑟(𝑾 𝑘).

18
Definisikan 𝐶𝑜𝑟𝑟(𝑾 𝑘) = 𝑫 𝑘, sehingga 𝑾k~𝑁𝑘(𝟎, 𝑫k). Dengan demiki-
an, persamaan 2.3 dapat dituliskan sebagai berikut:
𝐶 𝑔𝑎𝑢𝑠𝑠(𝑢1, … , 𝑢k|𝑫k)⁡⁡⁡⁡⁡⁡= Φ 𝑘(Φ1
−1
(𝐹1(𝑥1)), … , Φ1
−1
(𝐹k(𝑥k))|𝑫k)
= Φ 𝑘(𝑦1, … , 𝑦k|𝑫k).⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2. 4)
Dapat dilihat pada persamaan 2.4, apabila 𝒙𝑖 = (𝑥𝑖1, … , 𝑥𝑖𝑘) 𝑇
merupakan sampel
ke-𝑖 dari vektor acak 𝑿, pasangan nilai pada vektor 𝒙𝑖 mendefinisikan pasangan
nilai pada vektor 𝒚𝑖 = (𝑦𝑖1, … , 𝑦𝑖𝑘) 𝑇
. Proses pembentukan pasangan nilai pada
vektor 𝒚𝑖 = (𝑦𝑖1, … , 𝑦𝑖𝑘) 𝑇
termuat dalam parameter copula 𝑫 𝑘.
2.4.2 Densitas Copula Gaussian
Sesuai dengan persamaan 2.4, melalui proses perhitungan yang serupa dengan
persamaan 2.1, densitas copula Gaussian dapat dituliskan sebagai berikut:
𝑐 𝑔𝑎𝑢𝑠𝑠(𝑢1, … , 𝑢k)⁡⁡=
𝜙 𝑘(𝑦1, … , 𝑦k|𝑫k)
𝜙1(𝑦1)⁡× … .× 𝜙1(𝑦k)
=
1
(2𝜋)
𝑘
2|𝑫k|
1
2
exp (−
1
2
𝒘 𝑘
𝑇
𝑫k
−1
𝒘 𝑘)
∏
1
(2𝜋)
1
2
𝑘
𝑗=1 𝑒𝑥𝑝 (−
1
2
⁡𝑦𝑗
2
)
=
|𝑫k|−
1
2 ⁡⁡exp (−
1
2
𝒘 𝑘
𝑇
𝑫k
−1
𝒘 𝑘)
exp (−
1
2
⁡𝒘 𝑘
𝑇 𝒘 𝑘)
=⁡|𝑫k|−
1
2 ⁡⁡exp {−
1
2
𝒘 𝑘
𝑇
(𝑫k
−1
− 𝚰)𝒘 𝑘}⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2. 5)

19
2.4.3 Konstruksi Distribusi Bersama
Densitas distribusi bersama merupakan perkalian antara densitas marginal dengan
densitas copula. Dengan demikian, sesuai persamaan 2.1 dan 2.5, densitas dari
suatu vector acak 𝑿 yang dikonstruksi dengan menggunakan copula Gaussian
ialah
𝑓(𝑥1, … , 𝑥 𝑘) = 𝑓1(𝑥1)⁡× …⁡×⁡ 𝑓𝑘(𝑥 𝑘)⁡|𝑫k|−
1
2⁡⁡𝑒
{−
1
2
𝒘 𝑘
𝑇(𝑫k
−1
−𝚰)𝒘 𝑘}
⁡⁡⁡⁡⁡(2. 6)
2.4.4 Konstruksi Distribusi Bersyarat
Distribusi bersyarat ialah distribusi dari suatu variabel acak ketika variabel acak
lainnya diasumsikan telah memiliki nilai. Distribusi bersyarat diturunkan melalui
analogi dari peluang bersyarat. Peluang bersyarat dapat dianggap sebagai pem-
bentukan ruang sampel yang baru sebagai himpunan yang merupakan subset tak
kosong dari ruang sampel sebelumnya tanpa mengubah bentuk distribusi dari sub-
set tersebut.
Misalkan terdapat sebuah eksperimen acak yang memiliki ruang sampel 𝜅.
𝑘1 dan 𝑘2 merupakan subset dari 𝜅 sedemikian sehingga 𝑃(𝑘1) > 0. Untuk men-
cari peluang dari 𝑘2 dibawah kondisi bahwa hasil yang muncul merupakan
anggota dari 𝑘1, maka yang menjadi perhatian ialah irisan dari 𝑘2 dengan 𝑘1.
Sesuai dengan definisi frekuensi relatif, maka kerelatifan diukur terhadap 𝑘1,
sehingga
𝑃(𝑘2|⁡𝑘1) =
𝑃(𝑘2 ∩ 𝑘1)
𝑃(𝑘1)
.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2. 7)
Untuk menghitung densitas dari distribusi bersyarat, digunakan analogi
dari persamaan 2.7. Definisikan 𝑓(𝑥1, … , 𝑥 𝑘) sebagai densitas bersama dari vektor
acak 𝑿 = (𝑋1, … , 𝑋 𝑘) 𝑇
dan 𝑓(𝑥 𝑘|𝑥1, … , 𝑥 𝑘−1) sebagai densitas peluang variabel
acak 𝑋 𝑘 diberikan 𝑋1, … , 𝑋 𝑘−1. Sesuai dengan persamaan 2.7, maka

20
𝑓(𝑥 𝑘|𝑥1, … , 𝑥 𝑘−1) =⁡
𝑓(𝑥1, … , 𝑥 𝑘)
⁡𝑓(𝑥1, … , 𝑥 𝑘−1)
.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2. 8)
Sesuai persamaan 2.8, dapat disimpulkan bahwa untuk mencari distribusi ber-
syarat dibutuhkan distribusi bersama. Dengan menggunakan persamaan 2.1, 2.5,
dan 2.8, diperoleh
𝑓(𝑥 𝑘|𝑥1, … , 𝑥 𝑘−1)⁡=⁡
𝑐 𝑔𝑎𝑢𝑠𝑠(𝑢1, … , 𝑢 𝑘)⁡⁡𝑓1(𝑥1)⁡…⁡𝑓𝑘(𝑥 𝑘)
𝑐 𝑔𝑎𝑢𝑠𝑠(𝑢1, … , 𝑢 𝑘−1)⁡⁡𝑓1(𝑥1)⁡…⁡𝑓𝑘−1(𝑥 𝑘−1)
= 𝑓𝑘(𝑥 𝑘)
𝑐 𝑔𝑎𝑢𝑠𝑠(𝑢1, … , 𝑢 𝑘)
𝑐 𝑔𝑎𝑢𝑠𝑠(𝑢1, … , 𝑢 𝑘−1)
=
𝑓𝑘(𝑥 𝑘)⁡𝜙 𝑘(y1, … , yk|𝑫k)𝜙1(y1)⁡… 𝜙1(yk−1)
𝜙1(y1)⁡…⁡𝜙1(yk)𝜙 𝑘−1(y1, … , yk−1|𝑫k−1)
=
𝑓𝑘(𝑥 𝑘)⁡𝜙 𝑘(y1, … , yk|𝑫k)
𝜙1(yk)𝜙 𝑘−1(y1, … , yk−1|𝑫k−1)
.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2. 9)
Karena 𝑌𝑗 = Φ1
−1
(𝐹𝑗(𝑋𝑗)), maka 𝜙1(𝑦𝑗) = 𝑓𝑗(𝑥𝑗). Dengan demikian, persamaan
2.9 dapat dituliskan sebagai berikut:
𝑓(𝑦 𝑘|𝑦1, … , 𝑦 𝑘−1; 𝑫 𝑘)⁡⁡= 𝜙1(𝑦 𝑘)⁡
𝜙 𝑘(𝑦1, … , 𝑦 𝑘; 𝑫 𝑘)
𝜙 𝑘−1(𝑦1, … , 𝑦 𝑘−1; 𝑫 𝑘−1) × 𝜙1(𝑦 𝑘)
⁡⁡.⁡⁡⁡⁡(2. 10)
2.5 Titik Maksimum
Misalkan 𝐴 merupakan domain dari suatu fungsi 𝑓, dimana titik 𝑐 termuat dalam
𝐴. 𝑓(𝑐) merupakan titik maksimum dari fungsi 𝑓 di 𝐴 apabila 𝑓(𝑐) ≥ 𝑓(𝑥) untuk
semua 𝑥𝜖𝐴. Apabila 𝑓 kontinu pada interval [𝑎, 𝑏], maka 𝑓 memiliki titik maksi-
mum (lihat referensi Purcell dkk, 2007). Titik maksimum yang didefinisikan pada
interval tutup dapat berupa titik stasioner, titik ujung, maupun titik singular.

21
Titik singular ialah titik interior dari domain fungsi dimana 𝑓′(𝑥) tidak
terdefinisi. Sedangkan titik stasioner merupakan titik dimana
𝑓′(𝑥) =
𝑑𝑓(𝑥)
𝑑𝑥
= 0.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2. 11)
Tidak semua titik stasioner merupakan titik maksimum. Terdapat beberapa jenis
titik stasioner pada fungsi satu variabel, yaitu titik maksimum, titik minimum, dan
titik belok. Titik maksimum akan didapatkan apabila grafik 𝑓(𝑥) terbuka ke
bawah. Berikut teorema mengenai turunan kedua dari fungsi 𝑓 (lihat referensi
Purcell dkk, 2007):
Teorema
Misal fungsi 𝑓 memiliki turunan kedua pada interval buka I.
1. Jika 𝑓′′(𝑥) > 0 untuk semua 𝑥 di I, maka kurva 𝑓 terbuka ke atas
pada interval I.
2. Jika 𝑓′′(𝑥) < 0⁡untuk semua 𝑥 di I, maka kurva 𝑓 terbuka ke bawah
pada interval I.⁡∎
2.5.1 Titik Maksimum Fungsi Densitas Distribusi Normal
Distribusi normal merupakan distribusi yang memiliki densitas bersifat log-con-
cave karena memiliki fungsi densitas yang memenuhi
𝑑2
log 𝑓(𝑥)
𝑑𝑥2
=
−1
𝜎2
< 0,
dimana yang dimaksud dengan fungsi log disini ialah fungsi logaritma natural.
Distribusi yang bersifat log-concave bersifat unimodal, yaitu memiliki satu titik
dimana fungsi densitasnya bernilai maksimum. Hal ini dapat dilihat dari teorema
mengenai turunan kedua dan sifat fungsi logaritma, yaitu bersifat monoton naik
murni. Dengan demikian, untuk distribusi yang memiliki densitas bersifat log-

22
concave, titik dimana fungsi densitas peluang bernilai maksimum merupakan titik
stasioner dan dapat ditentukan dengan menggunakan turunan pertama.

23
Bab 3
Model Imputasi
Sebelum mengkonstruksi model imputasi, terlebih dahulu akan dijelaskan skema
imputasi yang dilakukan. Skema imputasi bergantung pada struktur dropout pada
data. Beberapa struktur dropout yang mungkin terjadi pada proses pengambilan
data longitudinal ialah :
1. Dropout terjadi pada beberapa subjek sekaligus dalam suatu waktu pengu-
kuran,
2. Dropout terjadi pada beberapa subjek, dimana waktu terjadinya dropout
antar subjek yang berbeda tidak beririsan,
3. Dropout terjadi pada beberapa subjek, dimana beberapa diantara subjek
tersebut mengalami dropout di waktu yang sama.
Dari ketiga struktur dropout diatas, struktur dropout ke-3 memuat dua struktur
lainnya, sehingga struktur ini yang akan digunakan untuk mengilustrasikan skema
imputasi yang akan dilakukan. Akan diberikan contoh kasus dimana proses drop-
out mengikuti struktur dropout ke-3.
Misalkan terdapat 10 subjek yang akan diobservasi sebanyak 6 kali. 𝑥𝑖𝑗
menyatakan nilai observasi untuk subjek 𝑖 pada waktu 𝑗. Selama proses pengam-
bilan data, beberapa individu mengalami dropout, sehingga data yang diperoleh
seperti pada tabel berikut:
Tabel 3.1 Ilustrasi data longitudinal dengan dropout.
1 2 3 4 5 6
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6
1 𝑥11 𝑥12 𝑥13 𝑥14 𝑥15 𝑥16
2 𝑥21 𝑥22 𝑥23 − − −

Bab 3 Model Imputasi
24
Definisikan variabel 𝑘 sebagai variabel yang menyatakan titik waktu ter-
jadinya dropout pertama. Untuk kasus pada Tabel 3.1, 𝑘 = 3. Imputasi dilakukan
pada data hilang untuk masing-masing individu yang mengalami dropout pada
saat 𝑘. Setelah semua data hilang pada saat 𝑘 diimput, proses imputasi dilanjutkan
dengan mengimput data yang hilang pada saat 𝑘 + 1, dan seterusnya. Proses ini
disebut dengan sequential imputation.
Untuk mengisi nilai-nilai yang hilang pada tiap proses imputasi berda-
sarkan skema imputasi yang telah dijelaskan, akan dibahas salah satu model single
imputation yang dikonstruksi dengan memanfaatkan distribusi bersyarat. Menurut
Ene Käärik (2006b), dengan meggunakan distribusi bersyarat, karakteristik dari
distribusi seperti mean, deviasi standard, dan kuantil dapat dengan mudah
dijelaskan secara analitik. Selain itu, dengan memanfaatkan distribusi bersyarat,
sampel acak dari data hilang dapat dibangkitkan, sehingga dengan kata lain,
model yang dihasilkan dapat dikembangkan menjadi model multiple imputation.
3.1 Model Umum Imputasi
Pada sub bab ini, akan dikonstruksi sebuah model umum imputasi untuk meng-
imput nilai 𝑥𝑖𝑘, yaitu data hilang dari individu 𝑖 pada saat 𝑘. Untuk mempermudah
penulisan, selanjutnya 𝑥𝑖𝑘 dituliskan sebagai 𝑥 𝑘. Misalkan terdapat 𝑛 subjek yang
akan diukur sebanyak 𝑚 kali. 𝑿 = (𝑋1, … , 𝑋 𝑚) 𝑇
merupakan vektor acak peng-
ukuran pada titik waktu diskrit 1,2, … , 𝑚. Apabila masing-masing subjek diang-
3 𝑥31 𝑥32 𝑥33 𝑥34 𝑥35 𝑥36
4 𝑥41 𝑥42 − − − −
5 𝑥51 𝑥52 𝑥53 𝑥54 𝑥55 𝑥56
6 𝑥61 𝑥62 𝑥63 − − −
7 𝑥71 𝑥72 𝑥73 𝑥74 𝑥75 𝑥76
8 𝑥81 𝑥82 − − − −
9 𝑥91 𝑥92 𝑥93 𝑥94 𝑥95 𝑥96
10 𝑥10,1 𝑥10,2 𝑥10,3 𝑥10,4 𝑥10,5 𝑥10,6

25
gap sebagai sampel acak dari 𝑿, maka data dari masing-masing subjek dapat
dikatakan sebagai realisasi dari vektor acak 𝑿. Dengan demikian, untuk mencari
nilai 𝑥 𝑘 berdasarkan observasi sebelumnya, yaitu 𝑥1, … , 𝑥 𝑘−1, setara dengan men-
cari distribusi dari 𝑋 𝑘 bersyarat 𝑋1, . . . , 𝑋 𝑘−1.
Sesuai persamaan 2.9 dan 2.10, densitas 𝑋 𝑘 bersyarat 𝑋1, . . . , 𝑋 𝑘−1 dapat
dituliskan sebagai densitas 𝑌𝑘 bersyarat 𝑌1, . . . , 𝑌𝑘−1. Definisikan
𝑯 = (𝑌1, … , 𝑌𝑘−1) 𝑇
sebagai vektor acak historis. Dengan demikian, matriks 𝑫 𝑘 dapat dipartisi menja-
di
𝑫 𝑘 = (
𝑫 𝑘−1 𝒓
𝒓 𝑇
1
),
dimana 𝑫 𝑘−1 merupakan matriks korelasi dari vektor acak historis 𝑯 yang
berukuran (𝑘 − 1) × (𝑘 − 1) dan 𝒓 merupakan matriks korelasi antara variabel
acak pada vektor historis dengan 𝑌𝑘. Kemudian, dengan mensubstitusikan fungsi
densitas distribusi normal ke persamaan 2.10, diperoleh
𝑓(𝑦 𝑘|𝑯; 𝑫 𝑘)⁡=
𝜙1(𝑦 𝑘)⁡
1
(2𝜋)
𝑘
2|𝑫 𝑘|
1
2
𝑒
{−
1
2
𝒘 𝑘
𝑇 𝑫 𝑘
−1
𝒘 𝑘}
(
1
(2𝜋)
𝑘−1
2 |𝑫 𝑘−1|
1
2
𝑒
{−
1
2
𝒘 𝑘−1
𝑇 𝑫 𝑘−1
−1 𝒘 𝑘−1} 1
(2𝜋)
1
2
𝑒
{−
1
2
𝑦k
2}
)
=
𝜙1(𝑦 𝑘)|𝑫 𝑘−1|
1
2 𝑒−
1
2
(𝒘 𝑘
𝑻 𝑫 𝑘
−1
𝒘 𝑘−𝒘 𝑘−1
𝑻 𝑫 𝑘−1
−1
𝒘 𝑘−1−𝑦k
2)
|𝑫 𝑘|
1
2
.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 1)
Untuk mendapatkan taksiran terbaik dari 𝑥 𝑘, akan dicari nilai 𝑦 𝑘 yang me-
maksimumkan densitas bersyarat pada persamaan 3.1. Sesuai dengan pembahasan
pada bab 2.5.1, titik maksimum dari fungsi densitas distribusi normal merupakan
titik stasioner. Dengan demikian, nilai 𝑦 𝑘 yang memaksimumkan densitas ber-
syarat pada persamaan 3.1 ialah titik yang memenuhi persamaan berikut:

26
𝑑𝑓(𝑦 𝑘|𝑯; 𝑫 𝑘)
𝑑𝑦 𝑘
= 0.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 2)
Untuk mempermudah mencari titik stasioner dengan menggunakan formula 3.2
akan dicari bentuk sederhana dari 𝒘 𝑘
𝑻
𝑫 𝑘
−1
𝒘 𝑘 − 𝒘 𝑘−1
𝑻
𝑫 𝑘−1
−1
𝒘 𝑘−1. Penyeder-
hanaan ini digunakan untuk memisahkan 𝑦 𝑘 dari matriks 𝒘 𝑘. Selain itu, akan
dicari bentuk sederhana dari
⁡|𝑫 𝑘−1|
1
2
|𝑫 𝑘|
1
2
. Untuk mencari bentuk sederhana dari
|𝑫 𝑘−1|
1
2
|𝑫 𝑘|
1
2
,
mula-mula 𝑫 𝑘 dituliskan dalam bentuk matriks partisi, sehingga
|𝑫 𝑘−1|
1
2
|𝑫 𝑘|
1
2
dapat
dituliskan dalam bentuk berikut:
|𝑫 𝑘−1|
1
2
|𝑫 𝑘|
1
2
=
|𝑫 𝑘−1|
1
2
|
𝑫 𝑘−1 𝒓
𝒓 𝑇 1
|
1
2
= (
|
𝑫 𝑘−1 𝒓
𝒓 𝑇
1
|
|𝑫 𝑘−1|
)
−
1
2
⁡.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 3)
Selanjutnya, akan dicari nilai dari |
𝑫 𝑘−1 𝒓
𝒓 𝑇
1
| terlebih dahulu. Sesuai de-
ngan Silvester (1999),
(
𝑫 𝑘−1 𝒓
𝒓 𝑇
1
) (
𝑰 𝑘−1 𝟎 𝑘−1,1
−𝒓 𝑇
1
) = (
𝑫 𝑘−1 − 𝒓𝒓 𝑇
𝒓
𝟎1,𝑘−1 1
).
Kemudian, dengan mengaplikasikan determinan terhadap kedua ruas, diperoleh
|
𝑫 𝑘−1 𝒓
𝒓 𝑇
1
| |
𝑰 𝑘−1 𝟎 𝑘−1,1
−𝒓 𝑇
1
| = |
𝒓
𝟎1,𝑘−1 1
|
⁡|
𝑫 𝑘−1 𝒓
𝒓 𝑇
1
| 1 = |
𝒓
𝟎1,𝑘−1 1
|
|
𝑫 𝑘−1 𝒓
𝒓 𝑇
1
| = |𝑫 𝑘−1 − 𝒓𝒓 𝑇|.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 4)

27
Dengan menggunakan persamaan 3.3 dan 3.4, maka bentuk sederhana dari
|𝑫 𝑘−1|
1
2
|𝑫 𝑘|
1
2
adalah
|𝑫 𝑘−1|
1
2
|𝑫 𝑘|
1
2
⁡= {|𝑫 𝑘−1 − 𝒓𝒓 𝑇|⁡⁡|𝑫 𝑘−1|−1}−
1
2
=⁡{|𝑫 𝑘−1 − 𝒓𝒓 𝑇|⁡|𝑫 𝑘−1
−1 |}−⁡
1
2
= |(𝑫 𝑘−1 − 𝒓𝒓 𝑇
)(𝑫 𝑘−1
−1
)|−
1
2⁡
= |1 − 𝒓 𝑇
⁡𝑫 𝑘−1
−1
𝒓|−
1
2
= (1 − 𝒓 𝑻
⁡𝑫 𝒌−𝟏
−𝟏
𝒓)
−⁡
1
2.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 5)
Selanjutnya, akan dicari bentuk sederhana dari 𝒘 𝑘
𝑻
𝑫 𝑘
−1
𝒘 𝑘 − 𝒘 𝑘−1
𝑻
𝑫 𝑘−1
−1
𝒘 𝑘−1.
Sebagai langkah awal dari proses penyederhanaan, tuliskan 𝑫 𝑘
−1
sebagai matriks
partisi yang memuat 𝑫 𝑘−1
−1
, yaitu
𝑫 𝑘
−1
= (
(𝑫 𝑘−1 − 𝒓𝒓 𝑇)−1
−𝑫 𝑘−1
−1
𝒓(1 − 𝒓 𝑇
𝑫 𝑘−1
−1
𝒓)−1
−(1 − 𝒓 𝑇
𝑫 𝑘−1
−1
𝒓)−1
𝒓 𝑇
𝑫 𝑘−1
−1
(1 − 𝒓 𝑇
𝑫 𝑘−1
−1
𝒓)−1 ).⁡⁡⁡⁡⁡(3. 6)
Penurunan persamaan 3.6 dapat dilihat pada Lampiran A.1. Kemudian dengan
menggunakan persamaan 3.5 dan 3.6, diperoleh
𝒘 𝑘
𝑻
𝑫 𝑘
−1
𝒘 𝑘 − 𝒘 𝑘−1
𝑻
𝑫 𝑘−1
−1
𝒘 𝑘−1 =
(𝑦 𝑘 − 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1)2
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝒓
⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 7)
(untuk lebih jelasnya, lihat Lampiran A.2). Selanjutnya, dengan mensubstitusikan
persamaan 3.7 dan 3.5 ke persamaan 3.1, diperoleh
𝑓(𝑦 𝑘|𝑯; 𝑫 𝑘) =
𝜙1(𝑦 𝑘)⁡exp {−
1
2
(
𝑫 𝑘−1
−1
𝒘 𝑘−1)2
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝑟
− 𝑦k
2
)}
(1 − 𝒓 𝑇⁡𝑫k−1
−1
𝐫)
1
2
.⁡⁡⁡⁡⁡⁡(3. 8)

28
Karena persamaaan 3.8 memuat fungsi eksponen, maka untuk mempermudah
mencari turunan dari 𝑓(𝑦 𝑘|𝑯; 𝑫 𝑘) terhadap variabel 𝑦 𝑘, definisikan 𝑙(𝑦 𝑘) =
ln 𝑓(𝑦 𝑘|𝑯; 𝑫 𝑘), sehingga
𝑙(𝑦 𝑘) = ln (⁡
𝑒−
1
2
𝑦k
2
(2𝜋)
1
2
) −
1
2
ln(1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝒓) −
1
2
(
𝑫 𝑘−1
−1
𝒘 𝑘−1)2
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝒓
− 𝑦k
2
)
= −
1
2
𝑦k
2
−
1
2
ln(2π) −
1
2
ln⁡(1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝒓) −
1
2
(
(𝑦 𝑘−𝒓 𝑇 𝑫 𝑘−1
−1
𝒘 𝑘−1)
2
1−𝒓 𝑇⁡𝑫k−1
−1 𝒓
− 𝑦k
2
).
Fungsi logaritma merupakan fungsi monoton naik murni, sehingga memak-
simumkan nilai suatu fungsi sama saja dengan memaksimumkan nilai dari
logaritma fungsi tersebut. Turunan dari 𝑙(𝑦 𝑘) terhadap variabel 𝑦 𝑘 adalah
𝑑𝑙(𝑦 𝑘)
𝑑𝑦 𝑘
=
−𝑦 𝑘 + 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝑟
.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 9)
Sesuai dengan formula 3.2, dengan menyelesaikan persamaan
−𝑦 𝑘 + 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝑟
= 0,
diperoleh titik stasioner dari fungsi 𝑓(𝑦 𝑘|𝑯; 𝑫 𝑘), yaitu
𝑦 𝑘 = 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1.
Teorema pada sub bab 2.5 menyatakan bahwa titik maksimum akan di-
dapatkan apabila grafik 𝑙(𝑦 𝑘) terbuka ke bawah, sehingga turunan kedua dapat
dimanfaatkan untuk menentukan apakah ⁡𝑦 𝑘 = 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1 adalah titik maksi-
mum. Berikut turunan kedua dari fungsi 𝑙(𝑦 𝑘) terhadap 𝑦 𝑘:
𝑑2
𝑙(𝑦 𝑘)
𝑑𝑦 𝑘
2 =⁡
−1
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝒓

29
Akan dibuktikan bahwa −(1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝒓)
−1
selalu bernilai negatif. Sesuai de-
ngan persamaan 3.5,
1
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝒓
=⁡
|𝑫 𝑘−1|
|𝑫 𝑘|
(1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝒓)⁡|𝑫 𝑘−1| =⁡|𝑫 𝑘|.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 10)
Persamaan 3.10 dapat dimanfaatkan untuk mengetahui rentang nilai dari
(1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝒓)
−1
. Akan dicari terlebih dahulu rentang nilai untuk |𝑫 𝑘|⁡, |𝑫 𝑘−1|⁡,
dan 𝒓 𝑇
⁡𝑫k−1
−1
𝒓. Misal 𝒚 = 𝑫 𝑘−1
−1
𝒓. Karena matriks 𝑫 𝑘−1 bersifat definit positif dan
simetri, maka berlaku
𝒚 𝑇
𝑫 𝑘−1 𝒚 > 0
(𝑫 𝑘−1
−1
𝒓) 𝑇
⁡𝑫 𝑘−1⁡(𝑫 𝑘−1
−1
𝒓) > 0⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡
(𝑫 𝑘−1
−1
𝒓) 𝑇
⁡⁡𝒓 > 0⁡⁡⁡⁡⁡⁡
𝒓 𝑇
𝑫 𝑘−1
−1
⁡⁡𝒓 > 0.
Kemudian karena 𝑫 𝑘 merupakan matriks definit positif, maka |𝑫 𝑘|, |𝑫 𝑘−1| > 0,
sehingga selang nilai yang mungkin dari 1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝒓 ialah
0 < 1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝒓 < 1.
Dengan demikian, −(1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝒓⁡)
−1
selalu bernilai negatif untuk sebarang
matriks korelasi. Dapat disimpulkan bahwa 𝑦 𝑘 = 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1 adalah titik di-
mana fungsi densitas 𝑓(𝑦 𝑘|𝑯; 𝑫 𝑘) mencapai nilai maksimum. Karena telah
memenuhi kriteria penaksir untuk 𝑦 𝑘, maka taksiran dari 𝑦 𝑘 adalah
𝑦 𝑘̂ = 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 11)

30
Dengan demikian, formula umum imputasi untuk 𝑥 𝑘 adalah
𝑥 𝑘̂ ⁡= 𝐹𝑘
−1
(Φ1(𝑦 𝑘̂))
⁡⁡=⁡ 𝐹𝑘
−1
(Φ1(𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝒌−𝟏)).⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 12)
3.2 Struktur Korelasi
Untuk menaksir nilai 𝑦 𝑘 menggunakan formula 3.11, dibutuhkan matriks 𝒓 𝑇
yang
memuat korelasi antara variabel pada vektor acak historis dengan 𝑌𝑘. Karena 𝑌𝑘
merupakan variabel acak yang memuat sampel tak terobservasi, korelasi sampel
tidak dapat dihitung.
Salah satu cara agar korelasi sampel dapat dihitung ialah dengan menge-
luarkan seluruh data subjek tak terobservasi dari perhitungan. Namun, karena
karakteristik dari subjek yang mengalami dropout mungkin saja berbeda dari
subjek yang tidak mengalami dropout, korelasi sampel yang dihitung dari subjek
yang tidak mengalami dropout dapat menyebabkan bias pada hasil imputasi.
Tanpa mengeluarkan subjek dengan dropout dari perhitungan, matriks korelasi
dapat ditaksir dengan mengasumsikan struktur korelasi tertentu. Apabila struktur
korelasi telah diasumsikan, taksiran matriks 𝒓 𝑇
dapat ditentukan setelah matriks
korelasi historis, 𝑫 𝑘−1 ditaksir.
3.2.1 Struktur Korelasi Compound Symmetry
Matriks dengan struktur compound symmetry (CS) memiliki nilai 1 pada seluruh
elemen diagonalnya dan memiliki nilai konstan untuk elemen lainnya. Apabila
matriks korelasi mengikuti struktur matriks CS, maka korelasi antara dua variabel
acak yang berbeda selalu bernilai sama.

31
Apabila 𝜌 didefinisikan sebagai koefisien korelasi, bentuk matriks 𝑫 𝑘−1
dibawah struktur CS adalah
𝑫 𝑘−1
𝐶𝑆
= (
1 𝜌 … 𝜌
𝜌 ⋱ ⋱ ⋮
⋮ ⋱ 1 𝜌
𝜌 … 𝜌 1
)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝒓 𝐶𝑆
= (
𝜌
⋮
𝜌
).
Untuk mencari nilai taksiran 𝑦 𝑘 dengan menggunakan formula 3.11 akan
dicari terlebih dahulu invers dari matriks 𝑫 𝑘−1
𝐶𝑆
. Matriks 𝑫 𝑘−1
𝐶𝑆
dapat dituliskan
sebagai berikut:
𝑫 𝑘−1
𝐶𝑆
= 𝜌⁡𝟏 𝑘−1 + (1 − 𝜌)𝑰 𝑘−1.
Dengan demikian, (𝑫 𝑘−1
𝐶𝑆
)−1
dapat diperoleh dengan menggunakan persamaan be-
rikut:
⁡𝜌⁡𝟏 𝑘−1(𝑫 𝑘−1
𝐶𝑆
)−1
+ (1 − 𝜌)(𝑫 𝑘−1
𝐶𝑆
)−1
= 𝑰 𝑘−1.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 13)
Dengan menggunakan persamaan 3.13 dan persamaan
(𝟏 𝑘−1)2
= (𝑘 − 1)(𝟏 𝑘−1),
akan dicari terlebih dahulu bentuk lain dari 𝟏 𝑘−1(𝑫 𝑘−1
𝐶𝑆
)−1
.
𝜌(𝑘 − 1)𝟏 𝑘−1(𝑫 𝑘−1
𝐶𝑆
)−1
+ (1 − 𝜌)𝟏 𝑘−1(𝑫 𝑘−1
𝐶𝑆
)−1
= 𝟏 𝑘−1
⁡⁡𝟏 𝑘−1(𝑫 𝑘−1
𝐶𝑆
)−1
=
𝟏 𝑘−1
(1 − 2𝜌 + 𝑘𝜌)
⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 14)
Dengan mensubstitusikan persamaan 3.14 ke persamaan 3.13, diperoleh
𝜌⁡
𝟏 𝑘−1
(1 − 2𝜌 + 𝑘𝜌)
+ (1 − 𝜌)(𝑫 𝑘−1
𝐶𝑆
)−1
= 𝑰 𝑘−1
(𝑫 𝑘−1
𝐶𝑆
)−1
=
𝑰 𝑘−1 − 𝜌⁡
𝟏 𝑘−1
(1 − 2𝜌 + 𝑘𝜌)
(1 − 𝜌)
⁡.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 15)

32
Untuk menyederhanakan formula imputasi, misalkan 𝑎 dan b berturut-
turut menyatakan elemen diagonal dan off-diagonal dari matriks (𝑫 𝑘−1
𝐶𝑆
)−1
. De-
ngan demikian,
𝑦 𝑘
𝐶𝑆̂ ⁡⁡= (𝒓 𝑘−1
𝐶𝑆
) 𝑇(𝑫 𝑘−1
𝐶𝑆
)−1
𝒘 𝑘−1
= (𝜌, … , 𝜌) (
𝑎 𝑏 … 𝑏
𝑏 𝑎 ⋱ 𝑏
⋮ ⋱ ⋱ ⋮
𝑏 𝑏 … 𝑎
) (
𝑦1
⋮
⋮
𝑦 𝑘−1
)
= 𝜌(𝑎 + (𝑘 − 2)𝑏 … 𝑎 + (𝑘 − 2)𝑏) (
𝑦1
⋮
⋮
𝑦 𝑘−1
).⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 16)
Dengan menggunakan persamaan 3.15 diperoleh
𝑎 =
1
(1 − 𝜌)
−
𝜌
(1 − 𝜌)(1 − 2𝜌 + 𝑘𝜌)
= 1 +
(𝑘 − 2)𝜌2
1 − (𝑘 − 2)𝜌2 + (𝑘 − 3)𝜌
𝑏 = −
𝜌
(1 − 𝜌)(𝜌⁡𝑘 + 1 − 2𝜌)
=⁡−
𝜌
1 − (𝑘 − 2)𝜌2 + (𝑘 − 3)𝜌
,⁡⁡⁡⁡⁡⁡⁡
sehingga
𝑎 + (𝑘 − 2)𝑏⁡ = 1 +
(𝑘 − 2)𝜌2
1 − (𝑘 − 2)𝜌2 + (𝑘 − 3)𝜌
−
(𝑘 − 2)𝜌
1 − (𝑘 − 2)𝜌2 + (𝑘 − 3)𝜌
=
1 + (𝑘 − 3)𝜌 − (𝑘 − 2)𝜌
1 − (𝑘 − 2)𝜌2 + (𝑘 − 3)𝜌
=
−(𝜌 − 1)
−(𝑘 − 2)𝜌2 + (𝑘 − 3)𝜌 + 1
=
1
1 + (𝑘 − 2)𝜌
.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 17)

33
Kemudian, dengan mensubstitusikan persamaan 3.17 ke persamaan 3.16, diper-
oleh
𝑦 𝑘
𝐶𝑆̂ = 𝜌 (
1
1 + (𝑘 − 2)𝜌
…
1
1 + (𝑘 − 2)𝜌
) (
𝑦1
⋮
⋮
𝑦 𝑘−1
) =
𝜌
1 + (𝑘 − 2)𝜌
∑ 𝑦𝑗
𝑘−1
𝑗=1
⁡,⁡
sehingga formula (model) imputasi untuk 𝑥 𝑘 dibawah asumsi struktur korelasi CS
adalah
𝑥 𝑘
𝐶𝑆̂ =⁡ 𝐹𝑘
−1
(Φ1 (
𝜌
1 + (𝑘 − 2)𝜌
∑ 𝑦𝑗
𝑘−1
𝑗=1
)).⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 18)
3.2.2 Struktur Korelasi First Order Autoregressive
Struktur first order autoregressive (AR1) merupakan struktur matriks dengan 2
parameter. Nilai elemen pada matriks korelasi AR1 bergantung pada suatu
koefisien korelasi 𝜌 dan selisih titik waktu pengukuran berdasarkan satuan
tertentu (lag). Korelasi antara dua variabel pengukuran pada titik waktu yang
berbeda akan semakin menurun apabila rentang waktu pengukuran semakin besar.
Bentuk matriks 𝑫 𝑘−1 dibawah struktur AR1 adalah
𝑫 𝑘−1
𝐴𝑅1
=
(
1 𝜌 𝜌2
… 𝜌 𝑘−2
𝜌 1 𝜌 … 𝜌 𝑘−3
𝜌2
𝜌 1 … 𝜌 𝑘−4
⋮ ⋮ ⋱ ⋮
𝜌 𝑘−2
𝜌 𝑘−3
𝜌 𝑘−4
… 1 )
⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝒓 𝐴𝑅1
=
(
𝜌 𝑘−1
𝜌 𝑘−2
⋮
⋮
𝜌 )
.
Untuk mencari nilai taksiran 𝑦 𝑘 dengan menggunakan formula 3.11 akan dicari
terlebih dahulu invers dari matriks korelasi AR1, yaitu (𝑫 𝑘−1
𝐴𝑅1)−1
.

34
Berdasarkan Kac dkk (1953), invers dari matriks korelasi AR1 adalah
(𝑫 𝑘−1
𝐴𝑅1
⁡)
−1
=
1
𝜌2 − 1
(
−1 ⁡⁡⁡⁡⁡𝜌 0
𝜌 −(1 + 𝜌2
) 𝜌
0 ⁡⁡⁡⁡⁡𝜌 −(1 + 𝜌2
)
… 0⁡ 0
… 0⁡ 0
… 0⁡ 0
⁡⁡⁡⁡⁡⁡
0⁡⁡⁡⁡⁡⁡ 0⁡⁡⁡⁡⁡⁡⁡ 𝜌⁡⁡⁡⁡⁡⁡⁡
⋮⁡⁡⁡⁡⁡⁡ ⋮⁡⁡⁡⁡⁡⁡⁡ ⋮⁡⁡⁡⁡⁡⁡⁡
0
0
⁡⁡⁡⁡⁡⁡
0
0
⁡⁡⁡⁡⁡⁡⁡
0
0
⁡⁡⁡⁡⁡⁡⁡
⁡⁡
… 0 0
⋱ ⋮ ⋮
…
…
−(1 + 𝜌2
)
𝜌
𝜌
−1 )
.⁡⁡
Dengan memanfaatkan (𝑫 𝑘−1
𝐴𝑅1
⁡)−1
, akan dicari terlebih dahulu taksiran 𝑦 𝑘 di
bawah struktur AR1.
𝑦 𝑘
𝐴𝑅1̂ ⁡⁡⁡= (𝒓 𝑘−1
𝐴𝑅1) 𝑇(𝑫 𝑘−1
𝐴𝑅1
⁡)−1
⁡𝒚 𝑘−1
⁡⁡=
1
𝜌2 − 1
( 𝜌 𝑘−1
𝜌 𝑘−2 … 𝜌)
×
(
−1 ⁡⁡⁡⁡⁡𝜌 0
𝜌 −(1 + 𝜌2
) 𝜌
0 ⁡⁡⁡⁡⁡𝜌 −(1 + 𝜌2
)
… 0⁡ 0
… 0⁡ 0
… 0⁡ 0
⁡⁡⁡⁡⁡⁡
0⁡⁡⁡⁡⁡⁡ 0⁡⁡⁡⁡⁡⁡⁡ 𝜌⁡⁡⁡⁡⁡⁡⁡
⋮⁡⁡⁡⁡⁡⁡ ⋮⁡⁡⁡⁡⁡⁡⁡ ⋮⁡⁡⁡⁡⁡⁡⁡
0
0
⁡⁡⁡⁡⁡⁡
0
0
⁡⁡⁡⁡⁡⁡⁡
0
0
⁡⁡⁡⁡⁡⁡⁡
⁡⁡⁡
… 0 0
⋱ ⋮ ⋮
…
…
−(1 + 𝜌2
)
𝜌
𝜌
−1 )
(
𝑦1
⋮
⋮
𝑦 𝑘−1
)
⁡⁡=
1
𝜌2 − 1
(𝑎1 𝑎2
… 𝑎 𝑘−1) (
𝑦1
⋮
⋮
𝑦 𝑘−1
),
dimana 𝑎1 = −𝜌 𝑘−1
+ 𝜌(𝜌 𝑘−2) = 0
𝑎𝑖 = 𝜌(𝜌 𝑘−𝑖+1
) − (1 + 𝜌2)𝜌 𝑘−𝑖
+ 𝜌(𝜌 𝑘−𝑖−1
) = 0,
untuk⁡⁡𝑖 = 2, … 𝑘 − 2
⁡⁡𝑎 𝑘−1 = 𝜌(𝜌 𝑘−(𝑘−2)
) − 𝜌 = 𝜌3
− 𝜌 = 𝜌(𝜌2
− 1).

35
Dengan demikian, taksiran untuk 𝑦 𝑘 dibawah struktur AR1 adalah
𝑦 𝑘
𝐴𝑅1̂ ⁡= (𝒓 𝑘−1
𝐴𝑅1) 𝑇(𝑫 𝑘−1
𝐴𝑅1
⁡)−1
⁡𝒚 𝑘−1
=
1
𝜌2 − 1
𝜌(𝜌2
− 1)𝑦 𝑘−1
= 𝜌𝑦 𝑘−1,⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 19)
sehingga formula imputasi untuk 𝑥 𝑘 dibawah asumsi struktur korelasi AR1 adalah
𝑥 𝑘
𝐴𝑅1̂ =⁡ 𝐹𝑘
−1
(Φ1(𝜌𝑦 𝑘−1)).⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 20)
Dari persamaan 3.19, dapat dilihat bahwa nilai 𝑦 𝑘
𝐴𝑅1̂ hanya bergantung
pada 𝜌 dan 𝑦 𝑘−1. Dengan demikian, distribusi 𝑌𝑘|𝑌𝑘−1 dapat digunakan sebagai
salah satu model penaksir 𝑦 𝑘. Misalkan (𝑌𝑘−1, 𝑌𝑘) 𝑇
berdistribusi bivariat normal
dengan
𝝁 = (
𝜇 𝑘−1
𝜇 𝑘
)⁡⁡⁡⁡⁡⁡dan⁡⁡⁡⁡𝚺 = (
𝜎𝑘−1
2
𝜌𝜎𝑘−1 𝜎𝑘
𝜌𝜎𝑘−1 𝜎𝑘 𝜎𝑘
2 ).
Dengan demikian, sesuai dengan teorema mengenai distribusi bersyarat yang
dibangun dari distribusi multivariat normal (lihat referensi Hogg dan Craig, 2005),
𝑌𝑘|𝑌𝑘−1~𝑁2 (𝜇 𝑘 +
𝜌𝜎𝑘
𝜎𝑘−1
⁡(𝑦 𝑘−1 − 𝜇 𝑘−1), 𝜎𝑘
2
(1 − 𝜌2
)),
sehingga taksiran 𝑦 𝑘 juga dapat diperoleh dengan menggunakan formula berikut:
𝑦 𝑘
𝐴𝑅1𝑛̂ ⁡= 𝐸(𝑌𝑘|𝑌𝑘−1)̂
= 𝑌̅𝑘 + 𝜌
𝑠 𝑘
𝑠 𝑘−1
⁡(𝑦 𝑘−1 − 𝑌̅𝑘−1),⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡
dengan
𝑌̅𝑘 : rataan dari sampel yang terobservasi pada waktu 𝑘,

36
𝑌̅𝑘−1 : rataan dari sampel yang terobservasi pada waktu (𝑘 − 1),
𝑠 𝑘⁡ : deviasi standar dari sampel yang terobservasi pada waktu 𝑘,
𝑠 𝑘−1 : deviasi standar dari sampel yang terobservasi pada waktu (𝑘 − 1),
𝜌 : koefisien korelasi dibawah struktur AR1.
Dapat disimpulkan bahwa imputasi untuk 𝑥 𝑘 dibawah asumsi struktur korelasi
AR1 juga dapat diperoleh dengan menggunakan formula berikut:
𝑥 𝑘
𝐴𝑅1𝑛̂ =⁡ 𝐹𝑘
−1
(Φ1 (𝑌̅𝑘 + 𝜌
𝑠 𝑘
𝑠 𝑘−1
⁡(𝑦 𝑘−1 − 𝑌̅𝑘−1))).⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 21)
Apabila 𝑠 𝑘 = 𝑠 𝑘−1 dan 𝑌̅𝑘 = 𝑌̅𝑘−1 = 0, maka formula 3.21 akan sesuai dengan
formula 3.20.
3.2.3 Struktur Korelasi 1-Banded Toeplitz
Struktur korelasi Toeplitz dan banded Toeplitz memuat nilai korelasi berbeda un-
tuk tiap pasang variabel acak dengan rentang waktu yang berbeda. Selain itu,
struktur ini tidak mengharuskan nilai korelasinya merupakan pangkat dari korelasi
basis (misal 𝜌). Matriks Toeplitz bernilai konstan sepanjang diagonal paralel ter-
hadap diagonal utama.
Struktur banded Toeplitz dapat digunakan dengan asumsi bahwa terdapat
struktur markovian, yaitu observasi terakhir mempengaruhi beberapa observasi
berikutnya (sejauh 𝑘∗
). Misal 𝑘∗
= 1, maka hanya 2 observasi yang berturutan
yang memiliki kebergantungan, sedemikian sehingga untuk 𝑗 = 1, … , 𝑘 − 2,
𝐷𝑗,𝑗+1 = 𝜌. Struktur ini disebut 1-banded Toeplitz Structure (1BT).

37
Bentuk matriks 𝑫 𝑘−1 dibawah struktur 1BT adalah
𝑫 𝑘−1
1𝐵𝑇
=
(
1 𝜌 0 … 0
𝜌 1 𝜌 ⋱ ⋮
0 𝜌 ⋱ ⋱ 0
⋮ ⋱ ⋱ 1 𝜌
0 … 0 𝜌 1)
⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑟1𝐵𝑇
= (
0
⋮
𝜌
)
Selanjutnya, akan dicari formula imputasi untuk 𝑦 𝑘 dibawah asumsi struktur 1BT.
Berdasarkan formula 3.11,
𝑦 𝑘
1𝐵𝑇̂ = 𝒓 𝑇(𝑫 𝑘−1
1𝐵𝑇)−1
𝑦 𝑘−1 = (0 … 𝜌)⁡(𝑫 𝑘−1
1𝐵𝑇)−1
⁡(
𝑦1
⋮
⋮
𝑦 𝑘−1
).
Misal ( 𝑎1 … 𝑎 𝑘−1) merupakan baris terakhir dari matriks (𝑫 𝑘−1
1𝐵𝑇)−1
, maka
⁡𝑦 𝑘
1𝐵𝑇̂ = (𝜌𝑎1 𝜌𝑎2 … 𝜌𝑎 𝑘−1)⁡(
𝑦1
⋮
⋮
𝑦 𝑘−1
),⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 22)
dengan
𝜌𝑎 𝑗 = 𝜌(−1) 𝑘−1+𝑗 1
|𝑫 𝑘−1
1𝐵𝑇|
|
𝑫𝑗−1
1𝐵𝑇
𝑜
𝐴 𝑩
|.
𝑩 merupakan matriks segitiga bawah berukuran (𝑘 − 1 − 𝑗) dengan diagonal
utama 𝜌, sehingga
𝜌𝑎 𝑗 = 𝜌(−1) 𝑘−1+𝑗
1
|𝑫 𝑘−1
1𝐵𝑇 |
𝑑𝑒𝑡 |
𝑫𝑗−1
1𝐵𝑇
𝑜
𝐴 𝑩
|
⁡= 𝜌(−1) 𝑘−1+𝑗
1
|𝑫 𝑘−1
1𝐵𝑇|
|𝑫𝑗−1
1𝐵𝑇
||𝐵|
⁡= 𝜌(−1) 𝑘−1+𝑗
1
|𝑫 𝑘−1
1𝐵𝑇|
|𝑫𝑗−1
1𝐵𝑇
|⁡𝜌 𝑘−1−𝑗
⁡=⁡(−1) 𝑘−𝑗+1
1
|𝑫 𝑘−1
1𝐵𝑇 |
|𝑫𝑗−1
1𝐵𝑇
|⁡𝜌 𝑘−𝑗
⁡.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 23)

39
Suatu matriks bersifat definit positif jika dan hanya jika seluruh nilai
eigennya positif (lihat referensi Anton dan Rorres, 2005). Dengan demikian, in-
terval untuk 𝜌 dapat diperoleh dengan melakukan pengecekan terhadap seluruh
nilai eigen untuk masing-masing 𝜌 yang termuat pada interval [-1,1]. Berikut
disajikan tabel batas bawah dan batas atas interval dari masing-masing struktur
untuk beberapa ukuran matriks 𝑫:
Tabel 3.2 Interval 𝜌 untuk beberapa ukuran matriks 𝑫.
Ukuran Matriks 𝑫 Struktur Batas Bawah Batas Atas
2
CS -0.9995 0.9995
AR1 -0.9995 0.9995
1BT -0.9995 0.9995
3
CS -0.4995 0.9995
AR1 -0.9995 0.9995
1BT -0.7070 0.7070
4
CS -0.333 0.9995
AR1 -0.9995 0.9995
1BT -0.6180 0.618
5
CS -0.2495 0.9995
AR1 -0.9995 0.9995
1BT -0.577 0.577
6
CS -0.2 0.9995
AR1 -0.9995 0.9995
1BT -0.5545 0.5545
Sesuai dengan Tabel 3.2, dapat dilihat bahwa semakin besar ukuran ma-
triks, panjang interval dari 𝜌 yang memenuhi cenderung semakin sempit. Dengan
demikian, ukuran matriks yang dijadikan acuan untuk penentuan interval ialah 𝑘.
Setelah interval 𝜌 diperoleh, 𝜌̂ untuk masing-masing struktur dapat diperoleh
dengan memilih salah satu nilai 𝜌 pada interval tersebut. Pemilihan dilakukan
dengan mencari nilai 𝜌 yang dapat memaksimumkan nilai fungsi likelihood dari
densitas copula sesuai persamaan berikut:
∏ 𝑐 𝑔𝑎𝑢𝑠𝑠
(𝑢𝑖1, … , 𝑢𝑖,𝑘−1)
𝑛
𝑖=1
= ∏ ⁡|𝑫k−1|−
1
2⁡⁡
𝑛
𝑖=1
𝑒
(−⁡
1
2
⁡𝒘𝑖,𝑘−1
𝑇(𝑫k−1
−1
−𝚰)𝒘 𝑖,𝑘−1)
.⁡⁡(3. 26)

40
Pada tugas akhir ini, nilai 𝜌 yang memaksimumkan persamaan 3.26 diper-
oleh secara numerik. Misalkan 𝜌 𝐶𝑆̂ , ⁡𝜌 𝐴𝑅1̂ dan ⁡𝜌1𝐵𝑇̂ berturut turut merupakan
taksiran koefisien korelasi untuk struktur CS, AR1, dan 1BT, maka taksiran 𝑥 𝑘
dengan menggunakan formula 3.18, 3.20, 3.21 dan 3.25 dapat diperoleh.
3.4 Pemilihan Model Terbaik
Model imputasi dikatakan baik apabila eror taksiran kecil. Nilai dari eror taksiran
bergantung pada satuan yang digunakan. Selain itu, apabila nilai eror taksiran
pada suatu data dikatakan kecil, maka belum tentu eror taksiran yang bernilai
sama untuk data yang berbeda juga dapat dikatakan kecil. Untuk itu, karena nilai
eror dapat dianggap sebagai jarak, nilai eror dihitung relatif terhadap deviasi
standar dari seluruh data terobservasi pada titik waktu imputasi. Untuk selanjut-
nya, nilai eror ini disebut sebagai eror imputasi.
Misalkan imputasi dilakukan untuk mengisi data hilang dari subjek 𝑖 pada
waktu 𝑘. 𝜀𝑖 menyatakan eror imputasi dari subjek 𝑖. Secara matematis, untuk
suatu subjek 𝑖, eror imputasi dapat ditulis sebagai berikut:
𝜀𝑖 =
𝑥𝑖𝑘 − 𝑥𝑖𝑘̂
𝑆 𝑘
⁡.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 27)
Pada kenyataannya, 𝜀𝑖 tidak dapat dihitung. Untuk itu, akan dijelaskan sebuah
metode pemilihan model yang cukup mampu menjamin bahwa model yang dipilih
memiliki 𝜀𝑖 yang kecil.
Berdasarkan persamaan 3.26, penaksiran parameter 𝜌 hanya melibatkan
data historis, sehingga apabila hasil taksiran parameter 𝜌 mampu mewakili para-
meter dari data lengkap, formula 3.18, 3.20, 3.21 dan 3.25 dapat dengan baik
menaksir nilai yang hilang pada saat 𝑘 dari sebarang subjek. Dengan demikian,
nilai 𝜀𝑖 untuk subjek-subjek yang terobservasi pada saat 𝑘 dapat dijadikan acuan
untuk memilih model terbaik. Untuk selanjutnya, nilai 𝜀𝑖 dari subjek yang terob-

41
servasi disebut dengan eror model dan dilambangkan dengan 𝜖𝑖. 𝜖𝑖 dapat dihitung
dengan mengasumikan bahwa fungsi distribusi 𝐹𝑘 yang digunakan pada proses
perhitungan tidak berbeda dengan distribusi dari hasil fitting dengan menggu-
nakan seluruh data yang terobservasi pada saat 𝑘.
Misalkan 𝜖̅ dan 𝑠𝜖 secara berturut turut menyatakan rata-rata dan deviasi
standar dari data 𝜖𝑖 untuk seluruh subjek 𝑖 yang terobservasi pada waktu 𝑘. Model
imputasi yang baik ialah model yang memiliki rata-rata dan deviasi standar eror
yang kecil, sehingga nilai eror taksiran lebih mudah diprediksi. Dengan demikian,
pemilihan model dapat didasarkan pada nilai 𝜖̅ dan 𝑠𝜖 terkecil.
Untuk model autoregressive, selain bergantung pada parameter koefisien
korelasi 𝜌, elemen pada matriks korelasinya bergantung pada nilai pangkat yang
merupakan rentang antar titik waktu pengukuran yang diukur dengan menggu-
nakan satuan tertentu. Dengan demikian, apabila rentang waktu antar pengukuran
yang berurutan tidak konstan, model autoregressive tidak dapat digunakan
sehingga tidak perlu disertakan dalam pemilihan model.
3.5 Interval Prediksi
Selain memperoleh taksiran titik, dapat ditentukan pula taksiran selang (interval
prediksi) dari 𝑋 𝑘. Sesuai dengan persamaan 3.8,
𝑓(𝑦 𝑘|𝑯; 𝑫 𝑘) =
1
√2𝜋
exp (−
1
2
𝑦 𝑘
2
)⁡exp {−
1
2
(
𝑫 𝑘−1
−1
𝒘 𝑘−1)2
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝒓
− 𝑦k
2
)}
(1 − 𝒓 𝑇⁡𝑫k−1
−1
𝐫)
1
2
=
1
√2𝜋
⁡exp {−
1
2
(
𝑫 𝑘−1
−1
𝒘 𝑘−1)2
1 − 𝒓 𝑇⁡𝑫k−1
−1
𝒓
)}
(1 − 𝒓 𝑇⁡𝑫k−1
−1
𝐫)
1
2
.⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 28)
Dari persamaan 3.28,

42
𝑌𝑘|𝑯~𝑁(𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1⁡, 1 − 𝒓 𝑇
⁡𝑫k−1
−1
𝐫).
Dengan demikian, 100(1 − 𝛼)% interval prediksi dari 𝑌𝑘 ialah
[𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1 − 𝑧 𝛼
2
√1 − 𝒓 𝑇⁡𝑫k−1
−1
𝐫⁡, 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1 + 𝑧 𝛼
2
√1 − 𝒓 𝑇⁡𝑫k−1
−1
𝐫⁡⁡]⁡(3. 29)
dimana 𝑧 𝛼
2
menyatakan kuantil
𝛼
2
dari distribusi normal baku.
Sesuai dengan persamaan 3.12,⁡𝑥 𝑘̂ ⁡= 𝐹𝑘
−1
(Φ1(𝑦 𝑘̂)). Pada kasus kontinu,
𝐹𝑘 merupakan fungsi monoton naik murni, sehingga 𝐹𝑘
−1
juga merupakan fungsi
monoton naik murni. Misalkan
𝑈 = 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1 + 𝑧 𝛼
2
√1 − 𝒓 𝑇⁡𝑫k−1
−1
𝐫
𝐿 = 𝒓 𝑇
𝑫 𝑘−1
−1
𝒘 𝑘−1 − 𝑧 𝛼
2
√1 − 𝒓 𝑇⁡𝑫k−1
−1
𝐫⁡,
maka 100(1 − 𝛼)% interval prediksi 𝑋 𝑘 adalah
[𝐹𝑘
−1
(Φ1(𝐿)), 𝐹𝑘
−1
(Φ1(𝑈))⁡].⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(3. 30)
Untuk masing-masing struktur korelasi, mean dan variansi dari 𝑌𝑘|𝑯 dapat
ditaksir dari data. Taksiran dari Var(𝑌𝑘|𝑯) untuk masing-masing struktur dapat
diperoleh dengan menggunakan formula pada tabel berikut:
Tabel 3.3 Formula Var(𝑌𝑘|𝑯)̂ .
Struktur Korelasi ⁡Var(𝑌𝑘|𝑯)̂ = ⁡1 − 𝒓 𝑇⁡𝑫k−1
−1
𝐫̂
CS 1 −
(𝑘 − 1)𝜌2
1 + (𝑘 − 2)𝜌
AR1 1 − 𝜌2
1BT 1 − 𝜌2
|𝑫 𝑘−1
1𝐵𝑇|
|𝑫 𝑘
1𝐵𝑇|

43
Interval prediksi pada persamaan 3.29 berlaku untuk taksiran yang dihi-
tung dengan menggunakan formula 3.18, 3.20, dan 3.25. Untuk formula 3.21,
100(1 − 𝛼)% prediksi interval untuk 𝑌𝑘 diperoleh dengan menggunakan formula
berikut:
[𝐸(𝑌𝑘|𝑌𝑘−1) − 𝑧 𝛼
2
√𝜎𝑘
2(1 − 𝜌2)⁡, 𝐸(𝑌𝑘|𝑌𝑘−1) + 𝑧 𝛼
2
√𝜎𝑘
2
(1 − 𝜌2)⁡⁡].⁡⁡(3. 31)
Misalkan pada kasus ini,
𝑈 = ⁡𝐸(𝑌𝑘|𝑌𝑘−1) + 𝑧 𝛼
2
√𝜎𝑘
2(1 − 𝜌2)⁡⁡
𝐿 = 𝐸(𝑌𝑘|𝑌𝑘−1) − 𝑧 𝛼
2
√𝜎𝑘
2(1 − 𝜌2)⁡⁡,
maka 100(1 − 𝛼)% interval prediksi 𝑋 𝑘 dapat dihitung dengan menggunakan for-
mula 3.30. Untuk memperoleh prediksi interval tersebut, mean dan variansi secara
berturut turut dapat ditaksir dengan menggunakan formula berikut:
𝑉𝑎𝑟(𝑌𝑘|𝑌𝑘−1)̂ = 𝑠 𝑘
2
(1 − 𝜌 𝐴𝑅1̂)
𝐸(𝑌𝑘|𝑌𝑘−1)̂ = 𝑌̅𝑘 + 𝜌 𝐴𝑅1̂ 𝑠 𝑘
𝑠 𝑘−1
⁡(𝑦 𝑘−1 − 𝑌̅𝑘−1).

44
Bab 4
Algoritma Imputasi dan Simulasi
Berdasarkan model imputasi pada bab 3, akan dikonstruksi sebuah algoritma im-
putasi untuk mengimput data hilang dari subjek 𝑖 pada saat 𝑘. Berdasarkan skema
imputasi pada bab 3, algoritma ini dapat diperumum, sehingga dapat digunakan
untuk mengimput seluruh data yang hilang. Untuk menganalisis kebaikan model,
algoritma imputasi disimulasikan pada data bangkitan dan data riil.
4.1 Algoritma Imputasi
Sebelum melakukan imputasi, langkah awal yang harus dilakukan ialah menen-
tukan nilai 𝑖 dan 𝑘. Setelah nilai 𝑖⁡dan 𝑘 ditentukan, imputasi untuk mengisi nilai
𝑥 𝑘 dapat dilakukan dengan menerapkan langkah-langkah pada algoritma berikut:
1. Fitting distribusi data 𝒙 untuk tiap-tiap waktu 𝑗, sehingga diperoleh 𝐹𝑗 un-
tuk 𝑗 = 1, … , 𝑘.
2. Mentransformasikan data 𝒙 pada tiap tiap waktu dengan menggunakan
fungsi distribusinya sendiri (sesuai hasil fitting pada langkah 1), sehingga
diperoleh data hasil PIT berupa matriks 𝒖,⁡dimana
𝑢𝑖𝑗 = 𝐹𝑗(𝑥𝑖𝑗), 𝑖 = 1 … . 𝑛⁡⁡; ⁡⁡𝑗 = 1, … , 𝑚⁡.
Histogram dari matriks 𝒖 untuk data pada tiap-tiap titik waktu dapat
digunakan untuk melihat kebaikan hasil fiiting distribusi.
3. Mentransformasikan data pada matriks 𝒖 dengan menggunakan fungsi in-
vers kuantil dari distribusi normal baku, sehingga diperoleh data realisasi
dari vektor acak 𝑾 𝑘.

Bab 4 Algoritma Imputasi dan Simulasi
45
4. Mencari interval dari nilai 𝜌 yang memenuhi sifat matriks definit positif
untuk tiap-tiap struktur korelasi (CS, AR1, dan 1BT). Matriks korelasi
yang dijadikan acuan untuk menentukan interval berukuran 𝑘 × 𝑘.
5. Menentukan nilai 𝜌̂ 𝐶𝑆
, 𝜌̂ 𝐴𝑅1
,⁡dan 𝜌̂1𝐵𝑇
dengan memilih salah satu nilai 𝜌
pada selang yang telah diperoleh pada langkah 4. Pemilihan dilakukan
dengan cara memaksimumkan fungsi likelihood pada persamaan 3.26.
6. Menghitung taksiran 𝑦 𝑘 dibawah asumsi masing-masing struktur korelasi,
kemudian menghitung taksiran dari 𝑥 𝑘 dengan menggunakan formula
3.18, 3.20, 3.21, dan 3.25.
7. Menghitung taksiran data pada waktu 𝑘 untuk seluruh subjek yang terob-
servasi dengan memanfaatkan koefisien korelasi dan hasil fitting distribusi
yang telah diperoleh, kemudian menghitung 𝜖̅ dan 𝑠𝜖 untuk tiap-tiap struk-
tur korelasi.
8. Menentukan model terbaik berdasarkan 𝜖̅ dan 𝑠𝜖 yang dihitung pada lang-
kah 7, kemudian mengimput 𝑥 𝑘 dengan menggunakan hasil taksiran dari
model terbaik.
4.2 Simulasi
4.2.1 Simulasi pada Data Bangkitan
Pada sub bab ini, untuk melihat kebaikan dari model yang telah diperoleh pada
Bab 3, prosedur imputasi yang termuat pada algoritma pada sub bab 4.1 akan
dibandingkan dengan prosedur imputasi berdasarkan metode imputasi yang sudah
ada sebelumnya, yaitu mean subtitution dan LOCF. Pembanding ini dipilih karena
pada praktiknya lebih sering digunakan.
Pada studi simulasi I, algoritma imputasi untuk masing-masing metode
akan disimulasikan pada data bangkitan berdistribusi normal 5 variat. Asumsikan
bahwa single dropout terjadi pada waktu m (titik waktu akhir). Simulasi akan
difokuskan pada data dengan jumlah subjek sedikit, yaitu 𝑛 = 10, dimana setiap
observasi menjadi penting.

46
Sesuai dengan definisi dari CRD, RD, dan ID, secara berturut-turut data
akan dihilangkan secara acak, data observasi pada waktu 𝑚 akan dihilangkan
apabila data observasi pada waktu 1 memiliki observasi maksimum, dan data ob-
servasi pada waktu m akan dihilangkan apabila data tersebut memiliki observasi
maksimum. Prosedur penghapusan data berdasarkan mekanisme dropout diterap-
kan untuk melihat pengaruh mekanisme dropout terhadap kebaikan prosedur im-
putasi.
Selain diuji pada data berdistribusi normal, pada studi simulasi II, prosedur
imputasi juga akan diuji pada data yang memiliki kemencengan (skewness). Akan
dilihat apakah asumsi normal pada data yang memiliki kemencengan tak nol akan
mempengaruhi kebaikan imputasi. Data yang memiliki kemencengan (skeweness)
dapat diperoleh dengan menerapkan transformasi berikut:
Misalkan 𝑋𝑗 berdistribusi normal. Definisikan suatu variabel acak baru 𝑉𝑗, dimana
𝑉𝑗 = {
𝑋𝑗, −∞ <⁡ 𝑋𝑗 ≤ 1
𝑋𝑗
2
, 1 < 𝑋𝑗 < ∞⁡
,
sehingga
𝑓𝑉 𝑗
(𝑣) = {
𝑓𝑋 𝑗
𝑣,⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡ − ∞ < 𝑣 ≤ 1
1
2√ 𝑣
𝑓𝑋 𝑗
(√ 𝑣),⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡1 < 𝑣 < ∞
⁡⁡⁡.
Karena fungsi kuadrat merupakan fungsi konveks, maka distribusi 𝑉𝑗 akan memi-
liki ekor di kanan. Distribusi dari hasil transformasi di atas bergantung pada para-
meter dari distribusi 𝑋𝑗. Apabila mean dari 𝑋𝑗 bernilai negatif dan jauh dari nol,
transformasi di atas tidak akan memberikan pengaruh kemencengan yang besar.
Oleh sebab itu, pada studi simulasi II, parameter mean dari 𝑋𝑗 dipilih secara acak
pada interval di sekitar satu.
Analisis dari hasil simulasi akan didasarkan pada rata-rata dan deviasi
standar dari eror imputasi untuk masing-masing metode pada 500 kali pengulang-

47
an. Misalkan 𝐵1, 𝐵2, 𝐵3, 𝐵4 dan 𝑆1, 𝑆2, 𝑆3, 𝑆4 masing-masing berturut-turut menya-
takan rataan dan deviasi standar dari eror imputasi pada 500 pengulangan untuk
metode imputasi berdasarkan algoritma pada sub bab 4.1, metode imputasi
berdasarkan formula imputasi yang disesuaikan dengan struktur korelasi data
bangkitan (formula 3.18 untuk CS, 3.20 untuk AR1, dan 3.25 untuk 1BT), metode
mean subtitution, dan metode LOCF. Untuk struktur CS dan AR1, akan diguna-
kan 𝜌 = 0,5 dan 𝜌 = 0,8. Kemudian untuk struktur 1BT akan digunakan 𝜌 = 0,2
dan 𝜌 = 0,5.
4.2.1.1 Struktur Korelasi CS
Studi simulasi I
Sebagai langkah awal untuk menganalisis prosedur imputasi, algoritma imputasi
diterapkan pada data berdistribusi multivariat normal. Hasil simulasi dapat dilihat
pada tabel berikut:
Tabel 4.1 Hasil simulasi pada data bangkitan
(CS, normal,⁡𝜌 = 0,5).
CRD RD ID
𝐵1 0,667 0,754 1,287
𝐵2 0,658 0,732 1,275
𝐵3 1,975 2,277 2,66
𝐵4 2,655 3,034 3,397
𝑆1 0,582 0,727 0,741
𝑆2 0,566 0,663 0,723
𝑆3 2,521 3,117 3,534
𝑆4 3,566 4,102 4,454
Hasil simulasi pada Tabel 4.1 mengindikasikan bahwa model imputasi dengan
memanfaatkan distribusi bersyarat memiliki nilai rata-rata error imputasi yang
kecil dan taksiran yang lebih stabil dibandingkan dengan metode mean subtitution
dan metode LOCF (𝐵1 < 𝐵2 < 𝐵3⁡dan⁡𝑆1 < 𝑆2 < 𝑆3). Selain itu, ketiga metode

48
menunjukkan bahwa untuk mekanisme CRD dan RD, seluruh metode lebih baik
dalam memprediksi data yang hilang dibanding pada mekanisme ID.
Selanjutnya dapat dilihat bahwa untuk ketiga mekanisme dropout, secara
berturut-turut nilai 𝐵1 dan 𝑆1 mendekati nilai 𝐵2 dan 𝑆2. Dengan kata lain,
prosedur pemilihan model pada metode imputasi dengan memanfaatkan distribusi
bersyarat sudah cukup baik. Frekuensi relatif dari pemilihan model untuk tiap-tiap
mekanisme dropout⁡dapat dilihat pada tabel berikut:
Tabel 4.2 Frekuensi relatif pemilihan model
(CS, normal, 𝜌 = 0,5).
Mekanisme Dropout CS AR1 AR1n 1BT
CRD 0,958 0,024 0,006 0,012
RD 0,966 0,012 0,004 0,018
ID 0,96 0,022 0,004 0,0140
Tabel 4.2 menunjukkan bahwa struktur korelasi CS yang merupakan struktur ko-
relasi yang digunakan untuk membangkitkan data lebih sering dipilih.
Selanjutnya akan dilihat pengaruh nilai koefisien korelasi populasi terha-
dap kebaikan prosedur imputasi. Pengaruh nilai koefisien korelasi populasi ter-
hadap kebaikan prosedur imputasi akan dianalisa melalui perbandingan dengan
hasil dari simulasi serupa untuk nilai 𝜌 = 0,8. Hasil simulasi imputasi pada data
pembanding dapat dilihat pada tabel berikut:
Tabel 4.3 Hasil simulasi data bangkitan
CRD RD ID
𝐵1 0,433 0,55 0,825
𝐵2 0,432 0,548 0,822
𝐵3 2,020 2,661 2,854
𝐵4 2,455 3,162 3,497
𝑆1 0,393 0,546 0,587
𝑆2 0,392 0,541 0,581
𝑆3 2,093 4,197 4,329
𝑆4 3,569 4,707 5,095

49
Perbedaan hasil simulasi pada Tabel 4.1 dan Tabel 4.3 menunjukkan
bahwa kebaikan taksiran menggunakan prosedur imputasi dengan memanfaatkan
distribusi bersyarat dipengaruhi oleh nilai koefisien korelasi populasi. Semakin
tinggi koefisien korelasi populasi antar titik waktu, taksiran semakin baik. Seba-
liknya, imputasi dengan menggunakan metode mean subtitution dan LOCF tidak
begitu baik. Selain itu, apabila korelasi data antar titik waktu kuat, nilai 𝑆1dan 𝐵1
secara berturut turut makin mendekati nilai 𝑆2 dan 𝐵2. Artinya pemilihan model
akan semakin tepat apabila korelasi data antar titik waktu semakin tinggi. Fre-
kuensi relatif dari pemilihan model terbaik untuk tiap-tiap mekanisme drop-
out⁡dapat dilihat pada tabel berikut:
Tabel 4.4 Frekuensi relatif pemilihan model
Mekanisme Dropout CS AR1 AR1n 1BT
CRD 0,996 0,002 0,002 0
RD 0,996 0,004 0 0
ID 0,99 0,01 0 0
Studi simulasi II
Data pada kenyataannya hampir tidak pernah berdistribusi simetri dan asumsi
normal sering digunakan. Untuk itu, kebaikan prosedur imputasi akan diuji pada
data yang memiliki kemencengan (𝑠𝑘𝑒𝑤𝑒𝑑 data). Ukuran sampel yang digunakan
ialah 𝑛 = 10, sehingga pada saat fitting distribusi, asumsi kenormalan cenderung
tidak ditolak pada tingkat signifikansi 𝛼 = 0,05. Hasil simulasi pada skewed data
dapat dilihat pada tabel berikut:
Tabel 4.5 Hasil simulasi data bangkitan
(CS, skewed,⁡𝜌 = 0,5).
CRD RD ID
𝐵1 0,887 1,33 2,727
𝐵2 0,86 1,265 2,648
𝐵3 2,415 4,823 4,620
𝐵4 2,813 4,943 5,376
𝑆1 1,287 2,681 2,609
𝑆2 1,255 2,578 2,553

Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based Imputation Model)

Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based Imputation Model)

Recommended

Recommended

More Related Content

Similar to Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based Imputation Model)

Similar to Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based Imputation Model) (20)

More from Indah Fitri Hapsari

More from Indah Fitri Hapsari (7)

Recently uploaded

Recently uploaded (6)

Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based Imputation Model)