2. POKOK PEMBAHASAN
Teknik Pengambilan Sampel Ulang dan
Jaringan Saraf : Beberapa Perkembangan
Terbaru untuk Pemilihan Model
1. Pengenalan
2. Pemilihan Model untuk Jaringan Saraf
3. Contoh Numerik
Pengambilan Sampel Ulang :
Statistika Baru
1. Distribusi Sampling
2. Cara untuk Menghasilkan Distribusi
Sampling
3. Pendekatan Resampling ke Inferensi
Statistik
4. Prosedur Bootstrap
5. Tes Permutasi
6. Prosedur Umum Tes Permutasi
7. Contoh Uji Permutasi dengan R Studio
3. Pengenalan
Jaringan saraf tiruan diterima secara luas
sebagai cara yang berpotensi dan berguna untuk
pemodelan struktur non linier. Jaringan saraf
dianggap sebagai model terdistribusi paralel yang
terdiri dari unit pemrosesan data sederhana.
Struktur paralel ini memberikan alasan untuk
kemampuan aproksimasinya yang terkenal:
mengingat jumlah suku nonlinier yang cukup
besar dan pilihan parameter yang sesuai, yang
mampu mendekati fungsi arbiter variabel secara
arbiter dengan baik. Karena fleksibilitasnya, dan
karena keberhasilan yang ditunjukkan dalam
berbagai aplikasi empiris, jaringan saraf tiruan
telah menjadi fokus perhatian yang cukup besar
sebagai alat yang mungkin untuk meramalkan
variabel ekonomi dan keuangan. Dalam konteks
ini, jaringan saraf tiruan biasanya kompetitif
sehubungan dengan teknik nonparametrik
alternatif.
Teknik Pengambilan
Sampel Ulang dan
Jaringan Saraf :
Beberapa
Perkembangan Terbaru
untuk Pemilihan Model
4. CREDITS: This presentation template was created by Slidesgo, including
icons by Flaticon, and infographics & images by Freepik
Dalam kerangka regresi, strategi pembangunan model jaringan saraf dapat
dihadapi dalam perspektif statistik, menghubungkannya dengan pendekatan
pemilihan model klasik. Pemilihan topologi yang tepat harus didasarkan pada
prosedur uji statistik dan kemampuan prediksi model di luar sampel, untuk
fungsi kerugian tertentu, untuk menghindari struktur yang terlalu parametris.
Strategi ini menyiratkan perbandingan beberapa model yang berbeda dan
pengintaian data muncul sebagai masalah serius, karena kumpulan data
tertentu digunakan lebih dari sekali untuk inferensi atau pemilihan model.
5. Pemilihan Model untuk Jaringan Saraf
Saat menggunakan jaringan saraf, salah satu
masalah yang paling kritis adalah bagaimana
memilih arsitektur jaringan yang sesuai untuk
masalah yang dihadapi. Hal ini memerlukan
pemilihan jumlah unit tersembunyi yang sesuai,
himpunan variabel penjelas yang sesuai, dan
sebagai konsekuensi dari hubungan-
hubungannya. Praktisi biasanya mengacu pada
kriteria informasi seperti Akaike Information
Criterion (AIC) dan Schwarz Information
Criterion (SIC). Kriteria ini menambahkan
penalti kompleksitas pada kemungkinan log-
likelihood, dan model yang mengoptimalkan
kemungkinan log yang dikenai sanksi ini lebih
disukai.
Umumnya, SIC memberikan model yang paling
konservatif (yaitu paling tidak kompleks) dan terbukti
berkinerja baik dalam memilih model peramalan dalam
konteks lain. Oleh karena itu, dalam kerangka jaringan
saraf, SIC biasanya lebih banyak disukai. Bagaimanapun,
semua prosedur pemilihan model tidak sepenuhnya
memuaskan. Karena kriteria pemilihan model bergantung
pada informasi sampel, nilai aktualnya bergantung pada
variasi statistik. Akibatnya model dengan nilai kriteria
pemilihan model yang lebih tinggi mungkin tidak
mengungguli secara signifikan pesaingnya.
6. Perhatikan bahwa statistik bootstrap hanya berisi estimator berdasarkan sampel asli dan
ini adalah sangat nyaman ketika berhadapan dengan model jaringan saraf. Jika estimasi
diperlukan untuk setiap sampel bootstrap, prosedur akan segera menjadi tidak layak dalam
kerangka kerja kami. Prosedur bootstrap konsisten dalam kerangka jaringan saraf. Di
bawah umum kondisi keteraturan, dapat ditunjukkan bahwa, jika q = h, untuk P, R → ∞.
Seperti biasa prosedur bootstrap dapat diimplementasikan oleh Monte Carlo. Untuk
setiap replikasi bootstrap, hitung statistik bootstrap, 𝑆𝑝
∗
. Lakukan bootstrap B ulangan (B
besar) dan hitung kuantil dari distribusi empiris B statistik bootstrap. Tolak Hipotesis Nol
H0 jika 𝑆𝑝 lebih besar dari (1-α) persentil. Perhatikan bahwa, untuk memperkirakan
persentil, B harus cukup besar (biasanya B > 1000) dan bahwa indeks dihasilkan hanya
sekali pada prosedur awal. Selain itu diasumsikan bahwa h = q.
7. Contoh Numerik
di mana ψ adalah fungsi aktivasi logistik, X =
(X1, X2, X3, X4)
𝑇
adalah vektor variabel acak Gaussian
multivariat dengan rata-rata nol, varians unit dan
berpasangan korelasi sama dengan 0,5 dan ε
gaussian dengan mean nol dan varians sama dengan
0,7. Ini memberikan rasio signal-to-noise kira-kira
sama dengan 1,2. Jelas jaringan saraf dengan fungsi
aktivasi logistik, empat neuron input dan dua neuron
tersembunyi adalah model yang ditentukan dengan
benar dan tidak ada kesalahan spesifikasi. Model M3
adalah model yang sama yang digunakan dalam De
Veaux dkk (1998) dan didefinisikan sebagai
Y = 1,5 cos (
2𝜋
3
(X1−0,5)2 + (X2−0,5)2 + (X3−0,5)2) + ε
di mana ε adalah gaussian dengan rata-rata nol dan
varians sama dengan 0,1 dan X = (X1, X2, X3)𝑇
diambil
secara acak dari unit hypercube. Fungsi tersebut
simetri radial pada ketiga variabel tersebut.
Untuk mengevaluasi kemampuan prosedur untuk
memilih model yang tepat untuk proses
pembangkitan data yang diberikan, maka digunakan
kumpulan data simulasi dengan struktur yang
diketahui. Yang pertama adalah model linier (M1)
dengan dua regresi yang didefinisikan sebagai:
Y = X1 + ε
di mana X = (X1, X2)
𝑇
diambil dari distribusi seragam, ε
adalah Gaussian standar dan 1 menunjukkan vektor
kolom dengan panjang yang sesuai. Model ini bisa
benar dimodelkan dengan menggunakan jaringan,
dengan skip layer, dua unit input dan nol unit
tersembunyi. Model M2 adalah model yang sama
yang digunakan dalam Tibshirani (1996) dan
didefinisikan sebagai:
Y = 3ψ (2 X1 + 4 X2 + 3 X3 + 3 X4 )+3ψ (2 X1 + 4 X2 − 3 X3 −
3 X4 ) + ε
8. Pengambilan
Sampel Ulang :
Statistika Baru
"Distribusi Sampling" adalah dasar dari Inferensi
Statistik. Distribusi sampling mewakili frekuensi
relatif dari semua nilai statistik yang mungkin
diberikan dengan serangkaian kondisi yang
terdefinisi dengan baik. Pengetahuan inilah yang
memungkinkan kita untuk membedakan
terjadinya "kemungkinan" vs. “ketidakmungkinan"
(signifikan). Statistik yang paling umum
digunakan memiliki distribusi sampling terdefinisi
matematis yang terkenal: misalnya, rata-rata,
proporsi binomial, perbedaan antara rata-rata
sampel, dan lain-lain.
Distribusi Sampling
12. Pendekatan Probabilitas Teoretis
Pendekatan Pengambilan Sampel Ideal
Ambil sejumlah besar sampel berukuran N dari
populasi yang Anda minati dan buat
pengambilan sampel khusus distribusi untuk
statistik Anda
Terapkan teori matematika untuk menghasilkan
distribusi yang diharapkan dari statistik yang
diberikan.
Pendekatan Pengambilan Sampel Ulang
Gambarkan sampel dari populasi target Anda dan
gunakan teknik Monte Carlo untuk mengambil
sampel ulang secara acak untuk menghasilkan
perkiraan yang diturunkan secara empiris dari
distribusi sampling statistik Anda.
Cara untuk Menghasilkan
Distribusi Sampling
1.
3.
1.
2.
3.
13. CREDITS: This presentation template was created by Slidesgo, including
icons by Flaticon, and infographics & images by Freepik
Resampling mengacu pada berbagai metode statistik berdasarkan data
yang tersedia (sampel) daripada seperangkat asumsi standar tentang
populasi yang mendasarinya. Metode tersebut termasuk bootstrap, pisau
lipat, dan Uji permutasi. Resampling mewakili ide "baru" tentang analisis
statistik yang berbeda dari statistik tradisional. Bootstrap adalah metode
statistik untuk menghasilkan distribusi sampling dari suatu statistik
dengan pengambilan sampel dengan penggantian dari sampel data asli.
Bootstrap juga dapat dimanfaatkan untuk memperkirakan interval
kepercayaan dan untuk melakukan pengujian hipotesis nol
Pendekatan Resampling ke Inferensi Statistik
14. Prosedur Bootstrap
a) Resample
Resampling merupakan proses pengambilan sampel kembali
dari sampel yang telah kita ambil dari populasi. Istilah
sampel bootstrap (resample) digunakan untuk menyebut
sampel yang telah kita resampling dari sampel asli. Jumlah
dari sampel bootstrap yang diseleksi bergantung pada
keadaan khusus dari masing-masing pemakaian.
15. c) Penggunaan Distribusi Bootstrap
Distribusi bootstrap digunakan untuk mencari nilai-
nilai yang diinginkan seperti mean, selang
kepercayaan, standard error dan lain sebagainya.
Distribusi bootstrap memberikan banyak informasi
mengenai inferensia statistik.
b) Perhitungan Distribusi Bootstrap
Inferensia statistik untuk resample disebut distribusi
bootstrap. Untuk mengestimasi nilai tengah dari suatu
populasi (μ), maka yang menjadi estimatornya adalah
nilai tengah dari sampel (𝑥), sama halnya, estimator
bootstrap dari ragam populasi adalah ragam sampel
yang bersesuaian. Estimator bootstrap dari koefisien
korelasi populasi adalah koefisien korelasi sampel
yang bersesuaian dan seterusnya. Inferensia statistik
paling umum yang sering diperoleh dengan
menggunakan prosedur bootstrap adalah mean
16. Tes Permutasi
Tes Permutasi adalah jenis uji signifikansi statistik di mana distribusi
statistik uji di bawah hipotesis nol diperoleh dengan menghitung semua
nilai yang mungkin dari statistik uji di bawah penataan label pada titik
data yang diamati. Tes permutasi ada untuk setiap statistik uji, terlepas
dari apakah distribusinya diketahui atau tidak. Dengan demikian, kita
selalu bebas memilih statistik yang paling membedakan antara hipotesis
dan alternatif dan yang meminimalkan kerugian.
18. 2. 4.
3.
1.
Prosedur Umum Tes Permutasi
Kumpulkan data dari kelompok
kontrol dan perlakuan
Gabungkan sampel untuk
membentuk populasi semu
Sampel tanpa populasi semu untuk
mensimulasikan kelompok kontrol
dan pengobatan
Hitung statistik target untuk
setiap sampel ulang
19. Contoh Uji Permutasi dengan R Studio
Syntax R:
> #uji permutasi satu variabel
> Yvar <- c(8,9,10,13,12,14,18,12,8,9,1,3,2,3,4)
> #generate 1000 samples
> permutes <-list()
> for (i in 1:1000) permutes[[i]] <- sample(Yvar,replace=FALSE)
> View(permutes)