1. Oleh : Kelompok III
Multivariate
Normal
Distribution
1
Dosen Pengampu : Rani Nooraeni, S.ST., M.Stat..
2. Fungsi Normal Distribusi dan Fungsinya
Banyak variabel acak yang berdistribusi normal
Keuntungan Menggunakan Distribusi Normal
Semakin besar sampel akan semakin mendekati
distribusi normal ( berdasarkan CLT)
Menghasilkan perhitungan yang akurat/bagus
Banyak distribusi seperti poisson dan binomial bisa
diperkirakan dengan distribusi normal (CLT)
Univariate distribution
๐ ๐ฅ =
1
2๐๐2
๐
โ (๐ฅโ๐ /๐)]2
2 ; โโ < ๐ฅ < โ
Asumsi ๐~๐(๐, ๐2
)
Hanif Palupi 2
3. Example :
๐๐ ๐ข๐๐ ๐ ๐ฅ1, ๐ฅ2~ ๐(๐, ฮฃ) dan ๐ฅ1, ๐ฅ2 iid
Normal Bivariate
Distribution
s11 = s22, r12 = 0
| ฮฃ |lebih besar
s11 = s22, r12 = 0.75
| ฮฃ |lebih kecil
๐ ๐ ๐, ๐ ๐ =
๐
|๐ฎโ๐|(๐๐ ) ๐/๐ ๐๐ฑ๐ฉ[โ
๐
๐
(๐ โ ๐)๐ฎโ๐
(๐ โ ๐)]
Hanif Palupi 3
4. Normal
Multivariate
Distribution
๐๐ ๐ข๐๐ ๐ ๐ฅ1, โฆ , ๐ฅ ๐~ ๐ ๐(๐, ฮฃ) dan ๐ฅ1, โฆ , ๐ฅ ๐ ๐๐๐
Bentuk grafik : Volume
Contour (๐2) adalah permukaan dimana kuadrat jarak (๐ฅ โ ๐ )ฮฃโ1 (๐ฅ โ ๐ ) konstan
atau seluruh nilai variabel yang peluangnya konstan dan berbentuk elips.
๐2
= (๐ฅ โ ๐ )ฮฃโ1
(๐ฅ โ ๐ )
Ellips berpusat di ๐ dan memiliki sumbu ยฑ๐ ๐๐ ๐๐dimana ฮฃ๐๐ = ๐๐ ๐๐dimana i : 1,2,...,p
Selang kepercayaan distribusi normal multivariate
CI: ๐ ยฑ ๐ ๐๐
๐ ๐ฅ1, โฆ , ๐ฅ ๐ =
1
|ฮฃโ1|(2๐) ๐/2 exp[โ
1
2
(๐ฅ โ ๐ )ฮฃโ1 (๐ฅ โ ๐ )]
Hanif Palupi
4
5. Result 4.1
Jika ฮฃ definit positif maka ฮฃโ1 ada, sehingga
ฮฃ๐ = ๐๐menjadikan ฮฃโ1 ๐ =
1
๐
๐
Jadi ๐, ๐ adalah pasangan eigenvalue-eigenvector untuk
ฮฃ yang bercoresponden dengan (
1
๐
, ๐) untuk ฮฃโ1 .
Sehingga ฮฃโ1 definit positif
Jika Matriks A simetris, maka nilai eigen riil dan memiliki
eigen vektor yang saling bebas (ortogonal)
Hanif Palupi
Pembuktian, buka link berikut ini !
http://bit.ly/PembuktianResult4
5
6. Hubungan peluang dengan kuadrat
P[(๐ฅ โ ๐)๐ดโ1(๐ฅ โ ๐) โค ๐2
๐(๐ผ)] = 1 โ ๐ผ
Contour 50% dan 90% untuk distribusi normal bivariate
Hanif Palupi 6
7. Sifat-Sifat Distribusi Normal
Kombinasi linear dari komponen X yang
berdistribusi normal. Syarat :
Distribusi dari komponen bersyarat berdistribusi
normal
Apabila kovarian sama dengan nol maka setiap
komponen didistribusikan secara independen.
Semua subset dari komponen X multivariat
berdistribusi normal
Mursalina Bia 7
8. Distribusi Kombinasi Linear dari Komponen Normal
Jika X berdistribusi ๐๐(๐, ), kemudian setiap variabel kombinasi linear
๐โฒ
๐ฟ = ๐1 ๐1 + ๐2 ๐2 + โฏ + ๐ ๐ ๐ ๐ berdistribusi N(๐โฒ๐, ๐โฒ ๐) dan ๐โฒ
๐ฟ berdistribusi
N(๐โฒ๐, ๐โฒ ๐) untuk setiap ๐, maka X berdistibusi ๐๐(๐, )
Jika ๐ฟ = [ ๐ฟ ๐, ๐ฟ ๐, โฆ , ๐ฟ ๐ท]โฒ berdistribusi ๐๐(๐, )
๐โฒ
๐ฟ = 1 0 โฏ 0
๐ฟ ๐
๐ฟ ๐
โฎ
๐ฟ ๐ท
= ๐1
๐โฒ
๐ = 1 0 โฏ 0
๐1
๐2
โฎ
๐ ๐
= ๐1
๐โฒ
๐ = 1 0 โฏ 0
๐11 โฏ ๐1๐
โฎ โฑ โฎ
๐ ๐1 โฏ ๐ ๐๐
1
0
โฎ
0
= ๐11
โข Jika X berdistribusi ๐๐(๐, ), dengan q
kombinasi linear
๐๐ =
๐11 ๐1 + โฏ + ๐1๐ ๐ ๐
๐21 ๐1 + โฏ + ๐2๐ ๐ ๐
โฎ
๐ ๐1 ๐1 + โฏ + ๐ ๐๐ ๐ ๐
: ๐๐(๐๐, ๐๐บ๐โฒ)
d = vektor konstan
Pembuktian :
http://bit.ly/KombinasiLinear
Mursalina Bia
8
9. Distribusi Chi-Square
Distribusi chi square menentukkan keragaman dari sampel
varians ๐ 2
= ๐ 11 untuk sampel univariate normal population.
Jika X berdistribusi ๐ ๐(๐, ) dengan > 0 maka
(๐ โ ๐)โฒ๐ดโ1
(๐ โ ๐)~๐ ๐
2
dimana ๐ ๐
2
merupakan distribusi chi
square dengan derajat bebas p
๐ ๐(๐, ) distribusi dengan peluang 1 โ ๐ผ untuk setiap
{๐ฅ ๐ฅ โ ๐
โฒ
๐ดโ1
๐ฅ โ ๐ โค ๐ ๐
2
๐ผ } merupakan nilai atas
100๐ผ persentil dari distribusi ๐ ๐
2
Mursalina Bia 9
11. SAMPLING DARI DISTRIBUSI NORMAL MULTIVARIATE
Sufficient Statistics (STATISTIK CUKUP)
Dari persamaan
๐ณ ๐, ๐ฎ =
1
(2ฯ) ๐๐/2 ๐บ ๐/2
๐
โ๐ก๐ ๐ฎโ๐
๐=1
๐
๐ฅ ๐โ ๐ฅ ๐ฅ ๐โ ๐ฅ
โฒ
+๐ ๐ฅโ๐ ๐ฅโ๐ โฒ /2
joint density dari sekumpulan observasi ๐ ๐, ๐ ๐, . . , ๐ ๐ bergantung hanya melalui mean
sampel ๐ dan matriks sum-of-squares-and-cross-product ๐=๐
๐
๐๐ โ ๐ ๐๐ โ ๐
โฒ
=
๐ โ 1 ๐บ
Sehingga dapat dikatakan bahwa ๐ dan ๐ โ 1 ๐บ (atau ๐บ) adalah statistik yang sufficient
(cukup)
Untuk ๐ฟ ๐, ๐ฟ ๐, . . , ๐ฟ ๐ yang merupakan peubah acak dari populasi normal multivariate dengan
mean ๐ dan kovarians ๐บ , maka ๐ฟ dan ๐บ adalah statistik yang sufficient (cukup) dari distribusi
normal multivariate.
Rizka Amalia Farentina 11
12. Distribusi Sampling untuk ๐ dan S
Kasus univariat : 1
๐ โ 1 ๐ 2
= ๐=1
๐
(๐๐ โ ๐) โถ ๐2
ฯ(๐โ1)
2
๐ โ 1 ๐ 2
= ๐2
๐=1
๐
๐๐
2
, ๐๐๐: ๐(0, ๐2
)
Kasus multivariat :
๐๐ = ๐๐ โ ๐ โถ ๐ 0, ฮฃ
๐ โ 1 ๐ = ๐=1
๐
๐๐ ๐๐
โฒ
: ๐ค๐๐ โ๐๐๐ก ๐๐๐ ๐ก๐๐๐๐ข๐ก๐๐๐ ๐ค ๐โ1( ๐ โ 1 ๐|ฮฃ)
๐1, ๐2, โฆ , ๐ ๐ adalah random sampel ๐๐(๐, ฮฃ)
Distribusi Sampling untuk S
Kasus univariat : p=1
๐: ๐ ๐,
๐2
๐
Kasus multivariat :
๐: ๐๐ ๐,
ฮฃ
๐
๐1, ๐2, โฆ , ๐ ๐ adalah random sampel ๐๐(๐, ฮฃ)
Distribusi sampling untuk ๐ฟ
Akfarianti Nawangsih 12
13. Karakteristik Distribusi Wishart
Jika A berdistribusi W (A|โ), maka CACโ berdistribusi Wm
(CACโ|CโCโ)
Jika A1 berdistribusi Wm1 (A1|โ) independen dari A2 yang
berdistribusi Wm2 (A2|โ), lalu A1 dan A2 berdistribusi
Wm1+m2 (A1+ A2|โ) adalah derajat bebas yang
ditambahkan.
1 2
A = Definit Positiif
๐ค ๐โ1 ๐ด ฮฃ =
|๐ด|(๐โ๐โ2)
๐โ๐ก๐[๐ดฮฃโ1]/2
2 ๐(๐โ1)/2 ๐ ๐(๐โ1)/4|ฮฃ| ๐โ1/2
๐=1
๐
ฮ(
1
2
(๐ โ ๐))
Akfarianti Nawangsih 13
14. KARAKTERISTIK SAMPEL BESAR DARI ๐ฟ DAN ๐บ
๐ฟ : ditentukan oleh large number independen yang menyebabkan
๐ฝ ๐, ๐ฝ ๐, โฆ , ๐ฝ ๐
๐ฝ๐ : variabel acak yang mempunyai variabilitas yang hampir sama
๐ฟ = ๐ฝ ๐+๐ฝ ๐+โฆ+๐ฝ ๐
๐ฟ mempunyai distribusi mendekati normal
๐ฟ berdistribusi mendekati normal untuk sampel besar
Law of Large Number
๐ ๐, ๐ ๐, โฆ , ๐ ๐ : observasi independen dari sebuah populasi (mungkin tidak normal) dengan ๐ธ ๐๐ = ๐
Untuk semua ๐ > 0,
๐ โ๐ < ๐ โ ๐ < ๐ ๏ 1 ketika n๏ โ
๐ =
๐1+๐2+..+๐๐
๐
berpeluang untuk konvergen menuju ๐
Rizka Amalia Farentina
Pembuktian : http://bit.ly/LawLargeNumber
14
15. Central Limit Theorem ( Ukuran Limit Pusat )
๐ฟ ๐, ๐ฟ ๐, โฆ , ๐ฟ ๐ : observasi independen dari sebuah populasi dengan
mean ๐ dan finite (nonsingular) kovarians ๐ฎ
๐ ๐ฟ โ ๐ mempunyai distribusi yang mendekati ๐ต ๐ ๐, ๐ฎ untuk
sampel besar
๐ฟ berdistribusi ๐ต ๐ ๐,
๐
๐
๐ฎ untuk n-p besar
๐ ๐ฟ โ ๐
โฒ
๐ฎโ๐ ๐ฟ โ ๐ mendekati distribusi ๐ ๐
2 untuk n-p besar
๐บ mendekati ๐ฎ dengan peluang yang besar saat n besar
sehingga
๐ ๐ฟ โ ๐
โฒ
๐บโ๐ ๐ฟ โ ๐ mendekati distribusi ๐ ๐
2 untuk n-p besar
Pembuktian : http://bit.ly/ProofCLT
Rizka Amalia Farentina 15
16. Asumsi Normalitas
Kombinasi linear dari variabel normal
adalah normal dan kontur dari normal
multivariat adalah ellipsoid.
Untuk melihat kenormalan data, salah
satu cara yaitu Plot khusus yang disebut
plot Q-Q. Ketika poin terletak hampir
sepanjang garis lurus, asumsi normalitas
tetap dapat dipertahankan.
Q-Q Plot(untuk univariate)
x1 โค x2 โค โฆ โค xn : observasi
Misalkan xj memiliki nilai yang berbeda-beda
dan n cukup besar, maka:
Proporsi nilai x โค xj โถ
๐
๐
โ ( j โ
1
2
)/n
Fajari Ramadhan
Normalitas univariate
P Z โค q j = โโ
๐ ๐ 1
2โซช
๐โ ๐ง2 2
dz = p(j) =
(๐โ1/2)
๐
Dimana,
p(j) : probabilitas mendapatkan nilai kurang dari atau sama dengan qi dalam satu kurva normal standar.
q(j) : standard normal quantil
Plot (qj,xj) untuk meneliti kelinearnnya, dan jika xj โ ฮดqj + ยต maka data dapat diasumsikan normal. {example 4.9
hal 179}.
16
17. Langkah-langkah Q-Q plot :
First
Second
Third
Urutkan data x(1), x(2), โฆ, x(n) dan nilai probabilitas yang sesuai (1 -
1
2
)/n, (2 -
1
2
)/n, ..., (n -
1
2
)/n;
Hitung standar kuantil normal q(1), q(2), โฆ ,q(n); dan
Plot pasangan pengamatan (q(1), x(1)),(q(2), x(2)) ..., (q(n, x(n) ) dan periksa Kelinearan dari hasilnya.
Koefisien korelasi
rq=
๐=1
๐
(๐ฅ ๐ โ ๐ฅ) (๐ ๐ โ ๐)
๐=1
๐ (๐ฅ ๐โ ๐ฅ)2
๐=1
๐ (๐ ๐โ ๐)2
Bandingkan rq dengan table critical the Q-Q plot (table 4.2 hal 181:
http://bit.ly/tabel42). Data berdistribusi normal jika rq > rtabel
Fajari Ramadhan 17
19. Normalitas Bivariate
Jika pengamatan dihasilkan dari distribusi normal,maka setiap distribusi
bivariat akan normal, dan konturnya adalah elips.
๐2
= ๐ฅ โ ยต
โฒ
โ1
๐ฅ โ ยต โค ๐ ๐,๐
๐
Dengan demikian, kita harus mengharapkan kira-kira persentase yang
sama, 50% dari pengamatan sampel terletak pada elips.
{untuk semua x, (x- ๐ฅ)โ๐โ1(x- ๐ฅ) โค ๐2(0,5)
2
}
(example 4.12 hal 183: http://bit.ly/mvnexample412)
Fajari Ramadhan 19
20. Perusahaan
X1=sales
(million$)
X2=profit
(million$)
General motor 126,974 4224
Ford 96,933 3835
Exxon 86,656 3510
IBM 63,438 3758
General electric 55,264 3939
Mobil 50,976 1809
Philip morris 39,069 2946
Chrysler 36,156 359
Du pont 35,209 2480
Texaco 32,416 2413
๐ฅ =
62,309
2927
๐ =
10005,2 255,76
255,76 14,3
๐โ1
=
0,000184 โ0,003293
โ0,003293 0,128831
๐ 10โ5
Lakukan langkah berikut untuk setiap observasi:
obs pertama: ๐2
=(xโ ๐ฅ)โ๐โ1
(xโ ๐ฅ) = 4,34 > ๐2(0,5)
2
= 1,39 (dstโฆobs n)
Hasilnya 7 dari 10 observasi memiliki ๐2
< 1.39 (lebih dari 50%)
maka data tidak normal multivariate.
Fajari Ramadhan 20
21. Chi Square Plot (multivariate)
Urutkan kuadrat jarak dari yang terkecil-terbesar(๐1
2
, ๐2
2
dst)
qc,p
๐โ
1
2
๐
:
100(๐โ
1
2
)
๐
merupakan nilai kuantil untuk chi square distribusi dengan df = p.
kemudian gambarkan {qc,p (
๐โ
1
2
๐
), ๐๐
2
}
(example 4.13 hal 184 : http://bit.ly/example413)
j d2 qc,p
1 0,59 0,10
2 0,81 0,33
3 0,83 0,58
4 0,97 0,86
5 1,01 1,20
6 1,02 1,60
7 1,20 2,10
8 1,88 2,77
9 4,34 3,79
10 5,33 5,99
0
1
2
3
4
5
6
0 2 4 6 8
d2
qc,p
Fajari Ramadhan
21
22. Mendeteksi Outlier dan Membersihkan Data
Membuat dot plot untuk setiap variabel.
Membuat scatter plot untuk setiap variabel.
Menghitung nilai standar (z) dan memeriksanya untuk nilai
yang kecil dan besar.
Menghitung jarak (๐ฅ ๐โ ๐ฅ)โฒ
๐โ1
(๐ฅ ๐โ ๐ฅ). Periksa apakah jaraknya
wajar atau tidak. Pada plot chi-square, outliernya akan berada
pada titik terjauh dari origin.
A
B
C
D
Kebanyakan data mengandung observasi yang tidak berada pada polanya (pencilan). Pencilan pada data dapat bernilai jauh lebih tinggi
atau lebih rendah daripada yang lain.
Ketika outlier teridentifikasi, maka harus diperiksa
terlebhi dahulu seperti yang terdapa pada contoh
sebelumnya. Outlier dapat dihapus atau dikira-kira
dengan penimbang pada analisis selanjutnya,
tergantung pada sifat outlier dan tujuan penelitian.
Mendeteksi outlier
Akfarianti Nawangsih
22
24. Kuadrat jarak ๐๐
2
= (๐ฅ๐ โ ๐ฅ)๐โ1
(๐ฅ๐ โ ๐ฅ).
Kolom terakhir pada tabel 4.4 menunjukkan bahwa sampel ke-16
adalah pencilan karena ๊ญ4;0,05
2
= 14,86, tetapi semua pengukuran
individu berada dalam jangkauan univariat masing-masng. Sampel
ke-9 juga memiliki nilai ๐2yang tinggi.
Kedua sampel (9 dan 16) dengan kuadrat jarak yang menonjol dari
pola lain pada scatter plot. Begitu dua titik dihilangkan, pola yang
ada akan sesuai dengan yang diharapkan (garis lurus).
Akfarianti Nawangsih 24
26. Teknik
Menentukan
Pemilihan
Transformasi
yang Tepat
A. Penentuan transformasi hanya berdasarkan bentuk data
Menggunakan power transformation
Misal x adalah observasi acak, power transformation ฮป
Contoh: perhatikan ๐ฮป dengan ฮป= -1. karena ๐โ1
= 1/x , pemilihan ฮป
berkorespondensi secara timbal balik dengan transformasi.. Kita dapat
mencari himpunan transformasi dengan menerapkan rentang ฮป dari yang
negatif sampai yang positif
Contoh: โฆ., ๐ฅโ1 , ๐ฅ0 =lnx, ๐ฅ1/4 , ๐ฅ1/2 , ๐ฅ2 , ๐ฅ3 ,โฆ.
Ketika histogramnya terlalu lebar, maka perlu disusutkan dan begitu juga
sebaliknya
Hasil transformasi diuji lagi kenormalannya dengan membuat Q-Q plot
M.Abd.Aziz A.
26
27. B. Penentuan transformasi berdasarkan informasi dari data dan faktor-faktor di luar
Box and Coxโs univariate transformation
๐ฅ ๐
=
๐ฅ ๐โ1
๐
, ๐ โ 0
ln ๐ฅ , ๐ = 0
Cari ฮป yang memaksimumkan fungsi dengan
๐ ๐ = โ
๐
2
๐๐
1
๐
๐=1
๐
๐ฅ๐
๐
โ ๐ฅ ๐
2
+ (๐ โ 1)
๐=1
๐
๐๐๐ฅ๐
dengan ๐ฅ ๐ =
1
๐ ๐=1
๐
๐ฅ๐
(๐)
M.Abd.Aziz A.
27