Analisis menggunakan metode analisis komponen utama untuk mereduksi 14 variabel akademik mahasiswa matematika menjadi beberapa variabel baru. Dua komponen utama pertama mampu menangkap 56% variasi data, yang mencerminkan prestasi umum mahasiswa di mata kuliah dasar dan lanjutan. Tiga komponen utama lebih baik karena menangkap 63% variasi dengan mudah divisualisasikan.
Dokumen ini membahas tentang statistika dan probabilitas. Menguraikan konsep dasar probabilitas seperti ruang sampel, kejadian, permutasi, dan kombinasi serta memberikan contoh-contoh penerapannya dalam teknik sipil.
Konsep dasar pendugaan parameter membahas tentang cara menduga parameter populasi yang belum diketahui berdasarkan contoh acak. Terdapat beberapa parameter yang dapat diduga seperti rata-rata, proporsi, dan simpangan baku. Penduga yang baik memiliki sifat tak bias, efisien, kecukupan, dan konsisten. Beberapa cara menduga parameter antara lain menggunakan titik taksiran dan interval taksiran.
Distribusi binomial dan distribusi poissonSuci Agustina
Dokumen tersebut membahas tentang distribusi binomial dan distribusi Poisson. Distribusi binomial digunakan ketika proses sampling dapat diasumsikan sesuai dengan proses Bernoulli, sedangkan distribusi Poisson menyatakan peluang jumlah peristiwa yang terjadi pada periode waktu tertentu. Dokumen ini juga menjelaskan ciri-ciri, rumus, dan contoh soal distribusi binomial dan Poisson.
Dokumen ini membahas tentang statistika dan probabilitas. Menguraikan konsep dasar probabilitas seperti ruang sampel, kejadian, permutasi, dan kombinasi serta memberikan contoh-contoh penerapannya dalam teknik sipil.
Konsep dasar pendugaan parameter membahas tentang cara menduga parameter populasi yang belum diketahui berdasarkan contoh acak. Terdapat beberapa parameter yang dapat diduga seperti rata-rata, proporsi, dan simpangan baku. Penduga yang baik memiliki sifat tak bias, efisien, kecukupan, dan konsisten. Beberapa cara menduga parameter antara lain menggunakan titik taksiran dan interval taksiran.
Distribusi binomial dan distribusi poissonSuci Agustina
Dokumen tersebut membahas tentang distribusi binomial dan distribusi Poisson. Distribusi binomial digunakan ketika proses sampling dapat diasumsikan sesuai dengan proses Bernoulli, sedangkan distribusi Poisson menyatakan peluang jumlah peristiwa yang terjadi pada periode waktu tertentu. Dokumen ini juga menjelaskan ciri-ciri, rumus, dan contoh soal distribusi binomial dan Poisson.
Dokumen tersebut membahas tentang pengukuran ketelitian parameter, residu, dan observasi yang diperoleh dari survei deformasi struktur. Secara singkat, dibahas tentang penentuan matrik kovarians parameter, residu, dan observasi yang teratakan dengan menggunakan model matematika implisit dan tidak langsung. Selanjutnya dilakukan pengujian faktor varians untuk mengetahui kesesuaian asumsi awal ketelitian dengan hasil perhitungan.
Ringkasan dokumen tersebut adalah:
Ujian akhir semester mata kuliah Matematika Statistika di Universitas PGRI Adi Buana Surabaya membahas soal-soal distribusi hipergeometrik, binomial, Poisson, dan normal untuk menentukan berbagai probabilitas.
Proses Poisson menjelaskan proses stokastik yang menghitung kejadian-kejadian yang terjadi secara acak dalam interval waktu tertentu. Proses ini memiliki parameter laju yang menentukan rata-rata kejadian per satuan waktu, serta memenuhi sifat-sifat kenaikan yang bebas dan stasioner. "[/ringkuman]
Dokumen tersebut merangkum hasil analisis regresi tak linier untuk memprediksi kecepatan rata-rata pelari berusia di atas 70 tahun berdasarkan data jarak dan kecepatan larinya. Persamaan regresi yang didapat adalah v̂ = 4,60s-0,06 dengan nilai R2 sebesar 0,81, yang menunjukkan hubungan antara jarak dan kecepatan sebesar 81%. Prediksi kecepatan rata-rata pelari berusia di atas 70 t
Distribusi binomial sering juga disebut distribusi Bernoulli. Distribusi binomial ditemukan oleh James Bernoulli. Distribusi binomial adalah suatu distribusi teoretis yang menggunakan variabel random diskrit yang terdiri dari dua kejadian yang berkomplemen, seperti sukses-gagal, ya-tidak, baik-cacat, kepala-ekor.
Secara lengkap kunjungi:
https://emanmendrofa.blogspot.com/2020/05/distribusi-binomial.html
Dokumen tersebut membahas tentang pendugaan parameter populasi dengan menggunakan nilai statistik sampel. Terdapat beberapa metode pendugaan yang dijelaskan seperti pendugaan rata-rata, variansi, dan perbedaan rata-rata untuk sampel besar dan kecil dengan memberikan contoh soal.
BAB 5. Distribusi Normal dan Distribusi SamplingCabii
Dokumen tersebut membahas tentang distribusi normal dan distribusi sampling. Distribusi normal merupakan distribusi probabilitas kontinu yang paling penting dalam statistika yang memiliki bentuk lonceng simetris. Distribusi sampling adalah distribusi probabilitas dari statistik sampel sebagai variabel acaknya yang digunakan untuk memperkirakan parameter populasi berdasarkan sampel.
Distribusi sampling memberikan kerangka untuk memahami variasi statistik sampel yang diambil dari populasi. Terdapat berbagai jenis distribusi sampling seperti rata-rata, proporsi, beda rata-rata dan proporsi yang mengikuti distribusi tertentu seperti normal, t student, dan binomial. Pemahaman distribusi sampling penting untuk melakukan inferensi statistik dari sampel ke populasi.
Panduan praktis penerapan analisis komponen utama atau principal componen ana...Mujiyanto -
PCA pada dasarnya bertujuan untuk menyederhanakan variabel yang diamati dengan cara menyusutkan (mereduksi) dimensinya.
PCA dilakukan dengan cara menghilangkan korelasi diantara variabel bebas melalui transformasi variabel bebas asal ke variabel baru yang tidak berkorelasi sama sekali atau yang biasa disebut dengan principal component.
Setelah beberapa komponen hasil PCA yang bebas multikolinearitas diperoleh, maka komponen-komponen tersebut menjadi variabel bebas baru yang akan diregresikan atau dianalisa pengaruhnya terhadap variabel tak bebas (Y) dengan menggunakan analisis regresi.
Principal Component Analysis (PCA) dapat mengatasi masalah pelanggaran asumsi klasik multikolinearitas tanpa perlu membuang variabel bebas yang berkolinear tinggi. Sehingga setelah diperoleh variabel bebas baru dari hasil reduksi, dapat meramalkan pengaruh dari variabel bebas (contoh : pendapatan) terhadap variabel tak bebas (contoh : konsumsi) melalui analisis regresi linier.
Dengan metode PCA, kita akan mendapatkan variabel bebas baru yang tidak berkorelasi, bebas satu sama lainnya, lebih sedikit jumlahnya daripada variabel asli, akan tetapi bisa menyerap sebagian besar informasi yang terkandung dalam variabel asli atau yang bisa memberikan kontribusi terhadap varian seluruh variabel.
Dokumen tersebut membahas tentang pengukuran ketelitian parameter, residu, dan observasi yang diperoleh dari survei deformasi struktur. Secara singkat, dibahas tentang penentuan matrik kovarians parameter, residu, dan observasi yang teratakan dengan menggunakan model matematika implisit dan tidak langsung. Selanjutnya dilakukan pengujian faktor varians untuk mengetahui kesesuaian asumsi awal ketelitian dengan hasil perhitungan.
Ringkasan dokumen tersebut adalah:
Ujian akhir semester mata kuliah Matematika Statistika di Universitas PGRI Adi Buana Surabaya membahas soal-soal distribusi hipergeometrik, binomial, Poisson, dan normal untuk menentukan berbagai probabilitas.
Proses Poisson menjelaskan proses stokastik yang menghitung kejadian-kejadian yang terjadi secara acak dalam interval waktu tertentu. Proses ini memiliki parameter laju yang menentukan rata-rata kejadian per satuan waktu, serta memenuhi sifat-sifat kenaikan yang bebas dan stasioner. "[/ringkuman]
Dokumen tersebut merangkum hasil analisis regresi tak linier untuk memprediksi kecepatan rata-rata pelari berusia di atas 70 tahun berdasarkan data jarak dan kecepatan larinya. Persamaan regresi yang didapat adalah v̂ = 4,60s-0,06 dengan nilai R2 sebesar 0,81, yang menunjukkan hubungan antara jarak dan kecepatan sebesar 81%. Prediksi kecepatan rata-rata pelari berusia di atas 70 t
Distribusi binomial sering juga disebut distribusi Bernoulli. Distribusi binomial ditemukan oleh James Bernoulli. Distribusi binomial adalah suatu distribusi teoretis yang menggunakan variabel random diskrit yang terdiri dari dua kejadian yang berkomplemen, seperti sukses-gagal, ya-tidak, baik-cacat, kepala-ekor.
Secara lengkap kunjungi:
https://emanmendrofa.blogspot.com/2020/05/distribusi-binomial.html
Dokumen tersebut membahas tentang pendugaan parameter populasi dengan menggunakan nilai statistik sampel. Terdapat beberapa metode pendugaan yang dijelaskan seperti pendugaan rata-rata, variansi, dan perbedaan rata-rata untuk sampel besar dan kecil dengan memberikan contoh soal.
BAB 5. Distribusi Normal dan Distribusi SamplingCabii
Dokumen tersebut membahas tentang distribusi normal dan distribusi sampling. Distribusi normal merupakan distribusi probabilitas kontinu yang paling penting dalam statistika yang memiliki bentuk lonceng simetris. Distribusi sampling adalah distribusi probabilitas dari statistik sampel sebagai variabel acaknya yang digunakan untuk memperkirakan parameter populasi berdasarkan sampel.
Distribusi sampling memberikan kerangka untuk memahami variasi statistik sampel yang diambil dari populasi. Terdapat berbagai jenis distribusi sampling seperti rata-rata, proporsi, beda rata-rata dan proporsi yang mengikuti distribusi tertentu seperti normal, t student, dan binomial. Pemahaman distribusi sampling penting untuk melakukan inferensi statistik dari sampel ke populasi.
Panduan praktis penerapan analisis komponen utama atau principal componen ana...Mujiyanto -
PCA pada dasarnya bertujuan untuk menyederhanakan variabel yang diamati dengan cara menyusutkan (mereduksi) dimensinya.
PCA dilakukan dengan cara menghilangkan korelasi diantara variabel bebas melalui transformasi variabel bebas asal ke variabel baru yang tidak berkorelasi sama sekali atau yang biasa disebut dengan principal component.
Setelah beberapa komponen hasil PCA yang bebas multikolinearitas diperoleh, maka komponen-komponen tersebut menjadi variabel bebas baru yang akan diregresikan atau dianalisa pengaruhnya terhadap variabel tak bebas (Y) dengan menggunakan analisis regresi.
Principal Component Analysis (PCA) dapat mengatasi masalah pelanggaran asumsi klasik multikolinearitas tanpa perlu membuang variabel bebas yang berkolinear tinggi. Sehingga setelah diperoleh variabel bebas baru dari hasil reduksi, dapat meramalkan pengaruh dari variabel bebas (contoh : pendapatan) terhadap variabel tak bebas (contoh : konsumsi) melalui analisis regresi linier.
Dengan metode PCA, kita akan mendapatkan variabel bebas baru yang tidak berkorelasi, bebas satu sama lainnya, lebih sedikit jumlahnya daripada variabel asli, akan tetapi bisa menyerap sebagian besar informasi yang terkandung dalam variabel asli atau yang bisa memberikan kontribusi terhadap varian seluruh variabel.
Dokumen tersebut membahas tentang regresi linier berganda dan ridge regression. Regresi linier berganda digunakan untuk memodelkan hubungan antara variabel respons dengan beberapa variabel bebas. Ridge regression digunakan untuk mengatasi masalah multikolinearitas pada regresi linier berganda."
Steps for Principal Component Analysis (pca) using ERDAS softwareSwetha A
Principal component analysis is a technique that uses orthogonal transformation to convert correlated variables into a set of uncorrelated variables called principal components. The document provides steps to perform principal component analysis in ERDAS, including opening an input file, specifying the number of desired components and output file, and viewing the output layers. The first few layers highlight different features like urban areas, water regions, and vegetation.
Regresi data panel digunakan untuk menguji pengaruh variabel distribusi dan promosi terhadap penjualan pada tiga perusahaan rokok selama 1991-2000. Uji asumsi klasik multikolinieritas dilakukan dengan melihat nilai-R kuadrat dan t statistik serta korelasi parsial, yang menunjukkan tidak terjadi masalah multikolinieritas pada model regresi.
Dalam mengatasi multikolinearitas pada suatu data, ada beberapa metode yang dapat digunakan, diantaranya yaitu metode Partial Least Square (PLS) dan metode regresi komponen utama (RKU). Data yang digunakan dalam penulisan ini adalah data sekunder yang diperoleh dari Tugas Akhir (Sam, 2015). Hasilnya menunjukkan bahwa metode regresi komponen utama lebih baik dari pada metode Partial Least Square (PLS) berdasarkan nilai koefisien determinasi (R2) yang tinggi.
Introduction to principal component analysis (pca)Mohammed Musah
This document provides an introduction to principal component analysis (PCA), outlining its purpose for data reduction and structural detection. It defines PCA as a linear combination of weighted observed variables. The procedure section discusses assumptions like normality, homoscedasticity, and linearity that are evaluated prior to PCA. Requirements for performing PCA include the variables being at the metric or nominal level, sufficient sample size and variable ratios, and adequate correlations between variables.
Principal Component Analysis (PCA) is a technique used to simplify complex data sets by identifying patterns in the data and expressing it in such a way to highlight similarities and differences. It works by subtracting the mean from the data, calculating the covariance matrix, and determining the eigenvectors and eigenvalues to form a feature vector representing the data in a lower dimensional space. PCA can be used to represent image data as a one dimensional vector by stacking the pixel rows of an image and applying this analysis to multiple images.
PCA transforms correlated variables into uncorrelated variables called principal components. It finds the directions of maximum variance in high-dimensional data by computing the eigenvectors of the covariance matrix. The first principal component accounts for as much of the variability in the data as possible, and each succeeding component accounts for as much of the remaining variability as possible. Dimensionality reduction is achieved by ignoring components with small eigenvalues, retaining only the most significant components.
Dokumen tersebut membahas tentang kolinearitas ganda dan heteroskedastisitas dalam regresi linier. Kolinearitas ganda terjadi ketika terdapat hubungan linier sempurna antara variabel-variabel penjelas, sementara heteroskedastisitas terjadi ketika varians error tidak konstan. Kedua masalah tersebut dapat menyebabkan estimasi koefisien menjadi tidak efisien walaupun tidak bias. Dokumen ini juga menjelaskan berbagai cara untuk men
Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa IndonesiaAmmar Shadiq
Pengelompokan dokumen-dokumen berita kedalam topik-topik yang lebih spesifik membutuhkan waktu dan sumber daya manusia yang tidak sedikit. Untuk mengatasi permasalahan waktu dan sumber daya manusia tersebut, dibutuhkan pengelompokan dokumen-dokumen berita berdasarkan topik-topiknya secara otomatis, selain itu, untuk lebih memudahkan dalam menemukan informasi yang diinginkan, dibutuhkan juga pemberian deskripsi dari kelompok berita. Penelitian ini mencoba untuk mengatasi permasalahan tersebut dengan denjadikan pengelompokan topik-topik berita secara otomatis dengan algoritma Group-Average Hierarchical Aglomerative Clustering (GA-HAC) dan pemberian deskripsi secara otomatis dengan Mutual Information (MI). Eksperimen implementasi dari algoritma ini terhadap 509 dokumen berita menunjukkan bahwa
GA-HAC dapat mengelompokkan dokumen-dokumen berita yang memiliki topik yang sama dengan nilai akurasi precision 84,4% dan MI dapat memberikan nilai akurasi rata-rata partial match Match@N 70,81% untuk seluruh topik dan 90% untuk 10 topik terpopuler
Dokumen ini menjelaskan algoritma input dan output data matriks. Matriks didefinisikan sebagai array 2 dimensi dengan indeks baris dan kolom. Algoritma input melibatkan perulangan untuk memasukkan data ke setiap elemen matriks, sedangkan algoritma output melibatkan perulangan untuk mencetak isi matriks. Kedua algoritma diimplementasikan dalam program Pascal lengkap dengan flowchartnya.
Dokumen tersebut membahas tentang pengantar big data dan peluang kerja terkaitnya. Big data didefinisikan sebagai data besar dan kompleks yang sulit dikelola dengan perangkat lunak konvensional, terdiri atas data terstruktur dan tidak terstruktur. Dokumen ini juga membahas potensi ekonomi besar dari big data, perangkat lunak untuk mengelolanya, serta peluang bisnis dan kerja di bidang tersebut.
Grey-level Co-occurence features for salt texture classificationIgor Orlov
This document summarizes a master's thesis on using grey-level co-occurrence matrices (GLCMs) to classify salt textures in seismic images. The thesis tested different GLCM parameters, developed a new "distance GLCM" feature, and evaluated Gaussian classifiers on various feature combinations. Key results included finding isotropic orientation with a 51x51 window size produced optimal GLCMs, and a classifier using contrast, distance GLCM, and weighted energy features performed best visually on test images. The thesis demonstrated GLCMs for salt texture classification but noted improvements could include 3D GLCMs, combining other texture methods, and generalizing the distance GLCM feature beyond specific class mappings.
Analisis faktor digunakan untuk mengidentifikasi faktor-faktor yang mempengaruhi nilai UAS matematika siswa. Tiga variabel diidentifikasi memiliki hubungan kuat dengan faktor yang terbentuk yaitu lama belajar, lama tidur, dan jarak rumah ke sekolah. Satu faktor mampu menjelaskan 86,7% variasi ketiga variabel tersebut.
Dokumen tersebut merangkum konsep dasar regresi linier tunggal. Regresi linier digunakan untuk memodelkan hubungan antara variabel terikat dengan variabel bebas, memprediksi nilai variabel terikat berdasarkan variabel bebas, dan mengukur kekuatan hubungan antara keduanya. Model regresi linier tunggal mengasumsikan hubungan linier antara variabel terikat dan satu variabel bebas beserta komponen error.
APG Pertemuan 3 : Sample Geometry and Random Sampling (1)Rani Nooraeni
Dokumen tersebut membahas tentang sample geometry dan random sampling. Secara ringkas, dokumen menjelaskan tentang diagram p-dimensi dan n-dimensi untuk mewakili data sampel, serta menghitung nilai rata-rata vektor dan dekomposisi vektor menjadi komponen rata-rata dan deviasi. Dokumen juga membahas mengenai nilai ekspektasi dari sample mean dan covarians matriks, serta generalized variance untuk mewakili variasi data pada lebih d
Perbandingan Metode Partial Least Square (PLS) dengan Regresi Komponen Utama ...Marnii amiru
Ringkasan dokumen tersebut adalah:
1. Dokumen tersebut membandingkan metode Partial Least Square (PLS) dan regresi komponen utama untuk mengatasi masalah multikolinearitas pada suatu data.
2. Hasilnya menunjukkan bahwa metode regresi komponen utama lebih baik dari PLS berdasarkan nilai koefisien determinasi yang lebih tinggi.
3. Kedua metode digunakan untuk mengurangi dimensi variabel bebas dan menghilang
Dokumen tersebut membahas mengenai statistika parametrik dan beberapa metode parametrik seperti inferensi terhadap rata-rata populasi, hubungan antar variabel, analisis regresi dan korelasi, serta contoh penerapannya menggunakan SPSS dan analisis variansa satu arah dan dua arah.
Dokumen tersebut membahas tentang analisis faktor, termasuk rotasi faktor, penentuan nilai faktor, dan strategi yang dapat digunakan dalam analisis faktor. Beberapa metode yang dijelaskan adalah analisis faktor komponen utama, estimasi maksimum kemungkinan, dan rotasi varimax untuk mempermudah interpretasi hasil analisis faktor.
Dokumen tersebut membahas metode Newton-Raphson dan metode Secant untuk menyelesaikan persamaan non-linear dan menentukan tegangan kerja suatu dioda. Dibahas prinsip-prinsip dan algoritmanya serta perbandingan kedua metode.
Similar to Analisis komponen utama (Principal Component Analysis) (20)
Model Imputasi Berbasis Distribusi Bersyarat (Conditional Distribution Based ...Indah Fitri Hapsari
Dokumen tersebut merupakan laporan tugas akhir yang membahas model imputasi data longitudinal yang hilang dengan menggunakan distribusi bersyarat. Metode ini memanfaatkan struktur korelasi antar observasi untuk memprediksi data yang hilang."
Statistik PRESS digunakan untuk mengetahui kemampuan suatu model regresi dalam memprediksi observasi yang tidak digunakan dalam pembuatan model. PRESS menghitung error prediksi dengan menghilangkan satu observasi sekaligus dari data untuk membangun model, lalu mengestimasi observasi yang dihilangkan tersebut. Semakin kecil nilai PRESS, semakin baik kemampuan model dalam memprediksi. Statistik Cp dan AIC digunakan untuk membanding
Dokumen tersebut membahas pemodelan data asuransi mobil menggunakan logistic regression. Terdapat beberapa bab yang membahas tentang landasan teori logistic regression, analisis data asuransi, dan pemilihan model terbaik. Variabel respon yang digunakan adalah apakah pemegang polis mengajukan klaim atau tidak.
Laporan praktikum termokimia mencakup 6 percobaan untuk menentukan tetapan kalorimeter, kalor reaksi, kalor pelarutan etanol dalam air, dan kalor penetralan beberapa asam dan basa. Hasilnya dianalisis menggunakan perhitungan kalor yang diserap dan dilepaskan oleh zat-zat yang bereaksi.
Model regresi linier umum digunakan untuk memprediksi kemungkinan pengajuan klaim asuransi kendaraan bermotor. Variabel prediktor utama adalah jenis kendaraan, nilai kendaraan, kategori usia pengemudi, dan wilayah tempat tinggal. Model terakhir juga mempertimbangkan faktor eksposur untuk memperbaiki akurasi perkiraan.
"Jodoh Menurut Prespektif Al-Quran" (Kajian Tasir Ibnu Katsir Surah An-Nur ay...Muhammad Nur Hadi
Jurnal "Jodoh Menurut Prespektif Al-Quran" (Kajian Tasir Ibnu Katsir Surah An-Nur ayat 26 dan 32 dan Surah Al-Hujurat Ayat 13), Ditulis oleh Muhammmad Nur Hadi, Mahasiswa Program Studi Ilmu Hadist di UIN SUSKA RIAU.
Analisis komponen utama (Principal Component Analysis)
1. Indah Nurina F.H/10110094/Institut Teknologi Bandung 2010
1
Analisis Komponen Utama
(Principal component analysis)
A. LANDASAN TEORI
Misalkan 𝜒 merupakan matriks berukuran 𝑛𝑥𝑝, dengan baris-baris yang berisi observasi sebanyak 𝑛
dari 𝑝-variat variabel acak 𝑋. Analisis komponen utama merupakan salah satu metode untuk mereduksi
dimensi dari variabel acak 𝑋. Reduksi dimensi dilakukan dengan mendefinisikan p-variat variabel acak baru
𝑌 dimana masing masing 𝑌𝑖 , 𝑖 = 1, … , 𝑝 merupakan kombinasi linear dari p-variat variabel acak 𝑋,
sehingga informasi yang dimiliki oleh p-variat variabel acak 𝑋 tetap termuat pada masing-masing anggota
dari p-variat variabel acak baru 𝑌. Dengan demikian, dapat kita pilih beberapa anggota dari p-variat variabel
acak 𝑌 sebagai bentuk reduksi dari p-variat variabel acak 𝑋 tanpa menghilangkan terlalu banyak informasi.
Proses pendefinisian p-varait variabel acak 𝑌 sering disebut juga pembobotan, dimana:
𝑌𝑖 = 𝛿Τ
𝑋 = 𝛿𝑗
𝑝
𝑗=1
𝑋𝑗 , 𝑖 = 1, … . 𝑝 sehingga 𝛿𝑗
2
𝑝
𝑗=1
= 1
Dengan 𝑋 = (𝑋1, 𝑋2, … , 𝑋 𝑝)Τ
dan 𝛿 = (𝛿1, 𝛿2, … , 𝛿 𝑝)Τ
. (𝛿 disebut dengan vektor pembobotan)
Agar variabel acak baru 𝑌 mampu mewakili variasi dari 𝑝-variat variabel acak 𝑋 , akan dipilih arah-arah 𝛿
sehingga 𝛿Τ
𝑋 memiliki variansi yang besar:
𝑉𝑎𝑟 𝛿Τ
𝑋 =𝛿: 𝛿 =1
𝑚𝑎𝑥
𝛿Τ
𝑉𝑎𝑟 𝑋 𝛿𝛿: 𝛿 =1
𝑚𝑎𝑥
= 𝛿Τ
(𝑥𝑖 − 𝜇) 𝑇
(𝑥𝑖 − 𝜇)
𝑛
𝑖=1
𝛿𝛿: 𝛿 =1
𝑚𝑎𝑥
= ((𝑥𝑖 − 𝜇). 𝛿)2
𝑛
𝑖=1
[𝛿: 𝛿 =1]
𝑚𝑎𝑥
Dapat dilihat dari persamaan diatas bahwa memaksimumkan variansi dari 𝛿Τ
𝑋 sama saja dengan
memaksimumkan jumlahan dari kuadrat panjang proyeksi (𝑥𝑖 − 𝜇) pada 𝛿.
Dari ilustrasi gambar di samping, karena jarak ke pusat ordinat selalu
konstan, dapat disimpulkan bahwa memaksimumkan jumlahan
kuadrat panjang proyeksi sama saja dengan meminimumkan jarak
antara titik yang akan diproyeksikan (𝑥𝑖 − 𝜇) dengan vektor 𝛿. Hal
ini lah yang membedakan konsep dari Principal Component analisis
dengan regresi. Untuk lebih jelasnya dapat dilihat pada gambar
berikut.
PCA Regresi
Ket: adalah panjang garis yang diminimumkan
2. Indah Nurina F.H/10110094/Institut Teknologi Bandung 2010
2
Sumber: http://www.cerebralmastication.com/2010/09/principal-component-analysis-pca-vs-ordinary-
least-squares-ols-a-visual-explination/
Dari persamaan yang telah dipaparkan sebelumnya, memaksimumkan variansi dari proyeksi, yaitu
𝑉𝑎𝑟 𝛿Τ
𝑋 sama saja dengan memaksimumkan nilai dari 𝛿Τ
𝑉𝑎𝑟 𝑋 𝛿. Untuk memaksimumkan nilai dari
𝛿Τ
𝑉𝑎𝑟 𝑋 𝛿, kita gunakan teorema berikut:
Teorema
Jika 𝐴 dan 𝐵 merupakan matriks simetri, dan 𝐵 > 0, maka nilai maksimum dari
𝑥 𝑇 𝐴 𝑥
𝑥 𝑇 𝐵 𝑥
diberikan oleh nilai
eigen terbesar dari 𝐵−1
𝐴. Secara umum,
max
𝑥 𝑇
𝐴 𝑥
𝑥 𝑇 𝐵 𝑥
= 𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆 𝑝 = min
𝑥 𝑇
𝐴 𝑥
𝑥 𝑇 𝐵 𝑥
Dimana 𝜆1, 𝜆2, … , 𝜆 𝑝 menotasikan nilai eigen dari 𝐵−1
𝐴. Vektor yang meminimumkan (memaksimumkan)
𝑥 𝑇 𝐴 𝑥
𝑥 𝑇 𝐵 𝑥
merupakan vektor eigen dari 𝐵−1
𝐴 yang memiliki nilai eigen terkecil (terbesar). Jika 𝑥 𝑇
𝐵 𝑥 = 1, maka:
max 𝑥 𝑇
𝐴 𝑥 = 𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆 𝑝 = min 𝑥 𝑇
𝐴 𝑥
Berdasarkan teorema diatas, karena 𝑉𝑎𝑟 𝑋 merupakan matriks simetri, maka nilai dari 𝛿Τ
𝑉𝑎𝑟 𝑋 𝛿Τ
yang terbesar sama dengan nilai eigen value terbesar dari matriks kovariansi = 𝑉𝑎𝑟 𝑋 . Secara umum:
= Γ Λ Γ 𝑇
= 𝜆𝑗 𝛾𝑗 𝛾𝑗
𝑇
𝑝
𝑗=1
Λ = 𝑑𝑖𝑎𝑔𝑜𝑛𝑎𝑙(𝜆1, 𝜆2, 𝜆3, … , 𝜆 𝑝)
Γ = (γ1, γ2, … , γp)
max 𝛿Τ
𝑉𝑎𝑟 𝑋 𝛿Τ
= 𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆 𝑝 = min 𝛿Τ
𝑉𝑎𝑟 𝑋 𝛿Τ
,sehingga arah 𝛿 yang memberikan nilai 𝑉𝑎𝑟 𝛿Τ
𝑋 terbesar ialah vektor eigen dari 𝑉𝑎𝑟 𝑋 dengan nilai
eigen terbesar dimana vektor eigen tersebut merupakan vektor kolom dari Γ. Matriks 𝑉𝑎𝑟 𝑋 bersifat semi
definit positif sehingga nilai eigennya tidak mungkin negatif. Pada bidang aljabar, proses diatas serupa
dengan mengubah basis baku menjadi basis vektor eigen dengan vektor eigen sebagai matriks perubahan
basis. Jika nilai lambda tidak ada yang sama, maka vektor eigen yang terbentuk merupakan basis
orthonormal, yaitu vektor-vektor yang saling tegak lurus dengan masing-masing vektor memiliki panjang 1
unit.
Catatan: Principal component analysis dihitung melalui matriks kovariansinya, maka seperti halnya matriks
kovariansi, nilainya akan bergantung pada satuan yang digunakan.
B. Aplikasi Analisis Komponen Utama pada Data Nilai Mahasiswa
Berikut ialah contoh aplikasi analisis komponen utama pada data nilai wisudawan matematika
angkatan 2007 (Data dapat dilihat pada bagian lampiran). 𝜒 merupakan matriks berukuran 𝑛𝑥𝑝, dengan 𝑛
merupakan jumlah mahasiswa (101 mahasiswa) dan 𝑝 merupakan jumlah mata kuliah (14 mata kuliah).
Baris-baris matriks 𝜒 berisi nilai masing-masing mahasiswa untuk ke 14 mata kuliah. Kita Definisikan 14-
variat variabel acak 𝑋 sebagai berikut:
𝑋1 =nilai Fisika I A 𝑋8 = nilai Kalkulus Peubah Banyak
𝑋2 = nilai Kalkulus IA 𝑋9 = nilai Komputasi Matematika
𝑋3 =nila Fisika II A 𝑋10 = nilai Metode Matematika
𝑋4 =nilai Kalkulus II A 𝑋11 = nilai Pengantar Analisis Kompleks
3. Indah Nurina F.H/10110094/Institut Teknologi Bandung 2010
3
𝑋5 = nilai Aljabar Linier Elementer A 𝑋12 = nilai Matematika Numerik
𝑋6 = nilai Matematika Diskrit 𝑋13 = nilai Teori Peluang
𝑋7 = nilai Analisis Data 𝑋14 = nilai Pengantar Analisis Real
Langkah-langkah yang harus dilakukan untuk mencari reduksi variabel menggunakan analisis komponen
utama ialah sebagai berikut:
1. Mencari matriks kovariansi empirik dari 14-variat variabel acak 𝑿 yaitu = 𝑽𝒂𝒓 𝑿 .
Matriks Kovariansi empirik ialah matriks yang nilai-nilai kovariansi pada tiap cell-nya diperoleh
dari sampel. Misalkan Y dan Z ialah variabel acak, maka:
𝑐𝑜𝑣 𝑌, 𝑍 =
1
𝑛
(𝑦𝑖 − 𝑦)(𝑧𝑖 − 𝑧)
𝑛
𝑖=1
Dengan 𝑦 dan 𝑧 merupakan rataan sampel dari variabel Y dan Z, dan 𝑦𝑖 dan 𝑧𝑖 merupakan nilai
observasi ke-i dari variabel Y dan Z. Pembagian dengan n digunakan karena jumlah sampel yang
dimiliki lebih dari 20. Dari data nilai yang digunakan, diperoleh matriks kovariansi berukuran
14x14.
2. Mencari nilai eigen dan vektor eigen dari matriks kovariansi empirik yang telah diperoleh.
Nilai eigen dan vektor eigen dapat dihitung menggunakan program matlab. Nilai eigen diurutkan
mulai dari nilai yang terbesar hingga terkecil. Matriks yang kolom-kolomnya berisi vektor eigen dari
nilai eigen terkait disesuaikan urutannya berdasarkan nilai eigen yang telah urut. Dengan
menggunakan algoritmat matlab , diperoleh 14 nilai-nilai eigen yang telah diurutkan,yaitu :
𝐸𝑖𝑔𝑒𝑛 = (3.4970 , 0.6452 , 0.5314 , 0.4311 , 0.3915 , 0.3630 ,0.3450 , 0.2437 , 0.2171 , 0.2046
, 0.1771 , 0.1380 , 0.1213 , 0.0936)
Masing-masing variabel baru 𝑌𝑖 yang terbentuk memiliki variansi yang besarnya sama dengan nilai
eigen yang terkait dengan vektor eigen pembentuknya. Grafik diatas ditampilkan untuk
memperjelas penurunan variansi (nilai eigen) yang terjadi.
3. Menghitung proporsi variansi masing-masing PC beserta nilai akumulasi untuk q-PC pertama.
Ukuran seberapa baik q -PC pertama mampu menjelaskan variansi diberikan melalui proporsi
relatif 𝜓 𝑞 =
𝜆 𝑗
𝑞
𝑗=1
𝜆 𝑗
𝑝
𝑗=1
. Tabel dibawah ini memperlihatkan proporsi variansi dari masing-masing PC
serta nilai akumulasinya jika kita menggunakan q-PC pertama.
4. Indah Nurina F.H/10110094/Institut Teknologi Bandung 2010
4
Pemilihan banyak PC yang akan digunakan tergantung dari kebutuhan. Dapat kita lihat bahwa 2
PC saja mampu menyerap variansi sebesar 56%, apabila persentasi ini dirasa cukup, dapat kita
gunakan 2 PC yang ada. Pemilihan 2 hingga 3 PC lebih sering dilakukan untuk mempermudah
visualisasi.
Apabila kita menginginkan jumlah PC yang lebih dari 50 persen dan memberikan akumulasi
variansi yang cukup signifikan,maka dapat kita lihat melalui kecuraman ( gradien) dari grafik
akumulasi variansi q-PC. Digunakan garis-garis linier untuk mempermudah visualisasi perubahan
gradien yang terjadi. Semakin landai gradien antara 2 titik yang ada, maka semakin kecil perubahan
akumulasi variansi yang dijelaskan.
Dari plot diatas, dapat dilihat bahwa pemilihan 3 PC dapat dibilang cukup baik karena viualisasi
yang mudah serta nilai pertambahan akumulasi PC yang signifikan. Pemilihan 3 PC mampu
menjelaskan 63% variansi dibandingkan dengan apabila kita menggunakan 14 PC yang ada.
4. Interpretasi Hasil dari Analisis Komponen Utama
Untuk mempermudah visualisasi dan interpretasi, maka kita pilih 2-PC dengan nilai eigen
terbesar. Berikut disajikan hasil PC pertama (𝑌1) dan kedua (𝑌2) dari data nilai yang telah
dipaparkan diatas:
𝑌1 =
0.0675 nilai Fisika I A + 0.1866 nilai Kalkulus IA + 0.0735 nilai Fisika II A +
0.1595 nilai Kalkulus II A + 0.2872 nilai Aljabar Linier Elementer A +
0.3110 nilai Matematika Diskrit + 0.2396 nilai Analisis Data +
𝟎. 𝟑𝟔𝟓𝟗 𝒏𝒊𝒍𝒂𝒊 𝑲𝒂𝒍𝒌𝒖𝒍𝒖𝒔 𝑷𝒆𝒖𝒃𝒂𝒉 𝑩𝒂𝒏𝒚𝒂𝒌 + 0.1915 nilai Komputasi Matematika +
0.3303 nilai Metode Matematika + 𝟎. 𝟑𝟖𝟓𝟖 𝒏𝒊𝒍𝒂𝒊 𝑷𝒆𝒏𝒈𝒂𝒏𝒕𝒂𝒓 𝑨𝒏𝒂𝒍𝒊𝒔𝒊𝒔 𝑲𝒐𝒎𝒑𝒍𝒆𝒌𝒔 +
0.3215 nilai Matematika Numerik + 𝟎. 𝟑𝟓𝟑𝟔 𝐧𝐢𝐥𝐚𝐢 𝐓𝐞𝐨𝐫𝐢 𝐏𝐞𝐥𝐮𝐚𝐧𝐠 +
0.1908 nilai Pengantar Analisis Real
Nilai dari 𝑌1 lebih banyak dijelaskan oleh variabel nilai Kalkulus Peubah Banyak, nilai Pengantar
analisis Kompleks, dan nilai Teori Peluang. Hal ini dapat dilihat dari koefisien yang cukup besar
dibanding variabel lainnya.
5. Indah Nurina F.H/10110094/Institut Teknologi Bandung 2010
5
Apabila sebuah variabel memiliki koefisien yan besar dan positif (negatif) pada kombinasi linear
yang mendefiniskan sebuah PC, maka dapat dikatakan bahwa terdapat korelasi yang kuat dan
positif (negatif) antara variabel tersebut dengan PC yang didefinisikan.
Dapat disimpulkan bahwa apabila nilai 𝑌1 besar, maka nilai dari Kalkulus Peubah Banyak,
Pengantar analisis Kompleks, dan nilai Teori Peluang juga besar. Namun, apabila kita melihat
koefisien-koefisien yang ada pada kombinasi linier diatas, dapat dikatakan bahwa koefisien yang
ada tidak terlalu berbeda jauh. Tidak ada nilai koefisien yang sangat besar baik koefisien yang
bernilai positif maupun negatif. Hal ini sebenarnya juga memengaruhi seberapa bermanfaat
penggunaan metode analisis komponen utama pada data. Analisis Komponen utama sebaiknya
digunakan apabila nilai korelasi antara q-PC yang digunakan dengan variabel-variabel awal (dalam
hal ini p-variat variabel acak X) memiliki nilai yang besar.
𝑌2 = −0.2355 nilai Fisika I A − 𝟎. 𝟒𝟑𝟖𝟗 𝒏𝒊𝒍𝒂𝒊 𝑲𝒂𝒍𝒌𝒖𝒍𝒖𝒔 𝑰𝑨 − 0.1441 nilai Fisika II A −
0.0497 nilai Kalkulus II A − 0.1946 nilai Aljabar Linier Elementer A −
𝟎. 𝟒𝟒𝟖𝟎 𝒏𝒊𝒍𝒂𝒊 𝑴𝒂𝒕𝒆𝒎𝒂𝒕𝒊𝒌𝒂 𝑫𝒊𝒔𝒌𝒓𝒊𝒕 − 0.1049 nilai Analisis Data +
0.1509 nilai Kalkulus Peubah Banyak + 0.2211 nilai Komputasi Matematika +
0.3993 nilai Metode Matematika + 0.0267 nilai Pengantar Analisis Kompleks +
0.1430 nilai Matematika Numerik + 0.3296 nilai TeoriPeluang −
0.3438 nilai Pengantar Analisis Real
Nilai dari 𝑌2 dapat dijelaskan cukup baik oleh variabel nilai Kalkulus IA dan nilai Matematika
Diskrit. Koefisien pada kedua variabel bertanda negatif. Hal ini mengindikasikan bahwa korelasi
antara 𝑌2 dengan jumlahan dari nilai Kalkulus IA dan nilai Metematika Diskrit negatif. Artinya,
apabila nilai dari variabel 𝑌2 dari seorang mahasiswa kecil, maka dapat disimpulkan bahwa nilai
Kalkulus dan nilai Matematika Diskrit dari mahasiswa tersebut besar. Sehingga dengan melihat nilai
dari 𝑌2 , kita dapat menarik kesimpulan mengenai nilai Kalkulus IA dan nilai Matematika Diskrit.
Berikut disajikan Plot dari PC pertama terhadap PC kedua dari data yang ada.
Dari gambar scatterplot diatas, dapat disimpulkan bahwa:
1. Interval dari 𝑌1 lebih besar dari interval dari 𝑌2. Hal ini memperkuat bukti bahwa 𝑌1 memiliki
variansi yang lebih besar. Sehingga dapat dikatakan bahwa jumlahan dari nilai Kalkulus Peubah
Banyak, nilai Pengantar analisis Kompleks, dan nilai Teori Peluang menghasilkan variansi yang
besar.
2. Sebagian besar titik berada pada daerah yang dilingkupi oleh garis oval berwarna biru. Pola ini
menunjukkan kecenderungan dari mahasiswa matematika angkatan 2007.
6. Indah Nurina F.H/10110094/Institut Teknologi Bandung 2010
6
3. Beberapa titik berada di bagian pojok kiri bawah dari grafik. Titik-titik yang berada pada bagian
pojok kiri bawah dari grafik dapat dikatakan sebagai pencilan karena tidak mengikuti
kecenderungan yang dijelaskan pada poin 2 dan berada jauh dari garis oval berwarna biru. Titik-
titik tersebut memiliki nilai 𝑌1 dan 𝑌2 yang tergolong kecil, sehingga dapat disimpulkan bahwa
sebagian kecil mahasiswa memiliki jumlahan nilai Kalkulus Peubah Banyak, Pengantar analisis
Kompleks,dan nilai Teori Peluang yang kecil, sedangkan jumlahan nilai Kalkulus IA dan nilai
Matematika Diskrit besar .
4. Mahasiswa yang memiliki jumlahan nilai Kalkulus IA dan nilai Matematika Diskrit paling besar
memilki jumlahan nilai Kalkulus Peubah Banyak, nilai Pengantar analisis Kompleks, dan nilai
Teori Peluang yang tergolong tidak besar. (lihat titik yang dilingkupi segitiga berwarna hijau)
Plot diatas sangat berguna apabila kita memberikan pendefinisian kategori yang memasukkan
masing-masing individu ke dalam sebuah kategori. Pemberian warna pada scatterplot diatas dapat
membantu visualisasi dari kategori yang ada. Dengan melihat pola dari scatterplot dari tiap-tiap
kategori, maka kita dapat menyimpulkan karakteristik dari tiap- tiap kategori.