PCA digunakan untuk mengurangi dimensi data dengan mempertahankan variasi utama. Ini dilakukan dengan mentransformasikan variabel asli menjadi kombinasi linear baru disebut komponen utama berdasarkan kontribusi variasi masing-masing. PCA banyak digunakan untuk analisis data, pengenalan pola, dan pengenalan wajah karena mampu mengurangi dimensi tanpa kehilangan informasi penting.
Langkah pertama dalam analisis data adalah menyunting dan menyandikan data mentah untuk mendeteksi kesalahan. Metode analisis mencakup tabel frekuensi, histogram, dan diagram Pareto untuk mengeksplorasi pola data, sementara teknik seperti tabulasi silang membandingkan hubungan antar variabel. Analisis eksplorasi memberikan fleksibilitas untuk menanggapi pola awal sebelum analisis statistik lebih lanjut.
Modul ini membahas tentang transformasi data untuk proyek data science. Tujuannya adalah agar peserta dapat menjelaskan berbagai teknik transformasi data dan menerapkannya untuk menyelesaikan masalah data. Modul ini menjelaskan konsep representasi fitur, rekayasa fitur, dan berbagai teknik transformasi data seperti imputasi, normalisasi, dan seleksi fitur.
Sim 12, novi irnawati, hapzi ali, model sistem umum perusahaan, universitas m...Novi Irnawati
Sim 12, novi irnawati, hapzi ali, model sistem umum perusahaan, universitas mercu buana, 2017
Sim 12, novi irnawati, hapzi ali, model sistem umum perusahaan, universitas mercu buana, 2017
Sim 12, novi irnawati, hapzi ali, model sistem umum perusahaan, universitas mercu buana, 2017
Dokumen tersebut membahas tentang konsep basis data relasional. Terdapat penjelasan mengenai komponen-komponen model relasional seperti kumpulan objek, set operator, dan integritas data. Juga dijelaskan tentang tabel, primary key, foreign key, dan composite key dalam model relasional. Dokumen ini juga menyebutkan sejarah perkembangan basis data serta manfaat penggunaan basis data.
Langkah pertama dalam analisis data adalah menyunting dan menyandikan data mentah untuk mendeteksi kesalahan. Metode analisis mencakup tabel frekuensi, histogram, dan diagram Pareto untuk mengeksplorasi pola data, sementara teknik seperti tabulasi silang membandingkan hubungan antar variabel. Analisis eksplorasi memberikan fleksibilitas untuk menanggapi pola awal sebelum analisis statistik lebih lanjut.
Modul ini membahas tentang transformasi data untuk proyek data science. Tujuannya adalah agar peserta dapat menjelaskan berbagai teknik transformasi data dan menerapkannya untuk menyelesaikan masalah data. Modul ini menjelaskan konsep representasi fitur, rekayasa fitur, dan berbagai teknik transformasi data seperti imputasi, normalisasi, dan seleksi fitur.
Sim 12, novi irnawati, hapzi ali, model sistem umum perusahaan, universitas m...Novi Irnawati
Sim 12, novi irnawati, hapzi ali, model sistem umum perusahaan, universitas mercu buana, 2017
Sim 12, novi irnawati, hapzi ali, model sistem umum perusahaan, universitas mercu buana, 2017
Sim 12, novi irnawati, hapzi ali, model sistem umum perusahaan, universitas mercu buana, 2017
Dokumen tersebut membahas tentang konsep basis data relasional. Terdapat penjelasan mengenai komponen-komponen model relasional seperti kumpulan objek, set operator, dan integritas data. Juga dijelaskan tentang tabel, primary key, foreign key, dan composite key dalam model relasional. Dokumen ini juga menyebutkan sejarah perkembangan basis data serta manfaat penggunaan basis data.
Statistika adalah ilmu yang menganalisis data untuk membantu pengambilan keputusan. Terdiri dari statistika deskriptif untuk menggambarkan data, dan statistika inferensi untuk pengujian hipotesis. SPSS digunakan untuk menghitung statistik dengan input data, membuat output statistik deskriptif seperti rata-rata, dan menganalisis frekuensi data.
sim,fathia suwaninda , hapzi ali Prof.Dr.MM sistem manajemen database ,akunta...fathiamunaf
Dokumen tersebut merangkum pengertian sistem manajemen basis data (DBMS), database relasional, dan komponen-komponen dasar database seperti file, record, byte, field. Dijelaskan pula contoh DBMS seperti Oracle dan jenis-jenis relasi antar tabel dalam database relasional.
Dokumen tersebut membahas tentang sistem manajemen basis data dan komponennya secara singkat, termasuk DBMS, arsitektur database, bahasa database, model basis data, data warehouse, OLAP, data mining, dan sistem basis data terdistribusi.
Dokumen tersebut membahas konsep dasar sistem manajemen basis data (SMBD) dan arsitektur basis data. Secara ringkas, dokumen tersebut menjelaskan:
1) Penjelasan tentang SMBD dan contoh perangkat lunak SMBD seperti fungsi-fungsinya dalam mengelola basis data.
2) Konsep model data, skema, dan instance data dalam pembuatan basis data.
3) Arsitektur basis data yang terdiri dari tiga skema (skema konseptual, skema fis
Modul ini membahas tentang variabel, tipe data, dan operator yang digunakan dalam pemrograman visual VB.NET. Terdapat penjelasan mengenai konsep variabel, jenis-jenis tipe data seperti integer, decimal, string, dan operator aritmatika, pembanding, logika, serta contoh kode program untuk mempraktikkan penggunaan variabel, tipe data, dan operator.
Kecerdasan emosional (Emotional Intelligence ) merupakan konsep baru yang dikembangkan oleh Daniel Goleman dalam karyanya pada tahun 1995 berjudul “Emotional Intelligence”
Statistika adalah ilmu yang menganalisis data untuk membantu pengambilan keputusan. Terdiri dari statistika deskriptif untuk menggambarkan data, dan statistika inferensi untuk pengujian hipotesis. SPSS digunakan untuk menghitung statistik dengan input data, membuat output statistik deskriptif seperti rata-rata, dan menganalisis frekuensi data.
sim,fathia suwaninda , hapzi ali Prof.Dr.MM sistem manajemen database ,akunta...fathiamunaf
Dokumen tersebut merangkum pengertian sistem manajemen basis data (DBMS), database relasional, dan komponen-komponen dasar database seperti file, record, byte, field. Dijelaskan pula contoh DBMS seperti Oracle dan jenis-jenis relasi antar tabel dalam database relasional.
Dokumen tersebut membahas tentang sistem manajemen basis data dan komponennya secara singkat, termasuk DBMS, arsitektur database, bahasa database, model basis data, data warehouse, OLAP, data mining, dan sistem basis data terdistribusi.
Dokumen tersebut membahas konsep dasar sistem manajemen basis data (SMBD) dan arsitektur basis data. Secara ringkas, dokumen tersebut menjelaskan:
1) Penjelasan tentang SMBD dan contoh perangkat lunak SMBD seperti fungsi-fungsinya dalam mengelola basis data.
2) Konsep model data, skema, dan instance data dalam pembuatan basis data.
3) Arsitektur basis data yang terdiri dari tiga skema (skema konseptual, skema fis
Modul ini membahas tentang variabel, tipe data, dan operator yang digunakan dalam pemrograman visual VB.NET. Terdapat penjelasan mengenai konsep variabel, jenis-jenis tipe data seperti integer, decimal, string, dan operator aritmatika, pembanding, logika, serta contoh kode program untuk mempraktikkan penggunaan variabel, tipe data, dan operator.
Kecerdasan emosional (Emotional Intelligence ) merupakan konsep baru yang dikembangkan oleh Daniel Goleman dalam karyanya pada tahun 1995 berjudul “Emotional Intelligence”
Secara umum logika fuzzy sugeno adalah suatu logika yang digunakan untuk menghasilkan keputusan tunggal/crisp saat defuzzyfikasi, penggunaannya tergantung dari domain masalah yang terjadi
Estetika Humanisme Diskusi Modul Part Ke-7.pdfHendroGunawan8
Anger management adalah belajar mengenali tanda-tanda pada diri saat marah dan mengambil tindakan yang “sehat” dalam meluapkan kemarahan.
Secara sederhana, dapat diartikan bahwa anger management adalah mengendalikan rasa marah, bukan mencegah atau menahan rasa marah.
Estetika Humanisme Diskusi Video Sesi Ke-7.pdfHendroGunawan8
Anger Management adalah suatu kemampuan atau teknik untuk melakukan tindakan mengatur pikiran, perasaan, nafsu amarah dengan cara yang tepat dan posistif serta dapat diterima di lingkungan, sehingga dapat mencegah sesuatu yang buruk atau merugikan diri sendiri dan orang lain.
Jaringan VOIP Ringkasan Modul Pertemuan Ke-6.pdfHendroGunawan8
Cisco Unified Communications (UC) adalah sistem komunikasi berbasis IP yang mengintegrasikan produk dan aplikasi suara, video, data, dan mobilitas. Ini memungkinkan komunikasi yang lebih efektif dan aman dan dapat mengubah cara kita berkomunikasi
Di dalam pengolahan citra, sebuah citra sering dilakukan proses penapisan (image filtering) untuk memperoleh citra sesuai dengan tujuan yang diinginkan.
Diskusi Modul Sistem Pakar Sesi Ke-6 - Salin.pdfHendroGunawan8
Metode Fuzzy Mamdani merupakan salah satu bagian dari Fuzzy Inference System yang berguna untuk penarikan kesimpulan atau suatu keputusan terbaik dalam permasalahan yang tidak pasti
Mindfulness adalah sikap berkesadaran penuh akan peristiwa yang sedang dijalani saat ini, dengan penuh perhatian, memiliki tujuan yang jelas, dan tanpa menghakimi.
Logika Fuzzy pertama kali dikembangkan oleh Lotfi A. Zadeh pada tahun 1965. Teori ini banyak diterapkan di berbagai bidang, antara lain representasi pikiran manusia ke dalam suatu sistem. Banyak alasan mengapa penggunaan logika Fuzzy ini sering dipergunakan antara lain, konsep logika Fuzzy yang mirip dengan konsep berpikir manusia. Sistem Fuzzy dapat merepresentasikan pengetahuan manusia ke dalam bentuk matematis dengan lebih menyerupai cara berpikir manusia ke dalam bentuk matematis. Selain itu, informasi berupa pengetahuan dan pengalaman mempunyai peranan penting dalam mengenali perilaku sistem di dunia nyata.
Kecerdasan emosional (Emotional Intelligence ) merupakan konsep baru yang dikembangkan oleh Daniel Goleman dalam karyanya pada tahun 1995 berjudul “Emotional Intelligence”.
Banyak orang menganggap mempelajari kitab Wahyu adalah sulit. Selain karena membicarakan simbol-simbol yang tidak biasa, kitab Wahyu juga memiliki tema-tema yang kompleks. Nah, bagaimana cara terbaik membedah kitab Wahyu?
Mari kita pelajari bersama lebih dahulu 3 pasal pertama dari kitab ini dalam kelas diskusi "Bedah Kitab Wahyu" (BKW) pada 19—26 Juni 2024 melalui grup WA.
Sebelum kelas dimulai, ikuti lebih dahulu pemaparan materinya via Zoom pada:
Rabu, 19 Juni 2024.
- Pagi: pkl. 10.30—12.00 WIB
- Malam: pkl. 19.00—20.30 WIB
Daftarkan diri Anda segera di https://bit.ly/form-mlc.
Kontak:
WA: 0821-3313-3315 (MLC)
E-Mail: kusuma@in-christ.net
1. 1
Machine Learning
Diskusi Pertemuan 14
Principal Component Analysis (PCA)
Gambar 1. Principal Component Analysis (PCA)
14.1 Pengertian
• Satu pendekatan terkait dengan dimensi yang tinggi adalah mengurangi data tersebut.
• Memproyeksikan data dimensi tinggi ke dimensi yang rendah menggunakan transformasi
linear dan non-linear.
14.2 Kenapa Perlu Reduksi Dimensi?
• Karena dataset bisa saja memiliki jumlah features yang sangat banyak. (Contohnya: data
dokumen dengan term sebagai vektor feature-nya)
• Menghindari Curse of Dimensionality yakni fenomena dimana analisis data menjadi sangat
sulit disebabkan pertambahan dimensi data, data menjadi tersebar/sparse.
• Mengurangi penggunaan memori dan waktu yang dibutuhkan oleh algoritme machine
learning.
• Memudahkan visualisasi data.
• Membantu mengurangi data yang tidak relevan atau noise
14.3 Principal Component Analysis (PCA)
• Setiap teknik reduksi dimensi adalah menemukan transformasi yang menentukan/kriteria
tertentu (misal information loss, data discrimination, dll).
• Tujuan dari PCA adalah mengurangi dimensi data dengan mempertahankan variasi data
yang ada.
2. 2
• PCA telah banyak diaplikasikan pada bagian bidang seperti face recognition, image
compression, dan merupakan teknik yang umum digunakan untuk pencarian pola pada data
berdimensi tinggi.
14.4 Kelebihan Principal Component Analysis (PCA)
• Salah satu kelebihan PCA adalah kita dapat menemukan pattern/pola dari suatu data
sekaligus mengurangi dimensi data tersebut tanpa kehilangan banyak informasi tentang data
tersebut.
14.5 Langkah-langkah Penghitungan PCA
• Get some data.
• Subtract the mean.
• Calculate the covariance matrix.
• Calculate the eigenvectors and eigenvalues of the covariance matrix.
• Choosing components and forming a feature vector.
• Deriving the new data set.
Step 1. Get some data
Step 2: Subtract the mean
• For PCA to work properly, you have to subtract the mean from each of the data
dimensions.
• The mean subtracted is the average across each dimension.
• This produces a data set whose mean is zero.
3. 3
Step 3: Calculate the covariance matrix
Step 4: Calculate the eigen vectors and eigen values of the covariance matrix
Step 5: Choosing components and forming a feature vector
• Given our example set of data, and the fact that we have 2 eigenvectors, we have two
choices. We can either form a feature vector with both of the eigenvectors:
• Or, we can choose to leave out the smaller, less significant component and only have a
single column:
Step 6: Deriving the new data set
Data transformed with 2 eigenvectors Data transformed with 1 eigenvectors
4. 4
14.6 Getting The Old Data Back
Row Data Adjust = 𝑹𝒐𝒘 𝑭𝒆𝒂𝒕𝒖𝒓𝒆 𝑽𝒆𝒄𝒕𝒐𝒓−𝟏
x Final Data
Row Data Adjust = 𝑹𝒐𝒘 𝑭𝒆𝒂𝒕𝒖𝒓𝒆 𝑽𝒆𝒄𝒕𝒐𝒓𝑻
x Final Data
Row Original Data = ( 𝑹𝒐𝒘 𝑭𝒆𝒂𝒕𝒖𝒓𝒆 𝑽𝒆𝒄𝒕𝒐𝒓𝑻
x Final Data) + Original Mean
14.7 Kelebihan dan Kekurangan Principal Component Analysis (PCA)
Kelebihan PCA:
1. Reduksi dimensi: PCA dapat mengurangi dimensi data dengan menggabungkan variabel-
variabel yang saling berkorelasi menjadi beberapa komponen utama yang tidak berkorelasi. Ini
membantu mengurangi kompleksitas data dan memungkinkan representasi yang lebih
sederhana.
2. Mempertahankan informasi penting: PCA berusaha mempertahankan sebanyak mungkin
informasi penting dalam dataset saat mengurangi dimensi. Komponen utama yang dipilih
berdasarkan eigen values yang lebih besar umumnya memiliki kontribusi yang lebih besar
terhadap variasi dalam data, sehingga informasi penting dapat dipertahankan.
3. Mengidentifikasi pola: PCA dapat mengungkapkan pola atau struktur yang tersembunyi
dalam dataset. Dengan menganalisis komponen utama, kita dapat memahami hubungan dan
tren dalam data yang mungkin tidak terlihat pada variabel aslinya.
4. Praktis dalam visualisasi: PCA memungkinkan visualisasi data yang lebih baik. Dengan
mengurangi dimensi data ke dua atau tiga komponen utama teratas, kita dapat menggambarkan
data dalam bentuk plot dua atau tiga dimensi yang mudah dipahami.
Kekurangan PCA:
1. Informasi yang hilang: Saat mengurangi dimensi, PCA mengorbankan sebagian informasi
detail dalam dataset. Komponen utama dengan eigenvalues yang lebih kecil mungkin
5. 5
menyumbang sedikit informasi dan dapat diabaikan, tetapi ada kemungkinan kehilangan
informasi yang penting dalam komponen ini.
2. Sensitif terhadap skala: PCA sangat sensitif terhadap perbedaan skala variabel. Jika variabel
memiliki skala yang berbeda, variabel dengan variansi yang lebih besar akan lebih dominan
dalam proses PCA. Oleh karena itu, penting untuk melakukan normalisasi atau standarisasi
variabel sebelum menerapkan PCA.
3. Interpretasi komponen: Komponen utama dalam PCA merupakan kombinasi linear dari
variabel asli, dan sering kali sulit untuk memberikan interpretasi langsung terhadap arti fisik
atau makna variabel tersebut.
4. Tidak efektif untuk data nonlinear: PCA merupakan metode linear dan tidak efektif dalam
mengatasi data yang memiliki hubungan nonlinear. Jika pola dalam data tidak terstruktur secara
linear, PCA mungkin tidak memberikan hasil yang optimal.
Saat menggunakan PCA, penting untuk mempertimbangkan kelebihan dan kekurangan tersebut
dan memahami konteks aplikasi yang spesifik agar dapat membuat keputusan yang tepat.
14.8 Diskusi
Pertanyaan Diskusi
Sebutkan dan jelaskan salah satu contoh penerapan dari Principal Component Analysis (PCA)!
Jawaban:
Salah satu contoh penerapan dari Principal Component Analysis (PCA) adalah analisis data dan
reduksi dimensi. PCA digunakan untuk mengidentifikasi pola yang ada dalam data multi
dimensi dengan cara mentransformasikan variabel asli menjadi kombinasi linear yang disebut
sebagai komponen utama (principal component). Berikut adalah contoh penerapan PCA dalam
analisis data:
Misalkan kita memiliki dataset yang terdiri dari sejumlah variabel yang saling berkorelasi.
Tujuan kita adalah untuk mengurangi dimensi variabel tersebut tanpa kehilangan terlalu banyak
informasi. Dalam hal ini, kita menggunakan PCA atau mengidentifikasi komponen utama yang
memberikan kontribusi paling signifikan terhadap variasi dalam data.
Langkah-langkah dalam penerapan PCA adalah sebagai berikut:
1. Persiapan data: Pertama-tama, kita perlu melakukan pra-pemrosesan data, seperti normalisasi
atau standarisasi variabel jika perlu, untuk memastikan bahwa semua variabel memiliki skala
yang serupa.
2. Membangun matriks korespondensi: Langkah berikutnya adalah membangun matriks
korespondensi (covariance matrix) dari data. Matriks ini mengukur hubungan linear antara
setiap pasangan variabel dalam dataset.
6. 6
3. Menghitung vektor eigen: Setelah itu, kita menghitung vektor eigen (eigenvectors) dan nilai
eigen (eigenvalues) dari matriks korespondensi. Eigenvectors adalah vektor-vektor yang
menunjukkan arah dan nilai-nilai yang berhubungan dengan setiap komponen utama,
sedangkan eigenvalues adalah angka yang menggambarkan variabilitas yang dijelaskan oleh
setiap komponen utama.
4. Memilih komponen utama: Komponen utama dipilih berdasarkan eigenvalues yang lebih
besar, karena eigenvalues yang lebih besar menunjukkan bahwa komponen tersebut memiliki
kontribusi yang lebih besar terhadap variasi dalam data. Dengan memilih subset komponen
utama tertinggi, kita dapat mengurangi dimensi data.
5. Transformasi data: Langkah terakhir adalah mentransformasikan data asli ke dalam ruang
komponen utama yang baru. Dalam ruang ini, setiap observasi dapat direpresentasikan oleh
kombinasi linear dari komponen utama yang dipilih.
Melalui penerapan PCA, kita dapat mengurangi dimensi variabel yang kompleks menjadi
dimensi yang lebih rendah, sambil mempertahankan sebagian besar informasi penting dalam
data. Ini dapat mempermudah analisis dan interpretasi data, serta membantu dalam membangun
model yang lebih efisien dan akurat.
Salah satu penerapan PCA dalam kehidupan sehari-hari adalah dalam pengenalan wajah atau
pengenalan pola. PCA dapat digunakan dalam pengolahan citra untuk mengurangi dimensi fitur
wajah dan membantu dalam pengenalan wajah secara efisien. Dalam konteks ini, PCA dapat
digunakan untuk mengidentifikasi komponen utama atau fitur wajah yang paling berbeda dan
memiliki kontribusi terbesar terhadap variasi dalam dataset wajah. Dengan menggunakan PCA,
dimensi variabel-variabel yang digunakan untuk menggambarkan wajah, seperti piksel
intensitas warna, dapat dikurangi menjadi beberapa komponen utama yang paling signifikan.
Proses penerapan PCA dalam pengenalan wajah umumnya melibatkan langkah-langkah
berikut:
1. Pra-Pemprosesan: Gambar wajah yang digunakan perlu diubah menjadi format yang sesuai
dan diubah ke dalam bentuk vektor. Selain itu, normalisasi gambar atau penyesuaian kontras
dapat diterapkan untuk memastikan konsistensi dalam intensitas piksel.
2. Membangun dataset: Kumpulan data wajah yang representatif dibangun sebagai dataset latih.
Setiap gambar wajah direpresentasikan oleh vektor fitur yang mencakup intensitas piksel.
3. Menghitung matriks korespondensi: Matriks korespondensi atau covariance matrix dihitung
berdasarkan vektor-vektor fitur dari dataset. Matriks ini menggambarkan korelasi antara piksel-
piksel gambar wajah.
4. Menghitung vektor eigen: Melalui perhitungan nilai eigen dan vektor eigen dari matriks
korespondensi, komponen utama yang paling signifikan dalam dataset wajah diidentifikasi.
7. 7
Vektor eigen menunjukkan kombinasi linear dari piksel-piksel gambar wajah yang
berkontribusi terhadap variasi dalam dataset.
5. Seleksi komponen utama: Komponen utama dengan eigenvalues yang lebih besar dipilih
untuk membangun model PCA. Komponen-komponen ini mencakup fitur-fitur wajah yang
paling berbeda dan informatif.
6. Pengenalan wajah: Setelah model PCA terlatih, wajah yang tidak dikenal dapat dikenali
dengan memproyeksikan fitur-fitur wajah baru ke dalam ruang komponen utama yang
terdefinisi sebelumnya. Kemudian, pengenalan wajah dapat dilakukan dengan mengukur jarak
atau kesamaan antara fitur-fitur wajah yang diproyeksikan dengan fitur-fitur wajah yang ada
dalam dataset.
Penerapan PCA dalam pengenalan wajah membantu mengurangi dimensi fitur dan
mempertahankan informasi yang penting dalam representasi wajah. Hal ini memungkinkan
sistem pengenalan wajah untuk menjadi lebih efisien, akurat dan mampu mengatasi variasi
dalam penampilan wajah manusia. Contoh penerapan ini adalah pada aplikasi Facebook.
Gambar 2. Contoh pendeteksi wajah pada media sosial Facebook
Terima kasih
Referensi
1. Syahid Abdullah S.Kom., M. (2023, Juli 13). Machine Learning. Diambil kembali dari Edlink
UniversitasSiberAsia:https://api.edlink.id/api/v1.4/media/download/eyJpdiI6IjZyaHQwRUhSTHl4
dkFDak5LY0J6N3c9PSIsInZhbHVlIjoiMk14TzBkeCtNTVd5cVlheFZ5OGJEUT09IiwibWFjIjoi
Mzg4MTc1NjdmYjRiYTdiZjZlOThjYzE2YzAzM2FjYjM5ZWZiOWYwOTg5M2IzYjU1ZTAxY
Tc3NGVmODZhNzNkZSJ9. Diakses pada 14 Juli 2023.
2. https://chat.openai.com/. Diakses pada 14 Juli 2023.