2. Tentang Saya
• Irwansyah Saputra
• Dosen Ilmu Komputer
• Mahasiswa S3 Ilmu Komputer IPB University
• Bidang Kajian: Computational Intelligence &
Optimization (Data mining, machine
learning, artificial intelligence)
Halo semuanya, saya suka belajar tentang
segala hal dan suka berbagi pengetahuan. Saya
juga sering menjadi pembicara di berbagai
seminar.
Kontak yang bisa dihubungi:
WhatsApp: 0895323302241
Instagram: @irwansight_
Web: https://irw.one
3. Disclaimer
Materi ini digunakan sebagai bahan ajar Program Data Mining di
Multinity.id
Silakan gunakan, mohon untuk tidak mengubah template.
Jika Anda memiliki kesulitan dalam memahami materi pada slide
ini, silakan belajar di Multinity.id
4. Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third
Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning
Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and
Business Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining,
John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer,
2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook
Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining
of Enterprise Data: Algorithms and Applications, World Scientific, 2007
9. Suyanto, DATA MINING: Untuk klasifikasi dan klasterisasi data, Penerbit
Informatika, 2017
5. Euclidian Distance
• Teknik pengukuran jarak Euclidian Distance merupakan teknik yang
sangat populer digunakan untuk atribut dengan tipe data numerik.
• Rumus:
𝑑 𝑃, 𝑄 = 𝑃𝑖 − 𝑄𝑖 0 =
𝑖=1
𝑛
𝑝𝑖 − 𝑞𝑖
2
= 𝑝1 − 𝑞1
2 + 𝑝2 − 𝑞2
2 + ⋯ + 𝑝𝑛 − 𝑞𝑛
2
Keterangan:
P, Q : Tupel dari tiap atribut yang akan dihitung
6. Euclidian Distance
• Teknik euclidian distance memiliki cara kerja dengan mencari jarak
terpendek antar dua objek tanpa melihat rintangan pada jalur yang
dilaluinya.
• Euclidian distance tidak dapat memberi informasi jarak terpendek
dalam dunia penerbangan karena (dunia penerbangan) mengikuti
kelengkungan bumi.
7. Manhattan Distance
• Teknik ini sedikit kalah populer dengan euclidian distance, namun penting
untuk dibahas karena memiliki pendekatan yang berbeda.
• Secara fungsi, manhattan distance juga dapat digunakan untuk tugas
klasifikasi, klaster, pengolahan citra dan kasus lainnya.
• Cara kerja manhattan berbeda dengan teknik sebelumnya, karena ia berjalan
pada grid, tidak menerobos rintangan seperti euclidian.
• Rumusnya
𝑑 𝑃, 𝑄 = 𝑃𝑖 − 𝑄𝑖 0 = 𝑝𝑖 − 𝑞𝑖
2
Keterangan:
P, Q : Tupel dari tiap atribut yang akan dihitung
8. Manhattan Distance
• Manhattan lebih cepat dalam proses komputasi dan dapat digunakan untuk
menghitung jarak antar lokasi titik pada peta, karena jalan raya memiliki
jalurnya tersendiri dan terdapat penghalang seperti gedung atau objek lain.
• Sehingga, sangat tidak mungkin jika perhitungan jarak antar lokasi nyata ini
menggunakan euclidian distance.
9. Chebyshev Distance
• Berbeda dengan kedua teknik pengukuran jarak sebelumnya, Chebyshev
distance didefinisikan sebagai perbedaan terbesar antara dua vektor di
sepanjang dimensi koordinat apa pun.
• Maksudnya, teknik ini hanyalah jarak maksimum dari suatu sumbu.
𝑑 𝑃, 𝑄 = max 𝑃 − 𝑄 = 𝑚𝑎𝑥 𝑝𝑖 − 𝑞𝑖
• Pada rumus tersebut kita bisa melihat bahwa cara kerja Chebyshev distance
adalah mencari selisih maksimum di antara kedua vektor.
• Selisih tersebut kemudian diabsolutkan untuk mencegah terjadinya minus.
Karena tidak mungkin ada jarak yang minus dalam kehidupan nyata.
10. Chebyshev Distance
• Agar lebih memahami tentang ini, kita bisa
gunakan gerakan raja pada permainan catur.
• Misalnya raja ingin berjalan mencapai titik
lingkaran.
• Ada berbagai kemungkinan cara
melangkahnya, namun di sini kita gunakan dua
pilihan saja agar lebih mudah dipahami, yaitu
jalur kanan dan jalur kiri.
• Jika kita melihat dengan baik, jalur kanan
memiliki langkah lebih cepat dari yang kiri
karena hanya 4 langkah saja, raja sudah
sampai tujuan.
• Berbeda dengan yang kiri, raja membutuhkan
6 langkah untuk menuju ke tujuan.
4
2
11. Cosine Similarity
• Teknik cosine similarity biasanya digunakan untuk mengatasi data yang
berdimensi tinggi seperti data teks.
• cosine similarity mengabaikan nilai dari suatu vektor, yang akan dihitung
adalah arahnya saja.
• Misalnya pada kata “baik” dan “jahat”. Kedua kata tersebut akan dinilai 1 oleh
cosine similarity.
• Rumus:
𝐷 𝑥, 𝑦 = cos 𝜃 =
𝑥. 𝑦
𝑥 𝑦
12. Cosine Similarity
• Untuk memahami lebih dalam terkait teknik cosine similarity, kita akan
menggunakan contoh dua dokumen sebagai berikut:
• D1 : “Kerja Kerja Kerja Typus”
• D2 : “Typus Typus Kerja Kerja”
• Kita anggap “Kerja” menjadi sumbu x, sedangkan “Typus” menjadi sumbu y. Maka
kita akan mendapatkan vektor A (3,1), vektor B (2,2). Langkah perhitungannya
menjadi:
cos 𝜃 =
𝑥. 𝑦
𝑥 𝑦
=
𝑥1𝑦1 + 𝑥2𝑦2
𝑥1
2
+ 𝑥2
2
. 𝑦1
2
+ 𝑦2
2
=
3.2 + 1.2
32 + 12 . 22 + 22
=
8
10 . 8
= 0.894
13. Cosine Similarity
• Berdasarkan hasil tersebut berarti dokumen A dan dokumen B memiliki
kemiripan yang dekat.
• Namun nilai tersebut tidak bisa kita ubah ke dalam persen, misalnya menjadi
89,4% dan mengatakan bahwa kemiripan dua dokumen tersebut adalah
sebesar 89,4%.
• Jika kita ingin melihat seberapa dekat kedua dokumen tersebut dalam bentuk
visual, maka ubah saja hasil 0,894 ke bentuk sudut cosinus, maka akan
didapatkan sudut sebesar 26.619729544329°. Hasilnya:
A
B
26°