SlideShare a Scribd company logo
1 of 21
DATA MINING
Sasmitha Handayani Phutri
TI VII.4
DATA MINING
Data Mining adalah Serangkaian proses untuk menggali
nilai tambah berupa informasi yang selama ini tidak
diketahui secara manual dari suatu basisdata dengan
melakukan penggalian pola-pola dari data dengan tujuan
untuk memanipulasi data menjadi informasi yang lebih
berharga yang diperoleh dengan cara mengekstraksi dan
mengenali pola yang penting atau menarik dari data yang
terdapat dalam basisdata.
Metode
Ada 2 metode yang secara umum pada data mining :
 Metode Prediksi
Menggunakan beberapa variabel untuk memprediksi
nilai yang belum diketahui (unknown) atau nilai
selanjutnya (future) atau variabel lain.
 Metode Deskripsi
Mencari suatu pola yang mudah dipahami oleh
manusia yang mendeskripsikan data.
Algoritma Data Mining (DM)
1. Estimation
2. Prediction
3. Classification
4. Clustering
5. Association
1. estimation
Estimasi hampir sama dengan
klasifikasi, kecuali variabel target estimasi
lebih kearah numerik daripada ke arah
kategori.
2. Prediction
Prediksi hampir sama dengan
klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada
dimasa mendatang.
3. Classification
Dalam klasifikasi, terdapat terget
variabel kategori
4. Clustering
 Kluster adalah kumpulan record yang memiliki kemiripan
satu dengan yang lainnya dan tidak memiliki kemiripan
dengan record-record dalam kluster lain.
5. Association
Tugas asosiasi dalam data mining
adalah menemukan atribut yang muncul
dalam satu waktu.
Algoritma Data Mining (DM)
1. Estimation (Estimasi):
◦ Linear Regression, Neural Network, Support Vector
Machine, etc
2. Prediction/Forecasting
(Prediksi/Peramalan):
◦ Linear Regression, Neural Network, Support Vector
Machine, etc
3. Classification (Klasifikasi):
◦ Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear
Discriminant Analysis, Logistic Regression, etc
4. Clustering (Klastering):
◦ K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy
C-Means, etc
5. Association (Asosiasi):
◦ FP-Growth, A Priori, etc
Pengukuran Dari beberapa Metode
 Neural networks (jaringan syaraf tiruan)
Ini adalah salah satu diantara teknik-teknik dalam
‘machine-learning’ yang paling popular yang bisa
digunakan untuk problem-problem klasifikasi.
 Decision tree (pohon keputusan)
Decision tree membagi ‘training set’ (data pelatihan)
secara rekursif hingga masing-masing divisi berisi contoh
dari satu kelas secara keseluruhan.
Istilah-istilah yang berkenan
dengan data mining
 Algorithm - Mengacu kepada prosedur spesifik
yang digunakan untuk menerapkan sebuah
teknik khusus dari data mining, seperti:
clasification tree, discriminant analysis, dll.
 Confidence - Confidence mempunyai arti
khusus didalam Association Rule, misalnya di
dalam pernyataan "Apabila A dan B dibeli, maka
C juga dibeli" maka, Confidence adalah kondisi
kemungkinan C juga di beli apabila A dan B
dibeli. Confidence juga memiliki arti yang lebih
luas didalam statistik (Confidence Interval),
mengenai derajat dari kesalahan didalam sebuah
estimasi yang dihasilkan dari pemilihan sebuah
sample sebagai lawan dari sample lainnya.
 Holdout Sample - Adalah sebuah sample
dari data yang tidak digunakan didalam
fitting sebuah model, digunakan untuk
menilai performa dari model tersebut.
 Model - Mengacu kepada sebuah
algoritma yang diterakan kepada sebuah
dataset, lengkap dengan settingnya
(beberapa algoritma mempunyai
parameter yang dapat disesuaikan
oleh user)
 Observation - Adalah sebuah unit dari
analisis dimana sebuah pengukuran di
ambil (misal; transaksi dari customer)
juga dikenal sebagai case, record, pattern
atau row (setiap row seringkali
merepresentasikan sebuah record setiap
kolom adalah satu variabel).
 Logistic Regression (Regresi Logistic)
Merupakan salah satu analisa multivariate, yang berguna untuk memprediksi
dependent variabel berdasarkan variabel independen. Pada logistic regresi,
dependen variabel adalah variabel dikotomi (kategori). Ketika kategori
variabel dependennya berjumlah dua maka digunakan binary logistic dan
ketika dependen variabelnya lebih dari dua kategori maka digunakan
multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk
rangking, maka disebut dengan ordinal logistic regression.
 Support Vector Machine (SVM)
metode learning machine yang bekerja atas prinsip Structural
Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang
memisahkan dua buah class pada input space.
 K-Means
Suatu metode penganalisaan data atau metode Data
Mining yang melakukan proses pemodelan tanpa supervisi
(unsupervised) dan merupakan salah satu metode yang
melakukan pengelompokan data dengan sistem partisi.
 K-Nearest Neighbor (k-NN atau KNN)
Sebuah metode untuk melakukan klasifikasi terhadap
objek berdasarkan data pembelajaran yang jaraknya
paling dekat dengan objek tersebut.
 Self-Organizing Map (SOM)
salah satu metode ANN (Artificial Neural Network) yang termasuk ke dalam
unsupervised learning atau pelatihan tidak terbimbing, yaitu pelatihan yang
tidak membutuhkan vektor target untuk menghasilkan keluaran, hanya terdiri
dari vektor-vektor masukan sebagai pengubah bobot jaringan untuk
menghasilkan pola vektor.
 Linear Regression
sebuah data statistik yang dapat memprediksikan suatu harga kedepan dari
data masa lalu, biasanya digunakan dimana saat pergerakan harga sedang
mengalami kenaikan maupun penurunan yang sangat signifikan.
 Naïve Bayes
Sebuah metode information retrieval yang menggunakan
pendekatan probabilistik dalam menginferensi, yakni berbasis
pada teorema Bayes secara umum. Aplikasinya yang paling
banyak digunakan yaitu untuk klasifikasi teks. Arti kata
“naive” di sini adalah metode Naive Bayes mengasumsikan
bahwa probabilitas kemunculan sebuah kata independen
terhadap posisinya di dalam teks.
 FP-Growth
Bagian dari teknik asosiasi pada data mining. FP-Growth salah
satu altenatif algoritma yang dapat digunakan untuk
menentukan himpunan data yang paling sering muncul (frequent
itemset) dalam sekumpulan data.
Istilah-istilah pada Data Mining
 Pattern - Adalah sebuah seperangkat pengukuran
pada sebuah observasi atau pengamatan.(misal:
tinggi, berat, dan umur dari seseorang)
 Prediction - Berarti ramalan dalam sebuah nilai yang
didapat dari output variabel yang terus menerus
(Juga dikenal sebagai estimation).
 Predictor - Biasanya di notasikan dengan X juga
disebut dengan Feature, Input Variable, Independent
Variable, atau dari perspektif database, predictor
disebut dengan field.
 Response - Biasanya dinotasikan dengan Y, adalah
variabel yang sedang diramalkan pada supervised
learning; juga dikenal dengan dependent variable,
output variable, target variable, atau outcome
variable.
 Score - mengacu kepada value atau class yang di prediksi.
Scoring new data berarti menggunakan sebuah model yang
dibangun dengan training data untuk memprediksi output
value di data yang baru.
 Success Class - Adalah sebuah class of interest pada
sebuah hasil binary (misal: purchaser didalam outcome
purchase / no purchase)
 Supervised learning - Mengacu kepada proses dalam
penyediaan algoritma (logistic regression, regression tree,
dll) dengan record didalam sebuah output variable of
interest yang diketahui dan algoritma belajar bagaimana
memprediksi nilai dengan record baru dimana outputnya
tidak diketahui.
 Test Data (atau Test Set) - Mengacu kepada porsi dari
data yang digunakan hanya pada akhir dari
pembangunan model dan proses seleksi untuk menaksir
seberapa bagus final model pada penambahan data.T
 Training Data (atau Training Set) - Mengacu kepada porsi
dari data yang digunakan untuk mencocokan sebuah model.
 Unsupervised Learning - Mengacu kepada analisa tentang
analisis mana yang melakukan percobaan untuk mempelajari
sesuatu dari data daripada mencari nilai outputnya.
 Validation data (atau validation set) - Mengacu kepada
porsi dari data yang digunakan untuk menilai seberapa baik
model itu cocok, untuk menyesuaikan beberapa model, dan
untuk memilih model terbaik dari model-model yang pernah
dicoba.
 Variable - Segala pengukuran pada record, termasuk variable
input (X) dan variable Output (Y).

More Related Content

What's hot

Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian dataKacung Abdullah
 
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...Koltiva
 
ppt statistik kel 1..pptx
ppt statistik kel 1..pptxppt statistik kel 1..pptx
ppt statistik kel 1..pptxOstarionKing
 
PPT ANALISIS DATA SURVEI
PPT ANALISIS DATA SURVEIPPT ANALISIS DATA SURVEI
PPT ANALISIS DATA SURVEIDarliana Darwis
 
Algoritma dan Struktur Data - Sorting beserta Metode nya
Algoritma dan Struktur Data - Sorting beserta Metode nya Algoritma dan Struktur Data - Sorting beserta Metode nya
Algoritma dan Struktur Data - Sorting beserta Metode nya Muhammad abbie
 
Jurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantungJurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantungAndy Murtanto
 
Data kualitatif adalah data yang berbentuk kata
Data kualitatif adalah data yang berbentuk kataData kualitatif adalah data yang berbentuk kata
Data kualitatif adalah data yang berbentuk kataAshly Gon
 
1112050_PUTRA CHRISTIANTO PURBA_JURNAL TUGAS AKHIR
1112050_PUTRA CHRISTIANTO PURBA_JURNAL TUGAS AKHIR1112050_PUTRA CHRISTIANTO PURBA_JURNAL TUGAS AKHIR
1112050_PUTRA CHRISTIANTO PURBA_JURNAL TUGAS AKHIRPutra Christianto Purba
 
Analisa data dan interpretasi
Analisa data dan interpretasiAnalisa data dan interpretasi
Analisa data dan interpretasiFitri Ciptosari
 

What's hot (18)

Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian data
 
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...
Analisa klasifikasi biaya pasien rawat inap menggunakan teknik data mining at...
 
ppt statistik kel 1..pptx
ppt statistik kel 1..pptxppt statistik kel 1..pptx
ppt statistik kel 1..pptx
 
PPT ANALISIS DATA SURVEI
PPT ANALISIS DATA SURVEIPPT ANALISIS DATA SURVEI
PPT ANALISIS DATA SURVEI
 
Statistik.xlsx
Statistik.xlsxStatistik.xlsx
Statistik.xlsx
 
4.2. METODOLOGI PENELITIAN - ANALISIS DATA
4.2. METODOLOGI PENELITIAN - ANALISIS DATA4.2. METODOLOGI PENELITIAN - ANALISIS DATA
4.2. METODOLOGI PENELITIAN - ANALISIS DATA
 
Algoritma dan Struktur Data - Sorting beserta Metode nya
Algoritma dan Struktur Data - Sorting beserta Metode nya Algoritma dan Struktur Data - Sorting beserta Metode nya
Algoritma dan Struktur Data - Sorting beserta Metode nya
 
Data mining
Data miningData mining
Data mining
 
Kelompok 2
Kelompok 2Kelompok 2
Kelompok 2
 
Jurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantungJurnal biaya pasien rawat inap penyakit jantung
Jurnal biaya pasien rawat inap penyakit jantung
 
1. klasifikasi dan evaluasi
1. klasifikasi dan evaluasi1. klasifikasi dan evaluasi
1. klasifikasi dan evaluasi
 
Data kualitatif adalah data yang berbentuk kata
Data kualitatif adalah data yang berbentuk kataData kualitatif adalah data yang berbentuk kata
Data kualitatif adalah data yang berbentuk kata
 
10
1010
10
 
Analisis data dan interpretasi 2
Analisis data dan interpretasi 2Analisis data dan interpretasi 2
Analisis data dan interpretasi 2
 
15749 5 pengelompokkan data mining
15749 5 pengelompokkan data mining15749 5 pengelompokkan data mining
15749 5 pengelompokkan data mining
 
Analisis data deskriptif
Analisis data deskriptifAnalisis data deskriptif
Analisis data deskriptif
 
1112050_PUTRA CHRISTIANTO PURBA_JURNAL TUGAS AKHIR
1112050_PUTRA CHRISTIANTO PURBA_JURNAL TUGAS AKHIR1112050_PUTRA CHRISTIANTO PURBA_JURNAL TUGAS AKHIR
1112050_PUTRA CHRISTIANTO PURBA_JURNAL TUGAS AKHIR
 
Analisa data dan interpretasi
Analisa data dan interpretasiAnalisa data dan interpretasi
Analisa data dan interpretasi
 

Similar to fuzzyShp

Pertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxPertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxArwansyahDipanegara
 
APPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningDEDE IRYAWAN
 
ppt metopen kel 09.pptx
ppt metopen kel 09.pptxppt metopen kel 09.pptx
ppt metopen kel 09.pptxRahmaNatasyah
 
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriAndika Dwi Hadiri
 
Pertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptxPertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptxFennyRahmayani
 
Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Elvi Rahmi
 
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...pmgdscunsri
 
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptxTUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptxSangrian1
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfRinnaRachmatika2
 
Data Mining Diskusi 2.pdf
Data Mining Diskusi 2.pdfData Mining Diskusi 2.pdf
Data Mining Diskusi 2.pdfHendroGunawan8
 
Tm aljabar linear matriks
Tm aljabar linear matriksTm aljabar linear matriks
Tm aljabar linear matriksEno Mandala
 
PENGANTAR DATA SCIENCE.pdf
PENGANTAR DATA SCIENCE.pdfPENGANTAR DATA SCIENCE.pdf
PENGANTAR DATA SCIENCE.pdfmelrideswina
 

Similar to fuzzyShp (20)

PPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptx
 
Pertemuan 4.pdf
Pertemuan 4.pdfPertemuan 4.pdf
Pertemuan 4.pdf
 
Pertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxPertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptx
 
APPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data Mining
 
ppt metopen kel 09.pptx
ppt metopen kel 09.pptxppt metopen kel 09.pptx
ppt metopen kel 09.pptx
 
Procceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiriProcceding_KNIT_2_97-102_AndikaDwiHadiri
Procceding_KNIT_2_97-102_AndikaDwiHadiri
 
Pertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptxPertemuan 10 - Metodologi Data Science - Copy.pptx
Pertemuan 10 - Metodologi Data Science - Copy.pptx
 
Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes
 
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
Linear Regression, Classification and Data Time Series - Day 2 Study Jams GDS...
 
ML.docx
ML.docxML.docx
ML.docx
 
ML.docx
ML.docxML.docx
ML.docx
 
093-P01.pdf
093-P01.pdf093-P01.pdf
093-P01.pdf
 
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptxTUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
TUGAS 1 KEL 4 SISTEM LOGISTIK.pptx
 
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdfDM-01-Pengantar-Perkuliahan-Data-mining.pdf
DM-01-Pengantar-Perkuliahan-Data-mining.pdf
 
LN s10-machine vision-s2
LN s10-machine vision-s2LN s10-machine vision-s2
LN s10-machine vision-s2
 
Data Mining Diskusi 2.pdf
Data Mining Diskusi 2.pdfData Mining Diskusi 2.pdf
Data Mining Diskusi 2.pdf
 
Tm aljabar linear matriks
Tm aljabar linear matriksTm aljabar linear matriks
Tm aljabar linear matriks
 
Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
 
PENGANTAR DATA SCIENCE.pdf
PENGANTAR DATA SCIENCE.pdfPENGANTAR DATA SCIENCE.pdf
PENGANTAR DATA SCIENCE.pdf
 
26813 9 arsitektur data mining
26813 9 arsitektur data mining26813 9 arsitektur data mining
26813 9 arsitektur data mining
 

fuzzyShp

  • 2. DATA MINING Data Mining adalah Serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.
  • 3. Metode Ada 2 metode yang secara umum pada data mining :  Metode Prediksi Menggunakan beberapa variabel untuk memprediksi nilai yang belum diketahui (unknown) atau nilai selanjutnya (future) atau variabel lain.  Metode Deskripsi Mencari suatu pola yang mudah dipahami oleh manusia yang mendeskripsikan data.
  • 4. Algoritma Data Mining (DM) 1. Estimation 2. Prediction 3. Classification 4. Clustering 5. Association
  • 5. 1. estimation Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih kearah numerik daripada ke arah kategori.
  • 6. 2. Prediction Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada dimasa mendatang.
  • 7. 3. Classification Dalam klasifikasi, terdapat terget variabel kategori
  • 8. 4. Clustering  Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan tidak memiliki kemiripan dengan record-record dalam kluster lain.
  • 9. 5. Association Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu.
  • 10. Algoritma Data Mining (DM) 1. Estimation (Estimasi): ◦ Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan): ◦ Linear Regression, Neural Network, Support Vector Machine, etc 3. Classification (Klasifikasi): ◦ Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc 4. Clustering (Klastering): ◦ K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc 5. Association (Asosiasi): ◦ FP-Growth, A Priori, etc
  • 11. Pengukuran Dari beberapa Metode  Neural networks (jaringan syaraf tiruan) Ini adalah salah satu diantara teknik-teknik dalam ‘machine-learning’ yang paling popular yang bisa digunakan untuk problem-problem klasifikasi.  Decision tree (pohon keputusan) Decision tree membagi ‘training set’ (data pelatihan) secara rekursif hingga masing-masing divisi berisi contoh dari satu kelas secara keseluruhan.
  • 12. Istilah-istilah yang berkenan dengan data mining  Algorithm - Mengacu kepada prosedur spesifik yang digunakan untuk menerapkan sebuah teknik khusus dari data mining, seperti: clasification tree, discriminant analysis, dll.  Confidence - Confidence mempunyai arti khusus didalam Association Rule, misalnya di dalam pernyataan "Apabila A dan B dibeli, maka C juga dibeli" maka, Confidence adalah kondisi kemungkinan C juga di beli apabila A dan B dibeli. Confidence juga memiliki arti yang lebih luas didalam statistik (Confidence Interval), mengenai derajat dari kesalahan didalam sebuah estimasi yang dihasilkan dari pemilihan sebuah sample sebagai lawan dari sample lainnya.
  • 13.  Holdout Sample - Adalah sebuah sample dari data yang tidak digunakan didalam fitting sebuah model, digunakan untuk menilai performa dari model tersebut.  Model - Mengacu kepada sebuah algoritma yang diterakan kepada sebuah dataset, lengkap dengan settingnya (beberapa algoritma mempunyai parameter yang dapat disesuaikan oleh user)
  • 14.  Observation - Adalah sebuah unit dari analisis dimana sebuah pengukuran di ambil (misal; transaksi dari customer) juga dikenal sebagai case, record, pattern atau row (setiap row seringkali merepresentasikan sebuah record setiap kolom adalah satu variabel).
  • 15.  Logistic Regression (Regresi Logistic) Merupakan salah satu analisa multivariate, yang berguna untuk memprediksi dependent variabel berdasarkan variabel independen. Pada logistic regresi, dependen variabel adalah variabel dikotomi (kategori). Ketika kategori variabel dependennya berjumlah dua maka digunakan binary logistic dan ketika dependen variabelnya lebih dari dua kategori maka digunakan multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk rangking, maka disebut dengan ordinal logistic regression.  Support Vector Machine (SVM) metode learning machine yang bekerja atas prinsip Structural Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada input space.
  • 16.  K-Means Suatu metode penganalisaan data atau metode Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.  K-Nearest Neighbor (k-NN atau KNN) Sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut.
  • 17.  Self-Organizing Map (SOM) salah satu metode ANN (Artificial Neural Network) yang termasuk ke dalam unsupervised learning atau pelatihan tidak terbimbing, yaitu pelatihan yang tidak membutuhkan vektor target untuk menghasilkan keluaran, hanya terdiri dari vektor-vektor masukan sebagai pengubah bobot jaringan untuk menghasilkan pola vektor.  Linear Regression sebuah data statistik yang dapat memprediksikan suatu harga kedepan dari data masa lalu, biasanya digunakan dimana saat pergerakan harga sedang mengalami kenaikan maupun penurunan yang sangat signifikan.
  • 18.  Naïve Bayes Sebuah metode information retrieval yang menggunakan pendekatan probabilistik dalam menginferensi, yakni berbasis pada teorema Bayes secara umum. Aplikasinya yang paling banyak digunakan yaitu untuk klasifikasi teks. Arti kata “naive” di sini adalah metode Naive Bayes mengasumsikan bahwa probabilitas kemunculan sebuah kata independen terhadap posisinya di dalam teks.  FP-Growth Bagian dari teknik asosiasi pada data mining. FP-Growth salah satu altenatif algoritma yang dapat digunakan untuk menentukan himpunan data yang paling sering muncul (frequent itemset) dalam sekumpulan data.
  • 19. Istilah-istilah pada Data Mining  Pattern - Adalah sebuah seperangkat pengukuran pada sebuah observasi atau pengamatan.(misal: tinggi, berat, dan umur dari seseorang)  Prediction - Berarti ramalan dalam sebuah nilai yang didapat dari output variabel yang terus menerus (Juga dikenal sebagai estimation).  Predictor - Biasanya di notasikan dengan X juga disebut dengan Feature, Input Variable, Independent Variable, atau dari perspektif database, predictor disebut dengan field.  Response - Biasanya dinotasikan dengan Y, adalah variabel yang sedang diramalkan pada supervised learning; juga dikenal dengan dependent variable, output variable, target variable, atau outcome variable.
  • 20.  Score - mengacu kepada value atau class yang di prediksi. Scoring new data berarti menggunakan sebuah model yang dibangun dengan training data untuk memprediksi output value di data yang baru.  Success Class - Adalah sebuah class of interest pada sebuah hasil binary (misal: purchaser didalam outcome purchase / no purchase)  Supervised learning - Mengacu kepada proses dalam penyediaan algoritma (logistic regression, regression tree, dll) dengan record didalam sebuah output variable of interest yang diketahui dan algoritma belajar bagaimana memprediksi nilai dengan record baru dimana outputnya tidak diketahui.  Test Data (atau Test Set) - Mengacu kepada porsi dari data yang digunakan hanya pada akhir dari
  • 21. pembangunan model dan proses seleksi untuk menaksir seberapa bagus final model pada penambahan data.T  Training Data (atau Training Set) - Mengacu kepada porsi dari data yang digunakan untuk mencocokan sebuah model.  Unsupervised Learning - Mengacu kepada analisa tentang analisis mana yang melakukan percobaan untuk mempelajari sesuatu dari data daripada mencari nilai outputnya.  Validation data (atau validation set) - Mengacu kepada porsi dari data yang digunakan untuk menilai seberapa baik model itu cocok, untuk menyesuaikan beberapa model, dan untuk memilih model terbaik dari model-model yang pernah dicoba.  Variable - Segala pengukuran pada record, termasuk variable input (X) dan variable Output (Y).