SlideShare a Scribd company logo
1 of 25
Pertemuan 2 & 3
Penerapan Konsep & Evaluasi
Agenda
• Review & Pertanyaan di Slack
• Penerapan Konsep Supervised Machine Learning (full-coding)
• Hands-on feature engineering
• Intuisi dasar, step-by-step nya
• Algoritma -> Python program
• Studi Kasus
• Production-grade machine learning, dengan spark + hdfs
• Final project Evaluasi
Review & Pertanyaan di Slack
• Model Machine Learning
• Classification VS Clustering
Model itu gimana?
Input Output
Training Data
Algoritma
Machine Learning
Model
Input ?
Data Baru
Model Output
Contoh Model Logistic Regression
𝐿 𝑤; 𝑥, 𝑦 ≔ log(1 + 𝑒−𝑦𝑊 𝑇 𝑥)
𝑓 𝑤 ≔ 𝜆𝑅 𝑤 +
1
𝑛
𝑖=1
𝑛
𝐿(𝑤; 𝑥𝑖, 𝑦𝑖)
𝑥𝑖 ∈ ℝ 𝑑, 0 < 𝑖 ≤ 𝑛, 𝑦𝑖 ∈ ℝ
Tujuan: 𝑚𝑖𝑛 𝑤∈ℝ 𝑑 𝑓(𝑤)
𝑤 Weight vector
𝑥𝑖 Training data
𝑦𝑖 Class training data
𝜆𝑅 𝑤 Regulasi
𝑓 𝑤 Fungsi tujuan
𝐿 𝑤; 𝑥, 𝑦 Fungsi kerugian
Visualisasi Model Logistic Regression 4 class
Classification VS Clustering
Classification Clustering
Class data Sudah di ketahui Belum di Ketahui
Training data Ada Tidak ada
Metode Supervised Unsupervised
Tujuan Menentukan data baru masuk class
yang mana
Menemukan pola dan relasi antar
data
Studi Kasus: Lestari
Lestari akan kita latih untuk bisa membantu Pak Jokowi, Presiden
Indonesia, menganalisa respon publik.
https://artificialintelligence.id/model-machine-learning-untuk-
membantu-pak-presiden-jokowi-menganalisa-respon-publik-
63cc89a098ed
Masih Ingat?
Input Output
Training Data
Algoritma
Machine Learning
Model
Input ?
Data Baru
Model Output
Training Data
Input Output
Training Data
Input:
Respon masyarakat di facebook
Output:
Jenis responnya
• -1 = spam
• 0 = netral
• 1 = berisi harapan,
pembelaan, usulan
• 2 = meminta kejelasan, aduan
Algoritma & Model
Algoritma
Machine Learning
Model
• Logistic Regression
• Decision Trees
• Random Forests
• Naïve-Bayes
Tujuan Akhir
Input ?
Data Baru
Model Output
Intuisi:
Ada respon baru masuk. Apakah response tersebut berisi
pembelaan/harapan terhadap pak Jokowi, spam, atau malah
mengadukan sesuatu ke pak Jokowi ya?
Feature Engineering
• Intuisi:
Bagaimana cara mesin bisa membedakan dan mencari kesamaan
sebuah dokumen teks?
Pakai Vektor! (demo via matlab)
• Tujuan: Merepresentasikan input/training data untuk bisa digunakan
oleh algoritma Machine Learning
Feature Engineering
• Macam Macam Representasi:
• Bag of words (en.m.wikipedia.org/wiki/Bag-of-words_model)
• TF-IDF (www.tfidf.com)
• Demo dengan simple teks!
• Kata kunci:
• Corpus: kumpulan Document
• Document: Satu dokumen teks (satu komentar)
• Term: Satu kata dalam sebuah Document
Feature Engineering: Bag of words
• Corpus:
• “Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan
kasi ampun.....sanksi keras akan membuat mereka jera!”
• “Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin
ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu..
Amiin”
Feature Engineering: Bag of words
• Dictionary:
• mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan,
kasi, ampun, sanksi, keras, akan, membuat, mereka, jera, insya, alloh,
indonesia, di, sgani, dan, menjadi, macan, asia, kalau, pemimpin, ny, sprti,
bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin
• Representasi corpus:
• [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0]
• [0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1]
Feature Engineering: TF-IDF
• Corpus:
• “Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan
kasi ampun.....sanksi keras akan membuat mereka jera!”
• “Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin
ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu..
Amiin”
Feature Engineering: TF-IDF
• Dictionary:
• mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan, kasi, ampun, sanksi,
keras, akan, membuat, mereka, jera, insya, alloh, indonesia, di, sgani, dan, menjadi, macan, asia,
kalau, pemimpin, ny, sprti, bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin
• Representasi corpus:
• [0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474,
0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474,
0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474,
0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474,
0.03850817669777474, 0.03850817669777474, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0]
• [0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0.026659506944613283,
0.053319013889226566, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283,
0.026659506944613283, 0.026659506944613283, 0.026659506944613283]
Feature Engineering
(
0
0.095
⋮
0.227
0
0.111
⋮
⋮
0.657
⋮
, 1)(“bravo pak jokowi! klo ….”, “usulan”)
Feature Engineering (catatan tambahan)
• Representasi data yang populer adalah LIBSVM format
label index1:value1 index2:value2 ...
1 1:0.0953796017474 4:0.227945493411 ...
2 27:0.111566195021 16:0.178174397043 ...
• Index: Index kata di dalam global dictionary
• Value: Nilai Frekeunsi kata (Bag of Words)/TF-IDF
Feature Engineering
label index1:value1 index2:value2 ...
1. Membuat global dictionary
• Dari semua dokumen di korpus
• Sebagai data index tiap kata
2. Merepresentasikan dokumen sebagai vektor
• Index dari global dictionary
• Mencari nilai TF-IDF tiap kata sebagai Value
Feature Engineering
Waktunya Praktek!
Data: data_3k_comments.csv
Output: tf-idf
ML in Production notes:
• Banyaknya data yang kita proses kita perlu framework untuk
mempercepat proses analisa
• Solusi: Hadoop MapReduce, Spark
• Dengan data yang banyak kita perlu storage engine yang scalable
• Solusi: HDFS
Hands-on: Spark + HDFS
Distributed File System
Evaluasi
• Metrics yang penting:
• Precision
• Recall
• F1-score

More Related Content

Recently uploaded

Prakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptx
Prakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptxPrakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptx
Prakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptxSyaimarChandra1
 
PPT Materi Jenis - Jenis Alat Pembayaran Tunai dan Non-tunai.pptx
PPT Materi Jenis - Jenis Alat Pembayaran Tunai dan Non-tunai.pptxPPT Materi Jenis - Jenis Alat Pembayaran Tunai dan Non-tunai.pptx
PPT Materi Jenis - Jenis Alat Pembayaran Tunai dan Non-tunai.pptxHeruFebrianto3
 
Karakteristik Negara Brazil, Geografi Regional Dunia
Karakteristik Negara Brazil, Geografi Regional DuniaKarakteristik Negara Brazil, Geografi Regional Dunia
Karakteristik Negara Brazil, Geografi Regional DuniaNadia Putri Ayu
 
PEMIKIRAN POLITIK Jean Jacques Rousseau.pdf
PEMIKIRAN POLITIK Jean Jacques  Rousseau.pdfPEMIKIRAN POLITIK Jean Jacques  Rousseau.pdf
PEMIKIRAN POLITIK Jean Jacques Rousseau.pdfMMeizaFachri
 
Materi Pertemuan Materi Pertemuan 7.pptx
Materi Pertemuan Materi Pertemuan 7.pptxMateri Pertemuan Materi Pertemuan 7.pptx
Materi Pertemuan Materi Pertemuan 7.pptxRezaWahyuni6
 
PPT_AKUNTANSI_PAJAK_ATAS_ASET_TETAP.pptx
PPT_AKUNTANSI_PAJAK_ATAS_ASET_TETAP.pptxPPT_AKUNTANSI_PAJAK_ATAS_ASET_TETAP.pptx
PPT_AKUNTANSI_PAJAK_ATAS_ASET_TETAP.pptxalalfardilah
 
Kelompok 4 : Karakteristik Negara Inggris
Kelompok 4 : Karakteristik Negara InggrisKelompok 4 : Karakteristik Negara Inggris
Kelompok 4 : Karakteristik Negara InggrisNazla aulia
 
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxAKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxWirionSembiring2
 
Wawasan Nusantara sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
Wawasan Nusantara  sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...Wawasan Nusantara  sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
Wawasan Nusantara sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...MarwanAnugrah
 
MODUL 2 BAHASA INDONESIA-KELOMPOK 1.pptx
MODUL 2 BAHASA INDONESIA-KELOMPOK 1.pptxMODUL 2 BAHASA INDONESIA-KELOMPOK 1.pptx
MODUL 2 BAHASA INDONESIA-KELOMPOK 1.pptxarnisariningsih98
 
Kelompok 2 Karakteristik Negara Nigeria.pdf
Kelompok 2 Karakteristik Negara Nigeria.pdfKelompok 2 Karakteristik Negara Nigeria.pdf
Kelompok 2 Karakteristik Negara Nigeria.pdftsaniasalftn18
 
Karakteristik Negara Mesir (Geografi Regional Dunia)
Karakteristik Negara Mesir (Geografi Regional Dunia)Karakteristik Negara Mesir (Geografi Regional Dunia)
Karakteristik Negara Mesir (Geografi Regional Dunia)3HerisaSintia
 
Petunjuk Teknis Aplikasi Pelaksanaan OSNK 2024
Petunjuk Teknis Aplikasi Pelaksanaan OSNK 2024Petunjuk Teknis Aplikasi Pelaksanaan OSNK 2024
Petunjuk Teknis Aplikasi Pelaksanaan OSNK 2024budimoko2
 
DESAIN MEDIA PEMBELAJARAN BAHASA INDONESIA BERBASIS DIGITAL.pptx
DESAIN MEDIA PEMBELAJARAN BAHASA INDONESIA BERBASIS DIGITAL.pptxDESAIN MEDIA PEMBELAJARAN BAHASA INDONESIA BERBASIS DIGITAL.pptx
DESAIN MEDIA PEMBELAJARAN BAHASA INDONESIA BERBASIS DIGITAL.pptxFuzaAnggriana
 
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdfAKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdfTaqdirAlfiandi1
 
Modul 1.2.a.8 Koneksi antar materi 1.2.pdf
Modul 1.2.a.8 Koneksi antar materi 1.2.pdfModul 1.2.a.8 Koneksi antar materi 1.2.pdf
Modul 1.2.a.8 Koneksi antar materi 1.2.pdfSitiJulaeha820399
 
Kelompok 1 Bimbingan Konseling Islami (Asas-Asas).pdf
Kelompok 1 Bimbingan Konseling Islami (Asas-Asas).pdfKelompok 1 Bimbingan Konseling Islami (Asas-Asas).pdf
Kelompok 1 Bimbingan Konseling Islami (Asas-Asas).pdfmaulanayazid
 
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptxJurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptxBambang440423
 
adap penggunaan media sosial dalam kehidupan sehari-hari.pptx
adap penggunaan media sosial dalam kehidupan sehari-hari.pptxadap penggunaan media sosial dalam kehidupan sehari-hari.pptx
adap penggunaan media sosial dalam kehidupan sehari-hari.pptxmtsmampunbarub4
 
polinomial dan suku banyak kelas 11..ppt
polinomial dan suku banyak kelas 11..pptpolinomial dan suku banyak kelas 11..ppt
polinomial dan suku banyak kelas 11..pptGirl38
 

Recently uploaded (20)

Prakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptx
Prakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptxPrakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptx
Prakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptx
 
PPT Materi Jenis - Jenis Alat Pembayaran Tunai dan Non-tunai.pptx
PPT Materi Jenis - Jenis Alat Pembayaran Tunai dan Non-tunai.pptxPPT Materi Jenis - Jenis Alat Pembayaran Tunai dan Non-tunai.pptx
PPT Materi Jenis - Jenis Alat Pembayaran Tunai dan Non-tunai.pptx
 
Karakteristik Negara Brazil, Geografi Regional Dunia
Karakteristik Negara Brazil, Geografi Regional DuniaKarakteristik Negara Brazil, Geografi Regional Dunia
Karakteristik Negara Brazil, Geografi Regional Dunia
 
PEMIKIRAN POLITIK Jean Jacques Rousseau.pdf
PEMIKIRAN POLITIK Jean Jacques  Rousseau.pdfPEMIKIRAN POLITIK Jean Jacques  Rousseau.pdf
PEMIKIRAN POLITIK Jean Jacques Rousseau.pdf
 
Materi Pertemuan Materi Pertemuan 7.pptx
Materi Pertemuan Materi Pertemuan 7.pptxMateri Pertemuan Materi Pertemuan 7.pptx
Materi Pertemuan Materi Pertemuan 7.pptx
 
PPT_AKUNTANSI_PAJAK_ATAS_ASET_TETAP.pptx
PPT_AKUNTANSI_PAJAK_ATAS_ASET_TETAP.pptxPPT_AKUNTANSI_PAJAK_ATAS_ASET_TETAP.pptx
PPT_AKUNTANSI_PAJAK_ATAS_ASET_TETAP.pptx
 
Kelompok 4 : Karakteristik Negara Inggris
Kelompok 4 : Karakteristik Negara InggrisKelompok 4 : Karakteristik Negara Inggris
Kelompok 4 : Karakteristik Negara Inggris
 
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxAKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
 
Wawasan Nusantara sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
Wawasan Nusantara  sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...Wawasan Nusantara  sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
Wawasan Nusantara sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
 
MODUL 2 BAHASA INDONESIA-KELOMPOK 1.pptx
MODUL 2 BAHASA INDONESIA-KELOMPOK 1.pptxMODUL 2 BAHASA INDONESIA-KELOMPOK 1.pptx
MODUL 2 BAHASA INDONESIA-KELOMPOK 1.pptx
 
Kelompok 2 Karakteristik Negara Nigeria.pdf
Kelompok 2 Karakteristik Negara Nigeria.pdfKelompok 2 Karakteristik Negara Nigeria.pdf
Kelompok 2 Karakteristik Negara Nigeria.pdf
 
Karakteristik Negara Mesir (Geografi Regional Dunia)
Karakteristik Negara Mesir (Geografi Regional Dunia)Karakteristik Negara Mesir (Geografi Regional Dunia)
Karakteristik Negara Mesir (Geografi Regional Dunia)
 
Petunjuk Teknis Aplikasi Pelaksanaan OSNK 2024
Petunjuk Teknis Aplikasi Pelaksanaan OSNK 2024Petunjuk Teknis Aplikasi Pelaksanaan OSNK 2024
Petunjuk Teknis Aplikasi Pelaksanaan OSNK 2024
 
DESAIN MEDIA PEMBELAJARAN BAHASA INDONESIA BERBASIS DIGITAL.pptx
DESAIN MEDIA PEMBELAJARAN BAHASA INDONESIA BERBASIS DIGITAL.pptxDESAIN MEDIA PEMBELAJARAN BAHASA INDONESIA BERBASIS DIGITAL.pptx
DESAIN MEDIA PEMBELAJARAN BAHASA INDONESIA BERBASIS DIGITAL.pptx
 
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdfAKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
 
Modul 1.2.a.8 Koneksi antar materi 1.2.pdf
Modul 1.2.a.8 Koneksi antar materi 1.2.pdfModul 1.2.a.8 Koneksi antar materi 1.2.pdf
Modul 1.2.a.8 Koneksi antar materi 1.2.pdf
 
Kelompok 1 Bimbingan Konseling Islami (Asas-Asas).pdf
Kelompok 1 Bimbingan Konseling Islami (Asas-Asas).pdfKelompok 1 Bimbingan Konseling Islami (Asas-Asas).pdf
Kelompok 1 Bimbingan Konseling Islami (Asas-Asas).pdf
 
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptxJurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
Jurnal Dwi mingguan modul 1.2-gurupenggerak.pptx
 
adap penggunaan media sosial dalam kehidupan sehari-hari.pptx
adap penggunaan media sosial dalam kehidupan sehari-hari.pptxadap penggunaan media sosial dalam kehidupan sehari-hari.pptx
adap penggunaan media sosial dalam kehidupan sehari-hari.pptx
 
polinomial dan suku banyak kelas 11..ppt
polinomial dan suku banyak kelas 11..pptpolinomial dan suku banyak kelas 11..ppt
polinomial dan suku banyak kelas 11..ppt
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

ML2-3

  • 1. Pertemuan 2 & 3 Penerapan Konsep & Evaluasi
  • 2. Agenda • Review & Pertanyaan di Slack • Penerapan Konsep Supervised Machine Learning (full-coding) • Hands-on feature engineering • Intuisi dasar, step-by-step nya • Algoritma -> Python program • Studi Kasus • Production-grade machine learning, dengan spark + hdfs • Final project Evaluasi
  • 3. Review & Pertanyaan di Slack • Model Machine Learning • Classification VS Clustering
  • 4. Model itu gimana? Input Output Training Data Algoritma Machine Learning Model Input ? Data Baru Model Output
  • 5. Contoh Model Logistic Regression 𝐿 𝑤; 𝑥, 𝑦 ≔ log(1 + 𝑒−𝑦𝑊 𝑇 𝑥) 𝑓 𝑤 ≔ 𝜆𝑅 𝑤 + 1 𝑛 𝑖=1 𝑛 𝐿(𝑤; 𝑥𝑖, 𝑦𝑖) 𝑥𝑖 ∈ ℝ 𝑑, 0 < 𝑖 ≤ 𝑛, 𝑦𝑖 ∈ ℝ Tujuan: 𝑚𝑖𝑛 𝑤∈ℝ 𝑑 𝑓(𝑤) 𝑤 Weight vector 𝑥𝑖 Training data 𝑦𝑖 Class training data 𝜆𝑅 𝑤 Regulasi 𝑓 𝑤 Fungsi tujuan 𝐿 𝑤; 𝑥, 𝑦 Fungsi kerugian
  • 6. Visualisasi Model Logistic Regression 4 class
  • 7. Classification VS Clustering Classification Clustering Class data Sudah di ketahui Belum di Ketahui Training data Ada Tidak ada Metode Supervised Unsupervised Tujuan Menentukan data baru masuk class yang mana Menemukan pola dan relasi antar data
  • 8. Studi Kasus: Lestari Lestari akan kita latih untuk bisa membantu Pak Jokowi, Presiden Indonesia, menganalisa respon publik. https://artificialintelligence.id/model-machine-learning-untuk- membantu-pak-presiden-jokowi-menganalisa-respon-publik- 63cc89a098ed
  • 9. Masih Ingat? Input Output Training Data Algoritma Machine Learning Model Input ? Data Baru Model Output
  • 10. Training Data Input Output Training Data Input: Respon masyarakat di facebook Output: Jenis responnya • -1 = spam • 0 = netral • 1 = berisi harapan, pembelaan, usulan • 2 = meminta kejelasan, aduan
  • 11. Algoritma & Model Algoritma Machine Learning Model • Logistic Regression • Decision Trees • Random Forests • Naïve-Bayes
  • 12. Tujuan Akhir Input ? Data Baru Model Output Intuisi: Ada respon baru masuk. Apakah response tersebut berisi pembelaan/harapan terhadap pak Jokowi, spam, atau malah mengadukan sesuatu ke pak Jokowi ya?
  • 13. Feature Engineering • Intuisi: Bagaimana cara mesin bisa membedakan dan mencari kesamaan sebuah dokumen teks? Pakai Vektor! (demo via matlab) • Tujuan: Merepresentasikan input/training data untuk bisa digunakan oleh algoritma Machine Learning
  • 14. Feature Engineering • Macam Macam Representasi: • Bag of words (en.m.wikipedia.org/wiki/Bag-of-words_model) • TF-IDF (www.tfidf.com) • Demo dengan simple teks! • Kata kunci: • Corpus: kumpulan Document • Document: Satu dokumen teks (satu komentar) • Term: Satu kata dalam sebuah Document
  • 15. Feature Engineering: Bag of words • Corpus: • “Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan kasi ampun.....sanksi keras akan membuat mereka jera!” • “Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu.. Amiin”
  • 16. Feature Engineering: Bag of words • Dictionary: • mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan, kasi, ampun, sanksi, keras, akan, membuat, mereka, jera, insya, alloh, indonesia, di, sgani, dan, menjadi, macan, asia, kalau, pemimpin, ny, sprti, bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin • Representasi corpus: • [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] • [0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
  • 17. Feature Engineering: TF-IDF • Corpus: • “Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan kasi ampun.....sanksi keras akan membuat mereka jera!” • “Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu.. Amiin”
  • 18. Feature Engineering: TF-IDF • Dictionary: • mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan, kasi, ampun, sanksi, keras, akan, membuat, mereka, jera, insya, alloh, indonesia, di, sgani, dan, menjadi, macan, asia, kalau, pemimpin, ny, sprti, bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin • Representasi corpus: • [0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] • [0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0.026659506944613283, 0.053319013889226566, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283]
  • 20. Feature Engineering (catatan tambahan) • Representasi data yang populer adalah LIBSVM format label index1:value1 index2:value2 ... 1 1:0.0953796017474 4:0.227945493411 ... 2 27:0.111566195021 16:0.178174397043 ... • Index: Index kata di dalam global dictionary • Value: Nilai Frekeunsi kata (Bag of Words)/TF-IDF
  • 21. Feature Engineering label index1:value1 index2:value2 ... 1. Membuat global dictionary • Dari semua dokumen di korpus • Sebagai data index tiap kata 2. Merepresentasikan dokumen sebagai vektor • Index dari global dictionary • Mencari nilai TF-IDF tiap kata sebagai Value
  • 22. Feature Engineering Waktunya Praktek! Data: data_3k_comments.csv Output: tf-idf
  • 23. ML in Production notes: • Banyaknya data yang kita proses kita perlu framework untuk mempercepat proses analisa • Solusi: Hadoop MapReduce, Spark • Dengan data yang banyak kita perlu storage engine yang scalable • Solusi: HDFS
  • 24. Hands-on: Spark + HDFS Distributed File System
  • 25. Evaluasi • Metrics yang penting: • Precision • Recall • F1-score