Pertemuan 2 & 3: A.I. Indonesia Academy Surabaya Batch #1

92 views

Published on

Pada pertemuan kedua program mentoring AI Indonesia Academy di Surabaya, para peserta akan di ajak menerapkan konsep yang di dapat di pertemuan sebelumnya. Para peserta akan mengimplementasikan teknologi berbasis Machine Learning untuk membantu Pak Presiden Jokowi.
Latar Belakang Masalah
Pak Jokowi adalah orang nomor 1 di Indonesia, semua perilaku publik beliau tentunya akan mendapat sorotan dari masyarakat Indonesia. Hal ini menimbulkan reaksi/respon terhadap apa yang di lakukannya di publik.
Salah satu contoh kasusnya adalah post di halaman facebook beliau seperti berikut

Respon publik terhadap post Pak Presiden Joko Widodo
Berbagai macam respon disampaikan oleh masyarakat Indonesia di komentar post tersebut.
Tantangan
Dengan banyaknya komentar, mungkin Pak Jokowi ingin mengetahui siapa yang meminta kejelasan tentang tindakannya atau mengadukan hal tentang seuatu? dengan tujuan jika komentarnya berisi hal yang penting itu akan digunakan untuk melakukan tindakan lanjut atau memperbaiki hasil kinerja tim pak Jokowi tentunya.
Ada data komentar di halaman facebook pak Jokowi yang sudah di kategorikan respon “spam”, “netral”, “berisi harapan, pembelaan, usulan“ dan “meminta penjelasan, aduan” secara manual.
Tujuan kita pada pertemuan kedua besok adalah membuat teknologi berbasis Machine Learning yang akan di latih dari data tersebut untuk mampu membedakan mana respon masyarakat yang “spam”, “netral”, “berisi harapan, pembelaan, usulan“ dan “meminta penjelasan, aduan”.
Pertemuan ke 2
Kita akan bersama-sama memecahkan masalah ini pada pertemuan kedua nantinya. Pertemuan kedua akan di laksanakan pada 19 Maret 2016, pukul 13.00–16.00.
Persiapan untuk para peserta adalah:
Laptop pribadi
Sudah menginstall python 2.7
Sudah mensetup hadoop 2.7.x dan Spark 1.6.x
Flaskdisk
Untuk cara mensetup hadoop dan spark bisa melihat tutorialnya di website resmisnya berikut: setup hadoop & setup spark.
Sampai jumpa di pertemuan kedua! kalau ada pertanyaan silahkan response post ini ya.

https://artificialintelligence.id/model-machine-learning-untuk-membantu-pak-presiden-jokowi-menganalisa-respon-publik-63cc89a098ed#.7r0nzkff0

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
92
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Pertemuan 2 & 3: A.I. Indonesia Academy Surabaya Batch #1

  1. 1. Pertemuan 2 & 3 Penerapan Konsep & Evaluasi
  2. 2. Agenda • Review & Pertanyaan di Slack • Penerapan Konsep Supervised Machine Learning (full-coding) • Hands-on feature engineering • Intuisi dasar, step-by-step nya • Algoritma -> Python program • Studi Kasus • Production-grade machine learning, dengan spark + hdfs • Final project Evaluasi
  3. 3. Review & Pertanyaan di Slack • Model Machine Learning • Classification VS Clustering
  4. 4. Model itu gimana? Input Output Training Data Algoritma Machine Learning Model Input ? Data Baru Model Output
  5. 5. Contoh Model Logistic Regression 𝐿 𝑤; 𝑥, 𝑦 ≔ log(1 + 𝑒−𝑦𝑊 𝑇 𝑥) 𝑓 𝑤 ≔ 𝜆𝑅 𝑤 + 1 𝑛 𝑖=1 𝑛 𝐿(𝑤; 𝑥𝑖, 𝑦𝑖) 𝑥𝑖 ∈ ℝ 𝑑, 0 < 𝑖 ≤ 𝑛, 𝑦𝑖 ∈ ℝ Tujuan: 𝑚𝑖𝑛 𝑤∈ℝ 𝑑 𝑓(𝑤) 𝑤 Weight vector 𝑥𝑖 Training data 𝑦𝑖 Class training data 𝜆𝑅 𝑤 Regulasi 𝑓 𝑤 Fungsi tujuan 𝐿 𝑤; 𝑥, 𝑦 Fungsi kerugian
  6. 6. Visualisasi Model Logistic Regression 4 class
  7. 7. Classification VS Clustering Classification Clustering Class data Sudah di ketahui Belum di Ketahui Training data Ada Tidak ada Metode Supervised Unsupervised Tujuan Menentukan data baru masuk class yang mana Menemukan pola dan relasi antar data
  8. 8. Studi Kasus: Lestari Lestari akan kita latih untuk bisa membantu Pak Jokowi, Presiden Indonesia, menganalisa respon publik. https://artificialintelligence.id/model-machine-learning-untuk- membantu-pak-presiden-jokowi-menganalisa-respon-publik- 63cc89a098ed
  9. 9. Masih Ingat? Input Output Training Data Algoritma Machine Learning Model Input ? Data Baru Model Output
  10. 10. Training Data Input Output Training Data Input: Respon masyarakat di facebook Output: Jenis responnya • -1 = spam • 0 = netral • 1 = berisi harapan, pembelaan, usulan • 2 = meminta kejelasan, aduan
  11. 11. Algoritma & Model Algoritma Machine Learning Model • Logistic Regression • Decision Trees • Random Forests • Naïve-Bayes
  12. 12. Tujuan Akhir Input ? Data Baru Model Output Intuisi: Ada respon baru masuk. Apakah response tersebut berisi pembelaan/harapan terhadap pak Jokowi, spam, atau malah mengadukan sesuatu ke pak Jokowi ya?
  13. 13. Feature Engineering • Intuisi: Bagaimana cara mesin bisa membedakan dan mencari kesamaan sebuah dokumen teks? Pakai Vektor! (demo via matlab) • Tujuan: Merepresentasikan input/training data untuk bisa digunakan oleh algoritma Machine Learning
  14. 14. Feature Engineering • Macam Macam Representasi: • Bag of words (en.m.wikipedia.org/wiki/Bag-of-words_model) • TF-IDF (www.tfidf.com) • Demo dengan simple teks! • Kata kunci: • Corpus: kumpulan Document • Document: Satu dokumen teks (satu komentar) • Term: Satu kata dalam sebuah Document
  15. 15. Feature Engineering: Bag of words • Corpus: • “Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan kasi ampun.....sanksi keras akan membuat mereka jera!” • “Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu.. Amiin”
  16. 16. Feature Engineering: Bag of words • Dictionary: • mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan, kasi, ampun, sanksi, keras, akan, membuat, mereka, jera, insya, alloh, indonesia, di, sgani, dan, menjadi, macan, asia, kalau, pemimpin, ny, sprti, bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin • Representasi corpus: • [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] • [0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
  17. 17. Feature Engineering: TF-IDF • Corpus: • “Mantaaap....Pak Presiden..habisi para pencuri ikan diwilayah kita......jangan kasi ampun.....sanksi keras akan membuat mereka jera!” • “Insya alloh indonesia akan di sgani dan menjadi macan asia.. Kalau pemimpin ny sprti bapa presiden kita skarang. Lanjutkan pa kami alloh slalu brsma mu.. Amiin”
  18. 18. Feature Engineering: TF-IDF • Dictionary: • mantaaap, pak, presiden, habisi, para, pencuri, ikan, diwilayah, kita, jangan, kasi, ampun, sanksi, keras, akan, membuat, mereka, jera, insya, alloh, indonesia, di, sgani, dan, menjadi, macan, asia, kalau, pemimpin, ny, sprti, bapa, skarang, lanjutkan, pa, kami, slalu, brsma, mu, amiin • Representasi corpus: • [0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0.0, 0.03850817669777474, 0.03850817669777474, 0.03850817669777474, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] • [0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0, 0, 0.0, 0, 0, 0, 0.026659506944613283, 0.053319013889226566, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283, 0.026659506944613283]
  19. 19. Feature Engineering ( 0 0.095 ⋮ 0.227 0 0.111 ⋮ ⋮ 0.657 ⋮ , 1)(“bravo pak jokowi! klo ….”, “usulan”)
  20. 20. Feature Engineering (catatan tambahan) • Representasi data yang populer adalah LIBSVM format label index1:value1 index2:value2 ... 1 1:0.0953796017474 4:0.227945493411 ... 2 27:0.111566195021 16:0.178174397043 ... • Index: Index kata di dalam global dictionary • Value: Nilai Frekeunsi kata (Bag of Words)/TF-IDF
  21. 21. Feature Engineering label index1:value1 index2:value2 ... 1. Membuat global dictionary • Dari semua dokumen di korpus • Sebagai data index tiap kata 2. Merepresentasikan dokumen sebagai vektor • Index dari global dictionary • Mencari nilai TF-IDF tiap kata sebagai Value
  22. 22. Feature Engineering Waktunya Praktek! Data: data_3k_comments.csv Output: tf-idf
  23. 23. ML in Production notes: • Banyaknya data yang kita proses kita perlu framework untuk mempercepat proses analisa • Solusi: Hadoop MapReduce, Spark • Dengan data yang banyak kita perlu storage engine yang scalable • Solusi: HDFS
  24. 24. Hands-on: Spark + HDFS Distributed File System
  25. 25. Evaluasi • Metrics yang penting: • Precision • Recall • F1-score

×