2. Agenda
• Pengantar Big Data
• Data Mining - Text Mining - Image Mining
• Business Intelligence Tools For Big Data
• Big Data Analytics dengan QlikView
2
3. Apa itu Big Data?
Big Data: istilah untuk data sangat besar dan kompleks yang tidak
dapat dikelola (capture, store, manage, analyze) dengan software
dan tool pemrograman database biasa/konvensional.
Tidak cukup dengan SQL biasa saja (Relational Database
Management System), sehingga butuh teknologi baru/tambahan
NoSQL (Not only SQL).
Tidak hanya berisi data berstruktur/relational tapi juga (mayoritas)
tidak berstruktur (unstructured).
3
5. 3V – 4V – 5V
Volume: Ukuran data sangat besar dari sisi jumlah yang mencapai
Milyaran Terra Byte = trilyunan GB.
Velocity: Kecepatan data sangat besar dari sisi kemunculan dan
perubahan.
Variety: Variasi jenis/tipe data sangat banyak, unstructured dan multi-
structured.
Value: Nilai yang dihasilkan juga sangat besar, dari sisi manfaat dalam
bentuk uang maupun non uang.
Veracity: Kebenaran dan keakuratan informasi yang tidak mudah
dipastikan, misal salah ketik di Twitter.
5
6. Big Volume
•Volume bertambah secara eksponensial. Pada 2015: 8 Zetta Bytes = 8.000
Peta Bytes = 8 juta Exa Bytes = 8 milyar Terra Bytes = 8 trilyun Giga Bytes. *)
*) Sumber: wipro.com
6
9. Hadoop dan Big Data
• Open-Source Framework untuk memproses himpunan-data berskala
besar (big data) dalam beberapa cluster hardware komputer
• Dikembangkan menggunakan bahasa Java, beberapa menggunakan
C dan utilitas command line sebagai shell-scripts
• Dikembangkan oleh Apache Software foundation ( apache.org ) 2007
dibawah lisensi v2 Apache
9
10. Job Type for Big Data
Job Type Job functions Skill
Hadoop Developer develops MapReduce jobs,
designs data warehouses
Java, Scripting, Linux
Hadoop Admin manages Hadoop cluster,
designs data pipelines
Linux administration, Network
Management, Experience in
managing large cluster of machines
Data Scientist Data mining and figuring out
hidden knowledge in data
Math, data mining algorithms
Business Analyst Analyzed data! Pig, Hive, SQL, familiarity with BI
tools
10
11. Potensi Big Data
• Jumlah data yang telah dibuat dan disimpan pada tingkat global hari ini
hampir tak terbayangkan jumlahnya. Data tersebut terus tumbuh tanpa
henti. Sayangnya sampai saat ini, baru sebagian kecil data yang telah
dianalisis.
• Pentingnya Big Data, tidak hanya seputar pada jumlah data yang di miliki,
tetapi hal yang penting adalah bagaimana mengolah data data tersebut
untuk pengambilan keputusan. Misalnya menganalisa data untuk
menemukan jawaban yang diinginkan dalam kegiatan bisnis seperti:
• pengurangan biaya;
• pengurangan waktu;
• pengembangan produk baru dan optimalisasi penawaran produk; dan
• pengambilan keputusan yang cerdas. 11
13. Apa itu Data Mining?
• Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau
menemukan pola dari suatu data yang besar
• Ekstraksi dari data ke pengetahuan:
1. Data: fakta yang terekam dan tidak membawa arti
2. Pengetahuan: pola, rumus, aturan atau model yang muncul dari data
• Nama lain data mining:
• Knowledge Discovery in Database (KDD)
• Knowledge extraction
• Pattern analysis
• Information harvesting
• Business intelligence
13
14. Definisi Data Mining
• Melakukan ekstraksi untuk mendapatkan informasi penting yang
sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data
(Witten et al., 2011)
• Kegiatan yang meliputi pengumpulan, pemakaian data historis
untuk menemukan keteraturan, pola dan hubungan dalam set
data berukuran besar (Santosa, 2007)
• Extraction of interesting (non-trivial, implicit, previously
unknown and potentially useful) patterns or knowledge from
huge amount of data (Han et al., 2011) 14
15. Proses Data Mining
Pembersihan Data
Data Integration
Databases
Data
Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
Diambil dari www.cs.uiuc.edu/~hanj
15
16. Metode Data Mining
1. Estimation (Estimasi):
• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):
• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):
• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
16
17. Pengetahuan (Pola/Model)
1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Rule (Aturan)
3. IF ips3=2.8 THEN lulustepatwaktu
4. Cluster (Klaster)
17
18. Top Data Mining Software Used
http://www.kdnuggets.com/polls/2015/analytics-data-mining-data-science-software-used.html
18
19. RapidMiner
• RapidMiner saat ini sudah digunakan dalam berbagai industri termasuk
otomotif, perbankan, asuransi, Ilmu kehidupan, manufaktur, minyak dan
gas, retail, telekomunikasi dan utilitas.
• RapidMiner v6.0 tetap open source. RapidMiner versi terbaru sekarang
hanya tersedia sebagai versi trial atau di bawah lisensi komersial.
• RapidMiner Studio : Sebuah perangkat lunak yang berdiri sendiri yang dapat
digunakan untuk persiapan data, visualisasi dan pemodelan statistik
• RapidMiner Server : Ini adalah sebuah enterprise-grade dengan repositori
sentral yang dapat meningkatkan bekerja secara team jauh lebih mudah,
manajemen proyek dan deployment.
• RapidMiner Radoop : Mengimplementasikan kemampuan analisis Big Data yang
berpusat pada Hadoop.
• RapidMiner Cloud : Sebuah repositori berbasis cloud yang memungkinkan dan
memudahkan berbagi informasi di antara dan berbagai perangkat. 19
20. Pengenalan Interface
• RapidMiner menyediakan tampilan yang user friendly untuk
memudahkan penggunanya ketika menjalankan aplikasi.
Tampilan pada RapidMiner dikenal dengan istilah Perspective.
Pada RapidMiner terdapat 3 Perspective, yaitu; Welcome
Perspective, Design Perspective dan Result Perspective.
21. Design Perspective
• Design Perspective merupakan lingkungan kerja RapidMiner. Dimana Design Perspective ini
merupakan perspective utama dari RapidMiner yang digunakan sebagai area kerja untuk membuat
dan mengelola proses analisis.
22. Operator dan Proses
• Proses data mining pada dasarnya adalah proses analisa
yang berisi alur kerja dari komponen data mining
• Komponen dari proses ini disebut operator, yang
didefinisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan 22
23. Implementasi DM dengan RapidMiner
• Penggunaan RapidMiner for Linear regression
• Penggunaan RapidMiner for Text Mining
• Penerapan Big Data for CAD
23
24. Business Intelligence Tools For Big Data
• Analytics dengan Hadoop dilakukan dengan:
• Menulis code using Java, Python, R ..dll
• Menggunakan high level Pig scripts
• Menguunakan SQL dengan Hive
• Melakukan analisis menggunakan tools tsb tidaklah
mudah. Business Intelligence tools (BI tools) dapat
mengatasi masalah ini.
24
25. Business Intelligence
• BI merupakan sistem dan aplikasi yang berfungsi untuk
mengubah data-data dalam suatu perusahaan atau organisasi
(data operasional, data transaksional, atau data lainnya) ke dalam
bentuk pengetahuan.
• Aplikasi ini melakukan analisis data-data di masa lampau,
menganalisisnya dan kemudian menggunakan pengetahuan
tersebut untuk mendukung keputusan.
25
26. Metodologi Pembangunan BI
Untuk bisa mendapatkan manfaat BI, dibutuhkan tahapan proses sebagai dasar
untuk implementasi business intelligence, yaitu:
• Business understanding (pemahaman kebutuhan pengguna), Mendefinisikan informasi
apa saja yang dibutuhkan, data-data apa saja yang perlu dianalisis, dan dimana sajakah
data-data tersebut dikelola. Siapa sajakah yang terkait dengan kebutuhan analisis
tersebut dan bagaimana bentuk informasi yang diharapkan
• Data understanding (pemahaman kondisi data yang dimiliki), BI tidak akan dapat
digunakan dengan baik jika data yang akan dianalisis merupakan data yang tidak/kurang
baik kualitasnya. Data yang tidak/kurang baik akan menghasilkan informasi yang kurang
baik dalam pengambilan keputusan (garbage in = garbage out )
• Data preparation (melakukan penyesuaian data untuk memenuhi kebutuhan).
• Modeling assessment (memilih model yang akan digunakan).
• Review and evaluation (upaya meningkatkan value atas sistem)
26
28. Big Data Analytics dengan QlikView
• QlikView memainkan peran penting dalam implementasi Big Data,
menyediakan kecepatan maupun analisis yang fleksibel bagi pengguna serta
kemampuan untuk mengintegrasikan data dari berbagai sumber (misalnya,
dari sumber Big Data, data warehouse, database departemen, dan
spreadsheet), dan melakukan analisis secara interaktif.
28
29. Membangun App dengan QV
• QlikView document terdiri dari dua elemen utama,:
• dataset yang akan dianalisa oleh user: Yang merupakan backend
dari QlikView document dan berisi seluruh source tables yang
diperlukan untuk membangun data model.
• user interface di mana pengguna bisa menganalisis data:
Merupakan frontend aplikasi analitik dan berisi objek-objek yang
dikandung dalam dokumen (seperti listbox untuk membuat pilihan
dan filter data), atau grafik dan tables yang digunakan untuk
menampilkan informasi.
29