SlideShare a Scribd company logo
1 of 31
Big Data Analytics
Tools dan Aplikasinya
Agenda
• Pengantar Big Data
• Data Mining - Text Mining - Image Mining
• Business Intelligence Tools For Big Data
• Big Data Analytics dengan QlikView
2
Apa itu Big Data?
 Big Data: istilah untuk data sangat besar dan kompleks yang tidak
dapat dikelola (capture, store, manage, analyze) dengan software
dan tool pemrograman database biasa/konvensional.
 Tidak cukup dengan SQL biasa saja (Relational Database
Management System), sehingga butuh teknologi baru/tambahan
NoSQL (Not only SQL).
 Tidak hanya berisi data berstruktur/relational tapi juga (mayoritas)
tidak berstruktur (unstructured).
3
Sumber: http://vijjam.blogspot.com
Apa yang besar?
4
3V – 4V – 5V
 Volume: Ukuran data sangat besar dari sisi jumlah yang mencapai
Milyaran Terra Byte = trilyunan GB.
 Velocity: Kecepatan data sangat besar dari sisi kemunculan dan
perubahan.
 Variety: Variasi jenis/tipe data sangat banyak, unstructured dan multi-
structured.
 Value: Nilai yang dihasilkan juga sangat besar, dari sisi manfaat dalam
bentuk uang maupun non uang.
 Veracity: Kebenaran dan keakuratan informasi yang tidak mudah
dipastikan, misal salah ketik di Twitter.
5
Big Volume
•Volume bertambah secara eksponensial. Pada 2015: 8 Zetta Bytes = 8.000
Peta Bytes = 8 juta Exa Bytes = 8 milyar Terra Bytes = 8 trilyun Giga Bytes. *)
*) Sumber: wipro.com
6
Big Velocity
Pertambahan (2011):
- Twitter 7 TB/hari
- Facebook 10 TB/hari
Sumber:
bigdatauniversity.com
7
Big Variety
8
Hadoop dan Big Data
• Open-Source Framework untuk memproses himpunan-data berskala
besar (big data) dalam beberapa cluster hardware komputer
• Dikembangkan menggunakan bahasa Java, beberapa menggunakan
C dan utilitas command line sebagai shell-scripts
• Dikembangkan oleh Apache Software foundation ( apache.org ) 2007
dibawah lisensi v2 Apache
9
Job Type for Big Data
Job Type Job functions Skill
Hadoop Developer develops MapReduce jobs,
designs data warehouses
Java, Scripting, Linux
Hadoop Admin manages Hadoop cluster,
designs data pipelines
Linux administration, Network
Management, Experience in
managing large cluster of machines
Data Scientist Data mining and figuring out
hidden knowledge in data
Math, data mining algorithms
Business Analyst Analyzed data! Pig, Hive, SQL, familiarity with BI
tools
10
Potensi Big Data
• Jumlah data yang telah dibuat dan disimpan pada tingkat global hari ini
hampir tak terbayangkan jumlahnya. Data tersebut terus tumbuh tanpa
henti. Sayangnya sampai saat ini, baru sebagian kecil data yang telah
dianalisis.
• Pentingnya Big Data, tidak hanya seputar pada jumlah data yang di miliki,
tetapi hal yang penting adalah bagaimana mengolah data data tersebut
untuk pengambilan keputusan. Misalnya menganalisa data untuk
menemukan jawaban yang diinginkan dalam kegiatan bisnis seperti:
• pengurangan biaya;
• pengurangan waktu;
• pengembangan produk baru dan optimalisasi penawaran produk; dan
• pengambilan keputusan yang cerdas. 11
Informasi
Pengetahuan
Kebijakan
Aksi
Data
Siklus Data, Informasi, Pengetahuan dan Kebijakan
SIM BI - DM
DSS
SOP
12
Apa itu Data Mining?
• Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau
menemukan pola dari suatu data yang besar
• Ekstraksi dari data ke pengetahuan:
1. Data: fakta yang terekam dan tidak membawa arti
2. Pengetahuan: pola, rumus, aturan atau model yang muncul dari data
• Nama lain data mining:
• Knowledge Discovery in Database (KDD)
• Knowledge extraction
• Pattern analysis
• Information harvesting
• Business intelligence
13
Definisi Data Mining
• Melakukan ekstraksi untuk mendapatkan informasi penting yang
sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data
(Witten et al., 2011)
• Kegiatan yang meliputi pengumpulan, pemakaian data historis
untuk menemukan keteraturan, pola dan hubungan dalam set
data berukuran besar (Santosa, 2007)
• Extraction of interesting (non-trivial, implicit, previously
unknown and potentially useful) patterns or knowledge from
huge amount of data (Han et al., 2011) 14
Proses Data Mining
Pembersihan Data
Data Integration
Databases
Data
Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
Diambil dari www.cs.uiuc.edu/~hanj
15
Metode Data Mining
1. Estimation (Estimasi):
• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):
• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):
• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
16
Pengetahuan (Pola/Model)
1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Rule (Aturan)
3. IF ips3=2.8 THEN lulustepatwaktu
4. Cluster (Klaster)
17
Top Data Mining Software Used
http://www.kdnuggets.com/polls/2015/analytics-data-mining-data-science-software-used.html
18
RapidMiner
• RapidMiner saat ini sudah digunakan dalam berbagai industri termasuk
otomotif, perbankan, asuransi, Ilmu kehidupan, manufaktur, minyak dan
gas, retail, telekomunikasi dan utilitas.
• RapidMiner v6.0 tetap open source. RapidMiner versi terbaru sekarang
hanya tersedia sebagai versi trial atau di bawah lisensi komersial.
• RapidMiner Studio : Sebuah perangkat lunak yang berdiri sendiri yang dapat
digunakan untuk persiapan data, visualisasi dan pemodelan statistik
• RapidMiner Server : Ini adalah sebuah enterprise-grade dengan repositori
sentral yang dapat meningkatkan bekerja secara team jauh lebih mudah,
manajemen proyek dan deployment.
• RapidMiner Radoop : Mengimplementasikan kemampuan analisis Big Data yang
berpusat pada Hadoop.
• RapidMiner Cloud : Sebuah repositori berbasis cloud yang memungkinkan dan
memudahkan berbagi informasi di antara dan berbagai perangkat. 19
Pengenalan Interface
• RapidMiner menyediakan tampilan yang user friendly untuk
memudahkan penggunanya ketika menjalankan aplikasi.
Tampilan pada RapidMiner dikenal dengan istilah Perspective.
Pada RapidMiner terdapat 3 Perspective, yaitu; Welcome
Perspective, Design Perspective dan Result Perspective.
Design Perspective
• Design Perspective merupakan lingkungan kerja RapidMiner. Dimana Design Perspective ini
merupakan perspective utama dari RapidMiner yang digunakan sebagai area kerja untuk membuat
dan mengelola proses analisis.
Operator dan Proses
• Proses data mining pada dasarnya adalah proses analisa
yang berisi alur kerja dari komponen data mining
• Komponen dari proses ini disebut operator, yang
didefinisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan 22
Implementasi DM dengan RapidMiner
• Penggunaan RapidMiner for Linear regression
• Penggunaan RapidMiner for Text Mining
• Penerapan Big Data for CAD
23
Business Intelligence Tools For Big Data
• Analytics dengan Hadoop dilakukan dengan:
• Menulis code using Java, Python, R ..dll
• Menggunakan high level Pig scripts
• Menguunakan SQL dengan Hive
• Melakukan analisis menggunakan tools tsb tidaklah
mudah. Business Intelligence tools (BI tools) dapat
mengatasi masalah ini.
24
Business Intelligence
• BI merupakan sistem dan aplikasi yang berfungsi untuk
mengubah data-data dalam suatu perusahaan atau organisasi
(data operasional, data transaksional, atau data lainnya) ke dalam
bentuk pengetahuan.
• Aplikasi ini melakukan analisis data-data di masa lampau,
menganalisisnya dan kemudian menggunakan pengetahuan
tersebut untuk mendukung keputusan.
25
Metodologi Pembangunan BI
Untuk bisa mendapatkan manfaat BI, dibutuhkan tahapan proses sebagai dasar
untuk implementasi business intelligence, yaitu:
• Business understanding (pemahaman kebutuhan pengguna), Mendefinisikan informasi
apa saja yang dibutuhkan, data-data apa saja yang perlu dianalisis, dan dimana sajakah
data-data tersebut dikelola. Siapa sajakah yang terkait dengan kebutuhan analisis
tersebut dan bagaimana bentuk informasi yang diharapkan
• Data understanding (pemahaman kondisi data yang dimiliki), BI tidak akan dapat
digunakan dengan baik jika data yang akan dianalisis merupakan data yang tidak/kurang
baik kualitasnya. Data yang tidak/kurang baik akan menghasilkan informasi yang kurang
baik dalam pengambilan keputusan (garbage in = garbage out )
• Data preparation (melakukan penyesuaian data untuk memenuhi kebutuhan).
• Modeling assessment (memilih model yang akan digunakan).
• Review and evaluation (upaya meningkatkan value atas sistem)
26
BI Tools
27
Big Data Analytics dengan QlikView
• QlikView memainkan peran penting dalam implementasi Big Data,
menyediakan kecepatan maupun analisis yang fleksibel bagi pengguna serta
kemampuan untuk mengintegrasikan data dari berbagai sumber (misalnya,
dari sumber Big Data, data warehouse, database departemen, dan
spreadsheet), dan melakukan analisis secara interaktif.
28
Membangun App dengan QV
• QlikView document terdiri dari dua elemen utama,:
• dataset yang akan dianalisa oleh user: Yang merupakan backend
dari QlikView document dan berisi seluruh source tables yang
diperlukan untuk membangun data model.
• user interface di mana pengguna bisa menganalisis data:
Merupakan frontend aplikasi analitik dan berisi objek-objek yang
dikandung dalam dokumen (seperti listbox untuk membuat pilihan
dan filter data), atau grafik dan tables yang digunakan untuk
menampilkan informasi.
29
Contoh Tampilan
Terimakasih

More Related Content

Similar to Big Data Analytics Tools

Big data Traveloka.pptx
Big data Traveloka.pptxBig data Traveloka.pptx
Big data Traveloka.pptxjeniart
 
Business analitics
Business analiticsBusiness analitics
Business analiticsDara Shavira
 
Perencanaan dan Akses Kebutuhan
Perencanaan dan Akses KebutuhanPerencanaan dan Akses Kebutuhan
Perencanaan dan Akses KebutuhanNova ed
 
Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)ArianDerida
 
Sejarah perkembangan basis data
Sejarah perkembangan basis dataSejarah perkembangan basis data
Sejarah perkembangan basis dataDayu Ratna
 
Tugas 1 kelompok management data.pptx
Tugas 1 kelompok management data.pptxTugas 1 kelompok management data.pptx
Tugas 1 kelompok management data.pptxMuhammadAlvinSyahrin
 
Chapter 11 Data Management
Chapter 11   Data ManagementChapter 11   Data Management
Chapter 11 Data ManagementHani Novita
 
pertemuan2.ppt
pertemuan2.pptpertemuan2.ppt
pertemuan2.pptdenyadhar2
 
Kel2 Data Warehouse 2
Kel2 Data Warehouse 2Kel2 Data Warehouse 2
Kel2 Data Warehouse 2Mrirfan
 
Kel2 Data Warehouse
Kel2 Data WarehouseKel2 Data Warehouse
Kel2 Data WarehouseMrirfan
 
Membangun platform big data
Membangun platform big data Membangun platform big data
Membangun platform big data Okta Jilid II
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big dataHallifatulAmbyah
 
Topik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.pptTopik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.pptwidisalendra1
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsHendro Subagyo
 
Kecerdasan bisnis- Sistem Penunjang Keputusan
Kecerdasan bisnis- Sistem Penunjang KeputusanKecerdasan bisnis- Sistem Penunjang Keputusan
Kecerdasan bisnis- Sistem Penunjang KeputusanDasufianti
 

Similar to Big Data Analytics Tools (20)

Arsitektur dan model data mining
Arsitektur dan model data miningArsitektur dan model data mining
Arsitektur dan model data mining
 
Big data Traveloka.pptx
Big data Traveloka.pptxBig data Traveloka.pptx
Big data Traveloka.pptx
 
Big Data
Big DataBig Data
Big Data
 
Kecerdasan bisnis
Kecerdasan bisnisKecerdasan bisnis
Kecerdasan bisnis
 
mengelola sumber data
mengelola sumber datamengelola sumber data
mengelola sumber data
 
Business analitics
Business analiticsBusiness analitics
Business analitics
 
Perencanaan dan Akses Kebutuhan
Perencanaan dan Akses KebutuhanPerencanaan dan Akses Kebutuhan
Perencanaan dan Akses Kebutuhan
 
Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)Big Data - Python for Data Science (Bahas Indonesia)
Big Data - Python for Data Science (Bahas Indonesia)
 
Sejarah perkembangan basis data
Sejarah perkembangan basis dataSejarah perkembangan basis data
Sejarah perkembangan basis data
 
Tugas 1 kelompok management data.pptx
Tugas 1 kelompok management data.pptxTugas 1 kelompok management data.pptx
Tugas 1 kelompok management data.pptx
 
Chapter 11 Data Management
Chapter 11   Data ManagementChapter 11   Data Management
Chapter 11 Data Management
 
pertemuan2.ppt
pertemuan2.pptpertemuan2.ppt
pertemuan2.ppt
 
Kel2 Data Warehouse 2
Kel2 Data Warehouse 2Kel2 Data Warehouse 2
Kel2 Data Warehouse 2
 
Kel2 Data Warehouse
Kel2 Data WarehouseKel2 Data Warehouse
Kel2 Data Warehouse
 
Membangun platform big data
Membangun platform big data Membangun platform big data
Membangun platform big data
 
Consumer behavior and big data
Consumer behavior and big dataConsumer behavior and big data
Consumer behavior and big data
 
Topik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.pptTopik 24 Processing Data dan Visualisasi.pptx.ppt
Topik 24 Processing Data dan Visualisasi.pptx.ppt
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
Kecerdasan bisnis- Sistem Penunjang Keputusan
Kecerdasan bisnis- Sistem Penunjang KeputusanKecerdasan bisnis- Sistem Penunjang Keputusan
Kecerdasan bisnis- Sistem Penunjang Keputusan
 
Data mining
Data miningData mining
Data mining
 

Recently uploaded

Materi Membangun Budaya Ber-Integritas Antikorupsi bagi ASN .pptx
Materi Membangun Budaya Ber-Integritas Antikorupsi bagi ASN .pptxMateri Membangun Budaya Ber-Integritas Antikorupsi bagi ASN .pptx
Materi Membangun Budaya Ber-Integritas Antikorupsi bagi ASN .pptxBudyHermawan3
 
UUD NRI TAHUN 1945 TENTANG HAK DAN KEWAJIBAN PASAL 28D AYAT 1
UUD NRI TAHUN 1945 TENTANG HAK DAN KEWAJIBAN PASAL 28D AYAT 1UUD NRI TAHUN 1945 TENTANG HAK DAN KEWAJIBAN PASAL 28D AYAT 1
UUD NRI TAHUN 1945 TENTANG HAK DAN KEWAJIBAN PASAL 28D AYAT 1RomaDoni5
 
MAKALAH KELOMPOK II (1).pdf Prinsip Negara Hukum
MAKALAH KELOMPOK II (1).pdf Prinsip Negara HukumMAKALAH KELOMPOK II (1).pdf Prinsip Negara Hukum
MAKALAH KELOMPOK II (1).pdf Prinsip Negara Hukumbrunojahur
 
mata pelajaran geografi ANTROPOSFER 2.ppt
mata pelajaran geografi ANTROPOSFER 2.pptmata pelajaran geografi ANTROPOSFER 2.ppt
mata pelajaran geografi ANTROPOSFER 2.pptMuhammadNorman9
 
emka_Slide Recall Modul Melakukan Perencanaan PBJP Level 1 V3.1.pptx
emka_Slide Recall Modul Melakukan Perencanaan PBJP Level 1 V3.1.pptxemka_Slide Recall Modul Melakukan Perencanaan PBJP Level 1 V3.1.pptx
emka_Slide Recall Modul Melakukan Perencanaan PBJP Level 1 V3.1.pptxAmandaJesica
 
Administrasi_pengelolaan_hibah Pemerintah
Administrasi_pengelolaan_hibah PemerintahAdministrasi_pengelolaan_hibah Pemerintah
Administrasi_pengelolaan_hibah PemerintahAnthonyThony5
 
INDIKATOR DAN SUB INDIKATOR MCP PELAYANAN PUBLIK.pdf
INDIKATOR DAN SUB INDIKATOR MCP PELAYANAN PUBLIK.pdfINDIKATOR DAN SUB INDIKATOR MCP PELAYANAN PUBLIK.pdf
INDIKATOR DAN SUB INDIKATOR MCP PELAYANAN PUBLIK.pdfNetraHartana
 
Permen PANRB Nomor 3 Tahun 2023 - Tentang Penetapan Angka Kredit
Permen PANRB Nomor 3 Tahun 2023 - Tentang Penetapan Angka KreditPermen PANRB Nomor 3 Tahun 2023 - Tentang Penetapan Angka Kredit
Permen PANRB Nomor 3 Tahun 2023 - Tentang Penetapan Angka KreditYOSUAGETMIRAJAGUKGUK1
 

Recently uploaded (8)

Materi Membangun Budaya Ber-Integritas Antikorupsi bagi ASN .pptx
Materi Membangun Budaya Ber-Integritas Antikorupsi bagi ASN .pptxMateri Membangun Budaya Ber-Integritas Antikorupsi bagi ASN .pptx
Materi Membangun Budaya Ber-Integritas Antikorupsi bagi ASN .pptx
 
UUD NRI TAHUN 1945 TENTANG HAK DAN KEWAJIBAN PASAL 28D AYAT 1
UUD NRI TAHUN 1945 TENTANG HAK DAN KEWAJIBAN PASAL 28D AYAT 1UUD NRI TAHUN 1945 TENTANG HAK DAN KEWAJIBAN PASAL 28D AYAT 1
UUD NRI TAHUN 1945 TENTANG HAK DAN KEWAJIBAN PASAL 28D AYAT 1
 
MAKALAH KELOMPOK II (1).pdf Prinsip Negara Hukum
MAKALAH KELOMPOK II (1).pdf Prinsip Negara HukumMAKALAH KELOMPOK II (1).pdf Prinsip Negara Hukum
MAKALAH KELOMPOK II (1).pdf Prinsip Negara Hukum
 
mata pelajaran geografi ANTROPOSFER 2.ppt
mata pelajaran geografi ANTROPOSFER 2.pptmata pelajaran geografi ANTROPOSFER 2.ppt
mata pelajaran geografi ANTROPOSFER 2.ppt
 
emka_Slide Recall Modul Melakukan Perencanaan PBJP Level 1 V3.1.pptx
emka_Slide Recall Modul Melakukan Perencanaan PBJP Level 1 V3.1.pptxemka_Slide Recall Modul Melakukan Perencanaan PBJP Level 1 V3.1.pptx
emka_Slide Recall Modul Melakukan Perencanaan PBJP Level 1 V3.1.pptx
 
Administrasi_pengelolaan_hibah Pemerintah
Administrasi_pengelolaan_hibah PemerintahAdministrasi_pengelolaan_hibah Pemerintah
Administrasi_pengelolaan_hibah Pemerintah
 
INDIKATOR DAN SUB INDIKATOR MCP PELAYANAN PUBLIK.pdf
INDIKATOR DAN SUB INDIKATOR MCP PELAYANAN PUBLIK.pdfINDIKATOR DAN SUB INDIKATOR MCP PELAYANAN PUBLIK.pdf
INDIKATOR DAN SUB INDIKATOR MCP PELAYANAN PUBLIK.pdf
 
Permen PANRB Nomor 3 Tahun 2023 - Tentang Penetapan Angka Kredit
Permen PANRB Nomor 3 Tahun 2023 - Tentang Penetapan Angka KreditPermen PANRB Nomor 3 Tahun 2023 - Tentang Penetapan Angka Kredit
Permen PANRB Nomor 3 Tahun 2023 - Tentang Penetapan Angka Kredit
 

Big Data Analytics Tools

  • 1. Big Data Analytics Tools dan Aplikasinya
  • 2. Agenda • Pengantar Big Data • Data Mining - Text Mining - Image Mining • Business Intelligence Tools For Big Data • Big Data Analytics dengan QlikView 2
  • 3. Apa itu Big Data?  Big Data: istilah untuk data sangat besar dan kompleks yang tidak dapat dikelola (capture, store, manage, analyze) dengan software dan tool pemrograman database biasa/konvensional.  Tidak cukup dengan SQL biasa saja (Relational Database Management System), sehingga butuh teknologi baru/tambahan NoSQL (Not only SQL).  Tidak hanya berisi data berstruktur/relational tapi juga (mayoritas) tidak berstruktur (unstructured). 3
  • 5. 3V – 4V – 5V  Volume: Ukuran data sangat besar dari sisi jumlah yang mencapai Milyaran Terra Byte = trilyunan GB.  Velocity: Kecepatan data sangat besar dari sisi kemunculan dan perubahan.  Variety: Variasi jenis/tipe data sangat banyak, unstructured dan multi- structured.  Value: Nilai yang dihasilkan juga sangat besar, dari sisi manfaat dalam bentuk uang maupun non uang.  Veracity: Kebenaran dan keakuratan informasi yang tidak mudah dipastikan, misal salah ketik di Twitter. 5
  • 6. Big Volume •Volume bertambah secara eksponensial. Pada 2015: 8 Zetta Bytes = 8.000 Peta Bytes = 8 juta Exa Bytes = 8 milyar Terra Bytes = 8 trilyun Giga Bytes. *) *) Sumber: wipro.com 6
  • 7. Big Velocity Pertambahan (2011): - Twitter 7 TB/hari - Facebook 10 TB/hari Sumber: bigdatauniversity.com 7
  • 9. Hadoop dan Big Data • Open-Source Framework untuk memproses himpunan-data berskala besar (big data) dalam beberapa cluster hardware komputer • Dikembangkan menggunakan bahasa Java, beberapa menggunakan C dan utilitas command line sebagai shell-scripts • Dikembangkan oleh Apache Software foundation ( apache.org ) 2007 dibawah lisensi v2 Apache 9
  • 10. Job Type for Big Data Job Type Job functions Skill Hadoop Developer develops MapReduce jobs, designs data warehouses Java, Scripting, Linux Hadoop Admin manages Hadoop cluster, designs data pipelines Linux administration, Network Management, Experience in managing large cluster of machines Data Scientist Data mining and figuring out hidden knowledge in data Math, data mining algorithms Business Analyst Analyzed data! Pig, Hive, SQL, familiarity with BI tools 10
  • 11. Potensi Big Data • Jumlah data yang telah dibuat dan disimpan pada tingkat global hari ini hampir tak terbayangkan jumlahnya. Data tersebut terus tumbuh tanpa henti. Sayangnya sampai saat ini, baru sebagian kecil data yang telah dianalisis. • Pentingnya Big Data, tidak hanya seputar pada jumlah data yang di miliki, tetapi hal yang penting adalah bagaimana mengolah data data tersebut untuk pengambilan keputusan. Misalnya menganalisa data untuk menemukan jawaban yang diinginkan dalam kegiatan bisnis seperti: • pengurangan biaya; • pengurangan waktu; • pengembangan produk baru dan optimalisasi penawaran produk; dan • pengambilan keputusan yang cerdas. 11
  • 12. Informasi Pengetahuan Kebijakan Aksi Data Siklus Data, Informasi, Pengetahuan dan Kebijakan SIM BI - DM DSS SOP 12
  • 13. Apa itu Data Mining? • Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data yang besar • Ekstraksi dari data ke pengetahuan: 1. Data: fakta yang terekam dan tidak membawa arti 2. Pengetahuan: pola, rumus, aturan atau model yang muncul dari data • Nama lain data mining: • Knowledge Discovery in Database (KDD) • Knowledge extraction • Pattern analysis • Information harvesting • Business intelligence 13
  • 14. Definisi Data Mining • Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data (Witten et al., 2011) • Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa, 2007) • Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data (Han et al., 2011) 14
  • 15. Proses Data Mining Pembersihan Data Data Integration Databases Data Warehouse Task-relevant Data Selection Data Mining Pattern Evaluation Diambil dari www.cs.uiuc.edu/~hanj 15
  • 16. Metode Data Mining 1. Estimation (Estimasi): • Linear Regression, Neural Network, Support Vector Machine, etc 2. Prediction/Forecasting (Prediksi/Peramalan): • Linear Regression, Neural Network, Support Vector Machine, etc 3. Classification (Klasifikasi): • Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression, etc 4. Clustering (Klastering): • K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc 5. Association (Asosiasi): • FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc 16
  • 17. Pengetahuan (Pola/Model) 1. Formula/Function (Rumus atau Fungsi Regresi) • WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Rule (Aturan) 3. IF ips3=2.8 THEN lulustepatwaktu 4. Cluster (Klaster) 17
  • 18. Top Data Mining Software Used http://www.kdnuggets.com/polls/2015/analytics-data-mining-data-science-software-used.html 18
  • 19. RapidMiner • RapidMiner saat ini sudah digunakan dalam berbagai industri termasuk otomotif, perbankan, asuransi, Ilmu kehidupan, manufaktur, minyak dan gas, retail, telekomunikasi dan utilitas. • RapidMiner v6.0 tetap open source. RapidMiner versi terbaru sekarang hanya tersedia sebagai versi trial atau di bawah lisensi komersial. • RapidMiner Studio : Sebuah perangkat lunak yang berdiri sendiri yang dapat digunakan untuk persiapan data, visualisasi dan pemodelan statistik • RapidMiner Server : Ini adalah sebuah enterprise-grade dengan repositori sentral yang dapat meningkatkan bekerja secara team jauh lebih mudah, manajemen proyek dan deployment. • RapidMiner Radoop : Mengimplementasikan kemampuan analisis Big Data yang berpusat pada Hadoop. • RapidMiner Cloud : Sebuah repositori berbasis cloud yang memungkinkan dan memudahkan berbagi informasi di antara dan berbagai perangkat. 19
  • 20. Pengenalan Interface • RapidMiner menyediakan tampilan yang user friendly untuk memudahkan penggunanya ketika menjalankan aplikasi. Tampilan pada RapidMiner dikenal dengan istilah Perspective. Pada RapidMiner terdapat 3 Perspective, yaitu; Welcome Perspective, Design Perspective dan Result Perspective.
  • 21. Design Perspective • Design Perspective merupakan lingkungan kerja RapidMiner. Dimana Design Perspective ini merupakan perspective utama dari RapidMiner yang digunakan sebagai area kerja untuk membuat dan mengelola proses analisis.
  • 22. Operator dan Proses • Proses data mining pada dasarnya adalah proses analisa yang berisi alur kerja dari komponen data mining • Komponen dari proses ini disebut operator, yang didefinisikan dengan: 1. Deskripsi input 2. Deskripsi output 3. Aksi yang dilakukan 4. Parameter yang diperlukan 22
  • 23. Implementasi DM dengan RapidMiner • Penggunaan RapidMiner for Linear regression • Penggunaan RapidMiner for Text Mining • Penerapan Big Data for CAD 23
  • 24. Business Intelligence Tools For Big Data • Analytics dengan Hadoop dilakukan dengan: • Menulis code using Java, Python, R ..dll • Menggunakan high level Pig scripts • Menguunakan SQL dengan Hive • Melakukan analisis menggunakan tools tsb tidaklah mudah. Business Intelligence tools (BI tools) dapat mengatasi masalah ini. 24
  • 25. Business Intelligence • BI merupakan sistem dan aplikasi yang berfungsi untuk mengubah data-data dalam suatu perusahaan atau organisasi (data operasional, data transaksional, atau data lainnya) ke dalam bentuk pengetahuan. • Aplikasi ini melakukan analisis data-data di masa lampau, menganalisisnya dan kemudian menggunakan pengetahuan tersebut untuk mendukung keputusan. 25
  • 26. Metodologi Pembangunan BI Untuk bisa mendapatkan manfaat BI, dibutuhkan tahapan proses sebagai dasar untuk implementasi business intelligence, yaitu: • Business understanding (pemahaman kebutuhan pengguna), Mendefinisikan informasi apa saja yang dibutuhkan, data-data apa saja yang perlu dianalisis, dan dimana sajakah data-data tersebut dikelola. Siapa sajakah yang terkait dengan kebutuhan analisis tersebut dan bagaimana bentuk informasi yang diharapkan • Data understanding (pemahaman kondisi data yang dimiliki), BI tidak akan dapat digunakan dengan baik jika data yang akan dianalisis merupakan data yang tidak/kurang baik kualitasnya. Data yang tidak/kurang baik akan menghasilkan informasi yang kurang baik dalam pengambilan keputusan (garbage in = garbage out ) • Data preparation (melakukan penyesuaian data untuk memenuhi kebutuhan). • Modeling assessment (memilih model yang akan digunakan). • Review and evaluation (upaya meningkatkan value atas sistem) 26
  • 28. Big Data Analytics dengan QlikView • QlikView memainkan peran penting dalam implementasi Big Data, menyediakan kecepatan maupun analisis yang fleksibel bagi pengguna serta kemampuan untuk mengintegrasikan data dari berbagai sumber (misalnya, dari sumber Big Data, data warehouse, database departemen, dan spreadsheet), dan melakukan analisis secara interaktif. 28
  • 29. Membangun App dengan QV • QlikView document terdiri dari dua elemen utama,: • dataset yang akan dianalisa oleh user: Yang merupakan backend dari QlikView document dan berisi seluruh source tables yang diperlukan untuk membangun data model. • user interface di mana pengguna bisa menganalisis data: Merupakan frontend aplikasi analitik dan berisi objek-objek yang dikandung dalam dokumen (seperti listbox untuk membuat pilihan dan filter data), atau grafik dan tables yang digunakan untuk menampilkan informasi. 29