1. BEGIN WITH DATA SCIENCE
K e l o m p o k 3 :
A g u s M a i l a n a ( 1 9 1 1 6 0 0 6 9 8 )
S a r i f u d l i n H i d a y a t ( 1 9 1 1 6 0 0 6 0 7 )
B a m b a n g S u h a r j o ( 1 9 1 1 6 0 0 7 3 0 )
A n d i A g u n g P u t r a ( 1 9 1 1 6 0 0 6 1 5 )
M a t a K u l i a h
M a n a j e m e n d a n A n a l i s i s B i g D a t a
D r . R u d i R u s d i a h , M . B . A , M . A
2. What Is
Data Science
Data science adalah ilmu yang menggabungkan
matematika, statisika dengan ilmu komputer dengan
tujuan analisa data (data analysis) dari suatu himpunan
data baik skala kecil (sampel) maupun besar (populasi)
dengan mengaplikasikan algoritma tertentu untuk tujuan
menggali data (data mining) dan mendapatkan pola data
serta dapat melakukan prediksi data (prediction) dengan
cukup akurat yang dapat membantu dalam pengambilan
keputusan dan dapat digunakan untuk membuat sistem
yang cerdas (AI) yang dapat terus belajar dengan
sendirinya (machine learning).
4. Apa Perbedaan Data Science, Data Mining, dan
Machine Learning???
Data Science melibatkan proses berikut :
•Data Mining adalah proses pengambilan
informasi dari pola data dari himpunan data yang
sebelumnya tidak diketahui, kadang disebut juga
Data Discovery.
Data Mining fokus pada mengekstrak pola
menggunakan metode statistik untuk dianalisa dan
dapat juga melakukan prediksi.
•Machine learning adalah bidang yang merupakan
bagian dari Artificial Intelligence (AI) yang
digunakan agar sistem komputer secara otomatis
dapat belajar dengan sendirinya tanpa diberi
instruksi pemrograman dan dapat meningkatkan
prediksi yang akurat dan pengunaannya biasanya
sifatnya realtime.
Jadi Data Mining dan Machine
Learning merupakan bagian dari Data
Science
6. Tujuan Data Science
(cont)
• Deskripsi yaitu menampilkan pola data untuk dianalisa
dan penemuan masalah.
• Prediksi yaitu melakukan prediksi berupa nilai,
probabilitas maupun data dan kemudian
merekomendasikan hasilnya untuk digunakan sebagai
alat bantu pengambil keputusan maupun secara
langsung digunakan secara otomatis oleh sistem.
Menggali data dan memberikan informasi seakurat
mungkin yang digunakan untuk :
7. Jenis Pembelajaran Data Science
Supervised Learning
(Prediksi)
Untuk membentuk sistem yang
cerdas, sistem harus diberikan
pelatihan terlebih dahulu (training)
dengan data fakta (labelled
training), sistem akan belajar dan
membentuk pola data yang ada
baru kemudian digunakan untuk
melakukan prediksi, proses
belajarnya seperti anak murid yang
diajarkan oleh guru.
Unsupervised Learning
(Deskripsi)
Sistem dapat mengandalkan
data yang belum dilatih
sebelumnya (unlabelled
training) dan dapat
membentuk pola data yang
sifatnya deskriptif, bukan
untuk prediksi.
Reinforced dan Deep Learning
(Prediksi)
Sistem belajar dari feedback
lingkungan dengan teknik learning
yang iteratif (berulang-ulang) dan
adaptif (menyesuaikan) seperti cara
manusia belajar dengan sendirinya,
algoritma digunakan untuk memaksa
sistem belajar menemukan nilai
optimal dengan coba-coba (trial and
error). Teknik pembelajaran
menggunakan algoritma Neural
Network berlapis yang sangat mirip
dengan cara kerja otak manusia
dimana neuron-neuron satu sama lain
membentuk jaringan neuron yang
sangat rumit.
8. Data Science Biasanya digunakan untuk apa ?
Digunakan untuk banyak jenis seperti
: Prediksi populasi, cuaca, kondisi
pasar, iklan, pendeteksi penipuan,
klasifikasi gambar, pola kebiasaan
pelanggan, jenis atau karakteristik
pelanggan, marketing yang lebih
terarah, rekomendasi produk, AI
Game, pendeteksi anomali dan masih
banyak kegunaan lainnya.
10. Machine Learning
Program
Output
Data Input
Machine Learning
Perbedaan Machine
Learning dan
Pemrograman
Traditional
Machine Learning hanya
membutuhkan Data sebagai input
dan contoh output yang
diinginkan, dan sistem akan
mencari dengan sendirinya
program perhitungannya.
13. Data terstruktur (structured data); yakni data
yang sudah dikelola, diproses dan dimanipulasi
dalam RDBMS (Relational Database
Management System). Misalnya data tabel
hasil masukan formulir pendaftaran di sebuah
layanan web.
Data tidak terstruktur (unscructured data); yakni
berupa data mentah yang baru didapat dari
beragam jenis aktivitas dan belum disesuaikan
ke dalam format basis data. Misalnya berkas
video yang didapat dari kamera.
Data semi terstruktur (semistructured
data); yakni berupa data yang memiliki struktur,
misalnya berupa tag, akan tetapi belum
sepenuhnya terstruktur dalam sistem basis
data. Misalnya data yang memiliki
keseragaman tag, namun memiliki isian yang
berbeda didasarkan pada karakteristik pengisi.
Jenis data yang akan dikelola
14.
15. BASIC ABILITY
Untuk menjadi seorang Data Scientist
diperlukan pemahaman tentang
beberapa hal, yakni kemampuan
analisis menggunakan konsep
matematika dan statistik, kemampuan
pemrograman untuk pengolahan data,
dan pemahaman pada subjek spesifik
pada bidang bisnis yang digeluti.
Karena menangani kebutuhan di
bidang tertentu, Data Scientist sering
direpresentasikan pada sebuah istilah
yang lebih rinci, misalnya ad-tech data
scientist, political analyst, head of
banking digital analyst dsb
MASTER PROGRAM IN DATA
SCIENCE – UNIMELB
• Methods of Mathematical Statistics
• A First Course In Statistical Learning
• Statistical Modelling for Data Science
• Multivariate Statistics for Data Science
• Computational Statistics & Data Science
• Programming and Software
Development
• Algorithms and Complexity
• Elements of Data Processing
• Database Systems & Information
Modelling
• Cluster and Cloud Computing
• Advanced Database Systems
• Statistical Machine Learning
• Data Science Research Project Pt1
• Data Science Research Project Pt2
16. Python adalah bahasa yang sangat populer,
dinamis, dan merupakan bahasa yang digunakan
secara luas dalam komunitas data science.
bahasa ini adalah bahasa yang sangat cocok
untuk pemula karena sintaksnya yang mudah dan
simple, Python telah menjadi bahasa
pemrograman terkemuka untuk data science.
Dengan kemajuan teknologi seperti Artificial
Intellegent,Machine learning dan analisis prediktif,
permintaan untuk data scientist yang memiliki
keterampilan Python meningkat secara
signifikan.secara garis besar python juga
digunakan untuk berbagai mcam kebutuhan
diantaranya pengembangan web, komputasi
ilmiah, data mining, dan banyak lagi.
17. Ini adalah salah satu alat yang paling sering digunakan.
R adalah bahasa open source dan lingkungan
perangkat lunak untuk komputasi statistik dan grafis,
yang didukung oleh R Yayasan Komputasi Statistika.
keahlian ini memiliki permintaan tinggi di semua
perekrut dalam mesin pembelajaran dan ilmu
pengetahuan data.
R menyediakan banyak model statistik, dan banyak
analis telah mengumpulkan aplikasi mereka di R. Ini
adalah puncak dari analisis statistik terbuka, dan ada
fokus yang jelas pada model statistik yang telah
dikembangkan dengan memanfaatkan R. Arsip paket R
publik , berisi lebih dari 8.000 jaringan berkontribusi
paket. Microsoft, RStudio, dan berbagai organisasi
memberikan dukungan untuk bisnis berbasis komputasi
R.
18. Microsoft Excel: Powerful Data
Analytics on a Smaller Scale
Microsoft Excel adalah aplikasi pengolah data yang
menggunakan spreadsheet untuk manajemen data
dan perintah. Tidak bisa dipungkiri, hampir semua
perusahaan menggunakan Microsoft Excel untuk
melakukan olah data. Dalam hal ilmu data,
Microsoft Excel berpartisipasi untuk melakukan
analisis data skala kecil menjadi lebih mudah.
Beberapa fitur yang diberikan seperti tabel pivot,
add-ins, team, dan macro adalah fitur yang sangat
berguna untuk melakukan analisis data. Selain itu
banyak formula-formula pendukung seperti
financial, statistical, dan engineering yang dapat
mempermudah melakukan perhitungan terhadap
data menggunakan metode-metode tertentu.
19. SAS (Statistical Analysis System):
Data Mining Software Suite
SAS adalah software yang telah digunakan
oleh sebagian besar negara di dunia untuk
melakukan analisis statistika dan
perencanaan keuangan. Indonesia
merupakan salah satu negara yang telah
menjadi pelanggan dan partner setia dari
SAS, khususnya Direktorat Jenderal
Perbendaharaan Kementerian Keuangan RI.
SAS menjadi pilihan terbaik untuk
melakukan analisis big data karena
pengelolaan resource hardware seperti
prosesor dan RAM sangat efisien.
20. IBM: SPSS Modeler and SPSS
Analytics
SPSS adalah software yang populer dikalangan
statistikawan untuk melakukan analisis data dalam
berbagai keperluan. SPSS secara user interface
mempunyai tampilan yang hampir sama dengan
Microsoft Excel. Selain itu kedua software ini
menggunakan fundamental spreadsheet untuk
melakukan olah data. Namun dalam soal
perhitungan statistika software SPSS jauh
mengungguli Microsoft Excel.
Software SPSS Modeler dan SPSS Statistics
diakuisisi oleh IBM pada tahun 2009, dan memiliki
pengikut setia di antara para ahli statistik.
Software ini mengintegrasikan Hadoop untuk
melakukan perhitungan komputasi dengan
menggunakan big data.
21. MATLAB: Analyzing Data,
Developing Algorithms, or Creating
Models
Matlab merupakan software sekaligus bahasa
pemrograman yang cukup populer di kalangan
engineering. Dari ketiga software di atas,
MATLAB lebih mengungguli dalam melakukan
analisis yang menggunakan perhitungan
aljabar linear (Matriks) dan menampilkan
grafik dengan dukungan kustomisasi terbaik.
Namun, untuk dalam penggunaannya MATLAB
terlihat rumit untuk pengguna diluar disiplin
ilmu engineering (teknik), yang sudah terbiasa
berinteraksi dengan bahasa pemrograman.
22. A g u s M a i l a n a ( 1 9 1 1 6 0 0 6 9 8 ) S a r i f u d l i n H i d a y a t ( 1 9 1 1 6 0 0 6 0 7 )
B a m b a n g S u h a r j o ( 1 9 1 1 6 0 0 7 3 0 )
A n d i A g u n g P u t r a ( 1 9 1 1 6 0 0 6 1 5 )