DATA SCIENTIST 1.pdf

HOW TO BECOME A
“REAL” DATA SCIENTIST
(TH, 2017)

BUMI ITU…
BULAT VS DATAR
???

SCIENTIST IS KAYPOH !!
Why?
Why? Why?
Why? Why? Why?

WIKIPEDIA:
A scientist is a person engaging in a systematic
activity to acquire knowledge that describes and
predicts the natural world.

WIKIPEDIA:
Data

predicts the natural world.

WIKIPEDIA:
Data

predicts the natural world.→ Data

WIKIPEDIA:
Data

predicts the natural world.→ Data
Data: a set of values of qualitative or
quantitative variables.

Formulation
MATHEMATICAL MODEL
(MODELER)
MATHEMATICAL RESULTS
(PROGRAMMER)
REAL WORLD (DATA ANALYST)
Interpretation
Mathematical
Analysis
DATA SCIENTIST

DATA SCIENTIST
Formulation
MATHEMATICAL MODEL
(MODELER)
(PROGRAMMER)
Ex: Text Mining
Interpretation
Mathematical
Analysis

DATA SCIENTIST
Formulation
MATHEMATICAL MODEL
(MODELER)
Latent Dirichlet
Allocation
(PROGRAMMER)
Ex: Text Mining
Interpretation
Mathematical
Analysis

DATA SCIENTIST
Formulation
MATHEMATICAL MODEL
(MODELER)
Latent Dirichlet
Allocation
(PROGRAMMER)
Topic Model
Ex: Text Mining
Interpretation
Mathematical
Analysis

RESEARCH METHODOLOGY
PROBLEMS
TRIGGERS

PROBLEMS
TRIGGERS
DATA
DATA SCIENTIST

PROBLEMS
SOLVE
TRIGGERS
DATA
DATA SCIENTIST

PROBLEMS
SOLVE
QUALITATIVE
METHOD
QUANTITATIVE
METHOD
TRIGGERS
DATA
DATA SCIENTIST

PROBLEMS
SOLVE
QUALITATIVE
METHOD
QUANTITATIVE
METHOD
TRIGGERS
DATA
DATA SCIENTIST
√
×

APPROACHES
STATISTICS MACHINE LEARNING

APPROACHES
STATISTICS
-Population VS Sample
MACHINE LEARNING
-Training VS Testing

APPROACHES
STATISTICS
-Confidence
MACHINE LEARNING
-Accuracy

APPROACHES
STATISTICS
-Confidence
MACHINE LEARNING
-Accuracy
(SAMPLE)DATA≠(BIG)DATA

Variables
Measurable Latent
Categorical Numerical

Variables
Measurable Latent
Likert
Thurstone
Semantic
Differential

Variables
Measurable Latent
Nominal Ordinal Interval Ratio
Likert
Thurstone
Semantic
Differential

NOTES:
-Big data analytic needs CLEAR definition of
variables.

NOTES:
variables.
-Data cleansing is a MUST!!

NOTES:
variables.
-Data cleansing is a MUST!!
-Garbage in, Garbage out.

Now assume that you have a
cleansed big data set...

- Describe the data using visualization or other appropriate
measurements.

measurements.
- Define the problem.

measurements.
- Supervised VS Unsupervised

measurements.
- Balanced VS Unbalanced

measurements.
- Cross-section VS Time-Series VS Panel

measurements.
- Prediction: Estimation VS Forecasting

measurements.
- Improvement: Accuracy VS Insight

measurements.
- Modeling.

measurements.
- Modeling.
- Expertise

measurements.
- Modeling.
- Expertise
- Econometric

measurements.
- Modeling.
- Expertise
- Econometric
- AI

measurements.
- Modeling.
- Expertise
- Econometric
- AI
- Hybrid

Data
Validation set
Training set
Test set
Train
classifier
Homogeneous
ensemble
algorithm
Individual
classification
algorithm
Apply
model
Classification
models
Apply
model
Test set
prediction
Train
classifier
Ensemble model
Validation set
predictions
Apply
model
Heterogeneous
ensemble
algorithm
Features
Selection
Clustering
Estimated
Value
STATISTICAL LEARNING FLOWCHART
PLIZ, OJO NGE-LIB!!

OPTIMAL INDIVIDUAL SALES
ALLOCATION & FORECASTING
ASTRA HONDA MOTOR
- METRA DIGITAL MEDIA -

Description Value
ROW_ID Row ID NUMERIC
MAIN_PARTNER Nomor referral ID dari Astra World (AWO) NUMERIC
FRAME_NO Nomor rangka motor yang dipunyai customer TEXT
CUST_ID Nomor ID customer yang didapat dari KTP/SIM TEXT
SALES_DATE Tangga sepeda motor honda dibeli DATE (YYYY-MM-DD HH:MM:SS)
KODE_MESIN Tiap tipe motor mempunyai kode mesin yang berbeda dengan tipe motor yang lain 75 NOMINAL {JF81E, ...}
SEQUENCE_MESIN Sequence dari kode mesin NUMERIC
VARIAN_MOTOR Varian motor yang dipunyai customer 76 NOMINAL {ALL NEW VARIO, …}
COLOR Warna motor yang dipunyai customer 73 NOMINAL {HITAM, …}
KODE_CUSTOMER Tipe customer {INDIVIDUAL, COLLECTIVE, GROUP, JOINT PROMO}
JENIS_KELAMIN Jenis kelamin customer {LAKI-LAKI, PEREMPUAN}
TANGGAL_LAHIR Bulan dan tahun lahir customer DATE (MM/YYYY)
KELURAHAN_SURAT Kelurahan surat menyurat customer 1251 NOMINAL {KETEWEL, …}
KECAMATAN_SURAT Kecamatan surat menyurat customer 120 NOMINAL {SUKAWATI, …}
KOTA_SURAT Kota surat menyurat customer 30 NOMINAL {KAB. GIANYAR, …}
KODE_POS Kode pos surat menyurat customer NUMERIC
PROPINSI Propinsi surat menyurat customer 8 NOMINAL {BALI, …}
STATUS_RUMAH Status rumah customer {RUMAH SENDIRI, RUMAH SEWA, RUMAH ORANG TUA/KELUARGA}
JENIS_PENJUALAN_STNK Jenis penjualan saat keluar faktur (bener-benar terjual) {CASH, CREDIT}
JENIS_PENJUALAN_SSU Jenis penjualan ini saat deal, bisa berubah saat transaksi {CASH, CREDIT}
NAMA_LEASING_COMPANY Nama leasing company yang menangani cicilan customer TEXT
BESAR_DP Besar DP yang diberikan customer TEXT
BESAR_CICILAN Besar cicilan per bulan NUMERIC
LAMA_CICILAN Lama cicilan sampai lunas (bulan) NUMERIC
AGAMA Agama customer {HINDU, KRISTEN, ISLAM, KATOLIK, LAIN-LAIN, BUDHA}
PEKERJAAN Pekerjaan customer 16 NOMINAL {PEGAWAI SWASTA, …}
PENGELUARAN Pengeluaran customer per bulan {1,2,3,4,5,6,7}
PENDIDIKAN Pendidikan terakhir customer {SLTA/SMU, AKADEMI/DIPLOMA, TIDAK TAMAT SD, SD, SLTP/SMP, SARJANA, PASCA SARJANA}
NO_HP Nomor handphone customer TEXT
STATUS_NOMOR_HP Tipe kartu handphone customer {PRABAYAR, PASCABAYAR}
NO_TLP Nomor telepon customer TEXT
KEBERSEDIAAN DIHUBUNGI Kebersediaan customer untuk dihubungi lagi di masa depan {YES, NO}
MERK_MOTOR_SBLMNYA Merk motor yang dipunyai customer sebelumnya {HONDA, YAMAHA, SUZUKI, BELUM PERNAH MEMILIKI, KAWASAKI, MOTOR LAIN}
TYPE_MOTOR_SBLMNYA Tipe motor yang dipunyai customer sebelumnya {AT AUTOMATIC, CUB BEBEK, SPORT, BELUM PERNAH MEMILIKI}
SMH_DIGUNAKAN_UNTUK Tujuan dibelinya sepeda motor {LAIN-LAIN, KEBUTUHAN KELUARGA, KE SEKOLAH/ KE KAMPUS, BERDAGANG, PEMAKAIAN JARAK DEKAT, REKREASI / OLAH RAGA, BEKERJA}
YG_MENGGUNAKAN_SMH Orang yang akan menggunakan sepeda motor yang dibeli {ANAK, LAIN-LAIN, PASANGAN SUAMI ATAU ISTRI, SAYA SENDIRI}
MD Kode Main Dealer yang membawahi dealer tempat customer membeli sepeda motor Honda {N01}
DEALER_CODE Kode dealer tempat customer membeli sepeda motor Honda 77 NOMINAL {06877, …}
KODE_SALES_PERSON Kode sales person yang menjual sepeda motor Honda ke customer 1718 NOMINAL {218595, …}
TGL_MASUK_DATA Tanggal masuk ke AHM dari MD DATE (YYYY-MM-DD HH:MM:SS)
STATUS_VALIDASI Validasi dari MD untuk menandakan apakah baris data CDB terkait sudah divalidasi kebenarannya atau belum {1,2}
UPLOADED_ON Tanggal masuk ke AWO dari AHM DATE (YYYY-MM-DD HH:MM:SS)

METHODOLOGY
AHM
DEALER
DEALER
DEALER

METHODOLOGY
AHM
DEALER
DEALER
DEALER
❶

METHODOLOGY
AHM
DEALER
DEALER
DEALER
❶
FORECASTING

METHODOLOGY
AHM
DEALER
DEALER
DEALER
❶
ALLOCATION
FORECASTING

METHODOLOGY
AHM
DEALER
DEALER
DEALER
❶
ALLOCATION
FORECASTING
❷

METHODOLOGY
AHM
DEALER
DEALER
DEALER
❶
ALLOCATION
FORECASTING
❷
FORECASTING

METHODOLOGY
AHM
DEALER
DEALER
DEALER
❶
ALLOCATION
FORECASTING
❷
FORECASTING
TOTAL

METHODOLOGY
AHM
DEALER
DEALER
DEALER
ALLOCATION
FORECASTING
❷
FORECASTING
TOTAL

METHODOLOGY
AHM
DEALER
DEALER
DEALER
ALLOCATION
FORECASTING
❷
FORECASTING
TOTAL
❶

METHODOLOGY
AHM
DEALER
DEALER
DEALER
❶
ALLOCATION
FORECASTING
❷
FORECASTING
TOTAL
❷

DATA PREPARATION
NO VARIABEL NO VARIABEL
1ROW_ID 22BESAR_DP
2MAIN_PARTNER 23BESAR_CICILAN
3FRAME_NO 24LAMA_CICILAN
4CUST_ID 25AGAMA
5SALES_DATE 26PEKERJAAN
6KODE_MESIN 27PENGELUARAN
7SEQUENCE_MESIN 28PENDIDIKAN
8VARIAN_MOTOR 29NO_HP
9COLOR 30STATUS_NOMOR_HP
10KODE_CUSTOMER 31NO_TLP
11JENIS_KELAMIN 32KEBERSEDIAAN DIHUBUNGI
12TANGGAL_LAHIR 33MERK_MOTOR_SBLMNYA
13KELURAHAN_SURAT 34TYPE_MOTOR_SBLMNYA
14KECAMATAN_SURAT 35SMH_DIGUNAKAN_UNTUK
15KOTA_SURAT 36YG_MENGGUNAKAN_SMH
16KODE_POS 37MD
17PROPINSI 38DEALER_CODE
18STATUS_RUMAH 39KODE_SALES_PERSON
19JENIS_PENJUALAN_STNK 40TGL_MASUK_DATA
20JENIS_PENJUALAN_SSU 41STATUS_VALIDASI
21NAMA_LEASING_COMPANY 42UPLOADED_ON

DATA PREPARATION
1ROW_ID 22BESAR_DP
4CUST_ID 25AGAMA
16KODE_POS 37MD
NO VARIABEL
1SALES_DATE
2JENIS_PENJUALAN_STNK
3KODE_CUSTOMER
4BESAR_DP
5BESAR_CICILAN
6LAMA_CICILAN
7DEALER_CODE

DATA PREPARATION
1ROW_ID 22BESAR_DP
4CUST_ID 25AGAMA
16KODE_POS 37MD
NO VARIABEL
1SALES_DATE
3KODE_CUSTOMER
4HARGA_MOTOR
5DEALER_CODE
NO VARIABEL
1SALES_DATE
3KODE_CUSTOMER
4BESAR_DP
5BESAR_CICILAN
6LAMA_CICILAN
7DEALER_CODE

OPTIMAL INDIVIDUAL SALES FORECASTING

OPTIMAL INDIVIDUAL SALES ALLOCATION
Rp-
Rp200,000,000
Rp400,000,000
Rp600,000,000
Rp800,000,000
Rp1,000,000,000
Rp1,200,000,000
Rp1,400,000,000
Rp1,600,000,000

EXISTING VS PROPOSED ALLOCATION METHODOLOGY
Rp-
Rp500,000,000
Rp1,000,000,000
Rp1,500,000,000
Rp2,000,000,000
Rp2,500,000,000
Rp3,000,000,000
Rp3,500,000,000
3749
12642
9701
432
8692
12628
987
637
10244
11662
10090
9669
5563
7525
2564
8693
11840
793
4010
12993
9219
8122
5920
794
2521
9222
11646
5553
1847
5772
9221
11422
166
6855
7715
7803
6330
9220
10290
5780
2546
5267
11844
1646
13701
9223
13718
6877
2519
1905
10291
1904
12421
10098
12177
12646
986
3426
810
811
984
9930
15934
4
7440
812
Proposed Existing

DATA SCIENTIST 1.pdf

Recommended

Recommended

More Related Content

Similar to DATA SCIENTIST 1.pdf

Similar to DATA SCIENTIST 1.pdf (20)

Recently uploaded

Recently uploaded (20)

DATA SCIENTIST 1.pdf