1. Analisa
Data
di
Python
dengan
Pandas
Sigit
Nurseto
sigit@zinglab.com
2014
2. Fokus
kita
• Pengenalan
Pandas
• Pandas
Basic
• Live
Review,
analisa
data
film
IMDB
3. Data
Analysis
Data
Analysis
memberi
kita
informasi
yang
berguna
tentang
pattern,
relationship
atau
tren
dari
suatu
kumpulan
data.
4. Pandas
• Python
Library
open
source
untuk
Data
Analysis
• Panel
Data
System
• Open
Sourced
sejak
2009,
30
ribu
Python/Cython
code
• Mulai
digunakan
di
production
di
banyak
perusahaan
• Cepat
dan
intuitive
5. Gunanya
?
• Munging
Data
• Cleaning
Data
• Analyzing
• Modeling
Data
• Menghasilkan
bentuk
lain
dari
analisa
data
misalnya
Chart
7. Data
Model
• Series
:
Object
Satu
Dimensi
• DataFrame
:
Object
Dua
Dimensi
dengan
row
dan
column
8. Series
• Object
1
dimensi
seperti
array,
list,
atau
column
di
table
• Memiliki
label
index
untuk
setiap
item
• Bisa
memiliki
tipe
data
yang
berbeda-‐beda
• Bisa
di
convert
ke
dict,
json
dll
9. Data
Frame
• Struktur
data
yang
terdiri
dari
rows
dan
columns,
seperti
excel
spreadsheet
atau
database
table.
• Group
dari
object
series
yang
memiliki
column
yang
sama.
• Tiap
column
bisa
memiliki
tipe
data
yg
berbeda
• Bisa
di
convert
ke
dict,
json,
dll
10. Indexes
• Setiap
axis
memiliki
index
• Digunakan
untuk
:
– Fast
lookups
– Data
alignment
atau
join
11. Methods
• Group
by:
split-‐apply-‐combine
• Merge,
join
dan
aggregate
• Reshaping
• Plotting
with
matplotlib
• IO
Tools
(Text,
CSV,
HDF5,
Json,..)
12. Live
Preview
• Tools
yang
digunakan
:
– Pandas
– Ipython
notebook
– Imdbpy
(
untuk
export
raw
data
imdb
ke
database
)
• Source
Data
:
–
http://www.imdb.com/interfaces