PENGANTAR
DATA SCIENCE
PERTEMUAN 01
AGENDA HARI INI
 Mengapa Data Science?
 Apa itu Data Science?
 Siapa itu Data Scientist?
 Bagaimana Masalah diselesaiakan Dengan Data Science?
 Komponen Data Science
WHY DATA SCIENCE?
WHY DATA SCIENCE?
hal yang paling melimpah hari ini, adalah data, kami memiliki data tentang segala sesuatu yang meningkat
berlipat ganda setiap hari!
Then
Increasing Data
WHAT IS DATA SCIENCE?
WHAT IS DATA SCIENCE?
 disebut data-driven science, merupakan bidang interdisipliner tentang metode,
proses, dan sistem ilmiah untuk mengekstraksi pengetahuan atau wawasan dari
data dalam berbagai bentuk, baik terstruktur maupun tidak terstruktur
 pertanyaan yang biasanya ditanyakan kepada
data scientist adalah:
Beritahu kami sesuatu, yang kami tidak tahu?
Data Science termasuk didalamya:
Programming + Statistik+Business
WHO IS DATA SCIENTIST?
WHO IS DATA SCIENTIST?
MATHS
Statistic
Discrete Maths
Information Theory
Combinatories
Decision Theory
Machine Learning
BUSINESS
Economic
Finance
Marketing
Operations
Management
INFORMATION
SYSTEMS
Computer Science
Software Engineering
System Development
Data
Scientist
Econometrics
Management Science
Atuaries
Data Viz. Builder
Statistical Programing
BI Developer
Data Analysis
BAGAIMANA MASALAH DISELESAIKAN DENGAN DATA
SCIENCE?
PENYELESAIAN MASALAH DALAM DATA SCIENCE
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Discovery termasuk akuisisi data dari semua sumber internal dan
eksternal yang teridentifikasi yang dapat membantu menjawab
permasalahan bisnis.
 Data dapat berupa:
 Logs dari webserver
 Data social media
 Dataset sensus
 Data streamed dari sumber online via API’s
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Data dapat memiliki banyak inkonsistensi seperti nilai yang hilang, kolom
kosong, nilai yang tiba-tiba dan format data yang salah yang perlu dibersihkan.
 Perlu untuk mengeksplorasi, preprocess dan mengkondisikan data sebelum
pemodelan.
 Hal ini akan membantu untuk menemukan outlier dan membangun hubungan
antar variabel.
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Disini, perlu menentukan metode dan teknis untuk menggambarkan relasi antar
variable.
 Mengaplikasikan Explarotary Data Analytics (EDA) menggunakan berbagai
formula statistic dan alat visualisasi data.
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Mengembangkan dataset untuk tujuan training dan testing.
 Mempertimbangkan apakah tools yang ada saat ini mampu untuk menjalankan
model.
 Analisis berbagai teknik seperti klasifikasi, asosiasi dan klustering untuk
membanguan model.
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Ini adalah pohon keputusan berdasarkan atribut yang berbeda.
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Menyampaikan laporan akhir, briefing, kode dan dokumen teknis
 Mengimplementasikan proyek percontohan dalam lingkungan produksi waktu
nyata
 Cari kendala kinerja jika ada
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Mengidentifikasi semua temuan utama dan berkomunikasi dengan pemangku
kepentingan
 Menjelaskan model dan hasilnya kepada otoritas medis
 Tentukan apakah hasil proyek berhasil atau gagal berdasarkan kriteria yang
dikembangkan
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Discovery
 Data Preparation
 Model Planning
 Model Building
 Operationalize
 Communicate
Result
BAGAIMANA MEMILIH ALGORITMA DATA SCIENCE
PENYELESAIAN MASALAH DALAM DATA SCIENCE
 Terdapat 5 pertanyaan yang dapat dijawab dalam data science:
SCOPE OF VISUAL ANALYTICS
DATA VISUALIZATION
DEMO
Dataset ini memberikan data keselamatan jalan yang rinci tentang terjadinya cedera kecelakaan di
jalan dari tahun 1979 - 2013. Tujuannya adalah untuk menemukan hal-hal berikut:
Tujuannya untuk mengetahui jumlah kecelakaan yang terjadi:
• dalam berbagai kondisi cuaca
• dalam berbagai kondisi cahaya
• dalam berbagai kondisi permukaan jalan
• dengan membuat informasi kendaraan kecelakaan
• selama berbagai hari dalam seminggu
• di berbagai jenis jalan
• jumlah korban per kecelakaan per tahun
Kita harus menemukan hasil queri di Hadoop
DEMO
THANK YOU ...

Pengantar Data Science dan analisis data

  • 1.
  • 2.
    AGENDA HARI INI Mengapa Data Science?  Apa itu Data Science?  Siapa itu Data Scientist?  Bagaimana Masalah diselesaiakan Dengan Data Science?  Komponen Data Science
  • 3.
  • 4.
    WHY DATA SCIENCE? halyang paling melimpah hari ini, adalah data, kami memiliki data tentang segala sesuatu yang meningkat berlipat ganda setiap hari! Then Increasing Data
  • 5.
    WHAT IS DATASCIENCE?
  • 6.
    WHAT IS DATASCIENCE?  disebut data-driven science, merupakan bidang interdisipliner tentang metode, proses, dan sistem ilmiah untuk mengekstraksi pengetahuan atau wawasan dari data dalam berbagai bentuk, baik terstruktur maupun tidak terstruktur  pertanyaan yang biasanya ditanyakan kepada data scientist adalah: Beritahu kami sesuatu, yang kami tidak tahu? Data Science termasuk didalamya: Programming + Statistik+Business
  • 7.
    WHO IS DATASCIENTIST?
  • 8.
    WHO IS DATASCIENTIST? MATHS Statistic Discrete Maths Information Theory Combinatories Decision Theory Machine Learning BUSINESS Economic Finance Marketing Operations Management INFORMATION SYSTEMS Computer Science Software Engineering System Development Data Scientist Econometrics Management Science Atuaries Data Viz. Builder Statistical Programing BI Developer Data Analysis
  • 12.
    BAGAIMANA MASALAH DISELESAIKANDENGAN DATA SCIENCE?
  • 13.
  • 14.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Discovery termasuk akuisisi data dari semua sumber internal dan eksternal yang teridentifikasi yang dapat membantu menjawab permasalahan bisnis.  Data dapat berupa:  Logs dari webserver  Data social media  Dataset sensus  Data streamed dari sumber online via API’s  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 15.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 16.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Data dapat memiliki banyak inkonsistensi seperti nilai yang hilang, kolom kosong, nilai yang tiba-tiba dan format data yang salah yang perlu dibersihkan.  Perlu untuk mengeksplorasi, preprocess dan mengkondisikan data sebelum pemodelan.  Hal ini akan membantu untuk menemukan outlier dan membangun hubungan antar variabel.  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 17.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 18.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 19.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Disini, perlu menentukan metode dan teknis untuk menggambarkan relasi antar variable.  Mengaplikasikan Explarotary Data Analytics (EDA) menggunakan berbagai formula statistic dan alat visualisasi data.  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 20.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 21.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Mengembangkan dataset untuk tujuan training dan testing.  Mempertimbangkan apakah tools yang ada saat ini mampu untuk menjalankan model.  Analisis berbagai teknik seperti klasifikasi, asosiasi dan klustering untuk membanguan model.  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 22.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Ini adalah pohon keputusan berdasarkan atribut yang berbeda.  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 23.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Menyampaikan laporan akhir, briefing, kode dan dokumen teknis  Mengimplementasikan proyek percontohan dalam lingkungan produksi waktu nyata  Cari kendala kinerja jika ada  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 24.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Mengidentifikasi semua temuan utama dan berkomunikasi dengan pemangku kepentingan  Menjelaskan model dan hasilnya kepada otoritas medis  Tentukan apakah hasil proyek berhasil atau gagal berdasarkan kriteria yang dikembangkan  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 25.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Discovery  Data Preparation  Model Planning  Model Building  Operationalize  Communicate Result
  • 26.
  • 27.
    PENYELESAIAN MASALAH DALAMDATA SCIENCE  Terdapat 5 pertanyaan yang dapat dijawab dalam data science:
  • 29.
    SCOPE OF VISUALANALYTICS
  • 30.
  • 31.
    DEMO Dataset ini memberikandata keselamatan jalan yang rinci tentang terjadinya cedera kecelakaan di jalan dari tahun 1979 - 2013. Tujuannya adalah untuk menemukan hal-hal berikut: Tujuannya untuk mengetahui jumlah kecelakaan yang terjadi: • dalam berbagai kondisi cuaca • dalam berbagai kondisi cahaya • dalam berbagai kondisi permukaan jalan • dengan membuat informasi kendaraan kecelakaan • selama berbagai hari dalam seminggu • di berbagai jenis jalan • jumlah korban per kecelakaan per tahun Kita harus menemukan hasil queri di Hadoop
  • 32.
  • 33.