Dokumen tersebut membahas tentang pelatihan dasar data science. Terdiri dari 3 bab yang membahas tentang apa itu data science, aspek-aspek dalam data science seperti matematika, statistik, ilmu komputer, dan keahlian domain, serta keterampilan yang dibutuhkan seorang data scientist seperti pemrograman, pengolahan data, eksplorasi data, pembelajaran mesin, analisis data, dan visualisasi data.
2. Kunci untuk Berkembang Adalah Data i
Pelatihan DasarData Science
Kata
Pengantar
“Human progress moving quickerand quickeras time goes on.” Itulah kutipanyang
diutarakan oleh RayKurzweii, seorang futurisyang menjelaskan Lawof Accelerating
Returns. Pola ini terjadi karena korelasi positif antara perkembangan teknologi dan
tingkat konsumsi masyarakat terhadap penggunaan teknologi. Hal tersebut mendorong
peningkatan arus informasi dan jumlah datayang dihasilkan dengan cepat.
Tantangannya adalah,datayang dihasilkan“terlihat berdiri sendiri”sehingga tampak
tak bernilai dan berakhirmenjadi noise. Padahal data tersebut dapat menjadi halyang
bernilai apabila kita dapat memahaminya dengan tepat! Untuk dapat memahaminya
dan keep updengan arus tersebut,data scientist hadirsebagai disiplin ilmu untuk
mengatasi tantangan dalam memahami, menganalisis,dan mengambil manfaat dari
datayang produksinya tidak terbatas. Dalam workbook ini, kita akan mempelajari apa
itudata sciencedan keahlian apayang dibutuhkan untuk bisa menguasaidata science.
Data adalah kunci untuk berkembang!
Tonton buktinya di
Klik di sini
3. DaftarIsi
Kunci untuk Berkembang Adalah Data ii
Pelatihan DasarData Science
Bab1: Apa itu Data Science?
Bab 2: Aspek-Aspek dalam Data Science
2.1 Math & Statistics
2.2 ComputerScience
2.3 Business/Domain Expertise
Bab 3: Skill dalam Dunia Data Science
3.1 Bahasa Pemrograman
3.2 Data Processing
3.3 Data Wrangling & Exploration
3.4 Machine Learning
3.5 Data Analysis
3.6 DataVisualization
DaftarPustaka
........................................................................ 1
.................................................... 3
......................................................... 6
............................................................................................. 11
5. Kunci untuk Berkembang Adalah Data 2
Airbnb, salah satu platform akomodasiyang sangat sukses, memiliki“kunci
rahasia”untuk membantu para host dalam memasarkan properti mereka. Apa itu?
Yap! Mereka mengoptimalkan implementasi data science. Dengan memanfaatkan
data science, Airbnb dapat menganalisis sejumlah besardata pengguna,
informasi properti,dan pola pemesanan untuk mengoptimalkan strategi
penetapan harga,yang mana hal ini sangat dibutuhkan oleh para host untuk
memasang hargayang tepat diwaktuyang tepat. Dengan mengeksplorasi dan
menginterpretasi datayang melimpah ini, Airbnb dapat membuat keputusan
berbasis data, mengidentifikasi tren pasaryang muncul,dan terus meningkatkan
layanan mereka. Implementasidata sciencemembantu Airbnb untuk tetap
kompetitifdan merevolusi cara orang untuk melakukan transaksi pemesanan
akomodasi.
Sejak masifnya perkembangan digitalisasi dan arus informasi, kehausan terhadap
pemahaman data menjadi semakin mendalam. Hal terpentingyang menjadi
tantangan adalah,data ini begitu banyak dan tidak terstruktursehingga sulit untuk
dipahami. Kegelisahan itulahyang mendorong lahirnyadata sciencedari
kombinasi lintas keilmuan untuk memecahkan permasalahanyang kompleks ini.
Seperti dalam kisah singkat Goldman sebelumnya, secara mendasar,data science
adalah keilmuan multidisiplinyang menggabungkan matematika, statistik,
ilmu komputerkompleks hingga keilmuan lainnyayang bertujuan untuk
memahami, menganalisis pola data sehingga membantu mempermudah
pengambilan keputusan secara strategis. Dan orangyang berperan dalam
menerapkan keilmuan ini dikenal dengan seorangdata scientist.
Pelatihan DasarData Science
Founder Airbnb (Joe Gebbia, Nathan Blecharczyk dan Brian Chesky)
7. C O D E
Kunci untuk Berkembang Adalah Data 4
2.1Maths & Statistics
Matematika dan statistik adalah keilmuanyang
terintegrasi dengandata science. Mereka
dibutuhkan sebagai pondasi untuk algoritma
machine learning. Matematika dan statistik
mempermudah seorangdata scientist untuk
memahami strukturdan pola dari kumpulan data.
Ingat! Data akan terlihat bernilai apabila data
tersebut mudah dipahami,dan untuk memahami
data, seorang data scientist harus mampu
membaca polayang terbentuk. Melalui fungsi
matematika dan pemodelan statistikyang baik,
seorang data scientist akan mampu membaca
pergerakanyang terjadi. Pendekatan-pendekatan
yang digunakan sangat beragam mulai dari aljabarlinear, kalkulus, hingga
pemahaman terhadap probabilitas. Natural language processing(NLP), image
representation,image processing, hingga trend analysis adalah contoh penerapan
matematika dan statistikyang digunakan oleh paradata scientist dalam
mengembangkan teknologi.
2.2 ComputerScience
Pada dasarnya,computerscienceadalah
studi tentang faktor-faktor yang berinteraksi
dengan data dalam bentuk program. Ini
berkaitan dengan manipulasi informasi
melalui penerapan berbagai algoritma.
Konsep-konsep dasaryang terkandung
dalamcomputerscienceyang dibutuhkan
dalamdata scienceadalah bahasa
pemrograman,desain algoritma, hingga
arsitektural dan pengembangan proses
komputasi data.Computerscience
membantu dalam komputasi datayang
Pelatihan DasarData Science
8. Pelatihan DasarData Science
Kunci untuk Berkembang Adalah Data 5
bertujuan untuk mempermudah proses pengolahan data. Jika matematika dan
statistika membantudata scientist dalam membuat model dan analisis, penguasaan
computerscienceakan membantudata scientist dalam membangun strukturuntuk
pengolahan datayang dimulai dari penyimpanan, transmisi, hingga proses automasi
melalui machine learning.
2.3 Business/Domain Expertise
Konteks itu penting! Itulah halyang selalu ditekankan ketika memaparkan hasil analisis
untuk menghindari bias dalam interpretasi. Konteks ini secara konkret berupa
keahlian/pengetahuan mendalam seorangdata scientist pada sebuah domain seperti
cabang keilmuan (fisika, ilmu sosial, biologi,dll.) atau keahlian industri (otomotif,
perbankan, energi,dll.). Keahlian pada suatu domain membantu dalam mempertajam
analisis seorangdata scientist, mengurangi bias interpretasi dan memberi gambaran
yang jelas mengenai cakupan atau objektifdari permasalahanyang ingin diselesaikan
melalui data. Di samping pemahaman terhadap matematika, statistik,dan ilmu
komputer, kedalaman pada sebuah domain akan meningkatkan nilai bisnis dari data
yang diolah.
10. Pelatihan DasarData Science
Kunci untuk Berkembang Adalah Data 7
3.1Bahasa Pemrograman
Bahasa pemrograman digunakan oleh para data
scientist untuk dapat memanipulasi dan
menganalisis datasetyang besar, mengotomatisasi
pekerjaan,dan membangun alurpemrosesan data
yang efisien. Bahasa pemrograman membantu
dalam mendukung pendekatan statistik dan
matematika untuk analisis dan pemodelan
kompleks, memungkinkandata scientist untuk
mengungkap pola serta mendapatkan insight.
Penguasaan bahasa pemrograman juga
membantu proses kustomisasi dan fleksibilitas,
memungkinkan penyesuaian algoritma dan model
untuk masalah bisnis tertentu. Paradata scientist umumnya menggunakan bahasa
pemrograman seperti Python untuk machine learningdan pengembangan
kecerdasan buatan (artificial intelligent), serta R yang biasanya digunakan untuk
analisis statistik, pemodelan prediktif, hinggavisualisasi data. Penjelasan bagaimana
bahasa pemrograman digunakan akan dibahas pada topik Nggak,SQL dan Python
Bukan Bahasa Alien.
3.2 Data Processing
Salah satu peran penting seorangdata scientist
adalah mengolah data agarmenjadi lebih terstruktur.
Untuk itulah seorangdata scientist perlu memiliki
keahliandata processing. Berdasarkan IBM (salah
satu perusahaan teknologi multinasional) data dapat
memiliki format dan strukturyang berbeda sehingga
penting sekali mempertimbangkan sistem
penyimpananyang berbeda berdasarkan jenis data
yang perlu ditangkap. Proses ini membantu
Ketiga aspek utama dalamdata sciencetersebut selanjutnya diimplementasikan
dengan keahlianyangwajib dimiliki oleh seorangdata scientist. Berikut keahlian
yang penting untuk dikuasai oleh seorangdata scientist:
11. Jarang sekali data didapatkan dalam bentukyang“siap digunakan”. Datayang
didapatkan biasanya masih sering terkontaminasi bias, error, tidak terstrukturdan
biasanya tidak memiliki konteks. Untuk itu seorangdata scientist perlu memiliki
keahliandata wrangling. Data wrangling adalah proses menemukan data,
membersihkan data, memvalidasinya, hingga menyusunnya agardapat digunakan,
memperkaya konten,dan dalam beberapa studi kasus,digunakan untuk
mengumpulkan dan mengubah data. Data wrangling memiliki enam tahapan utama
yang terdiri daridiscovering,structuring,cleaning,enriching,validating, hingga
publishing. Setelah data terstrukturdengan baik dan telah“dibersihkan”melalui
proseswrangling,data scientist dapat melakukan analisis data dengan metode
exploratorydata analysis.
Penerapandata wranglingdan
exploratorydata analysisdilakukan
dalam beberapa hal seperti
menggabungkan beberapa sumber
data ke dalam satu set data untuk
dianalisis, atau menghapus datayang
tidak relevan hingga mengidentifikasi
outlieryang terdapat di dalam data.
Dalam bisnis,data wrangling sangat
bermanfaat untuk mendeteksicorporate fraud, mendukung keamanan data,
memastikan akurasi modelling, analisiscustomerbehaviour, hingga mengefisiensikan
waktu persiapan sebelum melakukan analisis data.
menetapkan standarseputarpenyimpanan dan strukturdata,yang memfasilitasi alur
kerja seputaranalitik, machine learning,dandeep learning model.Tahap ini meliputi
pembersihan data,deduplikasi, transformasi,dan penggabungan data menggunakan
pendekatan ETL (extract-transform-load) atau teknologi integrasi data lainnya.
Persiapan data ini sangat penting untuk meningkatkan kualitas data sebelum memuat
ke datawarehouse,data lake, atau tempat penyimpanan lainnya.
3.3 DataWrangling & Exploration
Pelatihan DasarData Science
Kunci untuk Berkembang Adalah Data 8
12. 3.4 Machine Learning
mengambil keputusan. Dalam prosesnya, model machine learning menggunakan
teknik seperti pengklasifikasi, regresi, pengelompokan, atau pengoptimalan untuk
menyesuaikan diri dengan data dan meningkatkan kinerja prediksi seiring
bertambahnya jumlah datayang digunakan. Dengan fungsinya tersebut, penguasaan
terhadap machine learningtentunya sangat penting untuk seorangdata scientist.
Machine learning adalah cabang dari
kecerdasan buatan (artificial intelligent)
yang berfokus pada pengembangan
algoritma dan model komputeryang
dapat belajardari data dan
menghasilkan prediksi atau keputusan
secara otomatis. Cara kerjanya adalah
dengan memberikan model machine
learning sejumlah besardata,di mana
model tersebut mengidentifikasi pola
dan hubungan di antara data melalui
proses pembelajaran. Model
kemudian dapat diterapkan pada data
baru untuk membuat prediksi atau
Pelatihan DasarData Science
Kunci untuk Berkembang Adalah Data 9
3.5 Data Analysis
Seorangdata scientist melakukan analisis data
untuk memeriksa apakah terjadi bias, terdapat
pola dan rentang, hingga membantu
memutuskan distribusi nilai dalam data. Proses
analisis data ini membantu dalam pengujian
hipotesis. Ini juga memungkinkan data
scientist menentukan relevansi data untuk
digunakan dalam upaya pemodelan untuk
analitik prediktif, machine learning,dan/atau
deep learning. Bergantung pada akurasi
model, seorangdata scientist dapat
mengandalkan insightyang dihasilkan untuk
13. Kunci untuk Berkembang Adalah Data 10
Pelatihan DasarData Science
3.6 DataVisualization
Dalam bisnis, seorangdata scientist akan bekerja dengan berbagai pihak. Mungkin
mereka tidak akan memahami proses dalam pengolahan datayang dilakukan,
namun apayang penting untuk mereka adalah insightyang bisa diambil dari data
tersebut. Untuk itulah kemampuan mengkomunikasikan insight ini sangat penting
dandata scientist dapat memanfaatkan keahliandatavisualizationuntuk
melakukannya.Insightyang dihasilkan dari proses analisis akan dipaparkan dalam
laporan. Proses pemaparan ini akan lebih mudah apabila seorangdata scientist
mampu memaparkan insight dalam bentukvisualisasi.Visualisasi data sangat
bermanfaat untuk mempermudah pemahaman insight dari datayang dipaparkan
dan membantu pengambilan keputusan dengan lebih cepat.Visualisasi data ini
dapat dilakukan dengan memahami proses mengemas data ke dalam bentukvisual
yang relevan hingga dibantu menggunakan toolsvisualisasi data. Kita akan
mendalaminya pada topik Seni Menyederhanakan Data.
pengambilan keputusan bisnis. Data analisis merupakanskillyangwajib dimiliki baik
oleh seorangdata analyst maupundata scientist. Kamu mungkin mengira dua peran ini
adalah peranyang sama, namun ternyata mereka berbeda dari sisi kelengkapan
skillset selainskill data analysis. Kita akan mempelajari data analisis secara mendalam
beserta perannya dalam topik DataTanpa Analisis, Kayak AkuTanpa Kamudan
Data Analystvs Data Scientist, Pilih Mana?
15. Pelatihan DasarData Science
Davenport,T.H.,dan Patil, DJ.(2012). Data Scientist:The Sexiest Job of the 21st
Century. Harvard Business Review.
Few, S.(2012). Show MeThe Numbers: DesigningTables and Graphs to Enlighten.
Second Edition. California: Analytics Press.
Van Loon, R.(2023). Math and Data Science:What DoYou NeedTo Know?.
Simplilearn.com.
Yuk, M.dan Stephanie D.(2014). DataVisualization forDummies. New Jersey:
John Wiley& Sons, Inc.
Lateef, Z.(2023). A Complete GuideTo Math And Statistics ForData Science.
Edureka.co
Heller, M.(2021). Data wrangling and exploratorydata analysis explained.
infoworld.com
https://www.infoworld.com/article/3612888/data-wrangling-and-explorat
ory-data-analysis-explained.html
https://www.edureka.co/blog/math-and-statistics-for-data-science?utm_
source=socialsharing&utm_campaign=copylink
Sugandhi, A.(2023). Data Sciencevs ComputerScience:WhichTech Careeris Right
Foryou?. knowledgehut.com
https://www.knowledgehut.com/blog/data-science/data-science-vs-co
mputer-science
Telang P.(2021). Data Wrangling and Exploratory Analysis. Business Analysis
Blog byTechcanvass.
https://businessanalyst.techcanvass.com/what-is-data-wrangling-and-e
xploratory-analysis/
IBM Newsletter.What is data science?https://www.ibm.com/topics/data-science
Steele, J.dan Noah I.(2010). BeautifulVisualization. California:O’ReillyMedia, Inc.
Kunci untuk Berkembang Adalah Data 12