Presentasi Introduction to Data Science with R di Meet Up #1 DSE Fakultas Saintek UIN MALIKI Malang tanggal 20 Nopember 2019
http://informatika.uin-malang.ac.id/dse-data-science-enthusiasts-community-meet-up-1.html
2. Who am I?
●
Data Scientist with R enthusiast
●
Member of Komunitas R Indonesia
●
Member of Komunitas GNU/Linux Malang
(KLiM)
3. Data Science
●
Data science adalah ilmu interdisiplin
yang berarti data science terbentuk dari
berbagai ilmu pengetahuan.
●
Menurut Staven Geringer Raleigh
(2014), pembentuk data science dapat
diilustrasikan dalam diagram venn
berikut,
●
Data science mencakup disiplin ilmu
yang luas, berdasarkan diagram diatas
terdapat 3 disiplin ilmu yang berfokus
pada data science.
4. Machine Learning
Machine learning merupakan irisan dari ilmu matematika dan statistika
dengan ilmu komputer. Machine Learning adalah cabang dari disiplin ilmu
kecerdasan buatan (Artificial Intelligence) yang bertujuan memberikan
kemampuan kepada komputer untuk dapat melakukan proses belajar.
Banyak algoritma machine learning yang digunakan untuk melakukan
analisis data dengan tingkat akurasi yang tinggi, yang paling populer
adalah neural network. Dimana kita ketahuai fundamental sebuah
algoritma selalu menggunakan ilmu matematika. Salah satu
penerapannya adalah Cortana atau yang lebih dikenal sebagai asisten
dari pengguna Windows 10 merupakan salah satu penarapan machine
learning.
5. Traditional Software
Traditional software merupakan irisan dari ilmu komputer
dengan SME (Subject Matter Expertise), SME adalah
pengetahuan mengenai proses dari suatu bisnis atau
instansi untuk beroperasi sehingga dapat dibuat (develop)
suatu sistem yang dapat membantu bisnis atau instansi
tersebut. Penerapan traditional software hampir digunakan
oleh seluruh instansi pemerintahan maupun bisnis,
contohnya e-learning, e-library, online banking, Point of
Sales (PoS), dan lain-lain.
6. Traditional Research
Traditional research merupakan irisan dari ilmu
matematika dan statistika dengan SME
(Subject Matter Expertise). Traditional research
hampir digunakan diberbagai perusahaan,
instansi serta universitas. Penelitian-penelitian
yang dilakukan umumya menggunakan
traditional research.
7. Apa itu Data Scientist?
●
Berdasarkan diagram, data science adalah ilmu yang memuat disiplin ilmu-
ilmu tersebut.
●
Dalam perkembangan selanjutnya, seseorang yang berkecimpung dalam
ilmu ini disebut Data Scientist.
●
Namun terdapat pertimbangan antara data scientist dan unicorn pada
diagram diatas. Dalam kenyataannya sangat susah untuk mencari
seseorang yang expert di semua ilmu tersebut.
●
Dalam diagram, orang ini adalah definisi dari unicorn pada diagram diatas.
Sehingga unicorn adalah orang yang perfect di bidang data science.
8. Founded by Ross Ihaka &
Robert Gentleman
High level language
Interactive &
Programming
A swiss army knife for
statistical tests and
models, out-of-the box!
Download R
9. Changes in the realm of analytical software
1. Point and click software solutions (e.g. SPSS, SAS)
are limited
2. Software is becoming free in several areas (OS, free
APIs, applications, etc.)
3. Reproducible and transparent research movements
source: http://r4stats.com/articles/popularity/
10. Advantages of R
● Completely free
● Reproducibility
● The R community is very active and helpful (e.g. Stack Overflow)
● Evolving rapidly
● Several statistical procedures are first (or only) available in R
● Great tools for sharing results (make presentations, posters,
notebooks, books, articles in R)
● You can do every step of a data analysis project within R, from
collecting, transforming, and analyzing the data to plotting and
even sharing the results.
● Version control via GitHub
source: http://blog.revolutionanalytics.com/2016/04/cran-package-growth.html
11. Disadvantages of R
● Can be difficult to learn
● Can be slow with huge datasets (we are talking about data tables with several million
records)
● Best used in data science/analysis circles, not a generic language
● Obscure syntax (imo now resolved)
12. Reasons to learn R: get published
● R has the largest growth in analytical software in
science
● Learning R can make you the “stat/tech guy” ->
everybody will want to work with you -> lots of
publications at least as a co-author
source: http://r4stats.com/articles/popularity/
13. Reasons to learn R: you can get a job
source: http://r4stats.com/articles/popularity/
14. Reasons to learn R: support and popularity
source: http://redmonk.com/sogrady/2015/07/01/language-rankings-6-15/
15. Why R and not another data science language
+ -
R ● Stats and research centric
● Stunning visualizations
● Data manipulation
● Great community support
● Steep learning curve
● Obscure syntax
Python ● Data manipulation
● Easier to learn
● Great community support
● Generic language
● Stats not cutting edge
● Ecosystem a bit chaotic
Matlab ● Mathematical capabilities
● Toolboxes
● Visualizations
● Cumbersome string data management
● Not open source
● Really expensive
Octave ● “Free Matlab” ● Can’t run Matlab toolboxes ¯_( ツ )_/¯
Julia ● Intuitive syntax (for mathematicians)
● Lightning fast
● Underdeveloped
● Poor community support
18. - use Projects, not setwd(...)
- use script, try to avoid console
- Ctrl+Shift+F10 and Ctrl+Alt+B, not rm(list=ls())
- Tab is your friend!
- learn the handy shortcuts
- do not save and load .Rdata
- set up the .Rprofile
- use git!
Download: git-scm.com/
Reading: happygitwithr.com
20. Human thought Machine Language
Source: https://github.com/rstudio-education/arm-workshop-rsc2019
21. Human thought Machine Language
Source: https://github.com/rstudio-education/arm-workshop-rsc2019
22. Human thought Machine Language
Source: https://github.com/rstudio-education/arm-workshop-rsc2019
The tidyverse is an
opinionated collection of
R packages designed for
data science.
27. R for Data Science
(r4ds.had.co.nz)
Introduction to Statistical Learning
(www-bcf.usc.edu/~gareth/ISL/)
Online books
(bookdown.org)
Online course
(2 m.o access at DataCamp >> my.visualstudio.com)
Need help?
install.packages(“swirl”)