Giới thiệu sơ lược về R và nhóm Ranalytics.vn, ứng dụng của R trong phân tích và xử lý số liệu; giới thiệu về khóa học phân tích dữ liệu với R. Giới thiêu một số ví dụ với GGPLOT2
8. R là gì?
• Ngôn ngữ lập trình – phần mềm
dành cho tính toán thống kê & xây
dựng biểu đồ (R is a language and
environment for statistical
computing and graphics –
r-project.org)
• R được các nhà phân tích sử dụng
rộng rãi ở TẤT CẢ các lĩnh vực
Nguồn: https://youtu.be/TR2bHSJ_eck
9. Lịch sử phát triển R
• Ross Ihaka & Robert Gentleman (New Zealand – 1990s)
• 1988: Phần mềm S
• 1997: R-core team
10. Tại sao nên học R?
• Các phương pháp phân tích dữ liệu mới
nhất
• Khả năng trực quan hóa
• Tính ứng dụng – kế thừa cao – hỗ trợ với
rất nhiều packages
• Khả năng kết hợp với các công cụ khác
(Google Analytics, Facebook…)
• Nhu cầu phân tích dữ liệu ngày càng tăng
• Miễn phí
11. Tại sao nên học R (cont)?
Analytics softwares used by data scientists 2015
(Rexer Analytics survey)
Source: http://r4stats.com/articles/popularity/
R Usage Growth
Rexer Data Miner Survey, 2007-2015
76% of analytic
professionals
report using R
36% select R as
their primary tool
12. So sánh R với SPSS & Excel
STT Tiêu chí Excel SPSS R
1 Dễ sử dụng 5 4 3
2 Vẽ biểu đồ phức tạp 3 4 5
3
Xây dựng mô hình, phân tích số liệu phức
tạp
2 4 5
4 Xử lý số liệu lớn (>1triệu dòng) 1 3 5
5 Đọc các nguồn dữ liệu 3 4 5
6 Khả năng tái sử dụng kết quả phân tích 3 4 5
7 Khả năng quản lý project 2 4 5
Nguồn:
https://www.datacamp.com/community/tutorials/statistical-language-wars-the-infograph
http://www.michaelmilton.net/2010/01/26/when-to-use-excel-when-to-use-r/
http://r4stats.com/articles/popularity/
14. Case Study – R in Business Analytics
• Uber: Phân tích ảnh hưởng của Uber tại Chicago
• Facebook: Phân tích hành vi người dùng
• Ford: Data-driven strategy
15. Case Study – R in Business Analytics
“Generally, we use R to move
fast when we get a new data
set. With R, we don’t need to
develop custom tools or write
a bunch of code. Instead, we
can just go about cleaning and
exploring the data.”
Solomon Messing, data scientist at
Facebook
• Exploratory Data Analysis
• Experimental Analysis
17. Giới thiệu khóa học về R
Lên ý tưởng
(Google/
Mind)
Thu thập số
liệu (Excel)
Xử lý số liệu
(Excel)
Phân tích số
liệu (SPSS,
Excel)
Kết quả, báo
cáo (Word)
Các bước phân tích số liệu cơ bản
Lên ý tưởng
(Google/R)
Thu thập số
liệu (R/Excel)
Xử lý số liệu (R)
Phân tích số
liệu (R)
Kết quả, báo cáo
(R/Word/HTML)
Version 1: Người không sử dụng R
Version 2: Người sử dụng R
18. Phân tích dữ liệu với R
Số lượng dự kiến: 6 buổi
Nội dung khóa học:
• Cơ bản về R
• Import dữ liệu và thống kê cơ bản
• Ngữ pháp của biến đổi dữ liệu với DPLYR
• Ngữ pháp của biểu đồ với GGPLOT2
• Xây dựng báo cáo với Rmarkdown
• Case study
19. Kết quả đầu ra
• Cơ bản biết cách sử dụng được công cụ phân tích dữ liệu mạnh nhất thế
giới
• Thành thạo ứng dụng DPLYR, GGPLOT2 & RMARKDOWN trong
phân tích dữ liệu
• Nắm vững và ứng dụng các chỉ số thống kê trong việc tìm kiếm insights
20. Ví dụ về R
ggplot(nmmaps, aes(x=season,
y=death)) +
geom_boxplot(aes(fill = season)) +
geom_violin(alpha=0.5,
color="gray") +
geom_jitter(alpha=0.5,
aes(color=season), position =
position_jitter(width = 0.1)) +
coord_flip() +
ggtitle("Distribution of death
regarding seasons in Chicago") +
theme_bw()
22. Các khóa học nâng cao (chưa triển khai hiện tại)
• R in Excel (RExcel)
• Advanced graphics in R (gganimate, ggally)
• Google Analytics in R (RGA – ggplot2)
• Social Analytics in R (Facebook & social network)
• Time Series in R (Var, GARCH,…)
• Quantitative Finance in R (quantmod,…)
• Data Mining in R – Predictive Modelling (rattle, rpart…)
24. Q&A
• Khóa học sẽ diễn ra như thế nào?
Chủ yếu qua thực hành. Các bạn sẽ được giải thích các khái niệm và
hướng dẫn cơ bản, sau đó sẽ thực hành ngay trên R.
• Ai nên học khóa học này?
Tất cả những ai thích phân tích số liệu hoặc thấy việc phân tích số liệu là
cần thiết cho công việc của mình. Đặc biệt các bạn làm trong lĩnh vực
phân tích – tổng hợp kinh doanh, research, marketing.
• Tôi đang làm về marketing, tại sao tôi lại nên học khóa này?
Nếu bạn làm về digital marketing, bạn càng nên biết về những kiến thức
phân tích số liệu. Hiện giờ, marketing đang và sẽ chuyển sang môt hướng
mới là “data-driven marketing”, và các quyết định marketing dựa chủ yếu
vào số liệu
25. Q&A
• Tôi hiện đang dùng Excel và thấy rất ổn, tại sao lại phải học phân
tích trên phần mềm mới?
So sánh Excel với R để trả lời câu hỏi phần mềm nào tốt hơn, cũng tương
tự như so sánh ô tô & xe máy cái nào tốt hơn vậy. Excel & R nên được sử
dụng bổ trợ cùng nhau.
Nếu bạn ít phải xử lý nhiều số liệu, ít phải làm các công việc, ít phải “trực
quan hóa” số liệu, Excel là đủ.
Tuy nhiên, nếu bạn thấy hàng ngày phải lặp đi lặp lại cùng một việc, ko
thấy hài lòng với Excel, bạn nên theo học khóa này.
26. Q&A
• Tôi cần chuẩn bị gì khi tham gia khóa học?
1 laptop, 1 chút kiến thức về phân tích & tinh thần muốn học về Analytics
• Tôi không biết gì nhiều về phân tích thống kê, tôi có thể học được
không?
Chắc chắn là được, chúng tôi sẽ không dạy những thứ mang tính “hàn
lâm” (academic) mà sẽ hướng dẫn để các bạn HIỂU ý nghĩa & ứng dụng
thực tế.
• Các buổi học sẽ diễn ra khi nào?
Dự kiến sẽ diễn ra 1 buổi/ tuần vào 14:00 – 16:00 thứ 7 hàng tuần tại số
50 Nguyễn Phúc Lai, Đống Đa, Hà Nội
27. Q&A
• Tôi cần liên hệ với ai để biết thêm thông tin & đăng ký về mỗi khóa
học?
Thông tin về khóa học được cập nhật trên website ranalytics.vn
Tuy nhiên, để thuận tiện cho việc trao đổi thông tin, bạn có thể liên hệ:
• Hoàng Đức Anh – Mobile: +84 977 738 939
• Liên hệ qua form của Ranalytics.vn: http://ranalytics.vn/contact/
28. Thanks!
If we have data, let’s look at data. If all we have are opinions, let’s go
with mine.
– Jim Barksdale, former Netscape CEO