Phan tich du_lieu_thong_ke_va_python

1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC ĐẠI NAM
-------------------------------------------------
NGUYỄN VĂN TUẤN
PHÂN TÍCH DỮ LIỆU THỐNG KÊ
VÀ PYTHON
HÀ NỘI, 2021

2
Chương 1. Thống kê và khai phá dữ liệu
Chương này giới thiệu các kiến thức cơ bản nhất sử dụng trong thống kê.
Sử dụng Excel để tính toán các số liệu thống kê.
Excel là một công cụ phân tích rất mạnh có thể tính toán nhiều số liệu thống
kê, chúng ta sẽ khám phá qua chương này và trong suốt cuốn sách này. Chương
này cung cấp thông tin chi tiết về thống kê sử dụng Excel, bao gồm các nội dung
và cung cấp cơ sở cho các chương sau. Các nội dung được đề cập của Chương:
 Trung bình
 Tương quan
 Hồi quy tuyến tính
Tất cả các hoạt động sẽ được hiển thị và mô tả rõ ràng bằng Exel.
1. Các khái niệm
1.1. Thống kê là gì?
Lĩnh vực thống kê liên quan đến việc thu thập, mô tả và khai phá dữ liệu.
Chúng ta có thể coi dữ liệu là những sự kiện, dữ kiện và số liệu quan sát được.
Một thống kê điển hình mà chúng ta có thể nghe hàng ngày là về thời tiết, ví dụ:
Lượng mưa tháng này cao hơn lượng mưa trung bình trong các tháng hoặc, nhiệt
độ tháng này nóng hơn nhiệt độ trung bình các tháng. Để có kết luận này chúng ta
phải sử dụng các số liệu trung bình của các tháng trước.
1.2. Trung bình, trung vị và mode
Trong thống kê, có ba loại trung bình khác nhau:
 Trung bình: kết quả thu được bằng cách cộng các số lại với nhau rồi
chia tổng số bằng số lượng (thông thường mọi người gọi con số này là Trung bình).
Nếu một dãy số liệu thống kê (mẫu):
1
1
1
,..., .
n
n i
i
x x x x
n 
  
Nếu mẫu gồm n số liệu 1,..., m
x x trong đó mỗi giá trị lặp lại i
r lần thì ta có
công thức tính trung bình mẫu:
1
1
.
m
i i
i
x r x
n 
 

3
 Trung vị (median): là giá trị "giữa" trong danh sách các số. Để tìm ở
giữa, dùng giấy bút viết số được liệt kê dưới dạng số đặt hàng, sau đó xác định vị
trí giữa.
Nếu một dãy số liệu thống kê (mẫu): 1 2 ... ,
n
x x x
   khi đó, kí hiệu trung
vị là m thì:
1
2
1
2 2
, 2 ,
, 2 1, .
2
n
n n
x khi n k k
m x x
khi n k k


 



  
   


Z
Z
 Mode: là giá trị xuất hiện thường xuyên nhất. Nếu không có số lặp lại,
không có mode.
Ví dụ 1. Sử dụng Excel tính giá trị trung bình, trung vị và mode, cho các số
liệu sau: 13, 18, 13, 14, 13, 16, 14, 21, 13.
Giải. Nhập số liệu trong Exel ta có:
Tại ô C nhập công thức tính trung bình mẫu:
= AVERAGE(A1: A9). Thực hiện lệnh ta có kết
quả ở hình dưới đây:
Sau khi nhập mẫu, ta tính trung vị và mode theo lệnh: median(A1: A9),
mode(A1: A9). Ta có kết quả:

4
1.3. Các phép đo
Khi xử lý các số liệu thống kê, chúng ta phải biết độ tin cậy của các số liệu
được tạo ra. Sử dụng các phép đo cụ thể, có thể kiểm tra xem các số liệu được tạo
ra có thể được sử dụng với độ "tin cậy" hay không. Excel cho phép tính toán một
loạt các phép đo: Nếu dữ liệu trong Exel từ ô C1 đến Cn thì:
 Range: sự khác biệt giữa số liệu tối đa và số liệu tối thiểu:
Range = Max(C1:Cn) – Min(C1:Cn).
 Phương sai: giá trị trung bình của các chênh lệch bình phương so với Giá
trị trung bình
Varian = Var(C1:Cn).
 Độ lệch chuẩn: một thống kê phổ biến vì nó cung cấp một chỉ báo về sự
thay đổi: của một tập hợp dữ liệu. Tuy nhiên, nó không phải là thống kê tốt nhất
để sử dụng khi so sánh các bộ dữ liệu khác nhau, đặc biệt nếu dữ liệu có kích thước
khác nhau.
Vtdev = Stdev(C1:Cn).
 Sai số chuẩn (Standard error):
Standard = Stdev(C1:Cn)/Sqrt(Count(C1:Cn)).
Kết quả tính toán các thống kê ở ví dụ 1, được thể hiện trong bảng sau:

5
Ví dụ 2. Cho hai mẫu số liệu sau:
Data1 Data2
21.1 14.8
23.5 27.5
16.8 40.6
19.2 8.2
23.3 33.9
22.8 1.7
Hãy tính các thống kê sau với hai mẫu số liệu trên:
a. Trung bình
b. Median
c. Mod
d. Phương sai
e. Độ lệch chuẩn
f. Sai số chuẩn
Giải. Kết quả tính thể hiện trong bảng sau:
1.4. Tương quan
Sự tương quan cho chúng ta biết liệu hai biến có khác nhau về tính đồng bộ
hay không, tức là một tăng cái kia cũng tăng (hoặc giảm). Thống kê tương quan
thay đổi giữa 1 và -1:
1: tương quan thuận hoàn hảo, cả hai số liệu đều tăng hoặc giảm cùng với
nhau;
0: không có mối tương quan;

6
-1: tương quan âm hoàn hảo, khi một con số này tăng lên con số kia giảm
và ngược lại.
Ví dụ 3. Sử dụng Exel tính mối tương quan (hệ số tương quan) giữa các mẫu
số liệu sau:
a. Data1 với data2;
b. Data1 với data3;
c. Data1 với data4;
với mẫu số liệu cụ thể sau:
Giải. Sử dụng Exel ta có kết quả hệ số tương quan của các cặp dữ liệu trên
sau đây:
Căn cứ bảng trên ta có kết luận:
 Dữ liệu 1 tương quan thuận hoàn toàn với dữ liệu 2;
 Dữ liệu 1 hoàn toàn tương quan nghịch với dữ liệu 3;
 Dữ liệu 1 và dữ liệu 4 hoàn toàn không tương quan, vì vậy Excel trả về
lỗi. Trong trường hợp này, mã lỗi giống như 0.
Phần tiếp theo của bài tập này bao gồm hai phần:
1) Đổi tên bảng tính;

7
2) Tạo đồ thị dữ liệu tương quan trong Excel. Cụ thể:
Đổi tên trang tính Excel, thể hiện trong hình sau:
Để dễ dàng tham khảo, trang tính Excel này đã được đổi tên thành tương
quan. Cụ thể:
1) Nhấp chuột phải vào hộp ở dưới cùng
a. Bước 1. Chọn Rename như được đánh dấu;
b. Bước 2. Ghi thành Correlation.
Đổi tên trang tính trong Excel rất đơn giản và có thể giúp chúng ta xác định
thông tin quan trọng dễ dàng hơn.
Excel có thể cung cấp các biểu đồ sâu sắc một cách dễ dàng. Trong ví dụ
này, chúng ta sẽ tạo một biểu đồ rất đơn giản bằng cách sử dụng biểu đồ phân tán.
Biểu đồ phân tán có nhiều chức năng hơn biểu đồ đường, đó là lý do tại sao chúng
ta sử dụng chúng ở đây.
Hướng dẫn vẽ các biểu đồ phân tán của ví dụ 3. Trong Exel theo hướng dẫn
sau:

8
Các bước làm, cụ thể như sau:
1) Đánh dấu các ô A1 đến B11;
2) Chọn tab CHÈN ở đầu màn hình;
3) Nhấp vào nút biểu đồ phân tán;
4) Chọn Phân tán với các đường mịn và điểm đánh dấu.
Khi chúng ta cần ánh xạ data1 với data3 và data1 với data4, thực yêu như
sau:
1) Bấm vào biểu đồ vừa tạo bằng chuột;
2) Nhấp chuột phải vào biểu đồ và nhấp vào Chọn dữ liệu như được hiển thị
trong hình dưới:
Khi đó, chúng ta cần kích: on add.

9
1) Ô trắng là tên chúng ta muốn đặt cho
dòng Dữ liệu 3;
2) Trục x là trục hoành, vì vậy sẽ cần
dữ liệu từ dữ liệu 1. Kích chọn vào
hộp: Đánh dấu các ô từ A2 đến A11;
3) Trục y là trục tung, vì vậy sẽ cần dữ
liệu từ dữ liệu 3. Nhấp vào hộp: Đánh
dấu các ô C2: C11 Như bạn sẽ thấy
Exel sẽ điền đủ các thông tin cần thiết vào ô số trắng.
Giải thích công thức này như sau:
a. Tương quan - tên của trang tính
b. ! - cho Excel biết rằng tên của
trang tính đã hoàn thành và mong
đợi các tham chiếu ô C.
c. $ A $ 2: $ A $ 11- cho Excel biết
rằng chúng ta sử dụng các ô từ A2
đến A11.
Dấu $ cho Excel biết rằng đây là một ô tuyệt đối giải quyết tham chiếu ô
tuyệt đối biểu thị rằng nếu ta sao chép công thức này ở nơi khác, các ô được đề cử
sẽ không thay đổi. Lặp lại điều trên cho dữ liệu 4, ta nhận được:
Khi đó, chúng ta nhận được đồ thị sau:

10
Với biểu đồ vẫn được đánh dấu, nhấp vào quick layout ta có thể thay đổi
giao diện của đồ thị (1) ở trên:
Ta có nhiều loại biểu đồ để lựa chọn, hãy nhấp
vào biểu đồ đầu tiên ở góc trên cùng bên trái. Ki đó,
thay đổi giao diện của đồ thị như sau:
Bây giờ chúng ta có thể điền thêm thông tin vào biểu đồ. Điều này sẽ liên
quan đến việc sử dụng chuột để nhấp vào phần có liên quan của biểu đồ.
1) Nhấp vào Tiêu đề biểu đồ, để đặt tên cho biểu đồ
a. Vẽ biểu đồ tương quan.
2) Nhấp vào ‘Tiêu đề trục’ trên trục y (dọc).
a. Điền các số.
3) Nhấp vào ‘Tiêu đề trục’ trên trục x (nằm ngang).
a. Dữ liệu 1

11
Ta nhận được biểu đồ tương quan sau:
Ví dụ 4. Hệ số tương quan
Ví dụ này yêu cầu tính toán mối tương quan giữa trí thông minh và đối tác
trong một mối quan hệ. Bảng sau chứa các kết quả thử nghiệm, xếp hạng trong số
30, sự thông minh của các cặp vợ chồng trong một mối quan hệ. Có mối tương
quan giữa: Đối tác 1 và đối tác 2 Xếp hạng đối tác 1 và xếp hạng đối tác 2, ở đó:
(1 = thấp nhất, 6 = cao nhất).
Giải. Sử dụng tìm hệ số tương quan sau:
Các số liệu trên 0,7 hoặc dưới -0,7 có xu
hướng ngụ ý mối tương quan. Hình bên cho
chúng ta thấy rằng có một mối quan hệ giữa
trí thông minh và đối tác, do thống kê tương
quan là trên 0,7. Lưu ý, mối tương quan
không bao hàm nguyên nhân. Ví dụ, trong ví
dụ này, chúng ta không thể nói rằng hẹn hò
với những người thông minh gây ra sự thông
minh.

12
1.5. Hồi quy tuyến tính đơn giản
Một nhiệm vụ phổ biến khác trong phân tích dữ liệu là điều tra mối liên hệ
giữa hai biến bằng cách sử dụng hồi quy. Hồi quy được sử dụng khi chúng ta có
lý do để tin rằng những thay đổi trong một biến số này gây ra những thay đổi trong
một biến số khác. Mối tương quan không phải là bằng chứng cho mối quan hệ
nhân quả, nhưng rất thường xuyên chúng ta nhận thức được mối quan hệ nhân quả
và chúng ta thiết kế một thí nghiệm để điều tra sâu hơn về mối quan hệ đó. Loại
mối quan hệ nhân quả đơn giản nhất là mối quan hệ đường thẳng, có thể được
phân tích bằng cách sử dụng hồi quy tuyến tính.
Y = mX.
Điều này phù hợp với một đường thẳng với dữ liệu bằng cách sử dụng
phương pháp bình phương nhỏ nhất và cung cấp các giá trị của hệ số góc (m) và
giao điểm (c) xác định đường thẳng. Có một số phương pháp khác nhau để tính
toán độ dốc và điểm chặn của đường hồi quy tuyến tính trong Excel, nhưng phương
pháp đơn giản nhất là tạo biểu đồ phân tán và sử dụng tính năng ‘Thêm đường xu
hướng’ (như minh họa tiếp theo).
Ví dụ. Hồi quy tuyến tính đơn giản
Chúng ta muốn kiểm tra xem có mối quan hệ giữa độ dày của miếng bọt
biển và độ hấp thụ chất lỏng của nó hay không. Thiết kế một thí nghiệm với các
mức độ dày khác nhau của bọt biển, với lượng chất lỏng được hấp thụ. Kết quả
được ghi trong bảng sau:
Sao chép các số liệu từ bảng 1.5 vào
Excel và tạo biểu đồ phân tán (không
nối), như trong hình sau:

13
Các bước nhập dữ liệu vào Exel được thể hiện:
1) Đánh dấu các ô từ A1 đến B12;
2) Chọn tab INSERT;
3) Nhấp vào nút biểu đồ phân tán;
4) Chọn Scatter, nhưng lần này, ta chọn biểu đồ đầu tiên.
Để khám phá xem có mối quan hệ giữa độ dày của miếng bọt biển và khả
năng thấm hút hay không, chúng tôi thực hiện như sau:
1) Nhấp chuột phải vào bất kỳ dấu
chấm nào trên biểu đồ;
2) Một menu sẽ bật lên
a. Nhấp vào Add Trendline (thêm
đường xu hướng), Hình 1.18: Lựa
chọn phương trình và r-square:

14
Trong phần lựa chọn
menu, hãy đánh dấu vào
các hộp sau:
1) Hiển thị phương trình
trên biểu đồ;
2) Hiển thị giá trị bình
phương R trên biểu đồ.
Phương trình đầy đủ của
các giá trị độ dốc và điểm
chặn hiện được hiển thị
trên biểu đồ (như trong hình 1.18). Excel đã tạo ra một phương trình hồi quy tuyến
tính đơn giản, cung cấp cho chúng ta cái nhìn sâu sắc về mối quan hệ giữa độ dày
của miếng bọt biển và khả năng thấm hút của nó.
Y = mX.
Phương trình trên đại diện cho một hồi quy tuyến tính đơn giản, trong đó
 Y là những gì chúng ta đang cố gắng dự đoán;
 m là gradient (giá trị chúng ta nhân với giá trị ‘X’);
 X sẽ là độ dày của bọt biển;
 C là điểm giao nhau (nơi đường thẳng cắt trục y).
Sử dụng chức năng quick layout function (như mô tả trong hình 1.13), biểu
đồ đã được gắn nhãn như hình minh họa
 Tiêu đề: đồ thị hồi quy tuyến tính đơn giản
 Trục X: Độ dày miếng bọt biển (mm)
 Trục Y: Độ hấp thụ (ml).

15
Đường thẳng vẽ biểu đồ mối quan hệ giữa trục y (độ hấp thụ) và trục x (độ
dày miếng bọt biển). Thay m và C vào phương trình trên sẽ tạo ra:
Y = 0.1392 X + 0.0668.
Đối với mỗi mm độ dày, chúng ta nên mong đợi nó hấp thụ thêm 0,1392ml
chất (cộng thêm 0,068ml). Nếu ai đó hỏi, "Chúng ta nên mong đợi bao nhiêu khả
năng thấm hút từ một miếng bọt biển dày 10mm", chúng tôi có thể đưa ra câu trả
lời. Sử dụng Y = mX + C, chúng ta biết rằng: m = 0,1392, C = 0,0668, X = 10.
R2
là gì?
R²: thước đo mức độ phù hợp của hồi quy tuyến tính. Giá trị R² là một phân
số từ 0,0 đến 1,0 và không có đơn vị. Giá trị R² là 0,0 có nghĩa là biết X không
giúp ta dự đoán Y. Không có mối quan hệ tuyến tính nào giữa X và Y và đường
phù hợp nhất là đường nằm ngang đi qua giá trị trung bình của tất cả các giá trị Y.
Khi R² = 1,0, tất cả các điểm nằm chính xác trên một đường thẳng không có phân
tán. Biết X cho phép ta dự đoán Y một cách hoàn hảo. Giá trị R2
= 0,7 có nghĩa là
phù hợp tốt.

16
Từ đồ thị được hiển thị trước đây (hình 1.19), chúng ta thấy rằng mô hình
hồi quy tạo ra giá trị r2
= 0,9095. Điều này có nghĩa là mô hình dự đoán tỷ lệ hấp
thụ đủ tốt để chúng ta sử dụng mô hình. Cách tính toán thủ công một hồi quy tuyến
tính đơn giản và r2
sẽ được trình bày sau.
Ví dụ 1. Bài tập này muốn khám phá xem có mối quan hệ giữa tuổi tác và
thị lực hay không. Bảng 1.6 chứa dữ liệu chi tiết về độ tuổi và tình trạng suy giảm
thị lực của mắt. Sử dụng dữ liệu này để tạo một mô hình tuyến tính đơn giản dự
đoán tỷ lệ suy giảm của thị giác theo độ tuổi. Ngoài ra, chúng ta có thể sử dụng
mô hình một cách tự tin không?
Giải.

17
Từ hình 1.22, có thể quan sát thấy rằng khi tuổi tác tăng lên, chúng ta kỳ
vọng tỷ lệ giảm thị lực sẽ tăng 0,1182% khi tuổi tác tăng lên. Với r2
= 0,7461,
chúng ta có thể tự tin sử dụng mô hình này.
1.6 Tóm tắt
Chương này trình bày các khái niệm cơ bản về thống kê theo cách áp dụng.
Cuốn sách này được thiết kế để dành nhiều hơn cho ứng dụng hơn là lý thuyết.
Theo kinh nghiệm của mình, tôi nhận thấy Excel là công cụ hoàn hảo để dạy ứng
dụng thống kê, do tính linh hoạt và khả năng hiển thị của nó. Trong Excel, rất khó
để ẩn kết quả và các phép tính.

18
2. Kiểm định thống kê
Mục này nhằm mục đích phát triển sự hiểu biết sâu hơn về thống kê trong
Excel. Sử dụng nhiều ví dụ và bài tập, mục này sẽ bao gồm các chủ đề:
 Phân bố
 Giả thuyết vô hiệu
 Kiểm định T
 Kiểm định
2
 (Khi bình phương).
2.1 Phân bố
Bất cứ khi nào chúng ta nhìn vào số liệu thống kê, chúng ta phải xem xét sự
phân bố. Phần lớn các lần phân bố sẽ được tập trung xung quanh giá trị trung bình,
điều này được gọi là phân bố chuẩn. Phân bố chuẩn là gì? Phân bố chuẩn là một
phân bố liên tục có dạng "hình chuông". Các phân bố bình thường có thể ước tính
xác suất trong một khoảng giá trị dữ liệu liên tục. Trong phân bố chuẩn, giá trị
trung bình, trung vị và chế độ giống nhau. Dưới đây là một ví dụ về một biểu đồ
phân bố chuẩn hoàn hảo.
2.2. Kiểm định giả thiết thống kê
Căn cứ vào số liệu thu được, hãy cho một kết luận về giả thiết thống kê nào
đó mà ta đang quan tâm.
Giả thiết thống kê là một giả thiết về phân bố đang xét.
Các ví dụ.
 Không có mối quan hệ giữa tuổi tác và hiệu suất thị lực;
 Không có mối quan hệ nào giữa sâu răng và đau răng.

19
Giả thuyết được đưa ra kiểm nghiệm được gọi là ‘Giả thiết không’. Đó là
giả thiết mà ta nghi ngờ muốn bác bỏ. Như vậy khi bác bỏ ‘Giả thiết không’ thì
điều ngược lại sẽ được chấp nhận.
Vậy chúng ta bác bỏ giả thiết không bằng cách nào?
Tiến hành một số thử nghiệm thống kê nhất định, chúng ta có thể tính toán
xác suất (P) để xác định liệu chúng ta có thể chứng minh hoặc bác bỏ giả thuyết
không hay không. Theo nguyên tắc chung, nếu P nhỏ hơn 0,05 (5%) thì chúng ta
có thể nói rằng có một xác suất đáng kể rằng sự kiện đó không xảy ra một cách
tình cờ, vì vậy chúng ta có thể bác bỏ giả thuyết không.
2.3 Kiểm định t (t test)
Một trong những phép thử thống kê so sánh phổ biến nhất được sử dụng
được gọi là kiểm định t. Điều này được sử dụng khi chỉ có hai tập dữ liệu được
phân phối bình thường để so sánh. Trong Excel, giá trị này được tính bằng công
thức:
= TTEST(range 1, range 2, tails, type)
Điều này trả về P trực tiếp (không phải bản thân thống kê t, không được báo
cáo và chúng tôi không cần). Như có thể thấy trong công thức Excel ở trên, hai
thuật ngữ thống kê mới đã được giới thiệu:
 Tails;
 Type.
Cụ thể, xét:
Tails: Kiểm định t phụ thuộc vào sự phân bố của dữ liệu. Bằng cách chọn
một bên, bạn chỉ quan tâm đến một phần của phân phối (hoặc thấp nhất hoặc cao
nhất). Đối với hai kiểm định t, chúng ta quan tâm đến tất cả sự phân bố.

20
Tails: có thể là 1 kiểm định t một bên hoặc 2 kiểm định t cho hai bên. Nói
chung, chúng ta sử dụng 2 kiểm định t cho hai phía, kiểm tra sự khác biệt bất kể
dấu hiệu (số âm hoặc số dương).
Thể loại: Có ba loại kiểm định t có sẵn trong Excel. Giả sử chúng ta muốn
kiểm tra xem sự phát triển của thực vật sẽ tăng lên sau khi chuyển đến một ngôi
nhà xanh hay tốc độ thở tăng lên sau khi chạy lên đồi. Trong những trường hợp
này, bạn sẽ so sánh nhịp thở của những người giống nhau hoặc sự phát triển của
cùng một chậu cây trước và sau nhà kính. Điều này sẽ yêu cầu một "được ghép
nối" hoặc T-test "phụ thuộc". Excel gọi đây là kiểm định "loại 1". Hãy xem xét
một tình huống khác. Giả sử chúng ta muốn biết liệu sinh viên nghệ thuật có ngủ
nhiều hơn sinh viên khoa học hay không. Sau đó, chúng ta sẽ có hai nhóm đối
tượng thử nghiệm, mỗi đối tượng duy nhất trong nhóm của họ ( sẽ không lấy 2 số
đo trên mỗi người). Đối với trường hợp này, ta sẽ sử dụng thử nghiệm t "không
ghép cặp" hoặc "độc lập". Excel gọi các bài kiểm tra này là "loại 2" hoặc "loại 3".
Bây giờ, phần khó khăn là quyết định sử dụng kiểm định t nào nào trong số
hai kiểm định này. Độ lệch chuẩn đối với cả hai nhóm là như nhau hay chúng khác
nhau? Có thể kiểm tra thống kê này, nhưng nếu nghi ngờ, hãy sử dụng "loại 3" cho
dữ liệu được ghép nối phương sai không bằng nhau (trong đó các tập hợp là từ các
cá nhân khác nhau) và cả hai đều phổ biến.
Ví dụ 1. Trong ví dụ này, chúng ta muốn kiểm tra hiệu quả của một loại
thuốc mới. Hỏi một lựa chọn ngẫu nhiên về tình trạng sức khỏe của sinh viên
(điểm 0 đến 20). Sau đó mà không nói với họ, ta bắt đầu cho họ một loại thuốc
chưa được kiểm tra. Sau một tuần, hỏi những người tương tự về tình trạng sức
khỏe của họ. Kết quả được ghi lại trong bản sau:
Các câu hỏi sau với sinh viên:
1) Giả thuyết không của bạn là gì?
2) Tính giá trị trung bình & độ lệch chuẩn;
3) Chúng có tương quan với nhau không?
4) Tính toán kiểm định t để theo dõi xem có sự
khác biệt về sức khỏe của sinh viênhay không?

21
Giải. 1) Giả thuyết không: Không có mối quan hệ nào giữa thuốc và tình
trạng sức khỏe tốt hơn.
3) Hai tập dữ liệu không tương quan với nhau.
4) Đối với kiểm định t, chúng tôi sẽ sử dụng kiểu hai phía (2). Vì chúng ta
đang sử dụng cùng một người trong cuộc thử nghiệm, điều trị sau và trước khi sử
dụng thuốc, điều này đòi hỏi một kiểm định loại 1, như thể hiện trong hình 2.1.
Từ kết quả kiểm định t, chúng ta có thể xác định rằng cơ hội của con số này xảy
ra một cách tình cờ (với giả thuyết không) là khoảng .014 (hoặc 1,4%).
Do vậy, từ kết quả về mặt thống kê…. Chúng ta bác bỏ giả thuyết không để
ủng hộ giải pháp thay thế. Chỉ một hoặc hai lần trong số 100 lần, nếu chúng ta lặp
lại thí nghiệm này (và giả thuyết không là đúng) chúng ta sẽ nhận được thống kê t
có kích thước như vậy.
Từ đó, chúng ta kết luận rằng nhiều khả năng là do một số nguyên nhân có
hệ thống, có chủ ý. Nếu tất cả các nhiễu khác được loại bỏ, nguyên nhân có hệ
thống này phải có là thuốc. Hay nói một cách đơn giản hơn, loại thuốc này đã thay
đổi hạnh phúc của sinh viên một cách tích cực.
Ví dụ 2. Giả sử, bạn đã trở thành một giáo viên và được một công ty dược
phẩm tiếp cận để thử nghiệm một loại thuốc mới được cho là có tác dụng tăng
cường trí thông minh của trẻ em. Bạn chia lớp thành 2 nhóm ngẫu nhiên, Nhóm 1
uống thuốc mới với Nhóm 2 là nhóm đối chứng (uống giả dược). Mỗi nhóm ngồi
kiểm tra, sau 2 tuần các em dùng thuốc thì lớp ngồi một bài kiểm tra mới. Sự thay
đổi điểm thi được ghi lại như trong bảng 2.2.

22
Hỏi:
a) Giả thuyết không của bạn là gì?
b) Sử dụng Excel để tính giá trị trung bình, độ lệch
chuẩn.
c) Chúng có tương quan với nhau không? Kết quả
có đáng kể không (bạn sẽ sử dụng loại nào)?
Giải. a) Giả thuyết Null Thuốc không ảnh hưởng đến
trí thông minh của trẻ em.
b) Dữ liệu không tương quan.
c) Đối với phép thử t, chúng ta đã chọn loại kiểm định t hai phía (2) và vì
chúng ta không sử dụng cùng một người trong thử nghiệm, điều này yêu cầu một
phép thử loại 3, như thể hiện trong hình 2.6.
Từ kết quả kiểm định t, chúng ta có thể xác định rằng xác suất con số này
xảy ra một cách tình cờ (với giả thuyết không) là khoảng 0,0011 (hoặc 0,11%).
Trung bình, trí thông minh của một đứa trẻ tăng 15,20 điểm. Phép thử t cho
ra con số 0,001, có nghĩa là những kết quả này rất quan trọng và chỉ có thể xảy ra
tình cờ 0,1% số lần. Do đó, chúng ta có thể từ chối giả thiết không. Nghĩa là thuốc
cải thiện điểm kiểm tra.
2.4. Kiểm định Khi bình phương
2
( )

Cho đến nay chúng ta chỉ quan tâm đến dữ liệu đo lường. Đôi khi, kết quả
không phải là phép đo mà là số lượng (tần suất), chẳng hạn như số người phản hồi

23
chiến dịch thư tiếp thị. Với dữ liệu tần suất, ta không nên sử dụng kiểm định t mà
thay vào đó hãy sử dụng kiểm định 'chi-bình phương' (χ2
). χ2
được sử dụng để so
sánh dữ liệu tần suất trong các danh mục khác nhau với dữ liệu dự kiến. Công thức
Exel:
= CHITEST(observed range expected range)
Điều này trả về xác suất P rằng giả thuyết không là đúng. Thống kê khi bình
phương so sánh những quan sát được quan sát với những quan sát mong đợi dưới
giả thiết không có mối liên quan giữa phân loại hàng và cột.
Thống kê khi bình phương có thể được sử dụng để kiểm tra giả thuyết không
có mối liên hệ giữa hai hoặc nhiều nhóm, quần thể hoặc tiêu chí. Nếu P nhỏ hơn
5% thì dữ liệu không phù hợp với lý thuyết, và nếu P lớn hơn 5% thì dữ liệu đồng
ý với lý thuyết).
Ví dụ 1. Chúng ta đi dạo trong một khu rừng xinh xắn và nhận xét về màu
sắc của những quả táo. Chúng ta dự kiến sẽ thấy ¾ táo đỏ và ¼ táo xanh. Sau khi
đếm số táo trong rừng, kết quả đã được ghi lại ở bảng dưới:
Đối với khi bình phương, chúng ta
kiểm tra kết quả thực tế so với những
gì chúng tôi mong đợi. Do đó chúng ta
tính toán lượng táo dự kiến cho mỗi
màu. Có tổng cộng 730 quả táo và dự đoán ¾ quả là màu đỏ và ¼ quả xanh.
Với Excel, kỳ vọng được tính toán dễ dàng:
Bây giờ chúng ta đã có các
số liệu quan sát và dự kiến,
thống kê khi-bình phương
có thể được tính toán trong
Exel nhu dưới đây:

24
Với giá trị khi-bình phương
cao (trên 0,05), chúng ta có thể
nói rằng lý thuyết của chúng ta
là đúng. Điều quan sát được là
gần với dự kiến, do đó chứng
minh lý thuyết của chúng ta.
LƯU Ý: lý do tại sao chúng ta
sử dụng khi-bình phương chứ
không phải số học đơn giản, là để chắc chắn rằng kết quả của chúng ta là đáng kể
và chúng ta có thể công bố kết quả của mình một cách tự tin.
Ví dụ 2. Ví dụ này sử dụng thống kê chiến dịch tiếp thị. Một chiến dịch gửi
thư gồm 1000 bức thư chia cho 500 nam và 500 cho nữ đã được tiến hành. Chúng
ta kỳ vọng nam giới sẽ phản hồi gấp đôi so với nữ giới. Do đó, cứ 30 câu trả lời,
chúng tôi mong đợi 10 câu trả lời từ phụ nữ và 20 câu trả lời từ nam giới. Kết quả
được ghi trong bảng 2.4. Lý thuyết của chúng ta có đúng không?
Giải.
Với giá trị khi-bình
phương nhỏ hơn 0,05, giả
thuyết của chúng ta đã
sai.
Vậy, nam giới không đại
diện cho 2/3 số phản hồi
gửi thư.
LƯU Ý: Như đã đề cập
trước đây, chúng ta sử
dụng thống kê khi-bình
phương để cho phép chúng ta công bố kết quả một cách tự tin.

25
2.5 Kiểm định chi bình phương kết hợp
Kiểm định khi bình phương cũng có thể được sử dụng để điều tra mối liên
hệ giữa dữ liệu tần số trong hai nhóm riêng biệt. Đây được gọi là kiểm định khi
bình phương kết hợp. Dữ liệu mong đợi được tính toán bằng cách giả định rằng số
lượng trong một nhóm không bị ảnh hưởng bởi số lượng trong một nhóm khác.
Nói cách khác, chúng ta đang kiểm tra xem có sự liên quan giữa hai nhóm hay
không. Nếu P nhỏ hơn 5% thì có một mối liên hệ đáng kể giữa hai nhóm, nhưng
nếu P lớn hơn 5% thì hai nhóm là độc lập.
Ví dụ. Về phép kiểm tra liên kết chi bình phương
Trong trường hợp này, chúng ta sẽ xem xét một chiến dịch tiếp thị khác.
Các câu hỏi được đặt ra liệu thời gian trong ngày có ảnh hưởng đến phản hồi của
chiến dịch tiếp thị hay không. Như trước đây, chúng ta đo lường phản hồi (quan
sát được), nhưng đối với dự kiến, chúng ta phải tính toán dự kiến bằng cách sử
dụng các tổng (như trong hình 2.10).
Giải. Sử dụng Exel tính ta có kết quả thể hiện trong bảng sau:
Với giá trị chi-bình
phương thấp như vậy
(dưới 5%), chúng ta có
thể giả định rằng có
mối quan hệ chặt chẽ
giữa thời gian gửi
email và quảng cáo
trong ngày.
2.6 Tóm tắt
Mục tiêu chính của chương này là chứng minh rằng trong thống kê, thường
có nhiều cách để tiến hành phân tích mà chúng ta yêu cầu. Khi lần đầu tiên bắt đầu
thống kê, mọi người luôn đặt câu hỏi về giả thuyết không và tự hỏi tại sao chúng
ta lại cố gắng chứng minh điều ngược lại, vì vậy chúng ta đã chỉ đến 'giả thuyết
thay thế', ngược lại với giả thuyết không.

26
3. Khai phá dữ liệu trong Excel
Khai phá dữ liệu là một công cụ rất mạnh mẽ có thể xác định vị trí của thông
tin sâu sắc để cho phép những người ra quyết định xây dựng chiến lược. Có rất
nhiều chiến lược và công cụ khai phá dữ liệu có sẵn, nhưng đối với cuốn sách này,
chúng ta sẽ tập trung vào cây quyết định.
Mục này được xây dựng dựa trên các mục trước để cho phép chúng ta
chuyển sang cấp độ tiếp theo. Mục này sẽ bao gồm những nội dung sau:
• Hiểu tại sao chúng ta sử dụng cây quyết định • Cách sử dụng thống kê Chi-
square một cách hiệu quả và trực quan
• Tạo cây quyết định
• Cung cấp những phát hiện chính từ cây quyết định.
3.1 Cây quyết định
Cây quyết định hiển thị ánh xạ của các hành vi phức tạp thành một biểu đồ
đơn giản. Sử dụng kết hợp các công cụ thống kê và cách hiểu thông thường, các
quy tắc đơn giản có thể được tạo ra để cung cấp thông tin chi tiết chính. Chúng
chủ yếu được sử dụng để tạo các quy tắc cho kết quả nhị phân (lưỡng phân), ví dụ:
có, không.
3.1.1 Định nghĩa
Hình dưới đây chứa hình ảnh của một cây quyết định đơn giản. Ba mươi
người được khảo sát bên ngoài một cửa hàng DIY hỏi họ những yếu tố nào họ sẽ
cân nhắc để hoàn thành nhiệm vụ của mình trong ngày. Các kết quả đã được trình
bày trong một cây quyết định.

27
Sử dụng cây quyết định trong hình trên, những người quan tâm đến một
môn thể thao cụ thể không có khả năng tự làm. Đối với những người không nhận
ra có môn thể thao trên TV (không), thì thời tiết là một yếu tố chính. Cây quyết
định có thể tạo ra một câu chuyện dễ theo dõi và dễ hiểu. Các thuật ngữ chính
được sử dụng như sau:
 Biến phụ thuộc: biến đích, biến gốc.
 Biến giải thích / độc lập: các biến tạo ra quy tắc.
 Biến liên tục: một biến dựa trên số (ví dụ: tuổi / lương).
 Biến số: một biến dựa trên ký tự (ví dụ: vùng).
 Biến thứ tự: Một biến thứ tự tương tự như một biến phân loại. Sự khác
biệt giữa hai biến là có thứ tự rõ ràng của các biến.
 Bin (thùng): biến phân loại được chia thành gì (ví dụ: thể thao trên TV
được chia thành không, có (quan tâm), có (không quan tâm).
 Cắt tỉa: Đôi khi cây có thể chứa quá nhiều chi tiết. Vì vậy chúng tôi ‘Cắt
tỉa’ cây ở mức độ thích hợp cho phù hợp với thực tiễn.
3.1.2 Chúng ta quyết định nút như thế nào?
Như thường lệ, có nhiều phương pháp để thực hiện bất kỳ điều gì trong
thống kê, bao gồm cả cây quyết định. Trong mục này, chúng ta sẽ sử dụng phương
pháp CHAID. CHAID là viết tắt của Khi-square Automatic Interaction Detector
(hoặc Detection, tùy thuộc vào nguồn được trích).
Vì chúng ta đã có hiểu biết về khi bình phương, nên sử dụng phương pháp
khi bình phương để tạo ra cây quyết định. Thống kê khi bình phương cho phép
chúng ta khám phá các biến (dựa trên phân loại) cung cấp sự phân biệt rõ ràng
giữa các thành phần khác nhau của chúng (thùng). Thống kê khi bình phương được
sử dụng để điều tra xem liệu phân phối của các biến phân loại có khác nhau hay
không.
3.2 Chuyển một biến liên tục thành một biến phân loại
Việc chuyển đổi một biến số thành đặc tính rất đơn giản, chúng ta chỉ cần
tính các bin 'tốt nhất'. Nếu chúng ta sử dụng phỏng đoán, điều này có thể tạo ra
các bin không có 'mục tiêu', điều này sẽ không cho phép thực hiện thống kê khi-
bình phương. Trước tiên, hãy tải xuống tệp nhị phân sổ làm việc Excel. Sổ làm
việc này trình bày chi tiết doanh số bán một sản phẩm với các đặc điểm cơ bản của

28
khách hàng. Giai đoạn tiếp theo đòi hỏi việc phân đoạn các biến giải thích liên tục
thành các tỷ lệ có kích thước bằng nhau dựa trên biến mục tiêu (không phải tổng
số quan sát), như sẽ được minh họa trong ví dụ 1 sau:
Ví dụ 1. Sổ làm việc Excel, nhị phân, có một biến phản hồi nhị phân được
gọi là đã bán, giá trị này bằng 1 nếu một lần bán đã được thực hiện và bằng 0 nếu
không. Sổ làm việc này cũng chứa ba biến dự báo:
Thu nhập (liên tục);
Thế chấp% (% tiền lương được sử dụng để trả tiền thế chấp) (liên tục);
Tier (thứ hạng khách hàng) (phân loại / rời rạc).
Bậc thay đổi nhận các giá trị từ 1 đến 4. Các bậc có thứ hạng 1 có uy tín cao
nhất, trong khi những bậc có 4 có uy tín thấp nhất. Đầu tiên, chuyển đổi các biến
liên tục thành các biến phân loại, với số lượng mục tiêu bằng nhau trong mỗi bin
(phân đoạn). Điều này yêu cầu tạo một bảng tính mới với tất cả các cột, nhưng chỉ
khi cột đã bán = 1.
Sắp xếp bảng tính
Excel theo số
lượng đã bán (lớn
nhất đến nhỏ
nhất). Sao chép
và dán tất cả dữ
liệu mà đã bán =
1 vào một trang
tính mới.
Phải có 89 khách hàng mà cờ bán
hàng = 1. Giai đoạn tiếp theo yêu cầu
sản xuất 4 bin để thu nhập và thế
chấp. Vì chúng tôi muốn mỗi bin có
số lượng mục tiêu gần như nhau, hãy
đo các giá trị ở mỗi phần tư. Sắp xếp
trang tính mới này theo thu nhập. Tại
dòng 22, 44, 66 ghi lại các giá trị này.

29
 Ở dòng 22, thu nhập bằng 5200;
 Ở dòng 44, thu nhập bằng 6000;
 Tại dòng 66, thu nhập bằng 6800.
Không cần biết con số cuối cùng vì bất kỳ số nào trên 6800 sẽ đại diện cho
bin thứ tư và cuối cùng của chúng ta. Tiếp theo, sắp xếp trang tính mới này theo%
thế chấp. Tại dòng 22, 44, 66 ghi lại các giá trị này. Ở dòng 22,% thế chấp bằng
31,7. Ở dòng 44,% thế chấp bằng 34,9. Ở dòng 66,% thế chấp bằng 37,1. Không
cần biết con số cuối cùng vì bất kỳ số nào trên 37,1 sẽ đại diện cho bin thứ tư và
cuối cùng của chúng ta. Phần tiếp theo trình bày chi tiết về hai phương pháp tạo
cột mới với bin.
3.2.2 Phương pháp 1 tạo bins - sao chép và dán
Phương pháp đầu tiên là phương pháp đơn giản nhất nhưng có thể gây mệt
mỏi nếu chúng ta có dữ liệu với hơn 10000 hàng. Đầu tiên, hãy sắp xếp trang tính
Excel theo thu nhập và trong nhãn cột F nó là "nhóm thu nhập". Điền vào cột mới
này nếu thích hợp:
 5200 trở xuống;
 5201 đến 6000;
 6001 đến 6800 6801 trở lên.
Lặp lại cho một cột mới được gọi là nhóm thế chấp:
 31,7 trở xuống;
 31,8 đến 34,9;
 35,0 đến 37,1;
 37,2 trở lên.
Độ chính xác là chìa khóa khi phân loại các cột thu nhập và% thế chấp.
Hình sau: Tạo các bin mới bằng cách sử dụng sao chép và dán.

30
3.2.3 Phương pháp 2 tạo bin - Hàm if
Hàm If trong Excel: Trong Excel, chúng ta có thể sử dụng một hàm có tên
là ‘If’. Điều này cho phép tạo một giá trị trong một ô dựa trên một giá trị (số hoặc
ký tự) trong một ô khác.
= IF(logical_test value_if_true)
Logical_test: là bất kỳ giá trị hoặc biểu thức nào dẫn đến TRUE hoặc
FALSE. Ví dụ: nếu ô A2 = 3 là một biểu thức logic. Nếu ô A2 bằng 3, thì biểu
thức này là đúng, còn lại là sai.
Value_if_true: đây là giá trị chúng ta muốn hiển thị nếu nó là true. Ví dụ.
nếu ô A2 bằng 3, thì chúng ta có thể muốn hiển thị văn bản "A2 là 3".
Value_if_false: đây là giá trị chúng ta muốn hiển thị nếu nó là false. Ví dụ.
nếu ô A2 không bằng 3, thì chúng ta có thể muốn hiển thị văn bản "A2 không bằng
3".
Ví dụ. Sao chép ví dụ được hiển thị trong hình sau:
* ô công thức chỉ mang tính chất
tham khảo Trong ô B3, là công thức.
Phím tắt để dừng viết nhiều dòng công thức:
Thay vì viết ra công thức này nhiều lần,
chúng ta có thể sử dụng hàm 'drag'.
Như có thể thấy, ở góc dưới cùng bên phải
của ô, có một hình vuông.
= IF(A2 = 3,‘‘cell is 3’’,‘‘cell is not 3’’ )

31
a. Sử dụng chuột và nhấp chuột trái vào hình vuông này. Đừng nhấp chuột;
b. Kéo hình vuông này xuống dưới, để bạn bao gồm các ô từ B2 đến B10.
1) Nếu bạn bấm vào góc dưới cùng, ta sẽ thấy một thông báo ở cuối màn
hình Excel như hình trình bày ở trên.
a. Chức năng này có thể được sử dụng thay vì sao chép và dán, nhưng hãy
cẩn thận khi sử dụng các số, vì Excel có thể sử dụng quá trình đếm.
2) Bây giờ hãy bỏ nhấp chuột để xem các ô đã hoàn thành.
Hình dưới: Hàm nhấp và kéo trong Excel (3).
Nhấp vào bất kỳ ô nào, và chúng ta sẽ
nhận thấy rằng công thức đã được cập
nhật để phản ánh các ô có liên quan, …
như được minh họa trong hình 3.9.

32
Chức năng kéo này không chỉ giúp tiết kiệm thời gian quý giá mà còn có
thể ngăn lỗi xuất hiện khi viết công thức (mã) trong các ô khác nhau.
Quay lại binning các biến
Như chúng ta đã thấy, hàm 'If' rất mạnh, nhưng chúng ta phải tạo 4 bin,
không phải 2.
Các thùng cho nhóm thu nhập như sau:
5200 trở xuống;
5201 đến 6000;
6001 đến 6800;
6801 trở lên.
Các thùng cho nhóm thế chấp như sau:
31,7 trở xuống;
31,8 đến 34,9;
35,0 đến 37,1;
37,2 trở lên.
Công thức Excel được phân tích:
 IF(C2<=5200,"5200 and under",
Nếu thu nhập nhỏ hơn hoặc bằng 5200, thì hãy hiển thị "5200 trở
xuống’’;
 IF(C2<=6000, "5201 to 6000",
Giá trị cho dưới 5200 đã được tính trước đó;
Nếu thu nhập nhỏ hơn hoặc bằng 6000 thì hiển thị "5201 đến 6000".
Giá trị này tương đương với lớn hơn 5200 và nhỏ hơn hoặc bằng
6000.
 IF(C2<=6800,"6001 to 6800",

33
Giá trị cho dưới 6000 đã được tính trước đây;
Nếu thu nhập nhỏ hơn hoặc bằng 6800 thì hiển thị "6001 đến 6800".
Giá trị này tương đương với lớn hơn 6000 và nhỏ hơn hoặc bằng
6800.
 "6801 and above”
Các giá trị cho dưới 6800 trước đây là hoàn thành.
 Cuối cùng, nếu tất cả các giá trị true trước đó không được tìm thấy,
thì hãy hiển thị "6801 trở lên.
 Luôn lưu ý số lượng dấu ngoặc mở được sử dụng, vì dấu ngoặc mở
và dấu đóng cần cân bằng.
Excel đọc công thức từ trái sang phải, do đó chúng ta phải chắc chắn rằng
nó được viết theo đúng thứ tự. Nếu chúng ta bắt đầu các lệnh với 'C2 <= 6800',
sau đó tiếp tục với 5200 và 6000, công thức 'if' sẽ không thành công. Sử dụng
nhiều câu lệnh 'if' có thể khó hiểu và phải đếm số lượng dấu ngoặc được sử dụng,
nhưng sau khi hoàn thành, nó có thể làm cho việc gắn nhãn các ô trong Excel rất
nhanh chóng.
Công thức Excel được phân tích:
 IF(D2<=31.7,"31.7 and under",
Nếu phần trăm thế chấp bằng hoặc nhỏ hơn 31,7 thì hiển thị "31,7 trở
xuống’’.
 IF(D2<=34.9,"31.8 to 34.9",
Ngược lại nếu phần trăm thế chấp bằng hoặc nhỏ hơn 34,9 thì hiển
thị "31,8 đến 34,9".
Điều đó tương đương lớn hơn 31,7 và nhỏ hơn hoặc bằng 34,9.
 IF(D2<=37.1,"35.0 to 37.1",
Ngược lại, nếu phần trăm thế chấp bằng hoặc nhỏ hơn 37,1 thì hiển
thị "35,0 đến 37,1".
Đây tương đương với lớn hơn 31,7 và nhỏ hơn hoặc bằng 37,1.
 "37.2 and above"

34
Cuối cùng, nếu không tìm thấy tất cả các giá trị true trước đó, thì sẽ
hiển thị "37.2 trở lên.
Như trước đây, ngay sau khi hoàn thành công thức một lần
a. Nhấp vào góc dưới cùng bên phải của ô và kéo xuống hoặc
b. nhấp đúp chuột vào hình vuông này Hình 3.13 chứa một ảnh chụp nhanh
của trang tính Excel đã hoàn thành.
LƯU Ý: nếu lỗi được tạo ra trong công thức, thì lỗi này sẽ lặp lại trong tất
cả các ô khác. Luôn kiểm tra kỹ công việc của bạn, ví dụ: đảm bảo nó hiển thị 37,2
chứ không phải 3,72.

35
3.3 Tạo cây quyết định
Bây giờ chúng ta đã tạo một tập dữ liệu (bảng tính Excel) có các cột sau:
 id (id khách hàng)
 Đã bán (khách hàng đã mua sản phẩm);
 Thu nhập (thu nhập của khách hàng);
 Thế chấp% (phần trăm thu nhập của khách hàng được chi tiêu cho thế
chấp );
 Nhóm thu nhập bậc (phân cấp khách hàng) (nhóm biến thu nhập được
phân nhóm);
 Nhóm thế chấp (nhóm biến% thế chấp được nhóm lại).
Tập dữ liệu này có 298 quan sát (hàng) và 89 doanh số (mục tiêu).
Đối với nhánh đầu tiên, chúng tôi sẽ sử dụng thống kê khi-bình phương.
Như đã đề cập trước đây, khi-bình phương cho chúng ta biết xác suất của một sự
kiện xảy ra một cách tình cờ, sử dụng các giá trị được quan sát và mong đợi. Nếu
có giá trị khi-bình phương là 0,01, điều này cho chúng ta biết rằng các kết quả
quan sát có thể chỉ xảy ra tình cờ 1% số lần. Do đó thống kê càng thấp càng tốt.
Theo nguyên tắc cơ bản, chúng ta muốn thống kê chi bình phương nhỏ hơn 0,05
(5%).
3.3.1 Bảng tổng hợp
Bước tiếp theo của chúng ta là tính tổng số quan sát trong mỗi bin cho từng
biến bậc, nhóm thu nhập và nhóm thế chấp. Điều này có thể dễ dàng được tính
toán bằng cách sử dụng bảng tổng hợp trong Excel, nhưng bước đầu tiên thêm một
cột mới vào tập dữ liệu của chúng ta (trang tính Excel) được gọi là số. Cột mới
này sẽ chứa số 1 cho tất cả các quan sát (hàng).

36
1) đánh số 1 vào ô H2 và H3 (như hình trên).
a. đánh dấu cả hai ô bằng chuột.
2) Như trước đây, hãy nhấp đúp vào góc dưới cùng bên phải của các ô được
đánh dấu để tự động điền vào cột.
Lưu ý: nếu bạn chỉ nhập 1 vào chỉ một trong các ô và sau đó bấm đúp vào ô
đó, Excel sẽ cung cấp cho bạn số lượng tích lũy, ví dụ: 1, 2, 3, 4, 5… đi xuống
cuối dữ liệu, trong trường hợp này là dòng 299.
Hình 3.15: Hoàn thành cột mới trong Exel.
Với cột đã hoàn
thành, giai đoạn
tiếp theo liên
quan đến việc tạo
một bảng tổng
hợp.

37
1) Nhấp vào một ô duy
nhất trong tất cả dữ liệu.
a. không đánh dấu 2 hoặc nhiều
ô vì Excel sẽ chọn chỉ sử dụng
các ô được đánh dấu đó để tạo
bảng tổng hợp.
2) Nhấp vào tab CHÈN trên đầu
dải băng.
3) Nhấp vào Bảng tổng hợp
Excel sẽ tự động chọn dữ liệu ta
muốn.
1) Dữ liệu! $ A $ 1: $ H $ 299 -
Excel đã tự động hoàn thành việc
này cho bạn đã hoàn thành;
a. Dữ liệu là tên của trang tính;
b. $ A $ 1: $ H $ 299, điều này
cho Excel biết vị trí các ô chứa dữ
liệu.
2) Chọn Trang tính mới.
3) Nhấp vào OK.
Một sổ làm việc mới sẽ mở cho bạn, như được minh họa trong hình dưới:

38
Danh sách này liệt kê tất cả các cột có sẵn cho bảng tổng hợp;
Bước tiếp theo liên quan đến việc chọn các trường dữ liệu bắt buộc vào
bảng tổng hợp.
1) Nhấp vào Bậc (không bỏ nhấp) và
kéo đến hộp có tên ROWS. Bây giờ hãy bỏ
nhấp vào.
2) Các biến chúng tôi muốn tóm tắt
được kéo vào đây.
a. Nhấp vào Count (không bỏ nhấp)
và kéo đến hộp có tên là Giá trị. Bây giờ hãy bỏ nhấp vào.
b. Nhấp vào Sold (không bỏ nhấp) và kéo đến hộp có tên là Giá trị. Bây giờ
hãy bỏ nhấp vào.
Giai đoạn tiếp theo yêu cầu chúng tôi tính toán phần trăm doanh số, bằng
cách chèn một trường đã tính toán.
1) Đảm bảo rằng một ô
được đánh dấu trong bảng tổng hợp;
2) Nhấp vào tab ANALYZE;
3) Tiếp theo nhấp vào Fields, Items
& Sets;
4) Chọn trường được tính.
1) Viết trên Field1 với Perc_sale
2) Trong hộp Công thức, hãy tạo
phương trình cho phép chúng tôi
tính toán tỷ lệ phần trăm của một
người nào đó mua, Sold / Count;
a. Xóa số 0 trong hộp công thức
(giữ nguyên dấu =);

39
b. Trong hộp Trường, bấm đúp vào Sold;
c. Bây giờ gõ /
d. Nhấp đúp tiếp theo vào Count.
Hy vọng rằng công thức sẽ giống như được hiển thị trong hình sau:
Chọn OK.

40
Giai đoạn tiếp theo yêu cầu làm cho Bảng tổng hợp hiển thị hơn.
Kích chọn: Sum of count sau đó cọn cài đặt trường giá trị.
Thay đổi điều này để hiển thị toàn bộ như trong hình 3.26 dưới đây:

41
Lặp lại tương tự cho Sold, nhưng gọi cột
này là Total Sold.
Với ‘Sum of Perc_sale’, chúng
tôi muốn thay đổi tên của nó và
làm cho nó hiển thị phần trăm
(%). Sử dụng menu box ‘Value
Field Setting’ cho ‘Sum of
Perc_sale’.
1) Đổi tên % Sold;
2) Nhấp vào Number format.

42
1) Chọn Phần trăm;
2) Nhấp vào OK.
Sau đó nhấp vào OK
trên hộp: ‘Value Field
Settings’.
Chúng ta cần so sánh giá trị quan sát được với giá trị mong đợi. Nhìn chung,
có tỷ lệ bán hàng 29,87%, do đó, tính toán cho mỗi Cấp 29,87% tổng số khách

43
hàng trong mỗi ben (giá trị dự kiến). Điều này yêu cầu một trường được tính toán
mới có tên là ‘Expected sales’.
 Đảm bảo rằng một ô được đánh dấu trong bảng tổng hợp;
 Nhấp vào tab ANALYZE;
 Tiếp theo nhấp vào Fields, Items & Sets;
 Chọn Trường Tính toán.
1) Name: Expected sales;
2) Công thức: = count * 0.2987.
Excel không thích hai cột được gắn nhãn giống nhau và ta có thể nhận được
thông báo lỗi cho ‘Expected sales’, trong trường hợp này, chỉ cần đặt dấu cách
trước chữ "E" trong doanh số dự kiến.

44
Với các số liệu dự kiến và thực tế đã hoàn thành, chúng ta có thể tính toán
thống kê khi - square. Sao chép công thức như trong hình 3.34, với một bảng chi
tiết kết quả.
Đối với biến Tier,
chúng tôi nhận thấy
rằng giá trị khi-square
là 0,015386, 1,5386%
(đây là mức thấp).
Để tính toán khi-bình
phương cho nhóm
Thu nhập, chúng ta
thực hiện theo hướng
dẫn sau:
1) Nhấp vào Bậc trong Hộp
Hàng (không được bỏ bấm) a.
Kéo nó lên hộp trên cùng (bỏ
bấm);
2) Bấm vào Nhóm thu nhập
(không bỏ bấm);
a. Kéo nó vào hộp hàng (bỏ
bấm).

45
Đảm bảo rằng các ô chính xác đang được sử dụng để tính khi-square thống
kê Đối với nhóm thu nhập, giá trị khi-bình phương là 0,583968, hay 58,397% (mức
này rất cao).
Lặp lại tương tự đối với nhóm thế chấp.
1) Nhấp vào Bậc
trong Hộp Hàng
(không được bỏ
nhấp (click));
a. Kéo nó lên hộp
trên cùng (bỏ
kích).
2) Bấm vào Nhóm
thu nhập (không
bỏ kích).
a. Kéo nó vào hộp Hàng (bỏ kích).

46
Đảm bảo rằng các ô chính xác đang được sử dụng để tính toán thống kê Khi
bình phương.
Đối với nhóm thu nhập, giá trị Khi bình phương là 0,583968 hoặc 58,397%
(tỷ lệ này rất cao).
Lặp lại tương tự cho nhóm thế chấp (mortagage).
Đối với nhóm thế chấp, giá trị Khi-square là 0,23237, hay 23,237% (đây là
mức cao). Kết quả khi-bình phương được hiển thị trong bảng 3.1.

47
Dựa trên kết quả Khi bình phương, nhánh
đầu tiên sẽ được tạo bằng cách sử dụng biến
Tier, vì nó có thống kê khi bình phương thấp
nhất và đáp ứng quy tắc dưới 5%. Nếu
không có giá trị nào thỏa mãn quy tắc 5%,
chúng ta sẽ xem xét liệu có nên khôn ngoan khi xây dựng cây quyết định hay
không.
3.3.2 Thiết kế cây quyết định trong Excel
Nhánh đầu tiên của chúng ta sẽ chứa các hình sau:
Tổng số và tổng
số hàng đã bán được
thu thập từ bảng Tổng
hợp. "Not Sold" được
tính như sau:
Not Sold = Total – Total Sold.
Sử dụng nút Border, chúng ta có thể đơn giản tạo cây quyết định, dựa trên
biến mạnh nhất (bậc) Hình 3.38, mặc dù sâu sắc nhưng có thể coi là khá nhàm
chán. Thêm một số màu vào cây, với định dạng có điều kiện, sẽ tạo ra một cây tạo
hình mắt đẹp hơn.

48
1) Sử dụng CTRL
và nhấp vào các ô,
có thể đánh dấu tất
cả các ô mà ta
muốn thêm định
dạng có điều kiện
vào.
a. Trong trường hợp này, các ô% đã bán đã được đánh dấu.
2) Chọn Thang màu và biểu đồ thứ hai ở hàng trên cùng.
3) Tô màu nhẹ cho các ô này
a. Các nhãn đã bán và chưa bán có màu xanh lam nhạt.
Quay lại câu hỏi ban đầu, có dân số nào mà chúng ta có thể nhắm mục tiêu
chi phí hiệu quả không? Sử dụng cây quyết định, chúng ta nên nhắm mục tiêu
những khách hàng đó ở cấp 1 và 2. Cấp 1 có nhiều hơn hai lần rưỡi để mua so với
Cấp 4! Công việc này có thể được coi là rộng rãi, nhưng cần phải phát hiện ra biến
số phân biệt đối xử với một sản phẩm đang được bán hoặc không phải là sản phẩm
mạnh nhất. Điều này sẽ cho phép chúng ta tối đa hóa lợi nhuận của mình bằng
cách nhắm mục tiêu các khách hàng hiệu quả về chi phí.
3.4. Tóm tắt
Nội dung đã trình bày cho chúng ta thấy Excel có thể phân tích mạnh mẽ.
Ngoài ra, nó là một công cụ tuyệt vời để giải thích các số liệu thống kê, một cách
đơn giản. Excel có thể tạo ra các biểu đồ sâu sắc và là một trong những công cụ
phân tích phổ biến nhất ở nơi làm việc. Đôi khi chúng ta có thể gặp các vấn đề
phức tạp cần giải quyết mà không nằm ngoài việc gửi Excel.

49
Chương 2. Xử lý dữ liệu bằng Python
1. Giới thiệu về Python
Python là một công cụ phân tích dữ liệu mã nguồn mở và miễn phí cho phép
làm việc các tập dữ liệu lớn và tiến hành các phân tích phức tạp. Python là một
ngôn ngữ kịch bản, có nghĩa là bạn phải viết mã (mà chúng tôi đã giới thiệu một
chút trong Excel với câu lệnh ‘IF’). Mục này bao gồm những điều cơ bản về thống
kê trong Python), để loại bỏ bất kỳ giả định nào về các khả năng trước đó Python
không có tất cả các công cụ cần khi cài đặt ban đầu. Do đó khi làm việc với Python,
chúng ta sẽ không tải xuống các công cụ này (gói / thư viện).
Các gói là tập hợp các hàm Python, có thể được sử dụng sau khi cài đặt.
Mục đích của chương này là:
 Hiểu cách sử dụng các kiểu dữ liệu khác nhau:
Danh sách, mảng, khung dữ liệu.
 Tính toán thống kê đơn giản (trung bình, chế độ, chi-square, v.v.)
 Tạo đồ thị cơ bản.
1.1 Spyder
Với nhiều lời khuyên và video trên internet hướng dẫn chi tiết cách tải
xuống và cài đặt Python, cuốn sách này sẽ bắt đầu ở màn hình mở cho Spyder. Tôi
thích máy chơi game console, trong khi người khác thích máy tính xách tay Jupyter
hơn. Mã sẽ hoạt động trong bất kỳ môi trường nào.
Cuốn sách này lặp lại các phần nhất định từ mục 1 đến mục 3 như một cách
để chứng minh cách lập trình bằng Python. Điều này cũng sẽ cung cấp một nền
tảng về cách chuyển kiến thức Excel sang Python và để kiểm tra kết quả của chúng

50
ta. Không giống như Excel, nơi có thể dễ dàng quan sát tiến trình, Python không
hiển thị kết quả ngay khi viết mã. Thay vì giải thích các phân đoạn khác nhau trong
Python, cuốn sách này sẽ hướng dẫn sử dụng các ví dụ. Qua nhiều năm kinh
nghiệm, chúng tôi phát hiện ra rằng ‘làm điều đó’ có hiệu quả hơn những lời giới
thiệu dài dòng.
Do đó, mục này là một cách tiếp cận áp dụng để học những điều cơ bản
trong Python. Hai thư viện quan trọng nhất để sử dụng trong cuốn sách này là:
Chương trình 4-1: Thư viện ban đầu
import numpy as np
import pandas as pd
Là một cách nhanh chóng để chạy mã, hãy dùng chuột đánh dấu mã, sau đó
nhấn Shift và Enter.
Điều này sẽ
chạy mã của ta. Chạy
hai thư viện này sẽ
được giới thiệu sau
dưới đây.
Bỏ qua các dấu
chấm than trong hình
tam giác, điều này có nghĩa chúng ta chưa viết bất kỳ mã nào sử dụng các thư viện
này.
1.2 Excel sang Python
Ví dụ đầu tiên của chúng ta là sao chép ‘Ví dụ 1.2.1’, tính giá trị trung bình,
trung vị và range, nhưng bằng Python.
1.2.1 Ví dụ về giá trị trung bình, trung vị và range
Sử dụng Python để tính giá trị trung bình (trung bình), trung vị, mode và
range cho dữ liệu: 13, 18, 13, 14, 13, 16, 14, 21, 13.

51
Để hoàn thành nhiệm vụ này, trước tiên chúng ta cần tạo một danh sách.
Chương trình 4-2: Tạo danh sách các số.
Nếu ta chạy mã trên (shift và enter), thì sẽ tạo danh sách số, với một biến
được gọi là a.
Hình 4.3 đến 4.5 hiển thị ảnh chụp nhanh của 3 màn hình khác nhau trong
Spyder.
Mã đã được chạy.
Nhấp vào biến để xem kết quả.
Hiển thị danh sách của chúng tôi, với thông tin.

52
Chương trình 4-3. Tính toán giá trị trung bình
np.mean(a)
np, biểu thị rằng chúng ta cần sử dụng thư viện numpy, để tính giá trị trung
bình.
Phần thứ hai, mean (a), nói với Python rằng chúng ta muốn giá trị trung bình
của biến.
a. Chúng ta phải sử dụng các dấu khi dùng lệnh mean(a).
Thông báo lỗi không có gì đáng sợ và đôi khi có thể hữu ích. Nếu mọi người
đều hoàn hảo về Python, thì sẽ không cần thông báo lỗi. Trong hình 4.6, một lỗi
đã được tạo ra làm ví dụ. Sửa mã và sử dụng dấu ngoặc.

53
Sử dụng phần bảng điều khiển, chúng ta có thể xem mã đã được chạy, cùng
với kết quả, 15.0, khớp với kết quả Excel của chúng ta. Trong Excel, ta đã sử dụng
lệnh trung bình, giống như trong Python. Trung vị sẽ được tính tiếp theo (vì numpy
không tính chế độ). Có thể thấy trong chương trình 4-4, mã rất giống với việc tính
giá trị trung bình.
Chương trình 4-4: Tính giá trị trung bình.
np.mean(a)
Trung vị được hiển thị là 14. Cuối cùng, chúng ta sẽ tính toán range. Trong
phần 1.3, chúng ta đã trình bày lệnh Excel dưới dạng:
= Max (range) – Min (range).
Chúng ta sửa đổi điều này một chút và viết nó trong Chương trình Python
4-5:
Tính range trong Python: np.max(a) – np.min(a).
Một lần nữa, đánh dấu mã và chạy nó.

54
Giai đoạn tiếp theo liên quan đến việc tính toán mode, độ lệch chuẩn và
phương sai. Điều này liên quan đến việc sử dụng một thư viện mới, số liệu thống
kê.
Chương trình 4-6: Tính toán thêm các số liệu thống kê.

55
Bây giờ chúng ta đã tạo lại thống kê Excel của mình bằng Python. Lựa chọn
sử dụng Python thay vì Excel cho các thống kê cơ bản chủ yếu mang tính cá nhân,
cuốn sách này được thiết kế chỉ để cung cấp nền tảng của thống kê ứng dụng.

56
2. Tương quan
Nhiệm vụ tiếp theo là tạo lại các thống kê và đồ thị tương quan trong Python
từ hình 1.11. (Điều này sử dụng chương trình 2 tương quan) Hình 4.12: Bản sao
của hình 1.11.
Điều này sẽ đòi hỏi:
 Tạo 4 danh sách mới;
 Thực hiện các bài kiểm tra
tương quan;
 Tạo ra một biểu đồ.
Bước đầu tiên của chúng tôi yêu cầu tạo 4 danh sách mới. Để bắt chước ví
dụ Excel, chúng sẽ được gọi là data1, data2, data3 và data4.
Tất cả bốn dòng có thể được chạy cùng một lúc, bằng cách đánh dấu chúng
và nhấn shift và enter. Lệnh để tiến hành kiểm tra tương quan là pearsonr () (lệnh
này sử dụng Pearson-test). Điều này tạo ra kết quả có hai giá trị:
- Hệ số tương quan;
- Giá trị p.
Giá trị p được sử dụng khi ta kiểm tra một giả thuyết. Giá trị p là một thước
đo quan trọng, đã được thảo luận ờ các mục trước.
So sánh mã Excel của chúng tôi với mã Python, chúng tôi nhận thấy một số
điểm tương đương.

57
A2: A11 giống với data1, B2: B11 giống với data2, …
Kết quả được tạo ra bằng Python cũng giống như kết quả trong Excel, với
cảnh báo cho data1 và data4, như mong đợi.
Phần tiếp theo của bài tập này yêu cầu
xây dựng một biểu đồ. Điều này đòi
hỏi phải viết mã thêm, chúng ta sẽ
tiến bộ từng bước. Đầu tiên, chúng ta
cần một thư viện mới, xây dựng
Chương trình 4-9: nhập thư viện vẽ đồ thị.

58
plt.plot - lệnh tạo ra biểu đồ của
chúng ta;
(data1, data2, 'blue'): Data1 – trục
x, Data2 - trục y;
‘blue’ - nói với python rằng đường
màu xanh lam;
Plt.show () - lệnh yêu cầu Python
vẽ biểu đồ.
Để bổ sung thêm dữ liệu
vào cùng một biểu đồ, hãy chuyển
tiếp Chương trình 4-11: Vẽ tất cả
các đường.

59
Biểu đồ tương tự như biểu đồ đã hoàn thành trong Excel (không có tiêu đề).
Python có khả năng tạo ra nhiều loại đồ thị tuyệt vời.
3. Hồi quy tuyến tính đơn giản
Ví dụ 1.5.1. đã giới thiệu hồi quy tuyến tính đơn giản, điều này sẽ được tạo
lại bằng Python.
3.1. Ví dụ về hồi quy tuyến tính đơn giản
Chúng ta muốn kiểm tra xem có mối quan hệ giữa độ dày của miếng bọt
biển và độ thấm hút chất lỏng của nó hay không. Chúng tôi đã thiết kế một thí
nghiệm với các mức độ dày khác nhau của bọt biển, với lượng chất lỏng được hấp
thụ. Kết quả được ghi trong bảng 4.3.
Bảng 4.3: Dữ liệu hồi quy tuyến tính đơn giản.
Trong Python, các bước sau sẽ được tiến hành: Tạo mảng, trong cuốn sách
này, chúng tôi sẽ định nghĩa mảng là một biến có thể lưu trữ danh sách các giá trị.
Tạo hồi quy tuyến tính đơn giản; Tạo đồ thị có trục và tiêu đề được gắn nhãn
Chương trình 4-12 dưới đây: Tạo mảng của chúng ta.
np.array, nói với Python rằng chúng ta muốn tạo mảng bằng cách sử dụng
các số liệu bên trong ([…]).
Bây giờ, chúng ta có hai mảng: đầu vào x và đầu ra y. Để hồi quy hoạt động
trong Python, chúng ta cần sửa đổi x thành hai chiều, một cột, nhưng nhiều hàng.
Đó là lý do tại sao chúng ta cần định hình lại lệnh ((- 1,1)). Mảng cho phép chúng
ta thao tác dữ liệu dễ dàng hơn.

60
Chương trình 4-13 dưới: Mã hồi quy tuyến tính đơn giản của chúng ta.
1) Nhập thư viện mới;
2) Mã hồi quy của chúng ta;
3) Tạo đầu ra của chúng ta cho mô hình –xem hình 4.16.
Giai đoạn tiếp theo yêu cầu chúng ta tạo ra cốt. Chương trình 4-14: Vẽ mã
mô hình hồi quy tuyến tính đơn giản.

61
1) Chúng ta đã tạo một mảng dữ liệu mới dựa trên các hệ số của mô hình.
Điều này đã được thực hiện để chúng ta có thể vẽ biểu đồ giá trị dự đoán của mình
so với giá trị thực của chúng (đường xu hướng).
2) Mã của chúng ta.
Nhiều mã đã được thêm vào từ các ví dụ trước
a. plt.title (‘…’) - đặt tiêu đề biểu đồ;
b. plt.xlabel (‘…’) – gắn nhãn cho trục x;
c. plt.ylable (‘…’) - gắn nhãn trục y.
3.2. Bài kiểm tra t
Phần tiếp theo chúng ta giải bài tập kiểm tra t từ ví dụ 2.1.
Trong ví dụ này, chúng ta muốn kiểm tra hiệu quả của một loại thuốc mới.
Hỏi một số học sinh về tình trạng sức khỏe của họ (điểm 0 đến 20). Sau đó, không
nói với họ, bắt đầu cho họ dùng loại thuốc mới. Sau một tuần, hỏi những người
tương tự về tình trạng sức khỏe của họ.
Kết quả được ghi trong bảng 4.4.
1) Tính giá trị trung bình & độ lệch chuẩn;
2) Loại thuốc đó và sức khỏe học sinh, chúng có tương quan với nhau
không?

62
3) Tính toán giá trị t-test để theo dõi xem có sự khác biệt về sức khỏe của
học sinh hay không.
Ghi chú rất hữu ích khi viết mã:
- Chúng cung cấp cho một bản tóm tắt nhanh chóng về những gì mã thực
thi mà ta không cần phải đọc qua các dòng mã;
- Cho phép đồng nghiệp hiểu công việc của chúng ta.
Hình 4.40 hiển thị các giai đoạn cần thiết cho bài tập này trong R.
Để tiến hành kiểm định t, các bước sau sẽ được yêu cầu:
- Tạo mảng với các giá trị trước khi tính;
- Tính giá trị trung bình và độ lệch chuẩn:
+ Tính toán thống kê tương quan;
+ Tính toán thống kê kiểm định t bằng một lệnh mới.
- Tạo dữ liệu;
- Tiến hành thống kê theo yêu cầu.

63
Chương trình 4 – 16. T test thống kê
stats.ttest_ind(- lệnh của chúng ta để Python tiến hành kiểm tra trước khi t-
test pre, post, - dữ liệu equal_var = False) – được đặt thành false, không giả định
phương sai tổng thể bằng nhau.
Ttest_indResult(statistic = -2.9139712, pvalue = 0.0108723).
Phép thử t so sánh hai giá trị trung bình và thông báo cho ta nếu chúng khác
nhau. Phép thử t cho biết các biến có ngẫu nhiên hay không.
+ T = -2,91397.
+ Giá trị P (đây là giá trị được tính trong Excel).
Thông báo về xác suất liệu các kết quả từ mẫu có ngẫu nhiên hay không.
Giá trị P = 0,05 cho biết rằng có 5% khả năng kết quả xảy ra một cách ngẫu nhiên.
Giá trị p càng thấp thì kết quả càng tốt. Trong trường hợp này, p = 0,108 có nghĩa
là kết quả có 1,08% khả năng xảy ra ngẫu nhiên.
Python sử dụng một kịch bản thử nghiệm t khác với Excel, do đó sự khác
biệt về số liệu, nhưng kết quả là tương tự.
4. Khi-square
Bài tập tiếp theo xây dựng dựa trên các ví dụ trước, cũng như giới thiệu các
lệnh mới và cấu trúc dữ liệu mới (chương trình 5 khi-square).
Sau đây giải quyết ví dụ 2.4.1.

64
4.1. Ví dụ về khi-square
Chúng ta cùng đi dạo trong một khu rừng xinh xắn và nhận xét về màu sắc
của những quả táo. Chúng tôi dự kiến sẽ thấy ¾ táo đỏ và ¼ táo xanh. Sau khi đếm
số táo trong rừng, kết quả đã được ghi lại ở bảng dưới đây:
Công thức của Exel:
= CHITEST(observed
range, expected ranger).
Bước đầu tiên của chúng ta là tạo mảng:
Chương trình 4-18.
Tạo một khung dữ liệu chứa hai cột và hai hàng:
+ Khi_data - tên của khung dữ liệu;
+ pd. quan sát;
+ 'observed' - tạo một cột được gọi là observed:
+ expected - chứa dữ liệu trong mảng expected.
Giai đoạn cuối cùng của
chúng ta bao gồm các bước
sau:
Kích hoạt thư viện;
Tiến hành kiểm định khi-
square.

65
stats.chi2_contingency – lệnh sử dụng;
(khi_data) – Dữ liệu đã cho của chúng ta.
Từ kết quả ban đầu, kết quả có thể khá khó hiểu:
+ 0,00818 - đây là giá trị chi bình phương của chúng ta;
+ 0,9279 – đây là giá trị p của chúng ta;
+ 1 - đây là bậc tự do.
Bậc tự do được tính bằng cách sử dụng số cột - 1 (2-1).
+ Phần cuối là kết quả mong đợi.
Python có một cách dễ dàng để trình bày kết quả:
Phần đầu tiên của mã chi2_stat, p_val, dof, ex, yêu cầu Python tạo 4 đối
tượng khác nhau, mỗi đối tượng chứa các giá trị. Do đó, để có được thống kê khi
bình phương thực hiện như sau:
Điều này tạo ra p_value của chúng ta là 0,9279, giống như kết quả của
Excel. Khi bạn bắt đầu lập trình bằng Python, chắc chắn sẽ tìm thấy nhiều cách để
thực hiện bất kỳ tác vụ nào. Sự lựa chọn nên là của chúng ta, miễn là kết quả tạo
ra là chính xác.
4.2. Tóm tắt
Mục đích chính của mục này là bắt đầu bằng Python, không cần nhiều lý
thuyết. Nó chứng tỏ rằng để sử dụng Python một cách thông minh, chúng ta phải
cài đặt các gói và thư viện. Python là một ngôn ngữ lập trình, đó là lý do tại sao

66
chúng ta sử dụng Excel để giới thiệu một số mã hóa cơ bản bằng cách sử dụng các
lệnh và câu lệnh ‘if’.
Vì vậy bước chuyển sang Python sẽ không quá lớn. Không ai trở thành bậc
thầy của một ngôn ngữ lập trình trong một sớm một chiều, có thể mất vài tháng /
năm và như thường lệ, sự kiên nhẫn và ứng dụng là chìa khóa. Điều này không có
nghĩa là chúng ta không nên sử dụng Python, chỉ cần bạn kiên nhẫn khi học.

67
5. Dữ liệu cho Python và thao tác dữ liệu
Bất kể bạn sử dụng ngôn ngữ phân tích nào, dữ liệu là khía cạnh quan trọng
nhất của bất kỳ các phân tích. Nếu dữ liệu không tốt, thì bất kỳ phân tích nào được
tạo ra sẽ không có giá trị. Một trong những câu nói phổ biến nhất trong thế giới
phân tích là:
Rubbish in = Rubbish out
(Có nghĩa là: Dữ liệu vào là rác thì thông tin ra là rác, không có giá trị).
Khi mọi người tập trung vào kỹ thuật hơn là dữ liệu, họ sẽ tạo ra những kết
quả không thực tế với những kết luận khó hiểu. Hiểu dữ liệu và cách dữ liệu sẽ
hoạt động là chìa khóa trong phân tích. Điều này sẽ trở nên rõ ràng hơn khi chúng
ta bắt đầu thao tác với dữ liệu.
Mục này nghiên cứu sâu hơn về dữ liệu và cấu trúc dữ liệu.
5.1 Các kiểu dữ liệu cơ bản trong Python
Các định dạng cơ bản của Python:
Boolean:
True, False
Numeric
Integer (ví dụ: 1, 2);
Float (ví dụ: 5.6);
Complex (ví dụ: 6 - 2i).
String
Ví dụ: "BOB", "fun"
Binary
Ví dụ: 0, 1.
Trong cuốn sách này, chúng ta sẽ chủ yếu tập trung vào các kiểu dữ liệu số
nguyên, số và chuỗi (ký tự). Python cũng có nhiều cấu trúc dữ liệu, nhưng cuốn
sách này sẽ tập trung vào ba cấu trúc sau:
+ List
+ Array

68
+ Data frame.
5.1. Dữ liệu cho mục 5
Có thể làm sạch và sửa đổi dữ liệu là chìa khóa để trở thành một nhà phân
tích giỏi. Như bạn có thể đã khám phá ra với cuốn sách này, một cách tiếp cận
thực tế hơn là lý thuyết được sử dụng. Đối với chương này, cần có tệp CSV có tên
là 'mẫu'. Tệp này nêu chi tiết về khả năng khách hàng không trả được nợ đối với
một sản phẩm tài chính. Vui lòng nhập nó, thông qua Python nhập dữ liệu hoặc tự
viết tập lệnh, để chúng ta ‘làm sạch’.
Chương trình 5-1: Nhập tệp CSV
Khi chúng ta nhập tệp CSV này, nó sẽ tạo ra một khung dữ liệu, được gọi
là mẫu.
+ sample=, khung dữ liệu tạo ra;
+ pd.read_csv (- lệnh đọc CSV file);
+ "C:/temp/sample.csv" – nơi tệp được lưu trữ, được nhập vào Python.
Tất cả công việc của chúng ta trong chương này sẽ sử dụng khung dữ liệu
này. Khung dữ liệu này có 13508 hàng và 16 cột. Các cột được mô tả trong bảng
5.1.

69
Nhiệm vụ đầu tiên của chúng ta là xem xét 20 hàng trên cùng. Để thực hiện
việc này, chúng ta sẽ tạo một khung dữ liệu mới có tên là top20, chứa 20 hàng đầu
tiên của khung dữ liệu, mẫu.
+ top20- tên của khung dữ liệu mới;
+ sample – tên của khung dữ liệu của chúng ta;
+ head(20) – head là lệnh cho Python biết rằng chúng ta muốn xem số hàng
trên cùng. Con số 20, nói với Python rằng chúng ta muốn 20 hàng trên cùng.
Sau đó, chỉ cần nhấp đúp vào khung dữ liệu mới này (trong quá trình khám
phá biến). Nếu sử dụng Jupyter, thì chúng ta có thể viết top20.
Nhấp đúp vào đây sẽ mở ra khung dữ liệu mới của chúng ta.

70
Hình sau là khung dữ liệu của top20.
+ Điều đầu tiên cần chú ý là cột chỉ mục bắt đầu từ số 0.
+ Thứ hai, 2 cột đã có giá trị bị thiếu được thay đổi từ trống (thiếu) thành
nan(CCJ_governmet và CCJ_private).
Python ghi đè các giá trị bị thiếu bằng nan. Xử lý các giá trị bị thiếu được
đề cập trong phần tiếp theo. Để đóng cửa sổ này, chúng ta chỉ cần nhấp vào dấu
‘x’ ở góc bên phải của khung dữ liệu.
Giai đoạn tiếp theo liên quan đến việc lấy dữ liệu về dữ liệu (siêu dữ liệu).
Để có được thông tin này, chúng ta sử dụng:
Chương trình 5-3: Siêu dữ liệu mẫu
Siêu dữ liệu liên quan đến dữ liệu về dữ liệu, trong Python, chúng ta sử dụng
.info (), trong đó tên khung dữ liệu đứng trước tên này. Cụ thể:

71
Từ lệnh info (), chúng ta có thể thấy rằng mẫu khung dữ liệu có:
+ 13508 obs (hàng);
+ 16 biến (cột);
+ Tên của tất cả các biến (phân biệt chữ hoa chữ thường);
+ Các biến là số nguyên (int64) hoặc number (float64).
Điều này đã cho chúng ta hiểu rõ hơn về dữ liệu mà lệnh head () không thể
truyền tải.
5.3 Thao tác dữ liệu
Có thể sửa đổi dữ liệu và chỉ chọn các giá trị cụ thể tạo thành một cột là kỹ
năng quan trọng đối với bất kỳ nhà phân tích / nhà khoa học quyết định nào.
5.3.1. Equal to
Nếu chúng ta muốn tạo một khung dữ liệu mới chỉ chứa những khách hàng
đã phá sản (target = 1), thì chúng ta sẽ viết một chương trình nhỏ. Trong Python,
nếu muốn một biến có giá trị bằng nhau, thì chúng ta sẽ sử dụng hai dấu bằng ‘==’.
Chương trình 5-4: Equal to
Mã đã được chia nhỏ như sau:
+ targ1 - tên của khung dữ liệu mới được tạo;
+ mẫu - tên của khung dữ liệu mà chúng ta sẽ sử dụng;
+ [sample $ target - thông báo cho Python biết khung dữ liệu và biến chúng
ta muốn sử dụng;
+ == 1 - như đã đề cập trước đây, trong Python, chúng ta sẽ sử dụng '==' có
nghĩa là bằng;
+ ] - chỉ định phần cuối của lệnh.
Trong Python, tên cột và khung dữ liệu phân biệt chữ hoa chữ thường, do
đó 'Target' sẽ không hoạt động, ngược lại ' target 'không. Lệnh info () đã được đưa
vào để hoàn thiện, nhưng chúng ta không cần phải chạy nó. Nếu chúng ta nhìn vào

72
cửa sổ trên cùng bên phải, chúng ta sẽ thấy rằng khung dữ liệu targ1 có 1121 quan
sát (hình 5.5).
Nếu bạn nhấp vào từ ‘targ1’, thì trong Python, điều này sẽ hiển thị khung
dữ liệu (hình 5.5).
Hình 5.5: Sử dụng ngăn trình khám phá biến.
5.3.2 Các biểu thức khác
Cho đến nay chúng ta đã thấy lệnh ‘==’, nhưng còn có các lệnh khác:
Bảng 5.2: Các lệnh khác

73
Hình 5.6: Kết quả các biểu thức cơ bản
Xin lưu ý rằng các kết quả không theo thứ tự đã tạo mà theo thứ tự bảng
chữ cái, trong đó các ký tự viết hoa đứng trước các ký tự viết thường. Thông
thường, thao tác dữ liệu bằng cách sử dụng hai hoặc nhiều biến, điều này dẫn
chúng ta đến các lệnh ‘và’ và ‘hoặc’. Sử dụng khung dữ liệu 'mẫu', chúng ta sẽ
tạo một khung dữ liệu mới chỉ chứa những khách hàng có mức lương trên 2000 và
tiết kiệm dưới 100. Trong trường hợp này, chúng ta sẽ sử dụng '&' và sử dụng mỗi
lệnh có dấu ngoặc , như hình dưới đây:
Chương trình 5-6: Lệnh AND Nếu chúng ta xem xét mức lương > 3000
hoặc tiết kiệm > 500 thì chúng ta sẽ sử dụng ‘|’.

74
Chương trình 5-7: Lệnh OR
Như chúng ta có thể thấy trong hình 5.10, các khung dữ liệu đã được tạo,
nhưng làm thế nào chúng ta có thể kiểm tra xem chúng có đúng không? Chúng ta
có thể kiểm tra nhanh ‘eyeball’ bằng cách sử dụng head () hoặc tiến hành một số
thống kê đơn giản như trong bảng 5.3.
Lưu ý. Khung dữ liệu và tên cột có phân biệt chữ hoa chữ thường, vì vậy
nếu đã sử dụng chữ in hoa trong mã hóa của mình (ví dụ: Save500), hãy nhớ liên
tục sử dụng chúng.
Chúng ta đã mở rộng công việc của mình từ mục 4 sang tính toán các số
liệu thống kê đơn giản bằng cách sử dụng khung dữ liệu. Miễn là khung dữ liệu
và biến (phân tách bằng dấu ‘. ') được viết đúng, thì nó sẽ đơn giản.
5.3.3 Bài tập 5.1: các lệnh cơ bản
Sử dụng khung dữ liệu ' sample' hoàn thành các hoạt động sau:
1) Tạo khung dữ liệu mới có tên là activ1, sử dụng dữ liệu từ mẫu trong đó
biến đích bằng 0.
2) Tạo khung dữ liệu mới được gọi là activ2, sử dụng dữ liệu từ mẫu có mức
lương lớn hơn 5000.
3) Tạo khung dữ liệu mới có tên activ3 bằng cách sử dụng dữ liệu từ mẫu
có mức lương lớn hơn hoặc bằng 10000.

75
4) Tạo khung dữ liệu mới có tên activ4, sử dụng dữ liệu từ mẫu trong đó
tiền lương nhỏ hơn hoặc bằng 10000 và mục tiêu không bằng 0.
5.3.4. Giải bài tập 5.1.
5.3.5. Các biến đặc trưng
Cho đến nay chúng ta mới chỉ xem xét các giá trị số, nhưng dữ liệu thường
đến ở dạng hỗn hợp giữa các giá trị đặc trưng và số. Giai đoạn đầu tiên là tạo một
khung dữ liệu với các giá trị đặc trưng:
Chương trình 5-9: Khung dữ liệu ký tự
Ở trên tạo một mảng có tên là ‘boom’, sau đó được chuyển đổi thành một
khung dữ liệu có tên là ‘bosh’ bằng cách sử dụng lệnh ‘pd.DataFrame’. Để lọc dữ
liệu theo một biến đặc trưng rất giống với phiên bản số như trong chương trình
sau:

76
Chương trình 5-10: Thao tác dữ liệu biến ký tự
1) char1 = bosh [bosh.boom == "EXAMPLE"]:
a. Chúng ta có thể sử dụng dấu ngoặc kép hoặc đơn, nhưng bạn phải nhớ sử
dụng chúng và không trộn lẫn chúng, v.d. “EXAMPLE’ sẽ không hoạt động.
2) Tương tự như số 1, nhưng sử dụng số khác.
3) Một lần nữa, như được hiển thị trước đó với phiên bản số, nhưng các từ
được bao quanh bởi dấu ngoặc kép.
4) Nhiều hoặc câu lệnh:
a. Điều này chứng tỏ rằng chúng ta có thể sử dụng nhiều câu lệnh ‘or’.
5) Điều này sử dụng một cách rút gọn từ việc viết ra cùng một biến nhiều
lần. Trong trường hợp này, chúng ta có thể sử dụng lệnh
‘isin’, lệnh này cung cấp cho chúng ta kết quả tương tự
như trong 5.
Hình 5.8 dưới đây, trình bày kết quả sử dụng các
biến đặc trưng:
Câu lệnh isin có thể được sử dụng cho các giá trị
số cũng như đặc trưng. Khi xử lý các biến đặc trưng, phải
nhớ rằng nó có phân biệt chữ hoa chữ thường. Chẳng
hạn: từ ví dụ trước, char1 = bosh [bosh.boom ==
"EXAMpLE"] sẽ không hoạt động.

77
5.4 Thao tác với khung dữ liệu trong Python
5.4.1 Cập nhật giá trị null
Khi làm việc với dữ liệu, nó hiếm khi sẵn sàng để sử dụng (sạch). Khi đó,
chúng ta sẽ làm sạch dữ liệu để làm cho nó có thể sử dụng được. Từ hình 5.2, quan
sát thấy rằng có một số giá trị bị thiếu cho CCJ_go Government và CCJ_private.
(NA). Ba nguyên nhân phổ biến của việc thiếu giá trị là:
Không xác định;
Tệp dữ liệu được nhập không chính xác;
Tỷ lệ đối sánh không thành công.
Các biến CCJ_go Government và CCJ_private chứa các giá trị bị thiếu vì
chúng chưa bao giờ có bất kỳ CCJ nào. Đối với các cột này, chúng ta thay thế các
giá trị bị thiếu bằng 0. Đoạn mã dưới đây minh họa cách nó được hoàn thành.
Đoạn mã trên:
+ sample['CCJ_government'] =
chỉ định khung dữ liệu và cột chúng tôi đang sửa đổi / tạo.
+ sample['CCJ_government'].
chỉ định khung dữ liệu và cột mà chúng tôi đang điều tra.
+ fillna(0)
Thay đổi NA thành không.
Điều này sau đó được lặp lại cho CCJ_private.

78
Kiểm tra kết quả bằng cách nhấp đúp vào mẫu.
5.4.2 Tạo cột mới
Khả năng tạo cột mới là kỹ năng quan trọng đối với nhà phân tích. Đôi khi,
chúng ta có thể muốn thêm một giá trị duy nhất vào khung dữ liệu hoặc tạo một
cột mới dựa trên thông tin đã có trong khung dữ liệu. Ví dụ đầu tiên là tạo một cột
mới với giá trị 1 được gọi là số đếm, trong mẫu khung dữ liệu.
Chương trình 5-12: Tạo một cột mới.
Đây là một trong những tình huống mà việc viết ra những gì chúng ta sẽ làm
dài hơn bản thân mã. Chỉ cần nhớ ghi khung dữ liệu trước, sau đó là tên cột với
[‘..’] Như thường lệ, hãy nhớ chạy mã. Nếu chúng ta muốn thêm cột ngày vào
khung dữ liệu của mình thì chúng ta chỉ cần sử dụng pandas library và to_datetime
command.
Phần tiếp theo liên quan đến việc tạo một biến (cột) mới dựa trên các giá trị
từ các biến khác nhau trong khung dữ liệu, mẫu. Một cột mới có tên là "totalbank"
sẽ được tạo, cột này tổng hợp tổng số dư ngân hàng trong khung dữ liệu.

79
Hy vọng rằng mã này hoàn toàn phù hợp với bạn, vì tất cả những gì chúng
ta đang làm là tạo một cột mới dựa trên một cột khác. Xin lưu ý rằng phải chỉ định
khung dữ liệu cho cột mới và nhớ rằng cột này có phân biệt chữ hoa chữ thường,
nhưng đó sẽ là khó khăn duy nhất. Nếu bạn mắc lỗi, đây không phải là vấn đề ở
giai đoạn này, vì Python sẽ chỉ ghi đè cột bằng phiên bản chính xác khi bạn chạy
lại phiên bản mã chính xác.
5.4.3. Where
Lệnh ‘where’ rất mạnh mẽ, vì nó cho phép ta thao tác dữ liệu một cách dễ
dàng. Phần này sẽ cung cấp 2 ví dụ về việc sử dụng lệnh ‘where’ để hiểu được tính
linh hoạt của nó. Chúng ta đã sử dụng câu lệnh ‘If’ trong Excel trong ‘phần 3.2.2
hàm if.
Trước hết, chúng ta sẽ tạo một biến mới (cột) chứa việc sử dụng nợ (số tiền_
sở hữu) bằng cách tiết kiệm. Thông thường, nợ có tỷ lệ% cao hơn tỷ lệ tiết kiệm.
Như trước đây chúng ta sẽ tạo một cột mới.
Chương trình 5-15: Tạo một cột mới dựa trên các cột khác-2.
Từ ví dụ trên, chúng ta có thể thấy rằng chúng ta đã tạo một cột mới có tên
là ‘amtowesav’, được tính bằng cách chia amount_owed bởi savings. Nếu chúng
ta xem xét biến mới này, chúng ta sẽ nhận thấy những điều sau.

80
Cột mới của chúng ta có lưu trữ ‘Inf’ bên trong nó, cũng như nan. Điều này
có nghĩa là vô hạn, vì chúng ta đã chia một số cho không. Một cách đơn giản để
giải quyết vấn đề này là chỉ tính tỷ lệ này khi số tiền tiết kiệm được không bằng 0.
Điều này dẫn đến việc sử dụng lệnh where. Thay vì đưa ra lý thuyết, cuốn sách
này sẽ chứng minh cách chúng được sử dụng với một ví dụ.
Program 5-16: Sử dụng lệnh
+ sample['amtowesav'] <-
This is the name of our new column within the data frame.
+ np.where(sample.savings !=0, sample.amount_owed / sample.savings, 0)
np.where – lệnh mới, hoạt động rất giống với lệnh Excel 'IF’;
savings != 0, - thông báo cho Python biết rằng bất cứ khi nào lưu không
bằng 0, thì hãy làm như sau:
sample.amount_owed / sample.savings - tính toán chúng tôi muốn đã
hoàn thành;
0)) – tất cả where savings không bằng 0, thì đặt 0 vào cột ‘amtowesav’.
Tiếp theo là dấu ngoặc.

81
Từ phần trên, chúng ta có thể thấy rằng ‘amtowesav’ có một chuỗi dài các
số thập phân. Chỉ để hoàn chỉnh, nhưng không cần thiết, chúng ta có thể làm tròn
con số này thành một chữ số thập phân.
Chương trình 5-17: Làm tròn số
Nếu muốn có 3 chữ số thập phân, thì chỉ cần thay thế ‘1’ bằng ‘3’. Chỉ là
một lưu ý cuối cùng về biến mới. Phần tiếp theo yêu cầu tạo một cột mới được gọi
là bảng lương, sử dụng các giá trị trong cột tiền lương.
+ sample['wageband'] <
Yêu cầu Python tạo một cột mới có tên là wageband trong khung dữ liệu.
+ sample np.where(
Lệnh chỉ định tiêu chí của cột mới dựa trên dữ liệu có sẵn.
+ sample.wages<100, 'low', Nếu mức lương thấp hơn 100, thì đặt "low"
trong cột mới " wageband". Các dấu phẩy ngược sẽ không xuất hiện trong cột.
+ np.where(sample.wages<1000, 'medium',
Nếu tiền lương dưới 1000, thì hãy đặt 'medium'. Lưu ý rằng nó sẽ không
ghi đè quy tắc đầu tiên, (dưới 100) vì nó sẽ xử lý lệnh này theo thứ tự. Ngoài ra,
chúng ta chưa sử dụng dấu ngoặc đóng!

82
+ np.where(sample.wages >=1000, 'high', 'err')))
phần cuối cùng của mã thông báo cho chúng tôi biết rằng bất kỳ số liệu
nào bằng hoặc lớn hơn 1000, hãy đặt 'high' vào cột mới.
‘err’ cho Python biết rằng đối với bất kỳ tình huống nào, trong đó các thông
số kỹ thuật không khớp, hãy đặt ‘err’ vào cột. Điều này sẽ giúp chúng ta xác định
bất kỳ lỗi nào trong mã hóa của chúng ta.
Cuối cùng, chúng ta hoàn thành lệnh bằng dấu ngoặc (cả 3 trong số chúng).
5.4.4 Bài tập 5.2
Tạo một cột mới Bài tập này liên quan đến việc thao tác với các cột
land_worth.
1) Tạo một cột mới dựa trên land_worth được gọi là landbands bằng cách
sử dụng logic sau:
a. Trường hợp land_worth bằng 0 và nhỏ hơn;
b. Trường hợp land_worth trên 0 và nhỏ hơn 100;
c. Trường hợp land_worth bằng 100 trở lên và nhỏ hơn 1000;
d. Trường hợp land_worth bằng 1000 trở lên.
2) Tạo nhãn của riêng bạn cho các dải này.
LƯU Ý - theo dõi số lượng dấu ngoặc được sử dụng và đừng quên dấu phẩy.

83
Giải bài tập 5.2.
Bảng tóm tắt Bảng 5.4: Tóm tắt các lệnh Python chính
Một ghi chú nhanh từ tác giả. Cuốn sách này có vẻ khá chuyên sâu như một
khóa học nhập môn, nhưng mục đích chính của nó là đặt ra những nền tảng quan
trọng theo cách áp dụng. Chỉ có một cách thực sự để học cách lập trình và đó là
thực hiện nó. Chúng tôi đã phát hiện ra rằng mọi người bắt đầu sử dụng bất kỳ

84
ngôn ngữ lập trình nào càng sớm thì ngôn ngữ đó càng trở nên dễ dàng hơn và
cũng cho phép bạn nâng cao kiến thức của mình hơn.

85
6. Hợp nhất dữ liệu
Rất hiếm khi xảy ra khi tất cả các yêu cầu dữ liệu của bạn đều có sẵn trong
một khung dữ liệu. Trong mục này, chúng ta sẽ tạo một khung dữ liệu giả dựa trên
mẫu tệp CSV, để cho phép chúng tôi hợp nhất dữ liệu và giới thiệu nhiều lệnh hơn
trong R.
Chương này bao gồm các chủ đề:
- Lấy mẫu
- Giữ / loại bỏ các cột từ các khung dữ liệu
- Sắp xếp dữ liệu
- Hợp nhất các khung dữ liệu
+ Kết nối đầy đủ
+ Kết nối độc quyền
+ Kết hợp / Nối kết.
Như đã đề cập trước đây, ứng dụng có lợi hơn công việc lý thuyết, do đó
chúng ta phát triển các khung dữ liệu mới.
6.1. Tạo khung mô phỏng
Vui lòng nhập mẫu tệp CSV vào Python.
Giai đoạn tiếp theo liên quan đến việc tạo một khung dữ liệu được gọi là
mockdata chứa:
1) Hai biến mới:
a. Mock_wages, đây là tiền lương nhân với 100;
b. Mock_savings, đây là khoản tiết kiệm nhân với 100;
2) Một biến khác sử dụng lệnh np.where được gọi là Land_group
a. Trường hợp land_worth bằng 0 và nhỏ hơn;
b. Trường hợp land_worth trên 0 và nhỏ hơn 100;

86
c. Trường hợp land_worth bằng 100 trở lên và nhỏ hơn 1000;
d. Trường hợp land_worth bằng 1000 hoặc hơn.
3) Trường ngày tháng được gọi là Mock_date –2002-02-02.
4) Các biến sau:
a. Id
b. Mock_wages
c. Mock_savings
d. Land_group
e. Mock_date.
Nếu bạn quyết định bỏ qua mục 4 và 5 và bắt đầu từ chương này, thì danh
sách các yêu cầu này có thể gây khó khăn.
Phần 3 - tạo cột ngày tháng
Chương trình 6-4: Tạo cột ngày tháng năm
Phần cuối cùng của bài tập này yêu cầu khung dữ liệu chỉ chứa các nội dung
sau:
a. Id
b. Mock_wages
c. Mock_savings
d. Land_groupe

87
e. Mock_date.
Phần 4– tạo khung dữ liệu giả.
Chương trình 6-5: Chọn cột Từ đoạn mã trên
Chúng ta đã tạo một khung dữ liệu gọi là mockdata, chỉ sử dụng các cột đã
chọn (trong dấu phẩy ngược) trong [[…]]
Nếu chúng ta xem tất cả các nhiệm vụ đó cùng một lúc, thì điều đó có thể
khiến bạn nản lòng. Do khả năng chia nhỏ các nhiệm vụ thành các phần có thể
quản lý được, việc tạo khung dữ liệu cuối cùng (mockdata) của chúng ta trở nên
dễ dàng hơn. Bước tiếp theo liên quan đến việc chọn một mẫu ngẫu nhiên từ
mockdata và gọi nó là mockdata1. Lệnh được gọi là sample.
Con số (1000) thông báo cho Python biết tổng số hàng (quan sát) mà chúng
tôi yêu cầu. Trong trường hợp này, chúng ta đang yêu cầu Python cung cấp cho
1000 hàng ngẫu nhiên từ mô hình khung dữ liệu. Khung dữ liệu cuối cùng được
tạo sẽ được gọi là mocksamp.
Điều này sẽ chỉ chứa 3 cột từ mẫu khung dữ liệu:
- Id
- Wages
- Mortgage

88
Chương trình 6-6: Tạo mocksamp.
Như trước đây, việc chọn cột từ khung dữ liệu chủ yếu liên quan đến việc
đặt tên khung dữ liệu bên ngoài [[..]] và trong dấu ngoặc, liệt kê các cột muốn
trong dấu phẩy ngược được phân tách bằng dấu phẩy.
6.2 Hợp nhất các tập dữ liệu
Phần này sẽ chỉ xem xét việc kết hợp hai khung dữ liệu và sẽ tập trung vào
ba loại kết hợp khác nhau:
Full/Outer
Exclusive
Appending/concatenating
6.2.1 Full/Outer Join
Kết nối đầy đủ sử dụng tất cả dữ liệu từ cả hai tập dữ liệu và khi có dữ liệu
ở một phần chứ không phải ở phần kia, thì nó sẽ điền các giá trị này là ‘missing'.
Khi giải thích các phép nối, chúng ta có xu hướng sử dụng các vòng kết nối.
Kết hợp đầy đủ có nghĩa là chúng ta sẽ sử dụng tất cả dữ
liệu từ mocksamp và mockdata1, ngay cả khi có các quan sát
trong một tập dữ liệu và không có quan sát nào trong khác.
Sao chép và chạy mã bên dưới.
1) Lệnh ở đây là: pd.merge
a. Điều này cho Python biết bạn muốn hợp nhất các khung dữ liệu với
nhau
i. mocksamp 1. điều này cung cấp cho khung dữ liệu một bí danh được
gắn nhãn ‘x’.
ii. mockdata1

89
1. điều này cung cấp cho khung dữ liệu một bí danh được gắn nhãn
‘y’.
2) on = “id”
a. Điều này cho Python biết biến để hợp nhất dữ liệu.
3) how=’outer’
a. Đây là một lệnh quan trọng cho Python biết loại liên kết bạn muốn sử
dụng. Trong trường hợp này, nó là full/outer join.
Hình sau kết quả Full join
Vì chúng tôi chỉ lấy một mẫu ngẫu nhiên gồm 1000 hàng từ mẫu, chúng ta
sẽ kết thúc với rất nhiều ‘nan’ (naT cho dữ liệu ngày) trong khung dữ liệu, như thể
hiện trong hình 6.5. Có một cơ hội rất tốt là bảng sẽ trông khác với hình 6.5, điều
này là do Python chọn ngẫu nhiên 1000 hàng. Đừng lo lắng về điều đó, nếu có lỗi,
Python sẽ cho bạn biết. Đây là lý do tại sao nó được gọi là full join (tham gia đầy
đủ) vì nó chứa tất cả dữ liệu. Nếu có các hàng trong mockdata1 không có trong
mocksamp, thì chúng ta sẽ thấy các giá trị bị thiếu (NA) cho các biến từ mocksamp.
6.2.2. Các phép nối độc quyền
Các phép nối độc quyền cho phép chúng tôi chọn dữ liệu chỉ có liên quan
trong một trong các khung dữ liệu và nơi nó khớp trong khung dữ liệu khác. Ví dụ
sau sẽ tập trung vào mockdata1 của khung dữ liệu và ở đâu có sự trùng khớp trên
mocksamp của tập dữ liệu, thì nó sẽ sử dụng dữ liệu này.

90
Hình 6.4: Sơ đồ của một phép nối độc quyền.
Đoạn mã này rất giống với chương trình 6-7, chỉ với câu lệnh thay đổi như
thế nào.
Mocksamp chứa 13508 hàng, mockdata1 chứa 1000 hàng. Vì chúng ta chỉ
muốn các giá trị có liên quan trong mockdata1, nên mã này tạo ra một dữ liệu nổi
tiếng được gọi là 'rightjoin' với chỉ 1000 hàng (quan sát). Đối với phép nối bên
trái, chúng ta sẽ sử dụng how = ’left’.
Một kiểu kết nối độc quyền khác là khi muốn sử dụng dữ liệu xuất hiện
trong cả hai tập dữ liệu, nói cách khác, nơi có cùng ID trong cả hai bảng. Đây được
gọi là liên kết bên trong.
Hình 6.5: Sơ đồ kết hợp độc quyền (2).
Một lần nữa, mã rất giống nhau ngoại trừ how = ‘inner’. Trong trường hợp
này, chúng ta sẽ nhận được 1000 hàng (giống như nối phải), điều này là do chúng
ta đã lấy một mẫu ngẫu nhiên từ mockdata để tạo mocksamp.
6.2.3 Kết hợp / nối dữ liệu
Đôi khi chúng ta có thể có 2 tập dữ liệu mà chúng ta muốn kết hợp bằng
cách xếp chồng chúng lên trên tập dữ liệu kia, điều này được gọi là nối hoặc nối.

Phan tich du_lieu_thong_ke_va_python

Phan tich du_lieu_thong_ke_va_python

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Phan tich du_lieu_thong_ke_va_python

Similar to Phan tich du_lieu_thong_ke_va_python (20)

Recently uploaded

Recently uploaded (19)

Phan tich du_lieu_thong_ke_va_python