Upcoming SlideShare
×

# Bai02 thong ke_mo_ta

11,211

Published on

15 Likes
Statistics
Notes
• Full Name
Comment goes here.

Are you sure you want to Yes No
• Be the first to comment

Views
Total Views
11,211
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
0
0
Likes
15
Embeds 0
No embeds

No notes for slide

### Bai02 thong ke_mo_ta

1. 1. I. ĐỘ ĐO VỀ VỊ TRÍ TRUNG TÂM: .............................................................................. 2 1.1. Trung vị (Median): ................................................................................... 2 1.2. Yếu vị (Mode): ......................................................................................... 2 1.3. Trung bình cộng (Arithmetic Mean):........................................................ 2 1.2. Trung bình nhân (Geometric Mean): ........................................................ 3 1.3. Trung bình điều hoà (harmonic mean): .................................................... 4 II. ĐỘ ĐO VỀ PHÂN TÁN/TÍNH BIẾN THIÊN (SO VỚI TRUNG BÌNH CỘNG ............. 4 2.1. Phương Sai (Variance): ........................................................................... 4 Cho dãy ............................................................................................................. 4 2.2. Độ lệch chuẩn (Standard Deviation): ....................................................... 6 2.3. Độ sai/Sai số chuẩn (Standard Error) ...................................................... 6 2.4. Hệ số biến sai (Coefficient of Variation): .................................................. 7 2.5. Phần trăm hay bách phân (Percentiles): .................................................. 7 III. ĐỘ ĐO VỀ HÌNH DẠNG ......................................................................................... 8 Độ nghiêng (Skewness): .................................................................................... 8 IV. CÁC ỨNG DỤNG CỦA THỐNG KÊ MÔ TẢ ........................................................... 8 4.1. QUAN HỆ THỰC NGHIỆM GIỮA TRUNG BÌNH, TRUNG VỊ VÀ YẾU VỊ.. 8 4.2. ĐINH LÍ CHEBYSHEV VÀ ƯỚC TÍNH MIỀN GIÁ TRỊ VÀ KHOẢNG TIN CẬY. 9 4.3. PHÉP BIẾN ĐỔI .................................................................................... 10 4.4. TRÌNH BÀY THỐNG KÊ MÔ TẢ ............................................................ 11 BÀI TẬP..................................................................................................................... 12nguyên bản tiếng Anh: Nguyễn Văn TuấnLượng thông tin thống kê phổ biến đến công chúng và thật ra cả trong y văn, vì mộtlí do này hay khác đôi khi vượt quá tầm hiểu biết, và trong số đó phần nào là thốngkê "tốt" và phần nào là thống kê “tồi" là tuỳ vào sự đồ đoán của mỗi người. Chắcchắn, chúng ta không thể chấp nhận tất cả thông tin đó một cách không phê phán.Nhiều kết luận sai lầm hoàn toàn đôi khi do dựa trên các dữ liệu thiếu vững chắc.Trên thực tế, việc sử dụng số liệu thống kê đã bị lạm dụng hay sử dụng bừa. Nhiềusách báo và bài viết dựa trên việc vận dụng không đúng thống kê. Alvan Feinsteinmới đây nhận xét: "một số trong những tác giả như thế rất được nhiều người biếtđến vì họ không ngại đưa ra các lời giải cho các vấn đề chưa được giải quyết." Tấtnhiên chúng ta không muốn đi theo con đường đó. Chúng ta cần phải sử dụngthống kê một cách khôn ngoan. 1
2. 2. Trong chủ đề này chúng ta sẽ bàn về việc sử dụng một vài chỉ số thống kê cơ bảnthường gọi là thống kê mô tả. Cụ thể, chúng ta sẽ quan tâm đến việc tổng kết cácdữ liệu liên tục. Khi thu thập số liệu, ta thường quan tâm tới sự phân bố của chúng:tập trung ở các giá trị nào, mức độ phân tán ra sao so với giá trị tập trung đó, phânbố có dáng dấp thế nào và ứng dụng của chúng. Tương ứng chúng ta sẽ thảo luậnbốn đề mục chính:Độ đo về vị trí (khuynh hướng) trung tâmĐộ đo về sự khác biệt (độ phân tán)Độ đo về hình dạng của phân bốỨng dụng của thống kê mô tảI. ĐỘ ĐO VỀ VỊ TRÍ TRUNG TÂM:1.1. Trung vị (Median): Trung vị của một dãy số là giá trị ở vị trí chính giữa khi dãy số đó được sắp xếp theo thứ tự từ nhỏ đến lớn. (hay ngược lại), kí hiệu là Md +1 - Nếu số phần tử n của dãy số là lẻ thì số trung vị là số ở vị trí thứ . 2 n - Trường hợp n là chẵn thì số trung vị sẽ là trung bình của 2 số ở vị trí ở thứ 2 n và + 1. 2 Như vậy, trung vị là trung tâm của dãy số liệu về mặt vị trí. Ví dụ, đối với dãy số (14, 17, -13, 41, 12) ta có thể tìm số trung vị như sau: - Sắp xếp lại các số theo thứ tự từ bé tới lớn: -13 12 14 17 41 - Có tất cả 5 số nên trung vị là 14 (ở vị trí thứ 3 = (5+1)/2)1.2. Yếu vị (Mode): Yếu vị của một dãy số là giá trị có tần số xuất hiện thường xuyên nhất (nhiều lần nhất), kí hiệu là m Yếu vị có thể không duy nhất. Trường chỉ có duy nhất một yếu vị được gọi là đơn yếu vị (unimodal), ngược lại là đa yếu vị (multimodal). Do đó, trong trường hợp đơn yếu vị, yếu vị là trung tâm của dãy số xét về mức độ tập trung số liệu. Ví dụ, đối với một dãy dữ liệu (4, 5, 3, 2, 4, 1, 7, 4, 2, 4) thì yếu vị sẽ là 4 vì nó lxuất hiện thường xuyên nhất (3 lần).1.3. Trung bình cộng (Arithmetic Mean): Trung bình cộng của dãy số x1, x2, … , xn được định nghĩa là 1 = =1 Khi dữ liệu được cho theo dạng tần số (hoặc có trọng số), giả sử x1, x2, …, xk. lần lượt có tần số (số lần lập lại) là w1, w2, w3, … , wk, theo đó tập dữ liệu có cỡ là N = w1 + w2 + w3 + … + wk thì trung bình cộng được tính bởi: 2
3. 3. 1 = =1Khi dữ liệu thu thập được có phân thành từng loại, ta có thể tính trung bình dữliệu tổng thể từ trung bình của dữ liệu từng loại. số lượng các quan sát cho mỗithể. Giả sử chúng ta có k loại, với n1, n2,.. , nk số quan sát cho mỗi loại (cỡ củamẫu tổng hợp là N = n1 + n2+… + nk .) và các trung bình tương ứng là 1, 2, …,k. thì trung bình tổng thể được cho bởi: 1 = =1Như vậy, trung bình cộng là trung tâm của dãy số xét về mặt giá trị.Trong thống kê người ta thường kí hiệu trung bình quần thể là μ.Ví dụ 1: Số lượng chủ thể và trung bình cộng của mật độ khoáng trong xuơng(BMD) cột sống ở thắt lưng của họ cho ba kiểu gen như sau:Kiểu gen n TBTT 40 1,25 g / cm²Tt 45 1,10 g / cm²tt 15 1,00 g / cm² BMD trung bình của 100 đối tuợng này sẽ được tính bằng: = (40 × 1,25 + 45 × 1,10 + 15 × 1,00)/100 = 1,145g/cm²1.2. Trung bình nhân (Geometric Mean): Trung bình nhân của dãy số x1, x2, … , xn được định nghĩa là G = (x1.x2. … xn)1/n Từ định nghĩa ta có 1 + 2 + ⋯ + = Hay nói khác đi: G là trung bình nhân của dãy số x1, x2, … , xn khi và chỉ khi logG là trung bình cộng của logx1, logx2, …, logxn. Trung bình nhân là một số đo hữu ích về vị trí cho các dữ liệu liên quan đến tỉ lệ. Như có thể thấy từ công thức trên, trung bình nhân không xác định cho một tập các giá trị có chứa số 0 hay số âm.Ví dụ 2: số phần trăm gia tăng osteocalcin trong một nhóm 10 bệnh nhân giữacác lần khámnhư sau: Giữa lần khám 2 và 1: 5,4% Giữa lần khám 3 và 2: 8,9% Giữa lần khám 4 và 3: 9,6% Giữa lần khám 5 và 4: 6,4%Để tính số phần trăm gia tăng trung bình của 5 lần khám, ta cần 3
4. 4. - chuyển các số phần trăm thành tỉ số, - áp dụng công thức trung bình nhân. 4 số phần trăm có thể viết dưới dạng tỉ số như sau: 1,054: 1,089: 1,096: 1.,64 Theo đó, tỉ lệ gia tăng trung bình là (1,054×1,089×1,096×1,064)1/4 = 1.076 hay 7.6% 1.3. Trung bình điều hoà (harmonic mean): Trung bình điều hoà H của dãy số x1, x2, … , xn là nghịch đảo của trung bình cộng các nghịch đảo của x1, x2, … , xn, tức là 1 1 1 1 1 + 2 + … + = Hay = 1 =1 Khi một tập số liệu chứa các giá trị biểu thị cho tỉ suất thay đổi (rate of change), trung bình điều hòa là một số đo hữu dụng cho vị trí trung tâm.Qua các ví dụ trên, các số trung bình cộng, nhân và điều hoà, trung vị, yếu vị cùngphản ánh vị trí trung tâm của tập số tuỳ theo trường hợp. Như ta sẽ thấy ở phần 4.2,trung bình cộng là điểm tập trung của phần lớn dữ liệu [có ít nhất 68% dữ liệu nằmtrong khoảng – s và + s (với s là độ lệch chuẩn)].Để đơn giản và tiện cho việc trình bày, từ nay về sau ta quy ước dùng trung bìnhthay cho trung bình cộng.II. ĐỘ ĐO VỀ PHÂN TÁN/TÍNH BIẾN THIÊN (SO VỚI TRUNG 1BÌNH CỘNG):2.1. Phương Sai (Variance): Cho dãy số x1, x2, … , xn, với trung bình μ, phương sai của tập số này (kí hiệu σ²), là trung bình cộng của bình phương các độ lệch của các số xi so với trung bình μ, i=1, 2, 3, …, n, tức là: 1 ² = − μ 2 =1 Tương đương với 1 ² = ² − μ2 =11 Để có một ý niệm về độ phân tán của tập số x1, x2, … , xn (so với trung bình cộngx ta có thể dùng độ lệchtrung bình, tức là trung bình cộng của các số |xi - |, i =1,2,3,….,n độ lêch của mỗi xi so với ), nhưng độ đonày ít thông dụng chỉ dùng trong tính tỉ Geary dùng để kiểm nghiệm tính bình thường các phân bố). 4
5. 5. Trường hợp có trọng số: 1 1 ² = − μ 2 = 2 − μ2 =1 =1 trong đó = =1 Trường hợp các số x1, x2, … , xn chỉ là tập dữ liệu thu thập được từ một mẫu của một quần thể mẹ lớn hơn thì phương sai của mẫu được kí hiệu là s² là số có được sau khi điều chỉnh2 phương sai theo định nghĩa trên bởi hệ số n / (n – 1), tức là: 1 2 ² = − − 1 =1 Tương đương với 1 2 = ² − 2 − 1 − 1 =1 Đối với dữ liệu có trọng số: 2 2 1 2 1 1 = − = ² − − 1 − 1 =1 =1 =1 trong đó = =1 Trong thực hành ta thường phải tính toán phương sai s² của mẫu hơn là phương sai σ² của quần thể nên các công thức sau được sử dụng thường hơn. Từ định nghĩa trên, dễ thấy rằng nếu các số xi, i=1, 2, 3, … , n, càng phân tán xa trung bình thì phương sai càng lớn. Còn nếu không có sự phân tán nào tức là x1 = x2 = x3 = … = xn = thì phương sai bằng 0 và ngược lại (xem bài tập 2). Ví dụ 4: xem mẫu số liệu 5, 17, 12 và10, trung bình cộng của nó là = 11, phương sai được tính như sau: 1 2 1 s² = ( − ) = 5 − 11 ² + 17 − 11 ² + (12 − 11)² + (10 − 11)² − 1 4−1 =1 −6 ² + 6² + 1² + (−1)² = 3 = 24,672 Trong toán hoc, người ta chứng minh được rằng nhờ điều chỉnh này mà phương sai của mẫu là một ướclượng gần với phương sai thật (phương sai của cả quần thể đang xét hơn khi cỡ mẫu đủ lớn. 5
6. 6. Ví dụ 1 (tiếp theo): Đối với các dữ liệu trong ví dụ 1, chúng ta có thể coi số đối tượng trong mỗi kiểu gen như trọng số. Việc tính toán phương sai có thể được minh họa bằng bảng sau: Kiểu gen n(wi) Mean ( ) wixi² wixi TT 40 1,25 62,50 50,0 Tt 45 1,10 54,45 49,5 Tt 15 1.00 15,00 15,0 Tổng cộng 100 131,95 114,5 2 2 1 1 = ² − − 1 =1 =1 1 (114,5)² = 131,95 − = 0,00856 g² /cm². 99 1002.2. Độ lệch chuẩn (Standard Deviation): Độ lệch chuẩn đượcđịnh nghĩa là căn bậc 2 của phương sai σ² (hay s²) và được kí hiệu là σ (hay tương ứng là s). Phương sai có đơn vị bằng bình phương đơn vị của các số liệu đang xét, còn độ lệch chuẩn do là căn bậchai của phương nên có cùng đơn vị với các số liệu này. Trong ví dụ 4, độ lệch chuẩn là s = 24.67 = 4.97 g/cm² Nếu tập dữ liệu bao gồm một số lượng lớn các quan sát và tương đối đối xứng, thì độ lệch chuẩn có thể được tính xấp xỉ bằng cách sử dụng giá trị lớn nhất (max) và giá trị nhỏ nhất (min) như sau: s = (max – min) / với n 12 s = (max – min) / 4 với 20 n 40 s = (max – min) / 5 với n gần với 100 s = (max – min) / 6 với n 4002.3. Độ sai/Sai số chuẩn (Standard Error) Sai số chuẩn là độ lệch chuẩn của các trung bình các mẫu cùng cỡ rút ra từ một quẩn thể mẹ, được kí hiệu là SE. Nếu n là cỡ của các mẫu, N và σ lần lượt là cỡ và độ lệch chuẩncủa quần thể mẹ thì sai số chuẩn có thể ước lượng bằng công thức: − = − 1 Vì thế, với một quần thể mẹ lớn hay với việc lấy mẫu có thay thế thì ta có thể dùng công thức sau: ≈ 6
7. 7. Tuy nhiên, trong một mẫu dữ liệu, SE được ước tính bằng: ≈ SE là một thước đo về sự khác biệt giữa trung bình mẫu và trung bình quần thể mẹ và được đùng để kiểm tra xem một mẫu cụ thể có thể đã rút ra từ một quần thể mẹ đã cho hay không. Nó được sử dụng để tính toán giới hạn tin cậy. SE cho các dữ liệu trong ví dụ 4 là: SE = s / = = 24,67/ 4 = 12,3 g/cm².2.4. Hệ số biến sai (Coefficient of Variation): Độ lệch chuẩn là thước đo của sự biến thiên tuyệt đối trong một bộ quan sát. Tuy nhiên, đối với một số bài toán, sự biến thiên tương đối là một số đo có ý nghĩa hơn. Số đo về sự thay đổi tương đối được dùng phổ biến nhất là hệ số biến sai (biến thiên): = 100 (%) CV được sử dụng khi tất cả các giá trị của một biến đều dương. Khi các giá tri có cả dương lẫn âm thì CV hầu như vô nghĩa. CV cho các dữ liệu thiết lập trong ví dụ 4 được là ước tính bởi: CV = 100 × 4 97 /11 = 45.2 %2.5. Phần trăm hay bách phân (Percentiles): Phần trăm thứ p của một dãy các quan sát (dữ liệu) đã được sắp xếp theo thứ tự độ lớn là giá trị sao cho có nhiều nhất là p% số đo phía dưới nó và nhiều nhất là (100 - p)% ở trên nó. Hình dưới đây minh họa phần trăm thứ 25, 50 và 75 thường được gọi tương ứng là tứ phân dưới, tứ phân giữa (trung vị) và tứ phân trên…Ví dụ 5: Xét tập dữ liệu sau đây với 10 quan sát: -15 -9 1 3 5 9 13 17 23 92,trong đó trung vị là: (5 +9) / 2 = 7. Do đó, phần trăm thứ 50 là 7. Tương tự, phầntrăm thứ 25 phần trăm là 1 và phần trăm thứ 75 là 17. và cứ thế tiếp tục. 7
8. 8. III. ĐỘ ĐO VỀ HÌNH DẠNGĐộ nghiêng (Skewness):Một cách để nghiên cứu độ nghiêng của một phân bố tần số là so sánh các giá trịcủa yếu vị (m), trung vị (Md) và trung bình ( ). Ta biết rằng yếu vị là vị trí có sự tậptrung lớn nhất của các quan sát, trung vị là giá trị mà một nửa số các quan sát nằmbên dưới và ở trên, và trung bình là có xu hướng bị kéo về hướng các giá trị cựcđoan. Do đó, với một phân bố đơn yếu vị và đối xứng, tất cả các giá trị trung bình,trung vị và yếu vị phải giống hệt nhau, nếu trái lại, thì phân bố không đối xứng haykhông đơn yếu vị. Độ nghiêng (S) được định nghĩa bởi: S = 3( – Md) / s hoặc S = ( – m) / strong đó s là độ lệch chuẩn của mẫu.Nếu S 0 (yếu vị trung bình), phân bố lài phía phải, nếu S 0 (yếu vị trungbình), phân bố lài về phía trái.IV. CÁC ỨNG DỤNG CỦA THỐNG KÊ MÔ TẢ4.1. QUAN HỆ THỰC NGHIỆM GIỮA TRUNG BÌNH, TRUNG VỊ VÀ YẾU VỊ Chúng ta đã khảo sát ba độ đo chính của xu hướng trung tâm. Thế thì trong 3 độ đo đó, độ đo nào là thích hợp và đáng tin cậy nhất? Câu trả lời cho câu hỏi này phụ thuộc vào phân bố của các dữ liệu quan sát. Tuy nhiên, có thể nói rằng, giống như bất kì số đo vật lí nào, không có độ đo thống kê nào trên đây là hoàn hảo trong việc mô tả một vị trí trung tâm của một phân bố. Về mặt lí thuyết, có thể nói trung bình là độ đo tốt nhất cho xu hướng trung tâm của phân bố. Điều này là do nó có thể tính toán được từ các dữ liệu số, sử dụng hết tất cả các quan sát và là đơn nhất. Hơn nữa, nó là dễ hiểu đối với hầu hết mọi người. Trung bình chịu ảnh hưởng của các giá trị cực đoan, còn trung vị thì không bị ảnh hưởng đó. Tuy nhiên, trung vị hầu như không tiêu biểu khi số quan sát nhỏ vì nó là một trung bình vị trí, nó cũng không đơn nhất. Mặt khác, yếu vị cũng không có ý nghĩa mấy trừ khi số lượng các quan sát đủ lớn và sự phân bố dữ liệu cho thấy một hình ảnh rõ ràng về xu hướng trung tâm. Nếu sự phân bố của một tập hợp dữ liệu là đối xứng như trong hình 1, trung bình, trung vị và yếu vị là như nhau (hoặc ít nhất là tương tự). Nếu phân bố lài về phía phải (như trong hình 2), trung bình lớn hơn trung vị. Nếu phân phối lài về phía trái (hình 3), trung bình nhỏ hơn trung vị. 8
9. 9. Đối với tập dữ liệu đủ lớn gần đối xứng, quan hệ thực nghiệm giữa trung bình, trung vị và yếu vị như sau: Trung bình – Yếu vị ≈ 3 (Trung bình – Trung vị) Từ đó, nếu biết trung bình và trung vị thì yếu vị có thể tính gần đúng bằng công thức: Yếu vị ≈ 3 Trung vị – 2 Trung bình4.2. ĐINH LÍ CHEBYSHEV VÀ ƯỚC TÍNH MIỀN GIÁ TRỊ VÀ KHOẢNG TIN CẬY. Điều quan trọng là cần nhấn mạnh ở đây một lần nữa rằng một tập dữ liệu là một mẫu lấy từ quần thể của tất cả các số đo có thể. Vì vậy, các trung bình mẫu , độ lệch chuẩn s, … có thể không bằng với trung bình và độ lệch chuẩn thực sự … của quần thể (quần thể), thường được biểu hiện lần lượt bằng các kí tự tiếng Hi Lạp μ và σ… Mục đích của việc ước lượng tham số không phải chỉ để có được ước lượng của trung bình của quần thể nói chung, mà còn chỉ ra độ không chắc chắn của nó, tức là các ước lượng có thể gần hoặc xa mức độ nào so với các giá trị thật. Liên quan đến việc ước lương này là khái niệm giới hạn tin cậy và được giới thiệu ở đây thông qua định lí Chebyshev, một trong những định lí lớn trong Xác suất đã được đặt tên theo nhà toán học vĩ đại người Nga. Phát biểu chính xác của định lí này là khá phức tạp về mặt toán học3, tuy nhiên, nó có thể được hiểu như sau: (a) khoảng từ - 3s đến +-3s chứa ít nhất 89% (= 8/9) các số đo, (b) khoảng từ – 2s đển + 2s chứa ít nhất 75% (=3/4) các số đo; (c) khoảng từ - s đến + s chứa ít nhất 0% các số đo.3 Định lí này có thể phát biểu dưới dạng đơn giản như sau: với mọi k ≥ 1, tỉ lệ dữ liệu nằm 1trong khoảng từ – ks đến + ks ít nhất là1 - 2 . 9
10. 10. Thực ra, phát biểu trên là khá dè dặt. Đối với bộ dữ liệu lớn và tương đối đối xứng, các quy tắc thực nghiệm phát biểu rằng: (a) 68.3% các số đo có thể nằm giữa -s và +s, (b) 95.5% các số đo có thể nằm giữa -2s và +2s, (c) 99.7% của số đo có thể nằm giữa -3s và +3s. SỬ DỤNG ĐỘ LỆCH CHUẨN. Đối với bất kì tập dữ liệu đối xứng với trung bình và độ lệch chuẩn s, chúng ta có thể ước tính tầm giá trị (range) của các số đo riêng lẻ với một độ chính xác nhất định. Ví dụ, trung bình và độ lệch tiêu chuẩn của logarit (tự nhiên) osteocalcin của một mẫu của các đối tượng ở Sydney tương ứng là 2,86 và 0,45 , điều đó có thể suy ra rằng có khoảng 95% của các đối tượng trong mẫu này có ln(osteocalcin) từ 2,86 - 2×0.45 đến 2,86 + 2×0,45 (hay 1,96 tới 3,76). SỬ DỤNG ĐỘ SAI CHUẨN. Sai số chuẩn (SE) mà chúng ta thảo luận bên trên thường được gọi là độ lệch chuẩn của trung bình, vì nó chỉ ra sự khác biệt giữa trung bình của mẫu và trung bình của quần thể mẹ. Trung bình quần thể thường không thể biết được. Tuy nhiên, người ta có thể áp dụng định lí của Chebyshev để ước tính tầm của các giá trị có thể có của trung bình của quần thể với một độ tin cậy nhất định. Ví dụ, trung bình và sai số chuẩn của BMD cổ xương đùi trong số 20 vụ gãy xương ở phụ nữ từ một cộng đồng tại Sydney đã được tìm thấy tương ứng là 0,70 g/cm² và 0,02 g/cm². Ttrung bình thật BMD cổ xương đùi của mọi đối tượng gãy xương ở Sydney là chưa biết. Tuy nhiên, có thể nói rằng trung bình thật có thể nằm từ 0,70 - 2×0,02 = 0,66 g/cm² đến 0,70 + 2×0,02 = 0.74g/cm². Phát biểu này hàm ý là nếu chúng ta tiếp tục lấy mẫu 20 phụ nữ gãy xương từ dân Sydney nhiều lần (mỗi lần với các đối tượng khác nhau) và mỗi lần đều tính trung bình của 20 phụ nữ, khi đó chúng ta hi vọng rằng trong 95% các lần, trung bình sẽ nằm giữa 0,66 g/cm² đển 0,74g/cm².4.3. PHÉP BIẾN ĐỔI: Đối với một dãy số x1, x2, … , xn ,..., gọi trung bình là và phương sai là sx², khi đó với bất kì hằng số a, b nào, chúng ta cũng có có các tính chất sau đây: 4.3.1. Phép biến đổi tuyến tính: yi = a + bxi. Trung bình và phương sai của y sẽ được cho bởi: = + và = 2 2 2 Ví dụ, trung bình và phương sai của một biến X lần lượt là 10 và 8. Nếu một biến mới Y = 12 + 2X, khiđó trung bình và phương sai của Y là: TB (Y) = 12 + 2.× TB (X) = 12 + 2×10 = 32 phương sai (Y) = 2² × phương sai (X) = 4 × 8 = 32. 4.3.2. Phép biến đổi-Z: − = 10
11. 11. Có thể chứng minh trung bình và phương sai của z lần lượt là: = 0 và sz = 14.4. TRÌNH BÀY THỐNG KÊ MÔ TẢ Không có gì là không bình thường khi ngày nay trong các tạp chí y sinh học cách trình bày kiểu như a ± b ngày càng trở nên phổ biến. Một số nhà nghiên cứu đã chỉ ra hai giá trị như là trung bình ± SE hay trung bình ± SEM hoặc trung bình ± SD, một số nhà nghiên cứu khác chẳng quan tâm nêu ra các con số nàythực sự tượng trưng cho điều gì. Dĩ nhiên, theo thói quen sử dụng trong khoa học, số b trong biểu thức a ± b nói đến độ chính xác của phép đo. Do đó, nếu một ai đó báo rằng một mẫu vật nặng 27 ± 2 mg, ý họ muốn nói là trọng lượng của nó có thể là bất cứ giá trị nào giữa 25mg và 29mg. Trong thống kê, việc sử dụng ± có cùng ý nghĩa này nếu nó dùng để chỉ một khoảng tin cậy xung quanh một trung bình. Một phát biểu như khoảng tin cậy 95% là 250 ± 10 có nghĩa là trong hàng loạt các mẫu ngẫu nhiên được lấy từ cùng một quần thể, 95% các số đo sẽ nằm giữa 240 và 260. Nhưng giá trị của dấu ± sẽ là gì khi nó đề cập đến độ lệch chuẩn hay sai số chuẩn. Một độc giả muốn sử dụng thông tin này không thể sử dụng trực tiếp được. Có lẽ một biểu thức trung bình (SD) sẽ hữu ích hơn. 11
12. 12. BÀI TẬP 1. Hãy viết một chuổi 5 chữ số đáp ứng cả hai tiêu chuẩn sau đây: (a) trung vị trung bình (b) yếu vị trung vị. 2. Chứng tỏ rằng tổng của các độ lệch của một tập hợp các số đo, , so với trung bình của chúng bằng 0, tức là ( − )= 0. =1 3. Chi phí nằm viện do gãy xương (tính bằng \$ AUS) cho 29 bệnh nhân ở Dubbo như sau: 5373, 15984, 7478, 3446, 11004, 9116, 3213, 5418, 16386 2857, 3656, 61876, 2972, 3057, 14449, 9400, 27518, 23278 23548, 3016, 12921, 4640, 4644, 23098, 2654, 7975, 10245 4045, 5018. Lập biểu đồ phân bố của chi phí (có thể sử dụng khoảng-5000 như 5000- 1000, 10001-15000, 15001-20000, vv…) Tính trung bình, độ lệch chuẩn, trung vị, hệ số nghiêng… và bình luận về phân bố của các dữ liệu này. 4. Có thể nói gì về một tập hợp các số đo có độ lệch chuẩn bằng 0? 5. Một tập hợp 10 số với trung bình là 13 và độ lệch chuẩn là 2. Sau đó, người ta phát hiện rằng số 12 trong tập đó thật ra là số 21. Tìm trung bình và độ lệch chuẩn đúng của tập số đó. 6. Khi săn bắt côn trùng, dơi phát ra âm thanh tần số cao và sau đó lắng nghe tiếng dội lại. Một vấn đề đáng quan tâm là khoảng cách (tính bằng cm) giữa dơi và con mồi dự kiến của nó khi hệ thống vị trí - tiếng dội của dơi đầu tiên phát hiện ra con mồi. Các dữ liệu sau đây bao gồm các khoảng cách phát hiện từ dơi tới con mồi trong 11 lần bắt mồi: 62 52 68 23 34 45 27 42 83 56 40 (a) Tìm trung bình của dữ liệu. (b) Tính độ lệch chuẩn của các dữ liệu, sử dụng: (i) trung bình chính xác (đến 2 chữ số thập phân) (ii) trung bình làm tròn. (c) Tìm khoảng tin cậy 95% (KTC) cho các phép đo và 95% KTC cho trung bình. Bình luận về sự khác biệt giữa các kết quả. 7. Osteocalcin của 5 chủ thể như sau: 4, 3, 7, 11 và 10. (a) Tính trung bình ( ), phương sai (s²), độ lệch chuẩn và sai số chuẩn (SE) bằng tay. Nêu đầy đủ các bước tính toán. (b) Biến đổi các số liệu quan sát ban đầu bằng cách trừ đi giá trị trung bình từ mỗi quan sát (tức là ( - )). Chứng tỏ trung bình của các số liệu mới ( - ) bằng 0. − (c) Cho = . Chứng tỏ rằng trung bình và phương sai của z tương ứng là 0 và 1. 8. Một tập hợp 340 điểm thể hiện một phân bố tần số tương đối hình chuông có trung bình = 72 và độ lệch chuẩn s = 8. Bạn mong đợi sẽ có bao nhiêu điểm rơi vào khoảng 64 tới 80? 56 tới 88? 9. Các tần số lí thuyết và giá trị kiểu hình của một bộ gen 2 alen (A và a) với tần số tương ứng là p và q, thường được cho như sau Kiểu gen Số đối tượng Kiểu hình AA p² μ+a Aa 2pq μ+d aa q² μ-a Trong đó q = 1 - p. Biễu thị trung bình tổng thể và phương sai của các kiểu hình theo μ, a, d, p và q. 12
13. 13. 10. Dữ liệu về BMD cột sống thắt lưng từ 123 cặp song sinh ở Sydney phân tầng theo kiểu gen VDR như sau: Kiểu gen n BMD cột sống thắt lưng TT 32 1,25 g / cm² Tt 61 1,17 g / cm² tt 30 1,07 g / cm² n: số lượng cá nhân trong mỗi kiểu gen. Tìm trị trung bình và phương sai của BMD cột sống thắt lưng cho các cặp song sinh trên.11. Cho một tập hợp các quan sát X = {3, 5, 6, 7, 9}. (a) Tìm trung bình, độ lệch chuẩn và trung vị. (b) Tìm trung bình và phương sai của y khi: − 5 (i) = − 8 (ii) = 7 (iii) = 12 (iv) = 7 Bạn có thể suy ra quan hệ nào từ các trường hợp này?12. Sử dụng kĩ thuật biến đổi (trang 13) để tính trung bình và phương sai (và do đó SD) của các mẫu sau: 997, 995, 998, 992 và 995, mà không sử dụng máy tính.13. Cho X = { 4, 3, 7, 10, 11}. Biến đổi các quan sát này bằng lôgarit tự nhiên của Tìm trung bình và phương sai của X và ln(X). Có những thống kê tương tự giữa hai biến. Trung bình của ln (X) bằng log của trung bình của X không? Tại sao?14. Osteocalcin trong một mẫu gồm 100 đối tượng từ Đan Mạch đã có những đặc điểm sau đây: Trung bình: 6,9 ng / ml Độ lệch chuẩn: 5.1 ng / ml Trung vị: 6,2 ng / ml. Nhận xét về sự phân bố của dữ liệu.15. Một số đặc điểm của lượng chất khoáng trong xương (BMC) của người da đen và da trắng như sau: Trung bình Trung vị SD Black: 2872 2812 374 Trắng: 2744 2805 250 Tính toán hệ số nghiêng đối với từng nhóm và nhận xét về các kết quả.16. Những thay đổi trong mức vitamin D 1,25 của một bệnh nhân trong 4 ngày liên tục như sau: Ngày 1: 35; Ngày 2: 36; Ngày 3: 38; Ngày 4: 40 (a) Tỉm tỉ lệ của sự thay đổi trong một ngày nào đó so với ngày trước cho các ngày 2, 3 và 4. (b) Tìm trung bình nhân của ba tỉ số đó. Chứng tỏ sự thay đổi trong ngày thứ 4 có thể tính được khi biết sự thay đổi trong ngày 1 và trung bình nhân.17. Dữ liệu về BMD cột sống thắt lưng từ một mẫu của 10 đối tượng như sau: 0,98, 1,05, 1,01, 0,97, 0,95, 0,87, 0,50, 0,89, 1,05 và 1,08. Chú ý rằng có một đối tượng có BMD rất thấp. Bạn có loại trừ đối tượng này ra khi tính toán trung bình hay không?18. Trong một thí nghiệm được thiết kế để trả lời câu hỏi môi trường có ảnh hưởng đến giải phẫu học của bộ não hay không”, chuột từ một chủng biến đổi di truyền thuần khiết đã được phân bổ ngẫu nhiên thành hai nhóm: một nhóm điều trị và một nhóm đối chứng. Những con trong nhóm điều trị được đặt trong lồng lớn với đồ chơi mới mỗi ngày. Những con trong nhóm đối chứng bị cô lập trong lồng riêng biệt mà không có đồ chơi. Sau một tháng, người ta cân vỏ não (chất xám của não). Các trọng lượng tính bằng mg như sau: Nhóm điều trị : 707 740 745 652 649 676 699 696 712 708 749 690 13
14. 14. Nhóm đối chứng: 669 650 651 627 656 642 698 648 676 657 692 621(a) Trình bày các dữ liệu dưới hình thức biểu đồ sao cho có thể hình dung dễdàng.(b) Tính toán các thống kê liên quan và bàn luận về giá trị của chúng. 14