Thống kê cơ bản - Sự biến thiên mẫu của tỉ lệ
Trong một cuộc điều tra tình trạng dinh dưỡng trên 1241 trẻ dưới 3 tuổi, phân loại trẻ theo trình độ văn hóa của người mẹ. Trong nhóm trẻ có mẹ mù chữ (n=28) có 7 trẻ bị suy dinh dưỡng (r=7), Trong nhóm có mẹ học cấp 1,2 (n=748) có 98 trẻ bị suy dinh dưỡng, trong nhóm có mẹ học cấp 3 (n=340) có 33 trẻ bị suy dinh dưỡng và trong nhóm có mẹ học đại học trở lên (n=130) có 12 trẻ bị suy dinh dưỡng. Tỉ lệ suy dinh dưỡng cùng với khoảng tin cậy 95% của từng nhóm trẻ được trình bày bằng biểu đồ thanh đơn như trong hình 19, trong đó thanh đặc thể hiện tỉ lệ suy dinh dưỡng quan sát được và đường thẳng đứng thể hiện khoảng tin cậy 95%.
Chúng ta có thể nhận xét rằng khoảng tin cậy sẽ hẹp nhất khi cỡ mẫu là lớn nhất (nhóm trẻ có mẹ học cấp 1 và cấp 2 với cỡ mẫu bằng 748) và khoảng tin cậy sẽ rộng nhất khi cỡ mẫu nhỏ (nhóm trẻ có mẹ mù chữ với cỡ mẫu bằng 23).
9 trang |
Chia sẻ: huyhoang44 | Lượt xem: 745 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Thống kê cơ bản - Sự biến thiên mẫu của tỉ lệ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
SỰ BIẾN THIÊN MẪU CỦA TỈ LỆ
1. Mục tiêu
Sau khi nghiên cứu chủ đề học viên có khả năng:
- Nêu được hai phương pháp chính sử dụng trong phân tích thống kê: kiểm định và ước lượng
- Trình bày được định nghĩa của sai số chuẩn và phân biệt sai số chuẩn và độ lệch chuẩn
- Nhận thức được ý nghĩa của biến thiên mẫu
- Trình bày được công thức tính sai số chuẩn của tỉ lệ và khoảng tin cậy của tỉ lệ.
2. Biến số định tính, biến số nhị giá
Biến số định tính (qualitative variable - categorical variable) là những đặc tính thay đổi từ người này sang người khác. Trong số liệu định tính không có sự đo lường (định lượng) mà chỉ có sự phân loại một đối tượng thuộc vào một trong hai loại:
Trong nghiên cứu quan sát người ta có thể phân loại các đặc tính về lối sống hay bệnh tật như:
a. Thói quen hút thuốc lá: không hút, bỏ hút, đang hút thuốc lá
b. Thói quen ăn uống: ăn chay, không ăn chay
c. Xét nghiệm máu phát hiện nhiễm HIV: dương tính, âm tính
d. Đo ECG phát hiện tiền sử nhồi máu cơ tim: Không, nghi ngờ, xác định
e. Ung thư trong 10 năm theo dõi hay không: Có, không
Trong nghiên cứu thử nghiệm lâm sàng, có thể phân loại đối tượng theo
f. Sống còn hơn 1 năm sau khi bị nhồi máu: sống, chết
g. Kết quả lâm sàng sau điều trị kháng sinh viêm họng, amydale: chữa khỏi, thuyên giảm, không bớt
Ðôi khi các đo lường định lượng cũng được chia nhóm để tạo ra biến số định tính:
a. Uống rươu: không, uống thỉnh thoảng, uống đều, nghiện nặng
b. Tiểu đường: có (đường huyết lúc đói ³ 140 mg/100mL) hay không
Như đã được trình bày phân phối của biến số định tính được mô tả bằng (số giá trị của biến số - 1) tần suất. Thí dụ, giả sử chúng ta thu thập thông tin về thói quen hút thuốc lá (có 3 giá trị không hút, bỏ hút và hút thuốc) trên thanh niên, chúng ta chỉ cần tỉ lệ thanh niên hút thuốc lá và tỉ lệ thanh niên bỏ hút thì chúng ta biết được phân phối của số liệu này (tỉ lệ thanh niên không hút thuốc là có thể tính được khi biết hai tỉ lệ kia).
Trong bài này chúng ta sẽ chỉ tập trung chú ý đến biến số định tính có 2 giá trị. Biến số này được gọi là biến số nhị giá (binary variable). Như vậy, vì biến số nhị giá chỉ có 2 giá trị nên chỉ cần mô tả bằng một con số tỉ lệ (hoặc một con số phần trăm).
Thí dụ: Vào quý 3, 1994, một cuộc điều tra dinh dưỡng được tiến hành trên 1503 trẻ em dưới 5 tuổi tại thành phố Hồ Chí Minh. Trong số trẻ được điều tra có 494 trẻ bị suy dinh dưỡng nhẹ cân.
Tỉ lệ trẻ bị suy dinh dưỡng nhẹ cân =
Trình bày theo cách khác, phần trăm trẻ em bị suy dinh dưỡng là 32,9 %
4. Ðại cương về mẫu và phương pháp lấy mẫu
Trong nghiên cứu, chúng ta thường chỉ có thể thu thập số liệu trên một tập hợp nhất định các đối tượng nhưng chúng ta lại muốn khái quát hóa kết quả của các số liệu và áp dụng chúng cho một dân số rộng lớn hơn. Trong thống kê, tập hợp các đối tượng được thu thập số liệu được gọi là mẫu (sample) hay dân số nghiên cứu (study population). Dân số mà chúng ta muốn áp dụng kết quả của nghiên cứu được gọi là dân số mục tiêu (target population)
Dân số mục tiêu: tập hợp các đối tượng mà chúng ta muốn các thành quả nghiên cứu được áp dụng vào
Dân số nghiên cứu (còn được gọi là mẫu): tập hợp các đối tượng có các đặc tính hay đại lượng được thu thập trong quá trình nghiên cứu.
Có thể nói điểm mấu chốt của nghiên cưú khoa học là làm sao việc áp dụng có giá trị các kết quả nghiên cứu (với các số liệu của mẫu) lên dân số mục tiêu. Muốn cho việc áp dụng có giá trị một trong những điều kiện tiên quyết là cỡ mẫu (sample size) phải đủ lớn và phương pháp mẫu phải có tính đại diện.
Bằng trực giác chúng ta cảm nhận được rằng nếu số đối tượng trong mẫu càng nhiều (cỡ mẫu càng lớn) thì ước lượng chúng ta càng có tính tin cậy cao hơn. Thí dụ nếu chúng ta muốn biến tỉ lệ suy dinh dưỡng ở trẻ dưới 5 tuổi ở TP Hồ Chí Minh. Nếu chúng ta chỉ điều tra trên 10 trẻ thì chúng ta không tin tưởng vào tỉ lệ tính được lắm. Nhưng nếu chúng ta điều tra 1000 trẻ (nếu 1000 trẻ này đại diện cho các trẻ dưới 5 của TP Hồ Chí Minh) thì chúng ta khá tin vào kết quả khảo sát được. Ðó là cảm nhận trực giác của chúng ta về biến thiên của mẫu.
5. Kí hiệu
Giả sử chúng ta tiến hành một cuộc điều tra tỉ lệ suy dinh dưỡng trên dân số trẻ em. Chúng ta kí hiệu tỉ lệ suy dinh dưỡng trong dân số này là p. Nếu chúng ta chọn một cách ngẫu nhiên n trẻ trong dân số đó nhằm tìm hiểu về tình hình suy dinh dưỡng này thì tập hợp n trẻ em này được gọi là dân số nghiên cứu (hay mẫu). Trong trường hợp này cỡ mẫu là n.
Chúng ta tính tỉ lệ suy dinh dưỡng trên n trẻ được nghiên cứu bằng cách chia số trẻ được phát hiện là suy dinh dưỡng cho n. Tỉ lệ này được kí hiệu bằng p. Nói chung tỉ lệ trong mẫu p sẽ không đồng nhất với tỉ lệ trong dân số p và nếu chúng ta có nhiều mẫu nghiên cứu chúng ta sẽ có nhiều tỉ lệ mẫu (p1, p2, p3,....) tương ứng với các mẫu khác nhau. Tóm lại p là tỉ lệ trong dân số đích, là một tham số hằng định và chúng ta muốn biết trong khi đó, p là tỉ lệ trong mẫu luôn luôn dao động và là số liệu để chúng ta có thể rút ra các kết luận về tỉ lệ trong dân số đích p.
6. Biến thiên mẫu nhị thức
Giả sử trong dân số đích có tỉ lệ suy dinh dưỡng p = 30. Nếu chúng ta lấy một mẫu gồm n trẻ em và sử dụng phân phối nhị thức chúng ta tính được xác suất trong n trẻ em đó có x trẻ bị suy dinh dưỡng. Chúng ta không lập lại tính toán ở đây nhưng kết quả tính xác suất khảo sát được x trẻ suy dinh dưỡn khi cỡ mẫu tương ứng là 5, 20, và 50.
Từ kết quả trên chúng ta có nhận xét như sau:
- Phân phối xác suất số trẻ bị suy dinh dưỡng (đây là biến cố được quan tâm) có khuynh hướng tập trung chung quanh tỉ lệ suy dinh dưỡng ở dân số đích = 0,3
- Khi cỡ mẫu nhỏ, phân phối xác suất số trẻ bị suy dinh dưỡng có thể không cân đối nhưng khi cỡ mẫu đủ lớn (khi np ³ 5) thì phân phối xác suất có tính đối xứng và có hình chuông úp. Ðiều này cho thấy rằng biến số X (số trẻ bị suy dinh dưỡng - tần suất xảy ra biến cố quan tâm) sẽ tiệm cận phân phối bình thường.
- Nếu chúng rất may mắn, tỉ lệ suy dinh dưỡng mẫu, kí hiệu là p, sẽ bằng với tỉ lệ suy dinh dưỡng của dân số đích p. Tuy nhiên thông thường chúng ta không may mắn như vậy và tỉ lệ của mẫu sẽ dao động (phân tán) chung quanh giá trị của dân số đich. Chúng ta dùng (p - p)2 để đo lường mức độ dao động của p chung quan p. Và chúng ta có thể chứng minh bằng toán học rằng nếu chúng ta lấy nhiều mẫu ngẫu nhiên gồm n đối tượng thì trung bình của (p - p)2 sẽ bằng với p(1-p)/n
Con số p(1-p)/n được gọi là phương sai của tỉ lệ và căn bậc hai của nó được gọi là sai số chuẩn của tỉ lệ (standard error of a proportion) và nó đo lường mức độ sai số trung bình của p, nói cách khác, nó cho chúng ta biết chúng ta hi vọng tỉ lệ p của chúng ta khác với (bao nhiêu, tính về mặt trung bình.
Viết theo ngôn ngữ toán học hình thức
p ~ N(p, )
Thí dụ với cỡ mẫu n = 1000 và tỉ lệ suy dinh dưỡng trong dân số đích p = 0,3 thì sai số chuẩn của tỉ lệ quan sát là:
Nếu chúng ta trình bày theo phần trăm thì với tỉ lệ suy dinh dưỡng trong dân số là 30% thì sai số chuẩn của tỉ lệ suy dinh dưỡng là 1,45%.
Chúng ta có thể có nhận xét: trừ khi tỉ lệ trong quần thể đích quá gần 0% hay 100%, sai số chuẩn tương đối ít thay đổi. Một quy tắc tính rợ (rule of thumb)để ánh chừng sai số chuẩn: cỡ mẫu 100 thì sai số chuẩn là 5%, cỡ mẫu 400 sai số chuẩn vào khoảng 2 % và cỡ mẫu 10000 thì sai số chuẩn vào khoảng 0,5%.
Trong trường hợp không biết tỉ lệ của dân số p, sử dụng tỉ lệ của mẫu p để ước lượng sai số chuẩn.Thí dụ giả sử khảo sát 1241 trẻ em, phát hiện được 150 trẻ bị suy dinh dưỡng nhẹ cân. Tỉ lệ suy dinh dưỡng là 0,121 và sai số chuẩn của tỉ lệ suy dinh dưỡng là:
Như vậy tỉ lệ suy dinh dưỡng là 12,1% với sai số chuẩn là 0,9%
7. Khoảng tin cậy 95% của tỉ lệ
Khi chúng ta quan sát một tỉ lệ trong một mẫu ngẫu nhiên, chúng ta mong muốn có được một khoảng các giá trị mà giá trị tỉ lệ (thực) của dân số nằm trong đó. Chúng ta có thể tính được khoảng này sử dụng tính xấp xỉ bình thường của phân phối nhị thức.
p ~ N(p, )
Theo tính chất thứ 4 của phân phối bình thường, xác suất giá trị p nằm trong phạm vi
là 95%. Nếu không yêu cầu chính xác, ta có thể cho rằng 95% các trường hợp nghiên cứu giá trị p nằm trong khoảng:
đến
hay còn được viết là p ± 1,96 ´ S.E. Khoảng giá trị này được gọi là khoảng tin cậy 95% (95% confident interval). Hai biên của khoảng tin cậy (p + 1,96 ´ S.E và p - 1,96 ´ S.E ) được gọi là giới hạn tin cậy trên và giới hạn tin cậy dưới (upper confident limit and lower confident limit)
Lưu ý nếu chúng ta tính tỉ lệ bằng phần trăm thì công thức khhoảng tin cậy sẽ là
đến
Ðiều kiện áp dụng khoảng tin cậy của tỉ lệ theo công thức trên là n´p ³ 5.
Giả sử có 150 trẻ suy dinh dưỡng được phát hiện khi điều tra 1241 trẻ dưới 3 tuổi. Giả sử nếu 1241 trẻ này đại diện cho dân số đích thì tỉ lệ suy dinh dưỡng là p= 150/1241 = 12,1%. Vì số trẻ suy dinh dưỡng là 150 = n´p ³ 5 nên chúng ta có thể áp dụng khoảng tin cậy 95% của tỉ lệ suy dinh dưỡng như sau:
Khoảng tin cậy của tỉ lệ suy dinh dưỡng là từ 10,3% đến 13,9%.
Khoảng tin cậy 95% (hoặc khoảng tin cậy 90% theo một số nhà thống kê) là kĩ thuật thống kê phổ biến nhất để thể hiện mức độ không chắc chắn của ước lượng và nên sử dụng khoảng tin cậy khi ước lượng bất kì một tỉ lệ nào.
Nên nhớ rằng có xác suất 5% tỉ lệ của dân số đích nằm ngoài khoảng tin cậy 95%. Do đó trung bình cứ mỗi 20 khoảng tin cậy được tính toán sẽ có 1 khoảng tin cậy không chứa giá trị tỉ lệ thực.
8. Trình bày khoảng tin cậy
Nếu chúng ta có tỉ lệ của hai hay nhiều nhóm chúng ta có thể thể hiện tỉ lệ và khoảng tin cậy bằng đồ thị. Một thí dụ được trình bày ở sau:
Hình 2. Tỉ lệ suy dinh dưỡng nhẹ cân (thanh đặc) và khoảng tin cậy 95% (đoạn thẳng dọc) theo trình độ học vấn của mẹ (mù chữ, học đến cấp 1 hay 2, học đến cấp 3, học Cao Ðẳng hoặc đại học).
Trong một cuộc điều tra tình trạng dinh dưỡng trên 1241 trẻ dưới 3 tuổi, phân loại trẻ theo trình độ văn hóa của người mẹ. Trong nhóm trẻ có mẹ mù chữ (n=28) có 7 trẻ bị suy dinh dưỡng (r=7), Trong nhóm có mẹ học cấp 1,2 (n=748) có 98 trẻ bị suy dinh dưỡng, trong nhóm có mẹ học cấp 3 (n=340) có 33 trẻ bị suy dinh dưỡng và trong nhóm có mẹ học đại học trở lên (n=130) có 12 trẻ bị suy dinh dưỡng. Tỉ lệ suy dinh dưỡng cùng với khoảng tin cậy 95% của từng nhóm trẻ được trình bày bằng biểu đồ thanh đơn như trong hình 19, trong đó thanh đặc thể hiện tỉ lệ suy dinh dưỡng quan sát được và đường thẳng đứng thể hiện khoảng tin cậy 95%.
Chúng ta có thể nhận xét rằng khoảng tin cậy sẽ hẹp nhất khi cỡ mẫu là lớn nhất (nhóm trẻ có mẹ học cấp 1 và cấp 2 với cỡ mẫu bằng 748) và khoảng tin cậy sẽ rộng nhất khi cỡ mẫu nhỏ (nhóm trẻ có mẹ mù chữ với cỡ mẫu bằng 23).
Bài tập
Từ tháng 8 đến tháng 10 năm 1994, cuộc điều tra quốc gia về thiếu Vitamin A và suy dinh dưỡng. Ðiều tra được tiến hành trên 37.766 trẻ dưới 6 tuổi ở 20 tỉnh thành đại diện cho 7 vùng sinh thái - kinh tế của Việt nam với cỡ mẫu trung bình cho một tỉnh vào khoảng 1500 trẻ. Trong nghiên cứu này, trẻ có cân nặng theo tuổi dưới -2 độ lệch chuẩn so với cân nặng chuẩn của tuổi được xếp loại là suy dinh dưỡng. Số liệu về dinh dưỡng ở một số tỉnh được trình bày trong bảng sau:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
16
17
15
18
20
21
19
23
22
24
25
26
27
28
29
30
31
32
Quảng Nam
34
Bình định
36
37
Ninh thuận
39
40
41
Daklak
43
46
Đồng nai
49
47
45
44
50
Đồng Tháp
An Giang
53
Bến tre
55
56
Sóc trăng
CT
59
60
61
Hà nội
Huế
Hoàng Sa
Trường Sa
TP Hồ Chí Minh
Tỉnh
Số trẻ được sàng lọc
Số trẻ SDD
Quảng nam Ðà nẵng
1503
711
Binh Ðịnh
1510
708
Ninh Thuận
1520
707
Ðắc Lắc
1488
705
TP Hồ Chí Minh
1503
494
Sông Bé
1488
579
Ðồng Nai
1500
542
Ðồng Tháp
1498
758
An Giang
1512
556
Bến Tre
1503
522
Cần Thơ
1563
622
Sóc Trăng
1490
590
Minh Hải
1492
573
Các nhóm thực hiện các công việc sau:
1. Tính tỉ lệ suy dinh dưỡng ở mỗi tỉnh.
2. Tính khoảng tin cậy 95% cho tỉ lệ suy dinh dưỡng ở mỗi tỉnh.
3. Vẽ biểu đồ tất cả các tỉ lệ suy dinh dưỡng và khoảng tin cậy theo cách thích hợp.
4. Lí giải thống kê các kết luận.
5. Giả sử chúng ta chỉ điều tra 50 trẻ ở mỗi tỉnh, theo bạn kết quả sẽ như thế nào?
6. So sánh kết quả tỉ lệ suy dinh dưỡng của 4 tỉnh miền Trung và 6 tỉnh miền Tây. Cách so sánh đó có gì không ổn hay không?
7. Nếu bạn đánh giá về tình trạng dinh dưỡng ở trẻ em, bạn có thể có những cách phân tích số liệu nào khác hay không? Cho biết lợi ích của từng cách
8.Giải thích tại sao có sự khác biệt địa lí về tỉ lệ suy dinh dưỡng.
Bài giải
1. Tỉ lệ suy dinh dưỡng, khoảng tin cậy của tỉ lệ suy dinh dưỡng ở 13 tỉnh phía Nam
Tỉnh
Số trẻ
Số SDD
Tỉ lệ SDD
SE
Giới hạn tin cậy dưới
Giới hạn tin cậy trên
Quảng nam Ðà nẵng
1503
711
47.3
1.29
44.8
49.8
Binh Ðịnh
1510
708
46.9
1.28
44.4
49.4
Ninh Thuận
1520
707
46.5
1.28
44.0
49.0
Ðắc Lắc
1488
705
47.4
1.29
44.9
49.9
TP Hồ Chí Minh
1503
494
32.9
1.21
30.5
35.3
Sông Bé
1488
579
38.9
1.26
36.4
41.4
Ðồng Nai
1500
542
36.1
1.24
33.7
38.5
Ðồng Tháp
1498
758
50.6
1.29
48.1
53.1
An Giang
1512
556
36.8
1.24
34.4
39.2
Bến Tre
1503
522
34.7
1.23
32.3
37.1
Cần Thơ
1563
622
39.8
1.24
37.4
42.2
Sóc Trăng
1490
590
39.6
1.27
37.1
42.1
Minh Hải
1492
573
38.4
1.26
35.9
40.9
Hình 4. Tỉ lệ suy dinh dưỡng ở 13 tỉnh thành phía Nam năm 1994 và khoảng tin cậy
Các file đính kèm theo tài liệu này:
- thong_ke_co_ban07_su_bien_thien_mau_cua_ti_le_2019.doc