Thống kê cơ bản - Ước lượng
Để minh hoạ các bước tính toán trên chúng ta hãy xem xét một nghiên cứu bệnh chứng được tiến hành ở Papua New Guinea để xem ăn thịt có phải là yếu tố nguy cơ của viêm ruột hoại tử hay không. Số liệu thu thập được được trình bày trong bảng 2. Quy trình để ước lượng khoảng OR như sau:
1. Ước lượng điểm OR = 50 ´ 41/(16 ´ 11) = 11,65
Tỉ số chênh OR = 16 cho thấy người ăn thịt có nguy cơ bị viêm ruột hoại tử gấp 16 lần người không ăn thịt.
8 trang |
Chia sẻ: huyhoang44 | Lượt xem: 1148 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Thống kê cơ bản - Ước lượng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ƯỚC LƯỢNG
Mục tiêu:
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Trình bày được ý nghĩa của khoảng tin cậy 95%
- Trình bày và lựa chọn được phương pháp ước lượng khoảng tin cậy trung bình của một mẫu
- Trình bày được phương pháp ước lượng khoảng tin cậy hiệu số hai trung bình
- Trình bày phương pháp ước lượng khoảng tin cậy tỉ lệ của mẫu
- Trình bày phương pháp ước lượng khoảng tin cậy của tỉ số nguy cơ và tỉ số số chênh
1. Giới thiệu
Trong công việc hàng ngày và trong nghiên cứu khoa học, ta cần phải biết một số những đặc tính của dân số. Thí dụ như chúng ta cần biết đường huyết trung bình của người bình thường để có thể chẩn đoán tiểu đường, cần biết trọng lượng trung bình của trẻ sơ sinh để đáng giá sự phát triển của trẻ, cần biết tỉ lệ tiêm chủng hoặc tỉ lệ đặt vòng nhằm lượng giá các chương trình y tế.
Ðể ước tính được các đặc tính (các tham số) đó của dân số, phương pháp chính xác nhất là đo lường tất cả các giá trị của toàn bộ dân số. Tuy vậy điều này là không thực tế bởi vì:
- Những hạn chế về tài nguyên: chúng ta không thể tiến hành lấy máu của tất cả mọi người Việt nam để tính giá trị đường huyết trung bình. Ðiều này gây lãng phí về thời gian, nhân lực và tiền bạc.
- Tính không khả thi về phương diện áp dụng: Một bác sĩ nhận thấy có tỉ lệ tai biến khi sử dụng thuốc X dường như tăng cao. Ðể đo đạc tỉ lệ tai biến cho toàn bộ dân số cần phải kéo dài việc sử dụng thuốc để có thể sử dụng thuốc này cho tất cả mọi người. Nhưng điều này là không thích hợp về phương diện đạo đức.
Do đó, người ta cần phải đo đạc các giá trị trên một phần của dân số, được gọi là một mẫu và tiến hành suy luận thống kê.
Ðịnh nghĩa: Suy luận thống kê là quá trình trong đó người ta suy lận về dân số dựa trên những kết quả thu được từ một mẫu rút ra từ dân số đó.
Nhưng tham số của dân số có thể được ước tính bằng hai cách: ước lượng điểm và ước lượng khoảng. Ước lượng điểm là một giá trị bằng số duy nhất nhằm để ước tính tham số tương ứng của dân số. Ước lượng khoảng bao gồm 2 trị số xác định một khoảng mà chúng ta cho rằng khoảng này có chứa tham số được ước lượng, với một độ tin tưởng nào đó.
Một trong những tiêu chí để đánh giá phương pháp ước lượng là tính không sai lệch (còn gọi là tính không chệch - unbiasedness). Một phương pháp ước lượng được gọi là không sai lệch nếu trung bình của rất nhiều giá trị ước lượng bằng giá trị của tham số.
Suy luận thống kê chính xác đòi hỏi việc lấy mẫu ngẫu nhiên từ một khung mẫu và khung mẫu này trùng với dân số mục tiêu. Nếu việc lấy mẫu không ngẫu nhiên hoặc nếu khung mẫu không trùng với dân số mục tiêu, chúng ta cần phải dựa vào những luận cứ không phải là thống kê.
2. Ước lượng trung bình của dân số
Ước lượng điểm:
Trung bình của dân số (m) có thể được ước lượng bằng trung bình của mẫu (theo định lí giới hạn trung tâm, trung bình của mẫu nằm tập trung quanh trung bình của dân số). Trung bình của mẫu được tính theo công thức sau:
Ước lượng khoảng
Ðịnh lí giới hạn trung tâm chỉ cho phép ước lượng khoảng khi mẫu lớn (n ³ 30) hay mẫu được rút ra từ một phân phối xấp xỉ bình thường. Khi đó có thể áp dụng hai phương pháp:
- Phương pháp ước lượng z có thể sử dụng bất cứ khi nào có cỡ mẫu lớn hoặc biết được phương sai của dân số (trường hợp biết phương sai của dân số rất ít khi xảy ra).
- Phương pháp ước lượng t có thể áp dụng khi nào phân phối của dân số là xấp xỉ bình thường.
Phương pháp z
Theo định lí giới hạn trung tâm, trong 95% các trường hợp trung bình của dân số không cách xa quá trung bình của mẫu 1,96 ( SE (SE=sai số chuẩn). Do đó các bước để ước lượng khoảng tin cậy 95% theo phương pháp này là như sau:
- Tính trung bình mẫu `x
- Tính độ lệch chuẩn của dân số s (hoặc biết trước hoặc tính từ độ lệch chuẩn mẫu khi cỡ mẫu đủ lớn)
- Tính SE (sai số chuẩn) = s/Ön
- Ước lượng khoảng tin cậy `x ± 1,96 ´ SE
Phương pháp t
Nếu chúng ta không biết SE và không thể ước lượng chính xác SE vì cỡ mẫu nhỏ (<30), chúng ta không thể dùng phương pháp z để ước lượng khoảng. Tuy vậy có một định lí cho biết rằng đại lượng
có một phân phối xác định. Phân phối này được gọi là phân phối t hay phân phối student. Dựa trên định lí này ta có thể ước lương khoảng có độ tin cậy 100(1-a) theo cách sau:
- Tính trung bình mẫu `x
- Tính độ lệch chuẩn của mẫu s = Ös2
- Ước lượng khoảng tin cậy `x ± t(1-a/2) ´ s/Ön
Nếu ta ước lượng với độ tin cậy 95% thì a =0,05 và ta phải tra bảng phân phối student để tìm t(1-0,05/2) = t0,975 với (n-1) độ tự do (n là cỡ mẫu).
3. Ước lượng khoảng tin cậy của hiệu số hai trung bình
Ta có thể ước lượng hiệu số của trung bình của hai nhóm A và B theo 2 cách z và t tùy theo số liệu của ta thỏa mãn có thỏa mãn những giả định cần thiết hay không.
- Ðể sử dụng phương pháp z cần hai giả định:
. Trung bình `x1 và `x2 có phân phối bình thường
. Có thể tính được độ lệch chuẩn dân số s1 và s2
Cả hai điều kiện này đều thỏa mãn nếu hai cỡ mẫu đủ lớn.
Ðể ước lượng khoảng với độ tin cậy 100(1-a) theo phương pháp t ta cần theo các bước
- Tính trung bình mẫu `x1 và `x2
- Tính độ lệch chuẩn dân số s1 và s2 (từ số liệu có trước hoặc suy ra từ độ lệch chuẩn mẫu s1 và s2 khi cỡ mẫu đủ lớn)
- Ước lượng khoảng theo công thức:
- Ðể sử dụng phương pháp t cần hai giả định:
. x1 và x2 có phân phối bình thường và
. s1 = s2
Ðể ước lượng khoảng với độ tin cậy 100(1-a) theo phương pháp t ta cần theo các bước
- Tính trung bình mẫu `x1 và `x2
- Tính độ lệch chuẩn của mẫu s1 và s2
- Tính phương sai gộp s2
- Ước lượng khoảng theo công thức:
4. Ước lượng tỉ lệ dân số
Trong lãnh vực y tế công cộng người ta có thể cần ước lượng những tỉ lệ như tỉ lệ phụ nữ có đặt vòng, tỉ lệ trẻ em trong diện tuổi được tiêm chủng đầy đủ 6 loại vaccine, tỉ lệ tử vong do một bệnh nào đó v.v.
Ước lượng điểm: người ta có thể ước lượng tỉ lệ trong dân số p bằng cách tính tỉ lệ (hay tần suất tương đối) của mẫu p.
Ước lượng khoảng: Giả định để có thể sử dụng công thức ước lượng khoảng là np và n(1-p) đều lớn hơn 5. Khi đó người ta có thể ước lượng khoảng tin cậy 100(1-a) của tỉ lệ theo quy trình sau:
- ước lượng điểm tỉ lệ trong dân số p dùng tỉ lệ mẫu p.
- ước lượng khoảng theo công thức:
5. Ước lượng tỉ số tỉ lệ (tỉ số nguy cơ)
Trong nhứng sách thống kê cổ điển, người ta thường trình bày thêm về ước lượng khoảng của hiệu số hai tỉ lệ. Tuy vậy, trong dịch tễ, người ta ít khi ước lượng tham số này mà thường ước lượng tỉ số của hai tỉ lệ (ước lượng khoảng của tỉ số nguy cơ - RR hay ước lượng khoảng của tỉ số số chênh - OR). Chi tiết về ước lượng khoảng của những tỉ số này tương đối phức tạp. Ở đây trình bày công thức ước lượng khoảng của RR và OR mà không giải thích.
Nếu chúng ta kí hiệu các số liệu trong bảng 2 x 2 theo quy tắc sau:
Phơi nhiễm
Không phơi nhiễm
Tổng số
Bệnh
A1
A0
M1
Không bệnh
B1
B0
M0
Tổng số
N1
N0
N
a. Ước lượng khoảng tin cậy của RR theo:
Tính tỉ số nguy cơ
Tính sai số chuẩn của ln(RR):
Tính thừa số sai số (error factor) của RR:
Tính khoảng tin cậy của RR theo công thức:
b. Ước lượng khoảng tin cậy của OR theo:
Tính tỉ số nguy cơ
Tính sai số chuẩn của ln(OR):
Tính thừa số sai số (error factor) của OR:
Tính khoảng tin cậy của OR theo công thức:
Bảng 4. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea (OR=11,6)
Ăn thịt trong thời gian gần đây
Không ăn thịt trong thời gian gần đây
Tổng số
Nhóm bệnh
50
11
61
Nhóm chứng
16
41
57
Tổng số
66
52
118
Để minh hoạ các bước tính toán trên chúng ta hãy xem xét một nghiên cứu bệnh chứng được tiến hành ở Papua New Guinea để xem ăn thịt có phải là yếu tố nguy cơ của viêm ruột hoại tử hay không. Số liệu thu thập được được trình bày trong bảng 2. Quy trình để ước lượng khoảng OR như sau:
1. Ước lượng điểm OR = 50 ´ 41/(16 ´ 11) = 11,65
Tỉ số chênh OR = 16 cho thấy người ăn thịt có nguy cơ bị viêm ruột hoại tử gấp 16 lần người không ăn thịt.
2. Tính
3. Thừa số sai số,
4. Khoảng tin cậy 95% của OR=
Như vậy với độ tin tưởng 95%, ta cho rằng khoảng từ 4,9 đến 27,9 có chứa OR thực sự. Nói cách khác với độ tin tưởng 95% ta cho rằng người ăn thịt có nguy cơ bị viêm ruột hoại tử cao gấp 4,9 lần đến gấp 27,9 lần so với người không ăn thịt.
Bài tập về kiểm định và ước lượng
1. Theo dõi nhịp tim của 12 bệnh nhân bị bệnh cường giáp trước và sau khi điều trị với thuốc kháng giáp ta có kết quả như sau:
Bệnh nhân
1
2
3
4
5
6
7
8
9
10
11
12
M trước điều trị
115
120
110
100
95
110
120
115
100
120
110
90
M sau điều trị
100
100
90
100
90
100
100
90
90
100
100
100
Hỏi: thuốc kháng giáp có làm giảm nhịp tim của bệnh nhân cường giáp hay không? Ước lượng khoảng tin cậy của tác dụng làm giảm nhịp của thuốc.
Bài giải:
Vì đây là thử nghiệm lâm sàng với 2 lần đo đạc trên cùng một đối tượng, ta sử dụng test t bắt cặp. Ðối với thử nghiệm lâm sàng dạng này, ta quan tâm nhiều sự thay đổi, đó chính là hiệu số của nhịp tim sau và nhịp tim trước khi điều trị và ta quan tâm đến trung bình của hiệu số này có khác zerohay không.
Lập lại bảng trên và thêm hàng tính hiệu số mạch ta có:
Bệnh nhân
1
2
3
4
5
6
7
8
9
10
11
12
M trước điều trị
115
120
110
100
95
110
120
115
100
120
110
90
M sau điều trị
100
100
90
100
90
100
100
90
90
100
100
100
Hiệu số d
-15
-20
-20
0
-5
-10
-20
-25
-10
-20
-10
+10
Giả thuyết Ho : Trung bình của hiệu số mạch (d) bằng zero
Ta có trung bình của d = `d = -12,1
độ lệch chuẩn của d sd = 10,1
và ta tính giá trị t theo công thức:
Lấy trị tuyệt đối của t và tra bảng t hai chiều ở hàng 12-1 = 11 độ tự do, ta có t > 3,106, có nghĩa là ta có thể bác bỏ giả thuyết H0 với mức ý nghĩa p < 0,01.
Ðể ước lượng khoảng tin cậy 95% ta dùng công thức:
`x ± t(1-a/2) ´ s/Ön
với 11 độ tự do t = 2,201 và khoảng tin cậy là:
-12,1 ± 2,20 ´ 10,1/Ö12 = -12,1 ± 6,7 = -18,8 : - 5,4
Tóm lại với độ tin tưởng 95%, ta nói rằng thuốc kháng giáp làm giảm nhịp tim từ 5 đến19 nhịp trong một phút.
2. Theo dõi thời gian bắt đầu có tác dụng của hai loại thuốc A và B trên hai nhóm bệnh nhân ta có kết quả như sau:
Thuốc A: 44;51;52;55;60;62;66;68;69;71;71;76;82;91;108 (n1 = 15; `x1 = 68,4 ; s1 = 16,5)
Thuốc B: 52;64;68;74;79;83;84;88;95;97;101;116 (n2 = 12; `x2 = 83,4 ; s2 = 17,6)
Hỏi thời gian tác dụng của hai loại thuốc có khác nhau hay không? Ước lượng khoảng tin cậy 95% của hiệu số thời gian tác dụng.
Bài giải:
Ðây là bài toán so sánh hai giá trị trung bình.
Ta có H0 : Thời gian tác dụng trung bình trong dân số của thuốc A = Thời gian tác dụng trung bình trong dân số của thuốc B
Ðể kiểm định giả thuyết trước hết ta tính phương sai gộp s2
Vậy s = = 17
và ta tính t =
Lấy trị tuyệt đối của t và tra bảng t hai chiều ở hàng 15-1+12-1 = 25 độ tự do, ta có t > 2,06 có nghĩa là ta có thể bác bỏ giả thuyết H0 với mức ý nghĩa p < 0,05.
Ðể ước lượng khoảng tin cậy 95% của hiệu số thời gian tác dụng ta sử dụng công thức:
3. Một cuộc điều tra cắt ngang về tình trạng suy dinh dưỡng dinh dưỡng trẻ em từ 12 đến 36 tháng ở Cần Thơ được tiến hành trên 1200 trẻ và tìm xem tình trạng kinh tế gia đình có ảnh hưởng đến dinh dưỡng của trẻ hay không. Kết quả được trình bày trong bảng sau:
Table 9. Tình trạng suy dinh dưỡng của trẻ theo tình trạng kinh tế xã hôij của gia đình Guinea (OR=11,6)
Nghèo
Trung bình trở lên
Tổng số
Suy dinh dưỡng
126
246
372
Không suy dinh dưỡng
196
632
828
Tổng số
322
878
1200
a. Ước lượng khoảng tin cậy 95% của tỉ lệ suy dinh dưỡng ở trẻ em nghèo?
b. Tính nguy cơ tương đối (RR) của suy dinh dưỡng ở trẻ em nghèo?
c. Ước lượng khoảng tin cậy 95% của RR.
Bài giải
a. Ước lượng điểm tỉ lệ suy dinh dưỡng ở trẻ nghèo:
p1 = 126/322 = 0,391 = 39,1%
Ước lượng khoảng tin cậy 95% (z = 1,96) của tỉ lệ suy dinh dưỡng ở trẻ ngho (cỡ mẫu n = 322):
Tóm lại, với độ tin tưởng 95%, tỉ lệ suy dinh dưỡng ở trẻ em nghèo tỉnh Cần thơ là từ 33,8% đến 44,4%.
b. Nguy cơ tương đối của suy dinh dưỡng ở trẻ em nghèo
Nói cách khác trẻ em nghèo dễ bị suy dinh dưỡng gấp 1,4 lân so với những trẻ em thuộc gia đình trung bình hay khá giả.
c. Ước lượng khoảng tin cậy 95% của RR theo công thức trình bày ở trên
1,18 : 1,66
Nói cách khác với độ tin tưởng 95% ta cho trẻ em nghèo bị nguy cơ suy dinh dưỡng cao gấp 1,16 lần đến 1,68 lần so với những trẻ em trung bình hoặc khá.
Các file đính kèm theo tài liệu này:
- thong_ke_co_ban13_uoc_luong_1444.doc