Phương pháp nghiên cứu khoa học - Ðại cương về phân tích số liệu

Sự tương quan của hai biến số định tính Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc OR nếu trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta có thể tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta được RR=0,23 với khoảng tin cậy 95% của RR từ 0,15 đến 0,36

doc15 trang | Chia sẻ: huyhoang44 | Lượt xem: 643 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Phương pháp nghiên cứu khoa học - Ðại cương về phân tích số liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Ðại cương về phân tích số liệu Phép ước lượng Dân số và mẫu Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm. Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là mẫu (sample) và từ đó ước đoán về những đặc tính của dân số. Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để có được đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của mẫu chúng ta sử dụng phương pháp suy luận thống kê và lí giải để có được đặc trưng của dân số (được gọi là tham số - parameter) Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn. Khi lấy mẫu ngẫu nhiên đơn, chúng ta có thể tính được giá trị trung bình và độ lệch chuẩn của mẫu. Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau. Tuy vậy các nhà thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giá trị trung bình này sẽ tập trung tại trung bình của dân số. Do đó nếu chúng ta tính trung bình của mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của mẫu. Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được gọi là sai số chuẩn (standard error) và sẽ giảm đi khi cỡ mẫu càng lớn: Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá trình trung bình dân số còn sai số chuẩn là đại lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham số (trung bình dân số hay tỉ lệ của dân số). Ước lượng khoảng tin cậy của trung bình Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị trung bình của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính trung bình của mẫu. Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ chính xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí đâu đó chung quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các trường hợp trung bình dân số không nằm xa quá 1,96 x SE so với trung bình mẫu: phạm vi này được gọi là khoảng tin cậy 95%. Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng Khoảng tin cậy 95% (95% CI) : `x ± 1,96s/Ön Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị 1,96 như trong công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ), giá trị này được gọi là giá trị của phân phối t với (cỡ mẫu – 1) độ tự do. Khoảng tin cậy 95% (95% CI) : `x ± t(1-a/2) ´ s/Ön Bài tập: 1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. Hãy ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng Tháp. Sử dụng công thức trên ta tính được: 95%CI=3096.74 - 3145.26 gram. 2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy ước lượng khoảng tin cậy 95% của chiều cao trung bình. Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ lệch chuẩn của chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đó chúng ta tính được khoảng tin cậy 95% 95%CI=164.87 - 164.87. Ước lượng khoảng tin cậy của tỉ lệ Để ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau đó dựa vào p để ước lượng khoảng tin cậy 95% của p đến Bài tập Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá. Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438 Suy luận thống kê Kiểm định ý nghĩa Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng. Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì không B sẽ kéo theo không A. AÞ B Û`BÞ`A Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh nhân không bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc ruột. Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn đoán tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng). Việc không có một trong các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh nhân không có đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán. Các biến cố nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ của chẩn đoán. Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định một giả thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của các con số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi bình phương, v.v.) và nếu con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho. Miền nằm ngoài miền xảy ra phổ biến của số thống kê được gọi miền bác bỏ. Hình 1. Nguyên tắc kiểm định ý nghĩa theo Fisher. Đường cong phân phối hình chuông thể hiện phân phối của thống kê của z khi µ=0 (giả thuyết Ho). Vùng diện tích dưới đường cong màu trắng thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng. Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết Ho và có diện tích là xác suất sai lầm loại 1 (5%). Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau: Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ chứ không thể chứng minh được giả thuyết Ho. Vì vậy nếu chúng ta muốn chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả th.uyết thống kê Ho là hút thuốc lá không phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm định để bác bỏ điều này. Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho: điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên = điểm trung bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới có thể tính được phân phối của thống kê. Giả thuyết Ho không thể thể hiện bằng bất đẳng thức (Ho: RR>1 là sai) Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con số thống kê T có nằm trong miền bác bỏ hay không người ta tính xác suất xảy ra thống kê cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng công thức: P (>T |Ho) ). Xác suất này được gọi là giá trị p. Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác bỏ giả thuyết Ho. Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi-Info, giá trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p được kí hiệu là Sig. Ở phần mềm Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì. Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như sau: P > |T| (nếu kiểm định t) P > |z| (nếu kiểm định z) Prob > chi2 (kiểm định chi bình phương) Prob > F (Kiểm định F; Kiểm định ANOVA) Kiểm định giả thuyết Khuyết điểm của phương pháp kiểm định ý nghĩa khi không bác bỏ được giả thuyết H0 chúng ta không biết được xác suất H0 đúng là bao nhiêu. Một nhà thống kê học khác tên là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đó có xét đến sai lầm loại 2. Sai lầm loại một và sai lầm loại hai Sai lầm loại một: bác bỏ giả thuyết H0 trong khi giả thuyết H0 là đúng. Sai lầm loại hai: Không bác bỏ giả thuyết H0 trong khi giả thuyết H0 sai. Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết H0, người nghiên cứu có thể bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại hai mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu. Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu. Bảng 1. Tóm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị ngưỡng của nó Chân lí là Ho đúng (Không có sự khác biệt) Chân lí là Ha đúng (Không có sự khác biệt) Bác bỏ giả thuyết H0 Sai lầm loại 1 (Xác suất = a) Kết luận đúng (Xác suất = 1-b = Power của nghiên cứu) Không bác bỏ giả thuyết H0 Kết luận đúng (Xác suất = 1-a) Sai lầm loại II (Xác suất = b) Chọn lựa kiểm định phù hợp Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu. Bảng 10. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu Loại thiết kế nghiên cứu Thang đo của biến số phụ thuộc Hai nhóm điều trị gồm các cá nhân khác nhau Ba (hay nhiêù) nhóm điều trị gồm các cá nhân khác nhau Trước và sau một điều trị (hoặc 2 điều trị) ở trên cùng các đối tượng Nhiều điều trị trên cùng các đối tượng Liên hệ giữa hai biến số Ðịnh lượng (mẫu rút từ một dân số có phân phối bình thường và phương sai hai nhóm đồng nhất t-test không bắt cặp Phân tích phương sai t-test bắt cặp Phân tích phương sai đo lường lập lại Hồi quy tuyến tính và tương quan pearson Ðịnh tính - Danh định c2 bảng 2 x n c2 bảng 3 x n test McNemar Cochrance Q Hệ số của bảng n x m (phi, OR, RR) Ðịnh tính -Thứ tự (hay biến định lượng không bình thường) Kiểm định tổng sắp hạng Mann-Whitney Kruskal-Wallis Kiểm định sắp hạng có dấu Wilcoxon Friedman hệ số tương quan Spearman Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến phụ thuộc Biến phụ thuộc Biến độc lập Nhị giá Danh định (hoặc thứ tự) Định lượng, đa biến (hoặc thứ tự) Định lượng phân phối bình thường T-test ANOVA Hồi quy tuyến tính Biến định lượng phân phối không bình thường – Biến thứ tự Mann-Whitney Kruskal-Wallis TQ Spearman Nhị giá Chi bình phương Chi bình phương Hồi quy logistic Sống còn Wilcoxon tổng quát Logrank Wilcoxon tổng quát Logrank Hồi quy Cox Phép kiểm t bắt cặp Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị hữu hiệu. Tilapur và Mir (Am J Med 1984; 77:987) cho rằng chế độ ăn giảm carbonhydrate có thể cải thiện tình trạng hô hấp. Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính (có dấu hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600 Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động mạch) trước và sau điều trị. Kết quả nghiên cứu được trình bày trong Bảng 1. Hãy so sánh trung bình của phân áp oxy động mạch trước và sau khi điều trị. Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng trước và sau chế độ điều trị với chế độ ăn giảm carbonhydrate Đối tượng Pa02 trước Pa02 sau Hiệu số PaC02 trước PaC02 sau Hiệu số 1 70 82 12 49 45 -4 2 59 66 7 68 54 -14 3 53 65 12 65 60 -5 4 54 62 8 57 60 3 5 44 74 30 76 59 -17 6 58 77 19 62 54 -8 7 64 68 4 49 47 -2 8 43 59 16 53 50 -3 Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi Bước 2: Chọn kiểm định phù hợp Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do Bước 3: Tính thống kê t Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch trước và sau điều trị) để tính thống kê t Bước 4: tính xác suất của giá trị thống kê t Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do, 2). Cụ thể để tính p tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh công thức "=tdist(4.63, 7, 2) vào một ô. Kết quả ta được giá trị p= 0.002397687. Bước 5: Kết luận Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân áp oxy động mạch có cải thiện sau khi điều trị. Phép kiểm t (không bắt cặp) Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain (Circ Res 1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người có nồng độ catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu, huyết áp tâm trương. Kết quả của nghiên cứu được trình bày trong bảng 2. Hãy so sánh nhịp tim ở hai nhóm, nhóm có tăng catecholamine và nhóm không tăng catecholamine. Bảng 1. Trung bình và độ lệch chuẩn của Luợng catecholamine huyết thanh, nhịp tim, huyết áp tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân tăng huyết áp không tăng catecholamine Tăng catecholamine Không tăng Số bệnh nhân 13 9 catecholamine huyết thanh (ug/mL) `x=0.484 s=0.133 `x=0.206 s=0.060 Nhịp tim `x=90.7 s=11.5 `x=77.8 s=13.2 Huyết áp tâm thu `x=171.3 s=13.7 `x=147.4 s=9.9 Huyết áp tâm trương `x=103.0 s=8.3 `x=95.6 s=12.9 Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình ở nhóm bệnh nhân không tăng catecholamine Bước 2: Chọn kiểm định phù hợp Kiểm định phù hơp là kiểm định t với (n1+n2-2) = 20 độ tự do Bước 3: Tính thống kê t Trước tiên chúng ta phải tính độ lệch chuẩn gộp (Để dễ nhớ công thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung bình của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai đó) Sau đó chúng ta tính thống kê t Bước 4: tính xác suất của giá trị thống kê t Sử dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số thống kê chúng ta sẽ tìm được p <0,05) Bước 5: Kết luận Vì giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa hai nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình. Phân tích phương sai Anionwo et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm bệnh hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3 nhóm bệnh nhân. Bảng 7. Phân tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các bệnh nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981) British Medical Journal, 282, 283-6 (a) Số liệu Loại bệnh hồng cầu liềm Số bệnh nhân (ni) Trung bình (`xi) s.d. (si) Giá trị của các cá thể hemoglobin g% (x) Hb SS 16 8,712 0,844 7,2; 7,7; 8,0; 8,1; 8,3; 8,4; 8,4; 8,5; 8,6; 8,7; 9,1; 9,1; 9,1; 9,8; 10,1; 10,3 Hb S/b-thalassaemia 10 10,630 1,284 8,1; 9,2; 10,0; 10,4; 10,6; 10,9; 11,1; 11,9; 12,0; 12,1 Hb SC 15 13,300 0,942 10,7; 11,3; 11,5; 11,6; 11,7; 11,8; 12,0; 12,1; 12,3; 12,6; 12,6; 13,3; 13,8; 13,8; 13,9 Hãy sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3 nhóm bệnh nhân bị hồng cầu liềm. Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Trung bình Nồng độ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau Bước 2: Chọn kiểm định phù hợp Kiểm định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số nhóm, số quan sát - số nhóm) = (2,38) độ tự do ; F tới hạn= 3,32 Bước 3: Lập bảng ANOVA và Tính thống kê F Chúng ta lập thành bảng phân tích phương sai như sau: Nguồn biến thiên SS d.f. MS=SS/d.f. MS giữa các nhóm F= ---------------------------- MS bên trong nhóm Giữa các nhóm 99,92 2 49,96 50.03 , P<0,001 Trong các nhóm 37,95 38 1,00 Tổng cộng 137,85 40 Các giá trị ở trên có thể tính theo công thức sau: Giữa các nhóm SSb= S ni´(xi-`x)2= S nixi2-(Sx)2/N = 16 ´ 8,71252+10 ´ 10,63002+15 ´ 12,3002 - 430,22/41=99,92 dfb = k-1 = 2 MSb = SS/d.f. Trong các nhóm SSw = S (ni -1)si2 =15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96 dfw= N - k = 41-3 = 38 MSw = SS/d.f. Và giá trị thống kê F F = MSb/MSw Bước 4: tính xác suất của giá trị thống kê F Dựa vào máy tính chúng ta tính được giá trị p= 2.26 x 10-11. Chúng ta cũng có thể dựa vào bảng thống kê F để tìm được p <0,001 Bước 5: Kết luận Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh hồng cầu liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê. Phép kiểm chi bình phương Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm? Thực hành Bước 1: Xây dựng giả thuyết Ho: Ho: Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine Bước 2: Chọn kiểm định phù hợp Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương Lập bảng 2 x 2 như sau Kết quả Mắc bệnh cúm Không mắc Tổng Tiêm chủng Có 20 a (8,3%) 220 b 240 a+b Placebo 80 c (36,4%) 140 d 220 c+d Tổng 100 a+c 360 b+d 460 N Để tính thống kê chi bình phương có hai cách: Phương pháp chính thức: - Tính các giá trị kì vọng (E) ở các ô, giá trị kì vọng của một ô bằng tích các ô biên chia cho tổng số chung (thí dụ giá trị kì vọng của ô a Ea = (a+b) ´ (a+c) /N, giá trị kì vọng của ô c Ec = (a+b) ´ (c+d) /N) - Tính giá trị chi bình phương theo công thức Trong thí dụ này Công thức tính tắt cho bảng 2 ´ 2 Bước 4: tính xác suất của giá trị thống kê c2 Sử dụng máy vi tính chúng ta được giá trị p= 3,31 x 10-13 nghĩa là giá trị của p rất nhỏ. Sử dụng bảng số chúng ta biết được p < 0,001. Bước 5: Kết luận Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận tỉ lệ mắc cúm ở nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm placebo. Sự tương quan của hai biến số định tính Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc OR nếu trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta có thể tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta được RR=0,23 với khoảng tin cậy 95% của RR từ 0,15 đến 0,36 So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương Khi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức độ liên hệ (xem lại phần các số đo dịch tễ). Kết quả Mắc bệnh Không mắc bệnh Tổng Biến số phơi nhiễm Phơi nhiễm a1 b1 N1 Không phơi nhiễm ao b0 N0 Tổng a1+a0 b1+b0 N=N1+N0 Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm không phơi nhiễm: RR = (a1/N1)/(a0/N0) Khoảng tin cậy 95% của tỉ số nguy cơ: hay (test-based CI) Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh mắc bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số số chênh là tỉ số của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm ở nhóm không chứng. RR = (a1/b1)/(a0/b0) Khoảng tin cậy 95% của tỉ số số chênh: Bài tập Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử đã tìm được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhóm bị viêm ruột hoại tử có 50 trường hợp có tiền căn ăn thịt (gần đây) và trong nhóm chứng có 16 trường hợp có tiền căn ăn thịt. Hãy tìm ước lượng số đo liên hệ giữa ăn thịt và viêm ruột hoại tử. Table 5. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea (OR=11,6) Ăn thịt trong thời gian gần đây Không ăn thịt trong thời gian gần đây Tổng số Nhóm bệnh 50 a1 11 b1 61 Nhóm chứng 16 a0 41 b0 57 Tổng số 66 52 118 Nếu tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng (16/57) có ý nghĩa thống kê thì chúng ta có thể kết luận rằng có sự liên quan giữa ăn thịt và viêm ruột hoại tử. Đây là bài toán so sánh tỉ lệ của một biến số định tính ở hai nhóm và được giải quyết bằng kiểm định chi bình phương. Tuy nhiên bằng việc kiểm định giả thuyết chúng ta chỉ xác định có mối liên hệ mà không biết độ lớn của sự liên hệ. Bởi vì đây là nghiên cứu bệnh chứng chúng ta không tính được RR mà phải sử dụng OR để đo lường sức mạnh liên hệ. Sử dụng công thức tính OR và khoảng tin cậy của OR ta được: OR = (a1/b1)/(a0/b0) = (a1 ´ b0)/(a0 ´ b1) = 11.65 và khoảng tin cậy 95% của OR = 4.87 đến 27.85 Bài tập Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm? Kết quả Mắc bệnh cúm Không mắc Tổng Tiêm chủng Có 20 a1 (8,3%) 220 b1 240 N1 Placebo 80 a0 (36,4%) 140 d 220 N0 Tổng 100 360 460 N Ta tính được RR = (a1/N1)/(a0/N0) = (20/240)/(80/220) = 0.23 Khoảng tin cậy 95% của tỉ số nguy cơ: = 0.15 đến 0.36 Quan hệ giữa hai biến số định lượng Tương quan Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại hệ số tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Nếu chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là hoàn toàn không có sai số ngẫu nhiên. Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r: Lí giải ý nghĩa của hệ số tương quan Pearson - Hệ số tương quan luôn luôn nằm trong đoạn [-1,1] - Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến. - Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e). - Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả) - Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số không phải là tuyến tính (hình 9.2b) - Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh. Hồi quy Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số khác. Một phương trình hồi quy có thể có dạng như sau: cân nặng (kg) = 6,85 + 0,18 ´ tháng tuổi (phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi) theo phương trình này người ta gọi: cân nặng: biến số phụ thuộc tháng tuổi: biến số độc lập 6,85: hệ số của hằng số, hay còn gọi là điểm chặn (intercept) 0,18: hệ số của biến số tháng tuổi. Một cách tổng quát phương trình hồi quy sẽ có dạng: Y = b0 + b1 x1 + b2 x2 + b3 x3 Với y là biến số phụ thuộc x1, x2, x3 là các biến số độc lập b0: điểm chặn của phương trình b1, b2, b3 : hệ số của các biến số độc lập Hệ số của biến số độc lập nói lên nếu biến số độc lập tăng một đơn vị thì biến số phụ thuộc y sẽ thay đổi bao nhiêu. Cụ thể hơn nếu biến số x2 thay đổi một đơn vị thì biến số y sẽ tăng giá trị là b2 (biến số y sẽ giảm nếu giá trị b2 âm). Bài tập 1. Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng trong bảng 4. Đối tượng Lượng muối Huyết áp 1 5 110 2 10 120 3 12 110 4 18 120 5 20 140 Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng. Thực hành Để tìm sự liên hệ giữa hai biến số định lượng chúng ta sử dụng hệ số tương quan. Dựa vào công thức ta tính được r = 0,771829. Như vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên quan này là mạnh và lượng muối ăn giải thích cho đến 60% (0.77 ´ 0.77) sự thay đổi của huyết áp tâm thu. Chúng ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là: Huyết áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối. Giá trị 99,8 được gọi là điểm chặn của phương trình hồi quy và 1,55 là hệ số góc của biến số lượng muối tiêu thụ. Điều này có nghĩa là nếu lượng muối ăn tăng thêm 1 gram/ngày thì huyết áp tâm thu sẽ tăng trung bình 1,55 mmHg. 2. Lý giải ý nghĩa của phân tán đồ sau Figure 8. Trọng lượng sơ sinh theo tuổi thai (tuần) của 641 trẻ sinh do thụ thai trong ống nghiệm ở Anh quốc

Các file đính kèm theo tài liệu này:

  • docphuongphapnghiencuukhoahoc03_dai_cuong_ve_phan_tich_so_lieu_043.doc