Thống kê cơ bản - Nguyên lí kiểm định
Sai lầm loại một: bác bỏ giả thuyết Ho trong khi giả thuyết Ho là đúng.
Sai lầm loại hai: Không bác bỏ giả thuyết Ho trong khi giả thuyết Ho sai.
Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết Ho, người nghiên cứu có thể bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại hai.
5 trang |
Chia sẻ: huyhoang44 | Lượt xem: 857 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Thống kê cơ bản - Nguyên lí kiểm định, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
NGUYÊN LÍ KIỂM ĐỊNH
Mục tiêu:
Sau khi nghiên chủ đề, học viên có khả năng:
- Trình bày được sự liên hệ giữa kiểm định ý nghĩa và khoảng tin cậy
- Phân biệt được 2 loại sai lầm: sai lầm loại I và sai lầm loại II
1. Chọn lựa kiểm định phù hợp
Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu.
Bảng 10. Chọn lựa kiểm định phù hợp
Loại thiết kế nghiên cứu
Thang đo của biến số
Hai nhóm điều trị gồm các cá nhân khác nhau
Ba (hay nhiêù) nhóm điều trị gồm các cá nhân khác nhau
Trước và sau một điều trị (hoặc 2 điều trị) ở trên cùng các đối tượng
Nhiều điều trị trên cùng các đối tượng
Liên hệ giữa hai biến số
Ðịnh lượng (mẫu rút từ một dân số có phân phối bình thường và phương sai hai nhóm đồng nhất
t-test không bắt cặp
Phân tích phương sai
t-test bắt cặp
Phân tích phương sai đo lường lập lại
Hồi quy tuyến tính và tương quan pearson
Ðịnh tính - Danh định
c2 bảng 2 x n
c2 bảng 3 x n
test McNemar
Cochrance Q
Hệ số của bảng n x m
(phi, OR, RR)
Ðịnh tính -Thứ tự
(hay biến định lượng không bình thường)
Kiểm định tổng sắp hạng Mann-Whitney
Kruskal-Wallis
Kiểm định sắp hạng có dấu Wilcoxon
Friedman
hệ số tương quan Spearman
2. Kiểm định ý nghĩa; Kiểm định giả thuyết
Ý tưởng về kiểm định ý nghĩa (significance testing) được khởi xướng bởi R A Fisher. Giả sử chúng ta muốn đánh giá xem một loại thuốc mới có cải thiện tỉ lệ sống còn 1 năm sau khi bị nhồi máu cơ tim hay không. Chúng ta tiến hành một nghiên cứu các bệnh nhân đượcđiều trị với một loại thuốc mới và một nhóm tương đương được điều trị với giả dược và phát hiện rằng tử vong trong nhóm điều trị với thuốc mới chỉ bằng một nửa so với nhóm điều trị bằng placebo. Đây là một kết quả hứa hẹn nhưng có khi chỉ là một kết quả do cơ may? Chúng ta hãy xem xét câu hỏi này bằng cách tính giá trị p. Giá trị p chính là xác suất có ít nhất sự khác biệt 2 lần về tỉ lệ tử vong nếu như thuốc thực sự không có tác động gì lên tỉ lệ sống còn.
Fisher thấy rằng giá trị p là một chỉ số đo lường sức mạnh của chứng cớ chống lại giả thuyết Ho (trong thí dụ này, giả thuyết là thuốc không tác động gì lên tỉ lệ sống còn). Ông ta cổ vũ sử dụng P < 0.05 (5% ý nghĩa) làm mức tiêu chuẩn để kết luận rằng có bằng cớ chống lại giả thuyết được kiểm đinh, mặc dù không có một quy tắc tuyệt đối “Nếu p nằm giữa 0,1 và 0,9 chắc chắn không có lí do gì để nghi ngờ giả thuyết được kiểm đinh. Nếu nó dưới 0,02 nó chỉ ra một cách mạnh mẽ rằng giả thuyết không thể giải thích được cho sự kiện thực tế. Chúng ta sẽ không thường xuyên bị lạc lối nếu chúng ta chọn một ngưỡng quy ước ở 0,05”
Điều quan trọng, Fisher cho rằng việc lí giải giá trị p thuộc về nhà nghiên cứu. Thí dụ giá trị p khoảng 0,05 dẫn tới không thể tin hay bác bỏ giả thuyết không mà dẫn tới quyết định một thực nghiệm khác.
Nếu A ÞB Û {P(B ) thấp Þ P(A) thấp}
{ Ho Þ Tkê S } Û {P(Tkê S ) < ngưỡng Þ bác bỏ Ho}
Không thích cách lí giải chủ quan của Fisher, Neyman và Pearson đề xuất cách tiếp cận được gọi là “kiểm định giả thuyết” (hypothesis tests) và thay thế cho quan điểm chủ quan về sức mạnh của giá trị p làm chứng cớ chống lại giả thuyết không bằng cách tiếp cận khách quan dựa vào cây quyết định. Neyman và Pearson cho rằng có hai loại sai lầm có thể phạm phải trong khi lí giải kết quả của thực nghiệm. Cách tiếp cận của Fisher tập trung vào sai lầm loại một: xác suất bác bỏ giả thuyết không nếu giả thuyết không thực ra là đúng. Neyman và Pearson cũng quan tâm đến sai lầm loại II: xác suất chấp nhận giả thuyết không (và không chịu dùng điều trị mới) trong khi giả thuyết thực sự là sai. Bằng cách sắp đặt các nguy cơ sai lầm loại I và loại II, số các sai lầm mắc phải trong khi lí giải kết quả sẽ được hạn chế. Điều này không phải là xa lạ với ai đã từng tính cỡ mẫu cho các nghiên cứu có kiểm định giả thuyết.
Để sử dụng cách tiếp cận Neyman-Pearson chúng ta phải chỉ rõ đối thuyết (alternative hypothesis). Nói cách khác đối thuyết không thể chỉ được phát biểu đơn giản: “thuốc mới làm giảm nguy cơ tử vong” mà phải chỉ rõ nguy cơ tử vong giảm bao nhiêu: “thuốc mới làm giảm nguy cơ tử vong 60%” Nhà nghiên cứu có quyền tự do chọn quy tắc quyết định bằng cách phát biểu cụ thể đối thuyết, nguy cơ sai lầm loại I, và nguy cơ sai lầm loại II, nhưng điều này phải được thực hiện trước khi nghiên cứu. Do đó trong cách tiếp cận của Neyman-Pearson chúng ta xây dựng một nguyên tắc ra quyết định để giúp lí giải kết quả nghiên cứu từ trước khi tiến hành nghiên cứu và việc phân tích chỉ đơn giản là bác bỏ hay chấp nhận giả thuyết không và, ngược lại với cách tiếp cận chủ quan của Fisher, không cố gắng lí giải giá trị p trong từng một nghiên cứu cụ thể.
Điều đáng tiếc các nhà nghiên cứu lại không tìm hiểu rõ ràng ý tưởng và sử dụng phần thô sơ nhất của cách tiếp cận này cho rằng giả thuyết không sẽ được bác bỏ nếu p< 0,05 (với nguy cơ sai lầm loại 1 là 5%). Điều này dẫn đến cảm nhận sai lầm là cách tiếp cận của Neyman-Pearson tương tự như cách tiếp cận của Fisher.
3. Sai lầm loại một và sai lầm loại hai
Sai lầm loại một: bác bỏ giả thuyết Ho trong khi giả thuyết Ho là đúng.
Sai lầm loại hai: Không bác bỏ giả thuyết Ho trong khi giả thuyết Ho sai.
Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết Ho, người nghiên cứu có thể bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại hai.
Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu.
Hình 5. Biểu đồ minh hoạ mối liên quan giữa sai lầm loại 1, sai lầm loai 2, cỡ mẫu và khoảng cách giữa Ho - Ha. Đường phân phối màu đậm bên trái thể hiện giả thuyết Ho, đường màu nhạt bên phải thể hiện giả thuyết Ha. Vùng diện tích màu đậm là xác suất sai lầm loại 1 và vùng diện tích màu nhạt thể hiện xác suất sai lầm loại 2. Chúng ta có thể nhận xét với cùng cỡ mẫu, nguy cơ sai lầm loại 2 càng tăng nếu Ha càng gần Ho. Cần phải tăng cỡ mẫu để phân biệt được Ha và Ho (giảm nguy cơ sai lầm loại 2) khi Ha gần Ho
4. So sánh các tiếp cận cổ điển (chủ nghĩa tần suất) và Bayes trong suy luận thống kê
Giả sử chúng ta muốn đánh giá một loại thuốc mới có cải thiện tỉ lệ sống còn một năm sau khi bị nhồi máu cơ tim bằng một thử nghiệm lâm sàng có nhóm chứng placebo. Chúng ta sẽ thực hiện điều này bằng cách ước lượng tỉ số nguy cơ – nguy cơ tử vong trong bệnh nhân được điều trị với thuốc mới chia cho nguy cơ tử vong ở nhóm đối chứng. Nếu tỉ số nguy cơ là 0,5, thuốc mới giảm nguy cơ tử vong 50%, nếu tỉ số nguy cơ là 1 thì thuốc mới không có tác dụng.
Thống kê tần suất chủ nghĩa
Cho rằng chân lí đã có sẵn. Chúng ta sử dụng số liệu để suy luận từ giá trị của tỉ số nguy cơ ở dân số có thực (nhưng chưa biết)
Khoảng tin cậy 95% cho chúng ta khoảng giá trị hợp lí của tỉ số nguy cơ dân số; Chúng ta thực hiện nghiên cứu 100 lần thì 95% những khoảng tin cậy tính được sẽ chứa giá trị của dân số
Giá trị p là xác suất có được tỉ số nguy cơ tương tự hay nhỏ hơn tỉ số nguy cơ chúng ta đã phát hiện nếu giả thuyết Ho là đúng.
Thống kê Bayes
Người theo chủ nghĩa Bayes có cách tiếp cận chủ quan. Chúng ta bắt đầu với quan điểm chúng ta về tỉ số nguy cơ và thể hiện nó theo phân phối xác suất Chúng ta sẽ dùng số liệu để điều chỉnh ý kiến đó (chúng tá sẽ rút ra phân phối xác suất của tỉ số nguy cơ dựa trên số liệu và phân phối có sẵn)
Khoảng tin tưởng 95% (95% credible interval) là khoảng có 95% cơ may có chứa tỉ số nguy cơ dân số.
Phân phối hậu nghiệm có thể được dùng để rút ra các khẳng định xác suất về tỉ số nguy cơ – thí dụ, xác suất thuốc làm tăng nguy cơ tử vong
Có sự tương tự giữa thống kê Bayes và việc sử dụng test trong chẩn đoán bệnh, trong đó power của kiểm định tương tự như độ nhạy, giá trị p tương tự như (1- độ chuyên) và tương tự như tỉ số độ khả dĩ dương. Khi đó nếu kết quả là bác bỏ Ho, số chênh hậu nghiệm của mệnh đề bằng số chênh tiền nghiệm x
Nếu chúng ta không có ý kiến tiền nghiệm (chúng ta xem các khoảng giá trị đều có khả năng ngang nhau) thì kết quả của các tiếp cận cổ điển tương tự như cách tiếp cận của Bayes.
Khoảng tin cậy 95% tương tự như khoảng tin tưởng 95% (95% credible interval)
Giá trị p (một bên) tương tự như xác suất hậu nghiệm của mệnh đề thuốc làm tăng nguy cơ tử vong (giả sử rằng chúng ta có được kết quả là thuốc có tác dụng bảo vệ)
Dù vậy hai cách tiếp cận này sẽ cho kết quả khác nhau ý kiến tiền nghiệm của chúng ta về mệnh đề không phải là mơ hồ
Các file đính kèm theo tài liệu này:
- thong_ke_co_ban09_nguyen_ly_kiem_dinh_4898.doc