Luận văn Phát hiện mặt người trong ảnh dựa trên các đặc trưng Haar-Like và mẫu nhị phân cục bộ

PHÁT HIỆN MẶT NGƯỜI TRONG ẢNH DỰA TRÊN CÁC ĐẶC TRƯNG HAAR-LIKE VÀ MẪU NHỊ PHÂN CỤC BỘ ĐỖ THANH TOÀN Trang nhan đề Lời cảm ơn Mục lục Chương_1: Bài toán phát hiện khuôn mặt- mục đích, sự cần thiết của nghiên cứu và kết quả nghiên cứu đạt được Chương_2: Các công trình liên quan Chương_3: ÁP dụng AdaBoost và LBP cho bài toán phát hiện mặt người Chương_4: Mô hình kết hợp của AdaBoost và LBP cho bài toán phát hiện mặt người Chương_5: Kết luận và phương hướng phát triển Danh mục công trình tác giả Tài liệu tham khảo Phụ lục Mục lục Danh Mục Các Bảng Bảng 1. Hiệu suất của bộ phát hiện ADABOOST trên tập dữ liệu MIT – CMU .20 Bảng 2. Hiệu suất của bộ phát hiện AB - LBP trên tập dữ liệu MIT – CMU .28 Bảng 3. Tỉ lệ phát hiện chính xác với số phát hiện sai khác nhau trên dữ liệu .29 MIT - CMU 29 Bảng 4. Tỉ lệ phát hiện chính xác với số phát hiện sai khác nhau trên dữ liệu .34 MIT - CMU 34 Bảng 5. Hiệu suất của bộ phát hiện ADABOOST trên tập dữ liệu CALTECH .36 Bảng 6. Hiệu suất của bộ phát hiện AB - LBP trên tập dữ liệu CALTECH .37 Danh Mục Các Hình Hình 1. Cascade của các bộ phân lớp mạnh. Nơi một vùng ứng viên có thể bị loại tại bất kì giai đoạn nào .14 Hình 2. Ví dụ sự tính toán LBP 15 Hình 3. Minh họa toán tử LBP mở rộng với các giá trị P và R khác nhau Giá trị các pixel được nội suy cho các điểm không nằm trong tâm của một pixel 16 Hình 4. Từ trái sang phải, các mẫu vân cơ bản: điểm chấm, điểm chấm nhạt, điểm cuối đường thẳng, biên cạnh, góc được phát hiện bởi LBPu2 17 Hình 5. Sự biễu diễn khuôn mặt: histogram đặc trưng được tạo bằng cách kết hợp histogram LBP cục bộ và histogram LBP toàn cục. 18 Hình 6. Ví dụ của các ảnh khuôn mặt được sử dụng để huấn luyện AdaBoost .19 Hình 7. Kết quả phát hiện khuôn mặt trên tập MIT + CMU. Nếu một số lượng lớn bộ phân lớp mạnh được sử dụng trong cascade tree thì thời gian xử lí sẽ tăng và một số khuôn mặt bị sót. Một vài background khó bị phân lớp sai là khuôn mặt (false positive) 2 Hình 8. Vài cửa sổ kích thước 20×20 được rút trích ngẫu nhiên từ một ảnh không chứa khuôn mặt nào để tạo các mẫu non – face cho bộ phát hiện LBP .24 Hình 9. Quá trình phát hiện khuôn mặt của bộ phát hiện AB – LBP .27 Hình 10. Kết quả của bộ phát hiện AB – LBP trên một số ảnh test trên tập dữ liệu MIT + CMU .33 Hình 11. Một số ảnh trong tập dữ liệu CalTech .36 Hình 12. Một số kết quả phát hiện khuôn mặt của AdaBoost và AB – LBP trên tập dữ liệu CalTech 38 Hình 13. Sử dụng nội suy để tính toán giá trị p g .51 Nội Dung Mục lục 1 Chương 1. Bài toán phát hiện khuôn mặt – mục đích, sự cần thiết của nghiên cứu và kết quả nghiên cứu đạt được 4 1.1 Sự cần thiết của nghiên cứu .4 1.2 Mục đích nghiên cứu .5 1.3 Kết quả đạt được của luận văn .5 Chương 2. Các công trình liên quan .7 2.1 Nhóm phương pháp dựa trên tri thức .7 2.2 Nhóm phương pháp dựa trên đặc trưng bất biến .7 2.3 Nhóm phương pháp dựa trên đối sánh mẫu .7 2.4 Nhóm phương pháp dựa trên máy học 7 2.5 Một số nghiên số nghiên cứu về bài toán phát hiện mặt người tại khoa Công Nghệ Thông Tin, ĐH Khoa Học Tự Nhiên Tp. HCM .9 Chương 3. Áp dụng AdaBoost và LBP cho bài toán phát hiện mặt người .12 3.1 AdaBoost .12 3.1.1 Tổng quan về AdaBoost .12 3 3.1.2 Áp dụng AdaBoost cho bài toán phát hiện khuôn mặt .12 3.2 Local Binary Pattern(Mẫu nhị phân cục bộ) 14 3.2.1 Local Binary Pattern .14 3.2.2 Áp dụng LBP cho bài toán phát hiện khuôn mặt .17 3.3 Phân tích và đánh giá phát hiện mặt người sử dụng AdaBoost và LBP 18 3.3.1 Cơ sở dữ liệu cho huấn luyện phát hiện khuôn mặt với phương pháp AdaBoost .18 3.3.2 Kết quả thực nghiệm của phương pháp AdaBoost .19 3.3.3 Cơ sở dữ liệu cho huấn luyện phát hiện khuôn mặt với phương pháp LBP 23 Chương 4. Mô hình kết hợp của AdaBoost và LBP cho bài toán phát hiện mặt người .27 4.1 Mô hình đề xuất .27 4.2 Các kết quả thực nghiệm và thảo luận .28 4.3 Kết quả thực nghiệm của phương pháp đề xuất trên tập dữ liệu CalTech 34 Chương 5. Kết luận và hướng phát triển .39 Danh mục công trình của tác giả 40 Tài liệu tham khảo .41 Phụ lục .44 A. Cơ sở toán học của AdaBoost .44 1. AdaBoost .44 B. Nội suy song tuyến tính .51

12 trang | Chia sẻ: maiphuongtl | Lượt xem: 2554 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Luận văn Phát hiện mặt người trong ảnh dựa trên các đặc trưng Haar-Like và mẫu nhị phân cục bộ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

27 Chương 4. Mô hình kết hợp của AdaBoost và LBP cho bài toán phát hiện mặt người 4.1 Mô hình đề xuất Mô hình đề xuất trong luận văn được gọi là AB – LBP. Đây là mô hình kết hợp AdaBoost và LBP cho bài toán phát hiện mặt người. Trong mô hình này, AdaBoost có trách nhiệm loại bỏ nhanh các cửa số non – face, sau đó các vùng ứng viên sẽ được biểu diễn bởi phương pháp LBP và được phân lớp bởi phương pháp ANN để giảm tỉ lệ phát hiện sai. Hình 9 minh họa tiến trình phát hiện khuôn mặt của phương pháp AB – LBP. Hình 9. Quá trình phát hiện khuôn mặt của bộ phát hiện AB – LBP Với mỗi vùng ứng viên, chúng tôi xem xét các cửa sổ có được bằng cách tăng và giảm kích thước vùng ứng viên đến 120% và 80%, mỗi lần tăng hoặc giảm 2%. Như vậy, tương ứng với mỗi vùng ứng viên, chúng tôi xem xét tối đa (120 - 80)/2 = 20 cửa sổ. Nếu một trong số các cửa sổ được xác nhận là khuôn mặt, vùng ứng viên tương ứng sẽ được kết luận là khuôn mặt. Ngược lại, vùng ứng viên sẽ bị kết luận là không có khuôn mặt. Trong [2], A. Hadid và các đồng nghiệp đã sử dụng SVM để phân lớp vector đặc trưng được rút trích bởi phương pháp LBP. Tuy nhiên trong luận văn này, chúng tôi quyết định sử dụng ANN trong bước phân lớp bởi vì nếu sử dụng SVM để phân lớp thì 28 tốc độ phát hiện khuôn mặt quá chậm. Trong thực nghiệm của chúng tôi, khi huấn luyện dữ liệu đề cập trong mục 3.3.1 SVM tạo ra 17604 vector hỗ trợ và tốn tới 0.031 giây để xử lí một ảnh kích thước 20 × 20. Từ bảng 1, với phương pháp AB20, tỉ lệ phát hiện chính xác khá cao với 467 khuôn mặt phát hiện chính xác, tuy nhiên số phát hiện sai là 202 Æ số vùng ứng viên sau khi sử dụng bộ phát hiện AdaBoost là 467 + 202 = 669. Nghĩa là, trung bình chúng ta có 669/130 = 5 vùng ứng viên trong một ảnh. Nếu chúng ta sử dụng SVM Æ thời gian trung bình để kiểm tra một vùng ứng viên là 0.031 × (5 + 20/2) = 0.465 giây. Rõ ràng, đây là một chi phí quá lớn nếu so sánh với thời gian 0.179 của AdaBoost. Trong khi đó ANN chỉ tốn 0.00015 × (5 + 20/2) = 0.00225 giây, chi phí này không đáng kể nếu so sánh 0.179 giây của AdaBoost Æ Nếu sử dụng ANN để phân lớp các vector đặc trưng LBP thì mô hình AB – LBP có thể áp dụng để phát hiện mặt người thời gian thực. 4.2 Các kết quả thực nghiệm và thảo luận Các bộ phát hiện AdaBoost và LBP đã được huấn luyện trong mục 3.3.1 và 3.3.3. Các thực nghiệm được tiến hành trên bộ dữ liệu MIT + CMU [7]. Bảng 2 trình bày kết quả thực nghiệm của bộ phát hiện khuôn mặt AB – LBP. Bảng 2. HIỆU SUẤT CỦA BỘ PHÁT HIỆN AB - LBP TRÊN TẬP DỮ LIỆU MIT – CMU Cấu trúc AdaBoost Phương pháp Số bộ phân lớp mạnh Số đặc trưng Haar - like Cấu trúc LBP Số khuôn mặt phát hiện chính xác Số khuôn mặt phát hiện sai Tỉ lệ phát hiện chính xác Thời gian xử lí 130 ảnh (giây) Thời gian trung bình để xử lí một ảnh (giây) AB20- LBP 20 1925 465 14 91.72% 24.576 0.189 AB25- LBP 25 2913 1,4LBP + 2 1,8 uLBP (phân lớp bởi ANN) 451 3 88.95% 25.510 0.196 Chúng ta có thể nhận thấy rằng tiếp cận của chúng tôi đạt được kết quả tốt hơn hoặc bằng tiếp cận AdaBoost trong 3.3.2. Bộ phát hiện AB20 – LBP và AB25 – LBP đạt kết 29 quả xấp xỉ với AB20 và AB25 nhưng với một số lượng phát hiện sai ít hơn đáng kể. AB20 – LBP đạt tỉ lệ phát hiện chính xác là 91.72%; xấp xỉ với 92.11% của AB20 và cao hơn 89.15% của AB25. Số lượng phát hiện sai của AB20 – LBP chỉ là 14, rất nhỏ so với 202 của AB20 và nhỏ hơn 40 của AB25. Hơn nữa, thời gian để xử lí 130 là 24.576 giây, xấp xỉ với thời gian của bộ phát hiện AdaBoost. Trong trường hợp bộ phát hiện AB25 – LBP, tỉ lệ phát hiện chính xác là 88.95%, tương đương với tỉ lệ của AB25. Thời gian xử của bộ phát hiện AB – LBP cho một ảnh kích thước 276 × 343 khoảng 0.174 giây trên một máy P4 1.8 GHz PC. Bảng 3 trình bày kết quả của bộ phát hiện AB – LBP với bộ phát hiện của H. A. Rowley [7]. Bảng 3. TỈ LỆ PHÁT HIỆN CHÍNH XÁC VỚI SỐ PHÁT HIỆN SAI KHÁC NHAU TRÊN DỮ LIỆU MIT - CMU Số phát hiện sai Bộ phát hiện 3 10 14 31 95 167 AB - LBP 88.95% - 91.72% - - - H. A. Rowley - 83.2% - 86.0% 89.2% 90.1% Rõ ràng, tiếp cận AB – LBP hiệu quả hơn tiếp cận của H. A. Rowley cả về tỉ lệ phát hiện chính xác và số lượng phát hiện sai. Hình 10 chỉ ra một số kết quả của bộ phát hiện AB – LBP trên tập dữ liệu MIT + CMU. 30 31 32 33 Hình 10. Kết quả của bộ phát hiện AB – LBP trên một số ảnh test trên tập dữ liệu MIT + CMU Trong hình 10A, bộ phát hiện AB20 – LBP phát hiện chính xác 12 khuôn mặt tương đương với AB20, và cao hơn của AB25 (11 khuôn mặt) (hình 6A, 6B). Trong hình 10B, AB20 – LBP phát hiện chính xác 6 khuôn mặt với số lượng khuôn mặt phát hiện sai là 0 trong khi số lượng phát hiện sai của AB20 và AB25 lần lượt là 5 và 3 (hình 7C, 7D). Bộ phát hiện AB20 phát hiện chính xác 6 khuôn mặt trong hình 10C và số phát hiện sai là 1 trong khi bộ phát hiện AB25 chỉ phát hiện chính xác 5 khuôn mặt và bị sót một khuôn mặt (hình 10D). Chú ý rằng khuôn mặt bị sót này là một mẫu khó bởi vì nó tối hơn các khuôn mặt khác. Trong khi đó AB20 – LBP phát hiện chính xác 6 khuôn mặt và không có phát hiện sai nào (hình 10E). Tương tự trong hình 10F và 10G, AB25 phát hiện được 2 trong tổng số 3 khuôn mặt trong khi AB20 – LBP phát hiện chính xác 34 3 khuôn mặt.Trong hình 10H và 10I, cả AB25 và AB20 – LBP cùng phát hiện chính xác 3 trong 3 khuôn mặt có trong ảnh. Tuy nhiên, AB25 có 3 phát hiện sai trong khi số phát hiện sai của AB20 – LBP là 0. Một chú ý quan trọng nữa là trong hầu hết các trường hợp, bộ phát hiện AB20 – LBP có thời gian xử lí ít hơn hoặc xấp xỉ bộ phát hiện AB25. Các ví dụ trên tổng quát các khía cạnh chính của bộ phát hiện mặt người được đề xuất trong luận văn: AB – LBP. Các kết quả thực nghiệm đã chỉ ra rằng AB – LBP không chỉ đạt được xấp xỉ độ chính xác và thời gian xử lí so với bộ phát hiện AdaBoost mà còn cực tiểu hóa số phát hiện sai. Bảng 4 so sánh kết quả của bộ phát hiện AB – LBP đề xuất với kết quả của P.Viola và M.Jones trong [1] trên tập dữ liệu CMU – MIT. Bảng 4. TỈ LỆ PHÁT HIỆN CHÍNH XÁC VỚI SỐ PHÁT HIỆN SAI KHÁC NHAU TRÊN DỮ LIỆU MIT - CMU Số phát hiện sai Bộ phát hiện 3 10 14 31 50 65 78 95 167 P.Viola and M.Jones - 81.1% - 89.7% 92.1% 93.1% 93.1% 93.2 % 93.7% AB - LBP 88.95% - 91.72% - - - - - - Tuy nhiên, một vấn cần chú ý là trong [1], P.Viola và M.Jones huấn luyện hệ thống của họ với 4 đặc trưng Haar – like và 38 bộ phân lớp mạnh trong cascade of booted classifier; thời gian huấn luyện bộ phân lớp của họ khoảng vài tuần. Tuy nhiên kết quả chúng tôi thực nghiệm trên thư viện OpenCv lại không đạt được như kết quả của Viola báo cáo trong [1]. (trình bày trong phần kết quả của phương pháp AdaBoost mục 3.3.2) Chúng tôi cũng đã huấn luyện lại thư viện OpenCv nhưng kết quả cũng không như mong đợi. Do đó, kết quả của bộ phát hiện AdaBoost được thống kê dựa vào kết quả chúng tôi thực nghiệm được dựa vào thư viện OpenCv. Chúng tôi cũng lấy kết quả từ bộ phát hiện AdaBoost của OpenCv để so sánh với kết quả đạt được của chúng tôi. 35 Trong [2], A. Hadid và các đồng nghiệp đã thực hiện việc kiểm tra phương pháp rút đặc trưng LBP của họ trên một phần tập dữ liệu CMU + MIT (227 khuôn mặt trong 80 ảnh), kết quả báo cáo là LBP đạt hiệu suất phát hiện chính xác là 97.4%, số phát hiện sai là 0. Tuy nhiên, trong [2], các tác giả không trình bày rõ là 80 kiểm tra là các ảnh nào trong 130 ảnh của bộ dữ liệu CMU – MIT, nên luận văn không có cơ sở để so sánh. 4.3 Kết quả thực nghiệm của phương pháp đề xuất trên tập dữ liệu CalTech Để kiếm chứng hiệu suất của bộ phát hiện AB – LBP, chúng tôi thực hiện thêm kiểm tra trên tập dữ liệu CalTech của Markus Weber, học viện kỹ thuật California [25]. Tập ảnh gồm 447 ảnh (không xét các ảnh vẽ, họa). Đây là tập dữ liệu chụp các khuôn mặt thẳng, chụp dưới nền phức tạp và đa dạng gồm cả trong nhà và ngoài trời. Điều kiện chiếu sáng khá đa dạng gồm cả các ảnh chụp cùng chiều chiếu sáng và ngược sáng. Tập ảnh còn có các ảnh chụp phức tạp do một phần của khuôn mặt bị che khuất. Tập ảnh dùng để kiểm tra là 447 ảnh. Kích thước của mỗi ảnh trong tập CalTech là 896 × 592. Hình 11 minh họa một số ảnh trong tập dữ liệu CalTech. 36 Hình 11. Một số ảnh trong tập dữ liệu CalTech Bảng 5 thống kê kết quả bộ phát hiện AdaBoost trên tập dữ liệu CalTech Bảng 5. HIỆU SUẤT CỦA BỘ PHÁT HIỆN ADABOOST TRÊN TẬP DỮ LIỆU CALTECH Phương pháp Số phân lớp mạnh Tổng số đặc trưng Haar – like đã sử dụng Số khuôn mặt phát hiện chính xác Số khuôn mặt phát hiện sai Tỉ lệ phát hiện chính xác (%) Tổng thời gian xử lí 447 ảnh (giây) Thời gian trung bình để xủ lí một ảnh (giây) AB25 25 2913 444 152 99.33 123.442 0.274 Bảng 6 thống kê kết quả bộ phát hiện AB – LBP trên tập dữ liệu CalTech 37 Bảng 6. HIỆU SUẤT CỦA BỘ PHÁT HIỆN AB - LBP TRÊN TẬP DỮ LIỆU CALTECH Cấu trúc AdaBoost Phương pháp Số bộ phân lớp mạnh Số đặc trưng Haar - like Cấu trúc LBP Số khuôn mặt phát hiện chính xác Số khuôn mặt phát hiện sai Tỉ lệ phát hiện chính xác(%) Thời gian xử lí 447 ảnh (giây) Thời gian trung bình để xử lí một ảnh (giây) AB25- LBP 25 2913 1,4LBP + 2 1,8 uLBP (phân lớp bởi ANN) 443 9 99.11 126.056 0.280 Hình 12 so sánh một số kết quả tiêu biểu trên tập dữ liệu CalTech của bộ phát hiện AdaBoost và AB – LBP. Trên tập dữ liệu CalTech, kết quả phát hiện khuôn mặt chính xác của phương pháp AB25 và AB20 là như nhau vì các ảnh trong tập dữ liệu tuy có một số ảnh phức tạp nhưng chỉ chứa một khuôn mặt trong mỗi ảnh. Có 3 khuôn mặt trong 3 ảnh không được phát hiện bởi AB25 lẫn AB20. Vì vậy trong thực nghiệm, chúng tôi chỉ trình bày kết quả của phương pháp AB25 cũng như kết quả của phương pháp AB25LBP. Từ kết quả thực nghiệm ta có thấy, phương pháp AB25LBP phát hiện ít hơn AB25 một khuôn mặt. Nhưng thay vào đó số phát hiện sai của AB25LBP chỉ là 9, rất nhỏ so với 152 phát hiện sai của AB25. Một điều quan trọng nữa là thời gian xử lí của AB25LBP và AB25 xấp xỉ nhau. 38 Hình 12. Một số kết quả phát hiện khuôn mặt của AdaBoost và AB – LBP trên tập dữ liệu CalTech

Các file đính kèm theo tài liệu này:

7.pdf
10_3.pdf
11.pdf
1_2.pdf
2_2.pdf
3.pdf
4.pdf
5_2.pdf
6_4.pdf
8.pdf
9.pdf