Luận văn Phân đoạn các đối tượng chuyển động trong video dựa trên mạng bayes

PHÂN ĐOẠN CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO DỰA TRÊN MẠNG BAYES DƯƠNG NGUYỄN THẠCH THẢO Trang nhan đề Lời cảm ơn Các thuật ngữ và từ viết tắt Mục lục Danh sách hình và danh sách bảng Chương_1: Mở đầu Chương_2: Hiện trạng nghiên cứu Chương_3: Mô hình mạng Bayes cho bài toán phân đoạn phân đoạn video Chương_4: Thực nghiệm và đánh giá Chương_5: Kết luận và phương hướng phát triển Tài liệu tham khảo Phụ lục MỤC LỤC Lời cảm ơn -------------------------------------------------------------------------------------- 1 CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT --------------------------------------------------- 2 MỤC LỤC -------------------------------------------------------------------------------------- 3 DANH SÁCH HÌNH -------------------------------------------------------------------------- 5 DANH SÁCH BẢNG ------------------------------------------------------------------------- 7 Chương 1: Mở đầu ----------------------------------------------------------------------------- 8 1.1. Đặt vấn đề --------------------------------------------------------------------------- 8 1.2. Cấu trúc luận văn ------------------------------------------------------------------- 8 Chương 2: Hiện trạng nghiên cứu --------------------------------------------------------- 10 2.1 Bài toán phân đoạn các đối tượng trong video ------------------------------- 10 2.2 Phương pháp mô hình nền ------------------------------------------------------- 11 2.3 Phương pháp dựa trên vector chuyển động ----------------------------------- 12 2.4 Phương pháp kết hợp đặc trưng không gian và thời gian ------------------- 15 Chương 3: Mô hình mạng Bayes cho bài toán phân đoạn video ---------------------- 16 3.1 Giới thiệu -------------------------------------------------------------------------- 16 3.2 Phương pháp ---------------------------------------------------------------------- 17 3.2.1 Phát biểu bài toán ----------------------------------------------------------------- 17 3.2.2 Mô hình ---------------------------------------------------------------------------- 18 3.2.3 Sự ràng buộc không gian và thời gian ----------------------------------------- 20 3.2.4 Chú giải mô hình mạng Bayes -------------------------------------------------- 24 3.3 Ước lượng MAP ------------------------------------------------------------------ 26 3.3.1 Ước lượng lặp --------------------------------------------------------------------- 26 3.3.2 Tối ưu cục bộ ---------------------------------------------------------------------- 28 3.3.3 Ước lượng không lặp ------------------------------------------------------------- 30 3.3.4 Thuật giải ước lượng MAP ------------------------------------------------------ 31 3.3.5 Khởi tạo và các tham số --------------------------------------------------------- 33 Chương 4: Thực nghiệm và đánh giá ----------------------------------------------------- 34 4 Chương 5: Kết luận và hướng phát triển ------------------------------------------------- 51 5.1 Kết luận -------------------------------------------------------------------------------- 51 5.2 Hướng phát triển ---------------------------------------------------------------------- 52 Tài liệu tham khảo --------------------------------------------------------------------------- 53 PHỤ LỤC ------------------------------------------------------------------------------------- 61 A. Mạng Bayes ---------------------------------------------------------------------------- 61 B. Trường Markov ngẫu nhiên và phân phối Gibbs ---------------------------------- 62 B.1. Các khái niệm tổng quát --------------------------------------------------------- 62 B.2. Áp dụng cho bài toán xử lí trên ảnh và video -------------------------------- 63

pdf17 trang | Chia sẻ: maiphuongtl | Lượt xem: 1905 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Luận văn Phân đoạn các đối tượng chuyển động trong video dựa trên mạng bayes, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
34 Chương 4: Thực nghiệm và đánh giá Kết quả phân đoạn chuỗi “table tennis” trong hình 4.1, 4.2, 4.3 (a) (b) (c) (d) (e) (f) (g) (h) (i) (j) (k) Hình 4.1: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp (a-c) 3 khung hình liên tiếp có số thứ tự 41,42,43 (d) Vector chuyển động (e) Kết quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong 35 trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng (h-j)chi tiết kết quả phân đoạn các đối tượng (a) (b) (c) (d) (e) (f) (g) (h) Hình 4.2: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp cải tiến với 3 khung hình 4.1(a-c). (a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ (d) kết quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng (a) (b) (c) 36 (d) (e) (f) (g) (h) Hình 4.3: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp trên 3 khung hình 4.1(a-c)(a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ (d) kết quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng (a) (b) (c) (d) (e) (f) 37 (g) (h) Hình 4.4: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp với 3 khung hình 4.1(a-c).(a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ (d) kết quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng Quá trình phân đoạn ở các hình 4.1, 4.2, 4.3 đều dùng bộ hệ số (λ 1 , λ 2 , λ 3 ,λ 4 ,α)=(1,12,4,16,0.625) tương ứng với quy trình phân đoạn theo ước lượng lặp, ước lượng lặp cải tiến theo công thức 3.26.2 và 3.26.3, ước lượng không lặp. Kết quả phân đoạn ở hình 4.4 đạt được khi dùng bộ hệ số (λ 1 , λ 2 , λ 3 ,λ 4 ,α)=(1,12,4,32,0.3125). Trường phân đoạn cường độ và vector chuyển động ở các hình 4.1, 4.2, 4.3, 4.4 đều cho kết quả tương đối giống nhau. Tuy nhiên, kết quả phân đoạn cuối cùng ở cả 4 trường hợp khác nhau. Kết quả phân đoạn ở hình 4.1 có nhiều nhiễu trong khi kết quả phân đoạn ở hình 4.2 rất tốt, không có nhiễu và đường biên rất chính xác. Tương tự như hình 4.2, hình 4.3 có kết quả phân đoạn chính xác tại biên trong khi hình 4.4, kết quả phân đoạn không được chính xác tại biên nơi vùng cánh tay phải. Sau đây là thử nghiệm phân đoạn theo phương pháp ước lượng không lặp khi các tham số trong bộ tham số (λ 1 , λ 2 , λ 3 ,λ 4 ,α)=(1,12,4,32,0.3125) thay đổi để thấy sự tác động lên ước lượng MAP. Do các sự thay đổi của biến số đều có thể quy về λ 1 =1, nên sự biến đổi của λ 1 không cần được xét đến. Trong chuỗi “table tennis” gồm 3 khung hình ở hình 4.1a,b,c vùng cổ tay trái và cổ tay phải có chuyển động, vùng cánh tay trái và thân người đứng yên. 38 (a) (b) (c) (d) (e) (f) Hình 4.5: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham số λ 2 = 6,12,18. Tham số λ 2 biểu thị sự đóng góp của tức là ảnh hưởng của trường phân đoạn cường độ lên toàn bộ ước lượng MAP biểu thức 3.14. Hình 4.5d với giá trị tham số λ 2 = 6, đường biên nơi cánh tay phải không được chính xác. Hình 4.5f với giá trị tham số λ 2 = 12, đường biên nơi cánh tay phải chính xác nhưng biên tại cây vợt đã bị phạm do ước lượng MAP chịu ảnh hưởng của trường phân đoạn cường độ mạnh hơn trường vector chuyển động (a) (b) (c) 39 (d) (e) (f) Hình 4.6: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham số λ 3 = 1,4,7 Tham số λ 3 biểu thị sự đóng góp của tức là ảnh hưởng của trường vector chuyển động lên toàn bộ ước lượng MAP biểu thức 3.14. Hình 4.6d với giá trị tham số λ 3 = 1, đường biên đầu cây vợt và cánh tay trái bị phạm vào trong do tác động của trường vector chuyển động yếu hơn trường phân đoạn cường độ. Hình 4.6f với giá trị tham số λ 3 = 7, đường biên nơi đầu cây vợt và cánh tay trái đã khôi phục nhờ vào tác động của trường vector chuyển động tăng lên. Tuy nhiên biên dưới bàn tay phải bị phạm do tác động của trường phân đoạn cường độ giảm. (a) (b) (c) Hình 4.7: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham số λ 4 = 6,16,26 Tham số λ 4 biểu thị sự đóng góp của tức là ràng buộc không gian và lực hợp nhất vùng lên ước lượng MAP biểu thức 3.14. Hình 4.7a với giá trị tham số λ 4 = 6, đường biên chính xác tuy nhiên xuất hiện nhiều nhiễu. Điều này do lực hợp nhất vùng yếu nên các nhiễu này không gia nhập vào các vùng thích hợp. Hình 4.7c với 40 giá trị tham số λ 3 = 26, nhiễu giảm nhưng đường biên nơi đầu vợt không chính xác do tác động của lực hợp nhất và ràng buộc không gian tăng lên. (a) (b) (c) Hình 4.8: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham số = 0.1,0.625,0.9375 Tham số biểu thị tác động tại biên của đối tượng dựa trên trường phân đoạn cường độ. Tham số thúc đẩy sự chính xác tại biên của đối tượng cho phù hợp với trường phân đoạn cường độ. Hình 4.8a với giá trị tham số = 0.1, đường biên tại cánh tay phải không chính xác. Hình 4.8c với giá trị tham số = 0.9375, đường biên tại cánh tay phải chính xác nhưng biên tại cây vợt không chính xác. Phương pháp ước lượng không lặp được thử nghiệm trên các đoạn video chuẩn thường được dùng để đánh giá các phương pháp phân đoạn và theo vết đối tượng chuyển động.Vì phương pháp chủ yếu có hiệu quả khi các đối tượng chuyển động và camera chuyển động nhanh nên thuật toán tập trung thực nghiệm trên các đoạn video có nền chuyển động, các đối tượng chuyển động trung bình và có nhiều chi tiết thông tin không gian. Bảng (4.1) là danh sách các đoạn video dùng để thử nghiệm và mức độ đánh giá độ khó khi xử lí của các đoạn video. Bảng 4.1: Danh sách các chuỗi video được thử nghiệm. Tên đoạn video husky football bus paris Số khung hình 250 260 149 1065 Kích thước 352x288 352x288 352x288 352x288 41 Số lượng đối tượng chuyển động 7 15 1 3 Hiện tượng che khuất 1 15 2 1 Số lượng đối tượng xuất hiện 3 10 1 0 Camera chuyển động Nhanh Nhanh Chậm Tịnh tiến Không Mức độ chuyển động của đối tượng Trung bình Nhanh Phức tạp Chậm Tịnh tiến Chậm Chuỗi “garden”, “bus” và “paris” có ít đối tượng chuyển động. Chuỗi “husky” có số lượng đối tượng chuyển động trung bình. Chuỗi “football” có nhiều đối tượng chuyển động nhất. Hơn nữa, do có quá nhiều đối tượng và các đối tượng có chuyển động phức tạp nên chuỗi “football” xảy ra hiện tượng che khuất thường xuyên. Chuỗi “paris” có các đối tượng chuyển động chậm và không có đối tượng mới xuất hiện nên ít có hiện tượng che khuất. Trường hợp đặc biệt là chuỗi “bus”. Đối tượng và camera đều chuyển động tính tiến trong chuỗi “bus” nên có vẻ như đối tượng đứng yên một chỗ trong khung hình, còn nền lại chuyển động. Chuỗi “husky” và “football”, camera chuyển động nhanh và có 1 pha camera chuyển động đột ngột bên cạnh đó các đối tượng lại chuyển động nhanh và phức tạp. Thực nghiệm cho thấy, chuỗi “husky” và “bus” cho kết quả phân đoạn tốt. Trong khi chuỗi “football” cho kết quả không tốt. Chuỗi “paris” chỉ phân đoạn được đối tượng chuyển động nhanh, còn 2 đối tượng chuyển động chậm thì không phát hiện được. Sau đây lần lượt là kết quả phân đoạn và phân tích, đánh giá với chuỗi “husky”, “football”, “bus” và “paris”. 42 (a) (b) (c) (d) (e) (f) (g) (h) (i) (j) Hình 4.9: Kết quả phân đoạn của chuỗi “husky”. 43 (a-c) 3 khung hình liên tiếp có số thứ tự 54,55,56 (d) Vector chuyển động (e) Kết quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng.(h-j)các đối tượng Trường vector chuyển động trong hình (4.9e) cho thấy những đối tượng có chuyển động tương đối được phân đoạn. Những đối tượng chuyển động nhẹ như đối tượng đứa bé đã bị đánh đồng với nền do lực tác động của trường vector chuyển động chưa đủ mạnh. Trường phân đoạn với 4 mức cường độ thể hiện trong Hình (4.9f), trong đó các điểm ảnh có cùng giá trị cường độ thuộc về một vùng cường độ. Hình (4.9g) biểu diễn khoảng cách của mỗi điểm ảnh đến điểm biên gần nhất trong trường phân đoạn cường độ. Giá trị mức xám càng cao thể hiện điểm ảnh càng xa biên. Nghĩa là điểm ảnh càng sáng thì càng xa biên. (a) (b) (c) (d) (e) (f) 44 (g) (h) (i) (j) (k) Hình 4.10: Kết quả phân đoạn của chuỗi “bus”. (a-c) 3 khung hình liên tiếp có số thứ tự 30,31,32 (d) Vector chuyển động (e) Kết quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng (h-k) các đối tượng được phân đoạn. Với chuỗi “bus”, thông tin biên bị mất trong hình (4.10e) (thông tin biên có thể bị mất khi phân đoạn quá mức, trong trường hợp này là biên giữa đầu xe và nền) được phục hồi nhờ vào thông tin từ trường vector chuyển động. Tuy nhiên, biên được phát hiện chính xác hơn khi cả đặc trưng không gian và thời gian phù hợp với nhau. (ví dụ hình người và chó trong hình 4.9i-j và đầu xe bus 4-10i). Thuật toán phân đoạn rất tốt ngay cả với những vùng phức tạp rộng lớn (ví dụ nền trong hình 4.9h và nền hình 4.10h), là nơi chuyển động đồng nhất theo camera và có rất nhiều chi tiết. So sánh với kết quả phân đoạn trong hình 4.9g-j và 4.10-j, có thể thấy là phương 45 pháp này rất tốt với kết quả đạt được đồng nhất về thông tin không gian và thời gian, mà không cần quá trình phân đoạn cường độ tốt. (a) (b) (c) (d) Hình 4.11: Kết quả phân đoạn của chuỗi “husky” với khung hình 49, 50 và 264, 267. Hình 4.11(a) và (b) cho thấy sự tách vùng do có sự khác không đồng nhất về thông tin không gian. Hình 4.11(c) và (d) các vùng nhỏ đồng nhất về chuyển động và thông tin không gian được hợp nhất thành một vùng đơn. 46 (a) (b) (c) (d) Hình 4.12: Kết quả phân đoạn của chuỗi “football” với khung hình 1, 2 và 3, 4. Chuỗi kết quả phân đoạn video “football” từ khung hình 1 đến 4 cho thấy biên của đối tượng vẫn được duy trì tốt dù các đối tượng chuyển động nhanh và che khuất lẫn nhau. 47 (a) (b) (c) (d) (e) (f) (g) (h) (i) Hình 4.13: Kết quả phân đoạn của chuỗi “football” với khung hình từ 23 đến 31 tương ứng từ hình 4.13(a) đến hình 4.13(k). (a) (b) (c) 48 (d) (e) (f) (g) (h) (i) Hình 4.14: Kết quả phân đoạn của chuỗi “husky” với khung hình từ 166 đến 174 tương ứng từ hình 4.13(a) đến hình 4.13(h). Hình 4.13 thể hiện kết quả phân đoạn cả của các khung hình từ 23 đến 32 là giai đoạn camera chuyển động đột ngột. Kết quả phân đoạn từ hình 4.13c cho thấy biên của các đối tượng đã không được duy trì tốt và kết quả phân đoạn đã bị rối loạn từ đó. Khi camera bắt đầu chuyển động đột ngột và các đối tượng chuyển động phức tạp hơn thì đường biên bị sai lệch do mô hình chuyển động trong thuật toán là mô hình chuyển động tịnh tiến đơn giản. Khi cả camera và đối tượng cùng chuyển động thì trường vector chuyển động thu được dựa trên 3 khung hình liên tiếp không thể hiện đúng chuyển động của đối tượng trên thực tế. Tương tự như vậy đối với hình 4.14. Chuỗi “husky” kể từ khung hình 4.14(c), camera bắt đầu chuyển động xoay đột ngột và zoom về đối tượng. Do đó, biên của đối tượng đã không được duy trì và kết quả phân đoạn bị phân mảnh. 49 (a) (b) (c) (d) (e) (f) (g) Hình 4.15: Kết quả phân đoạn của chuỗi “paris”. (a-c) 3 khung hình liên tiếp có số thứ tự 54,55,56 (d) Vector chuyển động (e) Kết quả phân đoạn cường độ (f)Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trườngphân đoạn cường độ (g) Kết quả phân đoạn đối tượng. Nhìn vào trường vector chuyển động hình 4.15d ta thấy chỉ có bàn tay phải của nhân vật nữ có vector chuyển động mạnh mới được phân đoạn, trong khi thân người 50 của nhân vật nam chuyển động yếu đã không có tác động lên kết quả phân đoạn. Điều này giống với kết quả đã phân tích ở hình 4.9. Tóm lại, phần kết quả thực nghiệm cho thấy một số đánh giá sau đây: - Ràng buộc phân đoạn cường độ nhằm phát sinh biên chính xác trong vùng đồng nhất về không gian – thời gian. Vì đôi khi một vùng có cường độ tương đương nhau có thể thuộc về một đối tượng khác, sự ràng buộc phân đoạn cường độ sẽ trở nên yếu thế khi thông tin chuyển động trong một vùng phân đoạn cường độ không đồng nhất. Đó là lí do vì sao vùng biên bị mất có thể phục hồi bởi thông tin chuyển động. - Vì hướng tiếp cận này không tạo được các biên chính xác trên trường phân đoạn video khi camera quay và đối tượng chuyển động phức tạp. Tuy nhiên, phương pháp này có ưu thế trên các ứng dụng cần xác định các vùng có các chuyển động khác nhau. Khi các đối tượng dừng lại hoặc có chuyển động quá chậm thì trường vector chuyển động có lực tác động không đủ nên có thể mất biên của đối tượng. Trong trường hợp này có thể gia tăng tham số , tuy nhiên cũng cần phải xem xét đến các hệ số để cân bằng sự tác động của các giá trị đến ước lượng MAP trong biểu thức 3.14.

Các file đính kèm theo tài liệu này:

  • pdf9.pdf
  • pdf10_3.pdf
  • pdf11.pdf
  • pdf12.pdf
  • pdf1_2.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf4.pdf
  • pdf5_2.pdf
  • pdf6_4.pdf
  • pdf7.pdf
  • pdf8.pdf
Tài liệu liên quan