Luận văn Phân đoạn các đối tượng chuyển động trong video dựa trên mạng bayes
PHÂN ĐOẠN CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO DỰA TRÊN MẠNG BAYES
DƯƠNG NGUYỄN THẠCH THẢO
Trang nhan đề
Lời cảm ơn
Các thuật ngữ và từ viết tắt
Mục lục
Danh sách hình và danh sách bảng
Chương_1: Mở đầu
Chương_2: Hiện trạng nghiên cứu
Chương_3: Mô hình mạng Bayes cho bài toán phân đoạn phân đoạn video
Chương_4: Thực nghiệm và đánh giá
Chương_5: Kết luận và phương hướng phát triển
Tài liệu tham khảo
Phụ lục
MỤC LỤC
Lời cảm ơn -------------------------------------------------------------------------------------- 1
CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT --------------------------------------------------- 2
MỤC LỤC -------------------------------------------------------------------------------------- 3
DANH SÁCH HÌNH -------------------------------------------------------------------------- 5
DANH SÁCH BẢNG ------------------------------------------------------------------------- 7
Chương 1: Mở đầu ----------------------------------------------------------------------------- 8
1.1. Đặt vấn đề --------------------------------------------------------------------------- 8
1.2. Cấu trúc luận văn ------------------------------------------------------------------- 8
Chương 2: Hiện trạng nghiên cứu --------------------------------------------------------- 10
2.1 Bài toán phân đoạn các đối tượng trong video ------------------------------- 10
2.2 Phương pháp mô hình nền ------------------------------------------------------- 11
2.3 Phương pháp dựa trên vector chuyển động ----------------------------------- 12
2.4 Phương pháp kết hợp đặc trưng không gian và thời gian ------------------- 15
Chương 3: Mô hình mạng Bayes cho bài toán phân đoạn video ---------------------- 16
3.1 Giới thiệu -------------------------------------------------------------------------- 16
3.2 Phương pháp ---------------------------------------------------------------------- 17
3.2.1 Phát biểu bài toán ----------------------------------------------------------------- 17
3.2.2 Mô hình ---------------------------------------------------------------------------- 18
3.2.3 Sự ràng buộc không gian và thời gian ----------------------------------------- 20
3.2.4 Chú giải mô hình mạng Bayes -------------------------------------------------- 24
3.3 Ước lượng MAP ------------------------------------------------------------------ 26
3.3.1 Ước lượng lặp --------------------------------------------------------------------- 26
3.3.2 Tối ưu cục bộ ---------------------------------------------------------------------- 28
3.3.3 Ước lượng không lặp ------------------------------------------------------------- 30
3.3.4 Thuật giải ước lượng MAP ------------------------------------------------------ 31
3.3.5 Khởi tạo và các tham số --------------------------------------------------------- 33
Chương 4: Thực nghiệm và đánh giá ----------------------------------------------------- 34
4
Chương 5: Kết luận và hướng phát triển ------------------------------------------------- 51
5.1 Kết luận -------------------------------------------------------------------------------- 51
5.2 Hướng phát triển ---------------------------------------------------------------------- 52
Tài liệu tham khảo --------------------------------------------------------------------------- 53
PHỤ LỤC ------------------------------------------------------------------------------------- 61
A. Mạng Bayes ---------------------------------------------------------------------------- 61
B. Trường Markov ngẫu nhiên và phân phối Gibbs ---------------------------------- 62
B.1. Các khái niệm tổng quát --------------------------------------------------------- 62
B.2. Áp dụng cho bài toán xử lí trên ảnh và video -------------------------------- 63
17 trang |
Chia sẻ: maiphuongtl | Lượt xem: 1905 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Luận văn Phân đoạn các đối tượng chuyển động trong video dựa trên mạng bayes, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
34
Chương 4: Thực nghiệm và đánh giá
Kết quả phân đoạn chuỗi “table tennis” trong hình 4.1, 4.2, 4.3
(a) (b) (c)
(d) (e) (f)
(g) (h) (i)
(j) (k)
Hình 4.1: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp
(a-c) 3 khung hình liên tiếp có số thứ tự 41,42,43 (d) Vector chuyển động (e) Kết
quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong
35
trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng (h-j)chi tiết kết quả
phân đoạn các đối tượng
(a) (b) (c)
(d) (e) (f)
(g) (h)
Hình 4.2: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp cải tiến với 3
khung hình 4.1(a-c). (a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c)
Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ
(d) kết quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng
(a) (b) (c)
36
(d) (e) (f)
(g) (h)
Hình 4.3: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp trên 3
khung hình 4.1(a-c)(a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c)
Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ
(d) kết quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng
(a) (b) (c)
(d) (e) (f)
37
(g) (h)
Hình 4.4: Kết quả phân đoạn chuỗi “table tennis” với ước lượng lặp với 3 khung
hình 4.1(a-c).(a) Vector chuyển động (b) Kết quả phân đoạn cường độ (c) Ảnh thể
hiện khoảng cách một điểm ảnh đến biên trong trường phân đoạn cường độ (d) kết
quả phân đoạn (e-h)chi tiết kết quả phân đoạn các đối tượng
Quá trình phân đoạn ở các hình 4.1, 4.2, 4.3 đều dùng bộ hệ số (λ
1
, λ
2
,
λ
3
,λ
4
,α)=(1,12,4,16,0.625) tương ứng với quy trình phân đoạn theo ước lượng lặp,
ước lượng lặp cải tiến theo công thức 3.26.2 và 3.26.3, ước lượng không lặp. Kết
quả phân đoạn ở hình 4.4 đạt được khi dùng bộ hệ số (λ
1
, λ
2
,
λ
3
,λ
4
,α)=(1,12,4,32,0.3125). Trường phân đoạn cường độ và vector chuyển động ở
các hình 4.1, 4.2, 4.3, 4.4 đều cho kết quả tương đối giống nhau. Tuy nhiên, kết quả
phân đoạn cuối cùng ở cả 4 trường hợp khác nhau. Kết quả phân đoạn ở hình 4.1 có
nhiều nhiễu trong khi kết quả phân đoạn ở hình 4.2 rất tốt, không có nhiễu và đường
biên rất chính xác. Tương tự như hình 4.2, hình 4.3 có kết quả phân đoạn chính xác
tại biên trong khi hình 4.4, kết quả phân đoạn không được chính xác tại biên nơi
vùng cánh tay phải.
Sau đây là thử nghiệm phân đoạn theo phương pháp ước lượng không lặp khi các
tham số trong bộ tham số (λ
1
, λ
2
, λ
3
,λ
4
,α)=(1,12,4,32,0.3125) thay đổi để thấy sự tác
động lên ước lượng MAP. Do các sự thay đổi của biến số đều có thể quy về λ
1
=1,
nên sự biến đổi của λ
1
không cần được xét đến. Trong chuỗi “table tennis” gồm 3
khung hình ở hình 4.1a,b,c vùng cổ tay trái và cổ tay phải có chuyển động, vùng
cánh tay trái và thân người đứng yên.
38
(a) (b) (c)
(d) (e) (f)
Hình 4.5: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham
số λ
2
= 6,12,18.
Tham số λ
2
biểu thị sự đóng góp của tức là ảnh hưởng của trường phân đoạn
cường độ lên toàn bộ ước lượng MAP biểu thức 3.14. Hình 4.5d với giá trị tham số
λ
2
= 6, đường biên nơi cánh tay phải không được chính xác. Hình 4.5f với giá trị
tham số λ
2
= 12, đường biên nơi cánh tay phải chính xác nhưng biên tại cây vợt đã
bị phạm do ước lượng MAP chịu ảnh hưởng của trường phân đoạn cường độ mạnh
hơn trường vector chuyển động
(a) (b) (c)
39
(d) (e) (f)
Hình 4.6: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham
số λ
3
= 1,4,7
Tham số λ
3
biểu thị sự đóng góp của tức là ảnh hưởng của trường vector
chuyển động lên toàn bộ ước lượng MAP biểu thức 3.14. Hình 4.6d với giá trị tham
số λ
3
= 1, đường biên đầu cây vợt và cánh tay trái bị phạm vào trong do tác động
của trường vector chuyển động yếu hơn trường phân đoạn cường độ. Hình 4.6f với
giá trị tham số λ
3
= 7, đường biên nơi đầu cây vợt và cánh tay trái đã khôi phục nhờ
vào tác động của trường vector chuyển động tăng lên. Tuy nhiên biên dưới bàn tay
phải bị phạm do tác động của trường phân đoạn cường độ giảm.
(a) (b) (c)
Hình 4.7: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham
số λ
4
= 6,16,26
Tham số λ
4
biểu thị sự đóng góp của tức là ràng buộc không gian và lực hợp
nhất vùng lên ước lượng MAP biểu thức 3.14. Hình 4.7a với giá trị tham số λ
4
= 6,
đường biên chính xác tuy nhiên xuất hiện nhiều nhiễu. Điều này do lực hợp nhất
vùng yếu nên các nhiễu này không gia nhập vào các vùng thích hợp. Hình 4.7c với
40
giá trị tham số λ
3
= 26, nhiễu giảm nhưng đường biên nơi đầu vợt không chính xác
do tác động của lực hợp nhất và ràng buộc không gian tăng lên.
(a) (b) (c)
Hình 4.8: Kết quả phân đoạn chuỗi “table tennis” với ước lượng không lặp với tham
số
= 0.1,0.625,0.9375
Tham số biểu thị tác động tại biên của đối tượng dựa trên trường phân đoạn
cường độ. Tham số thúc đẩy sự chính xác tại biên của đối tượng cho phù hợp với
trường phân đoạn cường độ. Hình 4.8a với giá trị tham số = 0.1, đường biên tại
cánh tay phải không chính xác. Hình 4.8c với giá trị tham số
= 0.9375, đường biên
tại cánh tay phải chính xác nhưng biên tại cây vợt không chính xác.
Phương pháp ước lượng không lặp được thử nghiệm trên các đoạn video chuẩn
thường được dùng để đánh giá các phương pháp phân đoạn và theo vết đối tượng
chuyển động.Vì phương pháp chủ yếu có hiệu quả khi các đối tượng chuyển động
và camera chuyển động nhanh nên thuật toán tập trung thực nghiệm trên các đoạn
video có nền chuyển động, các đối tượng chuyển động trung bình và có nhiều chi
tiết thông tin không gian. Bảng (4.1) là danh sách các đoạn video dùng để thử
nghiệm và mức độ đánh giá độ khó khi xử lí của các đoạn video.
Bảng 4.1: Danh sách các chuỗi video được thử nghiệm.
Tên đoạn video husky football bus paris
Số khung hình 250 260 149 1065
Kích thước 352x288 352x288 352x288 352x288
41
Số lượng đối tượng chuyển
động
7 15 1 3
Hiện tượng che khuất 1 15 2 1
Số lượng đối tượng xuất
hiện
3 10 1 0
Camera chuyển động Nhanh Nhanh Chậm
Tịnh tiến
Không
Mức độ chuyển động của đối
tượng
Trung
bình
Nhanh
Phức tạp
Chậm
Tịnh tiến
Chậm
Chuỗi “garden”, “bus” và “paris” có ít đối tượng chuyển động. Chuỗi “husky” có số
lượng đối tượng chuyển động trung bình. Chuỗi “football” có nhiều đối tượng
chuyển động nhất. Hơn nữa, do có quá nhiều đối tượng và các đối tượng có chuyển
động phức tạp nên chuỗi “football” xảy ra hiện tượng che khuất thường xuyên.
Chuỗi “paris” có các đối tượng chuyển động chậm và không có đối tượng mới xuất
hiện nên ít có hiện tượng che khuất. Trường hợp đặc biệt là chuỗi “bus”. Đối tượng
và camera đều chuyển động tính tiến trong chuỗi “bus” nên có vẻ như đối tượng
đứng yên một chỗ trong khung hình, còn nền lại chuyển động. Chuỗi “husky” và
“football”, camera chuyển động nhanh và có 1 pha camera chuyển động đột ngột
bên cạnh đó các đối tượng lại chuyển động nhanh và phức tạp. Thực nghiệm cho
thấy, chuỗi “husky” và “bus” cho kết quả phân đoạn tốt. Trong khi chuỗi “football”
cho kết quả không tốt. Chuỗi “paris” chỉ phân đoạn được đối tượng chuyển động
nhanh, còn 2 đối tượng chuyển động chậm thì không phát hiện được.
Sau đây lần lượt là kết quả phân đoạn và phân tích, đánh giá với chuỗi “husky”,
“football”, “bus” và “paris”.
42
(a) (b) (c)
(d) (e) (f)
(g) (h) (i)
(j)
Hình 4.9: Kết quả phân đoạn của chuỗi “husky”.
43
(a-c) 3 khung hình liên tiếp có số thứ tự 54,55,56 (d) Vector chuyển động (e) Kết
quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong
trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng.(h-j)các đối tượng
Trường vector chuyển động trong hình (4.9e) cho thấy những đối tượng có chuyển
động tương đối được phân đoạn. Những đối tượng chuyển động nhẹ như đối tượng
đứa bé đã bị đánh đồng với nền do lực tác động của trường vector chuyển động
chưa đủ mạnh. Trường phân đoạn với 4 mức cường độ thể hiện trong Hình (4.9f),
trong đó các điểm ảnh có cùng giá trị cường độ thuộc về một vùng cường độ. Hình
(4.9g) biểu diễn khoảng cách của mỗi điểm ảnh đến điểm biên gần nhất trong
trường phân đoạn cường độ. Giá trị mức xám càng cao thể hiện điểm ảnh càng xa
biên. Nghĩa là điểm ảnh càng sáng thì càng xa biên.
(a) (b) (c)
(d) (e) (f)
44
(g) (h) (i)
(j) (k)
Hình 4.10: Kết quả phân đoạn của chuỗi “bus”.
(a-c) 3 khung hình liên tiếp có số thứ tự 30,31,32 (d) Vector chuyển động (e) Kết
quả phân đoạn cường độ (f) Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong
trường phân đoạn cường độ (g) kết quả phân đoạn đối tượng (h-k) các đối tượng
được phân đoạn.
Với chuỗi “bus”, thông tin biên bị mất trong hình (4.10e) (thông tin biên có thể bị
mất khi phân đoạn quá mức, trong trường hợp này là biên giữa đầu xe và nền) được
phục hồi nhờ vào thông tin từ trường vector chuyển động. Tuy nhiên, biên được
phát hiện chính xác hơn khi cả đặc trưng không gian và thời gian phù hợp với nhau.
(ví dụ hình người và chó trong hình 4.9i-j và đầu xe bus 4-10i). Thuật toán phân
đoạn rất tốt ngay cả với những vùng phức tạp rộng lớn (ví dụ nền trong hình 4.9h và
nền hình 4.10h), là nơi chuyển động đồng nhất theo camera và có rất nhiều chi tiết.
So sánh với kết quả phân đoạn trong hình 4.9g-j và 4.10-j, có thể thấy là phương
45
pháp này rất tốt với kết quả đạt được đồng nhất về thông tin không gian và thời
gian, mà không cần quá trình phân đoạn cường độ tốt.
(a) (b)
(c) (d)
Hình 4.11: Kết quả phân đoạn của chuỗi “husky” với khung hình 49, 50 và 264,
267.
Hình 4.11(a) và (b) cho thấy sự tách vùng do có sự khác không đồng nhất về thông
tin không gian. Hình 4.11(c) và (d) các vùng nhỏ đồng nhất về chuyển động và
thông tin không gian được hợp nhất thành một vùng đơn.
46
(a) (b)
(c) (d)
Hình 4.12: Kết quả phân đoạn của chuỗi “football” với khung hình 1, 2 và 3, 4.
Chuỗi kết quả phân đoạn video “football” từ khung hình 1 đến 4 cho thấy biên của
đối tượng vẫn được duy trì tốt dù các đối tượng chuyển động nhanh và che khuất
lẫn nhau.
47
(a) (b) (c)
(d) (e) (f)
(g) (h) (i)
Hình 4.13: Kết quả phân đoạn của chuỗi “football” với khung hình từ 23 đến 31
tương ứng từ hình 4.13(a) đến hình 4.13(k).
(a) (b) (c)
48
(d) (e) (f)
(g) (h) (i)
Hình 4.14: Kết quả phân đoạn của chuỗi “husky” với khung hình từ 166 đến 174
tương ứng từ hình 4.13(a) đến hình 4.13(h).
Hình 4.13 thể hiện kết quả phân đoạn cả của các khung hình từ 23 đến 32 là giai
đoạn camera chuyển động đột ngột. Kết quả phân đoạn từ hình 4.13c cho thấy biên
của các đối tượng đã không được duy trì tốt và kết quả phân đoạn đã bị rối loạn từ
đó. Khi camera bắt đầu chuyển động đột ngột và các đối tượng chuyển động phức
tạp hơn thì đường biên bị sai lệch do mô hình chuyển động trong thuật toán là mô
hình chuyển động tịnh tiến đơn giản. Khi cả camera và đối tượng cùng chuyển động
thì trường vector chuyển động thu được dựa trên 3 khung hình liên tiếp không thể
hiện đúng chuyển động của đối tượng trên thực tế. Tương tự như vậy đối với hình
4.14. Chuỗi “husky” kể từ khung hình 4.14(c), camera bắt đầu chuyển động xoay
đột ngột và zoom về đối tượng. Do đó, biên của đối tượng đã không được duy trì và
kết quả phân đoạn bị phân mảnh.
49
(a) (b) (c)
(d) (e) (f)
(g)
Hình 4.15: Kết quả phân đoạn của chuỗi “paris”.
(a-c) 3 khung hình liên tiếp có số thứ tự 54,55,56 (d) Vector chuyển động (e) Kết
quả phân đoạn cường độ (f)Ảnh thể hiện khoảng cách một điểm ảnh đến biên trong
trườngphân đoạn cường độ (g) Kết quả phân đoạn đối tượng.
Nhìn vào trường vector chuyển động hình 4.15d ta thấy chỉ có bàn tay phải của
nhân vật nữ có vector chuyển động mạnh mới được phân đoạn, trong khi thân người
50
của nhân vật nam chuyển động yếu đã không có tác động lên kết quả phân đoạn.
Điều này giống với kết quả đã phân tích ở hình 4.9.
Tóm lại, phần kết quả thực nghiệm cho thấy một số đánh giá sau đây:
- Ràng buộc phân đoạn cường độ nhằm phát sinh biên chính xác trong vùng
đồng nhất về không gian – thời gian. Vì đôi khi một vùng có cường độ tương
đương nhau có thể thuộc về một đối tượng khác, sự ràng buộc phân đoạn
cường độ sẽ trở nên yếu thế khi thông tin chuyển động trong một vùng phân
đoạn cường độ không đồng nhất. Đó là lí do vì sao vùng biên bị mất có thể
phục hồi bởi thông tin chuyển động.
- Vì hướng tiếp cận này không tạo được các biên chính xác trên trường phân
đoạn video khi camera quay và đối tượng chuyển động phức tạp. Tuy nhiên,
phương pháp này có ưu thế trên các ứng dụng cần xác định các vùng có các
chuyển động khác nhau.
Khi các đối tượng dừng lại hoặc có chuyển động quá chậm thì trường vector chuyển
động có lực tác động không đủ nên có thể mất biên của đối tượng. Trong trường
hợp này có thể gia tăng tham số , tuy nhiên cũng cần phải xem xét đến các hệ số
để cân bằng sự tác động của các giá trị đến ước lượng MAP trong biểu thức 3.14.