Xử lý âm thanh, hình ảnh (HV BCVT)

Bài giảng: XỬ LÝ ÂM THANH, HÌNH ẢNH Tác giả: TS. NGUYỄN THANH BÌNH - ThS NGUYỄN QUỐC BẢO Xuất bản: 2007 – HV BCVT Nội dung chính: Chương 1: Kỹ thuật xử lý âm thanh Chương 2: Kỹ thuật xử lý hình ảnh Hình thức: PDF, tiếng Việt

175 trang | Chia sẻ: banmai | Lượt xem: 3071 | Lượt tải: 5

Bạn đang xem trước 20 trang tài liệu Xử lý âm thanh, hình ảnh (HV BCVT), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

cấp theo SNR): có các công cụ của main profile và cho phép phân cấp theo tỉ số tín hiệu trên tạp âm. Tính phân cấp theo tỉ số tín hiệu trên tạp âm có nghĩa là chất lượng hình ảnh và tỉ số tín hiệu trên tạp âm có tính thõa hiệp. Chuỗi ảnh có thể chia thành hai phân lớp phân biệt nhau về chất lượng. Các lớp thấp bao gồm ảnh có chất lượng cơ sở, lớp cao bao gồm các lớp hoàn thiện hơn đối với lớp thấp hơn, cho phép khôi phục cùng ảnh đó nhưng chất lượng tốt hơn. Lớp thấp hơn, ví dụ chứa tín hiệu video theo chuẩn 4:2:0, còn lớp cao hơn với tín hiệu video trong chuẩn 4:2:2. Có thể mã hóa kênh khác nhau cho các lớp riêng. Trong trường hợp này, lớp dưới có tín hiệu video chất lượng thấp hơn ( ví dụ lượng tử hóa với độ chính xác thấp). Còn lớp cao hơn thì lớp bảo vệ cho phép khôi phục lại tín hiệu video với độ chính xác đầy đủ thông số kênh truyền hoặc bộ mã hóa. • Spatially Scalable profile (phân cấp theo không gian): tương tự với SNR profile nhưng thêm vào lớp cơ bản lớp nâng cao chất lượng độ phân giải ảnh (Picture Resolution Enhancement layer). Tính phân cấp theo không gian có nghĩa là có sự thõa hiệp đối với độ phân giải. Chuỗi ảnh được chia ra thành hai lớp tương ứng với các độ phân giải khác nhau của ảnh. Lớp thấp hơn bao gồm ảnh có độ phân giải thấp ví dụ như truyền hình tiêu chuẩn, lớp cao hơn bao gồm ảnh có độ phân giải cao hơn ví dụ như truyền hình độ phân giải cao (HDTV). • High profile (profile cao): gồm các đặc điểm của spatial profile thêm vào cấu trúc lấy mẫu 4:2:2. Nó bao gồm toàn bộ các công cụ của spatially scalable profile cộng thêm khả năng mã hóa các tín hiệu màu khác nhau cùng một lúc. Nó được dự định dùng cho HDTV, cho phép các bộ thu HDTV giải mã cả hai lớp để hiển thị một ảnh HDTV. “High profile” là một hệ thống hoàn hảo được thiết kế cho toàn bộ các ứng dụng mà không hạn chế tốc độ bit. • 4:2:2 profile: tương tự MP, nhưng cho phép một tốc độ bit cao hơn. Nó gia tăng kích thước ảnh dọc lên 576 lines với chuẩn quét 625/50 và 512 lines với chuẩn quét 525/60. 153 Vấn đề hạn chế các mức có liên quan đến độ phân giải cực đại của ảnh. Có 4 mức hạn chế sau : • Low level (mức thấp): ứng với độ phân giải của MPEG-1, có nghĩa là bằng ¼ độ phân giải truyền hình tiêu chuẩn. • Main level (mức chính): độ phân giải của truyền hình tiêu chuẩn. • High – 1440 level (mức cao 1440): độ phân giải của HDTV với 1440 mẫu/dòng. • High level (mức cao): độ phân giải HDTV với 1920 mẫu/dòng. Bảng 2.3.6. Bảng thông số chính profile và level của tín hiệu chuẩn MPEG-2. Profile Level Đơn giản (Simple) Chính (Main) Phân cấp theo SNR Phân cấp theo không gian Cao (High) Thấp (Low) 4:2:0 352x288 4 Mbps 4:2:0 352x288 4Mbps I, P, B Chính (Main) 4:2:0 720x576 15 Mbps I, P 4:2:0 720x576 15 Mbps I, P, B 4:2:0 720x576 15 Mbps I, P, B 4:2:0 720x576 20 Mbps I, P, B Cao – 1440 (High– 1440) 4:2:0 1440x1152 60 Mbps I, P, B 4:2:0 1440x1152 60 Mbps I, P, B 4:2:0,4:2:2 1440x1152 80 Mbps I, P, B Cao (High) 4:2:0 1920x1152 80 Mbps I, P, B 4:2:0,4:2:2 1920x1152 100 Mbps I, P, B Kết hợp 4 level và 5 profile ta được tổ hợp 20 khả năng và hiện nay đã có 11 khả năng được ứng dụng như Bảng 2.3.6 (theo tài liệu của Tektrronic). Trong các ô của Bảng 2.4.6, lần lượt từ trên xuống là: tỷ lệ lấy mẫu (4:2:0 hoặc 4:2:2); dòng dưới ghi điểm ảnh theo chiều 154 ngang x theo chiều dọc; dòng dưới nữa là vận tốc cao nhất của dòng dữ liệu sau khi nén; dòng cuối cùng là các loại ảnh sử dụng để nén. 2.3.3.10.4 Ứng dụng MPEG-2 trong nén tín hiệu video Các tính chất nén tín hiệu video Tính chất nén tín hiệu video (hoặc giảm tốc độ bit của video BRR – Bit rate reduction) là sự kết hợp nhiều yếu tố khác nhau : • Tỉ lệ nén : tỉ lệ nén từ 2:1 đến 150:1, tùy thuộc vào chất lượng ảnh yêu cấu cho từng ứng dụng. • Chất lượng ảnh : chất lượng ảnh cao thường dùng cho khâu xử lý ảnh, trong khâu hậu kỳ (dựng hình); giảm hơn trong khâu lấy tin (news), truyền dẫn phát sóng. • Khả năng tạo nhiều lần : Trong quá trình sản xuất hậu kỳ, truyền dẫn phát sóng; tín hiệu video gốc phải đi qua nhiều công đoạn, nén và giải nén. • Đối xứng/ không đối xứng : với sơ đồ nén đối xứng, số lượng xử lý ở phần mã hóa và giải mã giống nhau. Sơ đồ MPEG-2 là không đối xứng vì các công đoạn giải mã ít hơn so với mã hóa. • Trễ giữa mã hóa và giải mã : độ trễ này phụ thuộc vào cấu trúc và độ phức tạp của bộ mã hóa, kích thước GOP và chuỗi GOP. Trong truyền hình, độ trễ tổng cộng có thể chấp nhận được là <1ms cho trường hợp phỏng vấn trực tiếp. Trong truyền dẫn phát sóng thì vấn đề này ít khắc khe hơn. • Khả năng dựng hình : dựng hình với độ chính xác 1 frame là yêu cầu cao trong khâu hậu kỳ. Hiện tại, trong khâu hậu kỳ phải giải mã nhiều frames (I, B, P) và mã hóa lại sau khi cấy một đoạn mới vào. Do có thể thay đổi chiều dài GOP xuống còn ảnh I, cho nên MPEG-2 cho phép dựng hình với độ chính xác từng frame. • Độ phức tạp và giá thành : có một sự thỏa hiệp giữa kỹ thuật xấp xỉ chuyển động có hiệu quả (nâng cao hiệu quả nén cao) và giảm độ phức tạp và giá thành của các chip xử lý. 2.3.3.11 Tiêu chuẩn MPEG-4 MPEG-4 bao gồm 2 phần là version 1 và version 2. Bắt đầu từ năm 1993 và hình thành các đề nghị vào tháng 7 năm 1995. Các đề nghị về audio và video được đánh giá bởi các chuyên gia và đưa ra bản thảo vào tháng 11 năm 1997 và trở thành tiêu chuẩn quốc tế ISO/IEC vào năm 1999. Năm 2000 MPEG-4 được bổ xung và nâng cấp lên thành các version 3 và 4. Đặc điểm chính của MPEG-4 là mã hóa video và audio với tốc độ bit rất thấp. Thực tế tiêu chuẩn đưa ra với 3 dãy tốc độ bit - dưới 64 kbps - 64 đến 384 kbps - 384 Kbps đến 4 Mbps 155 Đặc điểm quan trọng của chuẩn MPEG-4 là cho phép khôi phục lỗi tại phía thu, vì vậy chuẩn nén này đặc biệt thích hợp đối với môi trường dễ xãy ra lỗi như truyền dữ liệu qua các thiết bị cầm tay. Những profile và level khác trong MPEG-4 cho phép sử dụng tốc độ bit lên đến 38.4 Mbps và việc xử lý chất lương studio cần các profile và level lên đến 1.2Gbps. MPEG-4 là chuẩn quốc tế đầu tiên dành cho mã hoá các đối tượng (object) video. Với độ linh động và hiệu quả do mã hoá từng đối tượng video, MPEG-4 đạt yêu cầu ứng dụng cho các dịch vụ nội dung video có tính tương tác và các dịch vụ truyền thông video trực tiếp hay lưu trữ. Trong MPEG-4, khung ảnh của một đối tượng video (hay còn gọi là phẳng đối tượng video) được mã hoá riêng lẽ. Sự cách ly các đối tượng video như vậy mang đến độ mềm dẻo hơn cho việc thực hiện mã hoá thích nghi làm tăng hiệu quả nén tính hiệu. Mặc dù tập trung vào những ứng dụng tốc độ bit thấp nhưng MPEG-4 cũng bao gồm cả studio chất lượng cao và HDTV Các đối tượng khác nhau trong một cảnh gốc có thể được mã hóa và truyền đi riêng biệt như là video object và audio object và được kết hợp trở lại tại bộ giải mã. Các loại object khác nhau sẽ được mã hóa với những kỹ thuật khác nhau và với các công cụ phù hợp nhất. Những object khác nhau có thể được tạo ra một cách độc lập và trong một vài trường hợp một cảnh có thể phân tích riêng thành object nền (background) và object cận cảnh. Ví dụ: đoạn video quay trận bóng đá được xử lý để tách riêng quả bóng ra khỏi cảnh sân cỏ. Background (cảnh không có quả bóng ) sẽ được truyền đi và ai cũng có thể thấy game để thu hút khan giả nhưng chỉ những người có trả tiền mới thấy quả bóng. Hình 2.3.24 cho thấy các khái niệm chung về quá trình mã hóa và giải mã các đối tượng độc lập trong chuẩn nén MPEG-4. Máy quay video Bộ tách các object trong ảnh Mã hóa object Mã hóa object Mã hóa object Mul tip lex De mul tip lex Giải mã object Giải mã object Giải mã object Tổng hợp đối tượng Màn hình Hình 2.3.24 Nguyên lý mã hóa tín hiệu hình ảnh trong MPEG-4 Như đã biết không có phương pháp mã hóa nào có thể gọi là tối ưu hoàn toàn. DCT và phép lương tử chỉ tối ưu đối với các ảnh có băng thông giới hạn và các ảnh có mức chói thay đổi chậm nhưng sẽ không tối ưu với nhiều chi tiết ảnh có kích thước nhỏ thường xuất hiên trên đoạn video. Một ví dụ đơn giản nếu một cảnh có xen các dòng chữ (text) thì hệ thống thông thường sẽ xem các chữ như là các chi tiết ảnh thường, do đó sau khi mã hóa bằng MPEG-1 hay MPEG2,các chi tiết nhỏ được thêm vào với cách thức như trên sẽ tạo ra tín hiệu năng lượng có tần số cao và các cạnh của dòng chữ sẽ không được mã hóa tốt bởi DCT Do đó việc thêm chữ vào ảnh hưởng rất lớn đến hiệu suất mã hóa video. Tuy nhiên có thể mã hóa các chữ theo một cách đơn giản như các ký tự thuộc mã ASCII, vị trí, font, kích thước, màu, thông tin về không gian có thể được thêm vào với số bit tương đối nhỏ. Nhưng để làm điều này bộ giải mã cần phải có khả năng tạo ra các title từ những thông tin được cung 156 cấp và khóa các title này khi qua bộ giải mã video trước khi hiển thị. Việc giải mã luồng bit video MPEG-4 yêu cầu bộ giải mã có nhiều cơ chế giải mã và khả năng thực hiện các hoạt động đa hợp. Trong MPEG-4 có thể truyền nhiều luồng text và việc chọn ở bộ giải mã luồng nào trong số những luồng trên kết hợp với video. Việc lựa chọn này có thể do người xem quyết định hoặc do các thông tin khác được truyền trong luồng bit. Ba đặc tính rất quan trọng của MPEG-4 là: - Nhiều object có thể được mã hóa với các kỹ thuật khác nhau và kết hợp lại ở bộ giải mã - Các object có thể là các cảnh có được từ camera hay tự tạo như text - Các thông tin trong luồng bit có thể hiển thị nhiều dạng khác nhau từ cùng một luồng bit (tùy theo lựa chọn người xem chẳng hạn như ngôn ngữ) MPEG-4 cho khả năng mã hóa video và audio hơn hẳn MPEG-2 cũng như khả năng khôi phục lỗi. Tuy nhiên sức mạnh thật sự của MPEG-4 là các ứng dụng mới mà có thể xây dựng dựa vào việc mã hóa độc lập các object cho hiệu suất mã cao hơn, và việc tách riêng các object cho phép tương tác các object với nhau đặc biệt là các chương trình giáo dục và các trò chơi. Và cũng do khả năng tách biệt các object mà có thể thay đổi tỷ lệ tạm thời chẳng hạn như vẫn duy trì độ phân giải của các object cận cảnh quan trọng nhưng giảm ảnh phong xuống tốc độ thầp hơn nếu hệ thống sử dụng có băng thông bị hạn chế hoặc thiếu tài nguyên (bộ nhớ, tốc độ tính) Tuy nhiên cũng có một số nhược điểm là bộ giải mã phải có khả năng giải mã hết tất cả các luồng bit mà nó hổ trợ và có khả năng kết hợp. Do đó phần cứng của bộ giải mã MPEG-4 phức tạp hơn so với bộ giải mã MPEG-2. Và ngày nay thì càng có nhiều bộ mã thực hiện giải mã bằng phần mềm nhưng bộ giải mã bằng phần cứng có thể bị hạn chế về khả năng linh hoạt 2.3.3.11.1 Video trong MPEG-4 Trước khi tìm hiểu kỹ thuật nén video trong MPEG-4 cần tìm hiểu cấu trúc của một cảnh video được MPEG-4 định nghĩa. Một cảnh tiêu biểu bao gồm phong ảnh (background) một hoặc nhiều đối tượng cận ảnh (foreground) chẳng hạn như đồ vật, một hoặc nhiều người và một vài phần tử đồ họa. Trong MPEG-1 và 2 một cảnh được lấy mẫu một lần cho một khung và tạo ra các bitmap sẽ được mã hóa. MPEG-4 cũng làm việc giống như vậy nhưng nó có thể giải quyết từng đối tượng riêng rẽ. Để đơn giản hơn có thể không xét đến các đồ vật như vậy ngoài các thành phần đồ họa cảnh bao gồm background, một người được xem là foreground. Ví dụ: người dự báo thời tiết đứng trước nền màu xanh biển hay xanh lá cây và một nền (background) khác chẳng hạn như bản đồ thời tiết gọi là “chroma keyed”. Trong studio ảnh một người đứng trước nền màu sẽ được xử lý để loại bỏ nền màu và tạo thành “key signal” hay alpha channel diễn tả hình dạng của người cận cảnh. Thông tin về hình dạng người sẽ được kết hợp với thành phần cảnh. Nơi người đứng thì cảnh nền được thay thế bằng ảnh người và những nơi khác của ảnh nền thì không thay đổi. Trong thuật ngữ của MPEG-4 thì người cận ảnh được xem là đối tượng video (video object) được tương trưng bởi hai phần tử là ảnh video của người gọi là “texture” và key signal hay alpha channel được xem là shape. 157 2.3.3.11.2 Cấp độ của video MPEG-4 Trước tiên object phải được lấy mẫu. Hầu hết các object được lấy mẫu trong khoảng thời gian không đổi (gọi là frame) và mỗi thời gian lấy mẫu đươc gọi là video object plane (VOP). Như vậy mỗi object trong một cảnh được tượng trưng bởi 1 chuỗi các VOP ngoại trừ các object tĩnh có thể dùng một VOP. VOP bao gồm dữ liệu texture và thông tin về đường nét (shape) có dạng chữ nhật hoặc dữ liệu đường nét phức tạp kết hợp với object. VOP cũng giống như các frame của các version trước của MPEG có thể được mã hóa với intradata hoặc sử dụng bù chuyển động. Tiếp theo là nhóm các VOP với nhau thành GOV (Group of video object planes). GOV tương tự như GOP (group of pictures) của MEPG trước và cung cấp điểm trong luồng bit mà VOP được mã hóa độc lập với các VOP khác và như thế nó cung cấp các điểm truy xuất ngẫu nhiên trong luồng bit VOL (Video object layer) cho phép thay đổi tỷ lệ mã hóa chuỗi các VOP hoặc GOV. Nhiều VOL tương ứng với nhiều tỷ lệ của chuỗi (VOP hoặc GOV) và mỗi tỷ lệ phù hợp với một tập các tài nguyên có thể thông thường giới hạn băng thông hoặc giới hạn khả năng tính toán. Mức video object (VO) bao gồm mọi thành phần trong luồng bit mô tả đối tương video đặc biệt. Cuối cùng là Video session (VS) là mức video cao nhất của cảnh MPEG-4 bao gồm tất cả đối tượng video cả tự nhiên và tự tạo trong một cảnh. 2.3.3.11.3 Mã hóa đường nét (shape) Có hai loại đường nét với đối tượng video trong MPEG-4 là chữ nhật và tùy ý. Dạng chữ nhật chỉ đơn thuần là chỉ phạm vi của ảnh nên ít quan trọng. Tuy nhiên nó vẫn được dùng để tăng tính linh hoạt trong các chuẩn trước. Chẳng hạn trong MPEG-2 phạm vị của ảnh được mã hóa trong phần header của luồng bit. Trong MPEG-4 kích thước chữ nhật của đối tượng video nền đơn giản là có thể so sánh nhưng cũng có thể có các đối tượng chữ nhật khác trong cùng một session như ảnh trong ảnh (picture in picture). Đường nét cũng tượng trưng cho đối tượng video và ở bất kỳ điểm nào trong mặt phẳng ảnh nó xác định có đối tượng nào được kết hợp với nó thì có thể nhìn thấy được. Đường nét dạng chữ nhật được gọi là mask và có kích thước có thể thay đổi theo kích thước ngang và dọc lớn nhất của đối tượng. Cả hai kích thước ngang và dọc của mask là bội số của 16 pixel. Đường nét tùy ý có thể được mã hóa như dữ liệu nhị phân hoặc dữ liệu xám. Đường nét nhị phân là dạng đơn giản nhất chỉ ra đối tượng là rõ ràng hay không rõ ràng (thấy được hoặc không thấy) ở bất kỳ điểm đã cho. 2.3.3.11.4 Mã hóa texture Mã hóa texture, là thuật ngữ trong MPEG-4 tương ứng với việc mã hóa dữ liệu ảnh chuyển động, dựa vào mã hóa MPEG-2 có mở rộng và cải tiến. Các đối tượng video có thể được mã hóa với I-VOP, P-VOP, B-VOP. Hầu hết các profile MPEG-4 đều sử dụng tiêu chuẩn 4:2:0 và YUV để mô tả đối tượng video texture. 158 Trong MPEG-4 không phải tất cả các đối tượng video có cùng kích thước và việc mã hóa texture chỉ cần thiết ở những khu vực là một phần của đối tượng. Đối với những đối tượng chữ nhật thì đơn giản chọn kích thước là bội số của 16 pixel (một macroblock) theo mỗi hướng và tất cả các macroblock sẽ được xử lý. Đối với các đối tượng có đường nét phức tạp thì đường biên (boundary) được định nghĩa là tín hiệu đường nét (shape signal). Phạm vi của đối tượng cũng được định nghĩa bởi dãy hình chữ nhật các macroblock nhưng mã hóa texture được thực hiện đối với toàn bộ các macroblock trên đường biên hoặc phần bên trong đường biên đối tượng I-VOP được mã hóa như khung I trong MPEG-2. MPEG-4 sử dụng bộ dự đoán thích ứng đối với các giá trị DC. Bộ dự đoán cũng xác định gradient độ sáng ngang và dọc và dự đoán giá trị DC từ các khối ở trên và bên trái theo hướng của gradient nhỏ hơn Sự tương quan của các ảnh ngoài việc có lợi cho dự đoán hệ số DC còn giúp việc mã hóa các hệ số AC. Những vùng texture giống nhau sẽ tạo ra một dãy các hệ số AC giống nhau sau khi biến đổi DCT. Các hệ số AC quan trọng nhất tương trưng cho năng lượng lớn nhất của texture giống nhau rất nhiều (có lợi cho quá trình mã hóa). Các hệ số này thông thường là các hệ số khác zero trong hàng đầu tiên hoặc cột đầu tiên, chúng thường được lượng tử hóa với mức độ chính xác cao nhất. Trong MPEG-4 các hệ số AC của hàng đầu tiên hoặc cột đầu tiên được dự đoán từ các khối ngay ở trên và bên trái. Việc lượng tử các hệ số cũng tương tự như phương pháp sử dụng trong MPEG-2 nhưng cơ chế quét các hệ số và mã hóa với chiều dài từ mã thay đổi thì được cải tiến hơn. Các phương pháp được chọn để đọc hệ số ra được xác định dựa vào quá trình dự đoán DC. Khi không có dự đoán DC thì quét zigzag như trong MPEG-2 được sử dụng. Nếu hệ số DC được dự đoán từ khối phía bên trái thì sử dụng quét dọc luân phiên (Alternate-vertical scanning) là hệ thống quét sẽ đọc theo chiều dọc trước tiên. Tuy nhiên nếu hệ số DC được dự đóan từ các khối ở trên thì chọn quét ngang luân phiên (Altrenate Horziontal scan). Để cải thiện hiệu quả của bộ mã hóa có chiều dài thay đổi (VLC) trong MPEG-4 dùng hai bảng VLC khác nhau. 2.3.3.11.5 Mã hóa đường biên Khả năng mã hóa những đối tượng có đường nét tùy ý thường gặp những tình huống đặc biệt ở đường biên của đối tượng. Khi đó, các khối nằm bên ngoài đường biên thì không cần mã hóa texture. Nhưng tất cả những khối bên trong đường biên được mã hóa theo các kỹ thuật đã trình bày. Mã hóa texture cần cho các khối đường biên nhưng trong các khối đó chỉ có một phần thuộc đối tượng. Trước khi mã hóa đường biên, người ta thực hiện biện pháp "đệm" (padding) các khối này. Những pixel không phải là thành phần của đối tượng được gán cho những giá trị bằng nhau và bằng với giá trị trung bình của tất cả các pixel trong phần đối tượng. Giá trị của các pixel bên trong đối tượng không thay đổi. Việc thay đổi giá trị bên ngoài đối tượng không ảnh hưởng đến kết quả sau cùng bởi vì các pixel này không được hiển thị. Quá trình trên được xem là làm giảm thiểu năng lượng của các hệ số khi biến đổi DCT 159 2.3.3.11.6 Sprites MPEG-4 có một lọai đối tượng khác thường được dùng làm cảnh nền là sprite. Sprite là đối tượng video thường có kích thước lớn hơn màn hình hiển thị. Sprite là đối tượng được sử dụng liên tục trong một cảnh (tương tự như cảnh nền tĩnh). Thông thường một cảnh của game bao gồm cảnh nền và một số đối tượng nhân tạo di chuyển theo kịch bản của game và hành động của người chơi. Trong quá trình hành động cảnh được nhìn thấy chỉ là một vùng nhỏ trong cảnh nền, vùng này là thành phần của cùng một ảnh tĩnh (Hình 2.3.25). MPEG-4 cung cấp khả năng truyền toàn bộ cảnh nền như sprite và khả năng tạo cảnh khác nhau bằng cách truyền các thông tin cropping và wraping để xác định phần sprite sẽ được hiển thị ở một thời điểm nhất định. Sau khi sprite được truyền đi thì chỉ có thông tin cropping/wraping cho sprite và các đối tượng cận ảnh (foreground) cần được truyền. Trong game điển hình mỗi phần của sprite có thể được sử dụng nhiều lần vì thế lượng dữ liệu cần truyền sẽ giảm đáng kể. Hình 2.3.25 Cảnh nền (sprite) được truyền đi có kích thước lớn hơn khả năng hiển thị của màn hình Việc truyền toàn bộ sprite ngay khi bắt đầu chương trình có thể rất hiệu quả nhưng sẽ làm tăng băng thông và thời gian truyền trước khi hoạt động có thể bắt đầu. MPEG-4 sử dụng phương pháp sau để tránh vấn đề này. Sprite có thể truyền từng phần khi cần. Một phần sprite cần thiết tại thời điểm tức thời sẽ được truyền đi. Tất cả các cảnh sprite sẽ được lưu trữ ở bộ giải mã như là một phần của sprite. Theo phương pháp khác, sprite có thể được mã hóa liên tiếp và truyền đi toàn bộ với độ phân giải thấp và độ phân giải cao hơn sẽ được truyền sau. Sprite được mã hóa như tín hiệu chói với hai thành phần màu như trong MPEG trước và luôn được mã Intra bởi vì bản chất của ảnh là tĩnh. 2.3.3.11.7 Animations Như đã biết một trong số những điểm mạnh của MPEG-4 là khả năng truyền cả đối tượng tự nhiên cũng như các đối tượng được tự tạo ra (vì dụ hình animation) và kết hợp chúng ở bộ giải mã. Một trong nhiều khả năng thú vị sử dụng đối tượng nhân tạo là mặt người hoạt hình (facial animation). Đây cũng là một ví dụ khác của việc ánh xạ texture thành đường nét chuyển động nhưng trong trường hợp này đường nét được chỉ định bởi mô hình lưới hay mô hình 3D được hình thành bới các node. Vị trí của mỗi node được mã hóa sử dụng mã hóa dự đoán trước để tăng hiệu suất mã khi đường nét của khuôn mặt thay đổi. 160 Version 2 của MPEG-4 có thể thêm vào thân hình (body) động. Thân hình là một đối tượng có thể tạo ra các mô hình thân hình ảo và động dưới dạng tập hợp lưới 3D nhiều cạnh. Hai tập hợp các thông số định nghĩa cho body: Tập hợp các tham số định nghĩa body (BDP- body definition parameter) và tập hợp các thông số động body (BAP - body animation parameter). Tập BDP định nghĩa tập các thông số để biến đổi body mặc định thành các body theo yêu cầu khách hàng với bề mặt body, kích thước body và texture. Các tham số động body (BAP) cho phép tạo ra chuyển động với các mô hình body khác nhau. Như vậy, có thể ngay lập tức nhận BAP từ luồng bit thu mà tạo ra sự linh hoạt của body. Khi thu được, BDP được dùng để biến đổi body chung (body một người chuẩn chẳng hạn) thành các body riêng biệt dựa vào giá trị của các thông số. Bất cứ thành phần nào cũng có thể trống. Một thành phần trống có thể được thay thế bằng thành phần mặc định tương ứng khi body được biều hiện. Các đặc điểm mặc định được xem như các đặc điểm chuẩn. Các đặc điểm này được định nghĩa như sau: bàn chân chỉ đến hướng phía trước, hai cánh tay đặt ở hai bên của body với lòng bàn tay hướng vào trong body. Các đặc điểm này cũng ngầm định trong tất cả BAP có giá trị mặc định. Mô hình body người có thể hổ trợ những ứng dụng khác nhau từ mô phỏng chuyển động thực của người đến công nghệ game sử dụng mô hình giống như người. 2.3.3.11.8 Scalability MPEG-4 cung cấp chế độ phân cấp chất lượng tức thời và cố định ở mức đối tượng. Trong cả hai trường hợp, kỹ thuật này được sử dụng để tạo ra lớp cơ sở (base layer) tượng trưng cho chất lượng thấp nhất từ luồng bit và một hoặc nhiều lớp tăng cường (enhancement layer). Những lớp này có thể được tạo ra bằng việc mã hóa đơn giản. Chất lượng hình ảnh có thể được điều chỉnh thể bằng hai cách khác nhau. Nếu băng thông bị giới hạn thì luồng bit truyền đi sẽ chỉ bao gồm chỉ lớp cơ sở hoặc lớp cơ sở và một vài lớp tăng cường bấc thấp. Một cách khác tất cả các lớp có thể được truyền đi đến bộ giải mã, tại đây sẽ quyết định những lớp nào sẽ được sử dụng để giải mã. Nếu thiết bị hiển thị có độ phân giải thấp hoặc tài nguyên tính toán không đủ thì lớp tăng cường có thể bỏ qua. Down Converter Base Layer Encoder Up Converter Base Layer Decoder Multiplexer Subtract Enhancement Layer Encoder Enhancement VOL Base layer VOL Multiplexer output VOPs In Hình 2.3.26 Bộ mã hóa phân cấp chất lượng MPEG-4 161 Hình 2.3.26 mô tả sơ đồ khối của bộ mã hóa thực hiện quá trình phân cấp chất lượng với 2 mức cố định. Các VOP ngõ vào được biến đổi xuống còn độ phân giải thấp và mã hóa để tạo ra lớp cơ sở. Lớp cơ sở được đưa tới ngõ ra và tới bộ tổng hợp Multiplexer. Lớp cơ sở còn được giải mã tại chỗ và đưa tới bộ up-converted để có cùng độ phân giải như ngõ vào. Tín hiệu có độ phân giải cao này sẽ được so sánh với tín hiệu ngõ vào tại bộ trừ (Subtract), ảnh sai biệt ở đầu ra bộ trừ được mã hóa riêng ở bộ mã hóa lớp tăng cường. Chú ý rằng mỗi luồng VOP sau khi mã hóa tạo thành lớp đối tượng video. Lớp cơ sở sử dụng cả mã hóa Intra và Inter trong khi lớp tăng cường chỉ sử dụng mã hóa dự đoán. Việc phân cấp chất lượng tạm thời thì đơn giản hơn. Luồng bit đến của VOP được chia thành các luồng nhỏ. Số VOP được yêu cầu sẽ được gửi đến bộ mã hóa lớp cơ sở, phần còn lại được gửi đến một hoặc nhiều bộ mã hóa tăng cường. QUa strình phân cấp trong MPEG-4 có thể được áp dụng riêng rẽ đối với mỗi đối tượng cơ sở. Điều này làm cho quá trình mã hóa và giải mã trửo nên linh động hơn. Chẳng hạn một bộ giải mã trong hệ thống game không có đủ khả năng để giải mã tất cả các đối tượng ở tốc độ cao nhất có thể nên nó chỉ chọn giải mã đối với cảnh nền tốc độ thấp và chấp nhận mức độ chuyển động nền bị giựt, đồng thời giải mã với tốc độ cao đối với các đối tượng cận ảnh làm cho chuyển động của chúng mịn hơn 2.3.3.11.9 Mã hóa mở rộng (ACE: Advanced Coding Extension) Version 2 của MPEG-4 đưa ra ba công cụ mới để cải thiện hiệu suất mã hóa đối với đối tượng video. Bao gồm: Bù chuyển động toàn cục (GMC: global motion compensation), bù chuyển động phần tư (quarter pel motion compensation) và DCT hình dáng thích ứng (shape- adative DCT). Các công cụ này cải thiện hiệu suất mã đến hơn 50% so với version 1 tùy theo lọai ảnh và tốc độ bit. GMC cho phép mã hóa toàn bộ chuyển động của đối tượng với một vài thông số và cải thiện độ phân giải của vector chuyển động bằng cách giảm sai số do dự đoán và sử dụng độ dư Shape-adaptive DCT có thể được dùng để cải thiện hiệu suất mã của những khối đường biên khi không phải tất cả các pixel đều là phần tử của ảnh. Thay vì sử dụng DCT hai chiều 8x8 thì dùng khối DCT một chiều đối với hàng dọc được trước sau đó đến hàng ngang và chỉ xét những pixel thuộc đối tượng, gọi là các active pixel. 2.3.3.12 Chuẩn H.261 Khuyến cáo H.261 của CCITT là chuẩn nén cho các dịch vụ hội nghị truyền hình và điện thoại truyền hình qua mạng số dịch vụ tích hợp ISDN ở tốc độ n×64Kbps. Chuẩn này có 2 đặc tính quan trọng là ngưỡng trễ mã hoá tối đa là 150ms vì trễ này phù hợp với truyền thông video hai chiều dựa vào cảm nhận của người xem về hình ảnh phản hồi trực tiếp và dễ dàng thực hiện mạch tích hợp VLSI chi phí thấp cho việc thương mại hoá sản phẩm rộng rãi. 2.3.3.13 Chuẩn H.263 H.263 là chuẩn dành cho video tốc độ thấp 46 Kbps dùng trong các ứng dụng hội nghị từ xa qua mạng PSTN. Chuẩn này có cả đặc tính của MPEG-1 và MPEG-2. Mã hoá video của H.263 dựa trên chuẩn H.261 và thực chất nó là phiên bản mở rộng của H.261 với phương 162 pháp mã hoá video kết hợp DPCM/DCT. Cả hai chuẩn này đều dùng kỹ thuật chính như DCT, bù chuyển động, mã hoá chiều dài từ mã thay đổi, lượng tử hoá vô hướng và xử lý trên cấp macroblock. Duy chỉ có khái niệm về khung PB trong H.263 là khá đặc biệt, tên PB có nguồn gốc từ P và B, là sự kết hợp của P và B. 2.3.4 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén Bảng 2.3.7 tập hợp các ứng dụng của các tiêu chuẩn nén. Định dạng MJPEG có hạn chế trong ứng dụng. Nó được dùng chủ yếu trong máy ghi hình bằng đĩa (quá trình mã hóa và giải mã trong cùng một đơn vị). Bảng 2.3.7. Các ứng dụng của các tiêu chuẩn nén. Ứng dụng Tiêu chuẩn mã hóa Độ phân giải cực đại Tốc độ bit cực đại Videophone Hội nghị truyền hình Truyền hình cáp Truyền hình Studio / sản xuất HDTV / sản xuất HDTV / truyền dẫn H.261 H.261 MPEG-2 DPCM MPEG-2 MJPEG MPEG- 2(@4:2:2) MPEG-2 MPEG-2 176x144 352x288 720x576 720x576 720x576 1920x1280 1920x1280 64 ÷128 Kbps 0.384 ÷1.554 Mbps 4…9 Mbps < 50 Mbps < 50 Mbps 100 Mbps 20 Mbps Việc ra đời chuẩn MPEG-2 đã khẳng định ưu thế của MPEG so với MJPEG khi nó đáp ứng được từ khâu sản xuất đến truyền dẫn và phát sóng. Với tiềm năng kinh tế mạnh thì việc đầu tư thiết bị theo chuẩn MPEG cho tất cả các khâu trong truyền hình là điều không bàn cãi. Nhưng khả năng đầu tư cho truyền hình Việt Nam còn hạn chế, chúng ta lại đang ở giai đoạn nghiên cứu và thử nghiệm, cho nên việc tìm giải pháp thích hợp đảm bảo điều kiện kinh tế, chất lượng hình ảnh phù hợp cho từng công đoạn là vấn đề cần thiết. Trong khâu phát sóng, chuẩn MPEG-2 MP@ML (4:2:0) là sự lựa chọn tối ưu có nguyên nhân sâu sắc và có yếu tố khách quan. Sâu sắc là người ta phải tiết kiệm tối đa dải thông của đường truyền, tăng số lượng chương trình. MPEG-2 MP@ML sử dụng các ảnh I, P, B và nén với hệ số nén rất cao, giảm vận tốc của dòng chương trình còn rất thấp để phát quảng bá tới các máy thu. Ví dụ cụ thể, phát qua bộ phát đáp của vệ tinh có dải thông 36 MHz, sử dụng nén MPEG-2 ta truyền được 10÷12 chương trình. Yếu tố khách quan là mắt người chỉ cảm nhận về độ phân tích đến một chừng mực nào đó là đủ. Nếu truyền tín hiệu có vận tốc cao 163 hơn, mắt người cũng chỉ cảm nhận thêm không đáng là bao mà số lượng chương trình phải giảm đi đáng kể. Điều đó đồng nghĩa với hiệu quả phát sóng thấp. Tóm lại, mục đích ưu tiên của phát quảng bá là nén làm sao để phát được nhiều chương trình. Như vậy, vấn đề ta quan tâm ở đây là lựa chọn chuẩn nào trong công đoạn sản xuất hậu kỳ. Đối với nén của máy ghi hình cần phải chú ý giữ chất lượng tín hiệu còn đủ cho gia công xử lý trong studio. Các phương pháp nén trong máy ghi hình số thực chất là xử lý nội tại trong máy để giảm vận tốc dòng số ghi lên băng còn vừa đủ thấp nhằm giải quyết khá nhiều vấn đề thực tế. Đối với MPEG-2, có thể sử dụng MPEG-2 4:2:2P@ML trong khâu hậu kỳ. Về mặt chất lượng, nếu sử dụng máy ghi công nghệ nén MPEG dùng một loại ảnh I cũng thuận lợi cho việc dựng in tương đương M-JPEG. Nhưng cách giải quyết như thế là chưa kinh tế, vì trong hệ thống mạch theo công nghệ nén MPEG, mạch “dự đoán bù chuyển động” là mạch phức tạp nhất và có giá thành cao mà lại không sử dụng (chỉ dùng một ảnh I, không sử dụng ảnh P và B). Vì mục tiêu phát được nhiều chương trình nên phát quảng bá sử dụng nén MPEG-2 với nhóm ảnh đầy đủ I, P, B và hệ số nén rất cao. Qua phân tích ở trên, ta có thể thấy rằng chuẩn M-JPEG sử dụng trong các thiết bị sản xuất chương trình tiện dụng cho sản xuất studio và dựng hậu kỳ, làm kỹ xảo với giá thành hệ thống phù hợp. 164 PHỤ LỤC: CÁC TIÊU CHUẨN MÃ HOÁ ÂM THANH VÀ HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN 1. Các tiêu chuẩn của ITU- T cho âm thanh Các tiêu chuẩn ITU-T cho âm thanh bao gồm G.711 · G.722 · G.722.1 · G.722.2 · G.723 · G.723.1 · G.726 · G.728 · G.729 · G.729.1 · G.729a G.711 là chuẩn ITU-T dùng cho thoại chủ yếu trong các hệ thống tổng đài, đựơc phát hành chính thức vào năm 1972. G.711 trình bày các mẫu điều chế xung mũ logarit cho tín hiệu ở băng tần thoại, tần số lấy mẫu là 8000 mẫu trong một giây. Có hai giải thuật chính được định nghĩa trong chuẩn này, giải thuật µ-law dùng ở khu vực Bắc Mỹ, Nhật và giải thuật A-law dùng ở khu vực Châu Âu và những nước còn lại. Cả hai giải thuật điều tính toán trên mũ logarit, nhưng giải thuật A-law được thiết kế đặc biệt cho mục đích thực hiện các phép tính trong quá trình tính toán sao cho đơn giản hơn, chuẩn này cũng định nghĩa một chuỗi các giá trị mã lặp lại có mức công suất là 0 dB. Hai giải thuật µ-law được mã hóa ở dạng các mẫu PCM tuyến tính 14-bit và A-Law là 13-bit với mẫu 8-bit. Như vậy, bộ mã hóa G.711 sẽ tạo được luồng dữ liệu bit có tốc độ 64kbit/giây với tần số lấy mẫu là 8kHz. G.722 là chuẩn ITU-T dùng cho mã hóa tiếng nói băng tần rộng hoạt động với tốc độ truyền 32-64 kbit/giây. Công nghệ mã hóa dựa trên việc phân chia băng tần ADPCM. G.722.1 cung cấp được việc nén dữ liệu với tốt độ bit thấp. Một biến thể mới của G722.1 là G.722.2, được biết dưới tên là AMR-WB (Adaptive Multirate Wideband), cho phép việc nén với tốc độ thấp hơn nữa, có thể đáp ứng tốt với các kiểu nén khác nhau cũng như các thay đổi địa hình mạng. Trong trường hợp sau, băng thông được tự động bảo tồn khi có sự nghẽn mạch cao. Khi việc nghẽn quay trở về ở mức bình thường, thì chế độ tốc độ bit cao hơn và mức nén thấp hơn được phục hồi. Chuẩn G.722 và dữ liệu mẫu âm thanh tại tốc độ 16kHz, gấp đôi tốc độ xử lý tại các giao tiếp thoại truyền thống, kết quả là chất lượng thoại tốt hơn. Chuẩn G.722.1, được biết qua tên khác là “Siren™”, là một chuẩn quốc tế cho mã hóa âm thanh băng rộng ở tốc độ 24 và 32 kbps (băng thông thoại 50Hz-7kHz, tần số lấy mẫu là 16 ksps)tốc độ 16kb/giây), sử dụng trong các hệ thống hội nghị truyền hình được phê chuẩn vào 30 tháng 09 năm 1999. Chuẩn G.722.1 là bộ nén dựa trên sự biến đổi sao cho tối ưu hóa cả âm thoại lẫn nhạc. Độ phức tạp tính toán tương đối thấp đối với bộ nén chất lượng cao, độ trễ của giải thuật của hai điểm đầu cuối là 40ms. Phiên bản G.722.1/Annex C, được phê chuẩn bởi ITU-T vào 14 tháng 05 năm 2005, còn được biết thông qua tên Siren14™, được phát triển bởi Polycom với dạng không cần bản quyền truyền với tần số 14kHz (32ksps). 165 Số lượng mã hóa âm thanh băng tần rộng ITU đôi khi không được hiểu chính xác. Thực tế, có ba loại mã hóa cơ bản phân biệt, nhưng điều có chung một tên là G.722. Đầu tiên, G.722 là mã hóa với tần số 7kHz, sử dụng ADPCM hoạt động với tốc độ truyền 48-64kbps. Một phiên bản khác G.722.1 hoạt động với tốc độ dữ liệu bằng một nửa nhưng có chất lượng tốt như G.722 với phương pháp mã hóa dựa vào nền tảng chuyển đổi. Và chuẩn G.722.2, hoạt động với âm thoại băng tần rộng với tốc độ bit truyền rất thấp, sử dụng giải thuật CELP- based. Về vấn đề bản quuyền, đến thời điểm này, giấy đăng ký bản quyền cho G.722 đã hết hạn, cho nên hiện tại chuẩn này được xem như là chuẩn miễn phí. G.722.1 thuộc bản quyền của tập đoàn Polycom và chuẩn G.722.2 còn có tên là AMR-WB, thuộc quyền sở hữu của tập đoàn VoiceAge. G.722.2 (GSM AMR WB) Adaptive Multi Rate - WideBand hay AMR-WB là một chuẩn mã hóa tiếng nói được phát triển sau khi AMR sử dụng cùng công nghệ tương tự như ACELP. Mã cung cấp chất lượng âm thoại tuyệt vời bởi vì sử dụng băng tần thoại rộng hơn 50-7000 Hz khi so sánh với các mã âm thoại băng hẹp hiện đang dùng rộng rãi trong các POTS với 300-3400Hz. AMR- WB được hệ thống hóa thành G.722.2, là một chuẩn mã hóa âm thoại chuẩn ITU-T. Các trạng thái hoạt động của ẢM: AMR-WB hoạt động tương tự AMR với nhiều tốc độ bit khác nhau gồm: 6.60; 8.85; 12.65; 14.25; 15.85; 18.25; 19.85; 23.05 và 23.85 kbps. Tín hiệu truyền với tốc độ thấp nhất cho chất lượng thoại tốt nhất ứng với môi trường không nhiễu là 12.65 kbps. Tốc độ bit cao rất hữu dụng trong môi trường có nhiễu và trong trường hợp tín hiệu truyền là âm nhạc. Tốc độ bit 6.60 à 8.85 cung cấp chát lượng chấp nhận được khi so sánh với mã hóa băng tần hẹp. AMR-WB được chuẩn hóa cho việc sử dụng trong tương lai trong các hệ thống mạng như UMTS. Chuẩn này cung cấp chất lượng thoại tốt hơn rất nhiều và được chọn dùng cho nhiều mạng cũ hỗ trợ cho băng rộng. Tháng 10 năm 2006, kiểm nghiệm AMR-WB đầu tiên được thực hiện trên hệ thống mạng thực do T-Mobile và Ericssion phối hợp tại Đức. G.723 là một chuẩn ITU-T mã hóa âm thoại băng tần rộng, là chuẩn mở rộng của G.721 điều chế xung sai phân tương thích với tốc độ truyền 24 và 40 kbps cho các ứng dụng thiết bị nhân mạch số, hiện nay G.723 được thay thế bởi chuẩn G.276, do đó hiện tại chuẩn này là lỗi thời. Chuẩn G.723.1 là chuẩn mã hóa âm thanh cho thoại với tính năng nén thoại trong khung 30 mili giây, chu kỳ 7.5ms cũng được sử dụng. Nhạc hoặc âm tone như DTMF hoặc fax ton không thể truyền tin cậy với chuẩn mã hóa này, do đó một số các phương pháp khác nhưu G.711 hoặc phương pháp ngoài dãy băng tần dùng để truyền các tín hiệu này. Chuẩn G.723.1 chủ yếu dùng trong các ứng dụng Voice over IP (VoIP) vì yêu cầu băng thông thấp. Nó trở thành chuẩn ITU-T vào năm 1995, điều phức tạp của giải thuật là yêu cầu là dưới 16MIPS với 2.2kByte về RAM. 166 Có hai tốc độ bit mà G.723.1 có thể hoạt động: o 6.3 kbit/s (sử dụng khung 24 byte), dùng giải thuật MPC-MLQ (MOS 3.9) o 5.3 kbit/s (sử dụng khung 20 byte) dùng giải thuật ACELP (MOS 3.62) G.726 là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các tốc độ 16, 24, 32, và 40 kbps. Là chuẩn thay thế cho cả G.721 (ADPCM tốc độ 32kbps) và chuẩn G.723 (ADPCM với tốc độ 24 và 40 kbps). G.726 hoạt động với tần số là 16 kbps. Bốn tốc độ bit thường sử dụng cho chuẩn G.726 tương ứng với kích thước của một mẫu theo thứ tự là 2-bits, 3-bits, 4-bits, và 5-bits. Tốc độ thường dùng là 32 kbps, bởi vì đây chính là tốc độ bằng một nửa so với chuẩn G.711, như thế làm gia tăng dung lượng củ mạng lên 50%. Thông thường được dùng trong các mạng điện thoại quốc tế cũng như hệ thống điện thoại không dây DECT. G.721 được giới thiệu lần đầu tiên vào năm 1984, trong khi chuẩn G.723 được giới thiệu vào năm 1988. Cả hai được gộp chung thành chuẩn G.726 vào năm 1990. G.727 được giới thiệu cùng thời điểm với G.726, cùng tốc độ bít nhưng tối ưu hơn cho môi trường PCME Packet Circuit Multiplex Equipment. Điều này đạt được bằng cách nhúng bộ lượng tử hóa 2 bit vào bộ lượng tử hóa 3 bit, cho phép hủy bỏ bit có trọng số nhỏ nhất trong chuỗi bit truyền mà không có ảnh hưởng xấu đến tín hiệu âm thoại. G.728 là chuẩn ITU-T mã hóa âm thoại với tốc độ 16kbps. Công nghệ sử dụng là LD- CELP, Low Delay Code Excited Linear Prediction. Độ trễ của mã chỉ 5 mẫu ( 0.625 ms). Dự đoán tuyến tính được thực hiện tính toán với bộ lọc LPC ngược bậc 50. Ngõ vào kích thích được tạo ra để đảm bảo nhận được độ lợi VQ. Chuẩn được đưa ra vào năm 1992 dưới dạng giải thuật mã dấu chấm động. Năm 1994, bản dùng cho dấu chấm tĩnh được phát hành. G.728 có tốc độ lên đến 2400 bps. Độ phức tạp của bảng mã là 30 MIPS, với yêu càu 2.2kByte về RAM. G.729 là một giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín hiệu âm thanh với khung 10 mili giấy. Các tone nhạc như DTMF hoặc fax không thể truyền với bộ mã hóa này, mà phải sử dụng G.711 hoặc phương pháp ngoại băng tần để truyền các tín hiệu này. G.729 đa số dùng trong các ứng dụng Voice over IP (VoIP) với yêu cầu băng tần thấp. Chuẩn G.729 hoạt động ở tốc độ 8 kbps, nhưng các phiên bản mở rộng có thể hoạt động tại 6.4 kbps đối với môi trường truyền xấu và 11.8 kbps với yêu cầu chất lượng thoại tốt hơn. Trong thực tế, người ta thường dùng chuẩn G.729a, tương tự như G.729 nhưng có độ tính toán đơn giản hơn, tuy nhiên chuẩn này lại không cho chấtl lượng thoại tốt hơn. Phiên bản G.729b là một chuẩn có bản quyền, sử dụng module VAD để phát hiện tín hiệu thoại hay phi thoại. Nó cũng bao gồm một module DTX dùng để quyết định nâng cấp các thông số nhiễu nền cho tín hiệu phi thoại (các khung nhiễu). Các khung này được truyền để thực hiện việc nâng cấp này được gọi là các khung SID. Một bộ tạo nhiễu (CNG) cũng được tích hợp trong chuẩn này, bởi vì trong một kênh truyền, nếu việc truyền bị dừng lại vì lý do tín hiệu là tín hiệu phi thoại, thì site còn lại sẽ xem như đường kết nối này bị đứt. Vì thế khi sử dụng chuẩn này cần phải thận trọng. 167 Những năm gần đây, chuẩn G.729 đã được nghiên cứu mở rộng để hỗ trợ cho tín hiệu âm thoại băng tần rộng và mã hóa âm thanh thành chuẩn G.729.1. Bộ mã hóa G.729.1 được thiết kế theo mô hình phân cấp, tốc độ bit và chất lượng điều hiệu chỉnh đơn giản bằng cách thức cắt giảm chuỗi bit truyền. G.729.1 thêm chức năng băng tần rộng so với G.729 thông qua các lớp được nhúng vào. Lớp đầu tiên trên cùng G.729 (12kps) vẫn là dạng băng tần hẹp. 14 kbps thêm vào chất lượng băng tần rộng thông qua việc tái tạo phổ, sử dụng đóng gói thời gian và đóng gói tần số (có tốc độ truyền cộng thêm là 2kbps). Các lớp khác ( ứng với từn bước 2 kbps) thêm nhiều thông tin về nội dung của phổ ở các tần số cao và như thế làm gia tăng chất lượng tín hiệu. Các mã được phát triển bởi sự phối hợp của các tổ chức: France Telecom, tập đoàn Mitsubishi Electric, tập đoàn Nippon Telegraph và Telephone (NTT), và Université de Sherbrooke. 2. Các tiêu chuẩn của ITU- T cho hình ảnh và Video. Chuẩn H.261 là chuẩn ITU mã hóa tín hiệu video năm 1990 được đưa ra để truyền trên hệ thống đường dây ISDN với các tốc độ dữ liệu là số nhân của 64 kbps. Tốc độ dữ liệu của giải thuật mã hóa được đưa ra để có thể hoạt động được giữa 40 kbps và 2 Mbps. Chuẩn hỗ trợ các khung video CIF và QCIF với độ phân giải 352x288 và 176x144 theo thứ tự tương ứng (và 4:2:0 mẫu với độ phân giải màu là 176x144 và 88x72 theo thứ tự tương ứng). Chuẩn cũng xét đến tình huống dự phòng cho việc truyền các hình với độ phân giải 704x576 ( được hiệu chỉnh vào năm 1994). Chuẩn H.261 là chuẩn mã hóa tín hiệu video số đầu tiên được áp dụng trong thực tế. Việc thiết kế chuẩn H.261 là một nỗ lực tiên phong, các chuẩn mã hóa video toàn cầu sau này (MPEG-1, MPEG-2/H.262, H.263, và ngay cả H.264) cũng chủ yếu dựa trên chuẩn này. Ngoài ra, cac phương pháp được sử dụng bởi hội đồng phát triển H.261 (đứng đầu là Sakae Okubo) cộng tác phát triển chuẩn vẫn được ứng dụng trong các công việc chuẩn hóa các chuẩn sau này trong lĩnh vực này. Giải thuật mã hóa sử dụng một hybrid của sự chuyển dộng của ước đoán hình ảnh nội tại và mã hóa truyền trong không gian với việc lượng tử vô hướng, phân hình theo kiểu zig-zac và mã hóa entropy. 2.1 Chuẩn H.261 Quá trình cơ bản của việc thiết kế được gọi là macroblock. Mỗi macroblock bao gồm 1 dãy 16x16 các mẫu luma và hay dãy mẫu chroma 8x8 dùng việc lấy mẫu 4:2:0 và không gian màuYCbCr. Dự đoán hình ảnh nội tại thực hiện laọi bỏ các dư thừa tạm thơi, với các vector chuyển động được dùng để hỗ trợ cho việc bù mã hóa cho việc di động. Mã di chuyển sử dụng chuyển đổi cosin rời rạc 8x8 (DCT) dùng để loại bỏ các dư thừa thuộc không gian, và các hệ số biến đổi lượng tử được phân hình theo kiểu zig-zac và mã hóa entropy (dùng mã Run- Level variable-length) để loại bỏ các dư thừa đã thống kê. Chuẩn H.261 thật sự chỉ định rõ bằng cách nào để giải mã video. Các nhà thiết kế bộ mã hóa được tự do trong việc đưa ra các giải thuật mã hóa của riêng họ, ngay cả với tín hiệu ngõ ra bộ mã hóa không được tự nhiên nhằm mục đích có thể được giải mã bằng bất kỳ bộ giải mã nào miễn là được thiết kế theo đúng chuẩn. Các bộ mã hóa cũng được thiết kế tuỳ ý 168 nhằm thực hiện quá trình tiền xử lý mà chúng muốn ngõ vào video ưu tiên mặc định thực hiện. Một kỹ thuật hiệu quả trong vấn đề hậu xử lý trở thành phần tử chính yếu của các hệ thống tốt nhất dựa trên chuẩn H.261 là lọc giải khóa. Nó thực hiện việc giảm sự xuất hiện của vật nhân tạo nhiễu có dạng hình khối gây ra bởi việc bù di động theo dạng khối và các phần chuyển đổi do việc thiết kế tạo ra. Việc lọc giải khóa đã trở thành một phần tích hợp trong hầu hết các chuẩn hiện nay, H.264 (ngay cả sử dụng chuẩn H.264, việc hậu xử lý vẫn cho phép thực hịên và có thể cho được chất lượng cao) Việc lọc được đề cập trong việc chuẩn hóa có ảnh hưởng đến việc cải tiến quan trọng giữa khả năng nén và thiết kế H.261. Tuy nhiê, H.261 vẫn là định hướng lịch sử chính trong lãnh vực phát triển của mã hóa video. 2.2 Chuẩn H.262 Chuẩn H.262 là một chuẩn mã hóa video số ITU-T. Chuẩn này liên quan đến phần video của chuẩn ISO/IEC MPEG-2 (được biết dưới cái tên ISO/IEC 13818-2). Chuẩn này được phát triển do sự hợp tác của ITU-T và các tổ chức ISO/IEC JTC 1, và trở thành chuẩn chung cho cả hai tổ chức này. ITU-T Recommendation H.262 và ISO/IEC 13818-2 được phát triển và phát hành dưới dạng là chuẩn quốc tế. Hai tài liệu này mô tả hầu hết tất cả các khía cạnh của chuẩn. 2.3 Chuẩn H263 Chuẩn H.263 là chuẩn mã hóa ITU-T thiết kế vào năm 1995/1996 dùng cho giải pháp mã hóa nén tốc độ truyền thấp cho các dịch vụ hội nghị truyền hình. Mã đầu tiên được thiết kế trong các hệ thống H.324 (PSTN hoặc các mạch chuyển mạch mạch khác truyền dịch vụ hội nghị truyền hình và điện thoại truyền hình), cũng như trong các hệ thốgn dùng mã H.323 (hội nghị truyền hình RTP/IP-based), H.320 (hội nghị truyền hình ISDN-based), RTSP (phương tiện truyền thông dạng streaming) và SIP (hội nghị Internet). Hầu hết nội dung Flash Video( dùng trên các site như YouTube, Google Video, MySpace, v.v….) được mã hóa dưới dạng định dạng này, tuy vẫn có site sử dụng mã hóa VP6, hỗ trợ phiên bản Flash 8. Tín hiệu video H.263 có thể được giải mã bằng thư viện phi bản quyền LGPL-licensed dùng trong các chương trình như ffdshow, VLC media player và MPlayer. Chuẩn H.263 được phát triển như là một phiên bản nâng cấp dựa trên chuẩn H.261, và chuẩn MPEG-1, MPEG-2. Phiên bản đầu tiên được hoàn thành vào năm 1995 và hoàn toàn phù hợp trong việc thay thế cho H.261 với tất cả các tốc độ truyền. Hiện tại đã có các phiên bản H.263v2 (còn gọi là chuẩn H.263+ 1998) và chuẩn H.263v3 (H.263++ 2000). Chuẩn mã hóa được ITU-T sau H.263 là H.264, còn có tên là AVC và MPEG-4 phần thứ 10. Hầu hết các sản phẩm hội nghị truyền hình công nghệ mới hiện nay luôn tích hợp cả ba chuẩn H.264, H.263 và H.261. 2.4 Chuẩn H264 169 Chuẩn H.264, MPEG-4 Part 10, hay AVC (dùng cho Advanced Video Coding), là một chuẩn mã hóa video số với độ nén cực cao, là kết quả của ITU-T Video Coding Experts Group (VCEG) kết hợp với ISO/IEC Moving Picture Experts Group (MPEG), được xem là sản phẩm thương mại Joint Video Team (JVT). Chuẩn ITU-T H.264 và ISO/IEC MPEG- 4 Part 10(ISO/IEC 14496-10) ứng dụng các công nghệ lý tưởng. Phiên bản nháp đầu tiên được hoàn thành vào tháng 05 năm 2003. Chuẩn H.264 được đặt tên theo cùng dòng ITU-T H.26x của các chuẩn video, trong khi tên AVC được đặt tên dựa theo tên dự án hợp tác, với tên của dự án là H.26L. Chuẩn còn được gọi bằng các tên khác H.264/AVC, AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264 AVC nhằm nhấn mạnh tính kế thừa. Đôi khi, còn được gọi là “mã hóa JVT” với lý do là tổ chức JVT phát triển. Mục đích của dự án H.264/AVC là tạo ra một chuẩn có khả năng cung cấp tín hiệu video chất lượng cao với các tốc độ bit truyền thấp, nhỏ hơn hay bằng một nửa so với tốc độ của các chuẩn trước ( như MPEG-2, H.263, hay MPEG-4 Part 2) với tính ứng dụng cao trong thực tế. Ngoài ra, chuẩn phải đáp ứng yêu cầu cung cấp cách thức linh động cho phép chuẩn được ứng dụng rộng rãi trong nhiều trình ứng dụng ( ví dụ cho cả tốc độ bit cao và thấyp hoặc độ phân giải cao hoặc thấp, và chạy ổn định trong nhiều hệ thống cũng như mạng ( cho việc broadcast, lưu trữ DVD, mạng gói RTP/IP, và các hệ thống tổng đài đang phương tiện ITU-T) 2.5 Chuẩn JVT Chuẩn JVT đã hoàn thành việc nâng cấp, phát triển một số tính năng mở rộng so với chuẩn nguyên thuỷ, được biết dưới tên là Fidelity Range Extensions (FRExt). Các phiên bản mở rộng hỗ trợ mã hóa video với độ trung thực cao bằng cách thức gia tăng độ chính xác lấy mẫu (bao gồm mã hóa 10-bit và 12-bit) với thông tin màu độ phân gải cao (gồm các cấu trúc lấy mẫu như YUV 4:2:2 và YUV 4:4:4). Một số tính năng khác trong dự án Fidelity Range Extensions ( như phép biến đổi số nguyên chuyển mạch tương thích 4×4 và 8×8, các ma trận trọng số lượng tử hóa dựa trên giác quan, mã hóa không mất mát hình nội tại hiệu quả, hỗ trợ các không gian màu cộng thêm và phép biến đổi màu số dư). Công việc thiết kế trong dự án được hoàn thành vào tháng 7 năm 2004 và phiên bản nháp được ra mắt vào tháng 09 năm 2004. 170 TÀI LIỆU THAM KHẢO 1. Anil K. Jain, Fundamentals of Digital Image Processing, Prentice Hall, 1988. 2. J. R. Parker, Algorithms for Image Processing and Computer Vision, Wiley, 1996. 3. Alan C. Bovik , Handbook of Image and Video Processing, Academic Press, 2000. 4. John R. Deller, John H. L. Hansen, John G. Proakis, Discrete-Time Processing of Speech Signals, Wiley-IEEE Press, 1999. 5. R. C. Gonzalez, R. E. Woods, Steven L. Eddins, Digital Image Processing Using MATLAB, Prentice Hall, 2003. 6. R. C. Gonzalez, R. E. Woods Digital Image Processing , Prentice Hall, 2002. 7. William K. Pratt, Digital Image Processing: PIKS Inside, Third Edition © 2001 John Wiley & Sons, Inc. 9. Michael Robin & Michel Poulin, Digital Television Fundamental, McCraw-Hill Companies. Inc. 10. Đỗ Hoàng Tiến, Dương Thanh Phương Truyền hình kỹ thuật số. NXB Khoa học và kỹ thuật, 2004. 11. Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, NXB Khoa học và kỹ thuật, 1999. 171 MỤC LỤC LỜI NÓI ĐẦU 1 CHƯƠNG 1 KỸ THUẬT XỬ LÝ ÂM THANH 3 1.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH 3 1.1.1 Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh 3 1.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh 10 1.2 MÔ HÌNH XỬ LÝ ÂM THANH 13 1.2.1 Các mô hình lấy mẫu và mã hoá thoại 13 1.2.2 Các mô hình dùng trong xử lý âm thanh 19 1.2.3 Mô hình thời gian rời rạc 27 1.3 LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN 30 1.3.1 Phân tích dự đoán tuyến tính 30 1.3.2 Dự đoán tuyến tính trong xử lý thoại 36 1.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI 40 1.4.1 Các phương pháp mã hoá 40 1.4.2 Các tham số liên quan đến chất lượng thoại 41 1.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản 41 1.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI 48 1.5.1 Mô hình thời gian động 48 1.5.2 Mô hình chuỗi markov ẩn 53 1.5.3 Mạng nơron 55 CHƯƠNG 2: KỸ THUẬT XỬ LÝ ẢNH 60 2.1 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ VIDEO SỐ 60 2.1.1 Khái niệm cơ bản về xử lý ảnh 60 2.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh 61 2.1.3 Các giai đoạn chính trong xử lý ảnh 62 2.1.4 Các phần tử của hệ thống xử lý ảnh số 64 2.1.5 Biểu diễn ảnh số 67 2.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số 92 2.2 PHÂN TÍCH CÁC KỸ THUẬT XỬ LÝ ẢNH VÀ VIDEO 106 2.2.1 Khái niệm về quan hệ giữa các điểm ảnh 106 2.2.2 Các phương pháp xác địnhvà dự đóan biên ảnh 109 2.3 CÁC KỸ THUẬT NÉN ẢNH 115 2.3.1 Giới thiệu chung về kỹ thuật nén ảnh 115 2.3.2 Phương pháp nén ảnh JPEG 121 2.3.3 Chuẩn nén MPEG 140 2.3.4 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén 162 PHỤ LỤC: GIỚI THIỆU CÁC TIÊU CHUẨN MÃ HÓA ÂM THANH VÀ HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN 164 172 1. Các tiêu chuẩn của ITU- T cho âm thanh 164 2. Các tiêu chuẩn của ITU- T cho hình ảnh và Video 167 TÀI LIỆU THAM KHẢO 170 XỬ LÝ ÂM THANH, HÌNH ẢNH Mã số: 411XAH450 Chịu trách nhiệm bản thảo TRUNG TÂM ÐÀO TẠO BƯU CHÍNH VIỄN THÔNG 1

Các file đính kèm theo tài liệu này:

Tailieu.Sharingvn.NETXulyamthanhhinhanh.pdf