Bài giảng: XỬ LÝ ÂM THANH, HÌNH ẢNH
 Tác giả: TS. NGUYỄN THANH BÌNH - ThS NGUYỄN QUỐC BẢO
 Xuất bản: 2007 – HV BCVT
 Nội dung chính:
 Chương 1: Kỹ thuật xử lý âm thanh 
 Chương 2: Kỹ thuật xử lý hình ảnh
 Hình thức: PDF, tiếng Việt
                
              
                                            
                                
            
 
            
                 175 trang
175 trang | 
Chia sẻ: banmai | Lượt xem: 2960 | Lượt tải: 5 
              
            Bạn đang xem trước 20 trang tài liệu Xử lý âm thanh, hình ảnh (HV BCVT), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
 cấp theo SNR): có các công cụ của main 
profile và cho phép phân cấp theo tỉ số tín hiệu trên tạp âm. Tính phân cấp theo tỉ số tín hiệu 
trên tạp âm có nghĩa là chất lượng hình ảnh và tỉ số tín hiệu trên tạp âm có tính thõa hiệp. 
Chuỗi ảnh có thể chia thành hai phân lớp phân biệt nhau về chất lượng. Các lớp thấp bao gồm 
ảnh có chất lượng cơ sở, lớp cao bao gồm các lớp hoàn thiện hơn đối với lớp thấp hơn, cho 
phép khôi phục cùng ảnh đó nhưng chất lượng tốt hơn. Lớp thấp hơn, ví dụ chứa tín hiệu 
video theo chuẩn 4:2:0, còn lớp cao hơn với tín hiệu video trong chuẩn 4:2:2. Có thể mã hóa 
kênh khác nhau cho các lớp riêng. Trong trường hợp này, lớp dưới có tín hiệu video chất 
lượng thấp hơn ( ví dụ lượng tử hóa với độ chính xác thấp). Còn lớp cao hơn thì lớp bảo vệ 
cho phép khôi phục lại tín hiệu video với độ chính xác đầy đủ thông số kênh truyền hoặc bộ 
mã hóa. 
• Spatially Scalable profile (phân cấp theo không gian): tương tự với SNR profile 
nhưng thêm vào lớp cơ bản lớp nâng cao chất lượng độ phân giải ảnh (Picture Resolution 
Enhancement layer). Tính phân cấp theo không gian có nghĩa là có sự thõa hiệp đối với độ 
phân giải. Chuỗi ảnh được chia ra thành hai lớp tương ứng với các độ phân giải khác nhau của 
ảnh. Lớp thấp hơn bao gồm ảnh có độ phân giải thấp ví dụ như truyền hình tiêu chuẩn, lớp 
cao hơn bao gồm ảnh có độ phân giải cao hơn ví dụ như truyền hình độ phân giải cao 
(HDTV). 
• High profile (profile cao): gồm các đặc điểm của spatial profile thêm vào cấu 
trúc lấy mẫu 4:2:2. Nó bao gồm toàn bộ các công cụ của spatially scalable profile cộng thêm 
khả năng mã hóa các tín hiệu màu khác nhau cùng một lúc. Nó được dự định dùng cho 
HDTV, cho phép các bộ thu HDTV giải mã cả hai lớp để hiển thị một ảnh HDTV. “High 
profile” là một hệ thống hoàn hảo được thiết kế cho toàn bộ các ứng dụng mà không hạn chế 
tốc độ bit. 
• 4:2:2 profile: tương tự MP, nhưng cho phép một tốc độ bit cao hơn. Nó gia tăng 
kích thước ảnh dọc lên 576 lines với chuẩn quét 625/50 và 512 lines với chuẩn quét 525/60. 
 153
Vấn đề hạn chế các mức có liên quan đến độ phân giải cực đại của ảnh. Có 4 mức hạn 
chế sau : 
• Low level (mức thấp): ứng với độ phân giải của MPEG-1, có nghĩa là bằng ¼ độ 
phân giải truyền hình tiêu chuẩn. 
• Main level (mức chính): độ phân giải của truyền hình tiêu chuẩn. 
• High – 1440 level (mức cao 1440): độ phân giải của HDTV với 1440 mẫu/dòng. 
• High level (mức cao): độ phân giải HDTV với 1920 mẫu/dòng. 
Bảng 2.3.6. Bảng thông số chính profile và level của tín hiệu chuẩn MPEG-2. 
 Profile 
Level 
Đơn giản 
(Simple) 
Chính 
(Main) 
Phân cấp 
theo SNR 
Phân cấp 
theo không 
gian 
Cao 
(High) 
Thấp 
(Low) 
 4:2:0 
352x288 
4 Mbps 
4:2:0 
352x288 
4Mbps 
I, P, B 
Chính 
(Main) 
4:2:0 
720x576 
15 Mbps 
I, P 
4:2:0 
720x576 
15 Mbps 
I, P, B 
4:2:0 
720x576 
15 Mbps 
I, P, B 
 4:2:0 
720x576 
20 Mbps 
I, P, B 
Cao – 1440 
(High–
1440) 
 4:2:0 
1440x1152 
60 Mbps 
I, P, B 
 4:2:0 
1440x1152 
60 Mbps 
I, P, B 
4:2:0,4:2:2 
1440x1152 
80 Mbps 
I, P, B 
Cao 
(High) 
 4:2:0 
1920x1152 
80 Mbps 
I, P, B 
 4:2:0,4:2:2 
1920x1152 
100 Mbps 
I, P, B 
Kết hợp 4 level và 5 profile ta được tổ hợp 20 khả năng và hiện nay đã có 11 khả năng 
được ứng dụng như Bảng 2.3.6 (theo tài liệu của Tektrronic). Trong các ô của Bảng 2.4.6, lần 
lượt từ trên xuống là: tỷ lệ lấy mẫu (4:2:0 hoặc 4:2:2); dòng dưới ghi điểm ảnh theo chiều 
 154
ngang x theo chiều dọc; dòng dưới nữa là vận tốc cao nhất của dòng dữ liệu sau khi nén; dòng 
cuối cùng là các loại ảnh sử dụng để nén. 
2.3.3.10.4 Ứng dụng MPEG-2 trong nén tín hiệu video 
 Các tính chất nén tín hiệu video 
Tính chất nén tín hiệu video (hoặc giảm tốc độ bit của video BRR – Bit rate reduction) 
là sự kết hợp nhiều yếu tố khác nhau : 
• Tỉ lệ nén : tỉ lệ nén từ 2:1 đến 150:1, tùy thuộc vào chất lượng ảnh yêu cấu cho 
từng ứng dụng. 
• Chất lượng ảnh : chất lượng ảnh cao thường dùng cho khâu xử lý ảnh, trong 
khâu hậu kỳ (dựng hình); giảm hơn trong khâu lấy tin (news), truyền dẫn phát sóng. 
• Khả năng tạo nhiều lần : Trong quá trình sản xuất hậu kỳ, truyền dẫn phát sóng; 
tín hiệu video gốc phải đi qua nhiều công đoạn, nén và giải nén. 
• Đối xứng/ không đối xứng : với sơ đồ nén đối xứng, số lượng xử lý ở phần mã 
hóa và giải mã giống nhau. Sơ đồ MPEG-2 là không đối xứng vì các công đoạn giải mã ít hơn 
so với mã hóa. 
• Trễ giữa mã hóa và giải mã : độ trễ này phụ thuộc vào cấu trúc và độ phức tạp 
của bộ mã hóa, kích thước GOP và chuỗi GOP. Trong truyền hình, độ trễ tổng cộng có thể 
chấp nhận được là <1ms cho trường hợp phỏng vấn trực tiếp. Trong truyền dẫn phát sóng thì 
vấn đề này ít khắc khe hơn. 
• Khả năng dựng hình : dựng hình với độ chính xác 1 frame là yêu cầu cao trong 
khâu hậu kỳ. Hiện tại, trong khâu hậu kỳ phải giải mã nhiều frames (I, B, P) và mã hóa lại sau 
khi cấy một đoạn mới vào. Do có thể thay đổi chiều dài GOP xuống còn ảnh I, cho nên 
MPEG-2 cho phép dựng hình với độ chính xác từng frame. 
• Độ phức tạp và giá thành : có một sự thỏa hiệp giữa kỹ thuật xấp xỉ chuyển động 
có hiệu quả (nâng cao hiệu quả nén cao) và giảm độ phức tạp và giá thành của các chip xử lý. 
2.3.3.11 Tiêu chuẩn MPEG-4 
MPEG-4 bao gồm 2 phần là version 1 và version 2. Bắt đầu từ năm 1993 và hình thành 
các đề nghị vào tháng 7 năm 1995. Các đề nghị về audio và video được đánh giá bởi các 
chuyên gia và đưa ra bản thảo vào tháng 11 năm 1997 và trở thành tiêu chuẩn quốc tế 
ISO/IEC vào năm 1999. Năm 2000 MPEG-4 được bổ xung và nâng cấp lên thành các version 
3 và 4. 
Đặc điểm chính của MPEG-4 là mã hóa video và audio với tốc độ bit rất thấp. Thực tế 
tiêu chuẩn đưa ra với 3 dãy tốc độ bit 
- dưới 64 kbps 
- 64 đến 384 kbps 
- 384 Kbps đến 4 Mbps 
 155
Đặc điểm quan trọng của chuẩn MPEG-4 là cho phép khôi phục lỗi tại phía thu, vì vậy 
chuẩn nén này đặc biệt thích hợp đối với môi trường dễ xãy ra lỗi như truyền dữ liệu qua các 
thiết bị cầm tay. Những profile và level khác trong MPEG-4 cho phép sử dụng tốc độ bit lên 
đến 38.4 Mbps và việc xử lý chất lương studio cần các profile và level lên đến 1.2Gbps. 
MPEG-4 là chuẩn quốc tế đầu tiên dành cho mã hoá các đối tượng (object) video. Với 
độ linh động và hiệu quả do mã hoá từng đối tượng video, MPEG-4 đạt yêu cầu ứng dụng cho 
các dịch vụ nội dung video có tính tương tác và các dịch vụ truyền thông video trực tiếp hay 
lưu trữ. Trong MPEG-4, khung ảnh của một đối tượng video (hay còn gọi là phẳng đối tượng 
video) được mã hoá riêng lẽ. Sự cách ly các đối tượng video như vậy mang đến độ mềm dẻo 
hơn cho việc thực hiện mã hoá thích nghi làm tăng hiệu quả nén tính hiệu. Mặc dù tập trung 
vào những ứng dụng tốc độ bit thấp nhưng MPEG-4 cũng bao gồm cả studio chất lượng cao 
và HDTV 
Các đối tượng khác nhau trong một cảnh gốc có thể được mã hóa và truyền đi riêng biệt 
như là video object và audio object và được kết hợp trở lại tại bộ giải mã. Các loại object khác 
nhau sẽ được mã hóa với những kỹ thuật khác nhau và với các công cụ phù hợp nhất. Những 
object khác nhau có thể được tạo ra một cách độc lập và trong một vài trường hợp một cảnh 
có thể phân tích riêng thành object nền (background) và object cận cảnh. Ví dụ: đoạn video 
quay trận bóng đá được xử lý để tách riêng quả bóng ra khỏi cảnh sân cỏ. Background (cảnh 
không có quả bóng ) sẽ được truyền đi và ai cũng có thể thấy game để thu hút khan giả nhưng 
chỉ những người có trả tiền mới thấy quả bóng. 
Hình 2.3.24 cho thấy các khái niệm chung về quá trình mã hóa và giải mã các đối tượng 
độc lập trong chuẩn nén MPEG-4. 
Máy 
quay 
video
Bộ 
tách 
các 
object 
trong 
ảnh
Mã hóa 
object
Mã hóa 
object
Mã hóa 
object
Mul
tip
lex
De
mul
tip
lex
Giải mã 
object
Giải mã 
object
Giải mã 
object
Tổng 
hợp
đối 
tượng
Màn 
hình
Hình 2.3.24 Nguyên lý mã hóa tín hiệu hình ảnh trong MPEG-4 
Như đã biết không có phương pháp mã hóa nào có thể gọi là tối ưu hoàn toàn. DCT và 
phép lương tử chỉ tối ưu đối với các ảnh có băng thông giới hạn và các ảnh có mức chói thay 
đổi chậm nhưng sẽ không tối ưu với nhiều chi tiết ảnh có kích thước nhỏ thường xuất hiên 
trên đoạn video. Một ví dụ đơn giản nếu một cảnh có xen các dòng chữ (text) thì hệ thống 
thông thường sẽ xem các chữ như là các chi tiết ảnh thường, do đó sau khi mã hóa bằng 
MPEG-1 hay MPEG2,các chi tiết nhỏ được thêm vào với cách thức như trên sẽ tạo ra tín hiệu 
năng lượng có tần số cao và các cạnh của dòng chữ sẽ không được mã hóa tốt bởi DCT 
Do đó việc thêm chữ vào ảnh hưởng rất lớn đến hiệu suất mã hóa video. Tuy nhiên có 
thể mã hóa các chữ theo một cách đơn giản như các ký tự thuộc mã ASCII, vị trí, font, kích 
thước, màu, thông tin về không gian có thể được thêm vào với số bit tương đối nhỏ. Nhưng để 
làm điều này bộ giải mã cần phải có khả năng tạo ra các title từ những thông tin được cung 
 156
cấp và khóa các title này khi qua bộ giải mã video trước khi hiển thị. Việc giải mã luồng bit 
video MPEG-4 yêu cầu bộ giải mã có nhiều cơ chế giải mã và khả năng thực hiện các hoạt 
động đa hợp. Trong MPEG-4 có thể truyền nhiều luồng text và việc chọn ở bộ giải mã luồng 
nào trong số những luồng trên kết hợp với video. Việc lựa chọn này có thể do người xem 
quyết định hoặc do các thông tin khác được truyền trong luồng bit. 
Ba đặc tính rất quan trọng của MPEG-4 là: 
- Nhiều object có thể được mã hóa với các kỹ thuật khác nhau và kết hợp lại ở bộ 
giải mã 
- Các object có thể là các cảnh có được từ camera hay tự tạo như text 
- Các thông tin trong luồng bit có thể hiển thị nhiều dạng khác nhau từ cùng một 
luồng bit (tùy theo lựa chọn người xem chẳng hạn như ngôn ngữ) 
MPEG-4 cho khả năng mã hóa video và audio hơn hẳn MPEG-2 cũng như khả năng 
khôi phục lỗi. Tuy nhiên sức mạnh thật sự của MPEG-4 là các ứng dụng mới mà có thể xây 
dựng dựa vào việc mã hóa độc lập các object cho hiệu suất mã cao hơn, và việc tách riêng các 
object cho phép tương tác các object với nhau đặc biệt là các chương trình giáo dục và các trò 
chơi. Và cũng do khả năng tách biệt các object mà có thể thay đổi tỷ lệ tạm thời chẳng hạn 
như vẫn duy trì độ phân giải của các object cận cảnh quan trọng nhưng giảm ảnh phong xuống 
tốc độ thầp hơn nếu hệ thống sử dụng có băng thông bị hạn chế hoặc thiếu tài nguyên (bộ nhớ, 
tốc độ tính) 
Tuy nhiên cũng có một số nhược điểm là bộ giải mã phải có khả năng giải mã hết tất cả 
các luồng bit mà nó hổ trợ và có khả năng kết hợp. Do đó phần cứng của bộ giải mã MPEG-4 
phức tạp hơn so với bộ giải mã MPEG-2. Và ngày nay thì càng có nhiều bộ mã thực hiện giải 
mã bằng phần mềm nhưng bộ giải mã bằng phần cứng có thể bị hạn chế về khả năng linh hoạt 
2.3.3.11.1 Video trong MPEG-4 
Trước khi tìm hiểu kỹ thuật nén video trong MPEG-4 cần tìm hiểu cấu trúc của một 
cảnh video được MPEG-4 định nghĩa. Một cảnh tiêu biểu bao gồm phong ảnh (background) 
một hoặc nhiều đối tượng cận ảnh (foreground) chẳng hạn như đồ vật, một hoặc nhiều người 
và một vài phần tử đồ họa. Trong MPEG-1 và 2 một cảnh được lấy mẫu một lần cho một 
khung và tạo ra các bitmap sẽ được mã hóa. MPEG-4 cũng làm việc giống như vậy nhưng nó 
có thể giải quyết từng đối tượng riêng rẽ. Để đơn giản hơn có thể không xét đến các đồ vật 
như vậy ngoài các thành phần đồ họa cảnh bao gồm background, một người được xem là 
foreground. Ví dụ: người dự báo thời tiết đứng trước nền màu xanh biển hay xanh lá cây và 
một nền (background) khác chẳng hạn như bản đồ thời tiết gọi là “chroma keyed”. Trong 
studio ảnh một người đứng trước nền màu sẽ được xử lý để loại bỏ nền màu và tạo thành “key 
signal” hay alpha channel diễn tả hình dạng của người cận cảnh. Thông tin về hình dạng 
người sẽ được kết hợp với thành phần cảnh. Nơi người đứng thì cảnh nền được thay thế bằng 
ảnh người và những nơi khác của ảnh nền thì không thay đổi. Trong thuật ngữ của MPEG-4 
thì người cận ảnh được xem là đối tượng video (video object) được tương trưng bởi hai phần 
tử là ảnh video của người gọi là “texture” và key signal hay alpha channel được xem là shape. 
 157
2.3.3.11.2 Cấp độ của video MPEG-4 
Trước tiên object phải được lấy mẫu. Hầu hết các object được lấy mẫu trong khoảng 
thời gian không đổi (gọi là frame) và mỗi thời gian lấy mẫu đươc gọi là video object plane 
(VOP). Như vậy mỗi object trong một cảnh được tượng trưng bởi 1 chuỗi các VOP ngoại trừ 
các object tĩnh có thể dùng một VOP. 
VOP bao gồm dữ liệu texture và thông tin về đường nét (shape) có dạng chữ nhật hoặc 
dữ liệu đường nét phức tạp kết hợp với object. VOP cũng giống như các frame của các 
version trước của MPEG có thể được mã hóa với intradata hoặc sử dụng bù chuyển động. 
Tiếp theo là nhóm các VOP với nhau thành GOV (Group of video object planes). GOV 
tương tự như GOP (group of pictures) của MEPG trước và cung cấp điểm trong luồng bit mà 
VOP được mã hóa độc lập với các VOP khác và như thế nó cung cấp các điểm truy xuất ngẫu 
nhiên trong luồng bit 
VOL (Video object layer) cho phép thay đổi tỷ lệ mã hóa chuỗi các VOP hoặc GOV. 
Nhiều VOL tương ứng với nhiều tỷ lệ của chuỗi (VOP hoặc GOV) và mỗi tỷ lệ phù hợp với 
một tập các tài nguyên có thể thông thường giới hạn băng thông hoặc giới hạn khả năng tính 
toán. Mức video object (VO) bao gồm mọi thành phần trong luồng bit mô tả đối tương video 
đặc biệt. 
Cuối cùng là Video session (VS) là mức video cao nhất của cảnh MPEG-4 bao gồm tất 
cả đối tượng video cả tự nhiên và tự tạo trong một cảnh. 
2.3.3.11.3 Mã hóa đường nét (shape) 
Có hai loại đường nét với đối tượng video trong MPEG-4 là chữ nhật và tùy ý. Dạng 
chữ nhật chỉ đơn thuần là chỉ phạm vi của ảnh nên ít quan trọng. Tuy nhiên nó vẫn được dùng 
để tăng tính linh hoạt trong các chuẩn trước. Chẳng hạn trong MPEG-2 phạm vị của ảnh được 
mã hóa trong phần header của luồng bit. Trong MPEG-4 kích thước chữ nhật của đối tượng 
video nền đơn giản là có thể so sánh nhưng cũng có thể có các đối tượng chữ nhật khác trong 
cùng một session như ảnh trong ảnh (picture in picture). 
Đường nét cũng tượng trưng cho đối tượng video và ở bất kỳ điểm nào trong mặt phẳng 
ảnh nó xác định có đối tượng nào được kết hợp với nó thì có thể nhìn thấy được. Đường nét 
dạng chữ nhật được gọi là mask và có kích thước có thể thay đổi theo kích thước ngang và 
dọc lớn nhất của đối tượng. Cả hai kích thước ngang và dọc của mask là bội số của 16 pixel. 
Đường nét tùy ý có thể được mã hóa như dữ liệu nhị phân hoặc dữ liệu xám. Đường nét 
nhị phân là dạng đơn giản nhất chỉ ra đối tượng là rõ ràng hay không rõ ràng (thấy được hoặc 
không thấy) ở bất kỳ điểm đã cho. 
2.3.3.11.4 Mã hóa texture 
Mã hóa texture, là thuật ngữ trong MPEG-4 tương ứng với việc mã hóa dữ liệu ảnh 
chuyển động, dựa vào mã hóa MPEG-2 có mở rộng và cải tiến. Các đối tượng video có thể 
được mã hóa với I-VOP, P-VOP, B-VOP. Hầu hết các profile MPEG-4 đều sử dụng tiêu 
chuẩn 4:2:0 và YUV để mô tả đối tượng video texture. 
 158
Trong MPEG-4 không phải tất cả các đối tượng video có cùng kích thước và việc mã 
hóa texture chỉ cần thiết ở những khu vực là một phần của đối tượng. Đối với những đối 
tượng chữ nhật thì đơn giản chọn kích thước là bội số của 16 pixel (một macroblock) theo 
mỗi hướng và tất cả các macroblock sẽ được xử lý. Đối với các đối tượng có đường nét phức 
tạp thì đường biên (boundary) được định nghĩa là tín hiệu đường nét (shape signal). Phạm vi 
của đối tượng cũng được định nghĩa bởi dãy hình chữ nhật các macroblock nhưng mã hóa 
texture được thực hiện đối với toàn bộ các macroblock trên đường biên hoặc phần bên trong 
đường biên đối tượng 
I-VOP được mã hóa như khung I trong MPEG-2. MPEG-4 sử dụng bộ dự đoán thích 
ứng đối với các giá trị DC. Bộ dự đoán cũng xác định gradient độ sáng ngang và dọc và dự 
đoán giá trị DC từ các khối ở trên và bên trái theo hướng của gradient nhỏ hơn 
Sự tương quan của các ảnh ngoài việc có lợi cho dự đoán hệ số DC còn giúp việc mã 
hóa các hệ số AC. Những vùng texture giống nhau sẽ tạo ra một dãy các hệ số AC giống 
nhau sau khi biến đổi DCT. Các hệ số AC quan trọng nhất tương trưng cho năng lượng lớn 
nhất của texture giống nhau rất nhiều (có lợi cho quá trình mã hóa). Các hệ số này thông 
thường là các hệ số khác zero trong hàng đầu tiên hoặc cột đầu tiên, chúng thường được lượng 
tử hóa với mức độ chính xác cao nhất. Trong MPEG-4 các hệ số AC của hàng đầu tiên hoặc 
cột đầu tiên được dự đoán từ các khối ngay ở trên và bên trái. 
Việc lượng tử các hệ số cũng tương tự như phương pháp sử dụng trong MPEG-2 nhưng 
cơ chế quét các hệ số và mã hóa với chiều dài từ mã thay đổi thì được cải tiến hơn. 
Các phương pháp được chọn để đọc hệ số ra được xác định dựa vào quá trình dự đoán 
DC. Khi không có dự đoán DC thì quét zigzag như trong MPEG-2 được sử dụng. Nếu hệ số 
DC được dự đoán từ khối phía bên trái thì sử dụng quét dọc luân phiên (Alternate-vertical 
scanning) là hệ thống quét sẽ đọc theo chiều dọc trước tiên. Tuy nhiên nếu hệ số DC được dự 
đóan từ các khối ở trên thì chọn quét ngang luân phiên (Altrenate Horziontal scan). 
Để cải thiện hiệu quả của bộ mã hóa có chiều dài thay đổi (VLC) trong MPEG-4 dùng 
hai bảng VLC khác nhau. 
2.3.3.11.5 Mã hóa đường biên 
Khả năng mã hóa những đối tượng có đường nét tùy ý thường gặp những tình huống 
đặc biệt ở đường biên của đối tượng. Khi đó, các khối nằm bên ngoài đường biên thì không 
cần mã hóa texture. Nhưng tất cả những khối bên trong đường biên được mã hóa theo các kỹ 
thuật đã trình bày. Mã hóa texture cần cho các khối đường biên nhưng trong các khối đó chỉ 
có một phần thuộc đối tượng. Trước khi mã hóa đường biên, người ta thực hiện biện pháp 
"đệm" (padding) các khối này. Những pixel không phải là thành phần của đối tượng được gán 
cho những giá trị bằng nhau và bằng với giá trị trung bình của tất cả các pixel trong phần đối 
tượng. Giá trị của các pixel bên trong đối tượng không thay đổi. Việc thay đổi giá trị bên 
ngoài đối tượng không ảnh hưởng đến kết quả sau cùng bởi vì các pixel này không được hiển 
thị. Quá trình trên được xem là làm giảm thiểu năng lượng của các hệ số khi biến đổi DCT 
 159
2.3.3.11.6 Sprites 
MPEG-4 có một lọai đối tượng khác thường được dùng làm cảnh nền là sprite. Sprite là 
đối tượng video thường có kích thước lớn hơn màn hình hiển thị. Sprite là đối tượng được sử 
dụng liên tục trong một cảnh (tương tự như cảnh nền tĩnh). Thông thường một cảnh của game 
bao gồm cảnh nền và một số đối tượng nhân tạo di chuyển theo kịch bản của game và hành 
động của người chơi. Trong quá trình hành động cảnh được nhìn thấy chỉ là một vùng nhỏ 
trong cảnh nền, vùng này là thành phần của cùng một ảnh tĩnh (Hình 2.3.25). MPEG-4 cung 
cấp khả năng truyền toàn bộ cảnh nền như sprite và khả năng tạo cảnh khác nhau bằng cách 
truyền các thông tin cropping và wraping để xác định phần sprite sẽ được hiển thị ở một thời 
điểm nhất định. Sau khi sprite được truyền đi thì chỉ có thông tin cropping/wraping cho sprite 
và các đối tượng cận ảnh (foreground) cần được truyền. Trong game điển hình mỗi phần của 
sprite có thể được sử dụng nhiều lần vì thế lượng dữ liệu cần truyền sẽ giảm đáng kể. 
Hình 2.3.25 Cảnh nền (sprite) được truyền đi có kích thước lớn hơn khả năng hiển thị 
 của màn hình 
Việc truyền toàn bộ sprite ngay khi bắt đầu chương trình có thể rất hiệu quả nhưng sẽ 
làm tăng băng thông và thời gian truyền trước khi hoạt động có thể bắt đầu. MPEG-4 sử dụng 
phương pháp sau để tránh vấn đề này. Sprite có thể truyền từng phần khi cần. Một phần sprite 
cần thiết tại thời điểm tức thời sẽ được truyền đi. Tất cả các cảnh sprite sẽ được lưu trữ ở bộ 
giải mã như là một phần của sprite. Theo phương pháp khác, sprite có thể được mã hóa liên 
tiếp và truyền đi toàn bộ với độ phân giải thấp và độ phân giải cao hơn sẽ được truyền sau. 
Sprite được mã hóa như tín hiệu chói với hai thành phần màu như trong MPEG trước và 
luôn được mã Intra bởi vì bản chất của ảnh là tĩnh. 
2.3.3.11.7 Animations 
Như đã biết một trong số những điểm mạnh của MPEG-4 là khả năng truyền cả đối 
tượng tự nhiên cũng như các đối tượng được tự tạo ra (vì dụ hình animation) và kết hợp chúng 
ở bộ giải mã. Một trong nhiều khả năng thú vị sử dụng đối tượng nhân tạo là mặt người hoạt 
hình (facial animation). Đây cũng là một ví dụ khác của việc ánh xạ texture thành đường nét 
chuyển động nhưng trong trường hợp này đường nét được chỉ định bởi mô hình lưới hay mô 
hình 3D được hình thành bới các node. Vị trí của mỗi node được mã hóa sử dụng mã hóa dự 
đoán trước để tăng hiệu suất mã khi đường nét của khuôn mặt thay đổi. 
 160
Version 2 của MPEG-4 có thể thêm vào thân hình (body) động. Thân hình là một đối 
tượng có thể tạo ra các mô hình thân hình ảo và động dưới dạng tập hợp lưới 3D nhiều cạnh. 
Hai tập hợp các thông số định nghĩa cho body: Tập hợp các tham số định nghĩa body (BDP- 
body definition parameter) và tập hợp các thông số động body (BAP - body animation 
parameter). Tập BDP định nghĩa tập các thông số để biến đổi body mặc định thành các body 
theo yêu cầu khách hàng với bề mặt body, kích thước body và texture. Các tham số động 
body (BAP) cho phép tạo ra chuyển động với các mô hình body khác nhau. Như vậy, có thể 
ngay lập tức nhận BAP từ luồng bit thu mà tạo ra sự linh hoạt của body. Khi thu được, BDP 
được dùng để biến đổi body chung (body một người chuẩn chẳng hạn) thành các body riêng 
biệt dựa vào giá trị của các thông số. Bất cứ thành phần nào cũng có thể trống. Một thành 
phần trống có thể được thay thế bằng thành phần mặc định tương ứng khi body được biều 
hiện. Các đặc điểm mặc định được xem như các đặc điểm chuẩn. Các đặc điểm này được định 
nghĩa như sau: bàn chân chỉ đến hướng phía trước, hai cánh tay đặt ở hai bên của body với 
lòng bàn tay hướng vào trong body. Các đặc điểm này cũng ngầm định trong tất cả BAP có 
giá trị mặc định. 
Mô hình body người có thể hổ trợ những ứng dụng khác nhau từ mô phỏng chuyển 
động thực của người đến công nghệ game sử dụng mô hình giống như người. 
2.3.3.11.8 Scalability 
MPEG-4 cung cấp chế độ phân cấp chất lượng tức thời và cố định ở mức đối tượng. 
Trong cả hai trường hợp, kỹ thuật này được sử dụng để tạo ra lớp cơ sở (base layer) tượng 
trưng cho chất lượng thấp nhất từ luồng bit và một hoặc nhiều lớp tăng cường (enhancement 
layer). Những lớp này có thể được tạo ra bằng việc mã hóa đơn giản. Chất lượng hình ảnh có 
thể được điều chỉnh thể bằng hai cách khác nhau. Nếu băng thông bị giới hạn thì luồng bit 
truyền đi sẽ chỉ bao gồm chỉ lớp cơ sở hoặc lớp cơ sở và một vài lớp tăng cường bấc thấp. 
Một cách khác tất cả các lớp có thể được truyền đi đến bộ giải mã, tại đây sẽ quyết định 
những lớp nào sẽ được sử dụng để giải mã. Nếu thiết bị hiển thị có độ phân giải thấp hoặc tài 
nguyên tính toán không đủ thì lớp tăng cường có thể bỏ qua. 
Down 
Converter
Base 
Layer 
Encoder
Up 
Converter
Base 
Layer 
Decoder
Multiplexer
Subtract
Enhancement
Layer
Encoder
Enhancement
VOL
Base layer VOL
Multiplexer
output
VOPs In
 Hình 2.3.26 Bộ mã hóa phân cấp chất lượng MPEG-4 
 161
Hình 2.3.26 mô tả sơ đồ khối của bộ mã hóa thực hiện quá trình phân cấp chất lượng 
với 2 mức cố định. Các VOP ngõ vào được biến đổi xuống còn độ phân giải thấp và mã hóa 
để tạo ra lớp cơ sở. Lớp cơ sở được đưa tới ngõ ra và tới bộ tổng hợp Multiplexer. Lớp cơ sở 
còn được giải mã tại chỗ và đưa tới bộ up-converted để có cùng độ phân giải như ngõ vào. 
Tín hiệu có độ phân giải cao này sẽ được so sánh với tín hiệu ngõ vào tại bộ trừ (Subtract), 
ảnh sai biệt ở đầu ra bộ trừ được mã hóa riêng ở bộ mã hóa lớp tăng cường. Chú ý rằng mỗi 
luồng VOP sau khi mã hóa tạo thành lớp đối tượng video. Lớp cơ sở sử dụng cả mã hóa Intra 
và Inter trong khi lớp tăng cường chỉ sử dụng mã hóa dự đoán. 
Việc phân cấp chất lượng tạm thời thì đơn giản hơn. Luồng bit đến của VOP được chia 
thành các luồng nhỏ. Số VOP được yêu cầu sẽ được gửi đến bộ mã hóa lớp cơ sở, phần còn 
lại được gửi đến một hoặc nhiều bộ mã hóa tăng cường. 
QUa strình phân cấp trong MPEG-4 có thể được áp dụng riêng rẽ đối với mỗi đối tượng 
cơ sở. Điều này làm cho quá trình mã hóa và giải mã trửo nên linh động hơn. Chẳng hạn một 
bộ giải mã trong hệ thống game không có đủ khả năng để giải mã tất cả các đối tượng ở tốc 
độ cao nhất có thể nên nó chỉ chọn giải mã đối với cảnh nền tốc độ thấp và chấp nhận mức độ 
chuyển động nền bị giựt, đồng thời giải mã với tốc độ cao đối với các đối tượng cận ảnh làm 
cho chuyển động của chúng mịn hơn 
2.3.3.11.9 Mã hóa mở rộng (ACE: Advanced Coding Extension) 
Version 2 của MPEG-4 đưa ra ba công cụ mới để cải thiện hiệu suất mã hóa đối với đối 
tượng video. Bao gồm: Bù chuyển động toàn cục (GMC: global motion compensation), bù 
chuyển động phần tư (quarter pel motion compensation) và DCT hình dáng thích ứng (shape-
adative DCT). Các công cụ này cải thiện hiệu suất mã đến hơn 50% so với version 1 tùy theo 
lọai ảnh và tốc độ bit. 
GMC cho phép mã hóa toàn bộ chuyển động của đối tượng với một vài thông số và cải 
thiện độ phân giải của vector chuyển động bằng cách giảm sai số do dự đoán và sử dụng độ 
dư 
Shape-adaptive DCT có thể được dùng để cải thiện hiệu suất mã của những khối đường 
biên khi không phải tất cả các pixel đều là phần tử của ảnh. Thay vì sử dụng DCT hai chiều 
8x8 thì dùng khối DCT một chiều đối với hàng dọc được trước sau đó đến hàng ngang và chỉ 
xét những pixel thuộc đối tượng, gọi là các active pixel. 
2.3.3.12 Chuẩn H.261 
Khuyến cáo H.261 của CCITT là chuẩn nén cho các dịch vụ hội nghị truyền hình và 
điện thoại truyền hình qua mạng số dịch vụ tích hợp ISDN ở tốc độ n×64Kbps. Chuẩn này có 
2 đặc tính quan trọng là ngưỡng trễ mã hoá tối đa là 150ms vì trễ này phù hợp với truyền 
thông video hai chiều dựa vào cảm nhận của người xem về hình ảnh phản hồi trực tiếp và dễ 
dàng thực hiện mạch tích hợp VLSI chi phí thấp cho việc thương mại hoá sản phẩm rộng rãi. 
2.3.3.13 Chuẩn H.263 
H.263 là chuẩn dành cho video tốc độ thấp 46 Kbps dùng trong các ứng dụng hội nghị 
từ xa qua mạng PSTN. Chuẩn này có cả đặc tính của MPEG-1 và MPEG-2. Mã hoá video của 
H.263 dựa trên chuẩn H.261 và thực chất nó là phiên bản mở rộng của H.261 với phương 
 162
pháp mã hoá video kết hợp DPCM/DCT. Cả hai chuẩn này đều dùng kỹ thuật chính như 
DCT, bù chuyển động, mã hoá chiều dài từ mã thay đổi, lượng tử hoá vô hướng và xử lý trên 
cấp macroblock. Duy chỉ có khái niệm về khung PB trong H.263 là khá đặc biệt, tên PB có 
nguồn gốc từ P và B, là sự kết hợp của P và B. 
2.3.4 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén 
Bảng 2.3.7 tập hợp các ứng dụng của các tiêu chuẩn nén. Định dạng MJPEG có hạn chế 
trong ứng dụng. Nó được dùng chủ yếu trong máy ghi hình bằng đĩa (quá trình mã hóa và giải 
mã trong cùng một đơn vị). 
Bảng 2.3.7. Các ứng dụng của các tiêu chuẩn nén. 
Ứng dụng Tiêu chuẩn 
mã hóa 
Độ phân 
giải cực đại 
Tốc độ bit cực 
đại 
Videophone 
Hội nghị truyền 
hình 
Truyền hình cáp 
Truyền hình 
Studio / sản xuất 
HDTV / sản xuất 
HDTV / truyền 
dẫn 
H.261 
H.261 
MPEG-2 
DPCM 
MPEG-2 
MJPEG 
MPEG-
2(@4:2:2) 
MPEG-2 
MPEG-2 
176x144 
352x288 
720x576 
720x576 
720x576 
1920x1280 
1920x1280 
64 ÷128 Kbps 
0.384 ÷1.554 
Mbps 
4…9 Mbps 
< 50 Mbps 
< 50 Mbps 
100 Mbps 
20 Mbps 
Việc ra đời chuẩn MPEG-2 đã khẳng định ưu thế của MPEG so với MJPEG khi nó đáp 
ứng được từ khâu sản xuất đến truyền dẫn và phát sóng. Với tiềm năng kinh tế mạnh thì việc 
đầu tư thiết bị theo chuẩn MPEG cho tất cả các khâu trong truyền hình là điều không bàn cãi. 
Nhưng khả năng đầu tư cho truyền hình Việt Nam còn hạn chế, chúng ta lại đang ở giai đoạn 
nghiên cứu và thử nghiệm, cho nên việc tìm giải pháp thích hợp đảm bảo điều kiện kinh tế, 
chất lượng hình ảnh phù hợp cho từng công đoạn là vấn đề cần thiết. 
Trong khâu phát sóng, chuẩn MPEG-2 MP@ML (4:2:0) là sự lựa chọn tối ưu có nguyên 
nhân sâu sắc và có yếu tố khách quan. Sâu sắc là người ta phải tiết kiệm tối đa dải thông của 
đường truyền, tăng số lượng chương trình. MPEG-2 MP@ML sử dụng các ảnh I, P, B và nén 
với hệ số nén rất cao, giảm vận tốc của dòng chương trình còn rất thấp để phát quảng bá tới 
các máy thu. Ví dụ cụ thể, phát qua bộ phát đáp của vệ tinh có dải thông 36 MHz, sử dụng 
nén MPEG-2 ta truyền được 10÷12 chương trình. Yếu tố khách quan là mắt người chỉ cảm 
nhận về độ phân tích đến một chừng mực nào đó là đủ. Nếu truyền tín hiệu có vận tốc cao 
 163
hơn, mắt người cũng chỉ cảm nhận thêm không đáng là bao mà số lượng chương trình phải 
giảm đi đáng kể. Điều đó đồng nghĩa với hiệu quả phát sóng thấp. Tóm lại, mục đích ưu tiên 
của phát quảng bá là nén làm sao để phát được nhiều chương trình. 
Như vậy, vấn đề ta quan tâm ở đây là lựa chọn chuẩn nào trong công đoạn sản xuất hậu 
kỳ. Đối với nén của máy ghi hình cần phải chú ý giữ chất lượng tín hiệu còn đủ cho gia công 
xử lý trong studio. Các phương pháp nén trong máy ghi hình số thực chất là xử lý nội tại trong 
máy để giảm vận tốc dòng số ghi lên băng còn vừa đủ thấp nhằm giải quyết khá nhiều vấn đề 
thực tế. 
Đối với MPEG-2, có thể sử dụng MPEG-2 4:2:2P@ML trong khâu hậu kỳ. Về mặt chất 
lượng, nếu sử dụng máy ghi công nghệ nén MPEG dùng một loại ảnh I cũng thuận lợi cho 
việc dựng in tương đương M-JPEG. Nhưng cách giải quyết như thế là chưa kinh tế, vì trong 
hệ thống mạch theo công nghệ nén MPEG, mạch “dự đoán bù chuyển động” là mạch phức tạp 
nhất và có giá thành cao mà lại không sử dụng (chỉ dùng một ảnh I, không sử dụng ảnh P và 
B). Vì mục tiêu phát được nhiều chương trình nên phát quảng bá sử dụng nén MPEG-2 với 
nhóm ảnh đầy đủ I, P, B và hệ số nén rất cao. 
Qua phân tích ở trên, ta có thể thấy rằng chuẩn M-JPEG sử dụng trong các thiết bị sản 
xuất chương trình tiện dụng cho sản xuất studio và dựng hậu kỳ, làm kỹ xảo với giá thành hệ 
thống phù hợp. 
 164
PHỤ LỤC: CÁC TIÊU CHUẨN MÃ HOÁ ÂM THANH VÀ 
HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN 
1. Các tiêu chuẩn của ITU- T cho âm thanh 
Các tiêu chuẩn ITU-T cho âm thanh bao gồm G.711 · G.722 · G.722.1 · G.722.2 · 
G.723 · G.723.1 · G.726 · G.728 · G.729 · G.729.1 · G.729a 
G.711 là chuẩn ITU-T dùng cho thoại chủ yếu trong các hệ thống tổng đài, đựơc phát 
hành chính thức vào năm 1972. 
G.711 trình bày các mẫu điều chế xung mũ logarit cho tín hiệu ở băng tần thoại, tần số 
lấy mẫu là 8000 mẫu trong một giây. 
Có hai giải thuật chính được định nghĩa trong chuẩn này, giải thuật µ-law dùng ở khu 
vực Bắc Mỹ, Nhật và giải thuật A-law dùng ở khu vực Châu Âu và những nước còn lại. Cả 
hai giải thuật điều tính toán trên mũ logarit, nhưng giải thuật A-law được thiết kế đặc biệt cho 
mục đích thực hiện các phép tính trong quá trình tính toán sao cho đơn giản hơn, chuẩn này 
cũng định nghĩa một chuỗi các giá trị mã lặp lại có mức công suất là 0 dB. 
Hai giải thuật µ-law được mã hóa ở dạng các mẫu PCM tuyến tính 14-bit và A-Law là 
13-bit với mẫu 8-bit. Như vậy, bộ mã hóa G.711 sẽ tạo được luồng dữ liệu bit có tốc độ 
64kbit/giây với tần số lấy mẫu là 8kHz. 
G.722 là chuẩn ITU-T dùng cho mã hóa tiếng nói băng tần rộng hoạt động với tốc độ 
truyền 32-64 kbit/giây. Công nghệ mã hóa dựa trên việc phân chia băng tần ADPCM. 
G.722.1 cung cấp được việc nén dữ liệu với tốt độ bit thấp. Một biến thể mới của 
G722.1 là G.722.2, được biết dưới tên là AMR-WB (Adaptive Multirate Wideband), cho phép 
việc nén với tốc độ thấp hơn nữa, có thể đáp ứng tốt với các kiểu nén khác nhau cũng như các 
thay đổi địa hình mạng. Trong trường hợp sau, băng thông được tự động bảo tồn khi có sự 
nghẽn mạch cao. Khi việc nghẽn quay trở về ở mức bình thường, thì chế độ tốc độ bit cao hơn 
và mức nén thấp hơn được phục hồi. 
Chuẩn G.722 và dữ liệu mẫu âm thanh tại tốc độ 16kHz, gấp đôi tốc độ xử lý tại các 
giao tiếp thoại truyền thống, kết quả là chất lượng thoại tốt hơn. 
Chuẩn G.722.1, được biết qua tên khác là “Siren™”, là một chuẩn quốc tế cho mã hóa 
âm thanh băng rộng ở tốc độ 24 và 32 kbps (băng thông thoại 50Hz-7kHz, tần số lấy mẫu là 
16 ksps)tốc độ 16kb/giây), sử dụng trong các hệ thống hội nghị truyền hình được phê chuẩn 
vào 30 tháng 09 năm 1999. 
Chuẩn G.722.1 là bộ nén dựa trên sự biến đổi sao cho tối ưu hóa cả âm thoại lẫn nhạc. 
Độ phức tạp tính toán tương đối thấp đối với bộ nén chất lượng cao, độ trễ của giải thuật của 
hai điểm đầu cuối là 40ms. 
Phiên bản G.722.1/Annex C, được phê chuẩn bởi ITU-T vào 14 tháng 05 năm 2005, 
còn được biết thông qua tên Siren14™, được phát triển bởi Polycom với dạng không cần bản 
quyền truyền với tần số 14kHz (32ksps). 
 165
Số lượng mã hóa âm thanh băng tần rộng ITU đôi khi không được hiểu chính xác. 
Thực tế, có ba loại mã hóa cơ bản phân biệt, nhưng điều có chung một tên là G.722. Đầu tiên, 
G.722 là mã hóa với tần số 7kHz, sử dụng ADPCM hoạt động với tốc độ truyền 48-64kbps. 
Một phiên bản khác G.722.1 hoạt động với tốc độ dữ liệu bằng một nửa nhưng có chất lượng 
tốt như G.722 với phương pháp mã hóa dựa vào nền tảng chuyển đổi. Và chuẩn G.722.2, hoạt 
động với âm thoại băng tần rộng với tốc độ bit truyền rất thấp, sử dụng giải thuật CELP-
based. 
Về vấn đề bản quuyền, đến thời điểm này, giấy đăng ký bản quyền cho G.722 đã hết 
hạn, cho nên hiện tại chuẩn này được xem như là chuẩn miễn phí. G.722.1 thuộc bản quyền 
của tập đoàn Polycom và chuẩn G.722.2 còn có tên là AMR-WB, thuộc quyền sở hữu của tập 
đoàn VoiceAge. 
 G.722.2 (GSM AMR WB) 
Adaptive Multi Rate - WideBand hay AMR-WB là một chuẩn mã hóa tiếng nói được 
phát triển sau khi AMR sử dụng cùng công nghệ tương tự như ACELP. Mã cung cấp chất 
lượng âm thoại tuyệt vời bởi vì sử dụng băng tần thoại rộng hơn 50-7000 Hz khi so sánh với 
các mã âm thoại băng hẹp hiện đang dùng rộng rãi trong các POTS với 300-3400Hz. AMR-
WB được hệ thống hóa thành G.722.2, là một chuẩn mã hóa âm thoại chuẩn ITU-T. 
Các trạng thái hoạt động của ẢM: AMR-WB hoạt động tương tự AMR với nhiều tốc độ 
bit khác nhau gồm: 6.60; 8.85; 12.65; 14.25; 15.85; 18.25; 19.85; 23.05 và 23.85 kbps. Tín 
hiệu truyền với tốc độ thấp nhất cho chất lượng thoại tốt nhất ứng với môi trường không nhiễu 
là 12.65 kbps. Tốc độ bit cao rất hữu dụng trong môi trường có nhiễu và trong trường hợp tín 
hiệu truyền là âm nhạc. Tốc độ bit 6.60 à 8.85 cung cấp chát lượng chấp nhận được khi so 
sánh với mã hóa băng tần hẹp. 
AMR-WB được chuẩn hóa cho việc sử dụng trong tương lai trong các hệ thống mạng 
như UMTS. Chuẩn này cung cấp chất lượng thoại tốt hơn rất nhiều và được chọn dùng cho 
nhiều mạng cũ hỗ trợ cho băng rộng. Tháng 10 năm 2006, kiểm nghiệm AMR-WB đầu tiên 
được thực hiện trên hệ thống mạng thực do T-Mobile và Ericssion phối hợp tại Đức. 
G.723 là một chuẩn ITU-T mã hóa âm thoại băng tần rộng, là chuẩn mở rộng của G.721 
điều chế xung sai phân tương thích với tốc độ truyền 24 và 40 kbps cho các ứng dụng thiết bị 
nhân mạch số, hiện nay G.723 được thay thế bởi chuẩn G.276, do đó hiện tại chuẩn này là lỗi 
thời. 
Chuẩn G.723.1 là chuẩn mã hóa âm thanh cho thoại với tính năng nén thoại trong khung 
30 mili giây, chu kỳ 7.5ms cũng được sử dụng. Nhạc hoặc âm tone như DTMF hoặc fax ton 
không thể truyền tin cậy với chuẩn mã hóa này, do đó một số các phương pháp khác nhưu 
G.711 hoặc phương pháp ngoài dãy băng tần dùng để truyền các tín hiệu này. 
Chuẩn G.723.1 chủ yếu dùng trong các ứng dụng Voice over IP (VoIP) vì yêu cầu băng 
thông thấp. Nó trở thành chuẩn ITU-T vào năm 1995, điều phức tạp của giải thuật là yêu cầu 
là dưới 16MIPS với 2.2kByte về RAM. 
 166
Có hai tốc độ bit mà G.723.1 có thể hoạt động: 
o 6.3 kbit/s (sử dụng khung 24 byte), dùng giải thuật MPC-MLQ (MOS 3.9) 
o 5.3 kbit/s (sử dụng khung 20 byte) dùng giải thuật ACELP (MOS 3.62) 
G.726 là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các tốc độ 16, 
24, 32, và 40 kbps. Là chuẩn thay thế cho cả G.721 (ADPCM tốc độ 32kbps) và chuẩn G.723 
(ADPCM với tốc độ 24 và 40 kbps). G.726 hoạt động với tần số là 16 kbps. Bốn tốc độ bit 
thường sử dụng cho chuẩn G.726 tương ứng với kích thước của một mẫu theo thứ tự là 2-bits, 
3-bits, 4-bits, và 5-bits. 
Tốc độ thường dùng là 32 kbps, bởi vì đây chính là tốc độ bằng một nửa so với chuẩn 
G.711, như thế làm gia tăng dung lượng củ mạng lên 50%. Thông thường được dùng trong 
các mạng điện thoại quốc tế cũng như hệ thống điện thoại không dây DECT. 
G.721 được giới thiệu lần đầu tiên vào năm 1984, trong khi chuẩn G.723 được giới 
thiệu vào năm 1988. Cả hai được gộp chung thành chuẩn G.726 vào năm 1990. 
G.727 được giới thiệu cùng thời điểm với G.726, cùng tốc độ bít nhưng tối ưu hơn cho 
môi trường PCME Packet Circuit Multiplex Equipment. Điều này đạt được bằng cách nhúng 
bộ lượng tử hóa 2 bit vào bộ lượng tử hóa 3 bit, cho phép hủy bỏ bit có trọng số nhỏ nhất 
trong chuỗi bit truyền mà không có ảnh hưởng xấu đến tín hiệu âm thoại. 
G.728 là chuẩn ITU-T mã hóa âm thoại với tốc độ 16kbps. Công nghệ sử dụng là LD-
CELP, Low Delay Code Excited Linear Prediction. Độ trễ của mã chỉ 5 mẫu ( 0.625 ms). Dự 
đoán tuyến tính được thực hiện tính toán với bộ lọc LPC ngược bậc 50. Ngõ vào kích thích 
được tạo ra để đảm bảo nhận được độ lợi VQ. Chuẩn được đưa ra vào năm 1992 dưới dạng 
giải thuật mã dấu chấm động. Năm 1994, bản dùng cho dấu chấm tĩnh được phát hành. G.728 
có tốc độ lên đến 2400 bps. Độ phức tạp của bảng mã là 30 MIPS, với yêu càu 2.2kByte về 
RAM. 
G.729 là một giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín hiệu âm 
thanh với khung 10 mili giấy. Các tone nhạc như DTMF hoặc fax không thể truyền với bộ mã 
hóa này, mà phải sử dụng G.711 hoặc phương pháp ngoại băng tần để truyền các tín hiệu này. 
G.729 đa số dùng trong các ứng dụng Voice over IP (VoIP) với yêu cầu băng tần thấp. 
Chuẩn G.729 hoạt động ở tốc độ 8 kbps, nhưng các phiên bản mở rộng có thể hoạt động tại 
6.4 kbps đối với môi trường truyền xấu và 11.8 kbps với yêu cầu chất lượng thoại tốt hơn. 
Trong thực tế, người ta thường dùng chuẩn G.729a, tương tự như G.729 nhưng có độ tính 
toán đơn giản hơn, tuy nhiên chuẩn này lại không cho chấtl lượng thoại tốt hơn. 
 Phiên bản G.729b là một chuẩn có bản quyền, sử dụng module VAD để phát hiện tín 
hiệu thoại hay phi thoại. Nó cũng bao gồm một module DTX dùng để quyết định nâng cấp các 
thông số nhiễu nền cho tín hiệu phi thoại (các khung nhiễu). Các khung này được truyền để 
thực hiện việc nâng cấp này được gọi là các khung SID. Một bộ tạo nhiễu (CNG) cũng được 
tích hợp trong chuẩn này, bởi vì trong một kênh truyền, nếu việc truyền bị dừng lại vì lý do 
tín hiệu là tín hiệu phi thoại, thì site còn lại sẽ xem như đường kết nối này bị đứt. Vì thế khi 
sử dụng chuẩn này cần phải thận trọng. 
 167
Những năm gần đây, chuẩn G.729 đã được nghiên cứu mở rộng để hỗ trợ cho tín hiệu 
âm thoại băng tần rộng và mã hóa âm thanh thành chuẩn G.729.1. Bộ mã hóa G.729.1 được 
thiết kế theo mô hình phân cấp, tốc độ bit và chất lượng điều hiệu chỉnh đơn giản bằng cách 
thức cắt giảm chuỗi bit truyền. 
G.729.1 thêm chức năng băng tần rộng so với G.729 thông qua các lớp được nhúng vào. 
Lớp đầu tiên trên cùng G.729 (12kps) vẫn là dạng băng tần hẹp. 14 kbps thêm vào chất lượng 
băng tần rộng thông qua việc tái tạo phổ, sử dụng đóng gói thời gian và đóng gói tần số (có 
tốc độ truyền cộng thêm là 2kbps). Các lớp khác ( ứng với từn bước 2 kbps) thêm nhiều thông 
tin về nội dung của phổ ở các tần số cao và như thế làm gia tăng chất lượng tín hiệu. 
Các mã được phát triển bởi sự phối hợp của các tổ chức: France Telecom, tập đoàn 
Mitsubishi Electric, tập đoàn Nippon Telegraph và Telephone (NTT), và Université de 
Sherbrooke. 
2. Các tiêu chuẩn của ITU- T cho hình ảnh và Video. 
Chuẩn H.261 là chuẩn ITU mã hóa tín hiệu video năm 1990 được đưa ra để truyền 
trên hệ thống đường dây ISDN với các tốc độ dữ liệu là số nhân của 64 kbps. Tốc độ dữ liệu 
của giải thuật mã hóa được đưa ra để có thể hoạt động được giữa 40 kbps và 2 Mbps. Chuẩn 
hỗ trợ các khung video CIF và QCIF với độ phân giải 352x288 và 176x144 theo thứ tự tương 
ứng (và 4:2:0 mẫu với độ phân giải màu là 176x144 và 88x72 theo thứ tự tương ứng). Chuẩn 
cũng xét đến tình huống dự phòng cho việc truyền các hình với độ phân giải 704x576 ( được 
hiệu chỉnh vào năm 1994). 
Chuẩn H.261 là chuẩn mã hóa tín hiệu video số đầu tiên được áp dụng trong thực tế. 
Việc thiết kế chuẩn H.261 là một nỗ lực tiên phong, các chuẩn mã hóa video toàn cầu sau này 
(MPEG-1, MPEG-2/H.262, H.263, và ngay cả H.264) cũng chủ yếu dựa trên chuẩn này. 
Ngoài ra, cac phương pháp được sử dụng bởi hội đồng phát triển H.261 (đứng đầu là Sakae 
Okubo) cộng tác phát triển chuẩn vẫn được ứng dụng trong các công việc chuẩn hóa các 
chuẩn sau này trong lĩnh vực này. Giải thuật mã hóa sử dụng một hybrid của sự chuyển dộng 
của ước đoán hình ảnh nội tại và mã hóa truyền trong không gian với việc lượng tử vô hướng, 
phân hình theo kiểu zig-zac và mã hóa entropy. 
2.1 Chuẩn H.261 
Quá trình cơ bản của việc thiết kế được gọi là macroblock. Mỗi macroblock bao gồm 1 
dãy 16x16 các mẫu luma và hay dãy mẫu chroma 8x8 dùng việc lấy mẫu 4:2:0 và không gian 
màuYCbCr. 
Dự đoán hình ảnh nội tại thực hiện laọi bỏ các dư thừa tạm thơi, với các vector chuyển 
động được dùng để hỗ trợ cho việc bù mã hóa cho việc di động. Mã di chuyển sử dụng 
chuyển đổi cosin rời rạc 8x8 (DCT) dùng để loại bỏ các dư thừa thuộc không gian, và các hệ 
số biến đổi lượng tử được phân hình theo kiểu zig-zac và mã hóa entropy (dùng mã Run-
Level variable-length) để loại bỏ các dư thừa đã thống kê. 
Chuẩn H.261 thật sự chỉ định rõ bằng cách nào để giải mã video. Các nhà thiết kế bộ 
mã hóa được tự do trong việc đưa ra các giải thuật mã hóa của riêng họ, ngay cả với tín hiệu 
ngõ ra bộ mã hóa không được tự nhiên nhằm mục đích có thể được giải mã bằng bất kỳ bộ 
giải mã nào miễn là được thiết kế theo đúng chuẩn. Các bộ mã hóa cũng được thiết kế tuỳ ý 
 168
nhằm thực hiện quá trình tiền xử lý mà chúng muốn ngõ vào video ưu tiên mặc định thực 
hiện. Một kỹ thuật hiệu quả trong vấn đề hậu xử lý trở thành phần tử chính yếu của các hệ 
thống tốt nhất dựa trên chuẩn H.261 là lọc giải khóa. Nó thực hiện việc giảm sự xuất hiện của 
vật nhân tạo nhiễu có dạng hình khối gây ra bởi việc bù di động theo dạng khối và các phần 
chuyển đổi do việc thiết kế tạo ra. Việc lọc giải khóa đã trở thành một phần tích hợp trong hầu 
hết các chuẩn hiện nay, H.264 (ngay cả sử dụng chuẩn H.264, việc hậu xử lý vẫn cho phép 
thực hịên và có thể cho được chất lượng cao) 
Việc lọc được đề cập trong việc chuẩn hóa có ảnh hưởng đến việc cải tiến quan trọng 
giữa khả năng nén và thiết kế H.261. Tuy nhiê, H.261 vẫn là định hướng lịch sử chính trong 
lãnh vực phát triển của mã hóa video. 
2.2 Chuẩn H.262 
Chuẩn H.262 là một chuẩn mã hóa video số ITU-T. Chuẩn này liên quan đến phần 
video của chuẩn ISO/IEC MPEG-2 (được biết dưới cái tên ISO/IEC 13818-2). Chuẩn này 
được phát triển do sự hợp tác của ITU-T và các tổ chức ISO/IEC JTC 1, và trở thành chuẩn 
chung cho cả hai tổ chức này. ITU-T Recommendation H.262 và ISO/IEC 13818-2 được phát 
triển và phát hành dưới dạng là chuẩn quốc tế. Hai tài liệu này mô tả hầu hết tất cả các khía 
cạnh của chuẩn. 
2.3 Chuẩn H263 
Chuẩn H.263 là chuẩn mã hóa ITU-T thiết kế vào năm 1995/1996 dùng cho giải pháp 
mã hóa nén tốc độ truyền thấp cho các dịch vụ hội nghị truyền hình. 
Mã đầu tiên được thiết kế trong các hệ thống H.324 (PSTN hoặc các mạch chuyển mạch 
mạch khác truyền dịch vụ hội nghị truyền hình và điện thoại truyền hình), cũng như trong các 
hệ thốgn dùng mã H.323 (hội nghị truyền hình RTP/IP-based), H.320 (hội nghị truyền hình 
ISDN-based), RTSP (phương tiện truyền thông dạng streaming) và SIP (hội nghị Internet). 
Hầu hết nội dung Flash Video( dùng trên các site như YouTube, Google Video, MySpace, 
v.v….) được mã hóa dưới dạng định dạng này, tuy vẫn có site sử dụng mã hóa VP6, hỗ trợ 
phiên bản Flash 8. Tín hiệu video H.263 có thể được giải mã bằng thư viện phi bản quyền 
LGPL-licensed dùng trong các chương trình như ffdshow, VLC media player và MPlayer. 
Chuẩn H.263 được phát triển như là một phiên bản nâng cấp dựa trên chuẩn H.261, và 
chuẩn MPEG-1, MPEG-2. Phiên bản đầu tiên được hoàn thành vào năm 1995 và hoàn toàn 
phù hợp trong việc thay thế cho H.261 với tất cả các tốc độ truyền. Hiện tại đã có các phiên 
bản H.263v2 (còn gọi là chuẩn H.263+ 1998) và chuẩn H.263v3 (H.263++ 2000). 
Chuẩn mã hóa được ITU-T sau H.263 là H.264, còn có tên là AVC và MPEG-4 phần 
thứ 10. Hầu hết các sản phẩm hội nghị truyền hình công nghệ mới hiện nay luôn tích hợp cả 
ba chuẩn H.264, H.263 và H.261. 
2.4 Chuẩn H264 
 169
Chuẩn H.264, MPEG-4 Part 10, hay AVC (dùng cho Advanced Video Coding), là một 
chuẩn mã hóa video số với độ nén cực cao, là kết quả của ITU-T Video Coding Experts 
Group (VCEG) kết hợp với ISO/IEC Moving Picture Experts Group (MPEG), được xem là 
sản phẩm thương mại Joint Video Team (JVT). Chuẩn ITU-T H.264 và ISO/IEC MPEG-
4 Part 10(ISO/IEC 14496-10) ứng dụng các công nghệ lý tưởng. Phiên bản nháp đầu tiên 
được hoàn thành vào tháng 05 năm 2003. 
Chuẩn H.264 được đặt tên theo cùng dòng ITU-T H.26x của các chuẩn video, trong khi 
tên AVC được đặt tên dựa theo tên dự án hợp tác, với tên của dự án là H.26L. Chuẩn còn 
được gọi bằng các tên khác H.264/AVC, AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264 
AVC nhằm nhấn mạnh tính kế thừa. Đôi khi, còn được gọi là “mã hóa JVT” với lý do là tổ 
chức JVT phát triển. 
Mục đích của dự án H.264/AVC là tạo ra một chuẩn có khả năng cung cấp tín hiệu 
video chất lượng cao với các tốc độ bit truyền thấp, nhỏ hơn hay bằng một nửa so với tốc độ 
của các chuẩn trước ( như MPEG-2, H.263, hay MPEG-4 Part 2) với tính ứng dụng cao trong 
thực tế. Ngoài ra, chuẩn phải đáp ứng yêu cầu cung cấp cách thức linh động cho phép chuẩn 
được ứng dụng rộng rãi trong nhiều trình ứng dụng ( ví dụ cho cả tốc độ bit cao và thấyp hoặc 
độ phân giải cao hoặc thấp, và chạy ổn định trong nhiều hệ thống cũng như mạng ( cho việc 
broadcast, lưu trữ DVD, mạng gói RTP/IP, và các hệ thống tổng đài đang phương tiện ITU-T) 
2.5 Chuẩn JVT 
Chuẩn JVT đã hoàn thành việc nâng cấp, phát triển một số tính năng mở rộng so với 
chuẩn nguyên thuỷ, được biết dưới tên là Fidelity Range Extensions (FRExt). Các phiên bản 
mở rộng hỗ trợ mã hóa video với độ trung thực cao bằng cách thức gia tăng độ chính xác lấy 
mẫu (bao gồm mã hóa 10-bit và 12-bit) với thông tin màu độ phân gải cao (gồm các cấu trúc 
lấy mẫu như YUV 4:2:2 và YUV 4:4:4). Một số tính năng khác trong dự án Fidelity Range 
Extensions ( như phép biến đổi số nguyên chuyển mạch tương thích 4×4 và 8×8, các ma trận 
trọng số lượng tử hóa dựa trên giác quan, mã hóa không mất mát hình nội tại hiệu quả, hỗ trợ 
các không gian màu cộng thêm và phép biến đổi màu số dư). Công việc thiết kế trong dự án 
được hoàn thành vào tháng 7 năm 2004 và phiên bản nháp được ra mắt vào tháng 09 năm 
2004. 
 170
TÀI LIỆU THAM KHẢO 
1. Anil K. Jain, Fundamentals of Digital Image Processing, Prentice Hall, 1988. 
2. J. R. Parker, Algorithms for Image Processing and Computer Vision, Wiley, 
1996. 
3. Alan C. Bovik , Handbook of Image and Video Processing, Academic Press, 
2000. 
4. John R. Deller, John H. L. Hansen, John G. Proakis, Discrete-Time Processing 
of Speech Signals, Wiley-IEEE Press, 1999. 
5. R. C. Gonzalez, R. E. Woods, Steven L. Eddins, Digital Image Processing 
Using MATLAB, Prentice Hall, 2003. 
6. R. C. Gonzalez, R. E. Woods Digital Image Processing , Prentice Hall, 2002. 
7. William K. Pratt, Digital Image Processing: PIKS Inside, Third Edition © 2001 
John Wiley & Sons, Inc. 
9. Michael Robin & Michel Poulin, Digital Television Fundamental, McCraw-Hill 
Companies. Inc. 
10. Đỗ Hoàng Tiến, Dương Thanh Phương Truyền hình kỹ thuật số. NXB Khoa 
học và kỹ thuật, 2004. 
11. Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, NXB Khoa 
học và kỹ thuật, 1999. 
 171
MỤC LỤC 
LỜI NÓI ĐẦU 1 
CHƯƠNG 1 KỸ THUẬT XỬ LÝ ÂM THANH 3 
1.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH 3 
1.1.1 Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh 3 
1.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh 10 
1.2 MÔ HÌNH XỬ LÝ ÂM THANH 13 
1.2.1 Các mô hình lấy mẫu và mã hoá thoại 13 
1.2.2 Các mô hình dùng trong xử lý âm thanh 19 
1.2.3 Mô hình thời gian rời rạc 27 
1.3 LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN 30 
1.3.1 Phân tích dự đoán tuyến tính 30 
1.3.2 Dự đoán tuyến tính trong xử lý thoại 36 
1.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI 40 
1.4.1 Các phương pháp mã hoá 40 
1.4.2 Các tham số liên quan đến chất lượng thoại 41 
1.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản 41 
1.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI 48 
1.5.1 Mô hình thời gian động 48 
1.5.2 Mô hình chuỗi markov ẩn 53 
1.5.3 Mạng nơron 55 
CHƯƠNG 2: KỸ THUẬT XỬ LÝ ẢNH 60 
2.1 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ VIDEO SỐ 60 
2.1.1 Khái niệm cơ bản về xử lý ảnh 60 
2.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh 61 
2.1.3 Các giai đoạn chính trong xử lý ảnh 62 
2.1.4 Các phần tử của hệ thống xử lý ảnh số 64 
2.1.5 Biểu diễn ảnh số 67 
2.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số 92 
2.2 PHÂN TÍCH CÁC KỸ THUẬT XỬ LÝ ẢNH VÀ VIDEO 106 
2.2.1 Khái niệm về quan hệ giữa các điểm ảnh 106 
2.2.2 Các phương pháp xác địnhvà dự đóan biên ảnh 109 
2.3 CÁC KỸ THUẬT NÉN ẢNH 115 
2.3.1 Giới thiệu chung về kỹ thuật nén ảnh 115 
2.3.2 Phương pháp nén ảnh JPEG 121 
2.3.3 Chuẩn nén MPEG 140 
2.3.4 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén 162 
PHỤ LỤC: GIỚI THIỆU CÁC TIÊU CHUẨN MÃ HÓA ÂM THANH VÀ 
HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN 164 
 172
1. Các tiêu chuẩn của ITU- T cho âm thanh 164 
2. Các tiêu chuẩn của ITU- T cho hình ảnh và Video 167 
TÀI LIỆU THAM KHẢO 170 
XỬ LÝ ÂM THANH, HÌNH ẢNH 
Mã số: 411XAH450 
Chịu trách nhiệm bản thảo 
TRUNG TÂM ÐÀO TẠO BƯU CHÍNH VIỄN THÔNG 1 
            Các file đính kèm theo tài liệu này:
 Tailieu.Sharingvn.NETXulyamthanhhinhanh.pdf Tailieu.Sharingvn.NETXulyamthanhhinhanh.pdf