Bài giảng: XỬ LÝ ÂM THANH, HÌNH ẢNH
Tác giả: TS. NGUYỄN THANH BÌNH - ThS NGUYỄN QUỐC BẢO
Xuất bản: 2007 – HV BCVT
Nội dung chính:
Chương 1: Kỹ thuật xử lý âm thanh
Chương 2: Kỹ thuật xử lý hình ảnh
Hình thức: PDF, tiếng Việt
175 trang |
Chia sẻ: banmai | Lượt xem: 2781 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Xử lý âm thanh, hình ảnh (HV BCVT), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
cấp theo SNR): có các công cụ của main
profile và cho phép phân cấp theo tỉ số tín hiệu trên tạp âm. Tính phân cấp theo tỉ số tín hiệu
trên tạp âm có nghĩa là chất lượng hình ảnh và tỉ số tín hiệu trên tạp âm có tính thõa hiệp.
Chuỗi ảnh có thể chia thành hai phân lớp phân biệt nhau về chất lượng. Các lớp thấp bao gồm
ảnh có chất lượng cơ sở, lớp cao bao gồm các lớp hoàn thiện hơn đối với lớp thấp hơn, cho
phép khôi phục cùng ảnh đó nhưng chất lượng tốt hơn. Lớp thấp hơn, ví dụ chứa tín hiệu
video theo chuẩn 4:2:0, còn lớp cao hơn với tín hiệu video trong chuẩn 4:2:2. Có thể mã hóa
kênh khác nhau cho các lớp riêng. Trong trường hợp này, lớp dưới có tín hiệu video chất
lượng thấp hơn ( ví dụ lượng tử hóa với độ chính xác thấp). Còn lớp cao hơn thì lớp bảo vệ
cho phép khôi phục lại tín hiệu video với độ chính xác đầy đủ thông số kênh truyền hoặc bộ
mã hóa.
• Spatially Scalable profile (phân cấp theo không gian): tương tự với SNR profile
nhưng thêm vào lớp cơ bản lớp nâng cao chất lượng độ phân giải ảnh (Picture Resolution
Enhancement layer). Tính phân cấp theo không gian có nghĩa là có sự thõa hiệp đối với độ
phân giải. Chuỗi ảnh được chia ra thành hai lớp tương ứng với các độ phân giải khác nhau của
ảnh. Lớp thấp hơn bao gồm ảnh có độ phân giải thấp ví dụ như truyền hình tiêu chuẩn, lớp
cao hơn bao gồm ảnh có độ phân giải cao hơn ví dụ như truyền hình độ phân giải cao
(HDTV).
• High profile (profile cao): gồm các đặc điểm của spatial profile thêm vào cấu
trúc lấy mẫu 4:2:2. Nó bao gồm toàn bộ các công cụ của spatially scalable profile cộng thêm
khả năng mã hóa các tín hiệu màu khác nhau cùng một lúc. Nó được dự định dùng cho
HDTV, cho phép các bộ thu HDTV giải mã cả hai lớp để hiển thị một ảnh HDTV. “High
profile” là một hệ thống hoàn hảo được thiết kế cho toàn bộ các ứng dụng mà không hạn chế
tốc độ bit.
• 4:2:2 profile: tương tự MP, nhưng cho phép một tốc độ bit cao hơn. Nó gia tăng
kích thước ảnh dọc lên 576 lines với chuẩn quét 625/50 và 512 lines với chuẩn quét 525/60.
153
Vấn đề hạn chế các mức có liên quan đến độ phân giải cực đại của ảnh. Có 4 mức hạn
chế sau :
• Low level (mức thấp): ứng với độ phân giải của MPEG-1, có nghĩa là bằng ¼ độ
phân giải truyền hình tiêu chuẩn.
• Main level (mức chính): độ phân giải của truyền hình tiêu chuẩn.
• High – 1440 level (mức cao 1440): độ phân giải của HDTV với 1440 mẫu/dòng.
• High level (mức cao): độ phân giải HDTV với 1920 mẫu/dòng.
Bảng 2.3.6. Bảng thông số chính profile và level của tín hiệu chuẩn MPEG-2.
Profile
Level
Đơn giản
(Simple)
Chính
(Main)
Phân cấp
theo SNR
Phân cấp
theo không
gian
Cao
(High)
Thấp
(Low)
4:2:0
352x288
4 Mbps
4:2:0
352x288
4Mbps
I, P, B
Chính
(Main)
4:2:0
720x576
15 Mbps
I, P
4:2:0
720x576
15 Mbps
I, P, B
4:2:0
720x576
15 Mbps
I, P, B
4:2:0
720x576
20 Mbps
I, P, B
Cao – 1440
(High–
1440)
4:2:0
1440x1152
60 Mbps
I, P, B
4:2:0
1440x1152
60 Mbps
I, P, B
4:2:0,4:2:2
1440x1152
80 Mbps
I, P, B
Cao
(High)
4:2:0
1920x1152
80 Mbps
I, P, B
4:2:0,4:2:2
1920x1152
100 Mbps
I, P, B
Kết hợp 4 level và 5 profile ta được tổ hợp 20 khả năng và hiện nay đã có 11 khả năng
được ứng dụng như Bảng 2.3.6 (theo tài liệu của Tektrronic). Trong các ô của Bảng 2.4.6, lần
lượt từ trên xuống là: tỷ lệ lấy mẫu (4:2:0 hoặc 4:2:2); dòng dưới ghi điểm ảnh theo chiều
154
ngang x theo chiều dọc; dòng dưới nữa là vận tốc cao nhất của dòng dữ liệu sau khi nén; dòng
cuối cùng là các loại ảnh sử dụng để nén.
2.3.3.10.4 Ứng dụng MPEG-2 trong nén tín hiệu video
Các tính chất nén tín hiệu video
Tính chất nén tín hiệu video (hoặc giảm tốc độ bit của video BRR – Bit rate reduction)
là sự kết hợp nhiều yếu tố khác nhau :
• Tỉ lệ nén : tỉ lệ nén từ 2:1 đến 150:1, tùy thuộc vào chất lượng ảnh yêu cấu cho
từng ứng dụng.
• Chất lượng ảnh : chất lượng ảnh cao thường dùng cho khâu xử lý ảnh, trong
khâu hậu kỳ (dựng hình); giảm hơn trong khâu lấy tin (news), truyền dẫn phát sóng.
• Khả năng tạo nhiều lần : Trong quá trình sản xuất hậu kỳ, truyền dẫn phát sóng;
tín hiệu video gốc phải đi qua nhiều công đoạn, nén và giải nén.
• Đối xứng/ không đối xứng : với sơ đồ nén đối xứng, số lượng xử lý ở phần mã
hóa và giải mã giống nhau. Sơ đồ MPEG-2 là không đối xứng vì các công đoạn giải mã ít hơn
so với mã hóa.
• Trễ giữa mã hóa và giải mã : độ trễ này phụ thuộc vào cấu trúc và độ phức tạp
của bộ mã hóa, kích thước GOP và chuỗi GOP. Trong truyền hình, độ trễ tổng cộng có thể
chấp nhận được là <1ms cho trường hợp phỏng vấn trực tiếp. Trong truyền dẫn phát sóng thì
vấn đề này ít khắc khe hơn.
• Khả năng dựng hình : dựng hình với độ chính xác 1 frame là yêu cầu cao trong
khâu hậu kỳ. Hiện tại, trong khâu hậu kỳ phải giải mã nhiều frames (I, B, P) và mã hóa lại sau
khi cấy một đoạn mới vào. Do có thể thay đổi chiều dài GOP xuống còn ảnh I, cho nên
MPEG-2 cho phép dựng hình với độ chính xác từng frame.
• Độ phức tạp và giá thành : có một sự thỏa hiệp giữa kỹ thuật xấp xỉ chuyển động
có hiệu quả (nâng cao hiệu quả nén cao) và giảm độ phức tạp và giá thành của các chip xử lý.
2.3.3.11 Tiêu chuẩn MPEG-4
MPEG-4 bao gồm 2 phần là version 1 và version 2. Bắt đầu từ năm 1993 và hình thành
các đề nghị vào tháng 7 năm 1995. Các đề nghị về audio và video được đánh giá bởi các
chuyên gia và đưa ra bản thảo vào tháng 11 năm 1997 và trở thành tiêu chuẩn quốc tế
ISO/IEC vào năm 1999. Năm 2000 MPEG-4 được bổ xung và nâng cấp lên thành các version
3 và 4.
Đặc điểm chính của MPEG-4 là mã hóa video và audio với tốc độ bit rất thấp. Thực tế
tiêu chuẩn đưa ra với 3 dãy tốc độ bit
- dưới 64 kbps
- 64 đến 384 kbps
- 384 Kbps đến 4 Mbps
155
Đặc điểm quan trọng của chuẩn MPEG-4 là cho phép khôi phục lỗi tại phía thu, vì vậy
chuẩn nén này đặc biệt thích hợp đối với môi trường dễ xãy ra lỗi như truyền dữ liệu qua các
thiết bị cầm tay. Những profile và level khác trong MPEG-4 cho phép sử dụng tốc độ bit lên
đến 38.4 Mbps và việc xử lý chất lương studio cần các profile và level lên đến 1.2Gbps.
MPEG-4 là chuẩn quốc tế đầu tiên dành cho mã hoá các đối tượng (object) video. Với
độ linh động và hiệu quả do mã hoá từng đối tượng video, MPEG-4 đạt yêu cầu ứng dụng cho
các dịch vụ nội dung video có tính tương tác và các dịch vụ truyền thông video trực tiếp hay
lưu trữ. Trong MPEG-4, khung ảnh của một đối tượng video (hay còn gọi là phẳng đối tượng
video) được mã hoá riêng lẽ. Sự cách ly các đối tượng video như vậy mang đến độ mềm dẻo
hơn cho việc thực hiện mã hoá thích nghi làm tăng hiệu quả nén tính hiệu. Mặc dù tập trung
vào những ứng dụng tốc độ bit thấp nhưng MPEG-4 cũng bao gồm cả studio chất lượng cao
và HDTV
Các đối tượng khác nhau trong một cảnh gốc có thể được mã hóa và truyền đi riêng biệt
như là video object và audio object và được kết hợp trở lại tại bộ giải mã. Các loại object khác
nhau sẽ được mã hóa với những kỹ thuật khác nhau và với các công cụ phù hợp nhất. Những
object khác nhau có thể được tạo ra một cách độc lập và trong một vài trường hợp một cảnh
có thể phân tích riêng thành object nền (background) và object cận cảnh. Ví dụ: đoạn video
quay trận bóng đá được xử lý để tách riêng quả bóng ra khỏi cảnh sân cỏ. Background (cảnh
không có quả bóng ) sẽ được truyền đi và ai cũng có thể thấy game để thu hút khan giả nhưng
chỉ những người có trả tiền mới thấy quả bóng.
Hình 2.3.24 cho thấy các khái niệm chung về quá trình mã hóa và giải mã các đối tượng
độc lập trong chuẩn nén MPEG-4.
Máy
quay
video
Bộ
tách
các
object
trong
ảnh
Mã hóa
object
Mã hóa
object
Mã hóa
object
Mul
tip
lex
De
mul
tip
lex
Giải mã
object
Giải mã
object
Giải mã
object
Tổng
hợp
đối
tượng
Màn
hình
Hình 2.3.24 Nguyên lý mã hóa tín hiệu hình ảnh trong MPEG-4
Như đã biết không có phương pháp mã hóa nào có thể gọi là tối ưu hoàn toàn. DCT và
phép lương tử chỉ tối ưu đối với các ảnh có băng thông giới hạn và các ảnh có mức chói thay
đổi chậm nhưng sẽ không tối ưu với nhiều chi tiết ảnh có kích thước nhỏ thường xuất hiên
trên đoạn video. Một ví dụ đơn giản nếu một cảnh có xen các dòng chữ (text) thì hệ thống
thông thường sẽ xem các chữ như là các chi tiết ảnh thường, do đó sau khi mã hóa bằng
MPEG-1 hay MPEG2,các chi tiết nhỏ được thêm vào với cách thức như trên sẽ tạo ra tín hiệu
năng lượng có tần số cao và các cạnh của dòng chữ sẽ không được mã hóa tốt bởi DCT
Do đó việc thêm chữ vào ảnh hưởng rất lớn đến hiệu suất mã hóa video. Tuy nhiên có
thể mã hóa các chữ theo một cách đơn giản như các ký tự thuộc mã ASCII, vị trí, font, kích
thước, màu, thông tin về không gian có thể được thêm vào với số bit tương đối nhỏ. Nhưng để
làm điều này bộ giải mã cần phải có khả năng tạo ra các title từ những thông tin được cung
156
cấp và khóa các title này khi qua bộ giải mã video trước khi hiển thị. Việc giải mã luồng bit
video MPEG-4 yêu cầu bộ giải mã có nhiều cơ chế giải mã và khả năng thực hiện các hoạt
động đa hợp. Trong MPEG-4 có thể truyền nhiều luồng text và việc chọn ở bộ giải mã luồng
nào trong số những luồng trên kết hợp với video. Việc lựa chọn này có thể do người xem
quyết định hoặc do các thông tin khác được truyền trong luồng bit.
Ba đặc tính rất quan trọng của MPEG-4 là:
- Nhiều object có thể được mã hóa với các kỹ thuật khác nhau và kết hợp lại ở bộ
giải mã
- Các object có thể là các cảnh có được từ camera hay tự tạo như text
- Các thông tin trong luồng bit có thể hiển thị nhiều dạng khác nhau từ cùng một
luồng bit (tùy theo lựa chọn người xem chẳng hạn như ngôn ngữ)
MPEG-4 cho khả năng mã hóa video và audio hơn hẳn MPEG-2 cũng như khả năng
khôi phục lỗi. Tuy nhiên sức mạnh thật sự của MPEG-4 là các ứng dụng mới mà có thể xây
dựng dựa vào việc mã hóa độc lập các object cho hiệu suất mã cao hơn, và việc tách riêng các
object cho phép tương tác các object với nhau đặc biệt là các chương trình giáo dục và các trò
chơi. Và cũng do khả năng tách biệt các object mà có thể thay đổi tỷ lệ tạm thời chẳng hạn
như vẫn duy trì độ phân giải của các object cận cảnh quan trọng nhưng giảm ảnh phong xuống
tốc độ thầp hơn nếu hệ thống sử dụng có băng thông bị hạn chế hoặc thiếu tài nguyên (bộ nhớ,
tốc độ tính)
Tuy nhiên cũng có một số nhược điểm là bộ giải mã phải có khả năng giải mã hết tất cả
các luồng bit mà nó hổ trợ và có khả năng kết hợp. Do đó phần cứng của bộ giải mã MPEG-4
phức tạp hơn so với bộ giải mã MPEG-2. Và ngày nay thì càng có nhiều bộ mã thực hiện giải
mã bằng phần mềm nhưng bộ giải mã bằng phần cứng có thể bị hạn chế về khả năng linh hoạt
2.3.3.11.1 Video trong MPEG-4
Trước khi tìm hiểu kỹ thuật nén video trong MPEG-4 cần tìm hiểu cấu trúc của một
cảnh video được MPEG-4 định nghĩa. Một cảnh tiêu biểu bao gồm phong ảnh (background)
một hoặc nhiều đối tượng cận ảnh (foreground) chẳng hạn như đồ vật, một hoặc nhiều người
và một vài phần tử đồ họa. Trong MPEG-1 và 2 một cảnh được lấy mẫu một lần cho một
khung và tạo ra các bitmap sẽ được mã hóa. MPEG-4 cũng làm việc giống như vậy nhưng nó
có thể giải quyết từng đối tượng riêng rẽ. Để đơn giản hơn có thể không xét đến các đồ vật
như vậy ngoài các thành phần đồ họa cảnh bao gồm background, một người được xem là
foreground. Ví dụ: người dự báo thời tiết đứng trước nền màu xanh biển hay xanh lá cây và
một nền (background) khác chẳng hạn như bản đồ thời tiết gọi là “chroma keyed”. Trong
studio ảnh một người đứng trước nền màu sẽ được xử lý để loại bỏ nền màu và tạo thành “key
signal” hay alpha channel diễn tả hình dạng của người cận cảnh. Thông tin về hình dạng
người sẽ được kết hợp với thành phần cảnh. Nơi người đứng thì cảnh nền được thay thế bằng
ảnh người và những nơi khác của ảnh nền thì không thay đổi. Trong thuật ngữ của MPEG-4
thì người cận ảnh được xem là đối tượng video (video object) được tương trưng bởi hai phần
tử là ảnh video của người gọi là “texture” và key signal hay alpha channel được xem là shape.
157
2.3.3.11.2 Cấp độ của video MPEG-4
Trước tiên object phải được lấy mẫu. Hầu hết các object được lấy mẫu trong khoảng
thời gian không đổi (gọi là frame) và mỗi thời gian lấy mẫu đươc gọi là video object plane
(VOP). Như vậy mỗi object trong một cảnh được tượng trưng bởi 1 chuỗi các VOP ngoại trừ
các object tĩnh có thể dùng một VOP.
VOP bao gồm dữ liệu texture và thông tin về đường nét (shape) có dạng chữ nhật hoặc
dữ liệu đường nét phức tạp kết hợp với object. VOP cũng giống như các frame của các
version trước của MPEG có thể được mã hóa với intradata hoặc sử dụng bù chuyển động.
Tiếp theo là nhóm các VOP với nhau thành GOV (Group of video object planes). GOV
tương tự như GOP (group of pictures) của MEPG trước và cung cấp điểm trong luồng bit mà
VOP được mã hóa độc lập với các VOP khác và như thế nó cung cấp các điểm truy xuất ngẫu
nhiên trong luồng bit
VOL (Video object layer) cho phép thay đổi tỷ lệ mã hóa chuỗi các VOP hoặc GOV.
Nhiều VOL tương ứng với nhiều tỷ lệ của chuỗi (VOP hoặc GOV) và mỗi tỷ lệ phù hợp với
một tập các tài nguyên có thể thông thường giới hạn băng thông hoặc giới hạn khả năng tính
toán. Mức video object (VO) bao gồm mọi thành phần trong luồng bit mô tả đối tương video
đặc biệt.
Cuối cùng là Video session (VS) là mức video cao nhất của cảnh MPEG-4 bao gồm tất
cả đối tượng video cả tự nhiên và tự tạo trong một cảnh.
2.3.3.11.3 Mã hóa đường nét (shape)
Có hai loại đường nét với đối tượng video trong MPEG-4 là chữ nhật và tùy ý. Dạng
chữ nhật chỉ đơn thuần là chỉ phạm vi của ảnh nên ít quan trọng. Tuy nhiên nó vẫn được dùng
để tăng tính linh hoạt trong các chuẩn trước. Chẳng hạn trong MPEG-2 phạm vị của ảnh được
mã hóa trong phần header của luồng bit. Trong MPEG-4 kích thước chữ nhật của đối tượng
video nền đơn giản là có thể so sánh nhưng cũng có thể có các đối tượng chữ nhật khác trong
cùng một session như ảnh trong ảnh (picture in picture).
Đường nét cũng tượng trưng cho đối tượng video và ở bất kỳ điểm nào trong mặt phẳng
ảnh nó xác định có đối tượng nào được kết hợp với nó thì có thể nhìn thấy được. Đường nét
dạng chữ nhật được gọi là mask và có kích thước có thể thay đổi theo kích thước ngang và
dọc lớn nhất của đối tượng. Cả hai kích thước ngang và dọc của mask là bội số của 16 pixel.
Đường nét tùy ý có thể được mã hóa như dữ liệu nhị phân hoặc dữ liệu xám. Đường nét
nhị phân là dạng đơn giản nhất chỉ ra đối tượng là rõ ràng hay không rõ ràng (thấy được hoặc
không thấy) ở bất kỳ điểm đã cho.
2.3.3.11.4 Mã hóa texture
Mã hóa texture, là thuật ngữ trong MPEG-4 tương ứng với việc mã hóa dữ liệu ảnh
chuyển động, dựa vào mã hóa MPEG-2 có mở rộng và cải tiến. Các đối tượng video có thể
được mã hóa với I-VOP, P-VOP, B-VOP. Hầu hết các profile MPEG-4 đều sử dụng tiêu
chuẩn 4:2:0 và YUV để mô tả đối tượng video texture.
158
Trong MPEG-4 không phải tất cả các đối tượng video có cùng kích thước và việc mã
hóa texture chỉ cần thiết ở những khu vực là một phần của đối tượng. Đối với những đối
tượng chữ nhật thì đơn giản chọn kích thước là bội số của 16 pixel (một macroblock) theo
mỗi hướng và tất cả các macroblock sẽ được xử lý. Đối với các đối tượng có đường nét phức
tạp thì đường biên (boundary) được định nghĩa là tín hiệu đường nét (shape signal). Phạm vi
của đối tượng cũng được định nghĩa bởi dãy hình chữ nhật các macroblock nhưng mã hóa
texture được thực hiện đối với toàn bộ các macroblock trên đường biên hoặc phần bên trong
đường biên đối tượng
I-VOP được mã hóa như khung I trong MPEG-2. MPEG-4 sử dụng bộ dự đoán thích
ứng đối với các giá trị DC. Bộ dự đoán cũng xác định gradient độ sáng ngang và dọc và dự
đoán giá trị DC từ các khối ở trên và bên trái theo hướng của gradient nhỏ hơn
Sự tương quan của các ảnh ngoài việc có lợi cho dự đoán hệ số DC còn giúp việc mã
hóa các hệ số AC. Những vùng texture giống nhau sẽ tạo ra một dãy các hệ số AC giống
nhau sau khi biến đổi DCT. Các hệ số AC quan trọng nhất tương trưng cho năng lượng lớn
nhất của texture giống nhau rất nhiều (có lợi cho quá trình mã hóa). Các hệ số này thông
thường là các hệ số khác zero trong hàng đầu tiên hoặc cột đầu tiên, chúng thường được lượng
tử hóa với mức độ chính xác cao nhất. Trong MPEG-4 các hệ số AC của hàng đầu tiên hoặc
cột đầu tiên được dự đoán từ các khối ngay ở trên và bên trái.
Việc lượng tử các hệ số cũng tương tự như phương pháp sử dụng trong MPEG-2 nhưng
cơ chế quét các hệ số và mã hóa với chiều dài từ mã thay đổi thì được cải tiến hơn.
Các phương pháp được chọn để đọc hệ số ra được xác định dựa vào quá trình dự đoán
DC. Khi không có dự đoán DC thì quét zigzag như trong MPEG-2 được sử dụng. Nếu hệ số
DC được dự đoán từ khối phía bên trái thì sử dụng quét dọc luân phiên (Alternate-vertical
scanning) là hệ thống quét sẽ đọc theo chiều dọc trước tiên. Tuy nhiên nếu hệ số DC được dự
đóan từ các khối ở trên thì chọn quét ngang luân phiên (Altrenate Horziontal scan).
Để cải thiện hiệu quả của bộ mã hóa có chiều dài thay đổi (VLC) trong MPEG-4 dùng
hai bảng VLC khác nhau.
2.3.3.11.5 Mã hóa đường biên
Khả năng mã hóa những đối tượng có đường nét tùy ý thường gặp những tình huống
đặc biệt ở đường biên của đối tượng. Khi đó, các khối nằm bên ngoài đường biên thì không
cần mã hóa texture. Nhưng tất cả những khối bên trong đường biên được mã hóa theo các kỹ
thuật đã trình bày. Mã hóa texture cần cho các khối đường biên nhưng trong các khối đó chỉ
có một phần thuộc đối tượng. Trước khi mã hóa đường biên, người ta thực hiện biện pháp
"đệm" (padding) các khối này. Những pixel không phải là thành phần của đối tượng được gán
cho những giá trị bằng nhau và bằng với giá trị trung bình của tất cả các pixel trong phần đối
tượng. Giá trị của các pixel bên trong đối tượng không thay đổi. Việc thay đổi giá trị bên
ngoài đối tượng không ảnh hưởng đến kết quả sau cùng bởi vì các pixel này không được hiển
thị. Quá trình trên được xem là làm giảm thiểu năng lượng của các hệ số khi biến đổi DCT
159
2.3.3.11.6 Sprites
MPEG-4 có một lọai đối tượng khác thường được dùng làm cảnh nền là sprite. Sprite là
đối tượng video thường có kích thước lớn hơn màn hình hiển thị. Sprite là đối tượng được sử
dụng liên tục trong một cảnh (tương tự như cảnh nền tĩnh). Thông thường một cảnh của game
bao gồm cảnh nền và một số đối tượng nhân tạo di chuyển theo kịch bản của game và hành
động của người chơi. Trong quá trình hành động cảnh được nhìn thấy chỉ là một vùng nhỏ
trong cảnh nền, vùng này là thành phần của cùng một ảnh tĩnh (Hình 2.3.25). MPEG-4 cung
cấp khả năng truyền toàn bộ cảnh nền như sprite và khả năng tạo cảnh khác nhau bằng cách
truyền các thông tin cropping và wraping để xác định phần sprite sẽ được hiển thị ở một thời
điểm nhất định. Sau khi sprite được truyền đi thì chỉ có thông tin cropping/wraping cho sprite
và các đối tượng cận ảnh (foreground) cần được truyền. Trong game điển hình mỗi phần của
sprite có thể được sử dụng nhiều lần vì thế lượng dữ liệu cần truyền sẽ giảm đáng kể.
Hình 2.3.25 Cảnh nền (sprite) được truyền đi có kích thước lớn hơn khả năng hiển thị
của màn hình
Việc truyền toàn bộ sprite ngay khi bắt đầu chương trình có thể rất hiệu quả nhưng sẽ
làm tăng băng thông và thời gian truyền trước khi hoạt động có thể bắt đầu. MPEG-4 sử dụng
phương pháp sau để tránh vấn đề này. Sprite có thể truyền từng phần khi cần. Một phần sprite
cần thiết tại thời điểm tức thời sẽ được truyền đi. Tất cả các cảnh sprite sẽ được lưu trữ ở bộ
giải mã như là một phần của sprite. Theo phương pháp khác, sprite có thể được mã hóa liên
tiếp và truyền đi toàn bộ với độ phân giải thấp và độ phân giải cao hơn sẽ được truyền sau.
Sprite được mã hóa như tín hiệu chói với hai thành phần màu như trong MPEG trước và
luôn được mã Intra bởi vì bản chất của ảnh là tĩnh.
2.3.3.11.7 Animations
Như đã biết một trong số những điểm mạnh của MPEG-4 là khả năng truyền cả đối
tượng tự nhiên cũng như các đối tượng được tự tạo ra (vì dụ hình animation) và kết hợp chúng
ở bộ giải mã. Một trong nhiều khả năng thú vị sử dụng đối tượng nhân tạo là mặt người hoạt
hình (facial animation). Đây cũng là một ví dụ khác của việc ánh xạ texture thành đường nét
chuyển động nhưng trong trường hợp này đường nét được chỉ định bởi mô hình lưới hay mô
hình 3D được hình thành bới các node. Vị trí của mỗi node được mã hóa sử dụng mã hóa dự
đoán trước để tăng hiệu suất mã khi đường nét của khuôn mặt thay đổi.
160
Version 2 của MPEG-4 có thể thêm vào thân hình (body) động. Thân hình là một đối
tượng có thể tạo ra các mô hình thân hình ảo và động dưới dạng tập hợp lưới 3D nhiều cạnh.
Hai tập hợp các thông số định nghĩa cho body: Tập hợp các tham số định nghĩa body (BDP-
body definition parameter) và tập hợp các thông số động body (BAP - body animation
parameter). Tập BDP định nghĩa tập các thông số để biến đổi body mặc định thành các body
theo yêu cầu khách hàng với bề mặt body, kích thước body và texture. Các tham số động
body (BAP) cho phép tạo ra chuyển động với các mô hình body khác nhau. Như vậy, có thể
ngay lập tức nhận BAP từ luồng bit thu mà tạo ra sự linh hoạt của body. Khi thu được, BDP
được dùng để biến đổi body chung (body một người chuẩn chẳng hạn) thành các body riêng
biệt dựa vào giá trị của các thông số. Bất cứ thành phần nào cũng có thể trống. Một thành
phần trống có thể được thay thế bằng thành phần mặc định tương ứng khi body được biều
hiện. Các đặc điểm mặc định được xem như các đặc điểm chuẩn. Các đặc điểm này được định
nghĩa như sau: bàn chân chỉ đến hướng phía trước, hai cánh tay đặt ở hai bên của body với
lòng bàn tay hướng vào trong body. Các đặc điểm này cũng ngầm định trong tất cả BAP có
giá trị mặc định.
Mô hình body người có thể hổ trợ những ứng dụng khác nhau từ mô phỏng chuyển
động thực của người đến công nghệ game sử dụng mô hình giống như người.
2.3.3.11.8 Scalability
MPEG-4 cung cấp chế độ phân cấp chất lượng tức thời và cố định ở mức đối tượng.
Trong cả hai trường hợp, kỹ thuật này được sử dụng để tạo ra lớp cơ sở (base layer) tượng
trưng cho chất lượng thấp nhất từ luồng bit và một hoặc nhiều lớp tăng cường (enhancement
layer). Những lớp này có thể được tạo ra bằng việc mã hóa đơn giản. Chất lượng hình ảnh có
thể được điều chỉnh thể bằng hai cách khác nhau. Nếu băng thông bị giới hạn thì luồng bit
truyền đi sẽ chỉ bao gồm chỉ lớp cơ sở hoặc lớp cơ sở và một vài lớp tăng cường bấc thấp.
Một cách khác tất cả các lớp có thể được truyền đi đến bộ giải mã, tại đây sẽ quyết định
những lớp nào sẽ được sử dụng để giải mã. Nếu thiết bị hiển thị có độ phân giải thấp hoặc tài
nguyên tính toán không đủ thì lớp tăng cường có thể bỏ qua.
Down
Converter
Base
Layer
Encoder
Up
Converter
Base
Layer
Decoder
Multiplexer
Subtract
Enhancement
Layer
Encoder
Enhancement
VOL
Base layer VOL
Multiplexer
output
VOPs In
Hình 2.3.26 Bộ mã hóa phân cấp chất lượng MPEG-4
161
Hình 2.3.26 mô tả sơ đồ khối của bộ mã hóa thực hiện quá trình phân cấp chất lượng
với 2 mức cố định. Các VOP ngõ vào được biến đổi xuống còn độ phân giải thấp và mã hóa
để tạo ra lớp cơ sở. Lớp cơ sở được đưa tới ngõ ra và tới bộ tổng hợp Multiplexer. Lớp cơ sở
còn được giải mã tại chỗ và đưa tới bộ up-converted để có cùng độ phân giải như ngõ vào.
Tín hiệu có độ phân giải cao này sẽ được so sánh với tín hiệu ngõ vào tại bộ trừ (Subtract),
ảnh sai biệt ở đầu ra bộ trừ được mã hóa riêng ở bộ mã hóa lớp tăng cường. Chú ý rằng mỗi
luồng VOP sau khi mã hóa tạo thành lớp đối tượng video. Lớp cơ sở sử dụng cả mã hóa Intra
và Inter trong khi lớp tăng cường chỉ sử dụng mã hóa dự đoán.
Việc phân cấp chất lượng tạm thời thì đơn giản hơn. Luồng bit đến của VOP được chia
thành các luồng nhỏ. Số VOP được yêu cầu sẽ được gửi đến bộ mã hóa lớp cơ sở, phần còn
lại được gửi đến một hoặc nhiều bộ mã hóa tăng cường.
QUa strình phân cấp trong MPEG-4 có thể được áp dụng riêng rẽ đối với mỗi đối tượng
cơ sở. Điều này làm cho quá trình mã hóa và giải mã trửo nên linh động hơn. Chẳng hạn một
bộ giải mã trong hệ thống game không có đủ khả năng để giải mã tất cả các đối tượng ở tốc
độ cao nhất có thể nên nó chỉ chọn giải mã đối với cảnh nền tốc độ thấp và chấp nhận mức độ
chuyển động nền bị giựt, đồng thời giải mã với tốc độ cao đối với các đối tượng cận ảnh làm
cho chuyển động của chúng mịn hơn
2.3.3.11.9 Mã hóa mở rộng (ACE: Advanced Coding Extension)
Version 2 của MPEG-4 đưa ra ba công cụ mới để cải thiện hiệu suất mã hóa đối với đối
tượng video. Bao gồm: Bù chuyển động toàn cục (GMC: global motion compensation), bù
chuyển động phần tư (quarter pel motion compensation) và DCT hình dáng thích ứng (shape-
adative DCT). Các công cụ này cải thiện hiệu suất mã đến hơn 50% so với version 1 tùy theo
lọai ảnh và tốc độ bit.
GMC cho phép mã hóa toàn bộ chuyển động của đối tượng với một vài thông số và cải
thiện độ phân giải của vector chuyển động bằng cách giảm sai số do dự đoán và sử dụng độ
dư
Shape-adaptive DCT có thể được dùng để cải thiện hiệu suất mã của những khối đường
biên khi không phải tất cả các pixel đều là phần tử của ảnh. Thay vì sử dụng DCT hai chiều
8x8 thì dùng khối DCT một chiều đối với hàng dọc được trước sau đó đến hàng ngang và chỉ
xét những pixel thuộc đối tượng, gọi là các active pixel.
2.3.3.12 Chuẩn H.261
Khuyến cáo H.261 của CCITT là chuẩn nén cho các dịch vụ hội nghị truyền hình và
điện thoại truyền hình qua mạng số dịch vụ tích hợp ISDN ở tốc độ n×64Kbps. Chuẩn này có
2 đặc tính quan trọng là ngưỡng trễ mã hoá tối đa là 150ms vì trễ này phù hợp với truyền
thông video hai chiều dựa vào cảm nhận của người xem về hình ảnh phản hồi trực tiếp và dễ
dàng thực hiện mạch tích hợp VLSI chi phí thấp cho việc thương mại hoá sản phẩm rộng rãi.
2.3.3.13 Chuẩn H.263
H.263 là chuẩn dành cho video tốc độ thấp 46 Kbps dùng trong các ứng dụng hội nghị
từ xa qua mạng PSTN. Chuẩn này có cả đặc tính của MPEG-1 và MPEG-2. Mã hoá video của
H.263 dựa trên chuẩn H.261 và thực chất nó là phiên bản mở rộng của H.261 với phương
162
pháp mã hoá video kết hợp DPCM/DCT. Cả hai chuẩn này đều dùng kỹ thuật chính như
DCT, bù chuyển động, mã hoá chiều dài từ mã thay đổi, lượng tử hoá vô hướng và xử lý trên
cấp macroblock. Duy chỉ có khái niệm về khung PB trong H.263 là khá đặc biệt, tên PB có
nguồn gốc từ P và B, là sự kết hợp của P và B.
2.3.4 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén
Bảng 2.3.7 tập hợp các ứng dụng của các tiêu chuẩn nén. Định dạng MJPEG có hạn chế
trong ứng dụng. Nó được dùng chủ yếu trong máy ghi hình bằng đĩa (quá trình mã hóa và giải
mã trong cùng một đơn vị).
Bảng 2.3.7. Các ứng dụng của các tiêu chuẩn nén.
Ứng dụng Tiêu chuẩn
mã hóa
Độ phân
giải cực đại
Tốc độ bit cực
đại
Videophone
Hội nghị truyền
hình
Truyền hình cáp
Truyền hình
Studio / sản xuất
HDTV / sản xuất
HDTV / truyền
dẫn
H.261
H.261
MPEG-2
DPCM
MPEG-2
MJPEG
MPEG-
2(@4:2:2)
MPEG-2
MPEG-2
176x144
352x288
720x576
720x576
720x576
1920x1280
1920x1280
64 ÷128 Kbps
0.384 ÷1.554
Mbps
4…9 Mbps
< 50 Mbps
< 50 Mbps
100 Mbps
20 Mbps
Việc ra đời chuẩn MPEG-2 đã khẳng định ưu thế của MPEG so với MJPEG khi nó đáp
ứng được từ khâu sản xuất đến truyền dẫn và phát sóng. Với tiềm năng kinh tế mạnh thì việc
đầu tư thiết bị theo chuẩn MPEG cho tất cả các khâu trong truyền hình là điều không bàn cãi.
Nhưng khả năng đầu tư cho truyền hình Việt Nam còn hạn chế, chúng ta lại đang ở giai đoạn
nghiên cứu và thử nghiệm, cho nên việc tìm giải pháp thích hợp đảm bảo điều kiện kinh tế,
chất lượng hình ảnh phù hợp cho từng công đoạn là vấn đề cần thiết.
Trong khâu phát sóng, chuẩn MPEG-2 MP@ML (4:2:0) là sự lựa chọn tối ưu có nguyên
nhân sâu sắc và có yếu tố khách quan. Sâu sắc là người ta phải tiết kiệm tối đa dải thông của
đường truyền, tăng số lượng chương trình. MPEG-2 MP@ML sử dụng các ảnh I, P, B và nén
với hệ số nén rất cao, giảm vận tốc của dòng chương trình còn rất thấp để phát quảng bá tới
các máy thu. Ví dụ cụ thể, phát qua bộ phát đáp của vệ tinh có dải thông 36 MHz, sử dụng
nén MPEG-2 ta truyền được 10÷12 chương trình. Yếu tố khách quan là mắt người chỉ cảm
nhận về độ phân tích đến một chừng mực nào đó là đủ. Nếu truyền tín hiệu có vận tốc cao
163
hơn, mắt người cũng chỉ cảm nhận thêm không đáng là bao mà số lượng chương trình phải
giảm đi đáng kể. Điều đó đồng nghĩa với hiệu quả phát sóng thấp. Tóm lại, mục đích ưu tiên
của phát quảng bá là nén làm sao để phát được nhiều chương trình.
Như vậy, vấn đề ta quan tâm ở đây là lựa chọn chuẩn nào trong công đoạn sản xuất hậu
kỳ. Đối với nén của máy ghi hình cần phải chú ý giữ chất lượng tín hiệu còn đủ cho gia công
xử lý trong studio. Các phương pháp nén trong máy ghi hình số thực chất là xử lý nội tại trong
máy để giảm vận tốc dòng số ghi lên băng còn vừa đủ thấp nhằm giải quyết khá nhiều vấn đề
thực tế.
Đối với MPEG-2, có thể sử dụng MPEG-2 4:2:2P@ML trong khâu hậu kỳ. Về mặt chất
lượng, nếu sử dụng máy ghi công nghệ nén MPEG dùng một loại ảnh I cũng thuận lợi cho
việc dựng in tương đương M-JPEG. Nhưng cách giải quyết như thế là chưa kinh tế, vì trong
hệ thống mạch theo công nghệ nén MPEG, mạch “dự đoán bù chuyển động” là mạch phức tạp
nhất và có giá thành cao mà lại không sử dụng (chỉ dùng một ảnh I, không sử dụng ảnh P và
B). Vì mục tiêu phát được nhiều chương trình nên phát quảng bá sử dụng nén MPEG-2 với
nhóm ảnh đầy đủ I, P, B và hệ số nén rất cao.
Qua phân tích ở trên, ta có thể thấy rằng chuẩn M-JPEG sử dụng trong các thiết bị sản
xuất chương trình tiện dụng cho sản xuất studio và dựng hậu kỳ, làm kỹ xảo với giá thành hệ
thống phù hợp.
164
PHỤ LỤC: CÁC TIÊU CHUẨN MÃ HOÁ ÂM THANH VÀ
HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN
1. Các tiêu chuẩn của ITU- T cho âm thanh
Các tiêu chuẩn ITU-T cho âm thanh bao gồm G.711 · G.722 · G.722.1 · G.722.2 ·
G.723 · G.723.1 · G.726 · G.728 · G.729 · G.729.1 · G.729a
G.711 là chuẩn ITU-T dùng cho thoại chủ yếu trong các hệ thống tổng đài, đựơc phát
hành chính thức vào năm 1972.
G.711 trình bày các mẫu điều chế xung mũ logarit cho tín hiệu ở băng tần thoại, tần số
lấy mẫu là 8000 mẫu trong một giây.
Có hai giải thuật chính được định nghĩa trong chuẩn này, giải thuật µ-law dùng ở khu
vực Bắc Mỹ, Nhật và giải thuật A-law dùng ở khu vực Châu Âu và những nước còn lại. Cả
hai giải thuật điều tính toán trên mũ logarit, nhưng giải thuật A-law được thiết kế đặc biệt cho
mục đích thực hiện các phép tính trong quá trình tính toán sao cho đơn giản hơn, chuẩn này
cũng định nghĩa một chuỗi các giá trị mã lặp lại có mức công suất là 0 dB.
Hai giải thuật µ-law được mã hóa ở dạng các mẫu PCM tuyến tính 14-bit và A-Law là
13-bit với mẫu 8-bit. Như vậy, bộ mã hóa G.711 sẽ tạo được luồng dữ liệu bit có tốc độ
64kbit/giây với tần số lấy mẫu là 8kHz.
G.722 là chuẩn ITU-T dùng cho mã hóa tiếng nói băng tần rộng hoạt động với tốc độ
truyền 32-64 kbit/giây. Công nghệ mã hóa dựa trên việc phân chia băng tần ADPCM.
G.722.1 cung cấp được việc nén dữ liệu với tốt độ bit thấp. Một biến thể mới của
G722.1 là G.722.2, được biết dưới tên là AMR-WB (Adaptive Multirate Wideband), cho phép
việc nén với tốc độ thấp hơn nữa, có thể đáp ứng tốt với các kiểu nén khác nhau cũng như các
thay đổi địa hình mạng. Trong trường hợp sau, băng thông được tự động bảo tồn khi có sự
nghẽn mạch cao. Khi việc nghẽn quay trở về ở mức bình thường, thì chế độ tốc độ bit cao hơn
và mức nén thấp hơn được phục hồi.
Chuẩn G.722 và dữ liệu mẫu âm thanh tại tốc độ 16kHz, gấp đôi tốc độ xử lý tại các
giao tiếp thoại truyền thống, kết quả là chất lượng thoại tốt hơn.
Chuẩn G.722.1, được biết qua tên khác là “Siren™”, là một chuẩn quốc tế cho mã hóa
âm thanh băng rộng ở tốc độ 24 và 32 kbps (băng thông thoại 50Hz-7kHz, tần số lấy mẫu là
16 ksps)tốc độ 16kb/giây), sử dụng trong các hệ thống hội nghị truyền hình được phê chuẩn
vào 30 tháng 09 năm 1999.
Chuẩn G.722.1 là bộ nén dựa trên sự biến đổi sao cho tối ưu hóa cả âm thoại lẫn nhạc.
Độ phức tạp tính toán tương đối thấp đối với bộ nén chất lượng cao, độ trễ của giải thuật của
hai điểm đầu cuối là 40ms.
Phiên bản G.722.1/Annex C, được phê chuẩn bởi ITU-T vào 14 tháng 05 năm 2005,
còn được biết thông qua tên Siren14™, được phát triển bởi Polycom với dạng không cần bản
quyền truyền với tần số 14kHz (32ksps).
165
Số lượng mã hóa âm thanh băng tần rộng ITU đôi khi không được hiểu chính xác.
Thực tế, có ba loại mã hóa cơ bản phân biệt, nhưng điều có chung một tên là G.722. Đầu tiên,
G.722 là mã hóa với tần số 7kHz, sử dụng ADPCM hoạt động với tốc độ truyền 48-64kbps.
Một phiên bản khác G.722.1 hoạt động với tốc độ dữ liệu bằng một nửa nhưng có chất lượng
tốt như G.722 với phương pháp mã hóa dựa vào nền tảng chuyển đổi. Và chuẩn G.722.2, hoạt
động với âm thoại băng tần rộng với tốc độ bit truyền rất thấp, sử dụng giải thuật CELP-
based.
Về vấn đề bản quuyền, đến thời điểm này, giấy đăng ký bản quyền cho G.722 đã hết
hạn, cho nên hiện tại chuẩn này được xem như là chuẩn miễn phí. G.722.1 thuộc bản quyền
của tập đoàn Polycom và chuẩn G.722.2 còn có tên là AMR-WB, thuộc quyền sở hữu của tập
đoàn VoiceAge.
G.722.2 (GSM AMR WB)
Adaptive Multi Rate - WideBand hay AMR-WB là một chuẩn mã hóa tiếng nói được
phát triển sau khi AMR sử dụng cùng công nghệ tương tự như ACELP. Mã cung cấp chất
lượng âm thoại tuyệt vời bởi vì sử dụng băng tần thoại rộng hơn 50-7000 Hz khi so sánh với
các mã âm thoại băng hẹp hiện đang dùng rộng rãi trong các POTS với 300-3400Hz. AMR-
WB được hệ thống hóa thành G.722.2, là một chuẩn mã hóa âm thoại chuẩn ITU-T.
Các trạng thái hoạt động của ẢM: AMR-WB hoạt động tương tự AMR với nhiều tốc độ
bit khác nhau gồm: 6.60; 8.85; 12.65; 14.25; 15.85; 18.25; 19.85; 23.05 và 23.85 kbps. Tín
hiệu truyền với tốc độ thấp nhất cho chất lượng thoại tốt nhất ứng với môi trường không nhiễu
là 12.65 kbps. Tốc độ bit cao rất hữu dụng trong môi trường có nhiễu và trong trường hợp tín
hiệu truyền là âm nhạc. Tốc độ bit 6.60 à 8.85 cung cấp chát lượng chấp nhận được khi so
sánh với mã hóa băng tần hẹp.
AMR-WB được chuẩn hóa cho việc sử dụng trong tương lai trong các hệ thống mạng
như UMTS. Chuẩn này cung cấp chất lượng thoại tốt hơn rất nhiều và được chọn dùng cho
nhiều mạng cũ hỗ trợ cho băng rộng. Tháng 10 năm 2006, kiểm nghiệm AMR-WB đầu tiên
được thực hiện trên hệ thống mạng thực do T-Mobile và Ericssion phối hợp tại Đức.
G.723 là một chuẩn ITU-T mã hóa âm thoại băng tần rộng, là chuẩn mở rộng của G.721
điều chế xung sai phân tương thích với tốc độ truyền 24 và 40 kbps cho các ứng dụng thiết bị
nhân mạch số, hiện nay G.723 được thay thế bởi chuẩn G.276, do đó hiện tại chuẩn này là lỗi
thời.
Chuẩn G.723.1 là chuẩn mã hóa âm thanh cho thoại với tính năng nén thoại trong khung
30 mili giây, chu kỳ 7.5ms cũng được sử dụng. Nhạc hoặc âm tone như DTMF hoặc fax ton
không thể truyền tin cậy với chuẩn mã hóa này, do đó một số các phương pháp khác nhưu
G.711 hoặc phương pháp ngoài dãy băng tần dùng để truyền các tín hiệu này.
Chuẩn G.723.1 chủ yếu dùng trong các ứng dụng Voice over IP (VoIP) vì yêu cầu băng
thông thấp. Nó trở thành chuẩn ITU-T vào năm 1995, điều phức tạp của giải thuật là yêu cầu
là dưới 16MIPS với 2.2kByte về RAM.
166
Có hai tốc độ bit mà G.723.1 có thể hoạt động:
o 6.3 kbit/s (sử dụng khung 24 byte), dùng giải thuật MPC-MLQ (MOS 3.9)
o 5.3 kbit/s (sử dụng khung 20 byte) dùng giải thuật ACELP (MOS 3.62)
G.726 là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các tốc độ 16,
24, 32, và 40 kbps. Là chuẩn thay thế cho cả G.721 (ADPCM tốc độ 32kbps) và chuẩn G.723
(ADPCM với tốc độ 24 và 40 kbps). G.726 hoạt động với tần số là 16 kbps. Bốn tốc độ bit
thường sử dụng cho chuẩn G.726 tương ứng với kích thước của một mẫu theo thứ tự là 2-bits,
3-bits, 4-bits, và 5-bits.
Tốc độ thường dùng là 32 kbps, bởi vì đây chính là tốc độ bằng một nửa so với chuẩn
G.711, như thế làm gia tăng dung lượng củ mạng lên 50%. Thông thường được dùng trong
các mạng điện thoại quốc tế cũng như hệ thống điện thoại không dây DECT.
G.721 được giới thiệu lần đầu tiên vào năm 1984, trong khi chuẩn G.723 được giới
thiệu vào năm 1988. Cả hai được gộp chung thành chuẩn G.726 vào năm 1990.
G.727 được giới thiệu cùng thời điểm với G.726, cùng tốc độ bít nhưng tối ưu hơn cho
môi trường PCME Packet Circuit Multiplex Equipment. Điều này đạt được bằng cách nhúng
bộ lượng tử hóa 2 bit vào bộ lượng tử hóa 3 bit, cho phép hủy bỏ bit có trọng số nhỏ nhất
trong chuỗi bit truyền mà không có ảnh hưởng xấu đến tín hiệu âm thoại.
G.728 là chuẩn ITU-T mã hóa âm thoại với tốc độ 16kbps. Công nghệ sử dụng là LD-
CELP, Low Delay Code Excited Linear Prediction. Độ trễ của mã chỉ 5 mẫu ( 0.625 ms). Dự
đoán tuyến tính được thực hiện tính toán với bộ lọc LPC ngược bậc 50. Ngõ vào kích thích
được tạo ra để đảm bảo nhận được độ lợi VQ. Chuẩn được đưa ra vào năm 1992 dưới dạng
giải thuật mã dấu chấm động. Năm 1994, bản dùng cho dấu chấm tĩnh được phát hành. G.728
có tốc độ lên đến 2400 bps. Độ phức tạp của bảng mã là 30 MIPS, với yêu càu 2.2kByte về
RAM.
G.729 là một giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín hiệu âm
thanh với khung 10 mili giấy. Các tone nhạc như DTMF hoặc fax không thể truyền với bộ mã
hóa này, mà phải sử dụng G.711 hoặc phương pháp ngoại băng tần để truyền các tín hiệu này.
G.729 đa số dùng trong các ứng dụng Voice over IP (VoIP) với yêu cầu băng tần thấp.
Chuẩn G.729 hoạt động ở tốc độ 8 kbps, nhưng các phiên bản mở rộng có thể hoạt động tại
6.4 kbps đối với môi trường truyền xấu và 11.8 kbps với yêu cầu chất lượng thoại tốt hơn.
Trong thực tế, người ta thường dùng chuẩn G.729a, tương tự như G.729 nhưng có độ tính
toán đơn giản hơn, tuy nhiên chuẩn này lại không cho chấtl lượng thoại tốt hơn.
Phiên bản G.729b là một chuẩn có bản quyền, sử dụng module VAD để phát hiện tín
hiệu thoại hay phi thoại. Nó cũng bao gồm một module DTX dùng để quyết định nâng cấp các
thông số nhiễu nền cho tín hiệu phi thoại (các khung nhiễu). Các khung này được truyền để
thực hiện việc nâng cấp này được gọi là các khung SID. Một bộ tạo nhiễu (CNG) cũng được
tích hợp trong chuẩn này, bởi vì trong một kênh truyền, nếu việc truyền bị dừng lại vì lý do
tín hiệu là tín hiệu phi thoại, thì site còn lại sẽ xem như đường kết nối này bị đứt. Vì thế khi
sử dụng chuẩn này cần phải thận trọng.
167
Những năm gần đây, chuẩn G.729 đã được nghiên cứu mở rộng để hỗ trợ cho tín hiệu
âm thoại băng tần rộng và mã hóa âm thanh thành chuẩn G.729.1. Bộ mã hóa G.729.1 được
thiết kế theo mô hình phân cấp, tốc độ bit và chất lượng điều hiệu chỉnh đơn giản bằng cách
thức cắt giảm chuỗi bit truyền.
G.729.1 thêm chức năng băng tần rộng so với G.729 thông qua các lớp được nhúng vào.
Lớp đầu tiên trên cùng G.729 (12kps) vẫn là dạng băng tần hẹp. 14 kbps thêm vào chất lượng
băng tần rộng thông qua việc tái tạo phổ, sử dụng đóng gói thời gian và đóng gói tần số (có
tốc độ truyền cộng thêm là 2kbps). Các lớp khác ( ứng với từn bước 2 kbps) thêm nhiều thông
tin về nội dung của phổ ở các tần số cao và như thế làm gia tăng chất lượng tín hiệu.
Các mã được phát triển bởi sự phối hợp của các tổ chức: France Telecom, tập đoàn
Mitsubishi Electric, tập đoàn Nippon Telegraph và Telephone (NTT), và Université de
Sherbrooke.
2. Các tiêu chuẩn của ITU- T cho hình ảnh và Video.
Chuẩn H.261 là chuẩn ITU mã hóa tín hiệu video năm 1990 được đưa ra để truyền
trên hệ thống đường dây ISDN với các tốc độ dữ liệu là số nhân của 64 kbps. Tốc độ dữ liệu
của giải thuật mã hóa được đưa ra để có thể hoạt động được giữa 40 kbps và 2 Mbps. Chuẩn
hỗ trợ các khung video CIF và QCIF với độ phân giải 352x288 và 176x144 theo thứ tự tương
ứng (và 4:2:0 mẫu với độ phân giải màu là 176x144 và 88x72 theo thứ tự tương ứng). Chuẩn
cũng xét đến tình huống dự phòng cho việc truyền các hình với độ phân giải 704x576 ( được
hiệu chỉnh vào năm 1994).
Chuẩn H.261 là chuẩn mã hóa tín hiệu video số đầu tiên được áp dụng trong thực tế.
Việc thiết kế chuẩn H.261 là một nỗ lực tiên phong, các chuẩn mã hóa video toàn cầu sau này
(MPEG-1, MPEG-2/H.262, H.263, và ngay cả H.264) cũng chủ yếu dựa trên chuẩn này.
Ngoài ra, cac phương pháp được sử dụng bởi hội đồng phát triển H.261 (đứng đầu là Sakae
Okubo) cộng tác phát triển chuẩn vẫn được ứng dụng trong các công việc chuẩn hóa các
chuẩn sau này trong lĩnh vực này. Giải thuật mã hóa sử dụng một hybrid của sự chuyển dộng
của ước đoán hình ảnh nội tại và mã hóa truyền trong không gian với việc lượng tử vô hướng,
phân hình theo kiểu zig-zac và mã hóa entropy.
2.1 Chuẩn H.261
Quá trình cơ bản của việc thiết kế được gọi là macroblock. Mỗi macroblock bao gồm 1
dãy 16x16 các mẫu luma và hay dãy mẫu chroma 8x8 dùng việc lấy mẫu 4:2:0 và không gian
màuYCbCr.
Dự đoán hình ảnh nội tại thực hiện laọi bỏ các dư thừa tạm thơi, với các vector chuyển
động được dùng để hỗ trợ cho việc bù mã hóa cho việc di động. Mã di chuyển sử dụng
chuyển đổi cosin rời rạc 8x8 (DCT) dùng để loại bỏ các dư thừa thuộc không gian, và các hệ
số biến đổi lượng tử được phân hình theo kiểu zig-zac và mã hóa entropy (dùng mã Run-
Level variable-length) để loại bỏ các dư thừa đã thống kê.
Chuẩn H.261 thật sự chỉ định rõ bằng cách nào để giải mã video. Các nhà thiết kế bộ
mã hóa được tự do trong việc đưa ra các giải thuật mã hóa của riêng họ, ngay cả với tín hiệu
ngõ ra bộ mã hóa không được tự nhiên nhằm mục đích có thể được giải mã bằng bất kỳ bộ
giải mã nào miễn là được thiết kế theo đúng chuẩn. Các bộ mã hóa cũng được thiết kế tuỳ ý
168
nhằm thực hiện quá trình tiền xử lý mà chúng muốn ngõ vào video ưu tiên mặc định thực
hiện. Một kỹ thuật hiệu quả trong vấn đề hậu xử lý trở thành phần tử chính yếu của các hệ
thống tốt nhất dựa trên chuẩn H.261 là lọc giải khóa. Nó thực hiện việc giảm sự xuất hiện của
vật nhân tạo nhiễu có dạng hình khối gây ra bởi việc bù di động theo dạng khối và các phần
chuyển đổi do việc thiết kế tạo ra. Việc lọc giải khóa đã trở thành một phần tích hợp trong hầu
hết các chuẩn hiện nay, H.264 (ngay cả sử dụng chuẩn H.264, việc hậu xử lý vẫn cho phép
thực hịên và có thể cho được chất lượng cao)
Việc lọc được đề cập trong việc chuẩn hóa có ảnh hưởng đến việc cải tiến quan trọng
giữa khả năng nén và thiết kế H.261. Tuy nhiê, H.261 vẫn là định hướng lịch sử chính trong
lãnh vực phát triển của mã hóa video.
2.2 Chuẩn H.262
Chuẩn H.262 là một chuẩn mã hóa video số ITU-T. Chuẩn này liên quan đến phần
video của chuẩn ISO/IEC MPEG-2 (được biết dưới cái tên ISO/IEC 13818-2). Chuẩn này
được phát triển do sự hợp tác của ITU-T và các tổ chức ISO/IEC JTC 1, và trở thành chuẩn
chung cho cả hai tổ chức này. ITU-T Recommendation H.262 và ISO/IEC 13818-2 được phát
triển và phát hành dưới dạng là chuẩn quốc tế. Hai tài liệu này mô tả hầu hết tất cả các khía
cạnh của chuẩn.
2.3 Chuẩn H263
Chuẩn H.263 là chuẩn mã hóa ITU-T thiết kế vào năm 1995/1996 dùng cho giải pháp
mã hóa nén tốc độ truyền thấp cho các dịch vụ hội nghị truyền hình.
Mã đầu tiên được thiết kế trong các hệ thống H.324 (PSTN hoặc các mạch chuyển mạch
mạch khác truyền dịch vụ hội nghị truyền hình và điện thoại truyền hình), cũng như trong các
hệ thốgn dùng mã H.323 (hội nghị truyền hình RTP/IP-based), H.320 (hội nghị truyền hình
ISDN-based), RTSP (phương tiện truyền thông dạng streaming) và SIP (hội nghị Internet).
Hầu hết nội dung Flash Video( dùng trên các site như YouTube, Google Video, MySpace,
v.v….) được mã hóa dưới dạng định dạng này, tuy vẫn có site sử dụng mã hóa VP6, hỗ trợ
phiên bản Flash 8. Tín hiệu video H.263 có thể được giải mã bằng thư viện phi bản quyền
LGPL-licensed dùng trong các chương trình như ffdshow, VLC media player và MPlayer.
Chuẩn H.263 được phát triển như là một phiên bản nâng cấp dựa trên chuẩn H.261, và
chuẩn MPEG-1, MPEG-2. Phiên bản đầu tiên được hoàn thành vào năm 1995 và hoàn toàn
phù hợp trong việc thay thế cho H.261 với tất cả các tốc độ truyền. Hiện tại đã có các phiên
bản H.263v2 (còn gọi là chuẩn H.263+ 1998) và chuẩn H.263v3 (H.263++ 2000).
Chuẩn mã hóa được ITU-T sau H.263 là H.264, còn có tên là AVC và MPEG-4 phần
thứ 10. Hầu hết các sản phẩm hội nghị truyền hình công nghệ mới hiện nay luôn tích hợp cả
ba chuẩn H.264, H.263 và H.261.
2.4 Chuẩn H264
169
Chuẩn H.264, MPEG-4 Part 10, hay AVC (dùng cho Advanced Video Coding), là một
chuẩn mã hóa video số với độ nén cực cao, là kết quả của ITU-T Video Coding Experts
Group (VCEG) kết hợp với ISO/IEC Moving Picture Experts Group (MPEG), được xem là
sản phẩm thương mại Joint Video Team (JVT). Chuẩn ITU-T H.264 và ISO/IEC MPEG-
4 Part 10(ISO/IEC 14496-10) ứng dụng các công nghệ lý tưởng. Phiên bản nháp đầu tiên
được hoàn thành vào tháng 05 năm 2003.
Chuẩn H.264 được đặt tên theo cùng dòng ITU-T H.26x của các chuẩn video, trong khi
tên AVC được đặt tên dựa theo tên dự án hợp tác, với tên của dự án là H.26L. Chuẩn còn
được gọi bằng các tên khác H.264/AVC, AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264
AVC nhằm nhấn mạnh tính kế thừa. Đôi khi, còn được gọi là “mã hóa JVT” với lý do là tổ
chức JVT phát triển.
Mục đích của dự án H.264/AVC là tạo ra một chuẩn có khả năng cung cấp tín hiệu
video chất lượng cao với các tốc độ bit truyền thấp, nhỏ hơn hay bằng một nửa so với tốc độ
của các chuẩn trước ( như MPEG-2, H.263, hay MPEG-4 Part 2) với tính ứng dụng cao trong
thực tế. Ngoài ra, chuẩn phải đáp ứng yêu cầu cung cấp cách thức linh động cho phép chuẩn
được ứng dụng rộng rãi trong nhiều trình ứng dụng ( ví dụ cho cả tốc độ bit cao và thấyp hoặc
độ phân giải cao hoặc thấp, và chạy ổn định trong nhiều hệ thống cũng như mạng ( cho việc
broadcast, lưu trữ DVD, mạng gói RTP/IP, và các hệ thống tổng đài đang phương tiện ITU-T)
2.5 Chuẩn JVT
Chuẩn JVT đã hoàn thành việc nâng cấp, phát triển một số tính năng mở rộng so với
chuẩn nguyên thuỷ, được biết dưới tên là Fidelity Range Extensions (FRExt). Các phiên bản
mở rộng hỗ trợ mã hóa video với độ trung thực cao bằng cách thức gia tăng độ chính xác lấy
mẫu (bao gồm mã hóa 10-bit và 12-bit) với thông tin màu độ phân gải cao (gồm các cấu trúc
lấy mẫu như YUV 4:2:2 và YUV 4:4:4). Một số tính năng khác trong dự án Fidelity Range
Extensions ( như phép biến đổi số nguyên chuyển mạch tương thích 4×4 và 8×8, các ma trận
trọng số lượng tử hóa dựa trên giác quan, mã hóa không mất mát hình nội tại hiệu quả, hỗ trợ
các không gian màu cộng thêm và phép biến đổi màu số dư). Công việc thiết kế trong dự án
được hoàn thành vào tháng 7 năm 2004 và phiên bản nháp được ra mắt vào tháng 09 năm
2004.
170
TÀI LIỆU THAM KHẢO
1. Anil K. Jain, Fundamentals of Digital Image Processing, Prentice Hall, 1988.
2. J. R. Parker, Algorithms for Image Processing and Computer Vision, Wiley,
1996.
3. Alan C. Bovik , Handbook of Image and Video Processing, Academic Press,
2000.
4. John R. Deller, John H. L. Hansen, John G. Proakis, Discrete-Time Processing
of Speech Signals, Wiley-IEEE Press, 1999.
5. R. C. Gonzalez, R. E. Woods, Steven L. Eddins, Digital Image Processing
Using MATLAB, Prentice Hall, 2003.
6. R. C. Gonzalez, R. E. Woods Digital Image Processing , Prentice Hall, 2002.
7. William K. Pratt, Digital Image Processing: PIKS Inside, Third Edition © 2001
John Wiley & Sons, Inc.
9. Michael Robin & Michel Poulin, Digital Television Fundamental, McCraw-Hill
Companies. Inc.
10. Đỗ Hoàng Tiến, Dương Thanh Phương Truyền hình kỹ thuật số. NXB Khoa
học và kỹ thuật, 2004.
11. Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, NXB Khoa
học và kỹ thuật, 1999.
171
MỤC LỤC
LỜI NÓI ĐẦU 1
CHƯƠNG 1 KỸ THUẬT XỬ LÝ ÂM THANH 3
1.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH 3
1.1.1 Giới thiệu sơ lược về âm thanh & hệ thống xử lý âm thanh 3
1.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh 10
1.2 MÔ HÌNH XỬ LÝ ÂM THANH 13
1.2.1 Các mô hình lấy mẫu và mã hoá thoại 13
1.2.2 Các mô hình dùng trong xử lý âm thanh 19
1.2.3 Mô hình thời gian rời rạc 27
1.3 LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN 30
1.3.1 Phân tích dự đoán tuyến tính 30
1.3.2 Dự đoán tuyến tính trong xử lý thoại 36
1.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI 40
1.4.1 Các phương pháp mã hoá 40
1.4.2 Các tham số liên quan đến chất lượng thoại 41
1.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản 41
1.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI 48
1.5.1 Mô hình thời gian động 48
1.5.2 Mô hình chuỗi markov ẩn 53
1.5.3 Mạng nơron 55
CHƯƠNG 2: KỸ THUẬT XỬ LÝ ẢNH 60
2.1 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ VIDEO SỐ 60
2.1.1 Khái niệm cơ bản về xử lý ảnh 60
2.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh 61
2.1.3 Các giai đoạn chính trong xử lý ảnh 62
2.1.4 Các phần tử của hệ thống xử lý ảnh số 64
2.1.5 Biểu diễn ảnh số 67
2.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số 92
2.2 PHÂN TÍCH CÁC KỸ THUẬT XỬ LÝ ẢNH VÀ VIDEO 106
2.2.1 Khái niệm về quan hệ giữa các điểm ảnh 106
2.2.2 Các phương pháp xác địnhvà dự đóan biên ảnh 109
2.3 CÁC KỸ THUẬT NÉN ẢNH 115
2.3.1 Giới thiệu chung về kỹ thuật nén ảnh 115
2.3.2 Phương pháp nén ảnh JPEG 121
2.3.3 Chuẩn nén MPEG 140
2.3.4 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén 162
PHỤ LỤC: GIỚI THIỆU CÁC TIÊU CHUẨN MÃ HÓA ÂM THANH VÀ
HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN 164
172
1. Các tiêu chuẩn của ITU- T cho âm thanh 164
2. Các tiêu chuẩn của ITU- T cho hình ảnh và Video 167
TÀI LIỆU THAM KHẢO 170
XỬ LÝ ÂM THANH, HÌNH ẢNH
Mã số: 411XAH450
Chịu trách nhiệm bản thảo
TRUNG TÂM ÐÀO TẠO BƯU CHÍNH VIỄN THÔNG 1
Các file đính kèm theo tài liệu này:
- Tailieu.Sharingvn.NETXulyamthanhhinhanh.pdf