Yêu cầu về băng tần là một sự khác nhau rõ nhất giữa truyền hình số và truyền hình tương tự. Truyền hình số yêu cầu băng tần rộng hơn
b. Tỷ lệ công suất/ Công suất tạp âm (Signal/Noise ) - (S/N)
Một trong những ưu điểm lớn nhất của tín hiệu số là khả năng chống nhiễm trong quá trình xử lý tại các khâu truyền dẫn và ghi.
Với truyền hình số, nhiễu là các bít lỗi. (VD. Xung “on” chuyển thành “of”).
Nhiễu trong truyền hình số được khắc phục nhờ các mạch và các mã sửa lỗi. Bằng các mạch này có thể khôi phục lại các dòng bít như ban đầu. Khi có quá nhiều bít lỗi, sự ảnh hưởng của nhiễu được làm giảm bằng cách che lỗi.
Tuy nhiên, trong truyền hình quảng bá, truyền hình số gặp phải vấn đề khó khăn khi thực hiện kiểm tra chất lượng ở các điểm trên kênh truyền. Tại đây cần phải sử dụng các bộ biến đổi tương tự - số. Đây là công việc lớn có khối lượng lớn và phức tạp.
93 trang |
Chia sẻ: Dung Lona | Lượt xem: 1133 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Hiện trạng và xu hướng phát triển của truyền hình số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ng có bù chuyển động.
+ Các thông tin được mã hóa rõ ràng, minh bạch nên số lượng bít yêu cầu lớn.
+ Do được mã hóa Intra, ảnh I bao giờ cũng là ảnh đầu tiên trong một nhóm ảnh hay một chuỗi ảnh. Nó cung cấp thông tin khởi động các ảnh tiếp theo trong nhóm.
Hình 4.4. Cấu trúc lớp dữ liệu trong MPEG
4.2.2. Sự phân loại ảnh MPEG.
Tiêu chuẩn nén MPEG định nghĩa 3 loại ảnh: ảnh I, ảnhB và ảnh P.
* Nén không gian. (nén Intra) - ảnh I.
Nén này tương tự nén M - JPEG nhưng có thêm một số giá trị phụ khác và có thể chọn bảng lượng tử và bảng Hufman để nén ảnh động. ảnh tĩnh thì có thể nén được nhiều hơn, ảnh động nén được ít hơn. Vì vậy, có Block nén được nhiều có Block nén được ít, nên tốc độ bít của từng Block là khác nhau, cần có (Thiếu trang 68)
* nén thời gian ( Nén Inter) - ảnh P, B.
Cơ sở nén ảnh P,B là đánh giá chuyển động và bù chuyển động. Thay vì truyền MB (Macro Blook) của ảnh ta chỉ truyền vectơ chuyển động của ảnh so với ảnh trước và truyền sai số giữa hai MB của hai ảnh.
ảnh P (Predictive Code Picture) được mã hóa liên ảnh một chiều.
* Dự báo Inter một chiều.
* ảnh dự báo được tạo ảnh tham chiếu trước đó (dự báo nhân quả), ảnh tham chiếu này có thể là ảnh I hoặc ảnh P gần nhất.
* Có thể sử dụng bù chuyển động thông tin ước lượng chuyển động của các khối nằm trong vectơ chuyển động (motion vecto). Vectơ này xác định Macroblock nào được sử dụng từ ảnh trước.
Do vậy ảnh P bao gồm cả những MB mã hóa Inter (I - MB) là những Macroblock chứa thông tin lấy từ ảnh tham chiếu và những MB mã hóa intra là những MB chứa những thông tin không thể mượn từ ảnh trước. ảnh P có thể được sử dụng làm ảnh tham chiếu tạo dự báo ảnh sau.
ảnh B (Bidirectionnally Predicted Pictures) là ảnh mã hóa liên ảnh hai chiều, tức là:
* Có sử dụng bù chuyển động.
* Dự báo không nhân quản, ảnh dự báo gồm các Macroblock của các khung hình trước đó và sau đó.
Hình 4.5. Nội suy bù chuyển động.
Việc sử dụng thông tin lấy từ ảnh trong tương lai hoàn toàn có thể thực hiện được vì tại thời điểm mã hóa thì bộ mã hóa đã sẵn sàng truy cập tới ảnh phía sau. ảnh B không được sử dụng làm ảnh tham chiếu tạo dự báo cho các ảnh sau.
Thứ tự truyền dẫn và thứ tự hiển thị ảnh.
Chuỗi ảnh MPEG thường có cấu trúc IBBPBBPBBI nhưng thứ tự truyền dẫn và thứ tự hiển thị ảnh là khác nhau do khi tạo ảnh B cần thông tin từ cả khung quá khứ và tương lai. Như vậy ảnh trong tương lai cần phải được truyền dẫn trước, khi hiển thị phải theo đúng thứ tự nguồn. Để thực hiện điều này, lớp ảnh của dòng dữ liệu MPEG có thông tin về số thứ tự ảnh để trợ giúp hiển thị .
Hình 4.6. Thứ tự truyền dẫn và thứ tự hiển thị ảnh.
Trong ba loại nén I,P,B thì nén ảnh B tốt nhất, ảnhP rồi đến ảnh I (xét về tốc độ bít).
4.2.3. Tiêu chuẩn MPEG - 1.
MPEG-1 có phạm vi ứng dụng rộng rãi cho dạng thức CSIF (Common Source Intermediete Format). CSIF là một định dạng nguồn dữ liệu đầu vào của các bộ nén và giải nén do CCITT quy định phù hợp với hai dạng quét TV 525/60 và 625/500. Dạng thức này gắn với cấu trúc lấy mẫu 4:2:0 được quy định như sau:
CCR- 601 525
CSIF - 525 4:2:0
CCIR -601 625
CSIF – 625 4:2:0
Số điểm/ dòng tích cực
+ Chói Y
720
352
720
352
+ Màu Cb, Cr
360
176
360
176
Tần số lấy mẫu (MHz)
+ Chói Y
13,5
6,75
13,5
6,75
+ Màu Cb, Cr
6,75
3,38
6,75
3,38
Số dòng tích cực
+ Chói Y
480
240
576
288
+ Màu Cb, Cr
480
120
576
144
Tốc độ khung (Hz)
30
30
25
25
Tử ảnh số (kích cỡ ảnh)
4:3
4:3
4:3
4:3
Bảng 4.1: Dạng thức cơ bản của CSIF
Đối với MPEG - 1, dòng dữ liệu truyền hình chuẩn theo CCIR - 601 phải được biến đổi sang sạng CSIF bằng một bộ chuyển đổi (Converter). Điều này được thực hiện bằng cách sử dụng bộ lọc dòng (Horizontal decimation filter) cho tín hiệu chói mành lẻ, bộ lọc dòng và màng cho tín hiệu CR, CB mảnh lẻ. Quá trình giải mã tại bộ thu phải dự báo mành chẵn từ mành lẻ nội suy. Để giảm mức độ phức tạp và giá thành bộ giải mã, trong MPEG1 một số tham số được mặc định thành hằng số như sau:
Tham số
Giá trị cực đại
Độ rộng ảnh
768 điểm
Chiều cao ảnh
576 dòng
Tốc độ ảnh
30 ảnh/s
Số lượng MB (Macroblock)
396
Giải vector chuyển động
+ 64 điểm
Kích thước bộ đệm đầu vào
327.680 bít
Tốc độ bít
1,8 Mb/s
Bảng 4.2: Các tham số mặc định trong chuẩn MPEG - 1
Dòng bít gồm 6 lớp (như đã mô tả trong mục 4.2.1). sử dụng cả hai dạng nén:
Nén intra: (Biến đổi DCT, lượng tử hoá, mã hoá VLC cho ảnh I
Nén Inter: Ước lượng chuyển động, tạo dự báo có bù chuyển động cho ảnh B và ảnh P
MPEG - 1 có một số tiêu chuẩn cơ bản như sau:
Chỉ có một cấu trúc lấy mẫu 4:2: 0
Độ chính xác mẫu đầu vào 8 bít
Kích cỡ ảnh tối đa là 720pixel với 576 dòng sử dụng các tham số mặc định và cỡ 4095 x 4095 dùng tham số đầy đủ.
Độ chính xác lượng tử hoá và DCT: 9 bít.
Sử dụng lượng tử hoá DPCM tuyến tính cho hệ số DC.
Lượng từ thíc nghi cho lớp Macroblok (16 x 16 điẻm)
Độ chính xác cực đại của hệ số DC là 8 bít.
Ma trận lượng tử chỉ có thể thay đổi ở lớp chuỗi.
Sử dụng khung P và B.
Độ chính xác dự báo chuyển động là nửa điểm.
Tốc độc bit tối đa à 1,85 Mb/s khi dùng tham số mặc định cho ảnh 720 x 576 và 100 Mb/s khi dùng tham số đầy đủ cho ảnh 4095 x 4095 MPEG - 1 cho phép có sự truy cập ngẫu nhiên các khung Video, tìm kiếm nhanh thuận ngược theo dòng bít đã nén, phát lại ngược dòng Video và khả năng dời bỏ dòng bít nén
4.2.4. Hệ thống nén MPEG - 1.
Sơ đồ khối chi tiết bộ Codec (Bộ mã hoá và giải mã) trong chuẩn MPEG - 1 như sau: Bộ phân loại intrer/Intra căn cứ vào thông tin phân loại ảnh (I, B, P) sẽ cho tín hiệu ra intrer/Intra xác định ảnh được mã hoá theo mode Interhay mode intra. Thông tin này là tác nhân chuyển mạch kích hoạt bộ tạo dự báo tương ứng.
Nếu ảnh I (mã hoá intra): Sử dụng dự báo Intra, lấy MB lân cận trước đó làm dự báo cho MB hiện hành. MB lân cận này được phục hồi nhờ bộ giải lượng tử và biến đổi DCT ngược (IDCT).
Nếu ảnh B, P (mã hoá Inter): sử dụng bộ dự báo Inter có bù chuyển động. Bộ tạo dự báo này hoạt động như sau:
+ Chuyển động các MB được tính toán nhờ bộ ước lượng chuyển động theo các thuật toán Blocking, kết quả cho véc tơ chuyển động.
+ Véc tơ chuyển động này được đưa đến khối dự báo có bù chuyển động để tạo giá trị dự báo có bù chuyển động.
+ Do quá trình ước lượng chuyển động cần sơ sánh giữa khung hiện hành với khung quá khứ (ảnh P) hoặc với cả khung quá khứ lẫn tương lai (ảnh B) nên cần có hai bộ lưu trữ ảnh.
Sai số MB dự báo và hiện hành được biến đổi DCT, lượng tử hoá, mã hoá VLC rồi đưa tới bộ nhớ đệm. Đầu ra bộ nhớ đệm là dòng bít đã được mã h oá và có tốc độ ổn định.Tham số lượng tử, thông tin phân inter/Intravà véctơ chuyển động sẽ được ghép kênh thông tin ảnh đưa tới bên thu phục vụ cho quá trình tạo dự báo và giải mã khôi phục ảnh.
Hình 4.7 Sơ đồ khối bộ mã hoá MPEG - 1
Hình 4.8 : Sơ đồ khối bộ giải mã MPEG - 1
Trong dòng bít truyền đi từ bên phát sẽ có thông tin ảnh gốc cũng như các tham số quy định bước lượng tử và vector chuyển động. Véc tor chuyển động này được bên thu sử dụng để tạo dự báo có bù chuyển động tương tự như phía phát.
Giá trị sia sóo dự báo từ bên thu sau khi giải lượng tử biển đổi DCT ngược được cộng với giá trị dự báo. Kết quả thu được ảnh cần hồi phục.
4.3. Nén tín hiệu Video theo MPEG - 2
4.3.1. Tiêu chuẩn nén Video MPEG - 2
Tiêu chuẩn MPEG - 2 còn được gọi là ISO/ITEC 13818 là sự phát triển tiếp theo của MPEG - 1 ứng dụng độ phân giải tiêu chuẩn của truyền hình do CCIR - 601. MPEG - 2 gồm 4 phần:
Phần 1: Hệ thống (ISO/ITEC 13818 - 1), xác định cấu trúc ghép kênh Audio, Video và cung cấp đồng bộ thời gian thực.
Phần 2: Video (ISO/ITEC 13818 - 2), xác định những thành phần mã hoá đại diện cho dữ liệu Video và phân loại xử lý giải mã để khôi phục lại khung hình ảnh.
Phần 3: Audio (ISO/ITEC 13818 - 3), định nghĩa quá trình tìm kiểm tra các yêu cầu của MPEG - 2
So với MPEG - 1, MPEG - 2 có nhiều cải thiện về kích thước ảnh, độ phân giải ảnh, tốc độ bít tối đa, tính phục hồi lỗi, khả năng co giãn dòng bít. Khả năng co giãn dòng bít của MPEG - 2 cho phép khả năng giải mã một phần dòng bít mã hoá để nhận được ảnh khôi phục có chất lượng tuỳ thuộc mức độ yêu cầu. Sau đây là một số đặc điểm chủ yếu của tiêu chuẩn này:
Hỗ trợ nhiều dạng thức Video, đặc biệt là các dạng thức video độ phân giải không gian cao, dạng thức video xen kẽ của truyền hình.
Cú pháp dòng bít MPEG - 2 là sự mở rộng của dòng bít MPEG - 1.
Nén video MPEG - 2 tương hợp với nén video MPEG - 1, được thể hiện qua bốn hình thức tương hợp.
Tương hợp thuận: Bộ giải mã MPEG - 2 có khả năng giải mã được một phần dòng bít ( hoặc một phần dòng bít MPEG - 1).
Tương hợp ngược: Bộ giải mã độ phân giải cao có khả năng giải mã được một phần dòng bít MPEG - 2.
Tương hợp lên: Bộ giải mã độ phân giải cao có khả năng giải mã được dòng bít của bộ mã hoá có độ phân giải thấp.
Tương hợp xuống: Bộ giải mã độ phân giải thấp có thể giải mã được một phần dòng bít của bộ mã hoá có độ phân giải cao.
MPEG - 2 hỗ trợ khả năng co giãn (Scalability): Co giãn không gian, co giãn SNR (Signal to Noise Ratio), co giãn phân chia số liệu ...
Ngoài ra còn có nhiều cải tiến khác trong MPEG - 2 bao gồm:
+ Cho phép nhiều cấu trúc lấy mẫu: 4:4:4, 4:2:2 và 4:2:0.
+ Hệ số DC được mã hoá với độ chính xác đặc biệt.
+ Bảng lượng tử riêng biệt cho các thành phần chói và màu nên lợi dụngđược đặc điểm của mắt người ít nhạy cảm hơn với tín hiệu màu.
+ Cho phép cả hai dạng quét: Quét xen kẽ và quét liên tục.
+ Có khả năng hồi phục lỗi.
Cú pháp đầy đủ của MPEG - 2 về cơ bản tương hợp với MPEG - 1, tức là cũng gồm cấu trúc 6 lớp như đã trình bày trong mục III. 2.1.
Tên gọi và chức năng các lớp được liệt kê lại như sau:
Lớp
Chức năng
Lớp chuỗi (Sequence Layer)
Đơn vị nội dung
Lớp nhóm ảnh (GOP Layer)
Đơn vị truy cập ngẫu nhiên dòng video mã hoá
Lớp ảnh (Picture Layer)
Đơn vị mã hoá cơ bản
Lớp lát
Đơn vị tái đồng bộ
Lớp (MB layer)
Đơn vị bù chuyển động
Lớp khối (Block Layer)
Đơn vị chuyển đổi DCT
Bảng 4.3: Dạng lớp của cú pháp dóng bít MPEG - 2
Lớp chuỗi là đại diện mã hoá cho một chuỗi ảnh ( Video sequence).
Lớp nhóm ảnh cung cấp điểm truy cập ngẫu nhiên. ảnh I này cung cấp điểm truy cập vào dòng bít mã hoá.
Lớp Lát có chức năng hồi phục đồng bộ. Khi dòng bít có lỗi, bộ giải mã có thể bỏ qua slice có lỗi và bắt đầu bằng một Slice mới. Mỗi Lát chứa một hoặc một số MB.
Mỗi Macro Block (MB) là một đơn vị được ước ượng chuyển động và có véc tor chuyển động riêng trong phần Hearder của nó.
Lớp khối là lớp thấp nhất, mỗi khói là một đơn vị DCT gồm 64 hệ số (1 hệ số DC và 63 hệ số AC như trình bày trong mục 3:2:2, phép chuyển đổi Cosine rời rạc) của khối ảnh I hoặc khối sai số dự báo ( ảnh P,B).
So với MPEG - 1, cú pháp dòng bít MPEG - 2 có thêm một số chức năng mở rộng. Do đó có 2 hướng đi trong dòng bít MPEG - 2 như hình vẽ dưới đây: Hoặc theo quy trình MPEG - 1 hoặc theo các chức năng mở rộng riêng của MPEG - 2.
Hình 4.9: Cú pháp dòng bít MPEG - 2
4.3.2. Khả năng co giãn của MPEG - 2
Một trong những đặc điểm quan trọng nhất của MPEG - 2 là sự phù hợp với nhiều ứng dụng video. Có thể sử dụng MPEG - 2 cho phân phối truyền hình tiêu chuẩn (Standard Televison), truyền hình phân giải cao (HDTV: High Delinition Televison) hoặc cho truyền dẫn tín hiệu truyền hình thông qua các mạng truyền thông.
Tính co giãn của dòng bít MPEG - 2 là khả năng giải mã được một phần dòng bít MPEG - 2 độc lập với phần còn lại của dòng bít đó nhằm khôi phục video với chất lượng hạn chế (hạn chế độ phân giải không gian, độ phân giải thời gian hoặc hạn chế về SNR ...) Dựa trên tính co giãn, dòng bít được phân thành hai hay nhiều lớp. Tập con nhỏ nhất của cú pháp dòng bít có thể giải mã một cách độc lập được gọi là lớp cơ bản. Các lớp còn lại gọi là các lớp nâng cao, có nhiều loại co giãn khác nhau như:
Co giãn không gian: Dòng bít gồm hai hay nhiều lớp video có độ phân giải không gian khác nhau.
Co giãn SNR: Dòng bít gồm hai hay nhiều lớp video có cùng độ phân giải không gian nhưng tỷ số hiệu/nhiễu SNR là khác nhau.
Co giãn thời gian: Dòng bít gồm hay hay nhiều lớp video có cùng độ phân giải không gian nhưng có độ phân giải thời gian là khác nhau.
Co giãn phân chia số liệu: Dòng bít video được chia làm hai phần, phần ưu tiên cao (lớp cơ bản) gồm các hệ số DCT tần số thấp, phần ưu tiên thấp (lớp nâng cao) gồm các hệ số DCT tần số cao.
Co giãn phân chia số liệu chính là dạng cơ bản của co giãn tần số
Tiêu chuẩn MPEG - 2 đã quy định chính thức hai loại co giãn: Co giãn không gian và co giãn SNR. Các loại co giãn khác chỉ mới ở dạng dự thảo.
4.3.3. MPEG - 2: Profile và Level.
Phạm vi ứng dụng của MPEG - 2 rất rộng, mỗi ứng dụng đòi hỏi mức độ phức tạp khác nhau. Bởi vậy, MPEG - 2 định nghĩa các mức (level) và các tập con (profile) phù hợp cho từng lĩnh vực ứng dụng. Profile xác định cú pháp dòng bít và level xác định các tham số hạn chế độ phân giải không gian, tốc độ bít.
Có 4 mức: Low (thấp), main (chính), High - 1440 (cao) và High (cao). Kích cỡ ảnh quy định bởi mức bốn mức tương ứng sau:
Level
Cỡ khung
Low
352 x 288 (bằng 1/4 cơ ảnh TV chuẩn)
Main
720 x 576 (cỡ ảnh TV chuẩn)
High – 1440
1440 x 1152
High
960 x 576 hoặc 1920 x 1152
Bảng 4.4: Các mức của kích cỡ ảnh.
Có 5 Profile:
Simple (đơn giản)
Main (chính)
SNR Scalabe (co giãn SNR)
Spatial scalable (có khả năng co giãn không gian).
High profile
Tổng cộng có 12 tổ hợp profile, level. Trong đó:
MP@ML (Main profile @ Main level) lấy mẫu 4:2:0, độ phân giải 720*576, tốc độ bít 15 Mb/s, dạng ảnh: I, B, P. ứng dụng vào việc số hoá truyền hình tiêu chuẩn (Standard television).
MP@ML (Main profile @ High level) lấy mẫu 4:2:0, độ phân giải 1920*1152, tốc độ bít 80 Mb/s, dạng ảnh: I, B, P. ứng dụng vào HDTV (Truyền hình số có độ phân giải cao).
Sau này có bổ sung 4:2:2P @ ML (4:2:2 Profile @ Main level) áp dụng vào việc sản xuất chương trình truyền hình (Studio) vì các lý do sau:
+ Chất lượng cao, độ phân giải màu tốt hơn so với MP@ML(lấy mẫu 4:2:0), chất lượng tổng quát cao hơn do sử dụng tốc độ bít lớn hơn.
+ Có khả năng sao chép nhiều lần mà vẫn đảm bảo chất lượng y như video gốc.
+ Tính linh hoạt: Nhóm ảnh (GOP) ngắn hơn nên thuận iện cho việc dàn dựng, biên tập chương trình truyền hình.
+ Tính kinh tế: giá thành lưu trữ và truyền dẫn giảm, có khả năng tương hợp giữa các thiết bị của nhiều hãng sản xuất khác nhau.
Các tham số cơ bản của 4:2:2 và ML
Cấu trúc lấy mẫu: 4:2:2
Độ phân giải ảnh: 720 x 576
Tốc độ dòng bít: 20Mb/s
Dạng ảnh sử dụng: I,B,P
4.4. Ghép kênh Audio - Video số theo tiêu chuẩn MPEG - 2
4.4.1 Hệ thống truyền tín hiệu MPEG - 2.
Hệ thống MPEG - 2 sử dụng cấu trúc dữ liệu dạng gói như dữ liệu của các mạng truyền thông. Các gói dữ liệu luôn luôn bao gồm phần đầu đề (Header) và phần tải (Payload).
Phần Header chứa thông tin cần thiết để xử lý dữ liệu ở phần Payload (thông tin phân loại ảnh trong phần Header gói ảnh).
Kích thứoc phần Payload có thể cố định hoặc thay đổi.
Hình 4.10: Mô tả kích thước Payload.
Trong tiêu chuẩn MPEG - 2, dòng bít tại đầu ra bộ mã hoá video/Audio được gọi là dòng sơ cấp ES và là một khung Audio trong dòng Audio cơ bản. Các dòng ES được đóng gói trở thành:” Packetized Elementary Stream”, gọi là các gói PES. Cũng như mọi dạng thông tin khác, PES bao gồm phần Header và phần Payload. Phần Payload của PES có độ dài thay đổi. Các gói PES sau đó được chia ra thành các gói nhỏ hơn có độ dài cố định gọi là gói truyền tải TSP (Transport Stream Packet).
Mỗi loại gói cấu trúc nên một dạng dòng dữ liệu sử dụng cho những ứng dụng khác nhau. Các gói PES cầu thành dòng chương trình (Program Stream). Nếu chúng được chia nhỏ thành các gói TS (Tranport Packet) thì tạo thành dòng truyền tải (Transport Stream). ở phía phát hiện đóng gói và ghép kênh, còn bên thu sẽ mở gói và giả mã.
Hình 4.11: Hệ thống truyền tải MPEG -2
Lớp hệ thống (System layer) là phần mở rộng của MPEG -2 so với MPEG -1. MPEG -1 chỉ quy định quá trình nén, giải nén và đồng bộ cho tín hiệu video, audio trong lớp nén. Lớp này mô tả cú pháp và các dòng video và audio trong lớp nén. Lớp này mô tả cú pháp các dòng video và audio mã hoá. Mỗi dòng này, một cách độc lập nhau, cấu thành các dòng cơ bản (Elementary Stream - ES).
MPEG -2 trong lớp tăng cường của mình là System Layer, xác định ký pháp kết nối các dòng video, audio riêng lẻ thành các dòng đơn cho lưu trữ (dòng chương trình - Program Stream) hoặc truyền dẫn (dòng truyền tải - Transport Stream) cũng như các thông tin cần thiết cho phân kênh và đồng bộ tại bên thu. Cuối lớp hệ thóng (System Layer), các thông tin đồng hồ tham chiếu (System Clock Reference - SCR) và tem thời gian trình diễn (Presentation Time Stamp) được xen vào dòng bit.
4.4.2. Dòng dữ liệu đóng gói, dòng chương trình và dòng truyền tải.
4.4.2.1. Dòng dữ liệu đóng gói (Packetized Elementary Stream - PES)
Dòng Video, Audio cơ bản qua bộ đóng gói sẽ được phân tách thành các gói PES với kích cỡ bất kỳ. Nội dung của PES khởi nguyên từ dữ liệu âm thanh, hình ảnh MPEG - 2 gốc.
Cấu trúc PES trong tiêu chuẩn MPEG - 2 như sau:
Hình 4.12: Cấu trúc gói PES.
Sau khi được đóng gói, các dòng Video, Audio cơ bản (Elementary Stream) trở thành các dòng được đóng gói PES (Packetized Elementary Stream).
4.4.2.2. Dòng chương trình (Program Stream - PS) và dòng truyền tải (Transport Stream - TS).
Thông thường, có hai phương thức cung cấp thông tin video tới người sử dụng: Từ máy phát VCR hoặc từ mạng truyền hình quảng bá thông qua cáp, vệ tinh hay truyền thông mặt đất. MPEG - 2 định nghĩa hai công cụ cho hai phương thức truyền tín hiệu này là:Dòng chương trình cho lưu trữ dữ liệu trên ổ cứng hay đĩa CD-ROM và dòng truyền tải (Transport Stream) cho mạng cung cấp tín hiệu video thời gian thực.
Hình 4.13: Định dạng dòng chương trình, dòng truyền tải
từ dòng đóng gói PES.
* Dòng chương trình:
Dòng chương trình bao gồm các gói PES có độ dài thay đổi. Dòng chương trình được cấu thành từ sự ghép nối các dòng video và audio đóng gói (PES),được thiết kế để truyền trên các kênh tương đối ít bị nhiễu (ví dụ trong các ứng dụng CD - ROM) bởi vì dòng chương trình có độ dài gói thay đổi làm giảm tính chống nhiễu và bất cứ sự thất thoát, cấu trúc dữ liệu nào cũng gây ra những tác động vô cùng xấu tới chất lượng hình ảnh và âm thanh.
* Dòng truyền tải:
Nếu chia các gói PES có độ dài khác nhau thành các gói TS có độ dài không đổi (Mỗi gói TS được bắt đầu bằng TS Header) và truyền các gói này đi, ta sẽ có dòng truyền tải TS.
Hình 4.14: Cấu trúc gói truyền tải (Tranport stream packet - TS)
trong tiêu chuẩn MPEG - 2
Các gói TS có độ dài không đổi là 188 byte, trong đó chứa thông tin định thời, đồng bộ cũng như công cụ chính xác độ Jiter để đảm bảo truyền trên các truyền nhiễu như: Kênh truyền hình thông thường ( thông qua trạm mặt đất) cũng như các kênh truyền hình cáp.
Một trong những trường quan trọng nhất trong phần Header gói TS là PID (Packet Identifie) và PCR (Presentation Clock Pefference). Tất cả các gói truyền tải đều có số PID, sử dụng để xác định các gói truyền tải mang dữ liệu của cùng một dòng sơ cấp, đồng thời cũng định dạng loại dữ liệu được truyền tải trong phần Payload. Một số giá trị PID có ý nghĩa đặc biệt trong MPEG - 2.
Giá trị PID
Mô tả
0 x 0000
Bảng hiệp hội chương trình
0 x 0000
Bảng truy cập có điều kiện
0x0002 á 0x000 F
Dành riêng
0x0010 á 0 x 1 FFE
Dành cho dong PES, bảng MAP, bảng mạng
0x1FFF
Gói rỗng
Bảng 4.5: Các giá trị của số PID
Các gói truyền tải có PID = 0 mang dữ liệu của bảng hiệp hội chương trình (Program Association Tabe)
Bảng này thuộc phần thông tin đặc tả chương trình PSI (Program Specific information) - sẽ đề cập chi tiết trong phần sau.
Các gói TS có số PID = 0 x10, trong phần payload mang dữ liệu audio, video của các dòng sơ cấp.
Tốc độ truyền tải luôn uôn không đổi nên các gói rỗng được thêm vào để duy trì tốc độ bít ổn định cho dù tốc độ các dòng sơ cấp là thay đổi. Trường PCR chứa thông tin thời gian sử dụng cho đồng hồ đồng bộ 27 MHz trong bộ giải mã và giải mã.
Một chương trình bao gồm một hay nhiều dòng cơ cấp với cùng thông tin tham chiếu định thì. Nghĩa là một bộ PCR cung cấp thông tin định thì cho tất cả các loại số liệu: video, audio, được suy ra từ xung đồng bộ chủ. Hình vẽ dưới đây mô tả quá trình ghép kênh Audio, video tạo thành dòng truyền tải.
Hình 4.15: Định dạng truyền tải MPEG - 2
4.4.3. Dòng truyền tải MPEG - 2
Dòng truyền tải MPEG - 2 với độ dài các gói TS (Transport Stream Packet) không đổi có một số ưu điểm nổi bật sau:
* Cấp phát dung lượng động:
Các gói TS với độ dài cố định tạo khả năng linh hoạt trong việc cấp phát dung lượng kênh giữa các số liệu video, audio cũng như các số liệu phụ.
Mỗi gói TS được nhận dạng với số PID thuộc TS header. Dung lượng toàn bộ của kênh cũng có thể được cấp phát lại khi phân phối số liệu. Khả năng này có thể được ứng dụng để phân phối các khóa mã trong từng giây đến người xem trong các chương trình truyền hình có thu tiền.
* Khả năng co giãn:
Một kênh có dải thông tin rộng hơn có thể khai thác tối đa bằng cách sử dụng nhiều dòng sơ cấp ES tại đầu vào bộ ghép kênh. Tính chất này rất có giá trị khi phân phối trên mạng cũng như cung cấp khả năng liên vận hành.
* Khả năng mở rộng:
Cấu trúc dòng truyền tải cho phép mở rộng khả năng phục vụ các dịch vụ trong tương lai. Các dòng bít sơ cấp mới có thể được ghép thêm vào dòng truyền tải mà không cần sửa đổi cấu tạo phần cứng phía phát, chỉ cần gắn thêm các PID mới, khả năng tương hợp ngược vẫn đảm bảo. Có nghĩa bộ giải mã hệ thống hiện nay vẫn giải mã được dòng truyền tải tương lai nhưng bỏ qua các gói tương ứng các PID mới . Khả năng này được ứng dụng để đưa vào “Các dạng thức 1000 dòng quét liên tục “ hay “3D - HDTV ” bằng cách gửi thêm số liệu theo tín hiệu cơ bản.
* Khả năng chống lỗi và đồng bộ:
Các gói TS có độ dài không đổi tạo nền tảng cho việc kiểm soát lỗi gây ra bởi đường truyền và việc khôi phục lại đồng bộ giữa các dòng bít sơ cấp video, audio đang ghép kênh chung (dựa vào thông tin trong phân header).
4.4.3.1. Tính linh hoạt của dòng truyền tài.
Dòng truyền tải MPEG - 2 rất linh hoạt, thể hiện dưới hai khía cạnh sau:
* Các chương trình được định nghĩa như bất kỳ kết hợp nào của các dòng bít sơ cấp. Các dòng bít sơ cấp có thể xuất hiện trong một hay nhiều chương trình khác nhau. Hai dòng bít video có thể cùng kết hợp với một dòng audio để tạo hai chương trình khác nhau. Các chương trình có thể được sửa đổi phù hợp với một số yêu cầu đặc biệt ( cùng một chương trình truyền hình như phần audio được thay đổi theo từng vùng ngôn ngữ khác nhau.
* Nhiều chương trình khác nhau có thể ghép kệnh trong cùng một hệ thống truyền tải, tại phía thu (phía giải mã) chúng sẽ được tách ra dễ dàng.
4.4.3.2. Khả năng liên vận hành của dòng truyền tài.
Tại mức truyền tải, khả năng liên vận hành của dòng bít truyền hình là một đặc tính quan trọng của hệ thống truyền hình số, hai lĩnh vực liên vận hành cần được quan tâm là: Dòng truyền tải MPEG - 2 có thể được truyền trên tất cả các hệ thống thông tin và hệ thống truyền tải MPEG - 2, cũng có thể truyền các dòng bít đã tạo ra bởi các thông tin khác.
Một cách tổng quát, không có gì ngăn trở việc truyền các dòng truyền tải MPEG - 2 trên các hệ thống truyền dẫn khác nhau, tuy nhiên, trong một số hệ thống như truyền dẫn cáp, DBS, ATV ..., dòng truyền tài MPEG - 2 được truyền dễ dàng hơn, thuận tiện hơn so với một số hệ thống khác như các mạng máy tính sử dụng thủ tục FDDI, IEEE 802 ..., có thể sử dụng dòng truyền tải MPEG - 2 để truyền nội bộ trong studio cũng như truyền tới các thiết bị, các hệ thống thông qua một số phương pháp như sau:
* Phương pháp truyền số liệu nối tiếp SDI (Serial Digital Interface) theo khuyến nghị 656.
* Phương pháp truyền số liệu đóng gói nối tiếp SDDI (serial Digital Data Interconect).
* Phương pháp truyền SDH/SONET (Synchronnous Digital Hierachy/ Syschronous Optical Network).
* Phương pháp truyền số liệu gói ATM (Asynchronnous Transfer Mode).
Một khía cạnh liên vận hành khác của dong truyền tải truyền hình là khả năng truyền các dòng bít không phải thuộc truyền hình trên các hệ thống truyền hình số dựa trên tiêu chuẩn MPEG - 2. Điều này thực hiện được khi các dòng bit này bao gồm các gói truyền tải có khả năng nhận dạng. Tuy nhiên ở lớp hệ thống MPEG - 2 cũng cần có xử lý thêm.
4.4.3.3. Sự phân loại dòng truyền tải - dòng truyền tải đa chương trình.
Hệ thống MPEG - 2 phân loại hai dạng dòng truyền tải:
* Dòng truyền tải đơn chương trình (Single Program Transport Stream _ SPTS):
Dòng truyền tải này gồm các dòng PES tương ứng với các dòng sơ cấp khác nhau (audio, video, dữ liệu) nhưng có cùng thời gian gốc (thời gian định thời)
* Dòng truyền tải đa chương trình (Multi Program Transport Stream - MPTS):
Theo tiêu chuẩn MPEG - 2, một chương trình là sự kết hợp của một số dòng cơ cấp có cùng thời gian gốc (Một dòng sơ cấp video kết hợp với hai dòng sơ cấp có cùng thời gian gốc ( Một dòng sơ cấp video kết hợp với hai dòng cơ cấp audio và một dòng sơ cấp dữ liệu tạo thành một chương trình truyền hình với hai ngôn ngữ khác nhau, dòng dữ liệu chứa thông tin bỗ trợ.
Có nghĩa là một trạng thái thiết lập PCR cung cấp thông tin định thời cho các loại dữ liệu trong chương trình. Các thời gian định thời riêng lẻ cho audio hay video được suy ra từ đồng hồ chủ.
Nếu đan xe các gói TS của hai hay nhiều chương trình khác nhau sẽ tạo ra dòng truyền tải đa chương trình (Multi Program Transport Stream), được mô tả như sau:
Hình 4.16: Dòng truyền tải đa chương trình
Dòng truyền tải ở đây được tạo ra do đan xe các gói TS của hai chương trình. Chương trình 1 gồm hai dòng Sơ cấp (một video và một audio), chương trình 2 chỉ có dòng sơ cấp video, mỗi chương trình có đồng hồ tham chiếu 27 Mhz riêng. Tốc độ dòng truyền tải bao giờ cũng được ổn định cho dù tốc độ các dòng sơ cấp thay đổi. Các gói dữ liệu rỗng có số PID = 1FFF được thêmvào nhằm duy trì ổn định tốc độ bít dòng truyền tải đa chương trình.
3.4.3.4. Thông tin đặc ra chương trình PSL (Program specific information)
Như đã đề cập, một dòng truyền tải đa chương trình gồm một số các chương trình, mỗi chương trình lại gồm một số dòng cơ cấp. Do đó, hệ thống cần theo dõi tất cả các dòng số liệu khácd nhau và các PID liê hẹe. Bởi vaỵa, bên cạnh dòng thông tin audio và video, hệ thống truyền tải MPEG - 2 cũng mang thông tin điều khiển và quản lý. Các thông tin này được sử dụng để nhóm các dòng audio và video riêng rẽ trong một chương trình.
Tất cả các cấu túc thông tin điều khiển và quản lý chương trình được nhóm họp trong” Thông tin đặc tá chương trình” Prorgam Specific information - PSI”. Về cơ bản, PISS là một tập hợp các bảng kết nối với nhau. Bao gồm:
* Program Association Table (PMT): Bảng liên kết chương trình
* Program map Table: Bảng bản đồ chương trình.
* Network Information Table (CAT): bảng truy xuất có điều kiẹn.
Các thông tin đặc tả chương trình PSI bao gồm các loại thông tin: PAT, PMT, NIT và CAT. Thông tin bảng liên kết chương trình PAT là điểm bắt đầu của dòng truyền tải đa chương trình và được tìm thấy trong các gói truyền tải có số PID = 0
Thông tin PAT bao gồm số thứ tự chương trình và một só PID tương ứng với mỗi chương trình. Giá trị Pid này xác định các gói truyề tải mang một thông tin đặc tả khác là MAP (Bảng bản độ chương trinh).
Thông tin MAP cso một trường hợp gọi là PID - sơ cấp (elemntary PID).Trường này xác định số PID của các gói truyền tải mang dữ liệu PES (Packet elementary stream) của một số chương trình xác định.
Trong hình dưới đây cho ta thấy: Bảng PAT xác định đối với chương trình số 15 thì thông tin bản đồ chương trình (MAP) nằm trong các gói có số PID là 200. Gói PES video cho chương trình sóo 15 được tìm thấy trong các gói truyền tải có số PID - 500. Các gói audio tương ứng của chương trình này nằm trong các gói truyền tải cso số PID 510 và 520.
Trường còn lại trong thông tin BMT là trương “đặc tính dòng” - (Stream type) xác định loại dòng PES (video, audio, hay dữ iệu khác) của gói truyền tải ứng với giá thị trường PID - sơ cấp xác định.
Thông tin MAP còn có một trường hợp gọi là “ Mô phòng dòng” - (Stream descriptror) được sử dụng để mang thông tin bổ trợ cho dòng bit thuộc chương trình. “ Vidddeo desciptỏ” (mô phỏng video) cung cấp thông tin về tỉ số lấy mẫu tín hiệu màu, profle @ level hoặc tốc độ khung sử dụng cho dòng video sơ cấp.
Trong bảng PAT, chương trình số 0 mang một ý nghĩa đặc biệt, các gói chứa số PID tương ứng chương trình số 0 trong bảng PAT mang một ý nghĩa đặc biệt, các gói chứa số PID tương ứn chương trình số 0 trong bảng PAT mang thôngtin NIT (bảng thông tin mạng).
Thông tin NIT mang dữ liệu về mạng cung cấp. MPEG - 2 không xác định nội dung bảng thông tin mạng, nó thuộc về nhà phân phối mạng.
Cấu trúc PSI cuối cùng là bảng tuy xuất có điều kiện CAT mang thông tin về số PID của các gói truyền tải (TS) chứa dữ liệu về hệ thống trộn, xen. Thông tin CAT được truyền tải trong các gói TS có số PID = 1.
Hình 4.17: Mối quan hệ giữa các bảng PSI.
4.4.4. Đình thơì và đồng bộ sử dụng dòng truyền tải MPEG - 2
Trong hệ thống MPEG - 2, việc định thời hỗ trợ giải mã cũng như kiểm tra đồng bộ thu phát (Encoder - to - Decoder) được thực hiện nhờ ba dạng thông tin gọi là “ tem thời gian”(Time Stamp). Đó là:
* Tem thời gian mã hoá DTS ( Decode Time Stamp)
* Tem thời gian trình diễn PTS (Préentation Time Stamp)
* Tem thời gian tham chiếu chương trình PCS (Program Clok Renference).
Trong quá trình giải mã, bộ giải mã MPEG - 2 tập hợp các gói truyền tải có cùng số PID và khôi phục lại các đơn vị truy cập. Tại thời điểm này, có thể chưa phải thời điểm giải mã các dữ liệu audio và video nhận được, bởi vì thứ tự truyền dẫn ảnh khác với thứ tự hiện thị ảnh, như nhóm ảnh được truyền dẫn theo thứ tự IPBB sẽ có thứ tự hiển thị à IBBP.
Đễ hỗ trợ cho việc giải mã, MPEG - 2 sử dụng hai dạng tem thời gian PTS và DTS. Các thông tin này nằm trong phần Header của gói PES (Packetized Elementary Stream). Chúng xác định khi nào dữ liệu được giải mã và trình diễn. DTS chỉ được sử dụng nếu thời gian giải mã đơn vị truy cập khác so với thời gian trình diễn. DTS không kết hợp với các ảnh B bởi vì các ảnh dự báo hai chiều này luôn được hiển thị ngay khi bên thu nhập được dữ liệu ảnh.
Để kiểm tra đồng hộ thu và phát (kiểm tra tính đồng bộ giữa đồng hồ bộ giải mã va đồng hồ sử dụng cho bộ mã hoá và ghép kênh), MPEG - 2 sử dụng tem thời gian PCR được truyền đi một cách tuần hoàn.
CCIR - 601 quy định tần số lấy mẫu tín hiệu chói là 13,5 MHzs và 6,75 MHz cho hai tín hiệu màu với cấu trúc lấy mẫu 4:2:2. Nên đồng hồ 27 MHz là đồng hồ tham chiếu cho toàn bộ hệ thống MPEG - 2.
Thông tin PCR được truyền tải trông hai phần thuộc trường thích nghi (Adaption - Field) thuộc phần Header của gói truyền tải TS (Transport Packet Header). Hai phần này được gọi là: “Tham chiếu đồng hồ cơ bản” (Program - Clock Referece Base) và “ Tham chiếu đồng hồ chương trình mở rộng (Program Clock Reference Extention).
Hình 4.18. Thông tin đồng hồ hệ thống PCR
Hai phần này tương ứng với hai bộ đếm làm việc với tần số 90KHz và 27MHz. Khi dung lượng bộ đếm 27MHz đạt tới giá trị 300 thì nó Reset về 0 và dung lượng bộ đếm 90KHz tăng lên 1.
Lý do của việc chia đôi thông tin PCR là do thời gian gốc của dòng dữ liệu MPEG -1 chỉ là 90KHz, 27MHz là phần mở rộng tương ứng đường đi thứ hai trong hình sau:
Hình 4.19. Sự đồng bộ hóa thu phát.
Thông tin PCR có độ dài 33 bit cho phần cơ bản và 9 bit cho phần mở rộng tạo ra bộ đếm 42 bít đủ để đáp ứng cho dòng dữ liệu chương trình kéo dài 24 tiếng.
MPEG - 2 quy định thông tin PCR được truyền ít nhất 10 lần/s. Nội dung thông tin PCR chứa giá trị đồng hồ chính xác của bên phát. Với quy ước thời gian trễ truyền dẫn là không đổi, bên thu so sánh giá trị PCR nhận được với giá trị đồng hồ 27 MHz địa phương của nó. Nếu có sai số, sai số này sẽ được sử dụng để điều chỉnh đồng hồ 27MHz địa phương của nó. Nếu có sai số, sai số này sẽ được sử dụng để điều chỉnh đồng hồ thu đồng bộ theo đồng hồ phát. Quá trình điều khiển này được thực hiện bằng phần mềm điều khiển PLL.
Chương 5
Nén tín hiệu AUDIO
Tín hiệu Audio số PCM được sử dụng trong TV, truyền thông đa phương tiện cũng như trong nhiều ứng dụng khác. Các dòng số này có tốc độ bit rất cao. Khi âm thanh được lấy mẫu với tần số 48 KHz và độ phân giải là 16bit thì dòng số tạo ra sẽ có tốc độ lên đến 4,5Mb/s. Bởi vậy, yêu cầu phải có một phương pháp nén hiệu quả cho lưu trữ dữ liệu thời gian dài cũng như phân phối dữ liệu qua các kênh có bề rộng dải thông hẹp.
Việc nén audio hiện nay được tổ hợp trong các ứng dụng đa phương tiện trên cơ sở là máy tính, cho sự phân phối chương trình trên đĩa CD - ROM và mạng. Nó cũng được sử dụng trong truyền dẫn qua vệ tinh quảng bá (Digital Broadcast Satellite - DBS).
5.1. Cơ sở của nén dữ liệu audio.
Nén tín hiệu Audio được thực hiện dựa trên cơ sở là mô hình tâm lý thính giác của con người, sự hạn chế về mặt cảm nhận và hiện tượng che lấp các thành phần tín hiệu âm.
5.1.1. Mô hình tâm lý thính giác.
Hệ thống thính giác của con người (Human Auditory System - HAS) có đặc điểm như một bộ phân tích phổ. Nó chia dải phổ âm thanh nghe thấy thành các băng tần gọi là các “Băng tới hạn -critical bands”, như một dãy các bộ lọc thông giải. Các băng này có bề rộng dải thông là 100Hz với các tần số dưới 500Hz và tăng theo tần số tín hiệu với các tần số ớn hơn 500Hz, có thể mô hình hóa hệ thống cảm nhận của con người bằng 26 bộ lọc thông giải liên tiếp có bề rộng dải thông như đã nói.
Khi tín hiệu âm thanh bao gồm các tần số liền kề nhau, hệ thống thính giác con người (HAS) sẽ tổ hợp chúng thành một nhóm có năng lượng cân bằng. Ngược lại, nếu âm thanh bao gồm nhiều tần số khác biệt nhau, chúng sẽ được xử ý tách biệt và độ lớn âm được xác định.
Tính nhạy cảm của HAS giảm tại các tần số cao và tần số thấp. Điều này có nghĩa rằng đối với các mức âm thấp thì sự thay đổi trong cảm nhận của con người là rất quan trọng và sẽ giảm dần tại các mức âm cao.
5.1.2. Sự che lấp tín hiệu Audio.
Hệ thống thính giác củacon người còn có một đặc điểm vô cùng quan trọng, đó là tính che lấp “masking”. Có hai dạng che lấp, đó là: Che lấp thời gian và che lấp tần số. Tiến hành thực nghiệm đối với hệ thống thính giác, người ta đã xây dựng được đặc tuyến che lấp trong miền thời gian và trong miền tần số.
* Che lấp tần số:
Sự che lấp về mặt tần số là hiện tượng một âm thanh nghe thấy ở tần số này bỗng trở nên không cảm nhận được do ngưỡng nghe thấy bị dâng lên vì sự có mặt của một âm thanh ở tần số khác có cường độ mạnh hơn.
Hình 5.1 Ngưỡng nghe thấy tuyệt đối và ngưỡng che phủ tần số.
Để tai người nghe có thể nghe thấy bất cứ một âm thanh ở tần số nào cũng phải có mức áp suất âm lớn hơn một giá trị ngưỡng xác định. Tập hợp tất cả các giá trị ngưỡng này đối với tất cả các âm đơn trong dải tần nghe được tạo nên một đường cong gọi là “Ngưỡng nghe thấy tuyệt đối”, là đường đậm nét ở hình trên. Tất cả các âm thanh nằm dưới đường này đều không có khả năng được con người cảm nhận.
Sự xuất hiện của một âm thanh có cường độ cao ở một tần số nàođó, sẽ làm đường con này biến đổi đi. trong hình vẽ trên, âm 1KHz với mức âm 45dB đã àm ngưỡng nghe thấy tuyệt đối dâng lên 27dB. Điều này có nghĩa là những tạp âm dưới 27dB là không nghe thấy. Nếu sử dụng thang lượng tử có 6dB/bước nhảy thì chỉ cần 3 bit để mã hóa âm này vì giá trị vi sai ở đây là 45-27=18dB. Nếu mức âm 1KHz tăng lên tới 65dB thì mức che phủ sẽ tăng ên 55dB, giá trị vi sai lúc này chỉ còn 10dB và có thể mã hóa bằng 2 bit.
Việc che phủ tần số trước và sau cũng rất quan trọng. Như trên hình vẽ, âm 1KHz cũng làm ngưỡng nghe thấy của các âm tần số xung quanh dâng lên. Sự che phủ tần số phía sau quan trọng hơn và tăng theo mức âm. Điều này cho phép giảm độ chính xác mã hóa cho những tần số tín hiệu xung quanh âm che phủ. Những âm đơn tần xung quanh 1 KHz có mức âm nhỏ hơn đường cong che phủ sẽ không có khả năng cảm nhận và không cần thiết phải mã hóa mà vẫn không làm ảnh hưởng tới chất lượng cảm nhận của con người. Hệ thống nén dựa trên đặc điểm này được gọi là hệ thống nén theo thính giác.
* Sự che phủ thời gian.
Để tai người có thể nghe thấy, bất cứ một âm thanh ở tần số đơn nào cũng phải có mức áp suất âm lớn hơn một giá trị ngưỡng xác định. Tập hợp tất cả các giá trị ngưỡng này đối với tất cả các âm đơn trong dải tần nghe được tạo nên một đường cong gọi là “ngưỡng nghe thấy tuyệt đối”.
Hình 5.2. Sự che lấp về thời gian.
Sự che phủ thời gian là hiện tượng tai người chỉ cảm nhận được âm sau khi âm đó bắt đầu khoảng 200ms và có cảm tưởng âm thanh còn kéo dài khoảng 200ms nữa sau khi âm thanh đã dứt. Ngoài ra, thính giác cũng không phân biệt được khoảng ngừng nhỏ hơn 50 ms giữa hai âm thanh giống nhau đi liền nhau.
5.2. Công nghệ giảm tốc độ nguồn dữ liệu audio số.
Công nghệ mã hóa nguồn được sử dụng để loại bỏ đi sự dư thừa trong tín hiệu audio (khi giá trị vi sai mẫu - mẫu xấp xỉ bằng giá trị 0), còn công nghệ che lấp dựa trên mô hình tâm lý thính giác của con người có tác dụng loại bỏ các mẫu không có giá trị cảm nhận (các mẫu không nghe thấy). Có hai công nghệ nén cơ bản đó là:
* Mã hóa dự báo miền thời gian: sử dụng mã hóa vi sai, mã hóa các giá trị chênh lệch giữa các mẫu liên tiếp nhau để loại bỏ sự dư thừa thông tin nhằm thu được dòng bít tốc độ thấp.
* Mã hóa chuyển đổi miền tần số: Công nghệ này sử dụng các khối mẫu PCM tuyến tính biến đổi từ miền thời gian thành một số nhất định các băng tần trong miền tần số.
Hiện tượng che lấp là hiện tượng quan trọng nhất xảy ra trong miền tần số, để lợi dụng đặc điểm này thì phổ tín hiệu audio được phân tích thành nhiều băng phụ có độ phân giải thời gian và tầng số phù hợp với bề rộng các băng tần tới hạn của HAS. Mỗi băng phụ chứa một số thành phần âm rời rạc.
Cấu trúc bộ mã hoá audio cơ bản như sau:
Hình 5.3 Bộ mã hóa tín hiệu audio.
* Bộ lọc đa băng tần.
Bộ lọc đa băng tần ( hoặc gọi là dãy bộ lọc) là nhiệm vụ tách phổ tín hiệu thành các băng con, có ba cách thực hiện dãy bộ lọc:
+ Dãy băng con: Phổ tín hiệu được chia thành các băng tần phụ có độ rộng như nhau tương tự như khi chia phổ tần thành các băng tần tới hạn của hệ thống HAS, với các tần số nhỏ hơn 500Hz, một băng con sẽ chứa vài băng tần tới hạn. Trong công nghệ nén audio, sử dụng một số loại bộ lọc băng con (như PQMF - Polyphase Quadrrature Mirror Filter). Bộ lọc này có độ chồngp phổ thấp và thường được sử dụng cho các mẫu gần kề về mặt thời gian.
Trong tiêu chuẩn nén audio MPEG, một khung audio gồm 1152 mẫu được chia thành 32 băng con, mỗi băng con chứa 36 mẫu.
+ Dãy chuyển đổi: áp dụng thuật toán DCT có biến đổi (Modified Discrete Consine Transform - MDCT) để chuyển đổi tín hiệu audio miền thời gian thành một số lượng lớn các băng con (từ 256 đến 1024) trong miền tần số.
+ Dãy bộ lọc cân bằng: Tín hiệu vào trước tiên được chia thành 32 băng con nhờ các bộ lọc PQMF. Sau đó áp dụng phép biến đổi MDCT cho mỗi 18 mẫu của băng con. Kết quả sẽ thu được 576 băng rất hẹp (41,76Hz tại tần số lấy mẫu 48KHz), việc kết hợp này có độ phân giải thời gian khoảng 3,8ms. Số bộ lọc trong dãy phải được xác định phù hợp với một số tác nhân quan trọng.
- Dãy bộ lọc có độ phân giải thấp (nghĩa là băng tần rộng) sẽ cho số lượng băng con nhỏ. Khi đó trong mỗi băng con sẽ chứa hầu hết các thành phần âm của phổ tín hiệu audio khiến tác dụng che lấp giảm và cần nhiều bit để mã hóa các thành phần tín hiệu trong các băng con. Tuy nhiên, số lượng các băng con giảm thấp sẽ giảm được mức độ phức tạp mã hóa/ giải mã và vẫn giữ được độ phân giải tốt về thời gian.
- Nếu dãy bộ lọc có độ phân giải cao, sẽ cho số lượng lớn các băng tần con và các thành phần âm đơn của phổ tín hiệu audio sẽ không rơi vaò tất cả các băng con. Khi đó trong mỗi băng con sẽ chứa hầu hết các thành phần âm sẽ không cần mã hóa. Bề rộng băng tần hẹp cho khả năng mô phỏng tốt hơn các băng tới hạn của HAS. Tuy nhiên có độ phân giải thời gian thấp dẫn tới hiện tượng có tiếng tạp lanh canh khi mã hóa tín hiệu audio ngắn.
Do vậy, có thể sử dụng dãy bộ lọc thích nghi có khả năng chuyển đổi từ dãy bộ lọc có độ phân giải cao sang dãy bộ lọc có độ phân giải thấp khi mã hóa tín hiệu audio ngắn. Đặc tuyến của quá trình xử lý dãy bộ lọc bao gồm các yếu tố:
- Độ phân giải thời gian = độ dài mẫu khối bộ lọc x 20,83ms, với tần số lấy mẫu 48KHz khoảng cách thời gian giữa các mẫu liên tiếp sẽ là 20,83ms.
- Độ phân giải tần số = bề rộng phổ cực đại / tổng số băng con, với tần số lấy mẫu 48KHz, bề rộng phổ tần tối đa của tín hiệu là 24KHz.
- Độ dài khung dữ liệu = số băng con x số mẫu trong một khối x 20,83ms.
* Sự phân phối bít.
Một phép tính mô hình tâm lý thính giác chính xác tín hiệu PCM đầu vào, sử dụng thuật toán biến đổi Fourier nhanh (FFT) được thực hiện để xác định nội dung tần số và năng lượng của nó. Từ ngưỡng nghe được và đặc tính che phủ tần số của HAS, người ta tính toán được đường cao che lấp như minh hoạ trong hình sau:
Hình 5.4 Đường cong che lấp và sự phân phối bit.
Hình dạng và kích thước đường cong che lấp phụ thuộc nội dung tín hiệu, có thể thấy sai số giữa đường bao phổ tín hiệu và đường cong che lấp giảm xuống, điểm có giá trị max là 40dB. Giá trị sai lệch max này quyết định số lượng bit (thông thường lượng tử hóa cơ bản là 6dB/bit) cần thiết để mã hóa tất cả các thành phần phổ tần của tín hiệu audio. Quá trình phân phối bit cần đảm bảo tạp âm lượng tử hóa thấp hơn ngưỡng nghe được .
Từ đường cong che lấp, ngưỡng che lấp của mỗi băng con được xác định, chúng quy định năng lượng tạp âm lượng tử cực đại có thể chấp nhận trong mỗi băng con, tại đó tạp âm bắt đầu trở nên nghe thấy.
Sau khi ước lượng ngưỡng che lấp cho mỗi băng tần con, các tham số xếp loại được sử dụng để biến đổi bước lượng tử của mỗi băng con, tức biến đổi cấu trúc tạp âm lượng tử sao cho phù hợp nhất. Cuối cùng, mã hóa Huffman được sử dụng .
* Lượng tử hóa.
Quá trình lượng tử hóa các băng tần con trong phổ tín hiệu audio là một quá trình không đồng bộ. Tức là mỗi băng con được lượng tử với một bước lượng tử khác nhau phù hợp với mức năng lượng cũng như mức độ che lấp của băng tần, bước lượng tử được xác định nhờ bộ phân phối bít.
* Ghép kênh dữ liệu.
Các khối 12 mẫu dữ liệu từ đầu ra bộ lượng tử hóa được ghép kênh cùng với tham số xếp loại tương ứng của chúng và thông tin phân phối bít để hình thành nên khung dữ liệu audio trong dòng bit mã hóa.
5.3. Tiêu chuẩn nén Audio MPEG.
Tiêu chuẩn nén audio MPEG-1 (ISO/IEC 11172-3) thường được biết dưới tên gọi MUSICAM (maskingpatten Universal Subanl Intergrated Coding and Multiplexing) gồm ba lớp (layer) mã hóa I, II và III tương ứng với hiệu quả nén và độ phức tạp tăng dần, đã được ứng dụng trong nhiều lĩnh vực khác nhau đặc biệt là trong phát thanh - truyền hình.
Tiêu chuẩn nén audio MPEG - 2 (ISO/IEC 13818-3) là bước phát triển mở rộng dựa trên MPEG -1. Phương thức nén Dolby AC -3 ứng dụng trong hệ HDTV số Grand Alliance (ATSC) cũng là một biến thể từ audio MPEG-2.
Đối với lĩnh vực truyền hình, tiêu chuẩn MPEG có điểm nổi bật là đảm bảo khả năng đồng bộ giữa video và audio khi phân kênh và giải nén. Những đặc tính kỹ thuật cơ bản của tiêu chuẩn nén audio MPEG - 1 và MPEG -2 được trình tóm tắt trong bảng sau:
MPEG-1
MPEG-2
Độ phân giải đầu vào
16 bit
16 bit, có thể lên tới 24 bit
Tần số lấy mẫu
48HKz ữ 44,132KHz
48 KHz ữ 44,132KHz
24KHz ữ 22,0516KHz
Tốc độ bit
Tự do, có thể lên đến 448Kb/s
Tự do, có thể lên đến 256Kb/s
Số lượng kênh
2 kênh với các mode: mono, Stereo, dual, joint stereo
6 kênh: Left, Right, Center, Left, Surround, Right Surround và LFE (kênh tăng cường tần số thấp)
Tính tương hợp
Thuận và ngược
Khả năng co giãn
Các kênh Left, Right có thể được giải mã độc lập
Bảng 5.1 Đặc điểm của Audio MPEG-1 , MPEG - II
Hình 5.5 Sơ đồ khối bộ mã hóa audio MPEG
Kết luận
Tiêu chuẩn MPEG biểu diễn phương pháp mã hóa tín hiệu audio và video. Ưu điểm quan trọng nhất của tiêu chuẩn này là khả năng mã hóa tín hiệu video có dạng bất kỳ và khả năng tăng cao dung lượng kênh truyền hình. Ưu điểm này khiến cho tiêu chuẩn MPEG được chấp nhận ở nhiều nước sử dụng tiêu chuẩn truyền hình 625 dòng/50Hz (dự án DVB) và 525 dòng/60Hz (dự án Grand Alliance).
Kết quả cho thấy phương pháp nén MPEG cho phép làm giảm tốc độ bít tín hiệu video có độ phân giải tiêu chuẩn (625,525 dòng) xuống còn khoảng 5 Mb/s mà vẫn đảm bảo chất lượng tiêu chuẩn cho Studio (4:2:2).
Đối với tín hiệu HDTV/ATV, tốc độ bit được nén xuống còn khoảng 20Mb/s. Dung lượng kênh truyền hình tiêu chuẩn khi sử dụng điều chế số là 20 - 40Mb/s (phụ thuộc vào phương pháp điều chế và mức độ bảo vệ sai số truyền). Điều đó có nghĩa là trong kênh, truyền được một số chương trình truyền hình có độ phân giải tiêu chuẩn hoặc 1 - 2 chương trình truyền hình độ phân giải cao - HDTV, việc hạn chế theo lớp tín hiệu cho phép truyền đồng thời tín hiệu truyền hình có độ phân giải tiêu chuẩn và độ phân giải cao.
Phương pháp nén MPEG là phương pháp nén có mất thông tin, có nghĩa là nó gây ra méo ảnh. Cần phải nói thêm rằng, phương pháp nén MPEG không phải là phương pháp nén ảnh duy nhất. Nếu dùng phương pháp khác như FT (Fractal Transpormation - biến đổi thành phần) hoặc Waveler (mã hoá dạng sóng ba chiều) có thể cho phép đạt kết quả như trên hoặc tốt hơn. Các phương pháp này hiện nay còn được tiếp tục nghiên cứu nhưng trong tương lai gần vẫn chưa cạnh tranh được với thuật toán DCT của MPEG. Hiện nay, tiêu chuẩn MPEG - 2 được sử dụng nhiều trong các thiết bị truyền hình số (VTR, camera, dựng hình, kỹ xảo ....) và thông tin đa phương tiện (Multimedia) và đang có xu hướng phát triển mạnh ở Việt Nam.
Do áp dụng các kỹ thuật hiện đại, việc nén các số liệu thông tin đã đạt được những tỉ số nén rất cao trong khi vẫn đảm bảo được chất lượng tín hiệu được người sử dụng chấp nhận. Tuy nhiên khi nâng cao tỷ số nén cần phải quan tâm đến yêu cầu về chất lượng của hình ảnh, âm thanh .... Đối với số liệu video thì có tỷ số nén cao hơn rất nhiều so với tỷ số nén của số liệu thông thường, đặc biệt là khi so với tỷ số nén có số liệu âm chỉ có thể đạt được tỷ số nén rất thấp (từ 4:1 đến 8:1) do những ràng buộc riêng của từng loại dữ liệu.
Trong những năm tới, hi vọng rằng Việt Nam có thể số hoá truyền hình, đưa mạng truyền hình Việt Nam hoà vào hệ thống truyền hình các nước trên thế giới.
Đến đây, tôi xin kết thúc đồ án tốt nghiệp : “nghiên cứu về nén tín hiệu trong truyền hình số”. Tôi cũng bày tỏ lòng cảm ơn đến thầy giáo Trần thọ tuân đã hướng dẫn, tạo điều kiện cho tôi hoàn thành đồ án tốt nghiệp này.
Mục lục
Trang
Lời nói đầu
1
Chương I: Hiện trạng và xu hướng phát triển của truyền hình số
2
1.1
Truyền hình số và những vấn đề đặt ra trên con đường chuyển đổi công nghệ
2
1.2
Giới thiệu tổng quan về truyền hình số
5
1.2.1.
Đặc điểm chung về truyền hình số
1.2.2.
Sơ đồ tổng quát hệ thống truyền hình số
1.3.
Khái niệm về DVB
1.3.1.
Giới thiệu chung
1.3.2.
Cơ sở lý thuyết cho các tiêu chuẩn DVB
1.3.3.
Một số tiêu chuẩn DVB chính
1.3.3.1.
Truyền hình số qua vệ tinh (DVB - S)
1.3.3.2.
Truyền hình số qua mạng cáo (tiêu chuẩn DVB - C)
1.3.3.3.
Truyền hình số qua mạng cáp (tiêu chuẩn DVB - C)
1.3.3.4.
Nhận xét
Chương 2: Các tiêu chuẩn truyền hình số
2.1.
Chuẩn ATSC
2.2.2.
Đặc điểm chung
2.1.2.
Phương pháp điều chế VSB của tiêu chuẩn ATSC
2.1.3.
Máy phát VSB
2.1.4.
Máy thu VSB
2.2.
Chuẩn DVB
2.2.1.
Đặc điểm chung
2.2..2
Phương pháp điều chế COFDM trong tiêu chuẩn DVB
Phần II: Nén tín hiệu số
Chương I: Tổng quan về nén
1.1.
Khái niệm chung
1.1.1
Định nghĩa
1.1.2
Mục đích của nén tín hiệu số
1.1.3.
Mã hoá (Coder) và giải mã D (Dicoder)
1.3.3.1.
Mã hoá dự đoán (Predictive coding)
1.3.3.2.
Mã hoá chuyển đổi (Transform Coding)
Chương II: Một số công nghệ nén
2.1.
Nén vidieo: Điều xung mã vi sai - DPCM (Differrential puse code modulation).
2.1.1.
Xử lý giải tương hỗ trong công nghệ DPCM
2.1.2
Kỹ thuật tạo dự báo
2.1.2.1
Sai số dự báo (Prendiction error)
2.1.2.2
Tạo dự báo cho ảnh truyền hình - các phương thức thực hiện 34
2.1.2.3
Tạo dự báo intra (intra prediction)
2.1.2.5
Sự giảm tốc độ dòng bít từ việc tạo giá trị dự báo
2.1.3.
Lượng tử hoá sai số dự báo
2.1.4.
Khái niệm bù chuyển động (motion compensation) và vectơ chuyển động (motion vecto)
2.1.5.
Ước lượng chuyển động bằng phương pháp tìm kiếm khối tương đồng (Block matching)
2.1.5.1.
Tìm kiếm ba bước véc tơ chuyển động
2.1.5.2
Giải thuật tìm kiếm hai chiều
2.1.5.3
Giải thuật tìm kiếm hai hướng liên hợp
2.1.6.
Hệ thống DPCM có bù chuyển động
2.2.
Nén Video: Công nghệ mã hoá chuyển đổi (Tc - Tranform Coding)
2.2.1.
Xử lý giải tương hỗ trong công nghệ TC
2.2..2
Biến đổi cosin rời rạc (discrete cosine tranform - DCT)
2.2.3.3
Lượng tử hoá lấy mẫu từng vùng (zonal sampling)
2.2.3.3.
Lượng tử hoá có trọng số
2.2.4
Quét các hệ số DCT
2.2.5
Mã hoá các hệ số DCT
2.2.6
Hệ thống nén Video công nghệ mã hoá chuyển đổi
2.3.
Sự kết hợp các công nghệ nén
Chương 3: Nén Video theo chuẩn MPEG
3.1.
Khái quát về các tiêu chuản nén
3.2.
Nén video theo MPEG - 1
3.2.1
Các thành phần ảnh cơ bản trong chuẩn nén MPEG
3.2.2.
Sự phân loại ảnh MPEG
3.2.3.
Tiêu chuẩn MPEG - 1
3.2.4
Hệ thống nén MPEG - 1
3.3.
Nén tín hiệu video theo MPEG - 2
3.3.1.
Tiêu chuẩn nén video MPEG -2
3.3.2.
Khả năng co giãn của MPG - 2
3.3.3
MPEG - 2 : Profile và Level
3.4.
Ghép kênh Audio - Viedeo số theo tiêu chuẩn MPEG -2
3.4.1.
Hệ thống truyền tín hiệu MPEG-
3.4.2
Dòng dữ liệu đóng gói, dòng chương trình và dòng truyền tải
3.4.2.1
Dòng dữ liệu đóng gói (Packetized Elementary Stream - PES)
3.4.2.2.
Dòng chương trình (Program Stream - PS) và dòng truyền tải (Transport Stream - TS).
3.4.3.
Dòng truyền tải MPEG - 2
3.4.3.1
Tính linh hoạt của dòng truyền tải
3.4.3.2.
Khả năng liên vận hành của dòng truyền tải
3.4.3.3.
Sự phân loại dòng truyền tải - dòng truyền tải đa chương trình
3.4.3.4
Thông tin đặc tả chương trình PSI (Program specific information)
3.4.4
Đình thời và đồng bộ sử dụng dòng truyền tải MPEG - 2
Chương 4: Nén tín hiệu Audio
4.1
Cơ sở của nén dữ liệu audio
4.1.1
Mô hình tâm lý thính giác
4.1.2
Sự che lấp tín hiệu audio
4.2.
Công nghệ giảm tốc độ nguồn dữ liệu audio số
4.3.
Tiêu chuẩn nén Audio MPEG
Kết luận
Mục lục
Các file đính kèm theo tài liệu này:
- 6247.doc