Luận văn Xác định khoảng ngừng giữa các âm tiết, cường độ và trường độ của âm tiết cho bộ phát âm tiếng Việt
XÁC ĐỊNH KHOẢNG NGỪNG GIỮA CÁC ÂM TIẾT, CƯỜNG ĐỘ VÀ TRƯỜNG ĐỘ CỦA ÂM TIẾT CHO BỘ PHÁT ÂM TIẾNG VIỆT
NGUYỄN HỮU MINH
Trang nhan đề
Lời cảm ơn
Mục lục
Danh Mục các bảng
Danh mục công trình của tác giả.
Mở đầu
Chương_1: Giới thiệu
Chương_2: Các công trình liên quan.
Chương_3: Mô hình dạng nơ-ron xác định các thông sô ngữ điệ cho các âm tiết tiếng việt.
Chương 4: Xây dựng bộ phát âm tiếng việt.
Chương_5: Thử nghiệm và kết quả.
Chương_6: Kết luận và hướng phát triễn.
Tài liệu tham khảo
Phụ lục
MỤC LỤC
Trang
LỜI CẢM ƠN .1
MỤC LỤC 2
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6
MỞ ĐẦU 8
Chương 1 - GIỚI THIỆU 11
1.1 TỔNG HỢP TIẾNG NÓI NHÂN TẠO 11
1.1.1 Kiến trúc của một hệ thống tổng hợp tiếng nói .11
1.1.2 Xử lý ngôn ngữ tự nhiên .12
1.1.3 Ngữ điệu trong tiếng nói tổng hợp 12
1.1.4 Xử lý tổng hợp tín hiệu tiếng nói 14
1.2 MỘT VÀI ĐẶC ĐIỂM CỦA TIẾNG VIỆT, NGỮ ÂM, NGỮ ĐIỆU .14
1.2.1 Một vài đặc điểm của tiếng Việt .14
1.2.2 Ngữ âm tiếng Việt .15
1.2.3 Ngữ điệu trong tiếng Việt .17
1.3 NHỮNG KHÓ KHĂN TRONG TỔNG HỢP TIẾNG NÓI .19
1.4 XÁC ĐỊNH PHẠM VI ĐỀ TÀI .20
Chương 2 - CÁC CÔNG TRÌNH LIÊN QUAN 21
2.1 CÁC HƯỚNG TIẾP CẬN LIÊN QUAN ĐẾN XỬ LÝ NGỮ ĐIỆU 21
2.1.1 Các mô hình xử lý trường độ 21
2.1.1.1 Mô hình luật Klatt 21
2.1.1.2 Mô hình Sums-of-Products 22
2.1.1.3 Mô hình cây phân lớp và hồi quy (CART) 23
2.1.1.4 Mô hình mạng Nơ-ron: 23
2.1.2 Các mô hình biểu diễn tần số cơ bản 24
2.1.2.1 Mô hình ToBI (Tone and Break Indices) .24
2.1.2.2 Mô hình Tilt .25
2.1.2.3 Mô hình INTSINT (INTernational Transcription System for INTonation).25
2.1.2.4 Mô hình Fujisaki 25
2.2 CÁC HƯỚNG TIẾP CẬN TỔNG HỢP TÍN HIỆU TIẾNG NÓI .26
2.3 NHẬN XÉT VỀ CÁC HƯỚNG TIẾP CẬN 29
Chương 3 - MÔ HÌNH MẠNG NƠ-RON XÁC ĐỊNH CÁC THÔNG SỐ
NGỮ ĐIỆU CHO CÁC ÂM TIẾT TIẾNG VIỆT 30
3.1 SƠ LƯỢC VỀ MẠNG NƠ-RON .30
3.1.1 Cấu trúc của một nơ-ron nhân tạo .30
3.1.2 Kiến trúc mạng nơ-ron 32
3.1.3 Huấn luyện mạng nơ-ron 33
3.2 XÁC ĐỊNH CÁC THÔNG SỐ NGỮ ĐIỆU CHO BỘ PHÁT ÂM TIẾNG
VIỆT BẰNG MẠNG NƠ-RON .34
3.2.1 Vector mô tả đặc trưng âm tiết trong ngữ cảnh câu 34
3.2.2 Dữ liệu huấn luyện 38
3.2.3 Cấu trúc các mạng nơ-ron .41
3.2.4 Cài đặt và huấn luyện các mạng nơ-ron 41
Chương 4 - XÂY DỰNG BỘ PHÁT ÂM TIẾNG VIỆT 42
4.1 CẤU TRÚC VÀ QUY TRÌNH XỬ LÝ CỦA BỘ PHÁT ÂM .42
4.2 MÔ TẢ CÁC XỬ LÝ .43
4.2.1 THÀNH PHẦN XỬ LÝ NGÔN NGỮ TỰ NHIÊN .44
4.2.1.1 Tiền xử lý văn bản 44
4.2.1.2 Chuyển văn bản thành các âm tiết cần đọc 45
4.2.1.3 Phân tích các đặc trưng của âm tiết trong câu 45
4.2.1.4 Xử lý xác định các thông số ngữ điệu cho các âm tiết .46
4.2.2 THÀNH PHẦN XỬ LÝ TỔNG HỢP TÍN HIỆU TIẾNG NÓI .47
4.2.2.1 Dữ liệu các âm tiết .47
4.2.2.2 Biến đổi ngữ điệu của âm tiết 47
4.2.2.3 Tổng hợp tiếng nói .48
4.3 MINH HỌA QUÁ TRÌNH XỬ LÝ PHÁT ÂM .49
Chương 5 - THỬ NGHIỆM VÀ KẾT QUẢ 54
5.1 THỬ NGHIỆM .54
5.2 KẾT QUẢ .60
5.2.1 ĐỘ CHÍNH XÁC 60
5.2.2 MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC THUỘC TÍNH ĐẶC TRƯNG ÂM
TIẾT TRONG CÂU ĐỐI VỚI KẾT QUẢ ĐẦU RA 68
5.2.3 CHẤT LƯỢNG TIẾNG NÓI TỔNG HỢP 72
5.3 NHẬN XÉT 72
5.4 MỘT SỐ KẾT QUẢ TIÊU BIỂU .73
Chương 6 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .76
6.1 KẾT LUẬN .76
6.2 HƯỚNG PHÁT TRIỂN 77
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 79
TÀI LIỆU THAM KHẢO 80
PHỤ LỤC .85
Phụ lục 1: TỪ ĐIỂN TỪ VIẾT TẮT DÙNG TRONG XỬ LÝ TÁCH CÂU .85
Phụ lục 2: SỬ DỤNG BỘ PHÁT ÂM 86
Phụ lục 3: CHƯƠNG TRÌNH MINH HỌA .89
Phụ lục 4: YÊU CẦU CẤU HÌNH HỆ THỐNG .90
22 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2174 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Luận văn Xác định khoảng ngừng giữa các âm tiết, cường độ và trường độ của âm tiết cho bộ phát âm tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
54
-
Chương 5 - THỬ NGHIỆM VÀ KẾT QUẢ
5.1 THỬ NGHIỆM
Dữ liệu thử nghiệm được xây dựng từ các truyện truyền thanh ở báo điện tử
Đài tiếng nói Việt Nam [12] của cùng giọng đọc một phát thanh viên nam, tổng
cộng có 2.019 câu với 29.095 âm tiết được chia ngẫu nhiên thành 2 phần tách rời
nhau:
- Phần 1 dùng làm tập dữ liệu huấn luyện gồm 20.000 âm tiết.
- Phần 2 dùng làm tập dữ liệu kiểm thử gồm 9.095 âm tiết.
Trong đó, mỗi âm tiết bao gồm một vector đặc trưng gồm chứa 21 thuộc tính
input như trong Bảng 3.1 và 3 thuộc tính output là: cường độ, trường độ và khoảng
ngừng. Biểu đồ histogram phân bố giá trị các thuộc tính output cho toàn tập dữ liệu
thử nghiệm, huấn luyện và kiểm thử được thể hiện lần lượt từ Hình 5.1 đến
Hình 5.9.
Chương trình được cài đặt trên môi lập trình Microsoft Visual C++ 6.0. Máy
tính sử dụng có cấu hình gồm: CPU Intel Core 2 Duo 2.0 GHz, bộ nhớ 2GB, hệ
điều hành Microsoft Windows XP Professional. Các thư viện xử lý ngôn ngữ tự
nhiên được sử dụng gồm: thư viện xử lý tách từ [17] và gán nhãn từ loại tiếng Việt
[18] do PGS.TS Đinh Điền và nhóm VCL phát triển; từ điển âm thanh các âm tiết
tiếng Việt do Trường phổ thông đặc biệt Nguyễn Đình Chiểu (TP.HCM) cung cấp.
Các thư viện mã nguồn mở được sử dụng gồm:
- FANN [47]: Cho phép tạo, huấn luyện và thực thi các mạng nơ-ron.
- SoundTouch [48]: Cho phép thay đổi trường độ của tín hiệu âm thanh mà
không làm thay đổi tần số của âm thanh.
Bộ phát âm thử nghiệm chỉ được cài đặt giới hạn xử lý đọc các văn bản thuần
chữ Việt. Các thành phần nội dung khác như chữ viết tắt, chữ không có trong từ
điển âm tiết… sẽ được bộ phát âm đọc theo từng ký tự một.
55
Hình 5.1: Biểu đồ histogram phân bố cường độ của tập dữ liệu thử nghiệm.
Hình 5.2: Biểu đồ histogram phân bố trường độ của tập dữ liệu thử nghiệm.
56
Hình 5.3: Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu thử nghiệm.
Hình 5.4: Biểu đồ histogram phân bố cường độ của tập dữ liệu huấn luyện.
57
Hình 5.5: Biểu đồ histogram phân bố trường độ của tập dữ liệu huấn luyện.
Hình 5.6: Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu huấn luyện.
58
Hình 5.7: Biểu đồ histogram phân bố cường độ của tập dữ liệu kiểm thử.
Hình 5.8: Biểu đồ histogram phân bố trường độ của tập dữ liệu kiểm thử.
59
Hình 5.9: Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu kiểm thử.
Bảng 5.1 thống kê giá trị trung bình và độ lệch chuẩn của các yếu tố ngữ điệu
trong dữ liệu thử nghiệm:
Bảng 5.1 – Giá trị trung bình và độ lệch chuẩn của các yếu tố ngữ điệu
Yếu tố ngữ điệu Giá trị trung bình Độ lệch chuẩn
Cường độ 12.8 (dB) 0.2249 Ù 7.20 (dB)
Trường độ 187 (ms) 0.1394 Ù 69.70 (ms)
Khoảng ngừng 94 (ms) 0.1190 Ù 119.00 (ms)
60
Các mạng nơ-ron được huấn luyện với các vector âm tiết trong tập dữ liệu huấn
luyện. Để tránh tình trạng quá luyện, việc huấn luyện sẽ dừng lại khi độ sai biệt đối
với tập kiểm thử không giảm nữa và bắt đầu tăng lên. Việc huấn luyện được tiến
hành thử nghiệm với nhiều cấu hình mạng nơ-ron khác nhau gồm:
- Các mạng 1 lớp ẩn với số nút ẩn từ 1 đến 50.
- Các mạng 2 lớp ẩn với số nút ẩn ở mỗi lớp từ 1 đến 10.
Như vậy có tất cả 150 cấu hình mạng nơ-ron khác nhau được huấn luyện, với
mỗi cấu hình ta có 3 mạng riêng biệt để xác định 3 thông số ngữ điệu tương ứng.
5.2 KẾT QUẢ
5.2.1 ĐỘ CHÍNH XÁC
Để đo độ chính xác của các mạng nơ-ron tác giả sử dụng công thức tính RMSE
(Root Mean Square Error) như sau:
∑ −= n ii LBLANNnRMSE 1 2)(
1 θθ (5.1)
Trong đó:
o n: Số mẫu kiểm tra trong bộ dữ liệu kiểm thử
o iANNθ : Giá trị ouput xác định bởi mạng nơ-ron
o iLBLθ : Giá trị tương ứng trong bộ dữ liệu kiểm thử.
61
So sánh độ chính xác giữa các mạng, tác giả chọn được cấu hình cho các mạng
nơ-ron như sau:
+ Mạng nơ-ron xác định cường độ:
Bảng 5.2 – Mạng nơ-ron xác định cường độ
Mạng nơ-ron xác định cường độ (2 lớp ẩn)
Số nút vào 21
Số nút ẩn lớp thứ nhất 3
Số nút ẩn lớp thứ hai 3
Số nút ra 1
Sai số RMSE với tập huấn luyện 0.2254 Ù 7.21 (dB)
Sai số RMSE với tập kiểm thử 0.2232 Ù 7.14 (dB)
Sai số RMSE với toàn tập thử nghiệm 0.2247 Ù 7.19 (dB)
Hình 5.10: Biểu đồ histogram phân bố sai lệch cường độ đối với tập dữ liệu huấn luyện.
62
Hình 5.11: Biểu đồ histogram phân bố sai lệch cường độ đối với tập dữ liệu kiểm thử.
Hình 5.12: Biểu đồ histogram phân bố sai lệch cường độ đối với toàn tập dữ liệu thử nghiệm.
63
+ Mạng nơ-ron xác định trường độ:
Bảng 5.3 – Mạng nơ-ron xác định trường độ
Mạng nơ-ron xác định trường độ (1 lớp ẩn)
Số nút vào 21
Số nút ẩn 43
Số nút ra 1
Sai số RMSE với tập huấn luyện 0.1156 Ù 57.76 (ms)
Sai số RMSE với tập kiểm thử 0.1243 Ù 62.13 (ms)
Sai số RMSE với toàn tập thử nghiệm 0.1184 Ù 59.16 (ms)
Hình 5.13: Biểu đồ histogram phân bố sai lệch trường độ đối với tập dữ liệu huấn luyện.
64
Hình 5.14: Biểu đồ histogram phân bố sai lệch trường độ đối với tập dữ liệu kiểm thử.
Hình 5.15: Biểu đồ histogram phân bố sai lệch trường độ đối với toàn tập dữ liệu thử nghiệm.
65
+ Mạng nơ-ron xác định khoảng ngừng:
Bảng 5.4 – Mạng nơ-ron xác định khoảng ngừng
Mạng nơ-ron xác định khoảng ngừng (1 lớp ẩn)
Số nút vào 21
Số nút ẩn 30
Số nút ra 1
Sai số RMSE với tập huấn luyện 0.1096 Ù 109.65 (ms)
Sai số RMSE với tập kiểm thử 0.1160 Ù 116.06 (ms)
Sai số RMSE với toàn tập thử nghiệm 0.1117 Ù 111.70 (ms)
Hình 5.16: Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với tập dữ liệu huấn luyện.
66
Hình 5.17: Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với tập dữ liệu kiểm thử.
Hình 5.18: Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với toàn tập dữ liệu thử nghiệm.
67
Hình 5.19, 5.20 và 5.21 tiếp theo thể hiện biểu đồ histogram phân bố output
của các mạng nơ-ron cho toàn bộ tập dữ liệu thử nghiệm.
Hình 5.19: Biểu đồ histogram phân bố output cường độ đối với toàn tập dữ liệu thử nghiệm.
Hình 5.20: Biểu đồ histogram phân bố output trường độ đối với toàn tập dữ liệu thử nghiệm.
68
Hình 5.21: Biểu đồ histogram phân bố output khoảng ngừng đối với toàn tập dữ liệu thử nghiệm.
5.2.2 MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC THUỘC TÍNH ĐẶC TRƯNG
ÂM TIẾT TRONG CÂU ĐỐI VỚI KẾT QUẢ ĐẦU RA
Để xác định mức độ ảnh hưởng của một thuộc tính trong vector đặc trưng âm
tiết đối với kết quả đầu ra, ta loại bỏ thuộc tính đó ở đầu vào của mạng nơ-ron (bằng
cách cho giá trị 0 ở đầu vào) và so sánh độ chính xác của mạng so với trường hợp
ban đầu. Thuộc tính nào càng ít ảnh hưởng đến kết quả đầu ra thì khi loại bỏ nó độ
chính xác của mạng thay đổi càng ít. Các thuộc tính không ảnh hưởng đến kết quả
đầu ra thì có thể được loại bỏ để giảm số lượng các nơ-ron đầu vào. Toàn bộ tập dữ
liệu thử nghiệm sẽ được dùng để đánh giá mức độ ảnh hưởng.
69
Mức độ ảnh hưởng của các thuộc tính đặc trưng đối với kết quả của mạng
nơ-ron xác định cường độ được xếp theo thứ tự tăng dần trong Bảng 5.5. Cột RMSE
chỉ độ sai biệt của mạng với dữ liệu thử nghiệm khi loại bỏ thuộc tính tương ứng,
cột O-RMSE chỉ độ sai biệt kết quả output của mạng nơ-ron, cột RMSE-D là hiệu
số giữa RMSE khi loại bỏ thuộc tính và RMSE ban đầu.
Bảng 5.5 – Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với cường độ
STT
Vị trí
thuộc
tính
Tên thuộc tính RMSE O-RMSE RMSE-D
1 18 Từ loại của từ chứa âm tiết 0.224735 0.000168 0.000001
2 20 Số âm tiết của từ chứa âm tiết sau 0.224736 0.001243 0.000001
3 19 Vị trí âm tiết trong từ chứa nó 0.224737 0.000440 0.000003
4 8 Âm chính của âm tiết trước 0.224741 0.001063 0.000007
5 10 Dấu thanh của âm tiết trước 0.224767 0.002328 0.000033
6 17 Số âm tiết của từ chứa âm tiết trước 0.224777 0.002710 0.000043
7 16 Số âm tiết của từ chứa nó 0.224783 0.002768 0.000048
8 15 Dấu thanh của âm tiết sau 0.224785 0.010750 0.000051
9 11 Phụ âm đầu của âm tiết sau 0.224803 0.005487 0.000069
10 14 Âm cuối của âm tiết sau 0.224814 0.005276 0.000080
11 13 Âm chính của âm tiết sau 0.224820 0.004995 0.000086
12 21 Loại câu 0.224831 0.007490 0.000097
13 6 Phụ âm đầu của âm tiết trước 0.224834 0.004685 0.000099
14 7 Âm đệm của âm tiết trước 0.224836 0.003775 0.000102
15 5 Dấu thanh 0.224855 0.011544 0.000121
16 4 Âm cuối 0.224859 0.004767 0.000124
17 3 Âm chính 0.224864 0.004497 0.000130
18 12 Âm đệm của âm tiết sau 0.224893 0.005502 0.000158
19 2 Âm đệm 0.224908 0.005438 0.000173
20 9 Âm cuối của âm tiết trước 0.224961 0.006463 0.000227
21 1 Phụ âm đầu 0.225140 0.009874 0.000405
70
Mức độ ảnh hưởng của các thuộc tính đặc trưng đối với kết quả của mạng
nơ-ron xác định trường độ được xếp theo thứ tự tăng dần trong Bảng 5.6. Cột
RMSE chỉ độ sai biệt của mạng với dữ liệu thử nghiệm khi loại bỏ thuộc tính tương
ứng, cột O-RMSE chỉ độ sai biệt kết quả output của mạng nơ-ron, cột RMSE-D là
hiệu số giữa RMSE khi loại bỏ thuộc tính và RMSE ban đầu.
Bảng 5.6 – Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với trường độ
STT
Vị trí
thuộc
tính
Tên thuộc tính RMSE O-RMSE RMSE-D
1 21 Loại câu 0.118687 0.011680 0.000327
2 8 Âm chính của âm tiết trước 0.119237 0.015434 0.000877
3 18 Số âm tiết của từ chứa âm tiết sau 0.119258 0.015476 0.000898
4 20 Từ loại của từ chứa âm tiết 0.119612 0.018401 0.001253
5 6 Phụ âm đầu của âm tiết trước 0.119894 0.018435 0.001535
6 13 Âm chính của âm tiết sau 0.120095 0.021355 0.001736
7 19 Vị trí âm tiết trong từ chứa nó 0.120828 0.028993 0.002468
8 11 Phụ âm đầu của âm tiết sau 0.120861 0.024335 0.002502
9 14 Âm cuối của âm tiết sau 0.121106 0.026412 0.002746
10 10 Dấu thanh của âm tiết trước 0.121348 0.027399 0.002988
11 9 Âm cuối của âm tiết trước 0.122018 0.029534 0.003659
12 15 Dấu thanh của âm tiết sau 0.122203 0.030605 0.003844
13 7 Âm đệm của âm tiết trước 0.122689 0.031221 0.004329
14 5 Dấu thanh 0.127466 0.047745 0.009107
15 3 Âm chính 0.127627 0.048561 0.009268
16 12 Âm đệm của âm tiết sau 0.132616 0.059115 0.014257
17 1 Phụ âm đầu 0.136135 0.067014 0.017776
18 2 Âm đệm 0.138514 0.069872 0.020155
19 16 Số âm tiết của từ chứa nó 0.151458 0.095342 0.033098
20 4 Âm cuối 0.200500 0.161666 0.082141
21 17 Số âm tiết của từ chứa âm tiết trước 0.205586 0.168091 0.087226
71
Mức độ ảnh hưởng của các thuộc tính đặc trưng đối với kết quả của mạng
nơ-ron xác định khoảng ngừng được xếp theo thứ tự tăng dần trong Bảng 5.7. Cột
RMSE chỉ độ sai biệt của mạng với dữ liệu thử nghiệm khi loại bỏ thuộc tính tương
ứng, cột O-RMSE chỉ độ sai biệt kết quả output của mạng nơ-ron, cột RMSE-D là
hiệu số giữa RMSE khi loại bỏ thuộc tính và RMSE ban đầu.
Bảng 5.7 – Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với khoảng ngừng
STT
Vị trí
thuộc
tính
Tên thuộc tính RMSE O-RMSE RMSE-D
1 21 Loại câu 0.111816 0.005370 0.000111
2 17 Số âm tiết của từ chứa âm tiết trước 0.111851 0.005656 0.000145
3 8 Âm chính của âm tiết trước 0.111935 0.005779 0.000230
4 10 Dấu thanh của âm tiết trước 0.112139 0.008892 0.000434
5 9 Âm cuối của âm tiết trước 0.112206 0.008848 0.000500
6 18 Số âm tiết của từ chứa âm tiết sau 0.112222 0.013215 0.000517
7 12 Âm đệm của âm tiết sau 0.112312 0.011340 0.000607
8 13 Âm chính của âm tiết sau 0.112521 0.013435 0.000815
9 20 Từ loại của từ chứa âm tiết 0.112535 0.015582 0.000829
10 3 Âm chính 0.112677 0.012959 0.000971
11 6 Phụ âm đầu của âm tiết trước 0.112690 0.015531 0.000984
12 15 Dấu thanh của âm tiết sau 0.112737 0.014634 0.001032
13 7 Âm đệm của âm tiết trước 0.112924 0.014023 0.001219
14 1 Phụ âm đầu 0.112975 0.018325 0.001270
15 19 Vị trí âm tiết trong từ chứa nó 0.113240 0.020271 0.001534
16 5 Dấu thanh 0.113442 0.018990 0.001737
17 14 Âm cuối của âm tiết sau 0.113681 0.018519 0.001975
18 16 Số âm tiết của từ chứa nó 0.114030 0.022491 0.002324
19 2 Âm đệm 0.115322 0.025052 0.003616
20 11 Phụ âm đầu của âm tiết sau 0.116273 0.030534 0.004568
21 4 Âm cuối 0.119007 0.038323 0.007302
72
5.2.3 CHẤT LƯỢNG TIẾNG NÓI TỔNG HỢP
Khi nghe thử tiếng nói của bộ phát âm tổng hợp trên một số văn bản tiếng Việt
khác nhau, ta nhận thấy được ngữ điệu của tiếng nói tổng hợp có sự nhịp nhàng về
độ dài và khoảng ngừng, có sự hài hòa về cường độ giữa các âm tiết trong câu. Tuy
nhiên, do chưa xử lý yếu tố cao độ và làm trơn chỗ ghép nối giữa các âm tiết nên sự
chuyển đổi giữa các âm tiết chưa được mượt mà.
5.3 NHẬN XÉT
Qua các kết quả thử nghiệm về độ chính xác của các mạng nơ-ron và nghe thử
tiếng nói do bộ phát âm tạo ra, ta nhận thấy phương pháp dùng các mạng nơ-ron để
xác định các yếu tố ngữ điệu: cường độ, trường độ, và khoảng ngừng của các âm
tiết tiếng Việt cho kết quả khá tốt có thể ứng dụng được.
Với các kết quả phân tích mức độ ảnh hưởng của các thuộc tính đặc trưng trong
vector âm tiết đối với kết quả xác định ngữ điệu ta nhận thấy như sau:
- Đối với yếu tố cường độ: hầu hết các thuộc tính đặc trưng đều ảnh hưởng rất
ít đến yếu tố này, mạng nơ-ron xác định cường độ hầu như cho kết quả ở
mức giá trị trung bình của ngữ liệu là -12.8 (dB). Mạng nơ-ron với tập thuộc
tính đặc trưng đã chọn cải thiện độ chính xác không đáng kể so với khi ta chỉ
sử dụng một giá trị cố định cho yếu tố cường độ.
- Đối với yếu tố trường độ: ta nhận thấy các thuộc tính đặc trưng hình vị của
âm tiết, số âm tiết của từ chứa nó và số âm tiết của từ chứa âm tiết sau có ảnh
hưởng nhiều đến trường độ. Thuộc tính loại câu ít ảnh hưởng đến trường độ
nhất. Tuy nhiên tất cả các thuộc tính đều góp phần làm tăng độ chính xác của
mạng.
- Đối với yếu tố khoảng ngừng: các thuộc tính loại câu; số âm tiết của từ chứa
âm tiết trước; âm chính, dấu thanh và âm cuối của âm tiết trước ít ảnh hưởng
đến độ chính xác của mạng nhất. Thuộc tính âm cuối của âm tiết và phụ âm
đầu của âm tiết sau ảnh hưởng nhiều nhất đến khoảng ngừng.
73
- Nhìn chung, các thuộc tính liên quan đến ranh giới từ và từ loại góp phần ảnh
hưởng đáng kể đối với yếu tố trường độ và khoảng ngừng, do đó tăng cường
độ chính xác của của bộ tách từ và xác định từ loại có thể giúp cho kết quả
xác định giá trị các yếu tố ngữ điệu sẽ chính xác hơn.
Ngữ điệu khi đọc văn bản ngoài ra còn phụ thuộc rất nhiều vào các yếu tố khác
như mối quan hệ ngữ nghĩa giữa các từ khác nhau trong câu, các cụm từ, cấu trúc
chủ ngữ vị ngữ trong câu... Nếu có thêm được những tri thức ngôn ngữ này thì sẽ có
thể góp phần xác định thông số các yếu tố ngữ điệu được chính xác hơn.
5.4 MỘT SỐ KẾT QUẢ TIÊU BIỂU
Hình 5.22: Kết quả đọc câu “Hôm nay trời đẹp quá!”
74
Hình 5.23: Kết quả đọc câu “Hôm nay trời nắng chang chang”
Hình 5.24: Kết quả đọc câu “Mèo con đi học chẳng mang thứ gì”
75
Hình 5.25: Kết quả đọc câu “Địa chỉ: 227 Nguyễn Văn Cừ.”