XÂY DỰNG HỆ THỐNG TÌM KIẾM THÔNG TIN XUYÊN NGỮ VIỆT ANH
TRẦN HOÀNG MINH
Trang nhan đề
Mục lục
Danh mục
Mở đầu
Chương 1: Gioi thiệu
Chương 2: Cơ sở lý thuyết
Chương 3: Các kỹ thuật liên quan
Chương 4: Chương trình và kết quả thực nghiệm
Chương 5 Đánh giá và hướng phát triển
Tài liệu tham khảo
MỤC LỤC
MỤC LỤC 3
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ . 6
MỞ ĐẦU 7
Chương 1: GIỚI THIỆU 9
1.1 Giới thiệu về tìm kiếm thông tin (Information Retrieval) 9
1.2 Tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval) 11
1.2.1 Khái niệm 11
1.2.2 Mô hình chung . 11
1.2.3 Các vấn đề 12
1.3 Các hướng tiếp cận 13
1.3.1 Dịch máy 13
1.3.2 Sử dụng từ điển 14
1.3.3 Sử dụng ngữ liệu 15
1.4 Một số công trình nghiên cứu trong và ngoài nước . 16
1.5 Giới thiệu luận văn . 16
Chương 2: CƠ SỞ LÝ THUYẾT . 18
2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary – MRD) 18
2.1.1 Vai trò của MRD 18
2.1.2 Sử dụng từ điển 19
2.2 Các phương pháp khử nhập nhằng . 20
2.2.1 Giới thiệu . 20
2.2.2 Khử nhập nhằng . 20
2.3 Mô hình thống kê . 25
2.3.1 Giới thiệu . 25
2.3.2 Dịch bằng xác suất thống kê . 25
2.3.3 Mô hình ngôn ngữ 28
2.3.4 Liên kết từ 28
2.3.5 Mô hình dịch 29
2.4 Kết luận . 33
Chương 3: CÁC KỸ THUẬT LIÊN QUAN 34
3.1 Tìm kiếm dựa trên MRD 34
3.2 Công cụ GIZA++ . 36
3.2.1 Cấu trúc đầu vào của GIZA++ 36
3.2.2 Cấu trúc đầu ra của GIZA++ 37
3.2.3 Sử dụng GIZA++ . 37
3.3 Kết luận . 38
Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM . 39
4.1 Kiến trúc hệ thống 39
4.1.1 Từ điển . 40
4.1.2 Thống kê từ ngữ liệu 41
4.1.3 Chương trình thử nghiệm . 42
4.2 Khai thác ngữ liệu song song . 45
4.3 Kết quả thử nghiệm 51
4
4.4 Đánh giá thử nghiệm 55
4.4.1 Nhận xét việc chuyển ngữ 55
4.4.2 Đánh giá kết quả thử nghiệm 57
Chương 5: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN . 62
5.1 Đánh giá 62
5.2 Hướng ứng dụng và phát triển 62
TÀI LIỆU THAM KHẢO . 65
16 trang |
Chia sẻ: maiphuongtl | Lượt xem: 1609 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Luận văn Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
18
Chương 2: CƠ SỞ LÝ THUYẾT
Chương 2 trình bày các cơ sở lý thuyết mà dựa vào đó hệ thống được xây dựng.
Chương 2 sẽ trình bày hướng tiếp cận sử dụng từ điển và trình bày lý thuyết tổng
quan về các mô hình dịch của IBM mà luận văn khai thác để xây dựng hệ thống.
Chương 2 bao gồm các nội dung như sau:
Từ điển máy đọc.
Các phương pháp khử nhập nhằng.
Mô hình thống kê.
2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary
– MRD)
2.1.1 Vai trò của MRD
Việc xử lý ngôn ngữ cho tiếng Anh và các ngôn ngữ phổ biến trên thế giời ngày
càng phổ biến và cũng đã đạt được những thành tựu đáng kể. Đối với tiếng Việt, các
kết quả còn hạn chế vì nhiều nguyên nhân khác nhau. Một trong các nguyên nhân là
thiếu những cơ sở dữ liệu cần thiết cho việc xử lý ngôn ngữ tự nhiên bằng máy tính.
Một trong những cơ sở dữ liệu đó chính là cơ sở dữ liệu từ điển tiếng Việt chuyên
dùng cho máy tính để xử lý tiếng Việt.
Việc xử lý ngôn ngữ tự nhiên bằng máy tính bao gồm nhiều bước khác nhau,
như: phân tích hình thái, cú pháp, ngữ nghĩa,… cho các cấp độ từ, ngữ, câu, văn
bản,…nhưng tất cả các công việc xử lý ấy đều cần truy cập đến cơ sở dữ liệu từ
điển điện tử (cơ sở dữ liệu về từ trong ngôn ngữ đó). Vì vậy, việc cần thiết nhất cho
việc xử lý ngôn ngữ chính là cần phải xây dựng được từ điển điện tử mà máy tính
có thể “đọc” được (từ điển này được gọi tắt là MRD: Machine Readable
Dictionary). Ở đây chúng ta cần phân biệt MRD với từ điển điện tử dành cho người,
các từ điển điện tử dùng cho người mặc dù ở dạng điện tử nhưng không phải cho
máy sử dụng. Chẳng hạn chúng chứa một số thông tin mà máy không cần biết như
19
các thông tin về ngữ âm (phonetics), về từ nguyên (etymology), giải thích… MRD
chứa các thông tin được coi là hiển nhiên, những thông tin này không có trong các
từ điển cho người vì con người có thể suy ra chúng bằng những tri thức về thế giới
thực hay từ vốn sống.
Từ điển MRD cần có cách tổ chức nhất quán, chặt chẽ, chính xác, đầy đủ về cấu
trúc và về lượng thông tin để máy tính hoàn toàn dựa vào đó mà xử lý công việc
được giao một cách tự động. Vì vậy, để xây dựng được từ điển MRD này, chúng ta
phải giải quyết triệt để về tiêu chí lựa chọn mục từ. Đây là vấn đề vô cùng nan giải
vì nó liên quan đến tiêu chí nhận diện ranh giới từ (đặc biệt là tiếng Việt, một thứ
tiếng của loại hình ngôn ngữ đơn lập). Thông tin được lưu trữ trong mỗi mục từ
phải hoàn toàn chính xác, nhất quán về chính tả, về bộ mã ký tự, về cách trình bày.
Tuyệt đối không thể ghi nhập nhằng như từ điển của người dùng. Ngoài ra, việc tổ
chức MRD sao cho nó có tính liên thông với các từ điển MRD khác, tương thích với
các hệ xử lý ngôn ngữ khác trên thế giới. Việc tổ chức MRD tiếng Việt này cũng
cần có tính mở để chúng ta có thể cập nhật, thay đổi một cách dễ dàng và nhanh
chóng.
2.1.2 Sử dụng từ điển
Chúng ta có thể sử dụng từ điển MRD trong nhiều bài toán xử lý ngôn ngữ tự
nhiên khác nhau. Trong tìm kiếm thông tin xuyên ngữ ta sử dụng từ điển MRD song
ngữ, đây là từ điển mà trong đó các từ hoặc cụm từ ở một ngôn ngữ được dịch sang
ngôn ngữ khác. Từ điển song ngữ có thể là một chiều, tức bao gồm một danh sách
các từ trong ngôn ngữ này được dịch sang ngôn ngữ khác, hoặc là hai chiều, tức cho
phép người sử dụng tra cứu từ ở ngôn ngữ này sang ngôn ngữ khác và ngược lại.
Bên cạnh đó ta còn có thể tìm thấy các thông tin khác trong từ điển song ngữ như từ
loại, các biến cách của từ, các thông tin về văn phạm… Tất cả các thông tin này
được tổ chức trong một từ điển MRD song ngữ để máy có thể hiểu được và tiến
hành truy xuất nhanh chóng hỗ trợ cho quá trình dịch trong hệ tìm kiếm thông tin
xuyên ngữ.
20
2.2 Các phương pháp khử nhập nhằng
2.2.1 Giới thiệu
Việc dịch toàn bộ tài liệu của một tập lớn các tài liệu là một việc làm mất khá
nhiều thời gian và chi phí, do đó việc nghiên cứu trong lĩnh vực tìm kiếm xuyên
ngữ chủ yếu tập trung vào các phương pháp để chuyển ngữ câu truy vấn. Có nhiều
phương pháp để dịch câu truy vấn như dịch dựa trên từ điển, dùng ngữ liệu song
song hoặc ngữ liệu so sánh để xây dựng mô hình dịch hay sử dụng kỹ thuật dịch
máy. Trong đó phương pháp dịch dựa trên từ điển đã được trình bày ở trên. Phương
pháp này cho nhiều kết quả đầy hứa hẹn, tuy nhiên phương pháp này vẫn còn
khuyết điểm khi sử dụng cho các hệ thống tìm kiếm xuyên ngữ. Một trong số đó là
việc dịch bằng từ điển sẽ cho kết quả có nhiều bản dịch chứ không phải chỉ một bản
dịch duy nhất. Do đó cần phải áp dụng thêm các biện pháp khác để giải quyết tính
nhập nhằng của các bản dịch.
Nhập nhằng có thể do từ đồng âm hay do từ đa nghĩa. Từ đồng âm là từ giống
nhau nhưng nghĩa thì khác nhau và các nghĩa này không có liên hệ với nhau, từ đa
nghĩa là từ có nhiều ý nghĩa và các ý nghĩa này thường có liên hệ với nhau; ví dụ
như một nghĩa nào đó của từ đa nghĩa có thể là ẩn ý từ một nghĩa khác. Đây là các
nhập nhằng về nghĩa trong ngôn ngữ, ta có thể giải quyết các nhập nhằng này bằng
cách đánh dấu từ loại để phân biệt nghĩa của từ trong từng câu. Bên cạnh đó việc
phải chuyển ngữ trong hệ tìm kiếm thông tin xuyên ngữ gây ra sự nhập nhằng khác,
đó là nhập nhằng khi dịch. Trong khi dịch một từ ở ngôn ngữ này có thể được dịch
ra thành nhiều từ trong ngôn ngữ khác, khi đó gây ra sự nhập nhằng do có nhiều bản
dịch. Ta phải áp dụng các phương pháp khử nhập nhằng để có thể chọn ra được bản
dịch đúng nhất trong số các bản dịch có được. Sau đây sẽ là phần trình bày về các
phương pháp khử nhập nhằng khi dịch dựa trên từ điển.
2.2.2 Khử nhập nhằng
Độ hiệu quả của tìm kiếm xuyên ngữ khi sử dụng MRD có thể thấp hơn so với
tìm kiếm đơn ngữ. Việc dịch đơn giản bằng MRD gây ra những bản dịch nhập
21
nhằng. Các câu truy vấn có thể được dịch bằng cách thay thế các từ trong ngôn ngữ
nguồn bằng một từ hoặc nhiều từ tương đương trong ngôn ngữ đích. Lỗi dịch xảy ra
là do 3 nguyên nhân sau:
Việc thêm nhiều từ không liên quan vào câu truy vấn. Điều này là do một
mục từ trong từ điển có thể chỉ liệt kê một vài nghĩa của từ, và mỗi nghĩa lại
có một hoặc nhiều cách dịch.
Thuật ngữ kỹ thuật thường không được tìm thấy trong từ điển chung.
Lỗi gây ra khi dịch các cụm từ như là một ngữ.
Tiếp theo ta sẽ tìm hiểu về hai cách khử nhập nhằng đó là dùng tần số đồng xuất
hiện và dựa vào ngữ liệu song song.
Dùng tần số đồng suất hiện
Các bản dịch chính xác của các từ trong câu truy vấn có thể sẽ đồng xuất hiện
trong các tài liệu của ngôn ngữ đích và các bản dịch không chính xác có khuynh
hướng không đồng xuất hiện. Cho các bản dịch có thể của hai từ trong ngôn ngữ
nguồn, chúng ta sẽ tìm ra bản dịch tốt nhất bằng cách tính tần số đồng xuất hiện cho
từng cặp từ.
Chúng ta sẽ minh họa cách tính tần số đồng suất hiện của các cặp từ qua ví dụ
sau. Cho hai từ trong ngôn ngữ nguồn, tìm tất cả các bản dịch có thể với cùng từ
loại cho mỗi từ. Phát sinh một tập các cặp {a, b} trong đó a là bản dịch của từ thứ
nhất, b là bản dịch của từ thứ hai. Tính tần số đồng xuất hiện của mỗi phần tử trong
tập bằng ma trận em.
Trong đó: n
a
, n
b
là số lần a, b xuất hiện trong ngữ liệu
n
ab
là số lần cả a và b xuất hiện trong một văn bản có t từ
22
N: số văn bản trong ngữ liệu.
Mỗi tập sẽ được sắp xếp theo điểm em và tập đứng đầu sẽ được chọn là bản dịch
thích hợp. Nếu có nhiều hơn một tập đứng đầu, thì tất cả các bản dịch đó đều được
chọn. Việc lựa chọn được thực hiện thông qua một mô hình thống kê dựa trên tỉ lệ
của tần số đồng xuất hiện cho một bản dịch so với tần số đồng xuất hiện của tất cả
các bản dịch.
Dựa vào ngữ liệu song song
Ngữ liệu song song chứa một tập các tài liệu và bản dịch của chúng ở một hoặc
nhiều ngôn ngữ khác. Việc phân tích các tập tài liệu này có thể suy ra cách dịch tốt
nhất giữa các ngôn ngữ có trong tài liệu. L.Ballesteros đã sử dụng việc phân tích
ngữ liệu song song để quan sát tác động của việc khử nhập nhằng lên tính hiệu quả
của CLIR. Kỹ thuật này là một cải tiến kỹ thuật đã được sử dụng trong đề tài của
Davis và Odgen [4].
Câu truy vấn của ngôn ngữ nguồn đầu tiên được đánh thẻ từ loại. Mỗi cụm từ
trong câu truy vấn nguồn được thay thế bởi tất các bản dịch có cùng từ loại có thể
có trong ngôn ngữ đích. Nếu không có bản dịch nào thích hợp cho một thẻ của cụm
từ trong câu truy vấn thì các bản dịch của tất cả các từ loại được liệt kê trong từ điển
sẽ được trả về. Có thể có một hoặc nhiều cách dịch một cụm từ cho trước. Khi
nhiều cách dịch được trả về, cụm từ tốt nhất được chọn thông qua việc khử nhập
nhằng bằng ngữ liệu song song. L.Ballesteros đã tiến hành khử nhập nhằng như sau:
sử dụng 30 tài liệu tiếng Tây Ban Nha đầu tiên được tìm kiếm từ ngữ liệu song song
bằng một câu truy vấn tiếng Tây Ban Nha, từ đó trích ra 5000 cụm từ đầu tiên trong
các tài liệu tiếng Anh tương đương với 30 tài liệu tiếng Tây Ban Nha nói trên. Các
bản dịch của một từ trong câu truy vấn được sắp xếp dựa trên điểm của chúng trong
danh sách 5000 cụm từ. Các bản dịch ở đầu bảng được chọn là bản dịch tốt nhất cho
từ đó. Nếu không có bản dịch nào trong danh sách, thì không thực hiện việc khử
nhập nhằng và tất cả các bản dịch đều được chọn. Cách khử nhập nhằng dựa vào
23
ngữ liệu song song cũng bao gồm việc mở rộng câu truy vấn để làm giảm việc tạo
ra các bản dịch sai trong quá trình dịch do câu truy vấn quá ngắn [15].
Davis [5] thực hiện khử nhập nhằng bằng cách: tìm kiếm câu truy vấn gốc tiếng
Anh trong ngữ liệu tiếng Anh của ngữ liệu song song, sau đó các bản dịch tiếng Tây
Ban Nha sẽ được dùng như là câu truy vấn tiếng Tây Ban Nha để tìm kiếm trên ngữ
liệu tiếng Tây Ban Nha trong ngữ liệu song song. Câu truy vấn tiếng Tây Ban Nha
nào mà chọn được tài liệu tương đương với tài liệu tiếng Anh tìm được khi dùng
câu truy vấn tiếng Anh sẽ được xem là bản dịch của câu tiếng Anh.
So sánh hai phương pháp
Lisa Ballesteros [16] đã đánh giá độ hiệu quả của hai phương pháp này bằng
cách dịch từng từ tất cả 60 cụm từ dựa vào từ điển và sau đó lần lượt khử nhập
nhằng bằng cả hai phương pháp. Kết quả khử nhập nhằng sẽ được người đánh giá.
Theo dự đoán của L.Ballesteros thì phương pháp dựa trên tần số đồng xuất hiện
cũng cho kết quả tương đương với phương pháp dựa trên ngữ liệu song song.
Bảng 2.1 Bảng so sánh giữa các phương pháp
Khử nhập nhằng chính
xác bằng ngữ liệu song
song
Khử nhập nhằng không
chính xác bằng ngữ
liệu song song
Khử nhập nhằng chính
xác bằng tần số đồng
xuất hiện
36 11
Khử nhập nhằng không
chính xác bằng tần số
đồng xuất hiện
3 10
Các lỗi trong phương pháp dựa trên ngữ liệu là liên quan đến việc có rất ít hoặc
không có tài liệu nào liên quan đến câu truy vấn. Nguyên nhân là do phạm vi hẹp
hoặc do các lĩnh vực khác nhau của các ngữ liệu song song mà chúng ta có. Nghiên
cứu của L. Ballesteros dựa trên ngữ liệu song song chứa các tài liệu liên quan đến
24
vấn đề hòa bình và an ninh quốc tế, và sức khỏe và giáo dục ở các quốc gia phát
triển. Tập các câu truy vấn cũng khái quát hơn. Mặc dù từ điển có một số từ vựng
về các lĩnh vực chuyên ngành nhưng việc thiếu các tài liệu có liên quan sẽ ngăn
chặn việc khử nhập nhằng câu truy vấn trong các lĩnh vực riêng biệt.
Lisa Ballesteros dùng phương pháp dịch từng từ (word by word) để dịch các câu
truy vấn và các ngữ danh từ sẽ được dịch thông qua từ điển ngữ danh từ. Phương
pháp dựa trên tần số đồng xuất hiện (CO) khử nhập nhằng các bản dịch dựa trên
TSĐXH của nó với các bản dịch khác trong cùng một ngữ. Phương pháp dựa trên
ngữ liệu song song sử dụng ngữ cảnh của câu truy vấn khử nhập nhằng tất cả các
bản dịch bất chấp là bản dịch đó có nằm trong ngữ hay không. L.Ballesteros cũng
đã thực hiện so sánh hai phương pháp này với hệ thống dịch máy SYSTRAN.
Sử dụng cơ sở ban đầu là việc dịch từng từ (word by word), bảng 2.1 so sánh
hiệu quả của CO, PLC với hai hệ thống dịch máy. Hệ thống đầu tiên là hệ thống tìm
kiếm web T1 và thứ hai là hệ thống SYSTRAN. Bảng này cũng cho thấy hiệu quả
của tìm kiếm xuyên ngữ so với đơn ngữ.
Bảng 2.2 Bảng so sánh kết quả CO và PLC với hai hệ thống dịch máy
Phương pháp Độ chính xác % thay đổi % so với đơn
ngữ
Đơn ngữ 0.3869 -
Word by word 0.2331 60
Ngữ liệu song
song (PLC)
0.2551 9.4 65
Tần số đồng xuất
hiện (CO)
0.3057 31.1 79
T1 0.3066 31.5 79
SYSTRAN 0.2584 10.8 67
Qua đó ta thấy việc sử dụng tần số đồng xuất hiện để khử nhập nhằng có thể đạt
được những kết quả khả quan cho việc chuyển ngữ. Tuy nhiên, ta thấy việc tính
25
toán tần số đồng xuất hiện chỉ quan tâm đến mối liên hệ giữa các cặp từ một cách
riêng lẻ chứ không phải trong tổng thể câu.
Sau đây ta sẽ tìm hiểu về các mô hình thống kê được dùng để khai thác ngữ liệu
song song nhằm phân tích sác xuất thống kê (như xác suất dịch, xác suất liên kết
từ…) để phục vụ cho việc chuyển ngữ bằng phương pháp thống kê.
2.3 Mô hình thống kê
2.3.1 Giới thiệu
Các tài liệu song ngữ mà máy tính có thể đọc được ngày càng phát triển dẫn đến
việc phát triển các phương pháp khai thác thông tin ngôn ngữ từ những tài liệu này.
Một ví dụ là trong những thập niên gần đây có nhiều nghiên cứu nhằm giải quyết
vấn đề đạt được các liên kết ở mức câu một cách tự động từ ngữ liệu song song. Các
nghiên cứu của Brown, Lai, va Mercer năm 1991; Gale va Church năm 1991;
Brown et al. (1990)... đều cho thấy rằng có thể tạo ra được liên kết từng cặp câu ở
hai ngôn ngữ mà không cần kiểm tra các từ trong từng câu. Có nhiều thuật toán
khác nhau để thực hiện công việc đó như: thuật toán căn cứ vào số từ trong câu
hoặc thuật toán căn cứ vào số tiếng của câu... Điểm chung của các thuật toán này đó
là tất cả đều sử dụng phương pháp thống kê để đạt được mục tiêu về ngôn ngữ.
Nghiên cứu của Borwn et al. đã đưa ra cách tiếp cận bằng thống kê để dịch từ
tiếng Pháp sang tiếng Anh. Trong một vài nghiên cứu sau đó, họ đã phát triển thuật
toán để ước lượng xác suất một từ tiếng Anh được dịch bởi một từ tiếng Pháp và đã
sử dụng các xác suất này trong một mô hình dịch bằng thống kê để khai thác các
liên kết của các từ trong một câu tiếng Anh và các từ trong một câu tiếng Pháp. Các
cặp câu song song với các liên kết từ như vậy là nguồn tài nguyên có giá trị cho
việc tạo từ điển song ngữ và dùng cho dịch máy.
2.3.2 Dịch bằng xác suất thống kê
Vào năm 1949, Warren Weaver đã đưa ra đề nghị áp dụng thống kê nhằm giải
quyết vấn đề sử dụng máy tính để dịch văn bản từ một ngôn ngữ này sang ngôn ngữ
26
khác. Những nỗ lực theo hướng này nhanh chóng bị gạt bỏ vì những lý do về mặt lý
thuyết, nhưng vào thời điểm máy tính đạt được những phát triển mới thì những
hướng đi như vậy lại trở nên cần thiết trong việc tính toán bằng máy tính. Ngày nay,
nhiều người áp dụng những ứng dụng dùng phương pháp thống kê trong lĩnh vực
dịch máy.
Một câu tiếng Anh (bao gồm nhiều từ tiếng Anh), gọi là e, có thể được dịch sang
một câu tiếng Pháp bằng rất nhiều cách. Trong việc dịch bằng xác suất thống kê,
chúng ta giả sử rằng tất cả các câu tiếng Pháp, gọi là f, có khả năng là một bản dịch
của e. Khi đó chúng ta gán cho mỗi cặp câu (e, f) một con số là Pr(f|e) mà chúng ta
gọi nó là xác suất mà một nhà dịch thuật sẽ xem f như là một bản dịch của e. Chúng
ta có thể đưa ra một ngữ cảnh xa hơn đó là một người bản xứ Pháp khi đưa ra một
câu tiếng Pháp, anh ta sẽ nghĩ đến một câu tiếng Anh mà anh ta tự dịch trong đầu.
Như vậy, khi đưa ra một câu tiếng Pháp f, công việc của hệ thống dịch của chúng ta
là tìm một câu tiếng Anh e mà người Pháp nghĩ trong đầu khi đưa cho anh ta f.
Chúng ta sẽ làm nhỏ cơ hội dịch lỗi bằng việc chọn từ tiếng Anh ê mà Pr(e|f) là lớn
nhất.
Sử dụng luật Bayes ta có thể viết :
Pr(e|f) = Pr(e)Pr(f|e)/Pr(f)
Do mẫu số ở đây không phụ thuộc vào e nên việc tìm ê đồng nghĩa với việc tìm
e để tích Pr(e)Pr(f|e) lớn nhất có thể. Vì vậy ta có thể viết:
ê = argmaxe Pr(e)Pr(f|e)
Chúng ta có thể hình dung ra cách một người dịch một câu từ tiếng Pháp sang
tiếng Anh, họ sẽ duyệt một danh sách tất cả các câu tiếng Anh để tính xác xuất xuất
hiện của câu tiếng Anh đó, đây chính là Pr(e), và tính xác xuất điều kiện để một câu
tiếng Pháp là bản dịch của một câu tiếng Anh, đây chính là Pr(f|e).
Từ một góc nhìn khác, ta có thể xem Pr(f|e) như là một bảng khổng lồ chứa
những con số từ 0 đến 1 của mỗi cặp câu tiếng Pháp và tiếng Anh có thể. Bằng việc
lựa chọn từ sự phân bố này, ta có thể có được bản dịch có chất lượng cao. Tuy
nhiên việc làm sao có thể thiết lập được Pr(f|e) bằng việc khai thác từng cặp câu
27
Pháp và Anh cũng là một vấn đề cần quan tâm vì trong ngữ liệu song song có quá
nhiều cặp câu là bản dịch của nhau.
Công thức trên đặt ra ba vấn đề khó khăn cho việc thực hiện dịch bằng xác suất
thống kê: tính xác suất mô hình ngôn ngữ Pr(e), tính xác suất mô hình dịch Pr(f|e)
và cách để đạt được hiệu quả khi tìm kiếm câu tiếng Anh e thỏa điều kiện đạt được
giá trị lớn nhất Pr(e)Pr(f|e). Chúng ta gọi các vấn đề này lần lượt là: vấn đề về mô
hình ngôn ngữ, vấn đề về mô hình dịch và vấn đề tìm kiếm.
Ở đây có một câu hỏi được đặt ra đó là tại sao chúng ta cần tính hai xác suất
Pr(e) và Pr(f|e) thay vì tính xác suất Pr(e|f) trực tiếp. Chúng ta có thể hình dung ra
khi chúng ta dịch một câu tiếng Pháp sang tiếng Anh, chúng ta sẽ nghĩ trong đầu
một câu phổ biến tiếng Pháp và chọn một câu phổ biến tiếng Anh với hy vọng lựa
chọn đó là tốt. Vì vậy Pr(e|f) sẽ tập trung xác suất của nó càng nhiều càng tốt vào
những từ phổ biến của tiếng Anh. Nhưng điều này thì không quan trọng với mô
hình Pr(f|e) bởi vì mô hình này chỉ tập trung xác suất vào những câu phổ biến tiếng
Pháp. Và cho dù chúng ta trải rộng xác suất sang các câu không phổ biến tiếng Pháp
thì kết quả dịch của chúng ta vẫn không thay đổi vì kết quả dịch phụ thuộc sự lớn
nhất của giá trị Pr(e)Pr(f|e). Nếu ta sử dụng mô hình Pr(e|f) trực tiếp kết quả là mô
hình sẽ chỉ tập trung vào các câu phổ biến tiếng Anh mà thôi và như vậy kết quả
dịch đôi khi sẽ thiếu hoặc không chính xác.
Sử dụng công thức argmaxePr(e)Pr(f|e) chúng ta sẽ có hai yếu tố. Đó là xác suất
mô hình dịch lớn cho các từ tiếng Anh, cho dù từ đó là phổ biến hay không, mà có
thể giải thích được ý nghĩa của tiếng Pháp. Và yếu tố thứ hai đó là xác suất mô hình
ngôn ngữ lớn chỉ với những từ tiếng Anh có định dạng đúng (phổ biến và đúng ngữ
pháp) có liên quan trực tiếp đến từ tiếng Pháp. Ở đây chúng ta có thể hình dung quá
trình dịch sẽ bao gốm các bước như sau: đầu tiên chúng ta sẽ lựa chọn tất cả các
chuỗi từ tiếng Anh có thể mà giải nghĩa được các từ tiếng Pháp (đây chính là mô
hình dịch), và sau đó chúng ta sẽ lựa chọn lại từ tiếng Anh nào hợp lý, đúng ngữ
pháp nhất làm bản dịch của từ tiếng Pháp (đây là mô hình ngôn ngữ).
28
2.3.3 Mô hình ngôn ngữ
Mô hình ngôn ngữ dùng để xác định một câu tiếng Anh e xuất hiện như thế nào.
Chúng ta dùng xác suất Pr(e) để xác định việc xuất hiện của e là nhiều hay ít.
Chúng ta có thể hình dung việc tính giá trị của Pr(e) như sau: đó là số lần e xuất
hiện trong một tập hợp văn bản tiếng Anh cho trước. Tuy nhiên, có một vấn đề lớn
trong việc tính Pr(e), đó là sẽ có nhiều câu tiếng Anh có xác suất Pr(e) bằng không
vì e không xuất hiên trong tập hợp văn bản tiếng Anh. Việc có được một tập hợp
văn bản tiếng Anh đầy đủ mọi trường hợp là một việc hầu như không thể đạt được
đối với một ngôn ngữ. Để giải quyết vấn đề này ta có thể xem một câu tiếng Anh
gồm nhiều phần khác nhau và việc hình thành câu là do các phần này được kết hợp
lại với nhau. Nếu các thành phần này là tốt và chúng kết hợp được với nhau theo
một cách nào đó thì chúng ta có thể xem đó là một câu tiếng Anh. Đối với câu thì
các thành phần chính là các chuỗi con của câu. Giả sử cho một chuỗi e1e2…en,
không mất tính tổng quát ta có thể viết như sau:
Pr(e1e2…en) = Pr(e1)Pr(e2|e1)…Pr(en| e1e2…en-1)
Do đó ta có thể giải quyết vấn đề của mô hình ngôn ngữ bằng cách tính xác suất
của từng từ đơn dựa trên các từ trước nó trong câu. Tại bất kỳ vị trí nào trong câu ta
phải xác định xác suất của từ ej từ những từ trước đó e1e2…ej-1. Việc xác định xác
suất như vậy có thể dùng mô hình n-gram. Việc xác định xác suất của câu sẽ được
xác định bằng xác suất mà một từ sẽ xuất hiện tiếp theo các từ trước đó như thế nào.
2.3.4 Liên kết từ
Chúng ta gọi một cặp từ mà từ này được dịch từ từ kia là một bản dịch. Brown et
al. đã giới thiệu ý tưởng liên kết từ giữa một cặp câu đó là một từ tiếng Pháp sẽ
được nối với một từ tiếng Anh thông qua một đường nối. Các liên kết từ được thể
hiện thông qua hình vẽ là đường nối giữa các từ tiếng Anh đến các từ tiếng Pháp mà
chúng ta gọi là các liên kết.
29
Hình 2.1 Minh họa liên kết từ
Các kết nối như hình tạo ra 7 đường liên kết: (The, Les), (proposal, propositions)...
Như chúng ta thấy ở đây, một từ tiếng Pháp có thể kết nối với một từ tiếng Anh hay
nhiều từ tiếng Pháp có thể kết nối với một từ tiếng Anh và ngược lại một từ tiếng
Pháp cũng có thể kết nối với nhiều từ tiếng Anh, ngoài ra cũng có thể có từ không
liên kết với từ nào. Với định nghĩa liên kết như vậy thì với một câu tiếng Pháp có m
từ và một câu tiếng Anh có l từ thì các liên kết có thể tạo được sẽ có 2lm cách, vậy ta
sẽ có tất cả 2lm liên kết. Chúng ta có thể chọn ra một liên kết được xem là tốt nhất
trong số liên kết này và khi đó ta sẽ có được cách dịch của một từ tiếng Pháp sang
tiếng Anh.
2.3.5 Mô hình dịch
Như đã trình bày ở trên việc sử dụng xác suất thống kê để dịch ta sẽ sử dụng mô
hình dịch để tìm ra các bản dịch có thể và sau đó dùng mô hình ngôn ngữ để chọn ra
bản dịch tốt nhất. Mô hình ngôn ngữ Pr(e) có thể giải quyết bằng cách tính xác suất
xuất hiện của e trong tập các tài liệu cùng ngôn ngữ với e. Việc tính xác suất này
như đã trình bày ở trên có thể thực hiện được khá dễ dàng, do đó ở đây chúng ta chỉ
quan tâm đến mô hình dịch Pr(f|e).
Giả sử một câu tiếng Pháp f được dịch từ câu tiếng Anh e thì giữa chúng sẽ có
một liên kết từ được xác định. Như trong ví dụ trên ta có thể mô tả liên kết từ giữa
hai câu tiếng Pháp và tiếng Anh bằng một vector như sau (1, 2, 4, 3, 4, 7, 7, 7, 5)
30
với các con số là vị trí của từ trong câu tiếng Anh. Như vậy có thể nói một cặp câu f
và e là bản dịch của nhau sẽ xác định một liên kết từ (gọi là a) có thể giữa chúng.
Việc hình thành một câu tiếng Pháp từ một câu tiếng Anh có thể được tạo ra bằng
nhiều cách liên kết từ khác nhau, như vậy ta có thể viết :
Không mất tính tổng quát ta có thể giả sử, chuỗi tiếng Anh e bao gồm l từ và có
thể biểu diễn như sau: e = e1e2…el, chuỗi tiếng Pháp f bao gồm m từ và được biểu
diễn như sau: f = f1f2…fm. Như vậy liên kết từ a có thể được biểu diễn như sau: a =
a1a2…am với mỗi aj có giá trị từ 0 đến l. Ví dụ, vị trí j trong câu tiếng Pháp liên kết
với với vị trí I của câu tiếng Anh thì ta có aj = i, còn nếu không liên kết với từ tiếng
Anh nào thì aj = 0.
Ta có thể viết:
Chúng ta có thể diển giải công thức trên như sau: khi ta tạo ra một câu tiếng
Pháp cùng với một liên kết từ từ một câu tiếng Anh ta thực hiện như sau: đầu tiên ta
có thể chọn chiều dài của câu tiếng Pháp. Sau đó ta chọn vị trí mà từ đầu tiên trong
câu tiếng Pháp liên kết đến dựa trên thông tin về câu tiếng Anh và chiều dài câu
tiếng Pháp), tiếp theo ta sẽ chọn ứng viên cho từ đầu tiên trong câu tiếng Pháp dựa
trên câu tiếng Anh, chiều dài câu tiếng Pháp, vị trí trong câu tiếng Anh mà từ tiếng
Pháp liên kết đến. Tiếp tục ta duyệt từng vị trí tiếp theo trong câu tiếng Pháp và
thực hiện việc lựa chọn như trên dựa vào câu tiếng Anh và các sự lựa chọn trước đó
như việc lựa chọn từ tiếng Pháp và liên kết của nó.
Có nhiều loại mô hình dịch khác nhau, mỗi loại có những thuật toán và cách
thức riêng để tính xác suất điều kiện Pr(f|e), ta gọi đó là các hàm gần đúng của cặp
bản dịch (f, e). Hàm này có một số lượng lớn tham số tự do mà chúng ta phải ước
lượng chúng thông qua một quá trình mà ta gọi là huấn luyện.
31
2.3.5.1 Mô hình IBM 1
Trong mô hình IBM 1, ta giả sử rằng Pr(m|e) không phụ thuộc e và m; và xác
suất Pr(aj|a1j-1, f1j-1, m, e) chỉ phụ thuộc vào chiều dài l của câu tiếng Anh; và xác
suất Pr(fj| a1j, f1j-1, m, e) chỉ phụ thuộc vào fj và eaj. Đặt = Pr(m|e) và t(fj| eaj) =
Pr(fj| a1j, f1j-1, m, e) (gọi là xác suất dịch) và ta có Pr(aj|a1j-1, f1j-1, m, e) = (l + 1)-1 do
chỉ phụ thuộc vào l. Do đó ta có:
Các liên kết từ được xác định bởi giá trị của aj với j từ 1 đến m, và mỗi aj có thể
có giá trị từ 0 đến l. Do đó ta có thể viết:
Ta thấy với việc xác định xác suất dịch t ta có thể xác định xác suất Pr(f|e) thông
qua các liên kết từ a. Mặt khác, nếu các liên kết từ a là xác định ta có thể tính ra xác
suất dịch t(fj|eaj) một cách dễ dàng. Và với việc bắt đầu với một ngữ liệu song song
với các cặp câu được sắp xếp theo thứ tự là bản dịch của nhau thì ta chưa thể xác
định được đâu là liên kết từ tốt nhất giữa hai câu tiếng Anh và tiếng Pháp, cũng như
chưa thể xác định được xác suất dịch của từ tiếng Pháp và tiếng Anh. Do đó mô
hình IBM 1 thực hiện như sau khởi tạo giá trị cho xác suất dịch t (tất cả các xác suất
là bằng nhau), thực hiện tính xác suất các liên kết từ từ t, sau đó thực hiện việc tính
lại các giá trị t này. Sau một số bước lặp như vậy ta sẽ có các giá trị xác suất dịch
hội tụ. Và khi đó ta có thể sử dụng các giá trị này để xác định đâu là bản dịch của
một câu tiếng Pháp.
Một từ được xem là phù hợp hơn từ kia khi xác suất dịch của nó cao hơn. Ví dụ
khi ta thấy một từ tiếng Pháp f3 có thể liên kết với từ tiếng Anh e2 và e5 mà t(f3|e2) >
t(f3|e5) thì ta có thể kết luận e5 là phù hợp hơn và liên kết giữa f3 và e5 tốt hơn liên
kết giữa f3 và e2. Tuy nhiên do chỉ sử dụng xác suất dịch nên vẫn có thể có các bản
dịch sai, vì nếu tất cả các từ trong câu tiếng Pháp đều có xu hướng liên kết với e5
32
(xác suất dịch với e5 cao hơn các ei khác) khi đó ta sẽ có một liên kết không tốt và
việc này sẽ ảnh hưởng đến kết quả dịch.
2.3.5.2 Mô hình IBM 2
Để giải quyết những vấn đề của mô hình IBM 1, mô hình IBM 2 đưa ra thêm
một giả thiết bên cạnh các giả thiết của mô hình IBM 2, đó là Pr(aj|a1j-1, f1j-1, m, e)
phụ thuộc vào j, aj, và m bên cạnh việc phụ thuộc vào l. Ta đặt:
a(aj|j, m, l) = Pr(aj|a1j-1, f1j-1, m, e)
và gọi nó là xác suất liên kết với điều kiện như sau:
Vì vậy ta có thể viết:
Từ công thức trên ta có thể thấy mô hình IBM 1 là một trường hợp đặc biệt của
mô hình IBM 2 với a(aj|j, m, l) = (l + 1)-1. Do đó các tham số của mô hình IBM 1 có
thể sử dụng được cho mô hình IBM 2, ở đây cụ thể là xác suất dịch t.
Ta cũng có thể thấy mô hình IBM 2 chỉ quan tâm đến xác suất dịch của từng từ
và vị trí của từ trong câu dịch mà thôi. Tuy nhiên, khi dịch một câu tiếng Pháp sang
tiếng Anh ta có thể thấy có một số trường hợp một cụm từ tiếng Pháp sẽ được dịch
thành một từ tiếng Anh duy nhất hay một từ tiếng Pháp khi dịch sang tiếng Anh sẽ
bị bỏ đi. Những trường hợp này không được xét đến trong mô hình IBM 2.
2.3.5.3 Mô hình IBM 3
Mô hình IBM 3 sử dụng thêm một tham số nhằm khắc phục những khiếm
khuyết của mô hình IBM 2, đó là xác suất cụm từ (fertility probability) n(i|ei).
Ngoài ra xác suất liên kết trong mô hình IBM 2 cũng được thay đổi thành xác suất
đảo từ d(j|aj, l, m). Ta có công thức như sau:
),,|(*)|(*)|()|Pr(e)|Pr(f
111
mlajjdtnef
m
j
aj
m
j
ji
a
l
i
i
a
efe
33
Ta nhận thấy xác suấ đảo từ của mô hình IBM 3 cũng có liên quan đến xác suất
liên kết trong mô hình IBM 2 do đó ta có thể sử dụng các kết quả từ mô hình IBM 2
để làm tham số cho mô hình IBM 3. Việc sử dụng lại như vậy có thể tận dụng được
các kết quả của mô hình trước. Và sau một quá trình lặp từ mô hình IBM 1 để có
các tham số cho mô hình IBM 2 và tiếp tục lặp mô hình 2 để tạo các tham số cho
mô hình 3 và cuối cùng là quá trình lặp của mô hình 3 ta sẽ có được các giá trị hội
tụ cho các tham số như t, a, n, d. Khi đó ta có thể khai thác giá trị các tham số này
để hỗ trợ cho việc dịch được tốt hơn.
2.4 Kết luận
Như đã trình bày ở trên ta có thể thấy để chuyển ngữ ta có nhiều cách như dùng
từ điển để dịch và dùng các biện pháp khác nhau để khử nhập nhằng hoặc có thể
dùng các mô hình thống kê để dịch. Đối với phương pháp dịch bằng xác suất thống
kê ta cần phải có ngữ liệu song song tương đối lớn để có thể bao phủ đầy đủ các
trường hợp cần dịch. Do đó việc sử dụng từ điển để dịch có nhiều thuận lợi hơn do
càng ngày càng có nhiều từ điển được cung cấp đặc biệt là cho ngôn ngữ tiếng Việt.
Tuy nhiên việc dùng từ điển để dịch vẫn gặp phải khó khăn đó là việc nhập nhằng
giữa các bản dịch. Như đã trình bày trong phần trước ta thấy khi dùng phương pháp
tính tần số đồng xuất hiện của từ để khử nhập nhằng ta có thể đạt được kết quả khả
quan cho việc dịch. Tuy nhiên việc sử dụng tần số đồng xuất hiện chỉ khai thác mức
độ liên hệ giữa từng cặp từ mà thôi. Trong khi đó các mô hình dịch cho thấy chúng
khai thác các mức độ chi tiết hơn như liên hệ giữa các từ thậm chí cụm từ (liên kết
từ) cũng như vị trí của các từ trong câu, do đó nếu sử dụng các thông tin này cho
việc khử nhập nhằng thì độ chính xác đạt được sẽ cao hơn. Vì thế, luận văn xây
dựng mô hình như sau:
Phương pháp chuyển ngữ: dựa vào từ điển MRD.
Khử nhập nhằng: sử dụng kết quả của mô hình dịch bằng xác suất thông kê
IBM (đã trình bày ở trên) để chọn ra trong các bản dịch được dịch từ từ điển
bản dịch nào có xác suất dịch cao nhất.