Luận văn Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh

XÂY DỰNG HỆ THỐNG TÌM KIẾM THÔNG TIN XUYÊN NGỮ VIỆT ANH TRẦN HOÀNG MINH Trang nhan đề Mục lục Danh mục Mở đầu Chương 1: Gioi thiệu Chương 2: Cơ sở lý thuyết Chương 3: Các kỹ thuật liên quan Chương 4: Chương trình và kết quả thực nghiệm Chương 5 Đánh giá và hướng phát triển Tài liệu tham khảo MỤC LỤC MỤC LỤC 3 DANH MỤC CÁC BẢNG 5 DANH MỤC CÁC HÌNH VẼ . 6 MỞ ĐẦU 7 Chương 1: GIỚI THIỆU 9 1.1 Giới thiệu về tìm kiếm thông tin (Information Retrieval) 9 1.2 Tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval) 11 1.2.1 Khái niệm 11 1.2.2 Mô hình chung . 11 1.2.3 Các vấn đề 12 1.3 Các hướng tiếp cận 13 1.3.1 Dịch máy 13 1.3.2 Sử dụng từ điển 14 1.3.3 Sử dụng ngữ liệu 15 1.4 Một số công trình nghiên cứu trong và ngoài nước . 16 1.5 Giới thiệu luận văn . 16 Chương 2: CƠ SỞ LÝ THUYẾT . 18 2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary – MRD) 18 2.1.1 Vai trò của MRD 18 2.1.2 Sử dụng từ điển 19 2.2 Các phương pháp khử nhập nhằng . 20 2.2.1 Giới thiệu . 20 2.2.2 Khử nhập nhằng . 20 2.3 Mô hình thống kê . 25 2.3.1 Giới thiệu . 25 2.3.2 Dịch bằng xác suất thống kê . 25 2.3.3 Mô hình ngôn ngữ 28 2.3.4 Liên kết từ 28 2.3.5 Mô hình dịch 29 2.4 Kết luận . 33 Chương 3: CÁC KỸ THUẬT LIÊN QUAN 34 3.1 Tìm kiếm dựa trên MRD 34 3.2 Công cụ GIZA++ . 36 3.2.1 Cấu trúc đầu vào của GIZA++ 36 3.2.2 Cấu trúc đầu ra của GIZA++ 37 3.2.3 Sử dụng GIZA++ . 37 3.3 Kết luận . 38 Chương 4: CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM . 39 4.1 Kiến trúc hệ thống 39 4.1.1 Từ điển . 40 4.1.2 Thống kê từ ngữ liệu 41 4.1.3 Chương trình thử nghiệm . 42 4.2 Khai thác ngữ liệu song song . 45 4.3 Kết quả thử nghiệm 51 4 4.4 Đánh giá thử nghiệm 55 4.4.1 Nhận xét việc chuyển ngữ 55 4.4.2 Đánh giá kết quả thử nghiệm 57 Chương 5: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN . 62 5.1 Đánh giá 62 5.2 Hướng ứng dụng và phát triển 62 TÀI LIỆU THAM KHẢO . 65

16 trang | Chia sẻ: maiphuongtl | Lượt xem: 1526 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Luận văn Xây dựng hệ thống tìm kiếm thông tin xuyên ngữ Việt Anh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

18 Chương 2: CƠ SỞ LÝ THUYẾT Chương 2 trình bày các cơ sở lý thuyết mà dựa vào đó hệ thống được xây dựng. Chương 2 sẽ trình bày hướng tiếp cận sử dụng từ điển và trình bày lý thuyết tổng quan về các mô hình dịch của IBM mà luận văn khai thác để xây dựng hệ thống. Chương 2 bao gồm các nội dung như sau:  Từ điển máy đọc.  Các phương pháp khử nhập nhằng.  Mô hình thống kê. 2.1 Giới thiệu về từ điển máy đọc (Machine Readable Dictionary – MRD) 2.1.1 Vai trò của MRD Việc xử lý ngôn ngữ cho tiếng Anh và các ngôn ngữ phổ biến trên thế giời ngày càng phổ biến và cũng đã đạt được những thành tựu đáng kể. Đối với tiếng Việt, các kết quả còn hạn chế vì nhiều nguyên nhân khác nhau. Một trong các nguyên nhân là thiếu những cơ sở dữ liệu cần thiết cho việc xử lý ngôn ngữ tự nhiên bằng máy tính. Một trong những cơ sở dữ liệu đó chính là cơ sở dữ liệu từ điển tiếng Việt chuyên dùng cho máy tính để xử lý tiếng Việt. Việc xử lý ngôn ngữ tự nhiên bằng máy tính bao gồm nhiều bước khác nhau, như: phân tích hình thái, cú pháp, ngữ nghĩa,… cho các cấp độ từ, ngữ, câu, văn bản,…nhưng tất cả các công việc xử lý ấy đều cần truy cập đến cơ sở dữ liệu từ điển điện tử (cơ sở dữ liệu về từ trong ngôn ngữ đó). Vì vậy, việc cần thiết nhất cho việc xử lý ngôn ngữ chính là cần phải xây dựng được từ điển điện tử mà máy tính có thể “đọc” được (từ điển này được gọi tắt là MRD: Machine Readable Dictionary). Ở đây chúng ta cần phân biệt MRD với từ điển điện tử dành cho người, các từ điển điện tử dùng cho người mặc dù ở dạng điện tử nhưng không phải cho máy sử dụng. Chẳng hạn chúng chứa một số thông tin mà máy không cần biết như 19 các thông tin về ngữ âm (phonetics), về từ nguyên (etymology), giải thích… MRD chứa các thông tin được coi là hiển nhiên, những thông tin này không có trong các từ điển cho người vì con người có thể suy ra chúng bằng những tri thức về thế giới thực hay từ vốn sống. Từ điển MRD cần có cách tổ chức nhất quán, chặt chẽ, chính xác, đầy đủ về cấu trúc và về lượng thông tin để máy tính hoàn toàn dựa vào đó mà xử lý công việc được giao một cách tự động. Vì vậy, để xây dựng được từ điển MRD này, chúng ta phải giải quyết triệt để về tiêu chí lựa chọn mục từ. Đây là vấn đề vô cùng nan giải vì nó liên quan đến tiêu chí nhận diện ranh giới từ (đặc biệt là tiếng Việt, một thứ tiếng của loại hình ngôn ngữ đơn lập). Thông tin được lưu trữ trong mỗi mục từ phải hoàn toàn chính xác, nhất quán về chính tả, về bộ mã ký tự, về cách trình bày. Tuyệt đối không thể ghi nhập nhằng như từ điển của người dùng. Ngoài ra, việc tổ chức MRD sao cho nó có tính liên thông với các từ điển MRD khác, tương thích với các hệ xử lý ngôn ngữ khác trên thế giới. Việc tổ chức MRD tiếng Việt này cũng cần có tính mở để chúng ta có thể cập nhật, thay đổi một cách dễ dàng và nhanh chóng. 2.1.2 Sử dụng từ điển Chúng ta có thể sử dụng từ điển MRD trong nhiều bài toán xử lý ngôn ngữ tự nhiên khác nhau. Trong tìm kiếm thông tin xuyên ngữ ta sử dụng từ điển MRD song ngữ, đây là từ điển mà trong đó các từ hoặc cụm từ ở một ngôn ngữ được dịch sang ngôn ngữ khác. Từ điển song ngữ có thể là một chiều, tức bao gồm một danh sách các từ trong ngôn ngữ này được dịch sang ngôn ngữ khác, hoặc là hai chiều, tức cho phép người sử dụng tra cứu từ ở ngôn ngữ này sang ngôn ngữ khác và ngược lại. Bên cạnh đó ta còn có thể tìm thấy các thông tin khác trong từ điển song ngữ như từ loại, các biến cách của từ, các thông tin về văn phạm… Tất cả các thông tin này được tổ chức trong một từ điển MRD song ngữ để máy có thể hiểu được và tiến hành truy xuất nhanh chóng hỗ trợ cho quá trình dịch trong hệ tìm kiếm thông tin xuyên ngữ. 20 2.2 Các phương pháp khử nhập nhằng 2.2.1 Giới thiệu Việc dịch toàn bộ tài liệu của một tập lớn các tài liệu là một việc làm mất khá nhiều thời gian và chi phí, do đó việc nghiên cứu trong lĩnh vực tìm kiếm xuyên ngữ chủ yếu tập trung vào các phương pháp để chuyển ngữ câu truy vấn. Có nhiều phương pháp để dịch câu truy vấn như dịch dựa trên từ điển, dùng ngữ liệu song song hoặc ngữ liệu so sánh để xây dựng mô hình dịch hay sử dụng kỹ thuật dịch máy. Trong đó phương pháp dịch dựa trên từ điển đã được trình bày ở trên. Phương pháp này cho nhiều kết quả đầy hứa hẹn, tuy nhiên phương pháp này vẫn còn khuyết điểm khi sử dụng cho các hệ thống tìm kiếm xuyên ngữ. Một trong số đó là việc dịch bằng từ điển sẽ cho kết quả có nhiều bản dịch chứ không phải chỉ một bản dịch duy nhất. Do đó cần phải áp dụng thêm các biện pháp khác để giải quyết tính nhập nhằng của các bản dịch. Nhập nhằng có thể do từ đồng âm hay do từ đa nghĩa. Từ đồng âm là từ giống nhau nhưng nghĩa thì khác nhau và các nghĩa này không có liên hệ với nhau, từ đa nghĩa là từ có nhiều ý nghĩa và các ý nghĩa này thường có liên hệ với nhau; ví dụ như một nghĩa nào đó của từ đa nghĩa có thể là ẩn ý từ một nghĩa khác. Đây là các nhập nhằng về nghĩa trong ngôn ngữ, ta có thể giải quyết các nhập nhằng này bằng cách đánh dấu từ loại để phân biệt nghĩa của từ trong từng câu. Bên cạnh đó việc phải chuyển ngữ trong hệ tìm kiếm thông tin xuyên ngữ gây ra sự nhập nhằng khác, đó là nhập nhằng khi dịch. Trong khi dịch một từ ở ngôn ngữ này có thể được dịch ra thành nhiều từ trong ngôn ngữ khác, khi đó gây ra sự nhập nhằng do có nhiều bản dịch. Ta phải áp dụng các phương pháp khử nhập nhằng để có thể chọn ra được bản dịch đúng nhất trong số các bản dịch có được. Sau đây sẽ là phần trình bày về các phương pháp khử nhập nhằng khi dịch dựa trên từ điển. 2.2.2 Khử nhập nhằng Độ hiệu quả của tìm kiếm xuyên ngữ khi sử dụng MRD có thể thấp hơn so với tìm kiếm đơn ngữ. Việc dịch đơn giản bằng MRD gây ra những bản dịch nhập 21 nhằng. Các câu truy vấn có thể được dịch bằng cách thay thế các từ trong ngôn ngữ nguồn bằng một từ hoặc nhiều từ tương đương trong ngôn ngữ đích. Lỗi dịch xảy ra là do 3 nguyên nhân sau:  Việc thêm nhiều từ không liên quan vào câu truy vấn. Điều này là do một mục từ trong từ điển có thể chỉ liệt kê một vài nghĩa của từ, và mỗi nghĩa lại có một hoặc nhiều cách dịch.  Thuật ngữ kỹ thuật thường không được tìm thấy trong từ điển chung.  Lỗi gây ra khi dịch các cụm từ như là một ngữ. Tiếp theo ta sẽ tìm hiểu về hai cách khử nhập nhằng đó là dùng tần số đồng xuất hiện và dựa vào ngữ liệu song song. Dùng tần số đồng suất hiện Các bản dịch chính xác của các từ trong câu truy vấn có thể sẽ đồng xuất hiện trong các tài liệu của ngôn ngữ đích và các bản dịch không chính xác có khuynh hướng không đồng xuất hiện. Cho các bản dịch có thể của hai từ trong ngôn ngữ nguồn, chúng ta sẽ tìm ra bản dịch tốt nhất bằng cách tính tần số đồng xuất hiện cho từng cặp từ. Chúng ta sẽ minh họa cách tính tần số đồng suất hiện của các cặp từ qua ví dụ sau. Cho hai từ trong ngôn ngữ nguồn, tìm tất cả các bản dịch có thể với cùng từ loại cho mỗi từ. Phát sinh một tập các cặp {a, b} trong đó a là bản dịch của từ thứ nhất, b là bản dịch của từ thứ hai. Tính tần số đồng xuất hiện của mỗi phần tử trong tập bằng ma trận em. Trong đó: n a , n b là số lần a, b xuất hiện trong ngữ liệu n ab là số lần cả a và b xuất hiện trong một văn bản có t từ 22 N: số văn bản trong ngữ liệu. Mỗi tập sẽ được sắp xếp theo điểm em và tập đứng đầu sẽ được chọn là bản dịch thích hợp. Nếu có nhiều hơn một tập đứng đầu, thì tất cả các bản dịch đó đều được chọn. Việc lựa chọn được thực hiện thông qua một mô hình thống kê dựa trên tỉ lệ của tần số đồng xuất hiện cho một bản dịch so với tần số đồng xuất hiện của tất cả các bản dịch. Dựa vào ngữ liệu song song Ngữ liệu song song chứa một tập các tài liệu và bản dịch của chúng ở một hoặc nhiều ngôn ngữ khác. Việc phân tích các tập tài liệu này có thể suy ra cách dịch tốt nhất giữa các ngôn ngữ có trong tài liệu. L.Ballesteros đã sử dụng việc phân tích ngữ liệu song song để quan sát tác động của việc khử nhập nhằng lên tính hiệu quả của CLIR. Kỹ thuật này là một cải tiến kỹ thuật đã được sử dụng trong đề tài của Davis và Odgen [4]. Câu truy vấn của ngôn ngữ nguồn đầu tiên được đánh thẻ từ loại. Mỗi cụm từ trong câu truy vấn nguồn được thay thế bởi tất các bản dịch có cùng từ loại có thể có trong ngôn ngữ đích. Nếu không có bản dịch nào thích hợp cho một thẻ của cụm từ trong câu truy vấn thì các bản dịch của tất cả các từ loại được liệt kê trong từ điển sẽ được trả về. Có thể có một hoặc nhiều cách dịch một cụm từ cho trước. Khi nhiều cách dịch được trả về, cụm từ tốt nhất được chọn thông qua việc khử nhập nhằng bằng ngữ liệu song song. L.Ballesteros đã tiến hành khử nhập nhằng như sau: sử dụng 30 tài liệu tiếng Tây Ban Nha đầu tiên được tìm kiếm từ ngữ liệu song song bằng một câu truy vấn tiếng Tây Ban Nha, từ đó trích ra 5000 cụm từ đầu tiên trong các tài liệu tiếng Anh tương đương với 30 tài liệu tiếng Tây Ban Nha nói trên. Các bản dịch của một từ trong câu truy vấn được sắp xếp dựa trên điểm của chúng trong danh sách 5000 cụm từ. Các bản dịch ở đầu bảng được chọn là bản dịch tốt nhất cho từ đó. Nếu không có bản dịch nào trong danh sách, thì không thực hiện việc khử nhập nhằng và tất cả các bản dịch đều được chọn. Cách khử nhập nhằng dựa vào 23 ngữ liệu song song cũng bao gồm việc mở rộng câu truy vấn để làm giảm việc tạo ra các bản dịch sai trong quá trình dịch do câu truy vấn quá ngắn [15]. Davis [5] thực hiện khử nhập nhằng bằng cách: tìm kiếm câu truy vấn gốc tiếng Anh trong ngữ liệu tiếng Anh của ngữ liệu song song, sau đó các bản dịch tiếng Tây Ban Nha sẽ được dùng như là câu truy vấn tiếng Tây Ban Nha để tìm kiếm trên ngữ liệu tiếng Tây Ban Nha trong ngữ liệu song song. Câu truy vấn tiếng Tây Ban Nha nào mà chọn được tài liệu tương đương với tài liệu tiếng Anh tìm được khi dùng câu truy vấn tiếng Anh sẽ được xem là bản dịch của câu tiếng Anh. So sánh hai phương pháp Lisa Ballesteros [16] đã đánh giá độ hiệu quả của hai phương pháp này bằng cách dịch từng từ tất cả 60 cụm từ dựa vào từ điển và sau đó lần lượt khử nhập nhằng bằng cả hai phương pháp. Kết quả khử nhập nhằng sẽ được người đánh giá. Theo dự đoán của L.Ballesteros thì phương pháp dựa trên tần số đồng xuất hiện cũng cho kết quả tương đương với phương pháp dựa trên ngữ liệu song song. Bảng 2.1 Bảng so sánh giữa các phương pháp Khử nhập nhằng chính xác bằng ngữ liệu song song Khử nhập nhằng không chính xác bằng ngữ liệu song song Khử nhập nhằng chính xác bằng tần số đồng xuất hiện 36 11 Khử nhập nhằng không chính xác bằng tần số đồng xuất hiện 3 10 Các lỗi trong phương pháp dựa trên ngữ liệu là liên quan đến việc có rất ít hoặc không có tài liệu nào liên quan đến câu truy vấn. Nguyên nhân là do phạm vi hẹp hoặc do các lĩnh vực khác nhau của các ngữ liệu song song mà chúng ta có. Nghiên cứu của L. Ballesteros dựa trên ngữ liệu song song chứa các tài liệu liên quan đến 24 vấn đề hòa bình và an ninh quốc tế, và sức khỏe và giáo dục ở các quốc gia phát triển. Tập các câu truy vấn cũng khái quát hơn. Mặc dù từ điển có một số từ vựng về các lĩnh vực chuyên ngành nhưng việc thiếu các tài liệu có liên quan sẽ ngăn chặn việc khử nhập nhằng câu truy vấn trong các lĩnh vực riêng biệt. Lisa Ballesteros dùng phương pháp dịch từng từ (word by word) để dịch các câu truy vấn và các ngữ danh từ sẽ được dịch thông qua từ điển ngữ danh từ. Phương pháp dựa trên tần số đồng xuất hiện (CO) khử nhập nhằng các bản dịch dựa trên TSĐXH của nó với các bản dịch khác trong cùng một ngữ. Phương pháp dựa trên ngữ liệu song song sử dụng ngữ cảnh của câu truy vấn khử nhập nhằng tất cả các bản dịch bất chấp là bản dịch đó có nằm trong ngữ hay không. L.Ballesteros cũng đã thực hiện so sánh hai phương pháp này với hệ thống dịch máy SYSTRAN. Sử dụng cơ sở ban đầu là việc dịch từng từ (word by word), bảng 2.1 so sánh hiệu quả của CO, PLC với hai hệ thống dịch máy. Hệ thống đầu tiên là hệ thống tìm kiếm web T1 và thứ hai là hệ thống SYSTRAN. Bảng này cũng cho thấy hiệu quả của tìm kiếm xuyên ngữ so với đơn ngữ. Bảng 2.2 Bảng so sánh kết quả CO và PLC với hai hệ thống dịch máy Phương pháp Độ chính xác % thay đổi % so với đơn ngữ Đơn ngữ 0.3869 - Word by word 0.2331 60 Ngữ liệu song song (PLC) 0.2551 9.4 65 Tần số đồng xuất hiện (CO) 0.3057 31.1 79 T1 0.3066 31.5 79 SYSTRAN 0.2584 10.8 67 Qua đó ta thấy việc sử dụng tần số đồng xuất hiện để khử nhập nhằng có thể đạt được những kết quả khả quan cho việc chuyển ngữ. Tuy nhiên, ta thấy việc tính 25 toán tần số đồng xuất hiện chỉ quan tâm đến mối liên hệ giữa các cặp từ một cách riêng lẻ chứ không phải trong tổng thể câu. Sau đây ta sẽ tìm hiểu về các mô hình thống kê được dùng để khai thác ngữ liệu song song nhằm phân tích sác xuất thống kê (như xác suất dịch, xác suất liên kết từ…) để phục vụ cho việc chuyển ngữ bằng phương pháp thống kê. 2.3 Mô hình thống kê 2.3.1 Giới thiệu Các tài liệu song ngữ mà máy tính có thể đọc được ngày càng phát triển dẫn đến việc phát triển các phương pháp khai thác thông tin ngôn ngữ từ những tài liệu này. Một ví dụ là trong những thập niên gần đây có nhiều nghiên cứu nhằm giải quyết vấn đề đạt được các liên kết ở mức câu một cách tự động từ ngữ liệu song song. Các nghiên cứu của Brown, Lai, va Mercer năm 1991; Gale va Church năm 1991; Brown et al. (1990)... đều cho thấy rằng có thể tạo ra được liên kết từng cặp câu ở hai ngôn ngữ mà không cần kiểm tra các từ trong từng câu. Có nhiều thuật toán khác nhau để thực hiện công việc đó như: thuật toán căn cứ vào số từ trong câu hoặc thuật toán căn cứ vào số tiếng của câu... Điểm chung của các thuật toán này đó là tất cả đều sử dụng phương pháp thống kê để đạt được mục tiêu về ngôn ngữ. Nghiên cứu của Borwn et al. đã đưa ra cách tiếp cận bằng thống kê để dịch từ tiếng Pháp sang tiếng Anh. Trong một vài nghiên cứu sau đó, họ đã phát triển thuật toán để ước lượng xác suất một từ tiếng Anh được dịch bởi một từ tiếng Pháp và đã sử dụng các xác suất này trong một mô hình dịch bằng thống kê để khai thác các liên kết của các từ trong một câu tiếng Anh và các từ trong một câu tiếng Pháp. Các cặp câu song song với các liên kết từ như vậy là nguồn tài nguyên có giá trị cho việc tạo từ điển song ngữ và dùng cho dịch máy. 2.3.2 Dịch bằng xác suất thống kê Vào năm 1949, Warren Weaver đã đưa ra đề nghị áp dụng thống kê nhằm giải quyết vấn đề sử dụng máy tính để dịch văn bản từ một ngôn ngữ này sang ngôn ngữ 26 khác. Những nỗ lực theo hướng này nhanh chóng bị gạt bỏ vì những lý do về mặt lý thuyết, nhưng vào thời điểm máy tính đạt được những phát triển mới thì những hướng đi như vậy lại trở nên cần thiết trong việc tính toán bằng máy tính. Ngày nay, nhiều người áp dụng những ứng dụng dùng phương pháp thống kê trong lĩnh vực dịch máy. Một câu tiếng Anh (bao gồm nhiều từ tiếng Anh), gọi là e, có thể được dịch sang một câu tiếng Pháp bằng rất nhiều cách. Trong việc dịch bằng xác suất thống kê, chúng ta giả sử rằng tất cả các câu tiếng Pháp, gọi là f, có khả năng là một bản dịch của e. Khi đó chúng ta gán cho mỗi cặp câu (e, f) một con số là Pr(f|e) mà chúng ta gọi nó là xác suất mà một nhà dịch thuật sẽ xem f như là một bản dịch của e. Chúng ta có thể đưa ra một ngữ cảnh xa hơn đó là một người bản xứ Pháp khi đưa ra một câu tiếng Pháp, anh ta sẽ nghĩ đến một câu tiếng Anh mà anh ta tự dịch trong đầu. Như vậy, khi đưa ra một câu tiếng Pháp f, công việc của hệ thống dịch của chúng ta là tìm một câu tiếng Anh e mà người Pháp nghĩ trong đầu khi đưa cho anh ta f. Chúng ta sẽ làm nhỏ cơ hội dịch lỗi bằng việc chọn từ tiếng Anh ê mà Pr(e|f) là lớn nhất. Sử dụng luật Bayes ta có thể viết : Pr(e|f) = Pr(e)Pr(f|e)/Pr(f) Do mẫu số ở đây không phụ thuộc vào e nên việc tìm ê đồng nghĩa với việc tìm e để tích Pr(e)Pr(f|e) lớn nhất có thể. Vì vậy ta có thể viết: ê = argmaxe Pr(e)Pr(f|e) Chúng ta có thể hình dung ra cách một người dịch một câu từ tiếng Pháp sang tiếng Anh, họ sẽ duyệt một danh sách tất cả các câu tiếng Anh để tính xác xuất xuất hiện của câu tiếng Anh đó, đây chính là Pr(e), và tính xác xuất điều kiện để một câu tiếng Pháp là bản dịch của một câu tiếng Anh, đây chính là Pr(f|e). Từ một góc nhìn khác, ta có thể xem Pr(f|e) như là một bảng khổng lồ chứa những con số từ 0 đến 1 của mỗi cặp câu tiếng Pháp và tiếng Anh có thể. Bằng việc lựa chọn từ sự phân bố này, ta có thể có được bản dịch có chất lượng cao. Tuy nhiên việc làm sao có thể thiết lập được Pr(f|e) bằng việc khai thác từng cặp câu 27 Pháp và Anh cũng là một vấn đề cần quan tâm vì trong ngữ liệu song song có quá nhiều cặp câu là bản dịch của nhau. Công thức trên đặt ra ba vấn đề khó khăn cho việc thực hiện dịch bằng xác suất thống kê: tính xác suất mô hình ngôn ngữ Pr(e), tính xác suất mô hình dịch Pr(f|e) và cách để đạt được hiệu quả khi tìm kiếm câu tiếng Anh e thỏa điều kiện đạt được giá trị lớn nhất Pr(e)Pr(f|e). Chúng ta gọi các vấn đề này lần lượt là: vấn đề về mô hình ngôn ngữ, vấn đề về mô hình dịch và vấn đề tìm kiếm. Ở đây có một câu hỏi được đặt ra đó là tại sao chúng ta cần tính hai xác suất Pr(e) và Pr(f|e) thay vì tính xác suất Pr(e|f) trực tiếp. Chúng ta có thể hình dung ra khi chúng ta dịch một câu tiếng Pháp sang tiếng Anh, chúng ta sẽ nghĩ trong đầu một câu phổ biến tiếng Pháp và chọn một câu phổ biến tiếng Anh với hy vọng lựa chọn đó là tốt. Vì vậy Pr(e|f) sẽ tập trung xác suất của nó càng nhiều càng tốt vào những từ phổ biến của tiếng Anh. Nhưng điều này thì không quan trọng với mô hình Pr(f|e) bởi vì mô hình này chỉ tập trung xác suất vào những câu phổ biến tiếng Pháp. Và cho dù chúng ta trải rộng xác suất sang các câu không phổ biến tiếng Pháp thì kết quả dịch của chúng ta vẫn không thay đổi vì kết quả dịch phụ thuộc sự lớn nhất của giá trị Pr(e)Pr(f|e). Nếu ta sử dụng mô hình Pr(e|f) trực tiếp kết quả là mô hình sẽ chỉ tập trung vào các câu phổ biến tiếng Anh mà thôi và như vậy kết quả dịch đôi khi sẽ thiếu hoặc không chính xác. Sử dụng công thức argmaxePr(e)Pr(f|e) chúng ta sẽ có hai yếu tố. Đó là xác suất mô hình dịch lớn cho các từ tiếng Anh, cho dù từ đó là phổ biến hay không, mà có thể giải thích được ý nghĩa của tiếng Pháp. Và yếu tố thứ hai đó là xác suất mô hình ngôn ngữ lớn chỉ với những từ tiếng Anh có định dạng đúng (phổ biến và đúng ngữ pháp) có liên quan trực tiếp đến từ tiếng Pháp. Ở đây chúng ta có thể hình dung quá trình dịch sẽ bao gốm các bước như sau: đầu tiên chúng ta sẽ lựa chọn tất cả các chuỗi từ tiếng Anh có thể mà giải nghĩa được các từ tiếng Pháp (đây chính là mô hình dịch), và sau đó chúng ta sẽ lựa chọn lại từ tiếng Anh nào hợp lý, đúng ngữ pháp nhất làm bản dịch của từ tiếng Pháp (đây là mô hình ngôn ngữ). 28 2.3.3 Mô hình ngôn ngữ Mô hình ngôn ngữ dùng để xác định một câu tiếng Anh e xuất hiện như thế nào. Chúng ta dùng xác suất Pr(e) để xác định việc xuất hiện của e là nhiều hay ít. Chúng ta có thể hình dung việc tính giá trị của Pr(e) như sau: đó là số lần e xuất hiện trong một tập hợp văn bản tiếng Anh cho trước. Tuy nhiên, có một vấn đề lớn trong việc tính Pr(e), đó là sẽ có nhiều câu tiếng Anh có xác suất Pr(e) bằng không vì e không xuất hiên trong tập hợp văn bản tiếng Anh. Việc có được một tập hợp văn bản tiếng Anh đầy đủ mọi trường hợp là một việc hầu như không thể đạt được đối với một ngôn ngữ. Để giải quyết vấn đề này ta có thể xem một câu tiếng Anh gồm nhiều phần khác nhau và việc hình thành câu là do các phần này được kết hợp lại với nhau. Nếu các thành phần này là tốt và chúng kết hợp được với nhau theo một cách nào đó thì chúng ta có thể xem đó là một câu tiếng Anh. Đối với câu thì các thành phần chính là các chuỗi con của câu. Giả sử cho một chuỗi e1e2…en, không mất tính tổng quát ta có thể viết như sau: Pr(e1e2…en) = Pr(e1)Pr(e2|e1)…Pr(en| e1e2…en-1) Do đó ta có thể giải quyết vấn đề của mô hình ngôn ngữ bằng cách tính xác suất của từng từ đơn dựa trên các từ trước nó trong câu. Tại bất kỳ vị trí nào trong câu ta phải xác định xác suất của từ ej từ những từ trước đó e1e2…ej-1. Việc xác định xác suất như vậy có thể dùng mô hình n-gram. Việc xác định xác suất của câu sẽ được xác định bằng xác suất mà một từ sẽ xuất hiện tiếp theo các từ trước đó như thế nào. 2.3.4 Liên kết từ Chúng ta gọi một cặp từ mà từ này được dịch từ từ kia là một bản dịch. Brown et al. đã giới thiệu ý tưởng liên kết từ giữa một cặp câu đó là một từ tiếng Pháp sẽ được nối với một từ tiếng Anh thông qua một đường nối. Các liên kết từ được thể hiện thông qua hình vẽ là đường nối giữa các từ tiếng Anh đến các từ tiếng Pháp mà chúng ta gọi là các liên kết. 29 Hình 2.1 Minh họa liên kết từ Các kết nối như hình tạo ra 7 đường liên kết: (The, Les), (proposal, propositions)... Như chúng ta thấy ở đây, một từ tiếng Pháp có thể kết nối với một từ tiếng Anh hay nhiều từ tiếng Pháp có thể kết nối với một từ tiếng Anh và ngược lại một từ tiếng Pháp cũng có thể kết nối với nhiều từ tiếng Anh, ngoài ra cũng có thể có từ không liên kết với từ nào. Với định nghĩa liên kết như vậy thì với một câu tiếng Pháp có m từ và một câu tiếng Anh có l từ thì các liên kết có thể tạo được sẽ có 2lm cách, vậy ta sẽ có tất cả 2lm liên kết. Chúng ta có thể chọn ra một liên kết được xem là tốt nhất trong số liên kết này và khi đó ta sẽ có được cách dịch của một từ tiếng Pháp sang tiếng Anh. 2.3.5 Mô hình dịch Như đã trình bày ở trên việc sử dụng xác suất thống kê để dịch ta sẽ sử dụng mô hình dịch để tìm ra các bản dịch có thể và sau đó dùng mô hình ngôn ngữ để chọn ra bản dịch tốt nhất. Mô hình ngôn ngữ Pr(e) có thể giải quyết bằng cách tính xác suất xuất hiện của e trong tập các tài liệu cùng ngôn ngữ với e. Việc tính xác suất này như đã trình bày ở trên có thể thực hiện được khá dễ dàng, do đó ở đây chúng ta chỉ quan tâm đến mô hình dịch Pr(f|e). Giả sử một câu tiếng Pháp f được dịch từ câu tiếng Anh e thì giữa chúng sẽ có một liên kết từ được xác định. Như trong ví dụ trên ta có thể mô tả liên kết từ giữa hai câu tiếng Pháp và tiếng Anh bằng một vector như sau (1, 2, 4, 3, 4, 7, 7, 7, 5) 30 với các con số là vị trí của từ trong câu tiếng Anh. Như vậy có thể nói một cặp câu f và e là bản dịch của nhau sẽ xác định một liên kết từ (gọi là a) có thể giữa chúng. Việc hình thành một câu tiếng Pháp từ một câu tiếng Anh có thể được tạo ra bằng nhiều cách liên kết từ khác nhau, như vậy ta có thể viết : Không mất tính tổng quát ta có thể giả sử, chuỗi tiếng Anh e bao gồm l từ và có thể biểu diễn như sau: e = e1e2…el, chuỗi tiếng Pháp f bao gồm m từ và được biểu diễn như sau: f = f1f2…fm. Như vậy liên kết từ a có thể được biểu diễn như sau: a = a1a2…am với mỗi aj có giá trị từ 0 đến l. Ví dụ, vị trí j trong câu tiếng Pháp liên kết với với vị trí I của câu tiếng Anh thì ta có aj = i, còn nếu không liên kết với từ tiếng Anh nào thì aj = 0. Ta có thể viết: Chúng ta có thể diển giải công thức trên như sau: khi ta tạo ra một câu tiếng Pháp cùng với một liên kết từ từ một câu tiếng Anh ta thực hiện như sau: đầu tiên ta có thể chọn chiều dài của câu tiếng Pháp. Sau đó ta chọn vị trí mà từ đầu tiên trong câu tiếng Pháp liên kết đến dựa trên thông tin về câu tiếng Anh và chiều dài câu tiếng Pháp), tiếp theo ta sẽ chọn ứng viên cho từ đầu tiên trong câu tiếng Pháp dựa trên câu tiếng Anh, chiều dài câu tiếng Pháp, vị trí trong câu tiếng Anh mà từ tiếng Pháp liên kết đến. Tiếp tục ta duyệt từng vị trí tiếp theo trong câu tiếng Pháp và thực hiện việc lựa chọn như trên dựa vào câu tiếng Anh và các sự lựa chọn trước đó như việc lựa chọn từ tiếng Pháp và liên kết của nó. Có nhiều loại mô hình dịch khác nhau, mỗi loại có những thuật toán và cách thức riêng để tính xác suất điều kiện Pr(f|e), ta gọi đó là các hàm gần đúng của cặp bản dịch (f, e). Hàm này có một số lượng lớn tham số tự do mà chúng ta phải ước lượng chúng thông qua một quá trình mà ta gọi là huấn luyện. 31 2.3.5.1 Mô hình IBM 1 Trong mô hình IBM 1, ta giả sử rằng Pr(m|e) không phụ thuộc e và m; và xác suất Pr(aj|a1j-1, f1j-1, m, e) chỉ phụ thuộc vào chiều dài l của câu tiếng Anh; và xác suất Pr(fj| a1j, f1j-1, m, e) chỉ phụ thuộc vào fj và eaj. Đặt  = Pr(m|e) và t(fj| eaj) = Pr(fj| a1j, f1j-1, m, e) (gọi là xác suất dịch) và ta có Pr(aj|a1j-1, f1j-1, m, e) = (l + 1)-1 do chỉ phụ thuộc vào l. Do đó ta có: Các liên kết từ được xác định bởi giá trị của aj với j từ 1 đến m, và mỗi aj có thể có giá trị từ 0 đến l. Do đó ta có thể viết: Ta thấy với việc xác định xác suất dịch t ta có thể xác định xác suất Pr(f|e) thông qua các liên kết từ a. Mặt khác, nếu các liên kết từ a là xác định ta có thể tính ra xác suất dịch t(fj|eaj) một cách dễ dàng. Và với việc bắt đầu với một ngữ liệu song song với các cặp câu được sắp xếp theo thứ tự là bản dịch của nhau thì ta chưa thể xác định được đâu là liên kết từ tốt nhất giữa hai câu tiếng Anh và tiếng Pháp, cũng như chưa thể xác định được xác suất dịch của từ tiếng Pháp và tiếng Anh. Do đó mô hình IBM 1 thực hiện như sau khởi tạo giá trị cho xác suất dịch t (tất cả các xác suất là bằng nhau), thực hiện tính xác suất các liên kết từ từ t, sau đó thực hiện việc tính lại các giá trị t này. Sau một số bước lặp như vậy ta sẽ có các giá trị xác suất dịch hội tụ. Và khi đó ta có thể sử dụng các giá trị này để xác định đâu là bản dịch của một câu tiếng Pháp. Một từ được xem là phù hợp hơn từ kia khi xác suất dịch của nó cao hơn. Ví dụ khi ta thấy một từ tiếng Pháp f3 có thể liên kết với từ tiếng Anh e2 và e5 mà t(f3|e2) > t(f3|e5) thì ta có thể kết luận e5 là phù hợp hơn và liên kết giữa f3 và e5 tốt hơn liên kết giữa f3 và e2. Tuy nhiên do chỉ sử dụng xác suất dịch nên vẫn có thể có các bản dịch sai, vì nếu tất cả các từ trong câu tiếng Pháp đều có xu hướng liên kết với e5 32 (xác suất dịch với e5 cao hơn các ei khác) khi đó ta sẽ có một liên kết không tốt và việc này sẽ ảnh hưởng đến kết quả dịch. 2.3.5.2 Mô hình IBM 2 Để giải quyết những vấn đề của mô hình IBM 1, mô hình IBM 2 đưa ra thêm một giả thiết bên cạnh các giả thiết của mô hình IBM 2, đó là Pr(aj|a1j-1, f1j-1, m, e) phụ thuộc vào j, aj, và m bên cạnh việc phụ thuộc vào l. Ta đặt: a(aj|j, m, l) = Pr(aj|a1j-1, f1j-1, m, e) và gọi nó là xác suất liên kết với điều kiện như sau: Vì vậy ta có thể viết: Từ công thức trên ta có thể thấy mô hình IBM 1 là một trường hợp đặc biệt của mô hình IBM 2 với a(aj|j, m, l) = (l + 1)-1. Do đó các tham số của mô hình IBM 1 có thể sử dụng được cho mô hình IBM 2, ở đây cụ thể là xác suất dịch t. Ta cũng có thể thấy mô hình IBM 2 chỉ quan tâm đến xác suất dịch của từng từ và vị trí của từ trong câu dịch mà thôi. Tuy nhiên, khi dịch một câu tiếng Pháp sang tiếng Anh ta có thể thấy có một số trường hợp một cụm từ tiếng Pháp sẽ được dịch thành một từ tiếng Anh duy nhất hay một từ tiếng Pháp khi dịch sang tiếng Anh sẽ bị bỏ đi. Những trường hợp này không được xét đến trong mô hình IBM 2. 2.3.5.3 Mô hình IBM 3 Mô hình IBM 3 sử dụng thêm một tham số nhằm khắc phục những khiếm khuyết của mô hình IBM 2, đó là xác suất cụm từ (fertility probability) n(i|ei). Ngoài ra xác suất liên kết trong mô hình IBM 2 cũng được thay đổi thành xác suất đảo từ d(j|aj, l, m). Ta có công thức như sau: ),,|(*)|(*)|()|Pr(e)|Pr(f 111 mlajjdtnef m j aj m j ji a l i i a efe     33 Ta nhận thấy xác suấ đảo từ của mô hình IBM 3 cũng có liên quan đến xác suất liên kết trong mô hình IBM 2 do đó ta có thể sử dụng các kết quả từ mô hình IBM 2 để làm tham số cho mô hình IBM 3. Việc sử dụng lại như vậy có thể tận dụng được các kết quả của mô hình trước. Và sau một quá trình lặp từ mô hình IBM 1 để có các tham số cho mô hình IBM 2 và tiếp tục lặp mô hình 2 để tạo các tham số cho mô hình 3 và cuối cùng là quá trình lặp của mô hình 3 ta sẽ có được các giá trị hội tụ cho các tham số như t, a, n, d. Khi đó ta có thể khai thác giá trị các tham số này để hỗ trợ cho việc dịch được tốt hơn. 2.4 Kết luận Như đã trình bày ở trên ta có thể thấy để chuyển ngữ ta có nhiều cách như dùng từ điển để dịch và dùng các biện pháp khác nhau để khử nhập nhằng hoặc có thể dùng các mô hình thống kê để dịch. Đối với phương pháp dịch bằng xác suất thống kê ta cần phải có ngữ liệu song song tương đối lớn để có thể bao phủ đầy đủ các trường hợp cần dịch. Do đó việc sử dụng từ điển để dịch có nhiều thuận lợi hơn do càng ngày càng có nhiều từ điển được cung cấp đặc biệt là cho ngôn ngữ tiếng Việt. Tuy nhiên việc dùng từ điển để dịch vẫn gặp phải khó khăn đó là việc nhập nhằng giữa các bản dịch. Như đã trình bày trong phần trước ta thấy khi dùng phương pháp tính tần số đồng xuất hiện của từ để khử nhập nhằng ta có thể đạt được kết quả khả quan cho việc dịch. Tuy nhiên việc sử dụng tần số đồng xuất hiện chỉ khai thác mức độ liên hệ giữa từng cặp từ mà thôi. Trong khi đó các mô hình dịch cho thấy chúng khai thác các mức độ chi tiết hơn như liên hệ giữa các từ thậm chí cụm từ (liên kết từ) cũng như vị trí của các từ trong câu, do đó nếu sử dụng các thông tin này cho việc khử nhập nhằng thì độ chính xác đạt được sẽ cao hơn. Vì thế, luận văn xây dựng mô hình như sau:  Phương pháp chuyển ngữ: dựa vào từ điển MRD.  Khử nhập nhằng: sử dụng kết quả của mô hình dịch bằng xác suất thông kê IBM (đã trình bày ở trên) để chọn ra trong các bản dịch được dịch từ từ điển bản dịch nào có xác suất dịch cao nhất.

Các file đính kèm theo tài liệu này:

5_2.pdf
0_2.pdf
1_2.pdf
2_2.pdf
3.pdf
4.pdf
6_4.pdf
7.pdf
8.pdf
9.pdf