Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy

TÓM TT Bài báo này xut mt mô hình nhn bit và rút trích tng cm danh t song ng t ng liu song ng Anh-Vit bng các công c ni ting nh GIZA++ -2003 [10] và GATE – 2005 [1]. Bài báo cng trình bày phơng pháp ci thin cht lng i sánh t trong bc tin x lý bng cách chuyn i cu trúc câu ngun theo trt t ca câu ích rút trích cm danh t song ng, xut phơng pháp xây dng bng t và cm t song ng t ng liu song ng vi các nét ng ngha, xác sut xut hin và lut chuyn i [8]. Ngoài ra, các thành phn cơ bn ca mt h thng dch máy trên cơ s cm t cng c trình bày trong bài báo này. Thc nghim ban u cho kt qu kh quan. ABSTRACT This paper proposes the method Extracting English – Vietnamese Noun Phrases automatically which is building from Bilingual Corpus by well-known tools as GIZA++ - 2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the quality of word alignment in the pre-processing phase of Machine Translation by transferring sentence structures from the source language to target language and then using heuristics to extract noun phases. It also proposes the method of building the Phase and Word tables from Bilingual Corpus including semantics, probability and transfer rules [8]. The other components of the English – Vietnamese machine translation also are described in this paper. The result of the experiment was satisfactory.

14 trang | Chia sẻ: banmai | Lượt xem: 2103 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG DỊCH MÁY TS. Nguyễn Chí Hiếu Khoa CN Thông tin – Trường ĐH Công nghiệp Tp. HCM TÓM TẮT Bài báo này đề xuất một mô hình nhận biết và rút trích tự động cụm danh từ song ngữ từ ngữ liệu song ngữ Anh-Việt bằng các công cụ nổi tiếng như GIZA++ -2003 [10] và GATE – 2005 [1]. Bài báo cũng trình bày phương pháp cải thiện chất lượng đối sánh từ trong bước tiền xử lý bằng cách chuyển đổi cấu trúc câu nguồn theo trật tự của câu đích để rút trích cụm danh từ song ngữ, đề xuất phương pháp xây dựng bảng từ và cụm từ song ngữ từ ngữ liệu song ngữ với các nét ngữ nghĩa, xác suất xuất hiện và luật chuyển đổi [8]. Ngoài ra, các thành phần cơ bản của một hệ thống dịch máy trên cơ sở cụm từ cũng được trình bày trong bài báo này. Thực nghiệm ban đầu cho kết quả khả quan. ABSTRACT This paper proposes the method Extracting English – Vietnamese Noun Phrases automatically which is building from Bilingual Corpus by well-known tools as GIZA++ - 2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the quality of word alignment in the pre-processing phase of Machine Translation by transferring sentence structures from the source language to target language and then using heuristics to extract noun phases. It also proposes the method of building the Phase and Word tables from Bilingual Corpus including semantics, probability and transfer rules [8]. The other components of the English – Vietnamese machine translation also are described in this paper. The result of the experiment was satisfactory. MỘT SỐ TỪ VIẾT TẮT NLP: Natural Language Processing MT: Machine Translation RBMT: Rule Based Machine Translation EBMT: Example Based Machine Translation SMT: Statistical Machine Translation PBMT: Phrase Based Machine Translation 1. GIỚI THIỆU Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong những ứng dụng chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được nghiên cứu và phát triển hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu. Ở Việt nam, dịch máy đã được nghiên cứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch còn nhiều hạn chế [5]. Hiện nay, dịch máy được phân chia thành một số phương pháp như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở ví dụ [18]. Do những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn tài nguyên, nên các phương pháp dịch máy hiện hữu thường gặp trở ngại khi áp dụng vào cặp ngôn ngữ Anh – Việt. Phương pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp, ngữ nghĩa và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa, ngữ dụng,... Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong đợi. Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho cặp Anh – Việt và kết quả nghiên cứu của N.P.Thai [20] cũng hết sức khiêm tốn. Do sự khác biệt khá lớn về cấu trúc cú pháp của câu và nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng đến chất lượng đối sánh từ Anh – Việt, mà kết quả của đối sánh từ lại quyết định đến chất lượng dịch. Hiện nay, đối sánh từ cho cặp Anh – Trung [17] chỉ đạt được độ chính xác 50% - 60%. Kết quả này có thể tương tự khi áp dụng đối sánh từ cho cặp tiếng Anh – Việt [20]. Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay còn gọi là câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ. Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn để xây dựng cơ sở dữ liệu cho mẫu câu ví dụ. Sự khác biệt từ sẽ được xác định thông qua từ điển phân lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác định cặp cây cú pháp của câu nguồn và câu đích. Một tiếp cận khác với phương pháp dịch máy trên cơ sở ví dụ là xây dựng ngân hàng mẫu câu ví dụ. Câu nguồn chỉ cần so trùng từng phần với mẫu câu ví dụ bằng các giải thuật phù hợp (có sử dụng từ đồng nghĩa trong từ điển phân lớp). Phương pháp này cần khá nhiều thời gian tìm kiếm, xử lý thông tin để so trùng mẫu. Độ chính xác của phương pháp phụ thuộc vào số mẫu được lưu trữ nhiều hay ít. Trong thực tế thật khó để có thể lưu trữ đầy đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ trong kho ngữ liệu là nhiều vô kể. Với hai ngôn ngữ khác biệt như tiếng Anh và tiếng Việt với nguồn tài nguyên khá nghèo nàn, thì việc xây dựng kho câu mẫu sẽ càng cần nhiều thời gian và tiền bạc và là công việc của nhiều nhà ngôn ngữ học thực hiện trong nhiều năm. Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự động trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu. Phương pháp dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các mô hình huấn luyện không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ. D.Marcu và W.Wong [7], Kenji Yamada và Kevin Knight [11], P.Koehn, F.J.Och, và D.Marcu, [15, 16] đã cho kết quả khả quan. Tuy nhiên các cụm từ trong các nghiên cứu này không thực sự là cụm từ của ngôn ngữ học. 2. CỤM DANH TỪ TIẾNG VIỆT Cụm từ tiếng Việt được nhiều nhà ngôn ngữ học trong và ngoài nước quan tâm nghiên cứu như Nguyễn Tài Cẩn [14], Hồ Lê [9], Nguyễn Kim Thản [13], Diệp Quang Ban [6] và gần đây nhất là luận văn tiến sĩ của Tuong Hung Nguyen [19]. 2.1 Những công trình nghiên cứu ở nước ngoài Shum biểu diễn cụm danh từ tiếng Việt cả ở dạng luật sinh và dạng cây như sau: Beatty đưa ra hai khả năng có thể có của cụm danh từ tiếng Việt được biểu diễn qua cấu trúc cây như sau: Tuy nhiên Beatty đã không xem xét đến các mạo từ (articles : một, những, các), và từ chỉ xuất cái (cái con mèo này – this cat). 2.2 Những công trình nghiên cứu trong nước Nguyễn Tài Cẩn cho rằng cụm danh từ (danh ngữ) gồm có ba phần: phần đầu, phần trung tâm và phần cuối như sơ đồ sau: Phần đầu Phần trung tâm Phần sau Ba Cả hai Tất cà những cái người tỉnh chủ trương này nhỏ ấy chính xác đó Nom → NP Mod NP → Nu N Dem NP → Pron NP → Npr Nu → PL CL Nu → Q CL Nu → Num CL N → N’ N” Trong đó: Nom: Chủ ngữ Mod: Bổ ngữ Nu: Số đếm Dem: Chỉ định từ Pron: Đại từ Npr: Danh từ riêng N: Danh từ N’: danh từ phân loại N”: danh từ không phân loại PL: Số nhiều Q: Lượng từ Nom NP Mod Nu N Dem PL Q Num CL Nom NP Mod Pron Npr Hình : Cấu trúc cụm danh từ tiếng Việt của Shum [19] (b) (a) NP Num NP CL N’ N’ Dem N AP NP Dem N’ AP Num N’ CL N NP Trong đó: AP: Cụm tính từ Hình 2: Cấu trúc cụm danh từ tiếng Việt của Beatty [19] (a) (b) Trong thực tế danh ngữ còn có thể xuất hiện cả dưới những dạng chỉ có hai phần: - Dạng chỉ có phần đầu và phần trung tâm, Phần đầu Phần trung tâm Ba bát - Dạng chỉ có phần trung tâm và phần sau, Phần trung tâm Phần sau bát này - Dạng chỉ có phần đầu và phần sau, Phần đầu Phần sau Ba tái Diệp Quang Ban đưa ra cấu tạo chung của cụm danh từ có ba phần là phần trung tâm, phần phụ trước và phần phụ sau. Phần trung tâm thường là một danh từ hoặc một ngữ danh từ. Trong phần phụ trước người ta đã xác định được ba vị trí khác nhau sắp xếp theo một trật tự nhất định. Ở phần phụ sau thường nhận được hai vị trí có trật tự ổn định. Phần phụ trước cụm danh từ thường dùng chỉ yếu tố số lượng của sự vật nêu ở trung tâm, phần phụ sau chủ yếu dùng chỉ yếu tố chất lượng của sự vật nêu ở thành phần trung tâm. Phần phụ trước (-1, -2, - 3) Phần trung tâm (0) Phần phụ sau (1, 2) Ví dụ 1: - vị trí 0 là vị trí của danh từ chính, - vị trí -1 là vị trí của từ chỉ xuất cái, - vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai…; vài, ba, dăm, dăm ba…; mỗi, từng, mọi..; những, các, một…; mấy, - vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ: tất cả, hết thảy, cả… - vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau như: danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng tạp chí, phòng đọc, phòng hẹp, phòng 14, phòng ngoài, phòng (của) chúng tôi, chuyến trước, - vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia… Tuong Hung Nguyen phát triển thêm những vấn đề mà Beatty chưa bàn đến và đưa ra cấu trúc tổng quát của cụm danh từ như hình 3. tất cả những cái con mèo đen ấy -3 -2 -1 0 1 2 Qua khảo sát các nghiên cứu về cụm danh từ tiếng Việt chúng ta thấy rằng: cho đến nay chưa có một định nghĩa chuẩn thống nhất về cách gọi của từ loại cũng như cấu trúc cụm danh từ tiếng Việt. Trong đặc tả của bài báo này chủ yếu dựa vào các phân tích của Tuong Hung Nguyen và Nguyễn Tài Cẩn. 3. DỊCH MÁY TRÊN CƠ SỞ CỤM TỪ Phương pháp dựa trên cơ sở từ có nhiều hạn chế. Do thiếu thông tin ngữ cảnh khi xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ cảnh. Ngữ nghĩa của từ khi dịch lại phụ thuộc vào các từ khác xuất hiện cùng với nó trong câu, ví dụ cụm từ “to kick the bucket” đồng nghĩa với “to die”, “around the clock” có nghĩa là “continuously” và “as a matter of fact” mang nghĩa “actually”. Đôi khi ngữ nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa một từ trong ngôn ngữ nguồn và ngược lại. Mô hình dịch song ngữ dựa trên cơ sở từ thì quá trình xác định nghĩa của câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp. Trong một số trường hợp người ta cần có thêm các thao tác phụ như chèn thêm từ hoặc xóa bớt từ. Thực tế các mô hình dịch theo từ không bảo đảm đúng nghĩa cho câu đích là do nó không có khả năng lưu chứa đủ các luật sinh cho tất cả các câu trong thực tế và các đặc tả chi tiết các hành vi ngữ nghĩa nhúng trong mỗi luật sinh của từng ngữ cảnh cụ thể. 3.1 Giải pháp DP D’ D Các DemP NumPi Dem’ Num’ CLP FocP NÀY this Mèo cat CL Num CLP CL’ NP ti CÁI con NumP Dem Ví dụ 2: Các CÁI con mèo Này These very cats Trong đó: DP: Determiner Phrase D: Determiner DemP: Demonstrative Phrase NumP: Numeral Phrase Num: Numeral CLP: Classifier Phrase CL: Classifier FocP: Focus NP: Noun Phrase Hình 3: Cấu trúc cụm danh từ tiếng Việt của Tuong Hung Nguyen Để khắc phục những hạn chế đã trình bày ở phần 1, bài báo đề xuất một phương pháp dịch máy mới với tên gọi là dịch máy dực trên cơ sở cụm từ (Phrase Based Machine Translation – PBMT). Phương pháp này được xây dựng trên cơ sở sử dụng hai phương pháp EBMT và SMT với những nét ngữ cảnh trong cơ sở tri thức. Ví dụ câu: Old men love classical music (Những người đàn ông già thích nhạc cổ điển). Hình 4: Phương pháp PBMT cho câu: Old men love classical music Qua hai ví dụ trên hình 4, chúng ta thấy rằng nếu các cụm danh từ (Noun Phrase – NP) song ngữ (như những cây con của các cây cú pháp) được lưu trữ trong kho ngữ liệu, nó sẽ giúp cho tốc độ dịch và chất lượng dịch máy được cải thiện đáng kể. Những cây con này được rút trích ra từ kho ngữ liệu (corpus) song ngữ Anh – Việt đã được huấn luyện trước. Độ chính xác của sản phẩm dịch phụ thuộc nhiều vào kho dữ liệu này và số lượng mẫu song ngữ mức cụm từ được rút trích được. Điều này có thể thực hiện được bằng phương pháp PBMT. Nếu NP được coi là một nút (mà không còn phải quan tâm các thành phần con của cây NP) thì hầu như trật tự từ và cụm từ khác trên cây cú pháp của hai ngôn ngữ hầu như không có sự thay đổi. Hình 5: Đối sánh một-nhiều Để rút trích cụm danh từ tiếng Việt tương ứng với cụm danh từ tiếng Anh trong cặp câu song ngữ thì vấn đề đối sánh từ có ảnh hưởng quyết định đến việc rút trích. Tuy nhiên trong thực tế ngôn ngữ luôn tồn tại một số vấn đề trong đối sánh. Ví dụ trên hình 5, từ “saw” ở vị trí thứ 2 trong câu tiếng Anh được đối sánh với hai từ trong tiếng Việt là từ “thấy” ở vị trí 4 và từ “quan sát” ở vị trí 10 trong tiếng Việt. Trong giải thuật đối sánh cụm danh từ cơ sở nguyên thủy của Yarowsky [2], độ chính xác của việc rút trích phụ thuộc vào độ chính xác của đối sánh từ, nhưng vấn đề tồn tại là trong quá trình đối sánh từ người ta luôn gặp phải vấn đề chồng chéo và xung đột, vấn đề “stopword”. Stopword là từ của ngôn ngữ nguồn không được dịch sang ngôn ngữ đích và ngược lại như ví dụ trên hình 9. Vấn đề biên trái và phải của cụm từ đối sánh cũng là một vấn đề như hình 6. Để giải quyết vấn đề này, bài báo thực hiện chuyển đổi trật tự từ câu tiếng Anh theo trật tự từ trong câu tiếng Việt trước khi đối sánh như ví dụ trên hình 7. Hình 6: Đối sánh từ Anh-Việt Trong thực tế ngôn ngữ, các mô hình đối sánh từ thống kê của Och và Ney [10], hay mô hình từ điển của Ker và Chang [12] áp dụng cho cặp Anh - Việt còn hạn chế [4]. Nguyên nhân của các hạn chế này là do sự khác biệt về ngữ hệ, ngữ cảnh, ngữ nghĩa của từ, từ đặc trưng,… Đối sánh điểm neo là một giải pháp cho bài toán này như ví dụ trên hình 7. Hình 7: Đối sánh điểm neo [Tôi1] thích2 [sáu3 cái áo dài4 Việt Nam5 đầu tiên6 của cô ta7] (a) (b) [I1] like2 [her3 first4 six5 Vietnamese6 dresses7] [I1] like2 [six3 dresses4 Vietnamese5 first6 her7 ] (c) [Tôi1] thích2 [sáu3 cái áo dài4 Việt Nam5 đầu tiên6 của cô ta7] (d) Trong quá trình dịch máy, việc thêm hay xóa từ trong câu được thực hiện trong quá trình kiểm tra ngữ nghĩa. Mô hình dịch dựa trên cơ sở từ thường cho độ chính xác rất hạn chế [5, 20]. Mô hình PBMT khắc phục hạn chế này bằng cách xác định ngữ nghĩa của cụm từ thay vì ngữ nghĩa của từ, xác định ngữ cảnh và luật chuyển đổi của câu dịch [8]. Mô hình PBMT bao gồm hai giai đoạn chính như mô tả trong mục 3.2. 3.2 Phương pháp dịch trên cơ sở cụm từ (PBMT) 3.2.1 Giai đoạn huấn luyện Trong những năm gần đây, nhiều nhà nghiên cứu quan tâm đến việc rút trích cụm danh từ song ngữ. Yarowsky [2] phát triển mô hình chiếu để thu nhận mã từ loại, cụm danh từ cơ sở, tên thực thể và phân tích hình vị của ngôn ngữ đích thông qua ngôn ngữ nguồn. E.Riloff [3] xây dựng hệ thống rút trích thông tin cho ngôn ngữ mới thông qua mô hình chiếu. Mô hình của chúng tôi thực hiện trên phương pháp của Yarowsky với một số cải thiện để khắc phục vấn đề chống chéo, xung đột trong mô hình của chiếu. • Các bước rút trích cụm danh từ: Bước 1: Phân tích câu nguồn để xác định các cụm từ, Bước 2: Gán nhãn mã từ loại (POS: Part-Of-Speech) câu nguồn. Bước 3: Sắp xếp lại trật tự từ của câu nguồn theo trật tự từ của câu đích. Bước 4: Đối sánh từ của câu nguồn sau khi đã được sắp xếp với câu đích. Bước 5: Viết lại luật sinh cho ngôn ngữ nguồn từ ngữ liệu đã đối sánh và gán nhãn. Bước 6: Rút trích cụm danh từ hoặc từ Anh – Việt tương ứng. • Giải thuật trích rút cụm danh từ: a) Xác định cụm danh từ (NP) đích qua đối sánh từ: Với mỗi một NP nguồn có vị trí từ j1 tới j2, thì NP đích tương ứng được xác định bởi imin và imax . Trong đó: imin = minj {i = a(j)} (từ nguồn ở vị trí j được đối sánh (align) với từ đích ở vị trí i) imax = maxj {i = a(j)} với j = j1 … j2 b) Mở rộng NP đích theo các quy tắc sau: b.1 Nếu từ thứ imin – 1 thuộc lớp từ phân loại CL (CL: Classifier) thì imin = imin – 1 b.2 Nếu từ thứ imin – 1 là từ “CÁI” thì imin = imin – 1 b.3 Nếu từ thứ imin – 1 thuộc lớp mạo từ Ar (Ar: Articles) thì imin = imin – 1, Ar = {một, những, các} một [- PL; - Definite] : tương ứng với cụm NP tiếng Anh là số ít và không xác định những [+PL; - Definite]: tương ứng với cụm NP tiếng Anh là số nhiều và không xác định các [+PL; + Definite]: tương ứng với cụm NP tiếng Anh là số nhiều và xác định Hình 8 : Mở rộng cụm danh từ theo từ đặc trưng Thay vì đối sánh (i) với (iii) bài báo đối sánh (ii) với (iii), ở ví dụ trên hình 8 (a) “CÁI2 con3” được lấy thêm tự động cho dù không được đối sánh, ở ví dụ trên hình 8 (b) “CÁC1 CÁI2 cuốn3” được lấy thêm nhờ các quy tắc b.1, b.2, và b.3. Do đó làm tăng thêm độ chính xác của đối sánh cụm danh từ. • Dữ liệu đầu vào là các cặp câu song ngữ Hình 9 : Giai đoạn huấn luyện • Kết quả của quá trình huấn luyện là các bảng: + Bảng cụm từ (Ps, Rs, Pt, Rt, C, Pr), + Bảng từ (Ws, Wt, POS, Pr). Trong đó: Ps: cụm từ nguồn Pt: cụm từ đích Rs: chuỗi luật sinh nguồn Rt: chuỗi luật sinh đích C: nét ngữ cảnh Anh Việt Gằn từ loại và phân đoạn câu tiếng Anh (fnTBL|TnT) Đối sánh từ trong cặp câu song ngữ (GIZA++) Ánh xạ Chuyển đổi Lọc Kho ngữ liệu cho dịch máy Rút trích luật sinh và tạo bảng cụm từ Hai1 CÁI2 con3 chó4 đen5 này6 (iii) These1 two2 black3 dogs4 (i) Two1 dogs2 black3 these4 (ii) (a) Books1 yellow2 these3 (ii) CÁC1 CÁI2 cuốn3 sách4 vàng5 này6 (iii) These1 yellow2 books3 (i) (b) Pr: xác suất Ws: từ nguồn Wt: từ đích POS: từ loại • Các bước thực hiện: Gắn nhãn từ loại cho câu tiếng Anh. Phân tích cú pháp và phân đoạn câu tiếng Anh. Đối sánh từ. Tạo bảng cụm từ và bảng từ. 3.2.2 Giai đoạn áp dụng Có thể mô tả mô hình dịch đơn giản như sau: đầu tiên câu nhập ở ngôn ngữ nguồn được gán nhãn từ loại và phân tích cú pháp (giống như cách phân tích để rút ra các cụm từ). Tiếp theo hệ thống tìm các cụm từ này trong bảng từ để thay thế bằng cụm từ tương ứng ở ngôn ngữ xuất. Các từ không thuộc bảng cụm từ thì tìm trên bảng từ. Sau đó thêm một số thao tác chèn và sắp xếp lại nếu cần theo các quy tắc đã xác định trước. Giải thuật: Mô hình dịch đơn giản trên cơ sở cụm từ Anh – Việt Nhập: câu tiếng Anh (mà thông tin đã có trong bảng cụm từ hoặc bảng từ). Xuất: câu tiếng Việt đã được dịch. Phương pháp: − Gắn nhãn từ loại cho các từ của câu nhập − Phân tích cú pháp và phân đoạn câu nhập − Tìm cụm từ tương ứng trong bảng cụm từ, nếu so trùng cụm từ thì lấy ra cụm từ tiếng Việt tương ứng. Trong trường hợp không tìm được cụm từ tương ứng thì tìm từ trong bảng từ và lấy từ tiếng Việt tương ứng. Nếu không tìm thấy thì báo lỗi. − Sắp xếp lại câu dịch cho phù hợp với cấu trúc cú pháp của câu tiếng Việt Câu tiếng Anh Gắn từ loại, phân tích cú pháp và phân đoạn câu Câu tiếng Anh đã phân tích Kho ngữ liệu cho dịch máy Hình 10 : Giai đoạn ứng dụng 4. KẾT QUẢ THỰC NGHIỆM 4.1 Tiêu chuẩn đánh giá Bài báo này sử dụng tiêu chuẩn đánh giá của Och và Ney năm 2003 [8] trong đối sánh từ (WA: Word-Alignment). Och và Ney đưa ra ba tiêu chuẩn để đánh giá chất lượng WA là Recall, Precision và AER (Alignment Error Rate) theo các công thức sau: Recall = Precision = AER(S,P,A) = 1 - Trong đó: A = {(j, aj) | aj >0} S : Đối sánh chắc chắn cho các trường hợp đối sánh không nhập nhằng, P : Có khả năng đối sánh, Tập các cặp câu lấy để đối sánh bằng tay được lấy ngẫu nhiên từ ngữ liệu huấn luyện. Để khách quan sẽ có hai người đánh giá với các kết quả tương ứng là S1, S2, P1, P2 và kết quả tổng hợp S và P được tính theo công thức: P = P1 ∪ P2 và S = S1 ∩ S2 4.2 Kết quả Bài báo sử dụng bộ ngữ liệu bao gồm bộ từ điển bách khoa - Heinemann, 2003 (The Fahasa/Heinemann Illustrated Encyclopedia), Penn Treebank và các câu chuyên song ngữ. Kết quả đối sánh từ bằng Giza++ Anh -Anh Anh - Viet Ngữ liệu Gốc đảo danh từ Gốc Phân đoạn từ Phân đoạn và đảo Ghi chú | A ∩ S | | S | | A ∩ P | | A | | A ∩ S | + |A ∩ P| | A | + | S | và tính từ 1 Penn Treebank, 8827 cặp câu 99,99% 99,1% - - - Tính trực tiếp 2 Encyclopedia, 6118 cặp câu - - 59,1% 68,3% 79,2% [10] 3 Story, 10014 cặp câu - - 54,5% 70,5% 84,7% [10] 5. KẾT LUẬN Sử dụng tri thức ngôn ngữ tiếng Việt để sắp xếp trật tự từ cho câu tiếng Anh theo trật tự từ của câu tiếng Việt trước khi đối sánh từ bằng Giza++ (như đã mô tả trong mục 3.2) cho kết quả rất khả quan. Việc sắp xếp trật tự từ trong câu tiếng Anh theo tiếng Việt không những đạt kết quả cao trong đối sánh từ, mà còn cho kết quả cao trong rút trích cụm danh từ song ngữ Anh-Việt. Tuy nhiên để có sự đánh giá chính xác hơn, mô hình đề xuất cần thực nghiệm trên bộ ngữ liệu lớn hơn với các ngữ cảnh khác nhau (khoảng 500.000 cặp câu). Công việc này là bước tiếp theo trong nghiên cứu của chúng tôi trong thời gian tới. Kết quả của nghiên cứu của bài báo cũng có thể ứng dụng cho các cặp ngôn ngữ khác, các nghiên cứu và các ứng dụng dựa trên ngữ liệu song ngữ như: - Ứng dụng trong bài toán rút trích cụm danh từ, cụm động từ, cụm giới từ,… - Xây dựng các ngữ liệu song ngữ mức cụm từ cho các mô hình dịch máy thống kê, ví dụ, các mô hình nhận biết tiếng nói,… 6. TÀI LIỆU THAM KHẢO [1] H.Cunningham, D.Maynard, K.Bontcheva and V.Tablan (2002), “GATE: A framework and graphical development environment for robust NLP tools and applications” Proceedings of The 40th Anniversary Meeting of the Association for Computational Linguistics. [2] David Yarowsky và Grace Ngai, (2001). “Inducing Multilingual POS Taggers and NP Bracketers via Robust Projection across Aligned Corpora”. Johns Hopkins University Baltimore, MD 21218, USA. [3] Ellen Riloff, Charles Schafer and David Yarowsky, “Inducing Information Extraction Systems for New Languages via Cross-Language Projection”, In Proceedings of the 19th International Conference on Computational Linguistics (COLING 2002) [4] D.Dien, H.Kiem, T.Ngan, X.Quang, Q.Hung, P.Hoi, V.Toan. (2002) “Word alignment in English – Vietnamese bilingual corpus”, Proceedings of EALPIIT’02, Hanoi, Vietnam, pp. 3-11. [5] Đinh Điền (2003), “Mô hình học luật chuyển đổi từ ngữ liệu song ngữ cho hệ dịch tự động Anh-Việt”, Luận án tiến sĩ, Đại học Quốc gia Tp.HCM. [6] Diệp Quang Ban, Ngữ Pháp Tiếng Việt, Nhà xuất bản giáo dục, 2004. [7] D.Marcu and W.Wong, 2002, “A phrase-based, joint probability model for statistical machine translation”. In Proc, Conf, on Empirical Methods for Natural Language Processing, pages 133-139, Philadelphia, PA, July. [8] Hieu Chi Nguyen, Tuoi Thi Phan, Dung Xuan Nguyen (2007), “Learning Transfer Rules of Base Noun Phrases from Bilingual Corpus”, Proceeding of The 10th International Oriental COCOSDA 2007 Conference -O-COCOSDA’07, pp.96- 101. [9] Hố Lê, Cú pháp tiếng Việt, Nhà xuất bản Khoa học xã hội Hà nội, 1992. [10] Franz Josef Och, Herman Ney, “A Systematic Comparision of Various Statistical Alignment Models”. Association for Computational Linguistics, 2003. [11] Kenji Yamada and Kevin Knight, “A Syntax-based Statistical Translation Model”, In Proc, of the 39th Annual Meeting of ACL, Nancy, France, 2001. [12] S.J.Ker and J.S.Chang (1997), “A Class-based Approach to Word Alignment”, Computational Linguistics, Vol 23, No.2, p.313-343. [13] Nguyễn Kim Thản, Nghiên cứu ngữ pháp tiếng Việt, NXB Giáo dục, 1997. [14] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà nội, 1999. [15] P.Koehn, F.J.Och, and D.Marcu. “Statistical phrase-based translation”. In Proc, of the Human Language Technology Conf. (HLT-NAACL), pp.127-133, Edmonton, Canada, May-June 2003. [16] Philipp Koehn, “Noun Phrase Translation”, Ph.D. dissertation, University of Southern California, 2003. [17] Rebecca Hwa, “Breaking the resource bottleneck for multilingual processing”. University of Endinburgh IGK Summer School September 6, 2004. [18] Ruslan Mitkov, Computational Linguistics, The Oxford University Press, First Published, 2003. [19] Tuong Hung Nguyen, “The structure of the Vietnamese Noun Phrase”, Ph.D. dissertation, Boston University Graduate School of Arts and Sciences, 2004. [20] N.P.Thai and A.Shimazu (2006), “Improving Phrase-Based SMT with Morpho- Syntactic Analysis and Transformation”, Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, pages 138-147, Cambridge, August.

Các file đính kèm theo tài liệu này:

15. ungdungxulyngonngutunhien_NCHieu.pdf