Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh - Việt dựa trên ngữ

SỬ DỤNG MÔ HÌNH XÁC SUẤT CHO BÀI TOÁN CHUYỂN ĐỔI TRẬT TỰ TỪ TRONG DỊCH MÁY THỐNG KÊ ANH - VIỆT DỰA TRÊN NGỮ NGUYỄN THỊ HỒNG NH UNG Trang nhan đề Lời cảm ơn Thông tin về luận văn thạc sĩ Trích yếu luận văn cao học Mục lục Danh sách các bảng Chương_1: Giới thiệu Chương_2: Tổng quan Chương_3: Mô hình của đề tài Chương 4: Thực nghiệm và đánh giá Chương_5: Kết luận Tài liệu trích dẫn Công trình đã công bố Phụ lục MỤC LỤC MỤC LỤC i DANH SÁCH CÁC BẢNG iii DANH SÁCH CÁC HÌNH iii DANH SÁCH CÁC TỪ VIẾT TẮT iii CHƯƠNG 1 : GIỚI THIỆU 3 1.1 Đặt vấn đề 3 1.2 Hướng tiếp cận của đề tài 3 1.3 Nội dung của luận văn 3 CHƯƠNG 2 : TỔNG QUAN 3 2.1 Dịch máy thống kê (Statistical Machine Translation - SMT) 3 2.1.1 Dịch máy thống kê dựa trên từ (Word-based SMT) 3 2.1.2 Dịch máy thống kê dựa trên ngữ (Phrase-based SMT) 3 2.1.3 Dịch máy thống kê dựa trên cú pháp (Syntax-based SMT) 3 2.2 Các hướng tiếp cận trong chuyển đổi trật tự từ 3 2.2.1 Chuyển đổi trật tự câu ngôn ngữ đích 3 2.2.2 Chuyển đổi trật tự câu ngôn ngữ nguồn 3 CHƯƠNG 3 : MÔ HÌNH CỦA ĐỀ TÀI 3 3.1 Mô hình chung của đề tài 3 3.2 Xây dựng tập luật chuyển đổi bằng tay 3 3.2.1 Luật chuyển đổi trong danh ngữ 3 3.2.2 Luật chuyển đổi trong động ngữ 3 3.2.3 Luật chuyển đổi trong tính ngữ 3 3.3 Luật chuyển đổi dựa trên cú pháp 3 3.4 Rút trích tự động luật chuyển đổi từ ngữ liệu song ngữ 3 3.4.1 Tri thức chuyển đổi 3 3.4.2 Áp dụng tri thức chuyển đổi 3 3.4.3 Tổng quát hóa tri thức chuyển đổi 3 CHƯƠNG 4 : THỰC NGHIỆM VÀ ĐÁNH GIÁ 3 4.1 Các đặc trưng của ngữ liệu 3 4.2 Các tiêu chuẩn đánh giá 3 4.2.1 BLUE (Bilingual Evaluation Understudy) 3 4.2.2 NIST 3 4.2.3 TER (Translation Error Rate) 3 4.3 Huấn luyện cho mô hình SMT 3 4.4 Các thí nghiệm 3 4.4.1 Chuyển đổi trật tự từ theo các luật cú pháp rút trích bằng tay 3 4.4.2 Chuyển đổi trật tự từ theo luật cú pháp rút trích tự động 3 4.4.3 Giảm gióng hàng từ chéo? 3 4.5 Đánh giá chung 3 CHƯƠNG 5 : KẾT LUẬN 3 TÀI LIỆU TRÍCH DẪN 3 CÔNG TRÌNH ĐÃ CÔNG BỐ 3 PHỤ LỤC 3 A. Danh sách các luật chuyển đổi được rút bằng tay 3 B. Một số luật chuyển đổi được rút tự động từ ngữ liệu I 3 C. Kết quả phân lớp trên ngữ liệu I 3 D. Kết quả dịch ngữ liệu I sau khi dùng mô hình xác suất để chuyển đổi trật tự từ 3

72 trang | Chia sẻ: maiphuongtl | Lượt xem: 1814 | Lượt tải: 4

Bạn đang xem trước 20 trang tài liệu Luận văn Sử dụng mô hình xác suất cho bài toán chuyển đổi trật tự từ trong dịch máy thống kê Anh - Việt dựa trên ngữ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Vế phải 1. NP JJ NN 2 1 2. NP NN RB 2 1 3. NP DT NN POS 3 2; 2 1 4. NP PRP$ NN 2 1 5. NP DT/this NN 2 1 6. VP MD RB VBN 2 1 7. ADJP RBR JJ 2 1 8. ADJP NN VBN 2 1 9. ADJP RB/much JJR 2 1 10. ADJP RBS RB VBN 3 2 Bảng 3.1 Ví dụ một vài luật chuyển đổi Chúng ta phải sử dụng luật chuyển đổi dạng này vì có rất nhiều ngoại lệ trong trật tự từ giữa tiếng Anh và tiếng Việt. Trong tập luật mà chúng tôi sử dụng, chỉ có một số trường hợp ngoại lệ được giải quyết (xem chi tiết ở phần 3.2). Hầu hết các luật trong bảng 3.1 đều chỉ có một bước chuyển đổi ở vế phải, ngoại trừ luật số 3. Nếu có một ngữ danh từ thỏa luật số 3, chúng ta phải chuyển đổi nút con số 3 và nút con số 2, kết quả là DT POS NN. Sau đó lại chuyển đổi nút số 1 và nút 2 của ngữ kết quả này. Ngữ danh từ sau khi áp dụng luật 3 sẽ có trật tự từ như sau: POS DT NN Lưu ý rằng, mỗi khi một nút trong cây cú pháp thay đổi vị trí thì các thành phần của nút đó cũng đi theo. Hình 3.2 minh họa điều này. Trước khi chuyển đổi Sau khi chuyển đổi Hình 3.2 Chuyển đổi trật tự nút kéo theo chuyển đổi trật tự từ Rút trích tự động luật chuyển đổi từ ngữ liệu song ngữ Có thể nhận thấy trong hướng tiếp cận rút trích luật bằng tay xác suất để áp dụng một luật chuyển đổi khi luật đó thỏa luôn luôn là 1, trong khi thực tế không phải vậy. Có những trường hợp thỏa luật như vị trí của các từ trong ngữ lại không thay đổi như trong luật đã nêu. Vậy giải quyết vấn đề này như thế nào? Hiện nay có nhiều cách để giải quyết và trong đề tài này chúng tôi dùng cách tích hợp thêm xác suất cho từng luật chuyển đổi với trật tự từ tương ứng. Khi một nút trong cây cú pháp thỏa luật, quyết định có chuyển đổi trật tự hay không sẽ phụ thuộc vào xác suất của luật đó cũng như các đặc trưng của nút đang được xét. Phương pháp mà chúng tôi sử dụng trong đề tài có cách tiếp cận khá giống với mô hình của nhóm tác giả Chi-Ho Li et.al [12]. Điểm khác duy nhất giữa 2 cách tiếp cận này là [12] sẽ phát sinh ra n ứng viên và chuyển n ứng viên cho bộ dịch SMT, sau đó ứng viên tốt nhất sẽ được lựa chọn dựa vào công thức của SMT; trong khi đó hướng tiếp cận của đề tài chỉ chọn 1 ứng viên tốt nhất để gửi cho bộ dịch SMT. Tri thức chuyển đổi Thay vì sử dụng trực tiếp các luật chuyển đổi được tạo bằng tay, chúng tôi sử dụng một dạng tri thức chuyển đổi mà có thể áp dụng trực tiếp cho từng nút trên cây cú pháp. Tri thức chuyển đổi phải là dạng tri thức cho phép tính toán khả năng áp dụng luật chuyển đổi trật tự cho các thành phần con của nút đang xét. Không mất tính tổng quát, ban đầu chúng ta sẽ xem xét trường hợp các nút nhị phân - chỉ có hai thành phần con. Xét nút N có hai thành phần con (nút nhị phân) là N1 và N2 với hai ngữ tương ứng với nó là p1 và p2. Mục tiêu của chúng ta là quyết định trật tự của p1 và p2 theo trật tự của câu ngôn ngữ đích, tạm đặt là T(p1) và T(p2). Việc ra quyết định này có thể học được từ ngữ liệu song ngữ dựa vào gióng hàng từ của các cặp câu. Nghĩa là cho trước một ngữ liệu song ngữ, một bộ phân tích cú pháp cho ngôn ngữ nguồn, và một công cụ gióng hàng từ, chúng ta có thể phát hiện các nút có hai con là các trường hợp ứng viên phục vụ cho việc học các tri thức chuyển đổi trật tự từ. Vấn đề tiếp theo cần giải quyết là từ những ứng viên trên chúng ta có thể rút ra được những tri thức nào? Trong giới hạn của đề tài này, có hai dạng tri thức được sử dụng: Luật chuyển đổi: Mỗi luật sẽ có hai xác suất khác nhau, đó là xác suất chuyển đổi trật tự từ (Pr(inverted)) và xác suất giữ nguyên trật tự từ (Pr(in-order)). Luật chuyển đổi Z có định dạng sau: Trong đó Z là loại ngữ (danh ngữ, tính ngữ, động ngữ), X, Y là hai nút con của Z. Xác suất chuyển đổi hay không chuyển đổi của luật sẽ được ước lượng bằng cách dùng phương pháp ước lượng độ tương đồng cực đại (Maximum Likelihood Estimation - MLE) Các đặc trưng: Sử dụng Maximum Entropy (ME) để phân lớp nhị phân cho các nút con, để biết nút con đó có được chuyển đổi hay không. Các đặc trưng để phân lớp được rút ra từ ngữ tiếng Anh chứa các node con đó. Ở đây chúng tôi sẽ sử dụng lại một số đặc trưng đã được dùng trong [12] là: nhãn nút cha của nút đang xét, nhãn của nút con trái nhất, nhãn của nút con phải nhất và các từ ngữ cảnh. Nhãn ở đây có thể là nhãn ngữ, hoặc là từ loại (POS). Từ ngữ cảnh là từ bên trái của ngữ bên trái và từ bên phải của ngữ bên phải. Việc rút trích luật chuyển đổi được thực hiện dựa vào kết quả gióng hàng từ của ngữ liệu song ngữ cùng với cây phân tích cú pháp của câu ngôn ngữ nguồn. Nếu trong gióng hàng từ của một cặp câu có xuất hiện gióng hàng từ chéo, thì gióng hàng từ chéo đó sẽ được xem xét là ứng viên của luật chuyển đổi, luật chuyển đổi lúc này xây dựng dựa trên từ loại của từ gây ra gióng hàng chéo đó. Do đề tài chỉ tập trung vào ba loại ngữ như đã nêu nên việc xem xét gióng hàng từ chéo cũng chỉ được xem xét trong nội bộ ba loại ngữ này. Chẳng hạn xét trường hợp (a) như ở hình 3.3, ngữ danh từ tiếng Anh với các nút con và từ loại tương ứng, có gióng hàng từ chéo từ tiếng Anh sang tiếng Việt. Như vậy tại nút này sẽ có một luật chuyển đổi được rút ra là: NP ® PRP$ NN. (a) Xét trong ngữ nhỏ nhất (b) Xét trong ngữ lồng nhau Hình 3.3 Ví dụ rút trích tự động luật chuyển đổi từ gióng hàng từ chéo. Để tận dụng tính tổng quát khi sử dụng luật cú pháp, ngoài việc rút trích tự động các luật trong phạm vi ngữ nhỏ nhất (như ví dụ trên), đề tài còn xét việc rút trích trong phạm vi các ngữ lồng nhau như trường hợp (b) ở hình 3.3. Trong trường hợp này ngữ NP cha sẽ được xem xét lá ứng viên của luật chuyển đổi, do có xuất hiện gióng hàng từ chéo giữa hai thành phần con của nó là ADJP và NNS. Vậy tại nút NP có một luật chuyển đổi được rút ra: NP ® ADJP NNS. Áp dụng tri thức chuyển đổi Sau khi rút ra các tri thức chuyển đổi, chúng ta sẽ áp dụng chúng cho các nút trên cây cú pháp của câu tiếng Anh. Ứng với mỗi luật chuyển đổi sẽ có nhiều trường hợp chuyển đổi khác nhau, vì vậy chúng ta cần có một cách nào đó để tính điểm cho từng trường hợp. Cách tính điểm mà chúng tôi sử dụng ở đây là dùng công thức ước lượng độ tương đồng cực đại (Maximum Likelihood Estimation) để tính xác suất xuất hiện của từng trường hợp so với các trường hợp còn lại. Ví dụ: xét luật NP ® NN NN, trong ngữ liệu thống kê được có 200 trường hợp sẽ chuyển đổi trật tự (dựa vào gióng hàng từ chéo) và 205 trường hợp giữ nguyên trật tự, vậy và Tại mỗi nút đang xét, trước hết cần kiểm tra xem nút đó có thỏa luật chuyển đổi nào được rút từ ngữ liệu hay không, nếu thỏa thì tiến hành rút trích đặc trưng tại nút đang xét (các đặc trưng này đã được trình bày trong phần trên). Khi đó, để xác định có chuyển đổi trật tự hay không luận văn sử dụng mô hình ME để phân lớp. Như vậy cần tính xác suất sau: Với r = {in-order, inverterd}, fi là các đặc trưng trong mô hình ME, là trọng số của các đặc trưng. Tổng quát hóa tri thức chuyển đổi Trong cả hai phần trên chúng ta xem xét trường hợp rút trích tri thức chuyển đổi và tính toán xác suất cho các nút nhị phân trong cây cú pháp. Chúng ta dễ dàng áp dụng lại các tri thức chuyển đối cũng như công thức tính xác suất cho các nút có số con nhiều hơn hai. Với trường hợp nút nhị phân chúng ta có hai cách chuyển đổi trật tự từ, trường hợp nút tam phân (có 3 con) sẽ có 6 cách chuyển đổi trật tự. Như vậy tổng quát lên, với nút n-phân, ta có n! cách chuyển đổi các nút con của nó. Mô hình ME cho các nút như thế này cũng tương tự như mô hình ME cho nút nhị phân, chỉ khác ở chỗ, sẽ có nhiều phân lớp hơn khi số nút con tăng lên. Vấn đề khó khăn duy nhất đó là khi số phân lớp tăng lên thì hiện tượng dữ liệu rải rác (sparse data) càng dễ xảy ra và dẫn đến những hậu quả xấu. Ảnh hưởng này sẽ được phân tích kĩ hơn trong chương tiếp theo. THỰC NGHIỆM VÀ ĐÁNH GIÁ Trong chương này chúng tôi sẽ trình bày chi tiết về các đặc trưng của ngữ liệu được dùng để huấn luyện và đánh giá, và các bước tiến hành huấn luyện cũng như các tiêu chuẩn được dùng để đánh giá hiệu quả của một hệ dịch máy. Các đặc trưng của ngữ liệu Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là ngữ liệu song ngữ Anh-Việt của nhóm VCL (Vietnamese Computation Linguistic) [5]. Ngữ liệu này bao gồm: hai tập ngữ liệu con là Cadasa (C) và IBM (I). Tuy cả C và I cùng chủ đề máy tính nhưng C được lấy từ một quyển sách nói về mạng máy tính, còn I là phần hướng dẫn sử dụng của IBM, nên không thể gộp chung hai ngữ liệu này. Ngoài ra đề tài còn sử dụng ngữ liệu D, là ngữ liệu được rút ra từ các cặp câu ví dụ trong từ điển Anh-Việt. Phần ngữ liệu tiếng Việt được tách từ bằng công cụ được công bố trong [6]. Bảng 4.1 cung cấp các thông tin về đặc trưng của ngữ liệu. Ngữ liệu Số cặp câu Chiều dài trung bình Số từ Số từ phân biệt Anh Việt Anh Việt Anh Việt C 8963 18.97 22.44 147380 221579 8866 4278 I 4997 16.41 15.56 74860 85368 2214 2464 D 60478 9.96 13.47 602515 814729 42485 16784 Bảng 4.1 Các đặc trưng của ngữ liệu Chúng tôi chia ngẫu nhiên ngữ liệu thành 10 phần, lấy 9 phần cho huấn luyện mô hình của SMT cũng như Maximum Entropy, 0.5 phần cho tập development, 0.5 còn lại dành cho kiểm chứng. Bảng 4.2 mô tả chi tiết hơn về các tập ngữ liệu này. Các tiêu chuẩn đánh giá Hiện nay có nhiều tiêu chuẩn khác nhau dùng trong việc đánh giá tự động hiệu quả của một hệ dịch máy. Dựa vào đặc điểm của các tiêu chuẩn này, chúng tôi tạm thời chia thành hai nhóm. Nhóm thứ nhất đo lường độ chính xác khi dịch, bao gồm các tiêu chuẩn NIST, BLEU. Nhóm thứ hai đo lường tỉ lệ lỗi trong quá trình dịch, bao gồm WER(Word Error Rate), PER (Position-independent Error Rate) và TER (Translation Error Rate). Trong đề tài của mình, chúng tôi sử dụng ba độ đo thông dụng nhất hiện nay là: BLEU, NIST và TER để đánh giá. Trong đó BLEU và NIST thuộc nhóm một, TER thuộc nhóm hai. C I D Anh Việt Anh Việt Anh Việt Training Số cặp câu 8061 4495 54431 Chiều dài trung bình 18.97 22.45 16.44 15.59 9.96 13.47 Số từ phân biệt 8866 5537 2161 2359 42485 16784 Developing Số cặp câu 454 250 3025 Chiều dài trung bình 18.53 21.95 16.15 15.40 9.34 13.20 Số từ phân biệt 1978 1619 764 721 11756 4638 Testing Số cặp câu 448 252 3025 Chiều dài trung bình 19.40 22.65 16.03 15.33 9.52 13.16 Số lượng phân biệt 1990 1639 744 691 11673 4782 Bảng 4.2 Thống kê các tập ngữ liệu training, developing và testing BLUE (Bilingual Evaluation Understudy) [17] Độ đo này đánh giá dựa trên độ chính xác của các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram. BLEU sẽ được tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu dịch tham chiếu (câu do người dịch). Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới. Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ thống dịch càng tốt. Tuy nhiên, cần lưu ý là ngoài hiệu quả dịch của chính hệ thống, điểm BLEU còn phụ thuộc vào số lượng câu dịch tham chiếu. Do đó sẽ khi so sánh hai hệ thống với nhau cần đảm bảo số lượng câu tham chiếu là như nhau. NIST [20] Độ đo này có cách đánh giá tương tự như BLEU nhưng nó dùng cách tính trung bình số học (arithmetic mean) nhằm tăng tính chính xác khi đánh giá. Ngoài ra đối với các n-gram có chứa nhiều thông tin thì NIST sẽ gán điểm cao hơn cho nó. Với độ đo này điểm của nó càng cao thì hệ dịch càng tốt. TER (Translation Error Rate) Cách đánh giá này được trình bày trong [7]. Tiêu chuẩn này sẽ đếm số bước cần thực hiện (thêm, xóa, thay đổi) để chuyển từ chuỗi dịch tự động sang chuỗi do người dịch (chuỗi tham chiếu). Khi đó tỉ lệ lỗi sẽ được tính theo công thức sau: Đây có thể xem là độ đo gần với cách đánh giá của con người nhất. Với độ đo này, tỉ lệ lỗi càng thấp thì hệ dịch càng tốt. Huấn luyện cho mô hình SMT Các công cụ và module cần thiết để huấn luyện cho SMT có thể xem tại địa chỉ . Với công cụ MOSES và GIZA++[9] chúng tôi đã huấn luyện mô hình SMT dựa trên ngữ (Phrase-based SMT) theo các bước và các thông số cụ thể như sau: Chuẩn bị dữ liệu Ngữ liệu song ngữ cần được chuyển sang định dạng phù hợp với công cụ gióng hàng từ GIZA++. Từ ngữ liệu, hai tập tin từ vựng của tiếng Anh và tiếng Việt sẽ được tạo, sau đó ngữ liệu song ngữ sẽ được chuyển sang định dạng số. GIZA Các gióng hàng từ được lấy từ tập giao kết quả sau khi chạy gióng hàng theo hai hướng, từ Anh sang Việt và từ Việt sang Anh. Ngoài ra một số gióng hàng cũng được lấy từ tập hợp của hai kết quả này. Gióng hàng từ Để rút trích ra kết quả gióng hàng từ cuối cùng dựa vào hai kết quả của GIZA++, cần phải sử dụng một số heuristic. Heuristic mặc định là grow-diag-final sẽ lấy kết quả từ tập giao và sau đó thêm vào một số điểm gióng hàng. Dịch các từ vựng Dựa vào kết quả gióng hàng từ ở trên, dùng phương pháp Maximum Likelihood để tạo thành một bảng dịch giữa các từ (lexical translation table). Rút trích ngữ Trong bước này, tất cả các cặp ngữ có khả năng là bản dịch của nhau được lưu trữ vào trong một tập tin lớn. Và chiều dài lớn nhất của ngữ trong bảng chứa các ngữ (phrase-table) là 5. Tính điểm các ngữ Mô hình chuyển đổi trật tự từ Tùy vào các thí nghiệm khác nhau, cấu hình của mô hình này sẽ khác nhau: Với hệ thống cơ sở (baseline system): dùng mô hình chuyển đổi trật tự từ dựa vào khoảng cách (distance-based re-ordering model). Đây cũng là cấu hình mặc định nếu chúng ta không chọn mô hình chuyển đổi trật tự nào khác. Với hệ thống MOSES: mô hình chuyển đổi trật tự từ dựa vào từ vựng (lexicalized re-ordering model) với lựa chọn msd-bidirectional-fe. Hệ thống có dùng luật chuyển đổi của đề tài: không sử dụng mô hình chuyển đổi nào hỗ trợ sẵn. Giai đoạn chuyển đổi trật tự từ sẽ được thực hiện trước khi huấn luyện SMT. Tạo mô hình ngôn ngữ Mô hình ngôn ngữ được tạo bằng cách dùng công cụ SRLIM ( Tối ưu hóa Để có được những trọng số tốt hơn đề tài tiến hành tối ưu hóa hiệu quả dịch trên tập phát triển (developing set) Các thí nghiệm Mục tiêu của các thí nghiệm trong phần này là so sánh chất lượng dịch của 3 hướng tiếp cận sau: Hệ dịch SMT chuẩn dùng cách chuyển đổi trật tự từ dựa trên khoảng cách. Công cụ MOSES dùng mô hình chuyển đổi dựa trên từ vựng. Hệ thống của chúng tôi dùng hai phương pháp chuyển đổi: dùng luật cú pháp tạo bằng tay Xem thêm danh sách các luật được rút bằng tay trong phụ lục A. và dùng cách áp dụng xác suất cho các luật chuyển đổi dựa trên cú pháp được rút trích từ ngữ liệu. Trong cả hai hướng tiếp cận mà chúng tôi cài đặt trong đề tài, đầu vào luôn là một câu tiếng Anh đã được phân tích cú pháp. Để có được kết quả này chúng tôi đã sử dụng công cụ phân tích cú pháp Stanford [17]. Chuyển đổi trật tự từ theo các luật cú pháp rút trích bằng tay Các kết quả trong phần thí nghiệm này đã được công bố trong bài báo tại Hội nghị PRICAI 2008 (xem phần công trình đã công bố.) Như đã trình bày ở trên, tập luật chuyển đổi rút trích bằng tay sẽ chỉ tập trung vào ba loại ngữ là danh ngữ (NP), động ngữ (VP) và tính ngữ (ADJP). Các luật được mô tả trong phần 3.2 sẽ được áp dụng cho cây cú pháp của câu tiếng Anh. Sau đó, câu đã chuyển đổi trật tự từ sẽ được chuyển cho hệ dịch SMT để huấn luyện, tối ưu tham số và kiểm chứng. Bảng 4.3, 4.4 và 4.5 là kết quả của hướng tiếp cận trên. Từ bảng kết quả này có thể rút ra nhận xét: khi dùng luật chuyển đổi bằng tay, hiệu quả dịch cao hơn hẳn hai hướng tiếp cận còn lại. Nó làm tăng điểm BLEU-4 lên 2.53% đối với ngữ liệu C và 3.24% đối với ngữ liệu I, và 1.64% đối với ngữ liệu I so với hệ dịch SMT chuẩn. Với điểm TER và NIST trong bảng 4.3, 4.4 và 4.5, mô hình của chúng tôi cũng cho kết quả cao hơn. Phương pháp BLEU NIST TER Cơ sở 50.09 9.14 43.30 Moses 51.47 9.23 41.71 Luật chuyển đổi 52.62 9.27 41.20 Bảng 4.3 Kết quả dịch của ngữ liệu C Phương pháp BLEU NIST TER Cơ sở 57.51 8.91 34.82 Moses 58.91 8.98 33.54 Luật chuyển đổi 60.75 9.09 32.17 Bảng 4.4 Kết quả dịch của ngữ liệu I Phương pháp BLEU NIST TER Cơ sở 25.47 6.35 66.09 Moses 25.35 6.39 65.14 Luật chuyển đổi 26.33 6.21 64.40 Bảng 4.5 Kết quả dịch của ngữ liệu D Xét tổng thể trên cả ba ngữ liệu, ngữ liệu D cho kết quả thấp nhất. Có thể lí giải hiện tượng này như sau: Ngữ liệu D được thu thập từ các ví dụ trong từ điển nên ngữ liệu bị phân tán không tập trung vào một lĩnh vực nhất định, một từ có thể có nhiều nghĩa khác nhau. Khi khảo sát các trường hợp dịch sai thì đa số các trường hợp là do từ không nằm trong ngữ liệu huấn luyện (unknown word) và một từ có nhiều nghĩa. Dưới đây là một vài ví dụ so sánh kết quả dịch thực sự của các hướng tiếp cận trên: Ví dụ 1: Câu tiếng Anh a search engine is a special web site that helps you find information on the internet Câu tham chiếu máy tìm_kiếm là một web_site đặc_biệt giúp bạn tìm_kiếm thông_tin trên internet Cơ sở một máy tìm_kiếm là một web_site đặc_biệt vốn giúp bạn tìm các thông_tin trên internet Moses một máy tìm_kiếm là một web_site đặc_biệt vốn sẽ giúp bạn tìm các thông_tin trên internet Luật chuyển đổi không dùng ME một máy tìm_kiếm là một web_site đặc_biệt vốn giúp bạn tìm các thông_tin trên internet Ví dụ 2: Câu tiếng Anh a thorough knowledge of how a computer uses the cpu to process data and keeping up-to-date on the types of cpus available are essential to success in a hardware support position . Câu tham chiếu một sự hiểu_biết thấu_đáo về cách một máy_tính sử_dụng cpu ra sao để xử_lý dữ_liệu và thói_quen cập_nhật kiến_thức liên_tục về các chủng_loại cpu có trên thị_trường là rất cần_thiết cho sự thành_công của vai_trò hỗ_trợ phần_cứng . Cơ sở một thorough kiến_thức về cách một máy_tính sử_dụng các cpu để xử lý dữ_liệu và giữ cập_nhật trên các kiểu cpu có rất cần_thiết để thành_công trong một sự hỗ_trợ phần_cứng vị_trí . Moses một thorough kiến_thức về cách một máy_tính sử_dụng cpu để xử lý dữ_liệu và cập_nhật giữ trên loại có các cpu là rất cần_thiết để thành_công trong một vị_trí sự hỗ_trợ phần_cứng . Luật chuyển đổi không dùng ME một kiến_thức sâu_sắc về cách một máy_tính sử_dụng cpu để xử lý các dữ_liệu và giữ cập_nhật trên các kiểu cpu có rất cần_thiết để thành_công trong một vị_trí sự hỗ_trợ phần_cứng . Ví dụ 3: Câu tiếng Anh in multibutton mice , one button must be designated as the '' primary '' button , referred to as the mouse button . Câu tham chiếu ở những con chuột có nhiều nút , có một nút phải được thiết_kế như là nút '' cơ_bản '' , được xem như là nút chuột . Cơ sở trong multibutton con chuột , một nút phải được chỉ_định khi '' '' nút chính , được gọi_là nút chuột . Moses trong multibutton con chuột , một nút phải được chỉ_định như '' nút '' chính , được gọi là các nút chuột . Luật chuyển đổi không dùng ME trong các con chuột multibutton , một nút phải được chỉ_định từ '' '' nút chính , được gọi_là nút chuột . Việc áp dụng luật chuyển đổi không hẳn luôn luôn làm kết quả dịch tốt hơn, nhưng trong nhiều trường hợp luật chuyển đổi cú pháp thực sự có tác dụng tốt. Nhìn vào câu ví dụ 2, có thể thấy việc chuyển đổi trật tự từ giúp giảm những lỗi không tìm thấy bản dịch của từ: trong khi hai hướng tiếp cận trước không dịch được từ “thorough”, thì cách dùng luật chuyển đổi vẫn có thể tìm ra bản dịch tương ứng và khá phù hợp. Nguyên nhân là do sau khi được chuyển đổi, bộ giải mã của SMT có thể gom nhóm được ngữ tốt hơn nên từ/ngữ có thể được tìm thấy trong bảng xác suất. Ngoài ra việc chuyển đổi còn làm cho bản dịch trở nên hay hơn, như trong câu ví dụ 3: “mice” được dịch thành “các con chuột”. Những kết quả trên là kết quả tốt nhất khi lần lượt áp dụng các luật chuyển đổi NP, NP và VP, và kết hợp tất cả các luật cho ngữ liệu. Phần tiếp theo sẽ phân tích sâu hơn về ảnh hưởng của từng loại luật. Tần số của các luật Chúng tôi tính toán tần số của các luật nhằm đánh giá mức độ phổ biến của từng loại luật khi áp dụng cho ngữ liệu. Việc đánh giá này giúp cho chúng ta có thể lựa chọn phương thức tốt nhất khi kết hợp các luật với nhau đối với một ngữ liệu cụ thể. Bên cạnh các luật giả, tập luật của chúng tôi bao gồm 10 luật NP, 7 luật AP và 2 luật VP. Bảng 4.7 cung cấp số lần các luật được áp dụng trên ngữ liệu huấn luyện, ở đây chúng tôi chỉ tính trên các luật thực sự chuyển đổi, không tính trên các luật giả. Luật được áp dụng nhiều nhất là luật NP, chiếm đến trên 97% trên cả ngữ liệu C và I. Tuy nhiên, vai trò của từng luật trong NP thì khác nhau. Trong ngữ liệu C luật NP được sử dụng nhiều nhất là NP (ADJP NP) trong khi đối với ngữ liệu I là luật NP (NN NP). Tần số của luật VP và ADJP thì khác nhau đối với ngữ liệu C và I. Trong ngữ liệu C, tần số của VP và ADJP có vẻ ngang nhau, nhưng trong ngữ liệu I tần số VP vượt qua tần số ADJP. Điều này có thể giải thích dựa vào nội dung của ngữ liệu. Mặc dù cả hai ngữ liệu đều thuộc lĩnh vực tin học, nhưng mỗi ngữ liệu lại tập trung vào một vấn đề khác nhau. Ngữ liệu C được rút ra từ một quyển sách tin học trong khi ngữ liệu I lấy từ phần giúp đỡ của IBM. Và việc phần trợ giúp này chứa nhiều ngữ động từ hơn một quyển sách là có thể hiểu được. Đây chỉ là một sự khác biệt nhỏ, nhưng lại ảnh hưởng khá lớn đến chất lượng dịch. Ảnh hưởng của từng loại luật chuyển đổi Để đánh giá mức độ ảnh hưởng của từng loại luật chuyển đổi, chúng tôi tiến hành các thí nghiệm mà trong đó ngữ liệu huấn luyện và ngữ liệu đánh giá của hệ thống được chuyển đổi trật tự từ bằng cách sử dụng các tập luật con khác nhau. Vì số lượng luật VP và ADJP ít nên chúng ta sẽ kết hợp nó với luật NP. NP Số lần áp dụng C I NN NP 6776 4936 ADJP NP 9436 3116 DT/this NP 493 450 PRP$ NP 1185 390 NNS NP 425 169 DT/these NP 308 101 DT/that NP 73 73 DT NP POS 454 40 DT/those NP 36 9 NP RB 14 5 Tổng cộng 19200 9289 97.33% 97.34% ADJP Số lần áp dụng C I NP JJ 10 5 RBR JJ 126 5 ADVP VBN 5 2 ADVP JJ PP 2 1 NP VP 4 1 RB/much JJR 43 0 RBS RB VBN 13 0 Tổng cộng 203 14 1.03% 0.15% VP Số lần áp dụng C I MD RB VP 109 137 MD ADVP VP 214 103 Tổng cộng 323 240 1.64% 2.51% Bảng 4.6 Số lần áp dụng của các luật NP, ADJP, VP Bảng 4.7 tổng kết các kết quả theo BLEU-4, NIST và TER cho mỗi tập luật con khi áp dụng cho ngữ liệu C và I. Như các số liệu trong bảng 4.6, ta nhận thấy luật NP là những luật có ảnh hưởng lớn nhất, khi áp dụng luật NP ta thấy hiệu quả của hệ dịch nâng lên rất cao, vượt xa hệ dịch SMT chuẩn và hệ dịch dùng MOSES. Tuy nhiên, khi thêm luật VP hay luật ADJP, thì hiệu quả lại không tăng lên, thậm chí trong ngữ liệu C nó còn làm giảm hiệu quả. Đồng thời chúng ta vẫn có thể nhìn thấy sự khác nhau giữa ngữ liệu C và I, với ngữ liệu C tập luật cho kết quả cao nhất bao gồm luật NP và ADJP, trong khi đối với ngữ liệu I thì tập luật gồm NP và VP. Trong cả hai ngữ liệu, việc kết hợp cả ba loại luật sẽ dẫn đến một kết quả tệ hơn, đặc biệt là với ngữ liệu C nó thậm chí còn tệ hơn cả hệ dịch chuẩn. BLEU-4 NIST TER C I C I C I Baseline 50.09 57.51 9.137 8.9093 43.3 34.82 Moses 51.57 58.91 9.2279 8.9789 41.7 33.53 NP 52.27 60.16 9.2608 9.0442 41.198 32.562 NP+VP 48.34 60.75 8.8755 9.0895 45.747 32.167 NP+ADJP 52.62 60.41 9.2719 9.0241 41.208 32.799 All 48.35 60.1 8.9776 9.0288 44.377 32.799 Bảng 4.7 Kết quả dịch khi áp dụng các luật theo cách kết hợp khác nhau Luận văn cũng tiến hành phân tích một số lỗi và nhận thấy bên cạnh lỗi phân tích cú pháp, lỗi của luật chuyển đổi cũng đóng vai trò quan trọng trong việc làm giảm chất lượng dịch. Mặc dù luật VP chỉ gồm có hai luật, nó lại là luật tạo ra nhiều lỗi nhất. Vì ngữ động từ rất phức tạp nên đề tài chỉ sử dụng hai luật. Và hai luật này lại quá tổng quát đến mức gây ra lỗi. Ví dụ với luật VP (MD AVDP VP), nó được áp dụng 214 lần trong ngữ liệu huấn luyện C, nhưng chỉ đúng 40 lần (khoảng 18.7%). Phần còn lại là 81.7% lỗi, một tỉ lệ lỗi rất lớn, chính điều này đã làm hiệu quả dịch giảm xuống thấp hơn cả hệ dịch SMT chuẩn. Vấn đề tương tự cũng xảy ra cho luật chuyển đổi ADJP đối với ngữ liệu I, tuy nhiên khi kết hợp cả ba loại luật với nhau thì nó không làm chất lượng dịch giảm xuống như ngữ liệu C. Vậy có thể suy ra rằng tùy vào từng loại ngữ liệu khác nhau chúng ta nên có cách kết hợp thỏa đáng nhằm giúp nâng cao hiệu quả của hệ dịch. Chuyển đổi trật tự từ theo luật cú pháp rút trích tự động Hướng tiếp cận của đề tài là tính xác suất của các trường hợp chuyển đổi được thống kê trên cây cú pháp, việc áp dụng mô hình tiến hành trên từng nút của cây, ví dụ: NP -> N1 N2 thì sẽ có hai trường hợp chuyển đổi là N1 N2 và N2 N1. Như vậy khi số nút con của nút càng nhiều thì các trường hợp cần thống kê càng lớn, ví dụ ba nút con thì sẽ có 6 trường hợp …. Nếu thống kê tất cả trường hợp của tất cả các nút thì sẽ tốn rất nhiều chi phí. Trong giới hạn của đề tài này, chúng tôi sẽ tiến hành Số nút con C I 2 32341 65548 3 10043 21846 >3 3834 9569 Bảng 4.8 Thống kê nút con trên ngữ liệu huấn luyện C và I Từ bảng thống kê 4.8 ta nhận thấy số nút có 2, 3 con chiếm đại đa số, số lượng nút có nhiều hơn ba con không đáng kể. Do đó đề tài chỉ tập trung vào rút luật tự động và phân lớp cho các node có hai và ba con. Rút trích luật tự động từ ngữ liệu song ngữ 2 ,3 nút con NP ADJP VP C 156 37 92 I 90 20 56 D 181 60 170 2 nút con NP ADJP VP C 53 20 43 I 32 13 30 D 76 35 63 Bảng 4.9 Số luật chuyển đổi được rút tự động từ ngữ liệu song ngữ Như đã trình bày ở phần trên, luật chuyển đổi sẽ được rút trích tự động từ ngữ liệu song ngữ và gióng hàng từ của ngữ liệu đó. Như vậy đầu vào của phần rút trích luật tự động sẽ là ngữ liệu song ngữ, công cụ phân tích cú pháp câu ngôn ngữ nguồn và công cụ gióng hàng từ cho cặp ngôn ngữ đang xét. Bảng 4.9 thống kê số lượng luật chuyển đổi rút trích tự động từ ngữ liệu song ngữ. Bảng 4.10 liệt kê một số luật chuyển đổi có các cách chuyển đổi khác nhau trong cùng một luật và tần số tương ứng của nó Danh sách một số luật khác được trình bày trong phụ lục B . Để có thể rút trích được các luật như trên chúng ta dựa vào kết quả gióng hàng từ, và chính kết quả gióng hàng từ này sẽ quyết định phần lớn độ chính xác của luật chuyển đổi. Qua phân tích độ chính xác của các luật rút trích được chúng tôi thấy rằng các gióng hàng từ sai sẽ làm hệ thống rút ra nhiều luật thừa và không có trong thực tế. Để hạn chế tối đa các luật sai do gióng hàng từ sai, đề tài sẽ dựa vào tần số của luật để lựa chọn. Khi áp dụng luật cho các cú pháp chúng tôi chỉ xét những luật mà tần số xuất hiện đi kèm với vế phải của chúng là tương đối đồng đều so với các luật còn lại. Loại Vế trái Vế phải Tần số Loại Vế trái Vế phải Tần số NP NP NNS 2 1 0.44 VP VBP ADVP 2 1 0.133 In-order 0.56 In-order 0.867 CD NN NN 2 1; 3 2 0.125 VB ADVP NP 2 1 0.25 3 1; 3 2 0.375 In-order 0.75 3 2 0.25 VB PRT NP 2 1 0.034 In-order 0.25 2 1; 3 2 0.017 DT ADJP NN 2 1 0.007 3 2 0.017 2 1; 3 1; 3 2 0.014 In-order 0.930 2 1; 3 2 0.014 ADJP RB JJ PP 2 1 0.052 3 1 0.014 2 1; 3 1; 3 2 0.026 3 2 0.471 In-order 0.922 DT JJ NN 2 1 0.017 RBS RB JJ 2 1; 3 1; 3 2 0.250 2 1; 3 1; 3 2 0.026 3 1 0.250 2 1; 3 2 0.012 3 1; 3 2 0.250 3 1 0.014 In-order 0.250 3 1; 3 2 0.008 NN CC NN 3 1 0.140 3 2 0.613 In-order 0.860 Bảng 4.10 Các luật chuyển đổi được rút trích tự động từ ngữ liệu song ngữ Phân lớp bằng mô hình ME Như đã trình bày trong phần 3.4, với hướng tiếp cận này ngoài một vài phần xử lý ban đầu giống với cách rút luật bằng tay, phần tính xác suất các luật rút từ ngữ liệu chúng tôi sẽ dùng phương pháp MLE (Maximum Likelihood Estimation); phần phân loại tại một nút trên cây cú pháp có thực hiện chuyển đổi hay không chúng tôi sử dụng mô hình ME (Maximum Entropy). Tiếp theo chúng tôi sẽ tiến hành thí nghiệm với mục đích phân tích tầm ảnh hưởng của các đặc trưng được dùng để huấn luyện cho mô hình chuyển đổi trật tự từ lên hiệu quả phân lớp, liệu khi số các đặc trưng tăng lên thì hiệu phân lớp có tăng hay không? Trong từng thí nghiệm chúng tôi sẽ lần lượt thêm các đặc trưng vào cho mô hình. Các đặc trưng này bao gồm xác suất của luật chuyển đổi và đặc trưng tại nút đang xét. Bảng 4.11 Kết quả phân lớp cho ngữ liệu I, D được trình bày trong phụ lục C. là kết quả phân lớp sau khi chạy các thí nghiệm trên cho ngữ liệu C. STT Đặc trưng Acc Pr R F1 1 Nhãn của nút cha 0.900 0.065 0.170 0.094 2 Con trái nhất và con phải nhất 0.981 0.614 0.978 0.754 3 (1) + từ ngữ cảnh 0.862 0.024 0.089 0.380 4 (2) + từ ngữ cảnh 0.982 0.641 0.941 0.763 5 Tất cả 0.983 0.654 0.944 0.773 (a) Kết quả trên ngữ liệu C với trường hợp 2 nút con STT Đặc trưng Acc Pr R F1 1 Nhãn của nút cha 0.987 0.157 0.143 0.140 2 Con trái nhất và con phải nhất 0.988 0.465 0.362 0.365 3 (1) + từ ngữ cảnh 0.949 0.145 0.182 0.143 4 (2) + từ ngữ cảnh 0.985 0.413 0.454 0.396 5 Tất cả 0.985 0.434 0.459 0.408 (b) Kết quả trên ngữ liệu C với trường hợp 2,3 nút con Bảng 4.11 Thí nghiệm trên các đặc trưng khác nhau cho ngữ liệu C. Bảng 4.12 là kết quả khi chạy trên ngữ liệu D. So sánh hai bảng 4.11 và 4.12 có thể thấy sự khác biệt rõ ràng khi phân lớp. Điểm F1 trong trường hợp của ngữ liệu D cao hơn nhiều so với ngữ liệu C. Điều này hoàn toàn hợp lý, do ngữ liệu D có số cặp câu lớn hơn gần 7,5 lần so với ngữ liệu I, nên sẽ không xảy ra tình trạng dữ liệu bị phân tán và kết quả phân lớp chắc chắn sẽ cao hơn hẳn. Trong thí nghiệm kết hợp các đặc trưng, thí nghiệm 5 cho kết quả cao nhất ở cả ngữ liệu C và D (kết quả cũng tương tự đối với ngữ liệu I). Có được kết quả như vậy là nhờ vào việc tận dụng các thông tin tri thức xung quanh hoặc ngay tại bản thân nút đang xét. Làm như thế chúng ta sẽ linh động hơn trong quá trình áp dụng luật mà không phải cứng nhắc như cách dùng luật bằng tay. STT Đặc trưng Acc Pr R F1 1 Nhãn của nút cha 0.928 0.000 0.000 0.000 2 Con trái nhất và con phải nhất 0.998 0.989 0.988 0.988 3 (1) + từ ngữ cảnh 0.925 0.460 0.185 0.263 4 (2) + từ ngữ cảnh 0.998 0.993 0.979 0.986 5 Tất cả 0.998 0.991 0.983 0.987 (a) Kết quả trên ngữ liệu D với trường hợp 2 nút con STT Đặc trưng Acc Pr R F1 1 Nhãn của nút cha 0.973 0.129 0.143 0.136 2 Con trái nhất và con phải nhất 0.992 0.517 0.439 0.460 3 (1) + từ ngữ cảnh 0.965 0.307 0.267 0.287 4 (2) + từ ngữ cảnh 0.994 0.625 0.598 0.611 5 Tất cả 0.994 0.631 0.600 0.614 (b) Kết quả trên ngữ liệu D với trường hợp 2,3 nút con Bảng 4.12 Thí nghiệm trên các đặc trưng khác nhau cho ngữ liệu D Kết quả dịch sau khi dùng mô hình xác suất Bảng 4.13 dưới đây là kết quả dịch sau khi dùng mô hình xác suất trên ngữ liệu C Kết quả dịch sau khi dùng mô hình xác suất cho ngữ liệu I được trình bày trong phụ lục D. .Kết quả thí nghiệm cho thấy các điểm BLEU đáng kể, điểm NIST giảm nhẹ và điểm TER tăng sau khi áp dụng mô hình xác suất, so với luật chuyển đổi bằng tay. Hiện tượng này xảy ra là do hai nguyên nhân sau: Độ chính xác của gióng hàng từ không cao: đối với cặp ngôn ngữ khác loại hình như Anh-Việt độ chính xác của gióng hàng từ chỉ khoảng 70%. Trong khi đó độ chính xác này sẽ ảnh hưởng rất lớn đến độ chính xác của việc rút luật chuyển đổi cũng như phân lớp cho các nút. Kết quả phân lớp không chính xác, kéo theo kết quả chuyển đổi cũng không chính xác. Khi kết quả chuyển đổi không chính xác, việc gom nhóm các ngữ trong bộ giải mã của SMT cũng không hiệu quả, từ đó kết quả dịch sẽ bị giảm đi. Phương pháp BLEU NIST TER Luật chuyển đổi thủ công 51.13 9.07 43.97 Luật chuyển đổi tự động 49.07 8.97 44.88 (b) Xét nút có 2, 3 con Phương pháp BLEU NIST TER Luật chuyển đổi thủ công 49.85 9.04 44.31 Luật chuyển đổi tự động 49.66 8.99 44.68 (a) Xét nút có 2 con Bảng 4.13 Kết quả dịch trên ngữ liệu C sau khi dùng mô hình xác suất Dưới đây là một vài ví dụ so sánh kết quả dịch thực sự của các hướng tiếp cận trên: Ví dụ 1: Câu tiếng Anh a thorough knowledge of how a computer uses the cpu to process data and keeping up-to-date on the types of cpus available are essential to success in a hardware support position . Câu tham chiếu một sự hiểu_biết thấu_đáo về cách một máy_tính sử_dụng cpu ra sao để xử_lý dữ_liệu và thói_quen cập_nhật kiến_thức liên_tục về các chủng_loại cpu có trên thị_trường là rất cần_thiết cho sự thành_công của vai_trò hỗ_trợ phần_cứng . Luật chuyển đổi thủ công (có ME) một thorough kiến_thức về cách một máy_tính sử_dụng cpu để xử lý các dữ_liệu và giữ cập_nhật trên các kiểu của các cpu có rất cần_thiết để thành_công trong một vị_trí hỗ_trợ phần_cứng . Luật chuyển đổi tự động (có ME) một thorough kiến_thức về cách một máy_tính sử_dụng các cpu để xử lý các dữ_liệu và giữ cập_nhật trên các kiểu cpu có rất cần_thiết để thành_công trong một vị_trí hỗ_trợ phần_cứng . Ví dụ 2: Câu tiếng Anh a search engine is a special web site that helps you find information on the internet . Câu tham chiếu máy tìm_kiếm là một web_site đặc_biệt giúp bạn tìm_kiếm thông_tin trên internet . Luật chuyển đổi thủ công (có ME) một máy tìm_kiếm là một web_site đặc_biệt vốn giúp bạn tìm các thông_tin trên internet . Luật chuyển đổi tự động (có ME) một máy tìm_kiếm là một web_site đặc_biệt vốn sẽ giúp bạn tìm các thông_tin trên internet . Hai ví dụ trên cho thấy kết quả dịch khi dùng luật bằng tay và mô hình xác suất là như nhau. Riêng ví dụ dưới đây là trường hợp mô hình xác suất dịch tệ hơn so với dùng luật bằng tay. Ví dụ 3: Câu tiếng Anh in multibutton mice , one button must be designated as the '' primary '' button , referred to as the mouse button . Câu tham chiếu ở những con chuột có nhiều nút , có một nút phải được thiết_kế như là nút '' cơ_bản '' , được xem như là nút chuột . Luật chuyển đổi thủ công (có ME) trong các con chuột multibutton , một nút phải được mang tên là '' '' nút chính , được gọi_là nút chuột . Luật chuyển đổi tự động (có ME) trong multibutton con chuột , một nút phải được chỉ_định là '' '' nút chính , được gọi là các nút chuột . Thử nghiệm với trường hợp có 4 nút con Ngoài trường hợp rút trích và áp dụng luật chuyển đổi trên các cây có hai, ba nút con, đề tài cũng tiến hành thử nghiệm với trường hợp có 4 nút con để kiểm chứng xem trường hợp 4 nút con có số lần xuất hiệu trong ngữ liệu ít hơn hẳn trường hợp 2, 3 nút con, vậy nó sẽ ảnh hưởng như thế nào đến chất lượng của hệ dịch. Với trường hợp có 4 nút con thì số lượng phân lớp sẽ tăng lên đáng kể so với trường hợp có 2,3 nút con (số phân lớp tăng từ 6 lên khoảng 120 phân lớp); đồng thời số luật chuyển đổi được rút ra cũng tăng khá nhiều. Kết quả trung bình khi dùng ME để phân lớp trong trường hợp này cho ngữ liệu I là rất thấp khoảng 10.11% độ chính xác (Precision), và khoảng 11.31% độ bao phủ (Recall). Nguyên nhân như đã nói ở trên là do số phân lớp tăng nên dẫn đến hiện tượng phân tán dữ liệu (sparse data). Khi chạy thực nghiệm, điểm BLEU cho trường hợp có 2, 3 và 4 nút con trên ngữ liệu I là 57.44% (tăng khoảng 0.67% so với trường hợp có 3 nút con). Từ kết quả này có thể rút ra nhận xét sau: mặc dù có số lần xuất hiện trong ngữ liệu ít, các trường hợp có 4 nút con cũng góp phần làm tăng chất lượng dịch. Tuy nhiên, có một vấn đề cần phải xem xét ở đây là liệu có cần thiết phải tốn nhiều chi phí cho các trường hợp ít xuất hiện trong ngữ liệu và góp phần không đáng kể vào hiệu quả của hệ dịch hay không? Giảm gióng hàng từ chéo? Mục đích của chuyển đổi trật tự từ là làm cho trật tự từ trong câu ngôn ngữ nguồn gần hơn với trật tự từ trong câu ngôn ngữ đích. Thật ra, hành động này sẽ làm giảm số gióng hàng từ chéo hay nói cách khác là “làm phẳng” gióng hàng từ giữa câu nguồn và câu đích. Do đó chúng tôi cũng thực hiện tính toán số gióng hàng từ chéo sau mỗi lần áp dụng luật chuyển đổi cho tập ngữ liệu huấn luyện. Bảng 4.13 là số gióng hàng từ chéo trong mỗi hướng tiếp cận. Công cụ dịch MOSES sử dụng mô hình chuyển đổi dựa trên từ vựng, tích hợp trong giai đoạn giải mã nên số gióng hàng từ chéo của nó sẽ bằng với số gióng hàng từ chéo của hệ dịch SMT chuẩn. Method Cross Alignment C I Baseline 135660 28524 MOSES 135660 28524 Luật bằng tay 100506 15409 Mô hình xác suất 100019 28735 Bảng 4.14 Số gióng hàng từ chéo trong mỗi hướng tiếp cận. Những kết quả khác đều phản ánh những vấn đề đã được phân tích ở phần trên. Nghĩa là trong các trường hợp hiệu quả dịch tăng lên, ta thấy số lượng gióng hàng từ chéo giảm đáng kể. Và ngược lại, nếu gióng hàng từ chéo tăng thì kết quả dịch lại giảm đi (trường hợp dùng mô hình xác suất cho ngữ liệu I). Riêng trường hợp dùng mô hình xác suất cho ngữ liệu C thì số lượng gióng hàng từ chéo biến đổi không theo cách của các hướng tiếp cận trên; gióng hàng từ chéo giảm nhưng hiệu quả dịch không tăng (xem bảng 4.14). Trường hợp dùng mô hình xác suất cho ngữ liệu I nhưng gióng hàng từ tăng, nguyên nhân là do lỗi chuyển đổi, nghĩa là một số trường hợp sau khi chuyển đổi gióng hàng từ chéo không những giảm mà còn tăng. Hình 4.1 là một minh họa cụ thể cho lỗi này. Chúng ta có câu tiếng Anh “you can also carry your mp3 recordings, sau khi áp dụng luật chuyển đổi VP (MD ADVP VP) số lượng gióng hàng từ chéo tăng từ 3 lên 5. Cây phân tích cú pháp của câu tiếng Anh Trước khi chuyến đổi Sau khi chuyển đổi Hình 4.1 Ví dụ về trường hợp làm tăng gióng hàng chéo sau khi chuyển đổi Trường hợp dùng mô hình xác suất cho ngữ liệu C, gióng hàng từ chéo giảm nhưng hiệu quả dịch lại không tăng. Nguyên nhân bắt đầu từ chỗ gióng hàng từ ban đầu sai, dẫn đến việc rút trích luật chuyển đổi sai, kéo theo kết quả phân lớp sai, và cuối cùng khi áp dụng luật chuyển đổi thì gióng hàng từ không chéo lại sai. Điều này cho thấy không hẳn số lượng gióng hàng từ chéo giảm thì chất lượng dịch máy sẽ tăng, mà nó còn phụ thuộc vào việc liệu gióng hàng từ không chéo (sau khi áp dụng luật chuyển đổi) có thực sự đúng hay không. Trong trường hợp gióng hàng từ thực sự đúng thì hiệu quả của hệ dịch thống kê sẽ tăng lên đáng kể (như các trường hợp khác), và nếu sai nó sẽ làm giảm hiệu quả dịch. Đánh giá chung Cả hai tập luật được sử dụng trong đề tài đều cố gắng góp phần giải quyết tốt vấn đề chuyển đổi trật tự từ trong dịch máy. Việc áp dụng luật chuyển đổi dựa trên cú pháp không những chuyển đổi trật tự từ trong phạm vi một ngữ mà còn khái quát lên thành chuyển đổi trật tự từ giữa các ngữ với nhau. Đây chính là điểm mà các hệ dịch thống kê thuần túy chưa thể giải quyết được. Các kết quả thí nghiệm trên cho thấy việc dùng mô hình xác suất đề chuyển đổi trật tự từ cho hiệu quả dịch hơi thấp hơn một chút so với luật chuyển đổi cố định. Kết quả dịch thấp là do ảnh hưởng từ gióng hàng từ ban đầu không chính xác dẫn đến việc tích lũy lỗi qua mỗi bước của mô hình học. Tuy nhiên, mô hình xác suất lại linh động hơn nhiều, và nó còn có thể được áp dụng cho các cặp ngôn ngữ khác mà chúng ta không cần phải can thiệp gì thêm. Trong khi đó cách dùng luật chuyển đổi bằng tay lại đòi hỏi khá nhiều công sức cũng như kiến thức chuyên sâu về ngôn ngữ. Mỗi khi áp dụng cho một cặp ngôn ngữ dịch khác, thì lại phải bỏ ra một khoảng thời gian để xây dựng tập luật chuyển đổi bằng tay. KẾT LUẬN Trong đề tài này chúng tôi đã sử dụng một tập các luật chuyển đổi cú pháp để chuyển đổi các câu tiếng Anh thành dạng câu có trật tự từ gần hơn với câu tiếng Việt. Chúng tôi đã đánh giá hướng tiếp cận này so với hệ dịch SMT chuẩn và công cụ dịch SMT MOSES. Hệ thống khi áp dụng luật làm tăng điểm BLEU từ 50.09% đến 52.62% với ngữ liệu C, từ 57.51% đến 60.75% với ngữ liệu I, từ 25.47% đến 26.33% với ngữ liệu D. Trong ba loại luật chuyển đổi mà chúng tôi khai thác, luật chuyển đổi trong danh ngữ đóng vai trò quan trọng hơn cả. Nó chiếm trên 97% số lần chuyển đổi của cả ba loại luật, và do đó làm tăng đáng kể hiệu quả dịch. Chúng tôi cũng phân tích ảnh hưởng của từng loại luật khi lần lượt kết hợp luật NP với luật VP và ADJP. Các kết quả thực nghiệm cho thấy mỗi loại ngữ liệu sẽ phù hợp với một cách kết hợp khác nhau nhằm tăng hiệu quả dịch. Rõ ràng là áp dụng các luật chuyển đổi lên cây cú pháp tiếng Anh cho chúng ta kết quả dịch khả quan hơn, tuy nhiên qua phân tích lỗi dịch chúng tôi nhận thấy cách dùng luật rút trích bằng tay có một số hạn chế. Thứ nhất là tại các nút trong cây cú pháp thỏa luật bằng tay thì xác suất để chuyển đổi luôn luôn là 1, trong khi thực tế không phải vậy. Thứ hai là khi áp dụng các luật cố định như vậy thì sẽ xảy ra trường hợp luật không phù hợp với ngữ liệu. Thực nghiệm cho thấy có một số luật có số lần được áp dụng rất ít. Thứ ba là việc xây dựng tập luật bằng tay mất khá nhiều công sức và cần phải nhờ vào các chuyên gia ngôn ngữ. Để khắc phục các hạn chế này, đề tài đã sử dụng mô hình xác suất để rút trích tri thức chuyển đổi từ ngữ liệu song ngữ cũng như tính xác suất áp dụng tại mỗi nút trên cây cú pháp dựa vào đặc trưng của từng nút. Khi sử dụng cách tiếp cận rút trích luật tự động, độ chính xác của các yếu tố đầu vào như phân tích cú pháp và gióng hàng từ sẽ ảnh hưởng rất lớn đến độ chính xác của luật chuyển đổi. Để giảm bớt ảnh hưởng không tốt này, chúng tôi thực hiện loại bỏ những luật chuyển đổi mà tần số của chúng không đồng đều giữa các trường hợp chuyển đổi. Qua thực nghiệm, kết quả dịch khi dùng mô hình xác suất không cao hơn so với cách dùng luật bằng tay ban đầu. Có nhiều nguyên nhân dẫn đến kết quả này. Đầu tiên là do độ chính xác của gióng hàng từ không cao, điều này dẫn đến một loạt hiệu ứng xấu phía sau, là luật rút trích không đúng, kết quả phân lớp thấp và cuối cùng là hiệu quả dịch thấp hơn so với dùng luật bằng tay. Nguyên nhân tiếp theo là do ngữ liệu mà luận văn sử dụng chưa đủ lớn nên dẫn đến sự phân mảnh dữ liệu (sparse data). Song, cách tiếp cận này dễ dàng được áp dụng cho các cặp ngôn ngữ khác vì nó hoàn toàn học từ ngữ liệu và không phụ thuộc vào ngôn ngữ. Mục đích của chuyển đổi trật tự từ là làm cho câu ở ngôn ngữ nguồn càng gần với trật tự trong ngôn ngữ đích càng tốt. Do đó thao tác này đã góp phần làm giảm số gióng hàng từ chéo giữa các cặp câu ở hai ngôn ngữ. Tuy nhiên, các thí nghiệm trong đề tài cho thấy, không hẳn số lượng gióng hàng từ chéo giảm thì chất lượng dịch sẽ tăng mà còn phụ thuộc vào độ chính xác của gióng hàng từ không chéo sau khi được chuyển đổi. Trong tương lai, đề tài có thể mở rộng theo các hướng sau: Xây dựng một module chuyển đổi trật tự từ hoàn chỉnh để có thể áp dụng cho các hệ dịch khác nhau, chẳng hạn như hệ dịch dựa vào luật (Rule-based Machine Translation). Rút trích luật tự động từ ngữ liệu song ngữ là hướng tiếp cận khá tổng quát, do đó phải tìm cách nâng cao hiệu quả của mô hình học để có thể áp dụng cách này vào thực tế. TÀI LIỆU TRÍCH DẪN Tiếng Việt Đinh Điền (2001), So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt. Tạp chí Khoa học Xã hội và Nhân văn, Trường Đại học Khoa học Xã hội và Nhân văn Tp. Hồ Chí Minh. Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số cấu trúc cú pháp cơ bản, Luận án phó tiến sĩ khoa học ngữ văn. Tiếng Anh Brown, P. F., Pietra, V. J. D., Pietra, S. A. D., and Mercer, R. L. (1993), The mathematics of statistical machine translation: parameter estimation, Computational Linguistics, 19(2):263–311. Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Assoc. for Computational Linguistics (ACL), pp. 531-540. Dien, D. (2005), Building an Annotated English-Vietnamese parallel Corpus, MKS: A Journal of Southeast Asian Linguistics and Languages, Vol.35, pp. 21-36. Dien, D. and Thuy, V. (2006), A maximum entropy approach for Vietnamese word segmentation, Proceedings of 4th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future 2006 (RIVF’06), pp 247–252. Doddington, G. (2002), Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics, Proceedings of the second international conference on Human Language Technology Research, pp. 138 – 145. Klein, D. and Manning, C. D. (2003), Accurate unlexicalized parsing, Proceedings of ACL 2003. Koehn, P. (2003), Lecture of Statistical Machine Translation. Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based translation, Proceedings of the HLT-NAACL 2003 conference, pp. 127–133. Kumar, S. and Byrne, W. (2007), Local phrase re-ordering models for statistical machine translation, Proceedings of Human Language Technology Conference and Conference on Emperical Methods in NLP, pp. 161-168. Li, C.H., Zhang, D., Li, M., Zhou, M., Li, M. and Guan, Yi. (2007), A probabilistic approach to syntax-based re-ordering for statistical machine translation, Proceedings of 45th ACL, pp. 720-727. Marcu, D. and Wong, W. (2002), A phrase-based, joint probability model for statistical machine translation, Proceedings of the Conf. on Empirical Methods in Natural Language Processing (EMNLP 02), pp. 133–139. Nguyen, T. P and Akira, S. (2006), A syntactic transformation model for statistical machine translation, 21st International Conference on the Computer Processing of Oriental Languages ICCPOL 2006, pp.63-74. Nguyen, T. P and Akira, S. (2006), Improving phrase-based statistical machine translation with morpho-syntactic analysis and transformation, Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, Visions for the Future of Machine Translation, pp.138-147. Och, F. J. and Ney, H. (2004), The alignment template approach to statistical machine translation, Computational Linguistics, pp. 417-449. Papineni K. A., Roukos S., Ward T., and Zhu W.J (2002), Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311–318. Quang, P-C. and Tuoutanova, K. (2007), A Discriminative syntactic word order model for machine translation, Proceedings of ACL 45th , pp. 9-16. Sanchis, G. and Casacuberta, F. (2006), N-best re-ordering in statistical machine translation, Jornadas en Techlogia del Habla, pp. 99-104. Snover M., Dorr B., Schwartz R., Micciulla L. and Makhoul J (2006), A study of translation edit rate with targeted human annotation, Proceedings of Association for Machine Translation in the Americas, pp. 223 – 231. Wang, C., Collins, M. and Koehn, P. (2007), Chinese syntactic re-ordering for statistical machine translation, Proceedings of 2007 Joint Conference on Emperical Methods in NLP and CL NLP, pp. 737-745. Xia, F. and McCord, M. (2004), Improving a statistical MT system with automatically learned rewrite patterns, Proceedings of COLING. Yamada,K. and Knight, K. (2001), A syntax-based statistical machine translation, Proceedings of ACL. Zhang, Y., Zens, R. and Ney, H. (2007), Chunk-level reordering of source language with automatically learned rules for statistical machine translation, Proceedings of SSST, NAACL-HLT, pp. 1-8. CÔNG TRÌNH ĐÃ CÔNG BỐ Hong-Nhung, N. T. and Dien, D. (2008), A syntactic-based Word Re-Ordering for English-Vietnamese Statistical Machine Translation, Lecture Notes in Computer Science, PRICAI 2008: Trends in Artificial Intelligence, pp. 809-818. PHỤ LỤC Danh sách các luật chuyển đổi được rút bằng tay STT Loại luật Vế trái Vế phải NP {PDT DT NP} & wrd(2) = {DT, a } 3 2; 2 1 {DT NP} & wrd(1) = {DT, this } 2 1 {DT NP} & wrd(1) = {DT, that } 2 1 {DT NP} & wrd(1) = {DT, these} 2 1 {DT NP} & wrd(1) = {DT, those } 2 1 {DT ADJP NP} 3 2 {DT NP POS} 3 2 ; 2 1 {NP : S .} 3 1 ; 3 2 {PRP$ NP} 2 1 {JJ NP} 2 1 {NNS NP} 2 1 {NN NP} 2 1 {NN RB} 2 1 ADJP {RB JJR} & wrd(1) = {RB, much} 2 1 {ADVP JJ PP} 2 1 {JJ NP PP} 2 1 {JJ : NP} 3 1 {RBS RB VBN} 3 1 {NP JJ} 2 1 {ADVP VBN} 2 1 VP {MD ADVP VP} 3 2 {MD RB VP} 2 1 Một số luật chuyển đổi được rút tự động từ ngữ liệu I Từ ngữ liệu I chúng tôi rút ra được khoảng 130 luật chuyển đổi trong danh ngữ, 65 luật chuyển đổi trong động ngữ và 20 luật chuyển đổi trong tính ngữ. Bảng dưới đây liệt kê một số luật chuyển đổi và tần số đi kèm với chúng. Loại Vế trái Vế phải Tần số Loại Vế trái Vế phải Tần số NP DT CD NN 2 1 0.110 VP MD ADVP VP 2 1 0.543 3 1 0.220 2 1; 3 1; 3 2 0.010 3 1; 3 2 0.670 3 2 0.049 DT NN S 2 1 0.160 In-order 0.398 2 1; 3 1; 3 2 0.026 VBG PRT NP 3 1 0.333 2 1; 3 2 0.013 In-order 0.667 3 2 0.013 VBP ADVP NP 2 1 0.750 In-order 0.789 In-order 0.250 JJ JJ NN 3 1 0.143 ADVP VB NP 2 1 0.238 2 1; 3 1; 3 2 0.285 2 1; 3 2 0.048 In-order 0.572 3 2 0.048 VBN NN NN 2 1; 3 2 0.500 In-order 0.666 3 1; 3 2 0.500 ADJP WHAVP JJ 2 1 0.250 DT JJ NN 2 1 0.008 In-order 0.750 2 1; 3 1; 3 2 0.014 JJ JJS 2 1 0.500 2 1; 3 2 0.007 In-order 0.500 3 1 0.025 RB VBN 2 1 0.667 3 1; 3 2 0.005 In-order 0.333 3 2 0.735 ADVP RB JJ 3 2 1.000 Kết quả phân lớp trên ngữ liệu I STT Đặc trưng Acc Pr R F1 1 Nhãn của nút cha 0.945 0.100 0.163 0.124 2 Con trái nhất và con phải nhất 0.987 0.653 0.959 0.777 3 (1) + từ ngữ cảnh 0.903 0.054 0.184 0.083 4 (2) + từ ngữ cảnh 0.985 0.634 0.918 0.750 5 Tất cả 0.986 0.643 0.918 0.756 (a) Kết quả trên ngữ liệu I với trường hợp 2 nút con STT Đặc trưng Acc Pr R F1 1 Nhãn của nút cha 0.983 0.153 0.153 0.153 2 Con trái nhất và con phải nhất 0.992 0.468 0.486 0.413 3 (1) + từ ngữ cảnh 0.956 0.153 0.215 0.156 4 (2) + từ ngữ cảnh 0.980 0.500 0.445 0.373 5 Tất cả 0.982 0.521 0.474 0.412 (b) Kết quả trên ngữ liệu I với trường hợp 2,3 nút con Phương pháp BLEU NIST TER Luật chuyển đổi bằng tay 59.19 8.99 33.54 Mô hình xác suất 56.77 8.83 34.26 Kết quả dịch của ngữ liệu I (2, 3 con) Phương pháp BLEU NIST TER Luật chuyển đổi bằng tay 56.11 8.77 36.43 Mô hình xác suất 55.95 8.76 36.69 Kết quả dịch của ngữ liệu I (2 con) Kết quả dịch ngữ liệu I sau khi dùng mô hình xác suất để chuyển đổi trật tự từ

Các file đính kèm theo tài liệu này:

baocao.docx
10.pdf
11.pdf
12.pdf
13.pdf
2_2.pdf
3.pdf
4_2.pdf
5.pdf
6.pdf
7.pdf
8.pdf
9.pdf
loi cam on.docx
presentation-20-04-09-update.pptx
tom tat luan van.docx
Trangbia+lot.docx
trang_thong_tin_luan_van.docx