Luận văn Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh - Việt

Luận văn tốt nghiệp Mục lục Lời nói đầu Mục lục Danh sách các hình Chương 1 TỔNG QUAN VỀ CHUYỂN ĐỔI CÂY CÚ PHÁP 1.1 Đặt vấn đề 1.2 Các chiến lược dịch máyChiến lược dịch trực tiếp 1.1.2 Chiến lược dịch dựa trên ngôn ngữ trung gian 1.1.3 Chiến lược dịch dựa trên sự chuyển đổi 1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên chuyển đổi 1.3 Cơ sở lý thuyết 1.3.1 Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi 1.3.2 Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề Chương 2 CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH MÁY 2.1 Hướng tiếp cận dựa trên luật cốđịnh 2.1.1 Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cốđịnh 2.1.2 Nhận xét Luận văn tốt nghiệp 2.2 Hướng tiếp cận sử dụng case-frame 2.2.1 Chuyển đổi các thông tin cấp độ câu 2.2.2 Chuyển đổi ngữđộng từ 2.2.3 Sự chuyển đổi của định ngữ, bổ ngữ 2.2.4 Tựđiển chuyển đổi 2.2.5 Nhận xét 2.3 Hướng tiếp cận sử dụng TAG đồng bộ (STAG 2.3.1 Văn phạm TAG 2.3.2 TAG đồng bộ (STAG) 2.3.3 Nhận xét . 2.4 Cách tiếp cận phân tích ngữ pháp song song 2.4.1 Ngữ pháp chuyển dịch đảo có thống kê (SITG) 2.4.2 Thuật toán phân tích cú pháp song song với SITG 2.4.3 Đánh nhãn cấu trúc 2.4.4 Chuyển đổi cây cú pháp song song cho cả hai ngôn ngữ 2.4.5 Nhận xét 2.5 Cách tiếp cận dựa trên cấu trúc vị từ - đối số 2.5.1 Rút trích các cấu trúc vị từ - đối số 2.5.2 Khối chuyển đổi cấu trúc 2.5.3 Nhận xét 2.6 Tổng kết chương Chương 3 Chương 3 MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP 3.1 Phương pháp học hướng lỗi dựa trên sự chuyển trạng thái 3.1.1 Ý tưởng 3.1.2 Thuật toán học TBL của Eric Brill 3.1.3 Nhận xét Luận văn tốt nghiệp 3.2 Thuật toán học nhanh FnTBL 3.2.1 Hình thức hóa TBL 3.2.2 Thuật toán FnTBL. 3.3 Mô hình chuyển đổi cây cú pháp sử dụng thuật toán FnTBL 3.3.1 Mô hình áp dụng chuyển đổi cây cú pháp 3.3.2 Mô hình học luật chuyển đổi bằng phương pháp học FnTBL 3.4 Nâng cao khả năng mở rộng cho mô hình học Chương 4 CÀI ĐẶT CHƯƠNG TRÌNH 4.1 Thiết kế 4.1.1 Mô hình tổng thể 4.2 Thuật toán gán nhãn cơ sở cho ngữ liệu 4.2.1 Thuật toán 4.2.2 Xây dựng cây cú pháp 4.2.3 Xây dựng cây quan hệ 4.2.4 Thuật toán chuyển đổi theo nguyên tắc 4.3 Học chuyển đổi cùng cấp. 4.3.1 Xây dựng ngữ liệu học. 4.3.2 Xây dựng khung luật cho bộ học chuyển đổi cùng cấp 4.3.3 Sơđồ lớp của chương trình học 4.3.4 Xây dựng bộ luật (giai đoạn học cùng cấp) 4.3.5 Áp dụng bộ luật chuyển đổi cùng cấp 4.4 Học chuyển đổi khác cấp 4.4.1 Xây dựng ngữ liệu học 4.4.2 Xây dựng khung luật cho quá trình học chuyển đổi khác cấp 4.4.3 Sơđồ lớp của chương trình học 4.4.4 Xây dựng bộ luật (giai đoạn học khác cấp) Luận văn tốt nghiệp 4.4.5 Áp dụng bộ luật chuyển đổi khác cấp Chương 5 Chương 5 THỬ NGHIỆM – ĐÁNH GIÁ 5.1 Thử nghiệm 5.1.1 Độđo sử dụng 5.1.2 Kết quả học rút luật chuyển đổi 5.1.3 Một số kết quả chuyển đổi 5.2 Đánh giá 5.2.1 Ngữ liệu thử nghiệm 5.2.2 Nhận xét Chương 6 Chương 6 TỔNG KẾT 6.1 Kết quả 6.2 Hướng phát triển 6.3 Kết luận PHỤ LỤC 1 KHUNG LUẬT VÀ MỘT SỐ LUẬT CÙNG CẤP PHỤ LỤC 2 KHUNG LUẬT VÀ MỘT SỐ LUẬT KHÁC CẤP PHỤ LỤC 3 MỘT SỐ KẾT QUẢ DỊCH SỬ DỤNG KHỐI CHUYỂN ĐỔI CÂY CÚ PHÁP VCLTRANSFER PHỤ LỤC 4 MỘT SỐ CÂU DỊCH CỦA HAI HỆ DỊCH PHỤ LỤC 5 HỆ THỐNG NHÃN NG Ữ PHÁP Luận văn tốt nghiệp PHỤ LỤC 6 CÁC NHÃN QUAN HỆ NGỮ PHÁP TÀI LIỆU THAM KHẢO

pdf159 trang | Chia sẻ: maiphuongtl | Lượt xem: 1893 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh - Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
lên câu tiếng Anh. Việc áp dụng các luật diễn ra khá nhanh vì chương trình không cần phải lựa chọn luật nữa mà chỉ cần đưa luật vào áp dụng cho câu tiếng Anh, luật nào không thoả phần điều kiện cho câu tiếng Anh thì được bỏ qua. Sau khi kết thúc luật cuối cùng, chúng ta có cây cú pháp tiếng Anh với trật tự các thành phần là của cây cú pháp tiếng Việt. Sau khi kết thúc quá trình áp dụng các luật chuyển đổi khác cấp, về cơ bản câu tiếng Anh đã có thể được gắn nghĩa tiếng Việt để hình thành câu dịch. Tuy nhiên để có được câu dịch tiếng Việt phù hợp với một số cấu trúc đặc biệt trong tiếng Việt, chúng ta cần tiến hành giai đoạn chèn, xoá các từ trong cây cú pháp tiếng Anh bằng một số hư từ và một số từ đặc biệt trong câu tiếng Việt có tính quyết định đến chất lượng câu dịch. Chuyển đổi cùng cấp Cây cú pháp tiếng Anh với các thành phần cùng cấp có trật tự tiếng Việt Tập luật chuyển đổi cùng cấp Cây cú pháp tiếng Anh với các thành phần có trật tự tiếng Việt Chương 5 – Thử nghiệm & đánh giá Trang 128 Chương 5 THỬ NGHIỆM – ĐÁNH GIÁ 5.1 Thử nghiệm 5.1.1 Độ đo sử dụng Vì mục tiêu cuối cùng của chuyển đổi cây cú pháp là câu có trật tự từ đúng theo tiếng Việt, do đó kết xuất của chương trình chuyển đổi cây cú pháp là một danh sách có thứ tự bao gồm : những từ trong câu tiếng Anh gốc đã được sắp xếp lại, những từ bị xoá được đánh dấu xoá và những từ tiếng Việt được chèn thêm. Ví dụ: Câu tiếng Anh : Do you understand what I say ? E1 E2 E3 E4 E5 E6 E7 Kết quả chuyển đổi: You do có understand what I say không ? E2 X I1 E3 E4 E5 E6 I2 E7 Bạn có hiểu điều mà tôi nói không ? Nếu không xét đến những từ tiếng Việt được chèn thêm, kết quả chuyển đổi của một câu đúng hay không thể hiện ở trật tự các từ tiếng Anh được giữ lại (không bị xoá) có đúng hay không. Trên thực tế dịch một câu tiếng Anh, ta gán nghĩa tiếng Việt cho các từ có nghĩa trong câu trước, muốn cho câu có nghĩa, ta phải sắp xếp những nghĩa này lại. Con người luôn luôn có xu hướng tối thiểu hoá hao phí công sức, do đó số từ cần di chuyển đến vị trí đúng phải là nhỏ nhất. Dựa trên quan điểm này, chúng em đưa ra độ đo mức độ chính xác cho một câu như sau: Chương 5 – Thử nghiệm & đánh giá Trang 129 %100 W A-WDs ×= với DS= Độ chính xác của câu S (%) W = tổng số từ trong câu S A = số từ ít nhất trong câu S cần di chuyển để câu có trật tự từ đúng Xác định A là một bài toán tìm chi phí tối thiểu được giải quyết bằng phương pháp quy hoạch động. Độ đo này tương tự như độ đo số lần “nhấn phím” (Key stroke)[11]. Mỗi một “nhấn phím” bao gồm hai thao tác cắt và dán một từ , là chi phí để chuyển một từ về vị trí đúng của nó. Ta cũng có thể phân loại câu đã chuyển đổi bằng cách chia các câu kết xuất thành các nhóm có A nằm trong một khoảng nào đó. 5.1.2 Kết quả học rút luật chuyển đổi Ngữ liệu huấn luyện sử dụng được lấy từ bộ sách CADASA, Come to the world of microcomputer 12 cuốn do Nhà xuất bản Thống Kê phát hành. Tổng số câu xấp xỉ 10.000, chiều dài trung bình là 17 từ /câu. Để tạo ngữ liệu vàng, đầu tiên ngữ liệu được liên kết từ và phân tích thành cây cú pháp. Từ đó, chương trình sẽ tự động xây dựng ngữ liệu vàng cho cả hai bước huấn luyện. Ngữ liệu vàng bước 2 là cây cú pháp được biểu diễn dưới dạng ngoặc. Ngữ liệu vàng đòi hỏi phải chính xác thì luật rút ra mới chính xác, nhưng việc xây dựng thủ công bằng tay tốn rất nhiều công sức. Do đó, chúng em chọn cách xây dựng bán tự động. Tuy nhiên, cũng cần phải có sự chỉnh sửa bằng tay ở kết quả liên kết từ và ngữ liệu vàng dạng cây cú pháp. Chương 5 – Thử nghiệm & đánh giá Trang 130 Kết quả học luật chuyển đổi cho giai đoạn 1 (chuyển đổi cùng cấp) được tóm tắt trong bảng sau: Tổng số mẫu 79.663 Số khung luật sử dụng (xem phụ lục 1) 12 Thời gian học bước 1 7giờ 23 phút 56 giây1 Số luật rút ra 1427 Số luật được giữ lại 137 Bảng 15: Tóm tắt kết quả học luật chuyển đổi cùng cấp 0.937 0.9375 0.938 0.9385 0.939 0.9395 0.94 0.9405 0.941 1 76 151 226 301 376 451 526 601 676 751 826 901 Hình 38: Đánh giá tập luật học chuyển đổi cùng cấp – 137 luật đầu cho kết quả tốt nhất Kết quả học luật chuyển đổi cho giai đoạn 2 (chuyển đổi khác cấp) được tóm tắt trong bảng sau: Tổng số mẫu học (bằng số cây cú pháp) 5112 Chiều dài câu trung bình 17 từ/câu 1 Cấu hình máy: PIII-800, 256MBRAM Số luật Đ ộ ch ín h xá c Chương 5 – Thử nghiệm & đánh giá Trang 131 Số khung luật sử dụng (phụ lục 2) 3 Thời gian học bước 1 9 giờ 27 phút 06 giây Số luật rút ra 817 Số luật được giữ lại 112 Bảng 16: Tóm tắt kết quả học luật chuyển đổi cùng cấp 0.9394 0.9396 0.9398 0.94 0.9402 0.9404 0.9406 1 70 139 208 277 346 415 484 553 622 691 760 Hình 39: Đánh giá tập luật học chuyển đổi khác cấp – 112 luật đầu cho kết quả tốt nhất 5.1.3 Một số kết quả chuyển đổi Dưới đây là một số minh hoạ cho kết quả dịch sử dụng khối chuyển đổi cú pháp của chúng em (VCLTransfer), câu dịch được hiển thị bằng tiếng Việt. ™ Câu tiếng Anh có sự chuyển đổi tương đối đơn giản Một số kết quả chuyển đổi tương tự: (E1) This computer is the most powerful . (V1) Máy tính này là mạnh nhất . Số luật Đ ộ ch ín h xá c Chương 5 – Thử nghiệm & đánh giá Trang 132 (E) These devices convert a bar code, which is a pattern of printed bar on products, into a code the computer can understand. Ö (V) Những thiết bị này biến đổi một mã thanh, mà là một mẫu của thanh được in trên sản phẩm, vào một mã máy tính có thể hiểu. (E) A game controller can be considered an input device because a computer game is a program. Ö (V) Một bộ điều khiển trò chơi có thể được cân nhắc như một thiết bị đầu vào bởi vì một trò chơi máy tính là một chương trình ™ Câu tiếng Anh có sự chuyển đổi trung bình Một số kết quả chuyển đổi tương tự: (E) Intel will jointly develop the chips with an Israeli company, Alvarion, which will incorporate them into its own line of broadband wireless access systems now under development, the companies said in separate statements. Ö (V) Intel sẽ kết hợp phát triển những vi mạch với một công ty Israeli, Alvarion, mà sẽ tập hợp chúng vào đường của nó của hệ thống (sự) truy cập không dây băng thông rộng bây giờ dưới sự phát triển, những công ty nói trong những tuyên bố riêng biệt. ™ Câu tiếng Anh có sự chuyển đổi phức tạp. Một số kết quả chuyển đổi tương tự: (E3) This system is able to translate all normal and new sentence patterns . (V3) Hệ thống này có khả năng để dịch tất cả các mẫu câu bình thường và mới . (E2) This is a new and very powerful computer . (V2) Đây là một máy tính mới và rất mạnh . Chương 5 – Thử nghiệm & đánh giá Trang 133 (E) Several computer manufacturers now offer another spacesaving pointing device, consisting of a small joystick positioned near the middle of the keyboard, typically between the G and H keys. Ö (V) Vài nhà sản xuất máy tính bây giờ đưa ra một thiết bị trỏ tiết kiệm không gian khác, gồm một cần điều khiển trò chơi nhỏ được định vị gần ở giữa của bàn phím, điển hình giữa những phím G và H. (E) When running any Windows program, you can press Alt to activate the menu bar, and then press a highlighted letter in a menu's name to open that menu. Ö (V) Khi mà chạy bất kỳ chương trình Windows nào, bạn có thể nhấn Alt để kích hoạt thanh thực đơn, rồi sau đó nhấn một chữ sáng mạnh trong tên của một thực đơn để mở thực đơn đó. ™ Câu phủ định trong tiếng Anh Một số kết quả chuyển đổi tương tự: (E) In many cases, however, an ordinary input device may not be appropriate. Ö (V) Tuy nhiên, trong nhiều trường hợp, một thiết bị đầu vào thông thường không có thể (thì) thích hợp. ™ Câu hỏi trong tiếng Anh (E1) Is an old man installing a new computer program ? (V1) Một người đàn ông già đang cài đặt một chương trình máy tính mới phải không ? (E4) Some people can not use a mouse. (V4) Vài người không có thể sử dụng một con chuột. Chương 5 – Thử nghiệm & đánh giá Trang 134 Một số kết quả chuyển đổi tương tự: (E) How do you double-click an item with a mouse ? Ö (V) Nhấp kép một mục với một con chuột bằng cách nào ? (E) Do you think Intel should implement a similar change? Ö (V) Bạn có suy nghĩ Intel nên thực hiện một sự thay đổi tương tự như nhau không? (E) Which operating system are you using ? Ö (V) Bạn đang sử dụng hệ điều hành nào ? Một trong các vấn đề lớn của chuyển đổi cây cú pháp trong hệ dịch Anh-Việt là giải quyết chuyển đổi cho câu hỏi. Việc chuyển đổi cấu trúc cho các dạng câu hỏi dễ dẫn đến việc các luật mâu thuẫn nhau. Điều này cũng làm ảnh hưởng đến chất lượng tập luật: không đảm bảo có thể chuyển đổi được tất cả các dạng câu hỏi nói riêng và đối với các cấu trúc câu khác nói chung. Do tính phức tạp của câu hỏi, các cấu trúc câu hỏi thường phải có sự tác động bởi cả 4 giai đoạn: chuyển đổi cơ sở dựa trên các nguyên tắc; chuyển đổi các thành phần cùng cấp/khác cấp và cuối cùng là giai đoạn chèn/xoá. 5.2 Đánh giá 5.2.1 Ngữ liệu thử nghiệm Ngữ liệu thử nghiệm của chúng em gồm 1.000 câu trong bộ sách CADASA trong phần chưa được dùng để huấn luyện. Kết quả thử nghiệm được tóm tắt trong bảng sau: (E1) How can a computer compute a complex formular ? (V1) Một máy tính có thể tính toán một công thức phức tạp bằng cách nào ? Chương 5 – Thử nghiệm & đánh giá Trang 135 W A Độ chính xác Ds Sau khi gán nhãn chuyển đổi cơ sở 17.767 2.239 87,4% Sau khi chuyển đổi cùng cấp 17.767 1.385 92,2% Sau khi chuyển đổi khác cấp 17.767 1.058 94,1% Bảng 17: Kết quả thử nghiệm việc áp dụng chuyển đổi cây cú pháp Ngoài ra để đánh giá chung về kết quả chuyển đổi của chương trình (bao gồm cả phần chèn/xoá các thành phần chức năng trong tiếng Việt. Chúng em so sánh kết xuất của chương trình với một chương trình dịch hiện có ở thị trường, EVTRAN 2.0 (công ty SOFTEX, 1999-2000). Do kết quả dịch là sự phối hợp giữa chuyển đổi cấu trúc và chuyển đổi từ vựng, nên việc đánh giá kết quả chuyển đổi cấu trúc không thể làm tự động dựa vào kết quả dịch. Chúng ta chỉ có thể đánh giá một câu đúng, sai về trật tự từ mà thôi. Một số mẫu câu dịch từ hai hệ thống được chúng em trình bày trong phần phụ lục 4. Ở đây chúng em muốn nhấn mạnh đến trật tự của từ trong câu còn về ngữ nghĩa trên bề mặt của câu thuộc về một thành phần khác của hệ dịch. 5.2.2 Nhận xét Chương trình chuyển đổi cây cú pháp chuyển đổi rất tốt trong phạm vi cùng cấp và chuyển đổi được các thành phần khác cấp, điều mà các chương trình chuyển đổi dựa trên luật cố định không thể thực hiện được hoặc chỉ có thể thực hiện trên bề mặt câu. Tuy nhiên vẫn còn một số vấn đề trở ngại rất lớn cho việc chuyển đổi cú pháp. Đó là sự phụ thuộc của chương trình chuyển đổi cây cú pháp vào sự chính xác của quá trình phân tích ở bước trước. Cụ thể đó là các bộ phận: gán nhãn từ loại, phân tích cú pháp câu, và xác định quan hệ ngữ pháp trong câu. Chẳng hạn, nếu các từ trong cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. Phương pháp học chuyển trạng thái có thể học ra luật khắc phục những lỗi sai có hệ thống. Những lỗi sai quá chi tiết dẫn đến luật sửa sai cũng chi tiết và không thể áp dụng cho đa số các trường hợp khác, thậm chí có thể làm Chương 5 – Thử nghiệm & đánh giá Trang 136 sai ở trường hợp mới. Để khắc phục nhược điểm này, ta cần phải tăng lượng ngữ liệu học và tính đa dạng của bộ ngữ liệu học. Chương 6 - Tổng kết Trang 137 Chương 6 TỔNG KẾT 6.1 Kết quả Hiện nay, chương trình chuyển đổi cây cú pháp có khả năng: ™ Chuyển đổi trật tự các thành phần cùng cấp với nhiều mức độ phức tạp: chuyển đúng vị trí các định ngữ so với danh từ trung tâm trong định ngữ, bổ ngữ so với tính từ/động từ trong tính ngữ/động ngữ, … ™ Chuyển đổi trật tự các thành phần không cùng cấp: chuyển vị trí các trạng từ bổ nghĩa cho câu, vị trí những từ hỏi, … ™ Chèn, xoá một số thành phần như: xoá trợ động từ trong câu tiếng Anh (không có ý nghĩa ngữ pháp trong tiếng Việt), chèn thêm một số hư từ để câu tiếng Việt trở nên tự nhiên hơn. Như vậy, chương trình đã cơ bản hoàn thành những mục tiêu mà luận văn đã đề ra ban đầu là chuyển đổi cây cú pháp cho tài liệu khoa học kỹ thuật (trước mắt là tài liệu về tin học) và có khả năng tiếp tục mở rộng trong tương lai khi chúng em xây dựng được kho ngữ liệu huấn luyện đầy đủ và bao quát hơn nữa. Tuy nhiên cho đến nay, chương trình vẫn còn một số hạn chế do sự nhập nhằng về mặt cấu trúc cũng như độ chính xác của kết quả khối phân tích bước trước (phân tích ngữ pháp, xác định quan hệ, …). 6.2 Hướng phát triển Chương trình được cài đặt theo phương pháp hướng đối tượng kết hợp với khả năng mở rộng của chương trình học, do đó có khả năng phát triển dễ dàng trong tương lai. Trong thời gian tới, chúng em sẽ tiếp tục hoàn thiện ngữ liệu học cả về số lượng lẫn chất lượng để chương trình bao quát nhiều cấu trúc hơn nữa. Chương 6 - Tổng kết Trang 138 Mặt khác, do giới hạn của luận văn, khung luật trong chương trình chỉ khai thác các đặc trưng về từ loại, từ, cấu trúc ngữ, … mà chưa quan tâm đến những nhân tố ảnh hưởng đến sự khác biệt cấu trúc giữa tiếng Anh và tiếng Việt khác. Do đó, chúng em sẽ tiếp tục mở rộng thêm các loại khung luật để có thể rút trích được những đặc trưng còn lại như: ngữ nghĩa, chiều dài nghĩa tiếng Việt của một thành phần cú pháp (chẳng hạn: "Trong tiếng Việt, định ngữ dài hơn sẽ đứng sau các định ngữ ngắn hơn"), loại tính từ miêu tả làm định ngữ trong các danh ngữ (chỉ màu sắc, hình dáng,...), ... 6.3 Kết luận Cấu trúc cú pháp của câu góp phần tạo nên ngữ nghĩa của câu. Do đó, chuyển đổi cấu trúc cú pháp trong hệ dịch tự động Anh-Việt góp một phần không nhỏ vào chất lượng của hệ dịch. Trong luận văn này, chúng em đưa ra một cách tiếp cận mới trong việc chuyển đổi cây cú pháp Anh-Việt, dựa trên phương pháp học Chuyển trạng thái và hướng lỗi nhanh (FnTBL) để rút trích tri thức chuyển đổi từ ngữ liệu song ngữ. Chương trình chuyển đổi cây cú pháp được cài đặt cho kết quả thử nghiệm trên các tài liệu Khoa học khá cao (trên 94%) đã chứng tỏ đây là một phương pháp có tiềm năng rất lớn. Với kết quả đạt được và qua thực nghiệm, chúng em thấy rằng khối chuyển đổi cây cú pháp của chúng em thực hiện có thể được đưa vào làm khối chuyển đổi trong hệ dịch tự động Anh-Việt dựa trên sự chuyển đổi khá tốt. Đây cũng chỉ là bước khởi đầu trong quá trình nghiên cứu về chuyển đổi cấu trúc Anh-Việt. Để chương trình đạt chất lượng cao nhất đòi hỏi cả một quá trình tiếp tục lao động nghiên cứu, sáng tạo không ngừng. Tuy nhiên, kết quả bước đầu này của chương trình là một sự khích lệ để chúng em bước tiếp trên con đường thực hiện mơ ước “được đóng góp một phần nhỏ bé vào việc xây dựng một hệ dịch tự động từ tiếng Anh sang chính tiếng mẹ đẻ của mình - tiếng Việt”. Phụ lục Trang 139 PHỤ LỤC 1 KHUNG LUẬT VÀ MỘT SỐ LUẬT CÙNG CẤP STT Khung luật học chuyển đổi cùng cấp 1 prpos=(P) & pos(X,Y)=() & idx(X,Y)=() : idx(X,Y)=() 2 grpos=(G) & prpos=(P) & pos(X,Y)=() & idx(X,Y)=() : idx(X,Y)=() 3 prpos=(P) & pos(X,Y)=() & wrd(T)=({DT},W) & idx(X,Y)=() : idx(X,Y)=() 4 prpos=(P) & pos(X,Y)=() & wrd(T)=({JJ},W) & idx(X,Y)=() : idx(X,Y)=() 5 prpos=(P) & pos(X,Y)=() & wrd(T)=({RB},W) & idx(X,Y)=() : idx(X,Y)=() 6 prpos=(P) & pos(X,Y)=() & wrd(T)=({IN},W) & idx(X,Y)=() : idx(X,Y)=() 7 prpos=(P) & pos(X,Y)=() & wrd(T)=({AUX},W) & idx(X,Y)=() : idx(X,Y)=() 8 prpos=(P) & pos(X,Y)=() & wrd(T)=({PRP$},W) & idx(X,Y)=() : idx(X,Y)=() 9 prpos=(P) & pos(X,Y)=() & wrd(T)=({CC},W) & idx(X,Y)=() : idx(X,Y)=() 10 prpos=(P) & pos(X,Y)=() & wrd(T)=({MD},W) & idx(X,Y)=() : idx(X,Y)=() 11 prpos=(P) & pos(X,Y)=() & wrd(T)=({PRT},W) & idx(X,Y)=() : idx(X,Y)=() 12 prpos=(P) & pos(X,Y)=() & wrd(T)=({ORD},W) & idx(X,Y)=() : idx(X,Y)=() STT Một số luật chuyển đổi cùng cấp 1 prpos=({NP}) & pos(1,2)=({NN},{CD}) & idx(1,2)=({2},{1}) : idx(1,2)=({1},{2}) 2 prpos=({NP}) & pos(1,3)=({DT},{NN},{POS}) & wrd(1)=({DT},{the}) & idx(1,3)=({2},{3},{1}) : idx(1,3)=({1},{3},{2}) 3 prpos=({NP}) & pos(1,2)=({NNP},{CD}) & idx(1,2)=({2},{1}) : idx(1,2)=({1},{2}) 4 grpos=({S1}) & prpos=({SBARQ}) & pos(1,3)=({WHNP},{SQ},{.}) & Phụ lục Trang 140 idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},{1},{3}) 5 prpos=({VP}) & pos(1,3)=({MD},{ADVP},{VP}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},{1},{3}) 6 prpos=({NP}) & pos(1,3)=({DT},{ORD},{NN}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({1},{3},{2}) 7 grpos=({S}) & prpos=({NP}) & pos(1,3)=({NP},{:},{NP}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({3},{1},{2}) 8 prpos=({ADJP}) & pos(1,2)=({RB},{JJR}) & wrd(1)=({RB},{much}) & idx(1,2)=({1},{2}) : idx(1,2)=({2},{1}) 9 prpos=({SQ}) & pos(1,3)=({MD},{NP},{VP}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},{1},{3}) 10 prpos=({ADVP}) & pos(1,2)=({RBS},{RB}) & idx(1,2)=({1},{2}) : idx(1,2)=({2},{1}) 11 prpos=({NP}) & pos(1,3)=({VB},{NN},{CD}) & idx(1,3)=({1},{3},{2}) : idx(1,3)=({1},{2},{3}) 12 prpos=({SBARQ}) & pos(1,3)=({WHADVP},{SQ},{.}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},{1},{3}) 13 prpos=({NP}) & pos(1,4)=({DT},{NN},{NN},{POS}) & idx(1,4)=({2},{4},{3},{1}) : idx(1,4)=({1},{4},{3},{2}) 14 prpos=({ADJP}) & pos(1,3)=({RBS},{RB},{VBN}) & idx(1,3)=({1},{2},{3}) : idx(1,3)=({3},{2},{1}) 15 prpos=({NP}) & pos(1,4)=({DT},{JJ},{NN},{POS}) & wrd(1)=({DT},{the}) & idx(1,4)=({2},{4},{3},{1}) : idx(1,4)=({1},{4},{3},{2}) 16 grpos=({SQ}) & prpos=({VP}) & pos(1,2)=({AUX},{NP}) & idx(1,2)=({1},{2}) : idx(1,2)=({2},{1}) 17 prpos=({NP}) & pos(1,3)=({DT},{JJ},{NN}) & wrd(2)=({JJ},{great}) & idx(1,3)=({1},{3},{2}) : idx(1,3)=({1},{2},{3}) 18 grpos=({ADJP}) & prpos=({ADVP}) & pos(1,2)=({RB},{RBR}) & idx(1,2)=({1},{2}) : idx(1,2)=({2},{1}) 19 grpos=({NP}) & prpos=({ADJP}) & pos(1,2)=({RB},{VBN}) & idx(1,2)=({1},{2}) : idx(1,2)=({2},{1}) 20 prpos=({NP}) & pos(1,4)=({JJ},{:},{NN},{NNS}) & idx(1,4)=({1},{2},{4},{3}) : idx(1,4)=({4},{1},{3},{2}) Phụ lục Trang 141 PHỤ LỤC 2 KHUNG LUẬT VÀ MỘT SỐ LUẬT KHÁC CẤP STT Khung luật học chuyển đổi khác cấp 1 route() & pos() & posb(X,Y)=() & pose(W,Z)=() : move(U,V) 2 route() & pos() & posb(X,Y)=() & pose(W,Z)=() & posw()=(IN) & wrd()=(T) : move(U,V) 3 route() & pos() & posb(X,Y)=() & pose(W,Z)=() & posw()=(IN) & wrd()=(T) & noc()=(N) : move(U,V) STT Một số luật chuyển đổi khác cấp 1 route(0.1.0,0.1,0)&pos(RB,ADVP,VP)&posb(0,0)=(RB)& pose(0,2)=(AUX,ADVP,NP):move(0,0)posw()=(RB)&wrd()=(too): move(0,0) 2 route(0.1,0,0.2) & pos(ADVP,S,VP) & posb(0,3)=(NP,ADVP,VP,.) & pose(0,1)=(VBZ,SBAR) : move(1,1) 3 route(0.1,0,0.2) & pos(ADVP,S,VP) & posb(0,3)=(NP,ADVP,VP,.) & pose(0,1)=(VBP,SBAR) : move(1,1) 4 route(0.2.1,0.2,0) & pos(AUX,VP,SQ) & posb(0,1)=(N*,AUX) & pose(0,2)=(N*,MD,VP) : move(1,2) 5 route(0.1,0,0.2) & pos(WH*,VP,PP) & posb(0,2)=(VBG,WH*,PP) & pose(0,0)=(IN) : move(1,1) 6 route(0.1.0,0.1,0,0.0) & pos(RB,VP,S,NP) & pose(0,0)=(EX) & posw()=(RB) & wrd()=(not) : move(0,0) 7 route(0.3.1,0.3,0) & pos(AUX,VP,SQ) & posb(0,1)=(N*,AUX) & pose(0,4)=(NP,AUX,ADVP,VP,.) & posw(1)=(AUX) & wrd(1)=(been) : move(1,3) 8 route(0.1.0,0.1,0,0.0,0.0.0) & pos(WP,WH*,SBARQ,SQ,VP) & posb(0,0)=(WP)&pose(0,1)=(VB*,S)&posw()=(WP)&wrd()=(what):move(1,0) 9 route(0.1,0,0.2,0.2.0) & pos(WH*,VP,S,VP) & posb(0,2)=(VBG,WH*,S) & pose(0,0)=(TO) : move(1,1) 10 route(0.2.0,0.2,0) & pos(RB,ADVP,VP) & posb(0,0)=(RB) & pose(0,2)=(VBP,NP,ADVP) & Phụ lục Trang 142 PHỤ LỤC 3 MỘT SỐ KẾT QUẢ DỊCH SỬ DỤNG KHỐI CHUYỂN ĐỔI CÂY CÚ PHÁP VCLTRANSFER Với đề tài “Xây dựng chương trình chuyển đổi cây cú pháp tự động trong hệ dịch Anh-Việt” của chúng em, chất lượng chuyển đổi của chương trình đã được kiểm chứng thực tế qua việc tích hợp khối chuyển đổi vào trong hệ dịch Anh-Việt hoàn chỉnh. Dưới đây là một số kết quả dịch của hệ dịch VCLEVT 2.0 đã được tích hợp khối chuyển đổi cây cú pháp của chúng em (đây là chương trình dịch tự động Anh-Việt do nhóm VCL thực hiện). * Do chúng em muốn nhấn mạnh đến chất lượng của khối chuyển đổi nên trong phần dịch dưới đây chúng em có hiệu chỉnh lại ngữ nghĩa của một số từ chưa được dịch chính xác lắm (tuy nhiên rất hạn chế), điều này chỉ nhằm mục đích làm cho câu dịch dễ đọc và dễ theo dõi hơn; kết quả chuyển đổi là kết quả thực tế của chương trình và không có bất cứ sự hiệu chỉnh nào. ™ Các câu tiếng Anh thử nghiệm dưới đây thuộc bộ sách CADASA, Come to the world of microcomputers, NXB Thống kê, 2002. STT Câu tiếng Anh VCLEVT 2.0 (sử dụng VCLTransfer) 1 In an era of high-speed communications, we want to receive information immediately and in many ways simultaneously. Vào một thời đại của truyền thông tốc độ cao, chúng tôi muốn để nhận thông tin ngay lập tức và trong nhiều cách song song. 2 Today's multimedia products appeal to multiple senses at one time and respond to our changing needs with ever-increasing speed. Những sản phẩm truyền thông đa phương tiện của hôm nay kêu gọi tới nhiều giác quan cùng một lúc và đáp ứng tới những nhu cầu thay đổi của chúng tôi với tốc độ ngày càng tăng. Phụ lục Trang 143 3 This chapter introduces you to basic multimedia concepts and explains how multimedia works. Chương này giới thiệu bạn tới những khái niệm truyền thông đa phương tiện cơ bản và giải thích làm thế nào những truyền thông đa phương tiện làm việc. 4 At a more advanced level, people use movies and television to combine multiple types of media (sound, video, animation, still graphics, and text) to create different kinds of messages that inform or entertain in unique and meaningful ways. Tại một mức tiên tiến hơn, người sử dụng những phim và truyền hình để kết hợp nhiều loại của phương tiện ( âm thanh, hình, hoạt hình, vẫn còn những đồ họa, và văn bản ) để tạo ra những loại khác nhau của thông điệp mà báo tin hay là giải trí trong những cách duy nhất và đầy ý nghĩa. 5 This requirement may mean giving the user multiple pieces of information simultaneously - such as a rotating 3-D image of a motor, an audio description of its function, and pop-up text boxes that provide more information when the user points at certain parts of the graphic. Yêu cầu này có thể nghĩa là đưa nhiều miếng người dùng của thông tin song song - như là một hình ảnh 3-D đang quay của một động cơ, một sự mô tả âm của chức năng của nó, và những cái hộp văn bản phổ biến mà cung cấp thông tin nhiều hơn khi mà người dùng trỏ tại những bộ phận nào đó của đồ họa. 6 Multimedia developers continually struggle to find ways to make their products more appealing to users, whether the product is a fast-paced action game, a tutorial on disk, or an e-commerce Web site. Những nhà phát triển truyền thông đa phương tiện liên tục đấu tranh để tìm thấy những cách để làm những sản phẩm của họ hấp dẫn hơn tới những người dùng, dù sản phẩm là một trò chơi hoạt động fast-paced, một sự hướng dẫn trên dĩa, hay là một trang web thương mại điện tử. 7 Steps in a tutorial or a carefully crafted story, for example, must be told in an unalterable sequence for accuracy or the most dramatic impact. Ví dụ như, những bước trong một sự hướng dẫn hay là một chuyện được thủ công cẩn thận, phải được bảo trong một dãy nối tiếp không có thể thay đổi được cho sự chính xác hay là sự va chạm kịch tính nhất. 8 Because of the intensive amount of digital information that goes into building every second of a program, multimedia publishers must always consider the user's equipment - the hardware on which the content will be displayed. Bởi vì lượng cao độ của thông tin số mà đi vào xây dựng mọi giây của một chương trình nên nhà xuất bản truyền thông đa phương tiện luôn luôn phải cân nhắc thiết bị của người dùng - phần cứng mà trên đó nội dung sẽ được hiển thị. Phụ lục Trang 144 9 The advantage of passive matrix monitors is that they are less expensive than active matrix, a major consideration in laptops where the monitor can account for one-third the cost of the entire computer. Thuận lợi của màn hình ma trận thụ động là rằng chúng (thì) ít mắc hơn hơn so với ma trận đang hoạt động, một sự cân nhắc chính trong những máy xách tay nơi mà màn hình có thể xem như là one-third(một phần ba) giá của toàn thể máy vi tính. 10 Many large companies and organizations rely heavily on a commercial or custom DBMS to handle immense data resources. Nhiều công ty lớn và tổ chức phụ thuộc nặng nề trên một DBMS thương mại hay là phong tục để xử lý những tài nguyên dữ liệu bao la. ™ Các câu tiếng Anh thử nghiệm dưới đây thuộc phần Help and Support của Windows XP Professional, Microsoft Coporation. STT Câu tiếng Anh VCLEVT 2.0 (Sử dụng VCLTransfer) 1 Read articles containing full descriptions for performing key tasks from start to finish. Đọc những tác phẩm chứa những sự mô tả đầy đủ cho thực hiện những nhiệm vụ chủ chốt từ khởi đầu để/đến hoàn tất. 2 Thank you for choosing to use Windows-XP-Professional! Cám ơn bạn cho chọn để sử dụng Windows- XP-Professional! 3 There are many new and exciting features at your fingertips. Có nhiều đặc tính mới và thú vị lúc/ở những đầu ngón tay của bạn. 4 You can also communicate with other people on other networks without worrying about compromising your privacy or your personal data files. Bạn cũng có thể truyền tin với người khác trên những mạng khác mà không có lo ngại về thỏa hiệp riêng tư của bạn hay là những tập tin dữ liệu cá nhân của bạn. 5 Windows XP Professional has many features and tools that will make using your computer easy, effective, and entertaining. Windows XP Professional có nhiều đặc tính và công cụ mà sẽ làm sử dụng máy tính của bạn dễ, hữu hiệu, và giải trí. 6 Copying software without the permission of the owner is "copyright infringement," and the law imposes penalties on infringers. Sao chép phần mềm mà không có sự cho phép của người sở hữu là `` sự vi phạm bản quyền bản quyền, '' và luật đánh thuế những phạt trên những người vi phạm bản quyền. Phụ lục Trang 145 7 Almost all commercial computer software is licensed directly or indirectly from the copyright owner (the software publisher) for use by the customer through a type of contract called an "End User License Agreement" (also known as a EULA). Hầu như tất cả phần mềm máy tính thương mại được cho phép trực tiếp hay là gián tiếp từ người sở hữu bản quyền ( nhà xuất bản phần mềm ) cho việc sử dụng bởi khách hàng xuyên qua một loại của hợp đồng gọi một `` sự thỏa thuận giấy phép người dùng cuối '' ( cũng biết như một EULA ). 8 Do Microsoft products give me the ability to access the Internet? Những sản phẩm Microsoft có đưa tôi khả năng để truy cập Internet không? 9 Internet access is a feature included in most Microsoft products. (sự) truy cập mạng INTERNET là một đặc tính được bao gồm trong hầu hết những sản phẩm Microsoft. 10 It is important to understand the difference between registering your copy of Windows-XP and activating it. Nó (thì) quan trọng để hiểu sự khác nhau giữa đăng ký bản sao của bạn của Windows-XP và kích hoạt nó. ™ Các câu tiếng Anh thử nghiệm dưới đây thuộc trang Web của PCWorld Mỹ, địa chỉ STT Câu tiếng Anh VCLEVT 2.0 (Sử dụng VCLTransfer) 1 Ink jet printers, along with digital cameras, are changing the way we print photographs. Dọc theo với những máy ảnh số, những máy in tia mực, đang thay đổi cách chúng tôi in những bức hình chụp. 2 When loaded with special photo inks and paper, ink jet printers have become one of the best options for transforming a digital image into a photograph. Khi mà nạp với những mực bức ảnh đặc biệt và giấy, những máy in tia mực trở nên một trong những sự lựa chọn tốt nhất cho biến thể một hình ảnh số thành một bức hình chụp. 3 These printers provide superior text quality compared with high- end ink jet printers. Những máy in này cung cấp chất lượng văn bản cao cấp so sánh với những máy in tia mực đầu cuối. 4 Ink jet printers are inexpensive printers for the masses, designed for home users, students, or anyone who isn't concerned about Những máy in tia mực là những máy in không đắt cho những khối lượng lớn, được thiết kế cho những người dùng nhà, những sinh viên, hay là ai (thì) không có liên quan Phụ lục Trang 146 the highest text quality. khoảng chất lượng văn bản cao nhất nhất. 5 A high price does not necessarily indicate excellent graphics. Một giá cao không nhất thiết chỉ thị những đồ họa xuất sắc. 6 From home offices to businesses, monochrome laser printers offer the best balance between price, print quality, and speed. Từ những văn phòng nhà tới những kinh doanh, những máy in la-de đơn sắc đưa ra cân bằng tốt nhất giữa giá, chất lượng in, và tốc độ. 7 If you need color, you'll probably want an ink jet printer, but if you have the space, it's almost worth it to buy both. Nếu bạn cần màu thì bạn có lẽ sẽ muốn một máy in tia mực, nhưng nếu bạn có không gian thì nó (thì) nó đáng giá để mua cả hai. 8 Color laser toner cartridges are also potentially hazardous to the environment. Những băng mực toner la-de màu (thì) cũng có tiềm năng nguy hiểm tới môi trường. 9 Few home users will need a color laser printer Một ít người dùng nhà sẽ cần một máy in la-de màu. 10 If you plan to print mostly photos, look for photo printers with extra features such as a built-in PC Card slot, an LCD panel that allows you to view and print an image without using your PC, and bundled image-editing software. Nếu bạn hoạch định để in chủ yếu những bức ảnh thì tìm kiếm những máy in bức ảnh với những đặc tính thêm như là một khe PC Card nội tại, một bảng điều khiển LCD mà cho phép bạn xem và in một hình ảnh mà không có sử dụng PC của bạn, và phần mềm image-editing. 11 These printers provide superior text quality compared with high- end ink jet printers. Những máy in này cung cấp chất lượng văn bản cao cấp so sánh với những máy in tia mực đầu cuối. 12 PC World tests and reviews three different types of printers: ink jets, monochrome lasers, and color lasers, on a regular basis. PC World kiểm tra và ôn lại ba loại khác nhau của máy in: tia mực, những la-de đơn sắc, và những la-de màu, trên một cơ sở thông thường. Phụ lục Trang 147 PHỤ LỤC 4 MỘT SỐ CÂU DỊCH CỦA HAI HỆ DỊCH Dưới đây là một số kết quả dịch của hai hệ dịch VCLEVT 2.0 đã được tích hợp khối chuyển đổi cây cú pháp của chúng em và hệ dịch EVTRAN 2.0 hiện là một sản phẩm thương mại trên thị trường. ™ Các câu tiếng Anh thử nghiệm dưới đây thuộc bộ sách CADASA, Come to the world of microcomputers, NXB Thống kê, 2002. STT VCLEVT 2.0 (sử dụng VCLTransfer) EVTRAN 2.0 1 You can also communicate with other people on other networks without worrying about compromising your privacy or your personal data files. Bạn cũng có thể truyền tin với người khác trên những mạng khác mà không có lo ngại về thỏa hiệp riêng tư của bạn hay là những tập tin dữ liệu cá nhân của bạn. Bạn có thể cũng giao tiếp với những người khác trên (về) những mạng khác mà không có gây lo lắng về việc thoả hiệp sự riêng tư hoặc những tập tin dữ liệu cá nhân (của) Bạn (của) Bạn. 2 From time to time , you may see the term Windows 3.x . Từng lúc, bạn có thể thấy/xem thuật ngữ Windows 3.x. Thỉnh thoảng, bạn có thể nhìn thấy thuật ngữ Windows 3. X. 3 In other words , two computers running Windows for Workgroups could be networked together without the need to purchase a separate network operating system like Novell NetWare . Nói một cách khác, hai máy tính chạy Windows cho Workgroups có thể được nối mạng cùng với mà không có nhu cầu để mua một hệ điều hành mạng riêng biệt giống Novell NetWare. Nói cách khác, hai máy tính chạy Windows cho những nhóm làm việc có thể (thì) được nối mạng cùng nhau mà không có nhu cầu để mua một hệ điều hành mạng riêng biệt như Novell NetWare. 4 The IBM / Microsoft partnership did not last long . Phụ lục Trang 148 Cùng hội IBM / Microsoft đã không kéo dài lâu. IBM / quan hệ đối tác Microsoft không lần cuối kéo dài. 5 At the time of its release , Windows NT addressed the market for the 32-bit , networked workstations that used some of the most powerful CPUs on the market . Lúc thời gian của ấn bản của nó, Windows NT định địa chỉ thị trường cho những trạm làm việc 32-bit, nối mạng mà sử dụng một vài CPU mạnh nhất trên thị trường. Vào thời gian (của) phiên bản (của) nó, Windows NT hướng vào thị trường cho 32 bít, nối mạng những trạm làm việc mà sử dụng một ít CPUs mạnh nhất trên thị trường. 6 If you have a Macintosh , you may also be able to run some versions of UNIX or Linux ( but not Windows ) . Nếu bạn có một Macintosh thì bạn cũng có thể có khả năng để chạy vài phiên bản của UNIX hay là Linux ( nhưng không những cửa sổ ). Nếu bạn có một Macintosh, bạn có thể cũng (thì) có thể chạy vài phiên bản (của) UNIX hoặc Linux ( Nhưng Không phải là Windows). 7 Do you plan to develop or test applications that run on a specific operating system ? Bạn có hoạch định để phát triển hay là kiểm tra những ứng dụng mà chạy trên một hệ điều hành cụ thể không? Bạn lập kế hoạch phát triển hoặc kiểm tra những ứng dụng mà chạy trên (về) một hệ điều hành đặc biệt không ? 8 She plays tennis and he does too . Cô ấy chơi quần vợt và anh ấy cũng vậy. Cô ấy cũng chơi quần vợt và anh ta làm. 9 The Web is a convenient place to obtain updated information about your new operating system . Web là một chỗ tiện lợi để nhận được thông tin được cập nhật về hệ điều hành mới của bạn. Mạng là một chỗ tiện lợi để đang tồn tại cập nhật hệ điều hành thông tin về mới (của) bạn. 10 Resources on the local computer , as well as resources on remote servers , can be configured to limit access to specific users and groups of users . Những tài nguyên trên máy tính cục bộ, tốt bằng những tài nguyên trên những máy chủ từ xa, có thể được cấu hình để giới hạn (sự) truy cập tới những người dùng cụ thể và những nhóm Những tài nguyên trên (về) máy tính địa phương, cũng như những tài nguyên trên (về) những người phục vụ từ xa, có thể được định hình tới những truy nhập tới những người dùng và những nhóm Phụ lục Trang 149 của người dùng. đặc biệt (của) người dùng giới hạn. 11 Although performance varies according to your hardware and application , you can expect about a 50 percent improvement . Mặc dù sự thực thi thay đổi tới phần cứng và ứng dụng của bạn nhưng bạn có thể mong đợi về một sự cải tiến 50 phần trăm. Mặc dầu sự thực hiện thay đổi theo phần cứng và ứng dụng (của) bạn, bạn có thể chờ đợi khoảng một 50 sự cải tiến phần trăm. 12 If you have an active Internet connection , the information will update automatically . Nếu bạn có một kết nối Internet đang hoạt động thì thông tin sẽ cập nhật một cách tự động. Nếu bạn có một tích cực kết nối Internet, thông tin sẽ cập nhật tự động. 13 Commercial software developers have also made a commitment to Linux , and users can expect to see popular software applications to be modified to run under Linux . Những nhà phát triển phần mềm thương mại cũng làm một sự cam kết tới Linux, và những người dùng có thể mong đợi để thấy/xem những ứng dụng phần mềm phổ biến để được hiệu đính để chạy dưới Linux. Phần mềm Thương mại (mà) những người phát triển có cũng làm một tống đạt tới Linux, và những người dùng có thể mong đợi săn sóc những ứng dụng phần mềm đại chúng sẽ được sửa đổi được chạy dưới Linux. 14 Some complicated language generation systems involve taking syntactic knowledge, semantic knowledge, pragmatic knowledge and world knowledge into consideration. Vài hệ thống thế hệ ngôn ngữ làm phức tạp liên quan lấy kiến thức cú pháp, kiến thức ngữ nghĩa, kiến thức võ đoán và kiến thức thế giới vào sự cân nhắc. Thế hệ ngôn ngữ được làm phức tạp nào đó (mà) những hệ thống kéo theo cầm (lấy) cho kiến thức và thế giới kiến thức cú pháp , kiến thức ngữ nghĩa học , thực dụng kiến thức vào trong sự xem xét. Phụ lục Trang 150 ™ Các câu tiếng Anh thử nghiệm dưới đây thuộc phần Help and Support của Windows XP Professional, Microsoft Coporation. STT VCLEVT 2.0 (sử dụng VCLTransfer) EVTRAN 2.0 1 Did you know? Bạn có biết không ? Làm bạn biết? 2 When you are connected to the Internet, this area will display links to timely help and support information. Khi mà bạn được nối tới Internet, khu vực này sẽ hiển thị những mối liên kết tới sự giúp đỡ đúng lúc và hỗ trợ thông tin. Khi bạn đợc nối tới mạng(lới), nhau (mà) vùng này sẽ trình bày liên kết tới thông tin giúp đỡ và hỗ trợ đúng lúc. 3 If you want to connect to the Internet now, start the New-Connection-Wizard and see how to establish a Web connection through an Internet service provider. Nếu bạn muốn để nối tới Internet bây giờ thì bắt đầu New-Connection-Wizard và thấy/xem làm thế nào để thiết lập một kết nối web xuyên qua một nhà cung cấp dịch vụ Internet. Nếu bạn muốn nối tới Internet bây giờ, khởi động New_Connection_Wizard và xem làm sao để thiết lập một kết nối Mạng xuyên qua một nhà cung cấp dịch vụ Internet. 4 See what is new; take an entertaining tour; learn about the programs Windows-XP contains, including systems, accessories, and communications and entertainment programs. Thấy/xem cái gì (thì) mới; lấy một chuyến du lịch giải trí; học về những chương trình Windows-XP chứa, bao gồm những hệ thống, những phụ tùng, và những truyền thông và những chương trình sự giải trí. Xem cái gì (thì) mới; cầm (lấy) một giải trí đi du lịch; học khoảng những chơng trình (mà) Windows - XP chứa đựng , kể cả những hệ thống, (mà) phụ kiện, và truyền thông và trò giải trí lập trình. 5 For example, you can use Remote-Desktop to access your work computer and its resources from home, and to view files and documents on your computer's desktop from a co-worker's computer. Ví dụ như, bạn có thể sử dụng Remote- Desktop để truy cập máy tính công việc của bạn và những tài nguyên của nó từ nhà, và để xem những tập tin và những tài liệu trên loại để bàn của máy tính của bạn từ máy tính của một đồng Chẳng hạn, bạn có thể sử dụng Từ xa - Desktop để truy nhập máy tính công việc (của) bạn và những tài nguyên (của) nó từ ở nhà, và để nhìn những hồ sơ và những tài liệu trên máy tính của bạn có Desktop từ một co - máy tính Phụ lục Trang 151 nghiệp. (của) công nhân. 6 With NetMeeting you can have virtual meetings with anyone, anywhere, and you can participate in discussions using audio, video, or chat. Với NetMeeting bạn có thể có những cuộc họp ảo với bất kỳ ai, bất kỳ nơi nào, và bạn có thể tham dự những cuộc thảo luận sử dụng âm, hình, hay là tán gẫu. Với NetMeeting bạn có thể cho phép thực tế gặp Với bất cứ ai, bất cứ nơi đâu, và bạn có thể can dự vào những thảo luận sử dụng âm thanh, viđêô, hoặc tán gẫu. 7 Windows-XP-Professional provides extensive online Help for all operating system features, as well as a digital tour to help you discover the possibilities awaiting you. Windows-XP-Professional cung cấp sự giúp đỡ trực tuyến mở rộng cho tất cả những đặc tính hệ điều hành, tốt bằng một chuyến du lịch số để giúp bạn khám phá những khả năng đợi bạn. Windows - XP - Chuyên nghiệp cung cấp sự Giúp đỡ trực tuyến rộng lớn cho tất cả các đặc tính hệ điều hành, cũng nh một số đi du lịch Giúp đỡ bạn khám phá những khả năng đợi bạn. 8 Computer software is protected by copyright law and international copyright treaties as well as other intellectual property laws and treaties. Phần mềm máy tính được bảo vệ bởi luật bản quyền và những hiệp ước bản quyền quốc tế tốt bằng những luật và những hiệp ước tài sản trí thức khác. Phần mềm Máy tính là những pháp luật và những hiệp ước được bảo vệ bởi luật bản quyền và những hiệp ớc bản quyền quốc tế cũng nh sở hữu trí tuệ khác. 9 Microsoft is not responsible for Webcasting or any other form of transmission received from any linked site. Microsoft (thì) không chịu trách nhiệm về Webcasting hay là bất kỳ hình thức khác nào của sự truyền nhận từ bất kỳ chỗ được liên kết nào. Microsoft không (thì) có trách nhiệm với Webcasting hoặc mọi mẫu (dạng) khác (của) sự truyền nhận từ bất kỳ vị trí đợc liên kết nào. 10 With online registration, you can use your modem or an Internet connection to register your copy of Windows-XP. Với sự đăng ký trực tuyến, bạn có thể sử dụng bộ điều giải của bạn hay là một kết nối Internet để đăng ký bản sao của bạn của Windows-XP. Với trực tuyến registration, Bạn có thể sử dụng mô đem (của) bạn hoặc một kết nối Internet để đăng ký sự sao chép (của) bạn (của) Windows - XP. 11 Registration ensures that you receive product support, product update information, and other benefits. Phụ lục Trang 152 Sự đăng ký bảo đảm rằng bạn nhận hỗ trợ sản phẩm, thông tin cập nhật sản phẩm, và những lợi ích khác. Sự Đăng ký bảo đảm rằng bạn nhận sản phẩm hỗ trợ, sản phẩm cập nhật thông tin, và những lợi ích khác. ™ Một số câu hỏi do chúng em đưa ra STT VCLEVT 2.0 (sử dụng VCLTransfer) EVTRAN 2.0 1 What are you doing ? Bạn đang làm cái gì? Bạn đang gì làm? 2 What should I do to keep up with John ? Tôi nên làm cái gì để tiếp tục với John ? Tôi cần phải làm giữ vững với John gì? 3 Who did he beat two years ago ? Anh ấy đã đánh ai cách đây hai năm ? Ai làm cho anh ta đập hai năm trước đây? 4 How tall is your mother’s sister ? Chị/em gái của mẹ của bạn là cao bao nhiêu ? Làm sao cao là mẹ (của) bạn có chị, em gái ? Phụ lục Trang 153 PHỤ LỤC 5 HỆ THỐNG NHÃN NGỮ PHÁP Nhãn từ loại của Penn Tree Bank, kho ngữ liệu thông dụng nhất hiện nay. STT Nhãn từ loại Ý nghĩa 1 CC Liên từ kết hợp (Coordinating conjunction) 2 CD Số đếm (Cardinal number) 3 DT Định từ (Determiner) 4 EX “có” (Existential “there”) 5 FW Từ tiếng nước ngoài (Foreign word) 6 IN Giới từ hay liên từ với mệnh đề phụ (Preposition or subordinating conjunction) 7 JJ Tính từ (Adjective) 8 JJR Tính từ so sánh hơn (Adjective, comparative) 9 JJS Tính từ so sánh nhất (Adjective, superlative) 10 LS Dấu liệt kê(List item marker) 11 MD Động từ khiếm khuyết (Modal) 12 NN Danh từ số ít hay không đếm được (Noun, singular or mass) 13 NNS Danh từ số nhiều (Noun, plural) 14 NP Danh từ riêng số ít (Proper noun, singular) 15 NPS Danh từ riếng số nhiều (Proper noun, plural) 16 PDT Tiền chỉ định từ (Predeterminer) 17 POS Dấu cuối của sở hữu cách (Possessive ending) 18 PP Đại từ nhân xưng (Personal pronoun) 19 PP$ Đại từ sở hữu (Possessive pronoun) 20 RB Trạng từ (Adverb) 21 RBR Trạng từ so sánh hơn (Adverb, comparative) Phụ lục Trang 154 22 RBS Trạng từ so sánh nhất (Adverb, superlative) 23 RP Tiểu từ (Particle) 24 SYM Ký hiệu (Symbol) 25 TO Từ “to” 26 UH Thán từ (Interjection) 27 VB Động từ nguyên mẫu không “to” (Verb, base form) 28 VBD Động từ thì quá khứ (Verb, past tense) 29 VBG Danh động từ hay hiện tại phân từ (Verb, gerund or present participle) 30 VBN Quá khứ phân từ (Verb, past participle) 31 VBP Động từ không phải ngôi thứ ba số ít thì hiện tại(Verb, non-3rd person singular present) 32 VBZ Động từ ngôi thứ ba số ít thì hiện tại (Verb, 3rd person singular present) 33 WDT Định từ bắt đầu bằng Wh- (Wh-determiner) 34 WP Đại từ bắt đầu bằng Wh- (Wh-pronoun) 35 WP$ Đại từ sở hữu bắt đầu bằng Wh- (Possessive wh-pronoun) 36 WRB Trạng từ bắt đầu bằng Wh- (Wh-adverb) 20 nhãn cú pháp của Penn Tree Bank: STT Nhãn cú pháp Ý nghĩa 1 ADJP Ngữ tính từ (Adjective phrase) 2 ADVP Ngữ trạng từ (Adverbial phrase) 3 AUX Ngữ động từ có trợ động từ (Auxiliary verb phrase) 4 CONJP Ngữ có liên từ (Coordinate phrase) 5 INTJ Ngữ cảm thán từ (Interjection) 6 NEG Ngữ phủ định (Negative) 7 NP Danh ngữ (Noun phrase) 8 PP Giới ngữ (Preposional phrase) 9 PRT Ngữ bắt đầu bằng tiểu từ (Partical phrase) 10 S Mệnh đề khẳng định đơn (Simple declarative clause) Phụ lục Trang 155 11 SBAR Mệnh đề phụ bổ nghĩa (Subordinate clause) 12 SBARQ Mệnh đề bắt đầu bằng từ hỏi Wh- 13 SINV Câu đảo ngữ (Inversion sentence) 14 SQ Bộ phận còn lại của SBARQ sau khi đã bỏ từ/ngữ Wh- 15 VP Động ngữ (Verb phrase) 16 WHADVP Trạng ngữ bắt đầu bằng Wh- (Wh- adverbial phrase) 17 WHNP Danh ngữ bắt đầu bằng Wh- (Wh- noun phrase) 18 WHPP Giới ngữ bắt đầu bằng Wh- (Wh- preposional phrase) 19 X Thành phần không xác định (Constituent of unknown or uncertain type) 20 ? Dấu hỏi trong câu hỏi (Question mark enclosing a constituent) Phụ lục Trang 156 PHỤ LỤC 6 CÁC NHÃN QUAN HỆ NGỮ PHÁP STT Nhãn quan hệ Ví dụ 1 appo “ACME president, —appoÆP.W. Buckman” 2 aux shouldÅaux—resign 3 be “isÅbe—sleeping 4 c “thatÅc—John loves Mary 5 compl first complement 6 det “theÅdet—hat” 7 gen “Jane’sÅgen—uncle” 8 have “haveÅhave—disappeared” 9 i the relationship between a C clause and its I clause 10 inv-aux inverted auxiliary: “WillÅinv-aux—you stop it” 11 inv-be inverted be: “IsÅinv-be—she sleeping” 12 inv-have inverted have: “HaveÅinv-have—you slept” 13 mod the relationship between a word and its adjunct modifier 14 pnmod post nomial modifier 15 p-spec specifier of prepositional phrases 16 pcomp-c clausal complement of prepositions 17 pcomp-n nominal complement of prepositions 18 post post determiner 19 pre pre determiner 20 pred predicate of a clause 21 rel relative clause 22 vrel passive verb modifier of nouns 23 wha wh-elements at C-spec positions 24 whn wh-elements at C-spec positions 25 whp wh-elements at C-spec positions 26 obj object of verbs Tài liệu tham khảo Trang 157 TÀI LIỆU THAM KHẢO [1] Aravind K.Joshi & Yves Schabes, An Eearley Type Parsing Algorimth for Tree Adjoining Grammars, Proceedings of the 26th Meeting of the Association for Computational Linguistics, Buffalo, June 1998. [2] Aravind K.Joshi, An Introduction to Tree Adjoining Grammars, A. Manaster- Rammer, editor, Mathematics of Language. John Benjamins, Amsterdam, 1987. [3] David Yarowsky and Grace Ngai. Inducing Multilingual POS Taggers and NP Bracketers via Robust Projection across Aligned Corpora, Proceedings of HLT-02, 2002. [4] Đinh Điền, Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ, Luận án tiến sĩ toán học, ĐHKHTN - ĐHQG Tp.HCM, 2003. [5] Dinh Dien, Hoang Kiem, Van Toan, Quoc Hung, Phu Hoi, Thuy Ngan, Xuan Quang, Word alignment in English – Vietnamese bilingual corpus, Proceedings of International Conference on East-Asia Language Processing and Internet Information Tecnology 2002, Hanoi, Vietnam, 2002, pp. 3-11. [6] Dinh Dien, Thuy Ngan, Xuan Quang, A Hybrid Approach to Word Order Transfer in the English-to-Vietnamese Machine Translation, paper at MT – Summit IX, Lousiana., USA, 2003. [7] Dinh Dien, Thuy Ngan, Xuan Quang, Automatic Tree Transfer in English- Vietnamese Machine Translation, The First International Workshop for Computer, Information and Communication Technologies – Theme: State of Art and Future Trends of Information Technologies in Korea and Vietnam – 11 February 2003 – Hanoi, Vietnam, 2003, pp. 7-12. [8] Eric Brill, A corpus-based approach to language learning, PhD-dissertation, 1993. Tài liệu tham khảo Trang 158 [9] James Allen, University of Rochester, Natural Language Understanding, the Benjamin/Cummings Publishing Company, Inc., 1995. [10] Ken Samuel, Presentation for DFKI about TBL, Lecture of University, 1997. [11] Kuang-Hua Chen & Hsin-His Chen, A Hybrid Approach to Machine Translation System Design, Computational Linguistics and Chinese Languge Processing. Vol. 1, no. 1, August 1996. [12] Ngô Quốc Hưng và Phạm Phú Hội, Liên kết từ trong song ngữ Anh-Việt (Ứng dụng trong khảo sát trật tự từ), Luận văn tốt nghiệp cử nhân tin học, ĐHKHTN, 2002. [13] Nguyễn Đức Dân, Phạm trù thứ tự trong tiếng Việt, Tập san khoa học A – ĐHTH TP. HCM, số 1/1995. [14] Nguyễn Lưu Thùy Ngân, Đỗ Xuân Quang, Nguyễn Văn Toàn, Ứng dụng phân tích ngữ pháp song song vào song ngữ Anh-Việt, Hội nghị khoa học trường ĐHKHTN lần III, 2002, pp. 192-196. [15] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, NXB ĐHQG Hà Nội, 1998. [16] Radu Floriance & Grace Ngai, Transformation-Based Learning in the Fast Lane : A generative Approach, ACL 2001. [17] Rebecca Hwa, Philip Resnik, Amy Weinberg, and Okan Kolak, Evaluating Translational Correspondence using Annotation Projection, ACL 2002. [18] Stuart Sheiber & Yves Schabes, Synchronous Tree Adjoining Grammars, Proceedings of 13th COLING-90, Helsinki, ACL 1990. [19] Trần Quốc Bảo, Tìm hiểu và cài đặt bộ phân tích cú phấp dựa trên văn phạm TAG (Tree adjoining grammar) để phân tích cú pháp câu tiếng Anh, Luận văn cử nhân tin học, ĐHKHTN, 2002. [20] Cigdem Keyder Turhan, Structural transfer in an English to Turkish machine translation system, PhD-dissertation, The Middle East Technical University, 1998. Tài liệu tham khảo Trang 159 [21] W. John Hutchins, An Introduction to Machine Translation, The Library of the University of East Anglia – Norwich – UK, 1992.

Các file đính kèm theo tài liệu này:

  • pdf9912621-9912652.pdf
Tài liệu liên quan