Luận văn tốt nghiệp
Mục lục
Lời nói đầu
Mục lục
Danh sách các hình
Chương 1
TỔNG QUAN VỀ CHUYỂN ĐỔI CÂY CÚ PHÁP
1.1 Đặt vấn đề
1.2 Các chiến lược dịch máyChiến lược dịch trực tiếp
1.1.2 Chiến lược dịch dựa trên ngôn ngữ trung gian
1.1.3 Chiến lược dịch dựa trên sự chuyển đổi
1.2 Vai trò của chuyển đổi cây cú pháp trong cách tiếp cận dựa trên
chuyển đổi
1.3 Cơ sở lý thuyết
1.3.1 Cơ sở lý thuyết ngôn ngữ học của việc chuyển đổi
1.3.2 Cơ sở lý thuyết tin học - Hướng tiếp cận vấn đề
Chương 2
CÁC HƯỚNG TIẾP CẬN CHUYỂN ĐỔI CẤU TRÚC TRONG DỊCH
MÁY
2.1 Hướng tiếp cận dựa trên luật cốđịnh
2.1.1 Cơ chế chuyển đổi của cách tiếp cận dựa trên luật cốđịnh
2.1.2 Nhận xét
Luận văn tốt nghiệp
2.2 Hướng tiếp cận sử dụng case-frame
2.2.1 Chuyển đổi các thông tin cấp độ câu
2.2.2 Chuyển đổi ngữđộng từ
2.2.3 Sự chuyển đổi của định ngữ, bổ ngữ
2.2.4 Tựđiển chuyển đổi
2.2.5 Nhận xét
2.3 Hướng tiếp cận sử dụng TAG đồng bộ (STAG
2.3.1 Văn phạm TAG
2.3.2 TAG đồng bộ (STAG)
2.3.3 Nhận xét .
2.4 Cách tiếp cận phân tích ngữ pháp song song
2.4.1 Ngữ pháp chuyển dịch đảo có thống kê (SITG)
2.4.2 Thuật toán phân tích cú pháp song song với SITG
2.4.3 Đánh nhãn cấu trúc
2.4.4 Chuyển đổi cây cú pháp song song cho cả hai ngôn ngữ
2.4.5 Nhận xét
2.5 Cách tiếp cận dựa trên cấu trúc vị từ - đối số
2.5.1 Rút trích các cấu trúc vị từ - đối số
2.5.2 Khối chuyển đổi cấu trúc
2.5.3 Nhận xét
2.6 Tổng kết chương
Chương 3
Chương 3
MÔ HÌNH CHUYỂN ĐỔI CÂY CÚ PHÁP
3.1 Phương pháp học hướng lỗi dựa trên sự chuyển trạng thái
3.1.1 Ý tưởng
3.1.2 Thuật toán học TBL của Eric Brill
3.1.3 Nhận xét
Luận văn tốt nghiệp
3.2 Thuật toán học nhanh FnTBL
3.2.1 Hình thức hóa TBL
3.2.2 Thuật toán FnTBL.
3.3 Mô hình chuyển đổi cây cú pháp sử dụng thuật toán FnTBL
3.3.1 Mô hình áp dụng chuyển đổi cây cú pháp
3.3.2 Mô hình học luật chuyển đổi bằng phương pháp học FnTBL
3.4 Nâng cao khả năng mở rộng cho mô hình học
Chương 4
CÀI ĐẶT CHƯƠNG TRÌNH
4.1 Thiết kế
4.1.1 Mô hình tổng thể
4.2 Thuật toán gán nhãn cơ sở cho ngữ liệu
4.2.1 Thuật toán
4.2.2 Xây dựng cây cú pháp
4.2.3 Xây dựng cây quan hệ
4.2.4 Thuật toán chuyển đổi theo nguyên tắc
4.3 Học chuyển đổi cùng cấp.
4.3.1 Xây dựng ngữ liệu học.
4.3.2 Xây dựng khung luật cho bộ học chuyển đổi cùng cấp
4.3.3 Sơđồ lớp của chương trình học
4.3.4 Xây dựng bộ luật (giai đoạn học cùng cấp)
4.3.5 Áp dụng bộ luật chuyển đổi cùng cấp
4.4 Học chuyển đổi khác cấp
4.4.1 Xây dựng ngữ liệu học
4.4.2 Xây dựng khung luật cho quá trình học chuyển đổi khác cấp
4.4.3 Sơđồ lớp của chương trình học
4.4.4 Xây dựng bộ luật (giai đoạn học khác cấp)
Luận văn tốt nghiệp
4.4.5 Áp dụng bộ luật chuyển đổi khác cấp
Chương 5
Chương 5
THỬ NGHIỆM – ĐÁNH GIÁ
5.1 Thử nghiệm
5.1.1 Độđo sử dụng
5.1.2 Kết quả học rút luật chuyển đổi
5.1.3 Một số kết quả chuyển đổi
5.2 Đánh giá
5.2.1 Ngữ liệu thử nghiệm
5.2.2 Nhận xét
Chương 6
Chương 6
TỔNG KẾT
6.1 Kết quả
6.2 Hướng phát triển
6.3 Kết luận
PHỤ LỤC 1
KHUNG LUẬT VÀ MỘT SỐ LUẬT CÙNG CẤP
PHỤ LỤC 2
KHUNG LUẬT VÀ MỘT SỐ LUẬT KHÁC CẤP
PHỤ LỤC 3
MỘT SỐ KẾT QUẢ DỊCH SỬ DỤNG KHỐI CHUYỂN ĐỔI CÂY CÚ
PHÁP VCLTRANSFER
PHỤ LỤC 4
MỘT SỐ CÂU DỊCH CỦA HAI HỆ DỊCH
PHỤ LỤC 5
HỆ THỐNG NHÃN NG Ữ PHÁP
Luận văn tốt nghiệp
PHỤ LỤC 6
CÁC NHÃN QUAN HỆ NGỮ PHÁP
TÀI LIỆU THAM KHẢO
159 trang |
Chia sẻ: maiphuongtl | Lượt xem: 1893 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng chương trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh - Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
lên câu tiếng Anh. Việc áp dụng các
luật diễn ra khá nhanh vì chương trình không cần phải lựa chọn luật nữa mà chỉ cần
đưa luật vào áp dụng cho câu tiếng Anh, luật nào không thoả phần điều kiện cho
câu tiếng Anh thì được bỏ qua. Sau khi kết thúc luật cuối cùng, chúng ta có cây cú
pháp tiếng Anh với trật tự các thành phần là của cây cú pháp tiếng Việt. Sau khi kết
thúc quá trình áp dụng các luật chuyển đổi khác cấp, về cơ bản câu tiếng Anh đã có
thể được gắn nghĩa tiếng Việt để hình thành câu dịch. Tuy nhiên để có được câu
dịch tiếng Việt phù hợp với một số cấu trúc đặc biệt trong tiếng Việt, chúng ta cần
tiến hành giai đoạn chèn, xoá các từ trong cây cú pháp tiếng Anh bằng một số hư từ
và một số từ đặc biệt trong câu tiếng Việt có tính quyết định đến chất lượng câu
dịch.
Chuyển đổi
cùng cấp
Cây cú pháp tiếng Anh
với các thành phần
cùng cấp có trật tự
tiếng Việt
Tập luật
chuyển đổi
cùng cấp
Cây cú pháp tiếng
Anh với các thành
phần có trật tự
tiếng Việt
Chương 5 – Thử nghiệm & đánh giá
Trang 128
Chương 5
THỬ NGHIỆM – ĐÁNH GIÁ
5.1 Thử nghiệm
5.1.1 Độ đo sử dụng
Vì mục tiêu cuối cùng của chuyển đổi cây cú pháp là câu có trật tự từ đúng
theo tiếng Việt, do đó kết xuất của chương trình chuyển đổi cây cú pháp là một
danh sách có thứ tự bao gồm : những từ trong câu tiếng Anh gốc đã được sắp xếp
lại, những từ bị xoá được đánh dấu xoá và những từ tiếng Việt được chèn thêm.
Ví dụ:
Câu tiếng Anh : Do you understand what I say ?
E1 E2 E3 E4 E5 E6 E7
Kết quả chuyển đổi:
You do có understand what I say không ?
E2 X I1 E3 E4 E5 E6 I2 E7
Bạn có hiểu điều mà tôi nói không ?
Nếu không xét đến những từ tiếng Việt được chèn thêm, kết quả chuyển đổi
của một câu đúng hay không thể hiện ở trật tự các từ tiếng Anh được giữ lại (không
bị xoá) có đúng hay không. Trên thực tế dịch một câu tiếng Anh, ta gán nghĩa tiếng
Việt cho các từ có nghĩa trong câu trước, muốn cho câu có nghĩa, ta phải sắp xếp
những nghĩa này lại. Con người luôn luôn có xu hướng tối thiểu hoá hao phí công
sức, do đó số từ cần di chuyển đến vị trí đúng phải là nhỏ nhất. Dựa trên quan điểm
này, chúng em đưa ra độ đo mức độ chính xác cho một câu như sau:
Chương 5 – Thử nghiệm & đánh giá
Trang 129
%100
W
A-WDs ×=
với
DS= Độ chính xác của câu S (%)
W = tổng số từ trong câu S
A = số từ ít nhất trong câu S cần di chuyển để câu có trật tự từ đúng
Xác định A là một bài toán tìm chi phí tối thiểu được giải quyết bằng phương
pháp quy hoạch động.
Độ đo này tương tự như độ đo số lần “nhấn phím” (Key stroke)[11]. Mỗi một
“nhấn phím” bao gồm hai thao tác cắt và dán một từ , là chi phí để chuyển một từ về
vị trí đúng của nó.
Ta cũng có thể phân loại câu đã chuyển đổi bằng cách chia các câu kết xuất
thành các nhóm có A nằm trong một khoảng nào đó.
5.1.2 Kết quả học rút luật chuyển đổi
Ngữ liệu huấn luyện sử dụng được lấy từ bộ sách CADASA, Come to the
world of microcomputer 12 cuốn do Nhà xuất bản Thống Kê phát hành. Tổng số
câu xấp xỉ 10.000, chiều dài trung bình là 17 từ /câu.
Để tạo ngữ liệu vàng, đầu tiên ngữ liệu được liên kết từ và phân tích thành cây
cú pháp. Từ đó, chương trình sẽ tự động xây dựng ngữ liệu vàng cho cả hai bước
huấn luyện. Ngữ liệu vàng bước 2 là cây cú pháp được biểu diễn dưới dạng ngoặc.
Ngữ liệu vàng đòi hỏi phải chính xác thì luật rút ra mới chính xác, nhưng việc xây
dựng thủ công bằng tay tốn rất nhiều công sức. Do đó, chúng em chọn cách xây
dựng bán tự động. Tuy nhiên, cũng cần phải có sự chỉnh sửa bằng tay ở kết quả liên
kết từ và ngữ liệu vàng dạng cây cú pháp.
Chương 5 – Thử nghiệm & đánh giá
Trang 130
Kết quả học luật chuyển đổi cho giai đoạn 1 (chuyển đổi cùng cấp) được tóm
tắt trong bảng sau:
Tổng số mẫu 79.663
Số khung luật sử dụng (xem phụ lục 1) 12
Thời gian học bước 1 7giờ 23 phút 56 giây1
Số luật rút ra 1427
Số luật được giữ lại 137
Bảng 15: Tóm tắt kết quả học luật chuyển đổi cùng cấp
0.937
0.9375
0.938
0.9385
0.939
0.9395
0.94
0.9405
0.941
1 76 151 226 301 376 451 526 601 676 751 826 901
Hình 38: Đánh giá tập luật học chuyển đổi cùng cấp –
137 luật đầu cho kết quả tốt nhất
Kết quả học luật chuyển đổi cho giai đoạn 2 (chuyển đổi khác cấp) được tóm
tắt trong bảng sau:
Tổng số mẫu học (bằng số cây cú pháp) 5112
Chiều dài câu trung bình 17 từ/câu
1 Cấu hình máy: PIII-800, 256MBRAM
Số luật
Đ
ộ
ch
ín
h
xá
c
Chương 5 – Thử nghiệm & đánh giá
Trang 131
Số khung luật sử dụng (phụ lục 2) 3
Thời gian học bước 1 9 giờ 27 phút 06 giây
Số luật rút ra 817
Số luật được giữ lại 112
Bảng 16: Tóm tắt kết quả học luật chuyển đổi cùng cấp
0.9394
0.9396
0.9398
0.94
0.9402
0.9404
0.9406
1 70 139 208 277 346 415 484 553 622 691 760
Hình 39: Đánh giá tập luật học chuyển đổi khác cấp –
112 luật đầu cho kết quả tốt nhất
5.1.3 Một số kết quả chuyển đổi
Dưới đây là một số minh hoạ cho kết quả dịch sử dụng khối chuyển đổi cú
pháp của chúng em (VCLTransfer), câu dịch được hiển thị bằng tiếng Việt.
Câu tiếng Anh có sự chuyển đổi tương đối đơn giản
Một số kết quả chuyển đổi tương tự:
(E1) This computer is the most powerful .
(V1) Máy tính này là mạnh nhất .
Số luật
Đ
ộ
ch
ín
h
xá
c
Chương 5 – Thử nghiệm & đánh giá
Trang 132
(E) These devices convert a bar code, which is a pattern of printed bar on
products, into a code the computer can understand.
Ö (V) Những thiết bị này biến đổi một mã thanh, mà là một mẫu của thanh
được in trên sản phẩm, vào một mã máy tính có thể hiểu.
(E) A game controller can be considered an input device because a
computer game is a program.
Ö (V) Một bộ điều khiển trò chơi có thể được cân nhắc như một thiết bị đầu
vào bởi vì một trò chơi máy tính là một chương trình
Câu tiếng Anh có sự chuyển đổi trung bình
Một số kết quả chuyển đổi tương tự:
(E) Intel will jointly develop the chips with an Israeli company, Alvarion,
which will incorporate them into its own line of broadband wireless access
systems now under development, the companies said in separate statements.
Ö (V) Intel sẽ kết hợp phát triển những vi mạch với một công ty Israeli,
Alvarion, mà sẽ tập hợp chúng vào đường của nó của hệ thống (sự) truy cập
không dây băng thông rộng bây giờ dưới sự phát triển, những công ty nói trong
những tuyên bố riêng biệt.
Câu tiếng Anh có sự chuyển đổi phức tạp.
Một số kết quả chuyển đổi tương tự:
(E3) This system is able to translate all normal and new sentence patterns .
(V3) Hệ thống này có khả năng để dịch tất cả các mẫu câu bình thường và mới .
(E2) This is a new and very powerful computer .
(V2) Đây là một máy tính mới và rất mạnh .
Chương 5 – Thử nghiệm & đánh giá
Trang 133
(E) Several computer manufacturers now offer another spacesaving
pointing device, consisting of a small joystick positioned near the middle of the
keyboard, typically between the G and H keys.
Ö (V) Vài nhà sản xuất máy tính bây giờ đưa ra một thiết bị trỏ tiết kiệm
không gian khác, gồm một cần điều khiển trò chơi nhỏ được định vị gần ở giữa
của bàn phím, điển hình giữa những phím G và H.
(E) When running any Windows program, you can press Alt to activate the
menu bar, and then press a highlighted letter in a menu's name to open that
menu.
Ö (V) Khi mà chạy bất kỳ chương trình Windows nào, bạn có thể nhấn Alt để
kích hoạt thanh thực đơn, rồi sau đó nhấn một chữ sáng mạnh trong tên của một
thực đơn để mở thực đơn đó.
Câu phủ định trong tiếng Anh
Một số kết quả chuyển đổi tương tự:
(E) In many cases, however, an ordinary input device may not be appropriate.
Ö (V) Tuy nhiên, trong nhiều trường hợp, một thiết bị đầu vào thông thường
không có thể (thì) thích hợp.
Câu hỏi trong tiếng Anh
(E1) Is an old man installing a new computer program ?
(V1) Một người đàn ông già đang cài đặt một chương trình máy tính mới phải không ?
(E4) Some people can not use a mouse.
(V4) Vài người không có thể sử dụng một con chuột.
Chương 5 – Thử nghiệm & đánh giá
Trang 134
Một số kết quả chuyển đổi tương tự:
(E) How do you double-click an item with a mouse ?
Ö (V) Nhấp kép một mục với một con chuột bằng cách nào ?
(E) Do you think Intel should implement a similar change?
Ö (V) Bạn có suy nghĩ Intel nên thực hiện một sự thay đổi tương tự như nhau
không?
(E) Which operating system are you using ?
Ö (V) Bạn đang sử dụng hệ điều hành nào ?
Một trong các vấn đề lớn của chuyển đổi cây cú pháp trong hệ dịch Anh-Việt
là giải quyết chuyển đổi cho câu hỏi. Việc chuyển đổi cấu trúc cho các dạng câu hỏi
dễ dẫn đến việc các luật mâu thuẫn nhau. Điều này cũng làm ảnh hưởng đến chất
lượng tập luật: không đảm bảo có thể chuyển đổi được tất cả các dạng câu hỏi nói
riêng và đối với các cấu trúc câu khác nói chung. Do tính phức tạp của câu hỏi, các
cấu trúc câu hỏi thường phải có sự tác động bởi cả 4 giai đoạn: chuyển đổi cơ sở
dựa trên các nguyên tắc; chuyển đổi các thành phần cùng cấp/khác cấp và cuối cùng
là giai đoạn chèn/xoá.
5.2 Đánh giá
5.2.1 Ngữ liệu thử nghiệm
Ngữ liệu thử nghiệm của chúng em gồm 1.000 câu trong bộ sách CADASA
trong phần chưa được dùng để huấn luyện.
Kết quả thử nghiệm được tóm tắt trong bảng sau:
(E1) How can a computer compute a complex formular ?
(V1) Một máy tính có thể tính toán một công thức phức tạp bằng cách nào ?
Chương 5 – Thử nghiệm & đánh giá
Trang 135
W A Độ chính xác Ds
Sau khi gán nhãn chuyển đổi cơ sở 17.767 2.239 87,4%
Sau khi chuyển đổi cùng cấp 17.767 1.385 92,2%
Sau khi chuyển đổi khác cấp 17.767 1.058 94,1%
Bảng 17: Kết quả thử nghiệm việc áp dụng chuyển đổi cây cú pháp
Ngoài ra để đánh giá chung về kết quả chuyển đổi của chương trình (bao gồm
cả phần chèn/xoá các thành phần chức năng trong tiếng Việt. Chúng em so sánh kết
xuất của chương trình với một chương trình dịch hiện có ở thị trường, EVTRAN 2.0
(công ty SOFTEX, 1999-2000). Do kết quả dịch là sự phối hợp giữa chuyển đổi cấu
trúc và chuyển đổi từ vựng, nên việc đánh giá kết quả chuyển đổi cấu trúc không thể
làm tự động dựa vào kết quả dịch. Chúng ta chỉ có thể đánh giá một câu đúng, sai
về trật tự từ mà thôi. Một số mẫu câu dịch từ hai hệ thống được chúng em trình bày
trong phần phụ lục 4. Ở đây chúng em muốn nhấn mạnh đến trật tự của từ trong câu
còn về ngữ nghĩa trên bề mặt của câu thuộc về một thành phần khác của hệ dịch.
5.2.2 Nhận xét
Chương trình chuyển đổi cây cú pháp chuyển đổi rất tốt trong phạm vi cùng
cấp và chuyển đổi được các thành phần khác cấp, điều mà các chương trình chuyển
đổi dựa trên luật cố định không thể thực hiện được hoặc chỉ có thể thực hiện trên bề
mặt câu.
Tuy nhiên vẫn còn một số vấn đề trở ngại rất lớn cho việc chuyển đổi cú pháp.
Đó là sự phụ thuộc của chương trình chuyển đổi cây cú pháp vào sự chính xác của
quá trình phân tích ở bước trước. Cụ thể đó là các bộ phận: gán nhãn từ loại, phân
tích cú pháp câu, và xác định quan hệ ngữ pháp trong câu.
Chẳng hạn, nếu các từ trong cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú
pháp của câu cũng bị sai. Phương pháp học chuyển trạng thái có thể học ra luật khắc
phục những lỗi sai có hệ thống. Những lỗi sai quá chi tiết dẫn đến luật sửa sai cũng
chi tiết và không thể áp dụng cho đa số các trường hợp khác, thậm chí có thể làm
Chương 5 – Thử nghiệm & đánh giá
Trang 136
sai ở trường hợp mới. Để khắc phục nhược điểm này, ta cần phải tăng lượng ngữ
liệu học và tính đa dạng của bộ ngữ liệu học.
Chương 6 - Tổng kết
Trang 137
Chương 6
TỔNG KẾT
6.1 Kết quả
Hiện nay, chương trình chuyển đổi cây cú pháp có khả năng:
Chuyển đổi trật tự các thành phần cùng cấp với nhiều mức độ phức tạp:
chuyển đúng vị trí các định ngữ so với danh từ trung tâm trong định ngữ,
bổ ngữ so với tính từ/động từ trong tính ngữ/động ngữ, …
Chuyển đổi trật tự các thành phần không cùng cấp: chuyển vị trí các
trạng từ bổ nghĩa cho câu, vị trí những từ hỏi, …
Chèn, xoá một số thành phần như: xoá trợ động từ trong câu tiếng Anh
(không có ý nghĩa ngữ pháp trong tiếng Việt), chèn thêm một số hư từ để
câu tiếng Việt trở nên tự nhiên hơn.
Như vậy, chương trình đã cơ bản hoàn thành những mục tiêu mà luận văn đã
đề ra ban đầu là chuyển đổi cây cú pháp cho tài liệu khoa học kỹ thuật (trước mắt là
tài liệu về tin học) và có khả năng tiếp tục mở rộng trong tương lai khi chúng em
xây dựng được kho ngữ liệu huấn luyện đầy đủ và bao quát hơn nữa. Tuy nhiên cho
đến nay, chương trình vẫn còn một số hạn chế do sự nhập nhằng về mặt cấu trúc
cũng như độ chính xác của kết quả khối phân tích bước trước (phân tích ngữ pháp,
xác định quan hệ, …).
6.2 Hướng phát triển
Chương trình được cài đặt theo phương pháp hướng đối tượng kết hợp với khả
năng mở rộng của chương trình học, do đó có khả năng phát triển dễ dàng trong
tương lai. Trong thời gian tới, chúng em sẽ tiếp tục hoàn thiện ngữ liệu học cả về số
lượng lẫn chất lượng để chương trình bao quát nhiều cấu trúc hơn nữa.
Chương 6 - Tổng kết
Trang 138
Mặt khác, do giới hạn của luận văn, khung luật trong chương trình chỉ khai
thác các đặc trưng về từ loại, từ, cấu trúc ngữ, … mà chưa quan tâm đến những
nhân tố ảnh hưởng đến sự khác biệt cấu trúc giữa tiếng Anh và tiếng Việt khác. Do
đó, chúng em sẽ tiếp tục mở rộng thêm các loại khung luật để có thể rút trích được
những đặc trưng còn lại như: ngữ nghĩa, chiều dài nghĩa tiếng Việt của một thành
phần cú pháp (chẳng hạn: "Trong tiếng Việt, định ngữ dài hơn sẽ đứng sau các định
ngữ ngắn hơn"), loại tính từ miêu tả làm định ngữ trong các danh ngữ (chỉ màu sắc,
hình dáng,...), ...
6.3 Kết luận
Cấu trúc cú pháp của câu góp phần tạo nên ngữ nghĩa của câu. Do đó, chuyển
đổi cấu trúc cú pháp trong hệ dịch tự động Anh-Việt góp một phần không nhỏ vào
chất lượng của hệ dịch. Trong luận văn này, chúng em đưa ra một cách tiếp cận mới
trong việc chuyển đổi cây cú pháp Anh-Việt, dựa trên phương pháp học Chuyển
trạng thái và hướng lỗi nhanh (FnTBL) để rút trích tri thức chuyển đổi từ ngữ liệu
song ngữ. Chương trình chuyển đổi cây cú pháp được cài đặt cho kết quả thử
nghiệm trên các tài liệu Khoa học khá cao (trên 94%) đã chứng tỏ đây là một
phương pháp có tiềm năng rất lớn.
Với kết quả đạt được và qua thực nghiệm, chúng em thấy rằng khối chuyển
đổi cây cú pháp của chúng em thực hiện có thể được đưa vào làm khối chuyển đổi
trong hệ dịch tự động Anh-Việt dựa trên sự chuyển đổi khá tốt. Đây cũng chỉ là
bước khởi đầu trong quá trình nghiên cứu về chuyển đổi cấu trúc Anh-Việt. Để
chương trình đạt chất lượng cao nhất đòi hỏi cả một quá trình tiếp tục lao động
nghiên cứu, sáng tạo không ngừng. Tuy nhiên, kết quả bước đầu này của chương
trình là một sự khích lệ để chúng em bước tiếp trên con đường thực hiện mơ ước
“được đóng góp một phần nhỏ bé vào việc xây dựng một hệ dịch tự động từ tiếng
Anh sang chính tiếng mẹ đẻ của mình - tiếng Việt”.
Phụ lục
Trang 139
PHỤ LỤC 1
KHUNG LUẬT VÀ MỘT SỐ LUẬT CÙNG CẤP
STT Khung luật học chuyển đổi cùng cấp
1 prpos=(P) & pos(X,Y)=() & idx(X,Y)=() : idx(X,Y)=()
2 grpos=(G) & prpos=(P) & pos(X,Y)=() & idx(X,Y)=() : idx(X,Y)=()
3 prpos=(P) & pos(X,Y)=() & wrd(T)=({DT},W) & idx(X,Y)=() : idx(X,Y)=()
4 prpos=(P) & pos(X,Y)=() & wrd(T)=({JJ},W) & idx(X,Y)=() : idx(X,Y)=()
5 prpos=(P) & pos(X,Y)=() & wrd(T)=({RB},W) & idx(X,Y)=() : idx(X,Y)=()
6 prpos=(P) & pos(X,Y)=() & wrd(T)=({IN},W) & idx(X,Y)=() : idx(X,Y)=()
7 prpos=(P) & pos(X,Y)=() & wrd(T)=({AUX},W) & idx(X,Y)=() :
idx(X,Y)=()
8 prpos=(P) & pos(X,Y)=() & wrd(T)=({PRP$},W) & idx(X,Y)=() :
idx(X,Y)=()
9 prpos=(P) & pos(X,Y)=() & wrd(T)=({CC},W) & idx(X,Y)=() : idx(X,Y)=()
10 prpos=(P) & pos(X,Y)=() & wrd(T)=({MD},W) & idx(X,Y)=() :
idx(X,Y)=()
11 prpos=(P) & pos(X,Y)=() & wrd(T)=({PRT},W) & idx(X,Y)=() :
idx(X,Y)=()
12 prpos=(P) & pos(X,Y)=() & wrd(T)=({ORD},W) & idx(X,Y)=() :
idx(X,Y)=()
STT Một số luật chuyển đổi cùng cấp
1 prpos=({NP}) & pos(1,2)=({NN},{CD}) & idx(1,2)=({2},{1}) :
idx(1,2)=({1},{2})
2 prpos=({NP}) & pos(1,3)=({DT},{NN},{POS}) & wrd(1)=({DT},{the}) &
idx(1,3)=({2},{3},{1}) : idx(1,3)=({1},{3},{2})
3 prpos=({NP}) & pos(1,2)=({NNP},{CD}) & idx(1,2)=({2},{1}) :
idx(1,2)=({1},{2})
4 grpos=({S1}) & prpos=({SBARQ}) & pos(1,3)=({WHNP},{SQ},{.}) &
Phụ lục
Trang 140
idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},{1},{3})
5 prpos=({VP}) & pos(1,3)=({MD},{ADVP},{VP}) & idx(1,3)=({1},{2},{3})
: idx(1,3)=({2},{1},{3})
6 prpos=({NP}) & pos(1,3)=({DT},{ORD},{NN}) & idx(1,3)=({1},{2},{3}) :
idx(1,3)=({1},{3},{2})
7 grpos=({S}) & prpos=({NP}) & pos(1,3)=({NP},{:},{NP}) &
idx(1,3)=({1},{2},{3}) : idx(1,3)=({3},{1},{2})
8 prpos=({ADJP}) & pos(1,2)=({RB},{JJR}) & wrd(1)=({RB},{much}) &
idx(1,2)=({1},{2}) : idx(1,2)=({2},{1})
9 prpos=({SQ}) & pos(1,3)=({MD},{NP},{VP}) & idx(1,3)=({1},{2},{3}) :
idx(1,3)=({2},{1},{3})
10 prpos=({ADVP}) & pos(1,2)=({RBS},{RB}) & idx(1,2)=({1},{2}) :
idx(1,2)=({2},{1})
11 prpos=({NP}) & pos(1,3)=({VB},{NN},{CD}) & idx(1,3)=({1},{3},{2}) :
idx(1,3)=({1},{2},{3})
12 prpos=({SBARQ}) & pos(1,3)=({WHADVP},{SQ},{.}) &
idx(1,3)=({1},{2},{3}) : idx(1,3)=({2},{1},{3})
13 prpos=({NP}) & pos(1,4)=({DT},{NN},{NN},{POS}) &
idx(1,4)=({2},{4},{3},{1}) : idx(1,4)=({1},{4},{3},{2})
14 prpos=({ADJP}) & pos(1,3)=({RBS},{RB},{VBN}) &
idx(1,3)=({1},{2},{3}) : idx(1,3)=({3},{2},{1})
15 prpos=({NP}) & pos(1,4)=({DT},{JJ},{NN},{POS}) &
wrd(1)=({DT},{the}) & idx(1,4)=({2},{4},{3},{1}) :
idx(1,4)=({1},{4},{3},{2})
16 grpos=({SQ}) & prpos=({VP}) & pos(1,2)=({AUX},{NP}) &
idx(1,2)=({1},{2}) : idx(1,2)=({2},{1})
17 prpos=({NP}) & pos(1,3)=({DT},{JJ},{NN}) & wrd(2)=({JJ},{great}) &
idx(1,3)=({1},{3},{2}) : idx(1,3)=({1},{2},{3})
18 grpos=({ADJP}) & prpos=({ADVP}) & pos(1,2)=({RB},{RBR}) &
idx(1,2)=({1},{2}) : idx(1,2)=({2},{1})
19 grpos=({NP}) & prpos=({ADJP}) & pos(1,2)=({RB},{VBN}) &
idx(1,2)=({1},{2}) : idx(1,2)=({2},{1})
20 prpos=({NP}) & pos(1,4)=({JJ},{:},{NN},{NNS}) &
idx(1,4)=({1},{2},{4},{3}) : idx(1,4)=({4},{1},{3},{2})
Phụ lục
Trang 141
PHỤ LỤC 2
KHUNG LUẬT VÀ MỘT SỐ LUẬT KHÁC CẤP
STT Khung luật học chuyển đổi khác cấp
1 route() & pos() & posb(X,Y)=() & pose(W,Z)=() : move(U,V)
2 route() & pos() & posb(X,Y)=() & pose(W,Z)=() & posw()=(IN) &
wrd()=(T) : move(U,V)
3 route() & pos() & posb(X,Y)=() & pose(W,Z)=() & posw()=(IN) &
wrd()=(T) & noc()=(N) : move(U,V)
STT Một số luật chuyển đổi khác cấp
1 route(0.1.0,0.1,0)&pos(RB,ADVP,VP)&posb(0,0)=(RB)&
pose(0,2)=(AUX,ADVP,NP):move(0,0)posw()=(RB)&wrd()=(too): move(0,0)
2 route(0.1,0,0.2) & pos(ADVP,S,VP) & posb(0,3)=(NP,ADVP,VP,.) &
pose(0,1)=(VBZ,SBAR) : move(1,1)
3 route(0.1,0,0.2) & pos(ADVP,S,VP) & posb(0,3)=(NP,ADVP,VP,.) &
pose(0,1)=(VBP,SBAR) : move(1,1)
4 route(0.2.1,0.2,0) & pos(AUX,VP,SQ) & posb(0,1)=(N*,AUX) &
pose(0,2)=(N*,MD,VP) : move(1,2)
5 route(0.1,0,0.2) & pos(WH*,VP,PP) & posb(0,2)=(VBG,WH*,PP) &
pose(0,0)=(IN) : move(1,1)
6 route(0.1.0,0.1,0,0.0) & pos(RB,VP,S,NP) & pose(0,0)=(EX) & posw()=(RB)
& wrd()=(not) : move(0,0)
7 route(0.3.1,0.3,0) & pos(AUX,VP,SQ) & posb(0,1)=(N*,AUX) &
pose(0,4)=(NP,AUX,ADVP,VP,.) & posw(1)=(AUX) & wrd(1)=(been) :
move(1,3)
8 route(0.1.0,0.1,0,0.0,0.0.0) & pos(WP,WH*,SBARQ,SQ,VP) &
posb(0,0)=(WP)&pose(0,1)=(VB*,S)&posw()=(WP)&wrd()=(what):move(1,0)
9 route(0.1,0,0.2,0.2.0) & pos(WH*,VP,S,VP) & posb(0,2)=(VBG,WH*,S) &
pose(0,0)=(TO) : move(1,1)
10 route(0.2.0,0.2,0) & pos(RB,ADVP,VP) & posb(0,0)=(RB) &
pose(0,2)=(VBP,NP,ADVP) &
Phụ lục
Trang 142
PHỤ LỤC 3
MỘT SỐ KẾT QUẢ DỊCH SỬ DỤNG KHỐI CHUYỂN
ĐỔI CÂY CÚ PHÁP VCLTRANSFER
Với đề tài “Xây dựng chương trình chuyển đổi cây cú pháp tự động trong hệ
dịch Anh-Việt” của chúng em, chất lượng chuyển đổi của chương trình đã được
kiểm chứng thực tế qua việc tích hợp khối chuyển đổi vào trong hệ dịch Anh-Việt
hoàn chỉnh. Dưới đây là một số kết quả dịch của hệ dịch VCLEVT 2.0 đã được tích
hợp khối chuyển đổi cây cú pháp của chúng em (đây là chương trình dịch tự động
Anh-Việt do nhóm VCL thực hiện).
* Do chúng em muốn nhấn mạnh đến chất lượng của khối chuyển đổi nên
trong phần dịch dưới đây chúng em có hiệu chỉnh lại ngữ nghĩa của một số từ chưa
được dịch chính xác lắm (tuy nhiên rất hạn chế), điều này chỉ nhằm mục đích làm
cho câu dịch dễ đọc và dễ theo dõi hơn; kết quả chuyển đổi là kết quả thực tế của
chương trình và không có bất cứ sự hiệu chỉnh nào.
Các câu tiếng Anh thử nghiệm dưới đây thuộc bộ sách CADASA, Come to
the world of microcomputers, NXB Thống kê, 2002.
STT Câu tiếng Anh VCLEVT 2.0 (sử dụng VCLTransfer)
1 In an era of high-speed
communications, we want to
receive information immediately
and in many ways simultaneously.
Vào một thời đại của truyền thông tốc độ
cao, chúng tôi muốn để nhận thông tin ngay
lập tức và trong nhiều cách song song.
2 Today's multimedia products
appeal to multiple senses at one
time and respond to our changing
needs with ever-increasing speed.
Những sản phẩm truyền thông đa phương
tiện của hôm nay kêu gọi tới nhiều giác
quan cùng một lúc và đáp ứng tới những
nhu cầu thay đổi của chúng tôi với tốc độ
ngày càng tăng.
Phụ lục
Trang 143
3 This chapter introduces you to
basic multimedia concepts and
explains how multimedia works.
Chương này giới thiệu bạn tới những khái
niệm truyền thông đa phương tiện cơ bản
và giải thích làm thế nào những truyền thông
đa phương tiện làm việc.
4 At a more advanced level, people
use movies and television to
combine multiple types of media
(sound, video, animation, still
graphics, and text) to create
different kinds of messages that
inform or entertain in unique and
meaningful ways.
Tại một mức tiên tiến hơn, người sử dụng
những phim và truyền hình để kết hợp nhiều
loại của phương tiện ( âm thanh, hình, hoạt
hình, vẫn còn những đồ họa, và văn bản ) để
tạo ra những loại khác nhau của thông điệp
mà báo tin hay là giải trí trong những cách
duy nhất và đầy ý nghĩa.
5 This requirement may mean
giving the user multiple pieces of
information simultaneously - such
as a rotating 3-D image of a motor,
an audio description of its
function, and pop-up text boxes
that provide more information
when the user points at certain
parts of the graphic.
Yêu cầu này có thể nghĩa là đưa nhiều
miếng người dùng của thông tin song song -
như là một hình ảnh 3-D đang quay của
một động cơ, một sự mô tả âm của chức
năng của nó, và những cái hộp văn bản
phổ biến mà cung cấp thông tin nhiều hơn
khi mà người dùng trỏ tại những bộ phận
nào đó của đồ họa.
6 Multimedia developers continually
struggle to find ways to make their
products more appealing to users,
whether the product is a fast-paced
action game, a tutorial on disk, or
an e-commerce Web site.
Những nhà phát triển truyền thông đa
phương tiện liên tục đấu tranh để tìm thấy
những cách để làm những sản phẩm của họ
hấp dẫn hơn tới những người dùng, dù sản
phẩm là một trò chơi hoạt động fast-paced,
một sự hướng dẫn trên dĩa, hay là một trang
web thương mại điện tử.
7 Steps in a tutorial or a carefully
crafted story, for example, must be
told in an unalterable sequence for
accuracy or the most dramatic
impact.
Ví dụ như, những bước trong một sự hướng
dẫn hay là một chuyện được thủ công cẩn
thận, phải được bảo trong một dãy nối tiếp
không có thể thay đổi được cho sự chính
xác hay là sự va chạm kịch tính nhất.
8 Because of the intensive amount
of digital information that goes
into building every second of a
program, multimedia publishers
must always consider the user's
equipment - the hardware on which
the content will be displayed.
Bởi vì lượng cao độ của thông tin số mà đi
vào xây dựng mọi giây của một chương trình
nên nhà xuất bản truyền thông đa phương
tiện luôn luôn phải cân nhắc thiết bị của
người dùng - phần cứng mà trên đó nội
dung sẽ được hiển thị.
Phụ lục
Trang 144
9 The advantage of passive matrix
monitors is that they are less
expensive than active matrix, a
major consideration in laptops
where the monitor can account for
one-third the cost of the entire
computer.
Thuận lợi của màn hình ma trận thụ động
là rằng chúng (thì) ít mắc hơn hơn so với
ma trận đang hoạt động, một sự cân nhắc
chính trong những máy xách tay nơi mà màn
hình có thể xem như là one-third(một phần
ba) giá của toàn thể máy vi tính.
10 Many large companies and
organizations rely heavily on a
commercial or custom DBMS to
handle immense data resources.
Nhiều công ty lớn và tổ chức phụ thuộc
nặng nề trên một DBMS thương mại hay là
phong tục để xử lý những tài nguyên dữ
liệu bao la.
Các câu tiếng Anh thử nghiệm dưới đây thuộc phần Help and Support của
Windows XP Professional, Microsoft Coporation.
STT Câu tiếng Anh VCLEVT 2.0 (Sử dụng VCLTransfer)
1 Read articles containing full
descriptions for performing key
tasks from start to finish.
Đọc những tác phẩm chứa những sự mô tả
đầy đủ cho thực hiện những nhiệm vụ chủ
chốt từ khởi đầu để/đến hoàn tất.
2 Thank you for choosing to use
Windows-XP-Professional!
Cám ơn bạn cho chọn để sử dụng Windows-
XP-Professional!
3 There are many new and exciting
features at your fingertips.
Có nhiều đặc tính mới và thú vị lúc/ở
những đầu ngón tay của bạn.
4 You can also communicate with
other people on other networks
without worrying about
compromising your privacy or
your personal data files.
Bạn cũng có thể truyền tin với người khác
trên những mạng khác mà không có lo ngại
về thỏa hiệp riêng tư của bạn hay là
những tập tin dữ liệu cá nhân của bạn.
5 Windows XP Professional has
many features and tools that will
make using your computer easy,
effective, and entertaining.
Windows XP Professional có nhiều đặc tính
và công cụ mà sẽ làm sử dụng máy tính của
bạn dễ, hữu hiệu, và giải trí.
6 Copying software without the
permission of the owner is
"copyright infringement," and the
law imposes penalties on infringers.
Sao chép phần mềm mà không có sự cho
phép của người sở hữu là `` sự vi phạm bản
quyền bản quyền, '' và luật đánh thuế những
phạt trên những người vi phạm bản quyền.
Phụ lục
Trang 145
7 Almost all commercial computer
software is licensed directly or
indirectly from the copyright
owner (the software publisher) for
use by the customer through a type
of contract called an "End User
License Agreement" (also known
as a EULA).
Hầu như tất cả phần mềm máy tính
thương mại được cho phép trực tiếp hay là
gián tiếp từ người sở hữu bản quyền ( nhà
xuất bản phần mềm ) cho việc sử dụng bởi
khách hàng xuyên qua một loại của hợp
đồng gọi một `` sự thỏa thuận giấy phép
người dùng cuối '' ( cũng biết như một
EULA ).
8 Do Microsoft products give me the
ability to access the Internet?
Những sản phẩm Microsoft có đưa tôi khả
năng để truy cập Internet không?
9 Internet access is a feature
included in most Microsoft
products.
(sự) truy cập mạng INTERNET là một đặc
tính được bao gồm trong hầu hết những sản
phẩm Microsoft.
10 It is important to understand the
difference between registering
your copy of Windows-XP and
activating it.
Nó (thì) quan trọng để hiểu sự khác nhau
giữa đăng ký bản sao của bạn của
Windows-XP và kích hoạt nó.
Các câu tiếng Anh thử nghiệm dưới đây thuộc trang Web của PCWorld
Mỹ, địa chỉ
STT Câu tiếng Anh VCLEVT 2.0 (Sử dụng VCLTransfer)
1 Ink jet printers, along with digital
cameras, are changing the way we
print photographs.
Dọc theo với những máy ảnh số, những
máy in tia mực, đang thay đổi cách chúng
tôi in những bức hình chụp.
2 When loaded with special photo
inks and paper, ink jet printers
have become one of the best
options for transforming a digital
image into a photograph.
Khi mà nạp với những mực bức ảnh đặc
biệt và giấy, những máy in tia mực trở nên
một trong những sự lựa chọn tốt nhất cho
biến thể một hình ảnh số thành một bức
hình chụp.
3 These printers provide superior
text quality compared with high-
end ink jet printers.
Những máy in này cung cấp chất lượng
văn bản cao cấp so sánh với những máy in
tia mực đầu cuối.
4 Ink jet printers are inexpensive
printers for the masses, designed
for home users, students, or
anyone who isn't concerned about
Những máy in tia mực là những máy in
không đắt cho những khối lượng lớn, được
thiết kế cho những người dùng nhà, những
sinh viên, hay là ai (thì) không có liên quan
Phụ lục
Trang 146
the highest text quality. khoảng chất lượng văn bản cao nhất nhất.
5 A high price does not necessarily
indicate excellent graphics.
Một giá cao không nhất thiết chỉ thị những
đồ họa xuất sắc.
6 From home offices to businesses,
monochrome laser printers offer
the best balance between price,
print quality, and speed.
Từ những văn phòng nhà tới những kinh
doanh, những máy in la-de đơn sắc đưa ra
cân bằng tốt nhất giữa giá, chất lượng in,
và tốc độ.
7 If you need color, you'll probably
want an ink jet printer, but if you
have the space, it's almost worth it
to buy both.
Nếu bạn cần màu thì bạn có lẽ sẽ muốn một
máy in tia mực, nhưng nếu bạn có không
gian thì nó (thì) nó đáng giá để mua cả hai.
8 Color laser toner cartridges are
also potentially hazardous to the
environment.
Những băng mực toner la-de màu (thì)
cũng có tiềm năng nguy hiểm tới môi
trường.
9 Few home users will need a color
laser printer
Một ít người dùng nhà sẽ cần một máy in
la-de màu.
10 If you plan to print mostly photos,
look for photo printers with extra
features such as a built-in PC
Card slot, an LCD panel that
allows you to view and print an
image without using your PC, and
bundled image-editing software.
Nếu bạn hoạch định để in chủ yếu những
bức ảnh thì tìm kiếm những máy in bức
ảnh với những đặc tính thêm như là một
khe PC Card nội tại, một bảng điều khiển
LCD mà cho phép bạn xem và in một hình
ảnh mà không có sử dụng PC của bạn, và
phần mềm image-editing.
11 These printers provide superior
text quality compared with high-
end ink jet printers.
Những máy in này cung cấp chất lượng
văn bản cao cấp so sánh với những máy in
tia mực đầu cuối.
12 PC World tests and reviews three
different types of printers: ink
jets, monochrome lasers, and
color lasers, on a regular basis.
PC World kiểm tra và ôn lại ba loại khác
nhau của máy in: tia mực, những la-de
đơn sắc, và những la-de màu, trên một cơ
sở thông thường.
Phụ lục
Trang 147
PHỤ LỤC 4
MỘT SỐ CÂU DỊCH CỦA HAI HỆ DỊCH
Dưới đây là một số kết quả dịch của hai hệ dịch VCLEVT 2.0 đã được tích
hợp khối chuyển đổi cây cú pháp của chúng em và hệ dịch EVTRAN 2.0 hiện là
một sản phẩm thương mại trên thị trường.
Các câu tiếng Anh thử nghiệm dưới đây thuộc bộ sách CADASA, Come to
the world of microcomputers, NXB Thống kê, 2002.
STT VCLEVT 2.0 (sử dụng VCLTransfer) EVTRAN 2.0
1 You can also communicate with other people on other networks without worrying
about compromising your privacy or your personal data files.
Bạn cũng có thể truyền tin với người
khác trên những mạng khác mà không
có lo ngại về thỏa hiệp riêng tư của
bạn hay là những tập tin dữ liệu cá
nhân của bạn.
Bạn có thể cũng giao tiếp với những
người khác trên (về) những mạng khác
mà không có gây lo lắng về việc thoả
hiệp sự riêng tư hoặc những tập tin dữ
liệu cá nhân (của) Bạn (của) Bạn.
2 From time to time , you may see the term Windows 3.x .
Từng lúc, bạn có thể thấy/xem thuật
ngữ Windows 3.x.
Thỉnh thoảng, bạn có thể nhìn thấy thuật
ngữ Windows 3. X.
3 In other words , two computers running Windows for Workgroups could be
networked together without the need to purchase a separate network operating
system like Novell NetWare .
Nói một cách khác, hai máy tính chạy
Windows cho Workgroups có thể
được nối mạng cùng với mà không có
nhu cầu để mua một hệ điều hành mạng
riêng biệt giống Novell NetWare.
Nói cách khác, hai máy tính chạy
Windows cho những nhóm làm việc có
thể (thì) được nối mạng cùng nhau mà
không có nhu cầu để mua một hệ điều
hành mạng riêng biệt như Novell
NetWare.
4 The IBM / Microsoft partnership did not last long .
Phụ lục
Trang 148
Cùng hội IBM / Microsoft đã không
kéo dài lâu.
IBM / quan hệ đối tác Microsoft không
lần cuối kéo dài.
5 At the time of its release , Windows NT addressed the market for the 32-bit ,
networked workstations that used some of the most powerful CPUs on the market
.
Lúc thời gian của ấn bản của nó,
Windows NT định địa chỉ thị trường
cho những trạm làm việc 32-bit, nối
mạng mà sử dụng một vài CPU mạnh
nhất trên thị trường.
Vào thời gian (của) phiên bản (của) nó,
Windows NT hướng vào thị trường cho
32 bít, nối mạng những trạm làm việc
mà sử dụng một ít CPUs mạnh nhất
trên thị trường.
6 If you have a Macintosh , you may also be able to run some versions of UNIX or
Linux ( but not Windows ) .
Nếu bạn có một Macintosh thì bạn cũng
có thể có khả năng để chạy vài phiên
bản của UNIX hay là Linux ( nhưng
không những cửa sổ ).
Nếu bạn có một Macintosh, bạn có thể
cũng (thì) có thể chạy vài phiên bản
(của) UNIX hoặc Linux ( Nhưng Không
phải là Windows).
7 Do you plan to develop or test applications that run on a specific operating system ?
Bạn có hoạch định để phát triển hay là
kiểm tra những ứng dụng mà chạy trên
một hệ điều hành cụ thể không?
Bạn lập kế hoạch phát triển hoặc kiểm
tra những ứng dụng mà chạy trên (về)
một hệ điều hành đặc biệt không ?
8 She plays tennis and he does too .
Cô ấy chơi quần vợt và anh ấy cũng
vậy.
Cô ấy cũng chơi quần vợt và anh ta làm.
9 The Web is a convenient place to obtain updated information about your new
operating system .
Web là một chỗ tiện lợi để nhận được
thông tin được cập nhật về hệ điều
hành mới của bạn.
Mạng là một chỗ tiện lợi để đang tồn tại
cập nhật hệ điều hành thông tin về
mới (của) bạn.
10 Resources on the local computer , as well as resources on remote servers , can be
configured to limit access to specific users and groups of users .
Những tài nguyên trên máy tính cục bộ,
tốt bằng những tài nguyên trên những
máy chủ từ xa, có thể được cấu hình để
giới hạn (sự) truy cập tới những
người dùng cụ thể và những nhóm
Những tài nguyên trên (về) máy tính địa
phương, cũng như những tài nguyên trên
(về) những người phục vụ từ xa, có thể
được định hình tới những truy nhập tới
những người dùng và những nhóm
Phụ lục
Trang 149
của người dùng. đặc biệt (của) người dùng giới hạn.
11 Although performance varies according to your hardware and application , you can
expect about a 50 percent improvement .
Mặc dù sự thực thi thay đổi tới phần
cứng và ứng dụng của bạn nhưng bạn
có thể mong đợi về một sự cải tiến 50
phần trăm.
Mặc dầu sự thực hiện thay đổi theo phần
cứng và ứng dụng (của) bạn, bạn có thể
chờ đợi khoảng một 50 sự cải tiến phần
trăm.
12 If you have an active Internet connection , the information will update
automatically .
Nếu bạn có một kết nối Internet đang
hoạt động thì thông tin sẽ cập nhật một
cách tự động.
Nếu bạn có một tích cực kết nối
Internet, thông tin sẽ cập nhật tự động.
13 Commercial software developers have also made a commitment to Linux , and
users can expect to see popular software applications to be modified to run under
Linux .
Những nhà phát triển phần mềm
thương mại cũng làm một sự cam kết
tới Linux, và những người dùng có thể
mong đợi để thấy/xem những ứng dụng
phần mềm phổ biến để được hiệu đính
để chạy dưới Linux.
Phần mềm Thương mại (mà) những
người phát triển có cũng làm một tống
đạt tới Linux, và những người dùng có
thể mong đợi săn sóc những ứng dụng
phần mềm đại chúng sẽ được sửa đổi
được chạy dưới Linux.
14 Some complicated language generation systems involve taking syntactic
knowledge, semantic knowledge, pragmatic knowledge and world knowledge
into consideration.
Vài hệ thống thế hệ ngôn ngữ làm
phức tạp liên quan lấy kiến thức cú
pháp, kiến thức ngữ nghĩa, kiến thức
võ đoán và kiến thức thế giới vào sự
cân nhắc.
Thế hệ ngôn ngữ được làm phức tạp
nào đó (mà) những hệ thống kéo theo
cầm (lấy) cho kiến thức và thế giới kiến
thức cú pháp , kiến thức ngữ nghĩa
học , thực dụng kiến thức vào trong sự
xem xét.
Phụ lục
Trang 150
Các câu tiếng Anh thử nghiệm dưới đây thuộc phần Help and Support của
Windows XP Professional, Microsoft Coporation.
STT VCLEVT 2.0 (sử dụng VCLTransfer) EVTRAN 2.0
1 Did you know?
Bạn có biết không ? Làm bạn biết?
2 When you are connected to the Internet, this area will display links to timely help and
support information.
Khi mà bạn được nối tới Internet, khu
vực này sẽ hiển thị những mối liên kết
tới sự giúp đỡ đúng lúc và hỗ trợ thông
tin.
Khi bạn đợc nối tới mạng(lới), nhau
(mà) vùng này sẽ trình bày liên kết tới
thông tin giúp đỡ và hỗ trợ đúng lúc.
3 If you want to connect to the Internet now, start the New-Connection-Wizard and see
how to establish a Web connection through an Internet service provider.
Nếu bạn muốn để nối tới Internet bây giờ
thì bắt đầu New-Connection-Wizard và
thấy/xem làm thế nào để thiết lập một kết
nối web xuyên qua một nhà cung cấp
dịch vụ Internet.
Nếu bạn muốn nối tới Internet bây giờ,
khởi động New_Connection_Wizard và
xem làm sao để thiết lập một kết nối
Mạng xuyên qua một nhà cung cấp
dịch vụ Internet.
4 See what is new; take an entertaining tour; learn about the programs Windows-XP
contains, including systems, accessories, and communications and entertainment
programs.
Thấy/xem cái gì (thì) mới; lấy một
chuyến du lịch giải trí; học về những
chương trình Windows-XP chứa, bao
gồm những hệ thống, những phụ tùng,
và những truyền thông và những
chương trình sự giải trí.
Xem cái gì (thì) mới; cầm (lấy) một giải
trí đi du lịch; học khoảng những chơng
trình (mà) Windows - XP chứa đựng , kể
cả những hệ thống, (mà) phụ kiện, và
truyền thông và trò giải trí lập trình.
5 For example, you can use Remote-Desktop to access your work computer and its
resources from home, and to view files and documents on your computer's desktop
from a co-worker's computer.
Ví dụ như, bạn có thể sử dụng Remote-
Desktop để truy cập máy tính công việc
của bạn và những tài nguyên của nó từ
nhà, và để xem những tập tin và những
tài liệu trên loại để bàn của máy tính
của bạn từ máy tính của một đồng
Chẳng hạn, bạn có thể sử dụng Từ xa -
Desktop để truy nhập máy tính công
việc (của) bạn và những tài nguyên
(của) nó từ ở nhà, và để nhìn những hồ
sơ và những tài liệu trên máy tính của
bạn có Desktop từ một co - máy tính
Phụ lục
Trang 151
nghiệp. (của) công nhân.
6 With NetMeeting you can have virtual meetings with anyone, anywhere, and you
can participate in discussions using audio, video, or chat.
Với NetMeeting bạn có thể có những
cuộc họp ảo với bất kỳ ai, bất kỳ nơi nào,
và bạn có thể tham dự những cuộc thảo
luận sử dụng âm, hình, hay là tán gẫu.
Với NetMeeting bạn có thể cho phép
thực tế gặp Với bất cứ ai, bất cứ nơi
đâu, và bạn có thể can dự vào những
thảo luận sử dụng âm thanh, viđêô, hoặc
tán gẫu.
7 Windows-XP-Professional provides extensive online Help for all operating
system features, as well as a digital tour to help you discover the possibilities
awaiting you.
Windows-XP-Professional cung cấp sự
giúp đỡ trực tuyến mở rộng cho tất cả
những đặc tính hệ điều hành, tốt bằng
một chuyến du lịch số để giúp bạn khám
phá những khả năng đợi bạn.
Windows - XP - Chuyên nghiệp cung
cấp sự Giúp đỡ trực tuyến rộng lớn
cho tất cả các đặc tính hệ điều hành,
cũng nh một số đi du lịch Giúp đỡ bạn
khám phá những khả năng đợi bạn.
8 Computer software is protected by copyright law and international copyright
treaties as well as other intellectual property laws and treaties.
Phần mềm máy tính được bảo vệ bởi
luật bản quyền và những hiệp ước bản
quyền quốc tế tốt bằng những luật và
những hiệp ước tài sản trí thức khác.
Phần mềm Máy tính là những pháp
luật và những hiệp ước được bảo vệ
bởi luật bản quyền và những hiệp ớc
bản quyền quốc tế cũng nh sở hữu trí
tuệ khác.
9 Microsoft is not responsible for Webcasting or any other form of transmission
received from any linked site.
Microsoft (thì) không chịu trách nhiệm về
Webcasting hay là bất kỳ hình thức khác
nào của sự truyền nhận từ bất kỳ chỗ
được liên kết nào.
Microsoft không (thì) có trách nhiệm với
Webcasting hoặc mọi mẫu (dạng) khác
(của) sự truyền nhận từ bất kỳ vị trí đợc
liên kết nào.
10 With online registration, you can use your modem or an Internet connection to
register your copy of Windows-XP.
Với sự đăng ký trực tuyến, bạn có thể
sử dụng bộ điều giải của bạn hay là một
kết nối Internet để đăng ký bản sao của
bạn của Windows-XP.
Với trực tuyến registration, Bạn có thể
sử dụng mô đem (của) bạn hoặc một
kết nối Internet để đăng ký sự sao chép
(của) bạn (của) Windows - XP.
11 Registration ensures that you receive product support, product update information,
and other benefits.
Phụ lục
Trang 152
Sự đăng ký bảo đảm rằng bạn nhận hỗ
trợ sản phẩm, thông tin cập nhật sản
phẩm, và những lợi ích khác.
Sự Đăng ký bảo đảm rằng bạn nhận sản
phẩm hỗ trợ, sản phẩm cập nhật
thông tin, và những lợi ích khác.
Một số câu hỏi do chúng em đưa ra
STT VCLEVT 2.0 (sử dụng VCLTransfer) EVTRAN 2.0
1 What are you doing ?
Bạn đang làm cái gì? Bạn đang gì làm?
2 What should I do to keep up with John ?
Tôi nên làm cái gì để tiếp tục với John ? Tôi cần phải làm giữ vững với
John gì?
3 Who did he beat two years ago ?
Anh ấy đã đánh ai cách đây hai năm ? Ai làm cho anh ta đập hai năm
trước đây?
4 How tall is your mother’s sister ?
Chị/em gái của mẹ của bạn là cao bao
nhiêu ?
Làm sao cao là mẹ (của) bạn có
chị, em gái ?
Phụ lục
Trang 153
PHỤ LỤC 5
HỆ THỐNG NHÃN NGỮ PHÁP
Nhãn từ loại của Penn Tree Bank, kho ngữ liệu thông dụng nhất hiện nay.
STT Nhãn từ loại Ý nghĩa
1 CC Liên từ kết hợp (Coordinating conjunction)
2 CD Số đếm (Cardinal number)
3 DT Định từ (Determiner)
4 EX “có” (Existential “there”)
5 FW Từ tiếng nước ngoài (Foreign word)
6 IN Giới từ hay liên từ với mệnh đề phụ (Preposition or
subordinating conjunction)
7 JJ Tính từ (Adjective)
8 JJR Tính từ so sánh hơn (Adjective, comparative)
9 JJS Tính từ so sánh nhất (Adjective, superlative)
10 LS Dấu liệt kê(List item marker)
11 MD Động từ khiếm khuyết (Modal)
12 NN Danh từ số ít hay không đếm được (Noun, singular or
mass)
13 NNS Danh từ số nhiều (Noun, plural)
14 NP Danh từ riêng số ít (Proper noun, singular)
15 NPS Danh từ riếng số nhiều (Proper noun, plural)
16 PDT Tiền chỉ định từ (Predeterminer)
17 POS Dấu cuối của sở hữu cách (Possessive ending)
18 PP Đại từ nhân xưng (Personal pronoun)
19 PP$ Đại từ sở hữu (Possessive pronoun)
20 RB Trạng từ (Adverb)
21 RBR Trạng từ so sánh hơn (Adverb, comparative)
Phụ lục
Trang 154
22 RBS Trạng từ so sánh nhất (Adverb, superlative)
23 RP Tiểu từ (Particle)
24 SYM Ký hiệu (Symbol)
25 TO Từ “to”
26 UH Thán từ (Interjection)
27 VB Động từ nguyên mẫu không “to” (Verb, base form)
28 VBD Động từ thì quá khứ (Verb, past tense)
29 VBG Danh động từ hay hiện tại phân từ (Verb, gerund or
present participle)
30 VBN Quá khứ phân từ (Verb, past participle)
31 VBP Động từ không phải ngôi thứ ba số ít thì hiện tại(Verb,
non-3rd person singular present)
32 VBZ Động từ ngôi thứ ba số ít thì hiện tại (Verb, 3rd person
singular present)
33 WDT Định từ bắt đầu bằng Wh- (Wh-determiner)
34 WP Đại từ bắt đầu bằng Wh- (Wh-pronoun)
35 WP$ Đại từ sở hữu bắt đầu bằng Wh- (Possessive wh-pronoun)
36 WRB Trạng từ bắt đầu bằng Wh- (Wh-adverb)
20 nhãn cú pháp của Penn Tree Bank:
STT Nhãn cú pháp Ý nghĩa
1 ADJP Ngữ tính từ (Adjective phrase)
2 ADVP Ngữ trạng từ (Adverbial phrase)
3 AUX Ngữ động từ có trợ động từ (Auxiliary verb phrase)
4 CONJP Ngữ có liên từ (Coordinate phrase)
5 INTJ Ngữ cảm thán từ (Interjection)
6 NEG Ngữ phủ định (Negative)
7 NP Danh ngữ (Noun phrase)
8 PP Giới ngữ (Preposional phrase)
9 PRT Ngữ bắt đầu bằng tiểu từ (Partical phrase)
10 S Mệnh đề khẳng định đơn (Simple declarative clause)
Phụ lục
Trang 155
11 SBAR Mệnh đề phụ bổ nghĩa (Subordinate clause)
12 SBARQ Mệnh đề bắt đầu bằng từ hỏi Wh-
13 SINV Câu đảo ngữ (Inversion sentence)
14 SQ Bộ phận còn lại của SBARQ sau khi đã bỏ từ/ngữ Wh-
15 VP Động ngữ (Verb phrase)
16 WHADVP Trạng ngữ bắt đầu bằng Wh- (Wh- adverbial phrase)
17 WHNP Danh ngữ bắt đầu bằng Wh- (Wh- noun phrase)
18 WHPP Giới ngữ bắt đầu bằng Wh- (Wh- preposional phrase)
19 X Thành phần không xác định (Constituent of unknown or
uncertain type)
20 ? Dấu hỏi trong câu hỏi (Question mark enclosing a
constituent)
Phụ lục
Trang 156
PHỤ LỤC 6
CÁC NHÃN QUAN HỆ NGỮ PHÁP
STT Nhãn quan hệ Ví dụ
1 appo “ACME president, —appoÆP.W. Buckman”
2 aux shouldÅaux—resign
3 be “isÅbe—sleeping
4 c “thatÅc—John loves Mary
5 compl first complement
6 det “theÅdet—hat”
7 gen “Jane’sÅgen—uncle”
8 have “haveÅhave—disappeared”
9 i the relationship between a C clause and its I clause
10 inv-aux inverted auxiliary: “WillÅinv-aux—you stop it”
11 inv-be inverted be: “IsÅinv-be—she sleeping”
12 inv-have inverted have: “HaveÅinv-have—you slept”
13 mod the relationship between a word and its adjunct modifier
14 pnmod post nomial modifier
15 p-spec specifier of prepositional phrases
16 pcomp-c clausal complement of prepositions
17 pcomp-n nominal complement of prepositions
18 post post determiner
19 pre pre determiner
20 pred predicate of a clause
21 rel relative clause
22 vrel passive verb modifier of nouns
23 wha wh-elements at C-spec positions
24 whn wh-elements at C-spec positions
25 whp wh-elements at C-spec positions
26 obj object of verbs
Tài liệu tham khảo
Trang 157
TÀI LIỆU THAM KHẢO
[1] Aravind K.Joshi & Yves Schabes, An Eearley Type Parsing Algorimth for
Tree Adjoining Grammars, Proceedings of the 26th Meeting of the Association
for Computational Linguistics, Buffalo, June 1998.
[2] Aravind K.Joshi, An Introduction to Tree Adjoining Grammars, A. Manaster-
Rammer, editor, Mathematics of Language. John Benjamins, Amsterdam,
1987.
[3] David Yarowsky and Grace Ngai. Inducing Multilingual POS Taggers and NP
Bracketers via Robust Projection across Aligned Corpora, Proceedings of
HLT-02, 2002.
[4] Đinh Điền, Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ
liệu song ngữ, Luận án tiến sĩ toán học, ĐHKHTN - ĐHQG Tp.HCM, 2003.
[5] Dinh Dien, Hoang Kiem, Van Toan, Quoc Hung, Phu Hoi, Thuy Ngan, Xuan
Quang, Word alignment in English – Vietnamese bilingual corpus,
Proceedings of International Conference on East-Asia Language Processing
and Internet Information Tecnology 2002, Hanoi, Vietnam, 2002, pp. 3-11.
[6] Dinh Dien, Thuy Ngan, Xuan Quang, A Hybrid Approach to Word Order
Transfer in the English-to-Vietnamese Machine Translation, paper at MT –
Summit IX, Lousiana., USA, 2003.
[7] Dinh Dien, Thuy Ngan, Xuan Quang, Automatic Tree Transfer in English-
Vietnamese Machine Translation, The First International Workshop for
Computer, Information and Communication Technologies – Theme: State of
Art and Future Trends of Information Technologies in Korea and Vietnam –
11 February 2003 – Hanoi, Vietnam, 2003, pp. 7-12.
[8] Eric Brill, A corpus-based approach to language learning, PhD-dissertation,
1993.
Tài liệu tham khảo
Trang 158
[9] James Allen, University of Rochester, Natural Language Understanding, the
Benjamin/Cummings Publishing Company, Inc., 1995.
[10] Ken Samuel, Presentation for DFKI about TBL, Lecture of University, 1997.
[11] Kuang-Hua Chen & Hsin-His Chen, A Hybrid Approach to Machine
Translation System Design, Computational Linguistics and Chinese Languge
Processing. Vol. 1, no. 1, August 1996.
[12] Ngô Quốc Hưng và Phạm Phú Hội, Liên kết từ trong song ngữ Anh-Việt (Ứng
dụng trong khảo sát trật tự từ), Luận văn tốt nghiệp cử nhân tin học,
ĐHKHTN, 2002.
[13] Nguyễn Đức Dân, Phạm trù thứ tự trong tiếng Việt, Tập san khoa học A –
ĐHTH TP. HCM, số 1/1995.
[14] Nguyễn Lưu Thùy Ngân, Đỗ Xuân Quang, Nguyễn Văn Toàn, Ứng dụng phân
tích ngữ pháp song song vào song ngữ Anh-Việt, Hội nghị khoa học trường
ĐHKHTN lần III, 2002, pp. 192-196.
[15] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, NXB ĐHQG Hà Nội, 1998.
[16] Radu Floriance & Grace Ngai, Transformation-Based Learning in the Fast
Lane : A generative Approach, ACL 2001.
[17] Rebecca Hwa, Philip Resnik, Amy Weinberg, and Okan Kolak, Evaluating
Translational Correspondence using Annotation Projection, ACL 2002.
[18] Stuart Sheiber & Yves Schabes, Synchronous Tree Adjoining Grammars,
Proceedings of 13th COLING-90, Helsinki, ACL 1990.
[19] Trần Quốc Bảo, Tìm hiểu và cài đặt bộ phân tích cú phấp dựa trên văn phạm
TAG (Tree adjoining grammar) để phân tích cú pháp câu tiếng Anh, Luận văn
cử nhân tin học, ĐHKHTN, 2002.
[20] Cigdem Keyder Turhan, Structural transfer in an English to Turkish machine
translation system, PhD-dissertation, The Middle East Technical University,
1998.
Tài liệu tham khảo
Trang 159
[21] W. John Hutchins, An Introduction to Machine Translation, The Library of the
University of East Anglia – Norwich – UK, 1992.
Các file đính kèm theo tài liệu này:
- 9912621-9912652.pdf