MỤC LỤC
Chương 1: Tổng quan về dịch máy
I) Định nghĩa dịch máy 11
II) Vai trò của dịch máy 12
III) Lịch sử dịch máy 13
1) Giai đoạn 1930 - 1940 14
2) Giai đoạn 1940 - 1970 14
3) Giai đoạn 1970 - 1990 16
4) Giai đoạn 1990 - hiện nay 17
IV) Phân loại dịch máy 18
I) Phạm vi của luận văn 19
VI) Kết chương 20
Chương 2: Các phương pháp dịch máy
I) Vấn đề ngôn ngữ trong dịch máy 21
II) Kho ngữ liệu 24
III) Dịch trực tiếp 25
IV) Dịch chuyển đổi 27
1) Dịch chuyển đổi cú pháp 27
2) Dịch chuyển đổi cú pháp + phân giải ngữ nghĩa 29Trần Lâm Quân
3) Quy trình dịch chuyển đổi 30
V) Dịch máy dựa trên thống kê (Statistical Machine Translation) 29
VI) Dịch máy dựa trên mẫu ví dụ (Example-Based Machine Translation) 32
VII) Dịch dựa trên cơ sở tri thức 33
VIII) Dịch dựa trên ngữ liệu 33
IX) Dịch liên ngữ 33
1) Ưu điểm 34
2) Nhược điểm 35
3) Phân hoạch liên ngữ 36
X) Kết chương 38
Chương 3: Từ điển hàng không
I) Khảo sát 39
1) Tập hợp các từ điển Anh - Việt hàng không (dạng sách) 40
2) Tập hợp các từ điển Anh - Việt thông dụng (dạng phần mềm) 41
II) Biên tập để xây dựng kho ngữ liệu
1) Nhập liệu (từ, nghĩa từ, từ xem thêm) 42
2) Phân nhóm từ 42
3) Biên tập 43
III) Lựa chọn mô hình, thiết kế giải thuật, giao diện và viết chương trình 44
IV) Thiết kế và viết mã 49
V) Xin ý kiến đóng góp của các chuyên gia và người sử dụng. Hoàn thiện từ điển và thử nghiệm dịch máy
VI) Tài liệu sử dụng 62
VII) Kết chương 62
Chương 4: Cài đặt chương trình thử nghiệm và đánh giá
I) Cách tiếp cận 62
II) Bộ dữ liệu thử 63
III) Các yêu cầu về phần cứng, phần mềm của trình thử nghiệm 64
IV) Kết quả thực nghiệm 65
V) So sánh
1) Với EV-Trans 3.0 73
2) Với Lạc Việt từ điển (ở chức năng tra từ tự động - AutoLook)
75
Chương 5: Kết luận - Hướng phát triển 76
Tài liệu tham khảo 78
Tóm tắt luận văn 82
86 trang |
Chia sẻ: maiphuongtl | Lượt xem: 1926 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
G VÀO TÀI LIỆU HÀNG KHÔNG
- 39 -
X) Kết chương
Qua các phương pháp dịch máy trình bày trên và trên thực tiễn của dịch
máy Anh-Việt, có thể thấy các phương pháp dịch máy đều có những mặt
mạnh, mặt yếu riêng, và chưa thấy có một giải pháp nào tốt cho mọi tình
huống.
Quay trở lại bài toán gốc: “Tìm hiểu kỹ thuật dịch máy và ứng dụng
vào tài liệu hàng không”, với hướng tiếp cận là dịch trực tiếp. Trong quá trình
đọc tài liệu tham khảo, chúng tôi nhận thấy một trong những thành phần cốt
yếu của các hệ dịch máy là kho ngữ liệu, nói cách khác, là từ điển song ngữ.
Như đã trình bày trên, dịch trực tiếp dựa vào từ điển song ngữ một cách triệt
để. Do đó, chúng tôi rất chú trọng vào xây dựng một kho ngữ liệu cùng phần
mềm từ điển + dịch máy, gọi chung là từ điển hàng không, sẽ được trình bày
trong chương 3.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 40 -
CHƯƠNG 3: TỪ ĐIỂN HÀNG KHÔNG
Có thể nói một chương trình là đáng tin nếu kết xuất của nó là chính xác.
Có thể nói một ứng dụng dịch máy là đáng tin nếu kết xuất của nó dựa trên
một từ điển chính xác.
Xuất phát từ suy nghĩ này và xét trong phạm vi giới hạn của luận văn, khi
bước đầu thực hiện đề tài dịch máy, chúng tôi chú trọng đến việc xây dựng từ
điển. Việc xây dựng từ điển được thực hiện theo các bước sau:
• Khảo sát.
• Biên tập để xây dựng cơ sở dữ liệu.
• Lựa chọn mô hình, thiết kế giải thuật, giao diện, viết chương trình.
• Xin ý kiến đóng góp của các chuyên gia và người sử dụng. Hoàn thiện
cơ sở dữ liệu, phần mềm từ điển và thử nghiệm dịch máy.
I) Khảo sát
Tập hợp các từ điển Anh-Việt ngành hàng không hiện có, tham khảo
cấu trúc, nội dung các phần mềm từ điển có trên thị trường. Tham khảo quy
trình xây dựng phần mềm và các quy chuẩn trong công nghệ phần mềm.
1) Tập hợp các từ điển Anh - Việt hàng không (dạng sách)
Tài liệu sử dụng chính:
• Từ điển Hàng không dân dụng Anh - Việt, tác giả: Nguyễn Huy Hiệu,
đề tài cấp Tổng công ty.
• Từ điển giải nghĩa thuật ngữ kinh tế - kỹ thuật Anh - Việt Hàng không,
tác giả: Phạm Vũ Hiến, đề tài cấp Cục.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 41 -
Hai công trình này là cơ sở dữ liệu gốc của phần mềm từ điển hàng không.
Đây là 2 đề tài đã được nghiệm thu, thuộc ngành hàng không.
Tài liệu sử dụng phụ:
• Từ điển kỹ thuật máy bay Anh - Việt, tác giả Phạm Vinh, NXB. Khoa
học Kỹ thuật, 1999.
Tài liệu tham khảo:
• ICAO, International Civil Aviation Vocabulary, First Edition, 1998.
• Dale Crane, Dictionary of Aeronautical Terms, Third Edition,
Aviation Supply & Academics, Inc., Washington, 1997.
• James Foye, Aircraft Technical Dictionary, Third Edition, IAP, Inc.,
USA, 1992.
• R.J. Hall and R.D. Campbell, Dictionary of Aviation, Oxford
Professional Book, London, 1991.
2) Tập hợp các từ điển Anh - Việt thông dụng (dạng phần mềm)
• Lạc Việt từ điển (Công ty Lạc Việt).
• Oxford English Dictionary.
• Encarta Dictionary.
• Just Click & See (Công ty Ban Mai).
• English Study 4.0 (Công ty Anh Nhân).
• Dự án EChip Dictionary (cộng đồng mã nguồn mở).
• Free Vietnamese Dictionary Project (tác giả: Hồ Ngọc Đức).
• MultiDictionary - từ điển tổng hợp (tác giả: Ngô Huy Biên).
• Medic Việt nam, phần mềm từ điển y học (tác giả: Nguyễn Phước Bảo
Phi).
• PowerClick (tác giả: Trần Thanh Tú).
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 42 -
• Danh mục hệ thống từ điển trực tuyến (tra cứu trên web):
www.vietdic.com, www.ksvn.com/anhviet_new.htm;
E-lexicon online, www.babylon.com, …
3) Tham khảo các trang web dịch máy như:
•
•
•
•
.v.v.
II) Biên tập để xây dựng kho ngữ liệu
1) Nhập liệu (từ, nghĩa từ, từ xem thêm)
Hoàn thành việc nhập liệu (từ và nghĩa) từ các công trình từ điển đã nêu để
làm cơ sở dữ liệu (CSDL) cho phần mềm.
2) Phân nhóm từ
Do ngành Hàng không là một ngành lớn có công nghệ hiện đại nên các
lĩnh vực trong ngành rất đa dạng. Các lĩnh vực có thể liệt kê như sau:
• Luật và các quy định quy chế hàng không.
• Vận tải thương mại hàng không.
• Khai thác cảng hàng không.
• Quản lý bay.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 43 -
• Dẫn đường.
• Khai thác bay.
• An ninh, an toàn hàng không.
• Kỹ thuật máy bay, bảo dưỡng và sửa chữa máy bay.
• Khí tượng.
• Y học hàng không.
• Tâm lý học hàng không.
• Đào tạo và huấn luyện.
• Hợp tác quốc tế.
• Công nghệ thông tin và truyền thông.
• Môi trường.
• Quản trị kinh doanh.
• Tài chính; Ngân hàng; Bảo hiểm.
• Du lịch.
• .v.v.
Để không vượt quá sức mình và nhất quán với các công trình từ điển đi
trước, trong phần mềm từ điển hàng không, chúng tôi phân nhóm thành hai
lĩnh vực chính: Kinh tế và kỹ thuật hàng không.
3) Biên tập
Các cộng tác viên (cũng là các tác giả, người tham gia viết trong ba bộ từ
điển trên) hoàn tất việc biên tập, hiệu chỉnh cơ sở dữ liệu Anh – Việt. Trong
quá trình biên soạn, chúng tôi đã tham khảo thêm các từ điển của các tổ chức
quốc tế khác như ICAO, IATA, AECMA, ...
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 44 -
III) Lựa chọn mô hình, thiết kế giải thuật, giao diện và viết chương trình
Tuân thủ theo quy trình của công nghệ phần mềm, chúng tôi xây dựng ứng
dụng lần lượt theo các bước sau:
• Khảo sát, nắm bắt yêu cầu phần mềm.
• Phân tích sơ bộ các chức năng mà phần mềm cung cấp.
• Lựa chọn mô hình.
• Thiết kế chi tiết, viết mã.
• Kiểm lỗi, thử nghiệm và sửa chữa phần mềm
• Đóng gói sản phẩm.
Cụ thể như sau:
1) Nắm bắt yêu cầu phần mềm
• Xác định ngôn ngữ lập trình thích hợp: Thực hiện viết mã trên các bộ
công cụ lập trình trực quan (Visual Studio).
• Xác định cấu trúc của phần mềm để đáp ứng:
- Việc tổ chức cấu trúc dữ liệu cho từ điển, sắp xếp từ theo thứ tự abc
(alphabet). Tạo giao diện người sử dụng.
- Tìm và xuất dữ liệu liên quan (từ, nghĩa, từ xem thêm, ảnh, âm thanh).
2) Phân tích sơ bộ các chức năng mà phần mềm cung cấp
Có thể nhận dạng được cấu trúc dữ liệu của phần mềm từ điển hàng không
là một cấu trúc phức. Thật vậy, dữ liệu sử dụng trong từ điển thuộc về một
trong hai dạng: Dạng dữ liệu “có cấu trúc”: bảng dữ liệu; Dạng dữ liệu “phi
cấu trúc”: âm thanh, hình ảnh, mối liên kết, … Không làm mất tính tổng quát
của từ điển, chúng tôi xây dựng các chức năng sau trong phần mềm:
• Tra cứu (tìm và sắp xếp, hiển thị từ)
• Liệt kê (liệt kê từ đã tra)
• Thêm (thêm từ mới)
• Sửa (sửa từ hiện thời)
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 45 -
• Xóa (xóa từ hiện thời)
• Giao tác: tương tác nhanh với người dùng khi gõ phím, nhấn mouse,
.v.v. để kết xuất ảnh, âm thanh tương ứng với từ được chọn. Nhằm mục
đích tương tác nhanh, phần mềm cần đón biến cố và xử lý biến cố một
cách hiệu quả: Khi người sử dụng nhấn phím (mũi tên, home, end, page
up, page down) trong từ điển, chương trình sẽ đón sự kiện nhấn phím
này và hiển thị luôn từ, nghĩa từ, ảnh, …
• Tra từ trong ứng dụng khác: Giải thuật getText để tra từ nhanh trên
Word, Web, Adobe Acrobat, … – tương tự như AutoLook của Lạc Việt
từ điển, như Click ’n’ See … Đặc biệt, từ điển hàng không còn có thể
tra được cụm từ chứ không đơn thuần chỉ tra từ đơn; có thể tra được từ
ngay trên trang tài liệu Acrobat Reader.
• Phương thức khởi chạy cùng hệ điều hành (phương thức này không phụ
thuộc môi trường như Win 9X, 2K, XP, …), mục đích: thường trú trong
hệ điều hành, để sẵn sàng đón yêu cầu từ phía người sử dụng.
• Từ điển riêng (được xây dựng như một tùy biến): Người sử dụng có thể
tạo riêng một/nhiều từ điển với hệ thống từ và định nghĩa riêng.
3) Lựa chọn mô hình
Theo khảo sát và nghiên cứu của chúng tôi, có một số mô hình đặc trưng
để tổ chức dữ liệu trong một phần mềm từ điển:
• Tổ chức dữ liệu theo dạng cây tìm kiếm cân bằng (B-tree).
• Tổ chức dữ liệu theo dạng cây nhị phân.
• Tổ chức dữ liệu theo dạng danh sách đặc.
• Tổ chức dữ liệu theo dạng danh sách liên kết.
• Tổ chức dữ liệu theo dạng lập chỉ mục (index file) của tổ chức Dict.org.
• Tổ chức dữ liệu theo dạng cơ sở dữ liệu.
• .v.v.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 46 -
Lập luận:
• Cấu trúc cây (B-tree, cây nhị phân): Theo lý thuyết về phân tích thuật
toán, người ta chứng minh được (bằng phương pháp truy hồi): T(N) =
O(log2N). Trong đó, T(N): Thời gian tính (trong trường hợp này là thời
gian tìm từ + nghĩa của từ cần tra) theo một đơn vị thời gian (giả sử
mili-giây); O(N): độ phức tạp của thuật toán; N: hằng số, bằng số lượng
dữ liệu trong bài toán (số lượng từ trong từ điển).
Log2N là đáp số gần như tối ưu với độ phức tạp thuật toán, vì log2N rất
nhỏ so với hằng số N. Giả sử từ điển có khoảng hơn 1 triệu từ (N =
1048576 = 220), ta có: log2N = 20.
Tuy nhiên trong thực tế việc duyệt cây thường thực hiện gọi đệ qui (lặp
đi lặp lại). Hơn nữa, khi cây bị suy biến (do xóa, sửa hoặc thêm từ), cần
phải cân bằng lại cây. Chi phí (bộ xử lý, bộ nhớ, thời gian tính) để cân
bằng lại là đáng kể, đặc biệt khi người sử dụng thường xuyên thao tác
xóa, sửa hoặc thêm từ. Do đó ảnh hưởng đến hiệu năng của chương
trình.
• Cấu trúc danh sách: Nét đặc trưng của cấu trúc danh sách (liên kết đơn,
kép, vòng) và danh sách đặc (mảng) là tính tuần tự, có thể có hoặc
không sử dụng con trỏ (pointer), và thường thao tác trực tiếp trên bộ
nhớ trong. Nhược điểm của cấu trúc này là khi thao tác trên một phần
tử (một từ) thuộc danh sách, đòi hỏi phải đọc duyệt tuần tự hầu như tất
cả các phần tử trong danh sách, các thao tác trên file dữ liệu trở nên
kém hiệu quả, chậm thời gian đáp ứng yêu cầu của người sử dụng.
• Cấu trúc index file của tổ chức Dict.org: Mã hóa base 64 (cơ số 64),
gồm 64 ký tự:
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwx
yz0123456789+/. File index gồm ba thành phần: từ, vị trí offset (vị trí
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 47 -
nghĩa của từ trong file dữ liệu) và độ dài của nghĩa, mỗi thành phần
ngăn cách nhau bởi dấu tab (ASCII 9). Mỗi dòng trong file tương ứng
với một từ của từ điển, được sắp xếp để làm giảm thời gian tìm kiếm.
Với mỗi lần thêm, sửa hoặc xóa từ, cấu trúc này bộc lộ nhược điểm:
phải tính lại vị trí offset và xác định lại chiều dài của nghĩa tương ứng,
đặc biệt khi file dữ liệu khá lớn, khoảng hàng chục đến hàng trăm nghìn
mục từ.
• Cấu trúc theo dạng cơ sở dữ liệu: Trong chương trình, cấu trúc này
thường được khai báo như sau:
#define _UNICODE
typedef struct tuDienAV{
char English[255];
char NghiaViet[255];
char *Vietnamese;
char XemThem[255];
boolean ID_KinhTe;
boolean ID_KyThuat;
boolean ID_XemThem;
boolean ID_HinhAnh;
};
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 48 -
Hoặc đặc tả trong bảng sau (dưới góc nhìn cơ sở dữ liệu):
Field Name Data Type Length Allow Nulls
English (PK) Nvarchar 255
NghiaViet Nvarchar 255 9
Vietnamese Ntext 16 9
ID_XemThem Bit 1
XemThem Nvarchar 255 9
ID_HinhAnh Bit 1
Bảng 3.1: Cấu trúc dạng bảng của kho ngữ liệu.
(trong đó PK: Primary Key)
Với kiến trúc này, file dữ liệu chứa 1 bảng duy nhất, nên phần mềm từ
điển không cần tham chiếu đến các ngữ nghĩa như: mô hình dữ liệu (quan hệ,
phân cấp, mạng, hướng đối tượng, phân tán - thuần nhất, không thuần nhất),
phân rã, ràng buộc toàn vẹn, cặp bản số (1-1, 1-N, M-N), á thực thể .v.v.
Không có khóa ngoại nên không cần thiết lập tương quan (set relation), không
kết buộc nên tiết kiệm được các phép nhân.
File dữ liệu từ điển chỉ là một file bình thường như bao file dữ liệu
khác trên máy tính. File dữ liệu từ điển có N từ (liên kết với mỗi từ là nghĩa,
xem thêm, hình ảnh, âm thanh - như một danh sách liên kết). Để thực hiện tra
cứu nhanh một từ, từ điển được sắp xếp theo thứ tự mặc định (alphabet).
Trong thực tế cài đặt ứng dụng dịch máy, cơ sở tri thức dịch được xây
dựng dựa trên định dạng bảng dữ liệu, câu truy vấn dựa trên SQL, nên tốc độ
truy xuất mẫu tăng lên đáng kể. Việc sử dụng các cấu trúc dữ liệu trên chỉ
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 49 -
thuần túy mang ý nghĩa kỹ thuật, không làm thay đổi ý đồ thiết kế thuật giải
nên không được trình bày kỹ - nhằm tránh những phức tạp không cần thiết.
Với những phân tích trình bày trên, cấu trúc theo dạng cơ sở dữ liệu là
mô hình mà chúng tôi lựa chọn.
IV) Thiết kế và viết mã
a) Liệt kê các giải thuật: Mục đích của phần mềm từ điển là tra cứu, nên các
giải thuật được chú trọng nhất sẽ là lớp giải thuật về sắp xếp và tìm kiếm.
*) Nhóm giải thuật sắp xếp:
• Sắp xếp chọn: Lặp tìm trong N. Ở lượt thứ i (i=1,2,…,N) giải thuật
chọn từ nhỏ nhất trong dãy (N-i+1) rồi so sánh với từ (i), nếu nhỏ hơn
thì đổi chỗ.
giải thuật tóm tắt:
for (i=1; i<N-1; i++) {
chỉsố = i;
for (j=i++; j<N; j++)
if (từ(j) < từ(chỉsố)) chỉsố = j;
if (chỉsố != i)
ĐổiChỗ(từ(i),từ(chỉsố));
}
return
• Sắp xếp thêm dần: Không quá chính xác, lý thuyết cấu trúc dữ liệu giải
thuật ví thủ tục sắp xếp thêm dần như kinh nghiệm của người chơi bài.
Khi có (i-1) lá bài được sắp xếp trên tay, lá bài rút thêm thứ i sẽ được
so sánh lần lượt với lá bài thứ (i-1), (i-2), … để tìm ra chỗ thích hợp và
chèn (thêm dần) nó vào vị trí thích hợp. Việc triển khai thủ tục sắp xếp
thêm dần được lập luận như sau: giả sử trong từ điển có (i-1) từ đã
được sắp, từ thứ (i) sẽ được so sánh với từ thứ (i-1), (i-2), … , thực hiện
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 50 -
các xử lý dịch chuyển và chèn, giá trị trả về là một danh sách được sắp
thứ tự tăng.
giải thuật tóm tắt:
for (i=2; i<N; i++) {
từSoSánh = từ(i);
j=i--;
while (từSoSánh < từ(j)) {
từ(j+1) = từ(j);
j--;
}
}
return
• Sắp xếp nổi bọt: như tên gọi của nó, “bọt nhẹ nhất” - theo quy ước
alphabet (ví dụ như A check: bảo dưỡng định kỳ dạng A) sẽ “nổi” lên
trước; “bọt nặng nhất” - theo quy ước alphabet (như Zulu time: giờ
quốc tế) sẽ “nổi” sau cùng.
giải thuật tóm tắt:
for (i=1; i<N-1; i++)
for (j=N; j>i+1; j--)
if (từ(j) < từ(j-1)) ĐổiChỗ(từ(i),từ(j-1));
return
• Sắp xếp phân đoạn: Chọn 1 từ ngẫu nhiên trong N làm chốt (pivot).
Mọi từ nhỏ hơn pivot phải được xếp vào vị trí trước pivot, mọi từ lớn
hơn xếp vào vị trí sau pivot. Áp dụng kỹ thuật gọi đệ quy để sắp xếp 2
dãy từ trước pivot, sau pivot.
giải thuật tóm tắt:
biếnLogic = true;
if (chỉSốDưới < chỉSốTrên){
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 51 -
i = chỉSốDưới;
j = chỉSốTrên++; pivot = từ(chỉSốDưới);
while (biếnLogic){
i++;
while (từ(i) < pivot)) i++;
j--;
while (từ(j) > pivot)) j--;
if (i<j) ĐổiChỗ(từ(i),từ(j));
else biếnLogic = false;
}
ĐổiChỗ(từ(chỉSốDưới),từ(j));
call gọiĐệQui(dãyTừTrướcPivot);
call gọiĐệQui(dãyTừSauPivot);
} return
• Sắp xếp theo mặc định theo khóa chính (primary key) của file dữ liệu:
Phần mềm từ điển dựa trên phương pháp này.
*) Nhóm giải thuật tìm kiếm:
• Tìm tuyến tính: Kỹ thuật này rất đơn giản và cổ điển: Bắt đầu từ bản
ghi thứ nhất, lần lượt so sánh với từ muốn tra, đến khi tìm thấy mục từ
mong muốn hoặc đến hết file dữ liệu mà chưa tìm thấy.
giải thuật tóm tắt:
i = 1; từ(N+1) = keyword;
while (từ(i) != keyword) i++;
if (i == N+1) return EndOfFile;
return từ(i);
• Tìm nhị phân: kỹ thuật này mô phỏng hoàn toàn việc tra một cuốn tự
điển bằng tay. Khi tra sách, ta mở ngẫu nhiên 1 trang, rồi căn cứ theo
alphabet mà lần mở đến từ cần tra cứu. Điểm khác là giải thuật chuẩn
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 52 -
của phương pháp tìm kiếm nhị phân quy định “trang ngẫu nhiên” luôn
là phần tử ở giữa dãy từ:
giải thuật tóm tắt:
cậnDưới = 1; cậnTrên = N;
while (cậnDưới < cậnTrên){
trangNgauNhien = (cậnDưới + cậnTrên) / 2;
if (từ-Muốn-Tra < từ(trangNgauNhien)){
cậnTrên = trangNgauNhien – 1;
call gọiĐệQui(cậnDưới,cậnTrên,từ-Muốn-Tra);
} else if (từ-Muốn-Tra > từ(trangNgauNhien)){
cậnDưới = trangNgauNhien + 1;
call gọiĐệQui(cậnDưới,cậnTrên,từ-Muốn-Tra);
} else return trangNgauNhien;
}
return EndOfFile;
Giải thuật này là đúng nếu và chỉ nếu danh sách từ được sắp xếp.
• Tìm bằng ngôn ngữ truy vấn SQL: Một cách hình tượng, lý thuyết cơ
sở dữ liệu gọi SQL là hòn đá tảng của lâu đài cơ sở dữ liệu. Với mục
đích tra nghĩa trong từ điển, phần mềm tìm dữ liệu bằng câu lệnh
SELECT, có thể kết hợp toán tử LIKE và kỹ thuật làm mịn
(refinement) để áp dụng trong trường hợp tìm gần đúng.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 53 -
b) Thiết kế - mô hình chức năng:
Hình 3.1: Mô hình chức năng
Giao diện
ứng dụng
Chức năng getText (tra
từ tại ứng dụng khác)
Anh
-
Việt
Việt
-
Anh
Thuật
ngữ
viết tắt
Cài đặt
tùy
chọn
Từ
kinh
tế
Từ
kỹ
thuật
Từ đã tra Thêm Sửa Xóa Tra
Kết xuất
hệ điều hành
Khởi tạo
Thử nghiệm
Dịch máy
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 54 -
c) Thiết kế giao diện:
c.1) Giao diện (màn hình) tra từ:
Hình 3.2: Giao diện tra từ
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 55 -
c.2) Giao diện (màn hình) thêm từ
Hình 3.3: Giao diện thêm từ
c.3) Giao diện (màn hình) sửa từ
Hình 3.4: Giao diện sửa từ
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 56 -
c.4) Giao diện (màn hình) xóa từ
Hình 3.5: Giao diện xóa từ
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 57 -
c.5) Giao diện (màn hình) thuật ngữ viết tắt:
Hình 3.6: Màn hình thuật ngữ viết tắt.
c.6) Giao diện (màn hình) cài đặt – tùy chọn:
Hình 3.7: Màn hình cài đặt tùy chọn.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 58 -
c.7) Giao diện (màn hình) từ điển riêng:
Hình 3.8: Màn hình từ điển riêng.
d) Khái quát về cơ chế câu móc hook (áp dụng trong chức năng tra nhanh của
phần mềm): Hệ điều hành tiếp nhận dữ liệu nhập từ mouse
Hình 3.9: Mô hình giới thiệu dòng chảy dữ liệu nhập từ thông điệp mouse
Hardware
event queue
Mouse device driver Mouse GetMessage() DispatchMessage()
WindowProc()
DefWindowProc()
Hook
chain Virtual &
Scan code
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 59 -
Mouse: Khi xác định vị trí của mouse (vị trí cursor) và có tác động lên mouse
thì một tín hiệu được phát đi từ mouse gây ra một ngắt, mouse driver giải
quyết ngắt quãng (interrupt) này.
Mouse device driver: Khi Windows khởi động thì mouse driver tự động nạp
và kiểm tra xem có chuột (mouse) hay không. Nếu có, Windows gọi driver
cung cấp một thủ tục để thông báo các biến cố xảy ra trên mouse. Các biến cố
này (trừ di chuyển mouse) đều được đưa vào hardware event queue.
Hardware event queue: Các mouse event được đưa vào hardware event queue
chờ vòng lặp thông điệp (message loop) của chương trình gọi đến. Queue là
một hàng đợi chứa events (các sự kiện xảy ra trên hệ thống). Những event
trong queue sẽ chưa thuộc một chương trình cụ thể nào cho tới khi nó được
tiếp nhận bởi hàm GetMessage(). Điều này đảm bảo cho hệ thống hoạt động
đúng đắn.
GetMessage() loop: Vòng lặp GetMessage() đưa các thông điệp vào xử lý.
Windows cho phép đặt cơ chế câu móc (message hook) để thay đổi dòng chảy
các thông điệp. Một WH_GETMESSAGE hook có thể thay đổi dòng chảy
của bất cứ thông điệp chuột nào.
WindowProc: Hai thông số wParam, lParam của WindowProc() sẽ cho biết
thông tin về thông điệp đến từ hệ thống. Trị của thông số lParam mô tả vị trí
cursor theo tọa độ của vùng client. Tọa độ này chứa góc upper-left của vùng
client với đơn vị tính là pixel. Trị x nằm ở word thấp còn y nằm ở word cao
của lParam. Trị của wParam là một lô cờ hiệu mô tả trạng thái của các nút
chuột cũng như trạng thái các nút , .
DefWindowProc: DefWindowProc() có nhiệm vụ cung cấp một giao diện
chung cho bàn phím và mouse bằng cách dịch phần nhập liệu từ bàn phím
hoặc mouse thành các lệnh hệ thống (system command) và cho hiện lên như
các thông điệp WM_SYSCOMMAND.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 60 -
Khái quát về cơ chế câu móc (hook)
Hook là một cơ chế rất mạnh cho phép cài đặt một thủ tục để điều khiển hoặc
chận hứng các thông điệp trước khi các thông điệp này tới được nơi tiếp nhận.
Hay nói cách khác, hook là một điểm trong kỹ thuật message-handling hệ
thống, nơi mà một ứng dụng có thể đặt một thủ tục để xử lý một kiểu thông
báo nào đó trước khi chúng tới được thủ tục cửa sổ đích.
Do có khả năng can thiệp mạnh nên hook có xu hướng làm chậm lại hệ thống
vì chúng làm tăng số lượng các hoạt động của hệ thống đối với mỗi thông
điệp. Chỉ đặt hook khi thực sự cần thiết và dỡ bỏ chúng khi không cần đến.
V) Xin ý kiến đóng góp của các chuyên gia và người sử dụng. Hoàn thiện
từ điển và thử nghiệm dịch máy
Trong bản thảo từ điển, chúng tôi đã gửi tới các cơ quan đơn vị liên quan để
xin ý kiến nhận xét. Và nay chúng tôi đã nhận được nhiều ý kiến thiết thực
với đóng góp chân tình, giúp cho chúng tôi soạn thảo lại được tốt hơn. Qua
luận văn này chúng tôi xin gửi lời chân thành cám ơn đến:
1. Ban Khoa học công nghệ Cục HKDD
2. Ban Không tải không vận Cục HKDD
3. Ban Khoa học công nghệ TCTy
4. Ban Tài chính Kế toán TCty
5. Trung tâm Quản lý bay
6. Xí nghiệp A76
7. Phòng Kỹ thuật - công nghệ cụm cảng hàng không miền Bắc
8. Xí nghiệp thương mại mặt đất Nội bài - Niags
9. Văn phòng - Đối ngoại TCty
10. Ban Quản lý vật tư TCTy
11. Ban Điều hành bay TCTy
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 61 -
12. Trung tâm Tin học Thống kê
13. Ban Đào tạo TCTy
14. Ban Đổi mới doanh nghiệp TCTy
15. Viện Khoa học hàng không
16. Xí nghiệp thương mại mặt đất Tân Sơn Nhất
17. Xí nghiệp Máy bay A75
18. Xí nghiệp thương mại mặt đất Đà Nẵng
19. Văn phòng khu vực miền Trung.
VI) Tài liệu sử dụng
Hoàn thành được bản thể nghiệm này, chúng tôi phải dựa vào nhiều công
trình của những người đi trước, mà chủ yếu là 2 công trình:
• Từ điển giải nghĩa thuật ngữ kinh tế - kỹ thuật Anh-Việt hàng không
(Cục Hàng không dân dụng – tác giả: Phạm Vũ Hiến)
• Từ điển hàng không dân dụng Anh-Việt (tác giả: Nguyễn Huy Hiệu)
Xin cảm ơn các tác giả.
Ngoài ra, trong chương trình có sử dụng ảnh minh họa, nguồn ảnh (chỉ
có tính chất minh họa) này được nhóm làm đề tài sưu tập từ Thư viện kỹ thuật
Tổng công ty VNA, xí nghiệp A75, website của Văn phòng khu vực miền
Bắc, Niags, trên Internet (Boeing.com, Airbus.com, .v.v.). Chương trình sẽ
thiếu hẳn tính trực quan nếu không có nguồn ảnh minh họa này.
VII) Kết chương
Sau lý thuyết là thực nghiệm; với mong muốn áp dụng kiến thức đã học
vào thực tế, chương 4 sẽ trình bày các kết quả thu được từ dữ liệu thực, miền
xác định của các dữ liệu này là các web site ngành hàng không (ICAO,
Boeing và Airbus).
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 62 -
CHƯƠNG 4: CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM VÀ
ĐÁNH GIÁ
I) Cách tiếp cận
Như đã trình bày trong chương 2: Các phương pháp dịch máy, thông
thường một hệ dịch trực tiếp hoạt động theo 3 giai đoạn:
Tiền xử lý: Ngắt đoạn cần dịch thành dãy các câu.
Xử lý: Hệ phân tích câu cần dịch thành dãy các từ, sau đó dựa trên từ điển
song ngữ, tìm hình thái và nghĩa cho từng từ.
Sinh câu đích thích hợp.
Do tính chất của đề tài, áp dụng chủ yếu trên tài liệu hàng không; Và do
đặc thù của ngôn ngữ hàng không (xin lấy một số ví dụ, như: taxi: lăn bánh
chậm để cất hạ cánh, bank: nghiêng cánh; park: đỗ; land: hạ cánh; flap: cánh
tà sau; book: đặt vé giữ chỗ, .v.v. cũng như rất nhiều thuật ngữ viết tắt khác).
Có thể nói, thuật ngữ trong ngành hàng không khá hiếm từ đa nghĩa. Không
gian của nghĩa từ là kín. Điều này được minh họa trong 03 ấn phẩm (sách)
trình bày trên.
Mặc dầu có sẵn trong tay kho ngữ liệu từ hàng không, trình thử nghiệm
này vẫn chưa đạt đến mức hoàn thiện. Do thời gian nghiên cứu và thực hiện
một luận văn cao học có hạn và do khả năng thực sự còn rất hạn chế, chúng
tôi tự đánh giá thử nghiệm này mới chỉ là bước đầu nghiên cứu.
Trong luận văn, chúng tôi mạnh dạn đề nghị hướng thực hiện là dịch trực
tiếp: Khối lượng từ không lớn, số lượng câu giới hạn, lĩnh vực là chuyên môn,
khá hiếm nhập nhằng về ngữ nghĩa, có áp dụng các thuật toán tác động đến
câu truy vấn để tìm kết quả thích hợp nhất, văn bản nguồn có phong cách đơn
giản. Tốc độ thực hiện nhanh. Nhược điểm của phương pháp này là không thể
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 63 -
áp dụng cho các loại hình ngôn ngữ văn học nghệ thuật, có không gian mở về
ngữ nghĩa.
Mặc dầu vậy, được kế thừa từ 3 cuốn từ điển hàng không có giải nghĩa,
nên ứng dụng thử nghiệm này có thể xem là một chương trình dịch có giải
nghĩa.
Và thuật toán, mô phỏng theo hướng phrase-based (đơn vị được dịch là
một chuổi các từ liên tiếp) chứ không phải là word-based (đơn vị để dịch là
từ, word-for-word) là một phương pháp mới trong xu hướng dịch trực tiếp.
II) Bộ dữ liệu thử
Do miền xác định của đề tài là tài liệu chỉ thuộc lĩnh vực hàng không,
miền kết xuất của đề tài là một ứng dụng (ở mức thử nghiệm) về dịch máy.
Nên chúng tôi xây dựng một bộ dữ liệu thử bao gồm:
1) Nguồn dữ liệu chính: 21.740 thuật ngữ
- Từ điển hàng không.
- Từ điển các từ viết tắt trong lĩnh vực hàng không.
Là nội dung của các tài liệu đã được phát hành (dạng ấn phẩm):
• Từ điển giải nghĩa thuật ngữ kinh tế - kỹ thuật Anh-Việt hàng
không (Cục Hàng không dân dụng Việt nam)
• Từ điển hàng không dân dụng Anh-Việt (tác giả: Nguyễn Huy
Hiệu)
• Từ điển kỹ thuật máy bay Anh-Việt (tác giả: Phạm Vinh)
2) Nguồn dữ liệu phụ: 133.530 từ
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 64 -
- Từ điển Anh - Việt từ dự án “The Free Vietnamese Dictionary
Project” của tác giả Hồ Ngọc Đức.
- Tự lọc từ các sách dạy tiếng Anh.
III) Các yêu cầu về phần cứng, phần mềm của trình thử nghiệm
1) Quy ước:
• Đây là trình thử nghiệm, kết quả còn khá hạn chế, chỉ có thể phần nào
hỗ trợ người dịch, nó không thay thế được cho con người.
• Đây là máy dịch, không phải người dịch. Máy dịch một cách máy móc,
nên nó không chịu bất kỳ một giá trị pháp lý nào.
• Chất lượng dịch có thể đáng thất vọng, nhưng nó sẽ tốt hơn nếu có sự
tham gia của người dùng vào quá trình huấn luyện (cho máy học).
2) Yêu cầu về phần cứng:
Máy tính có cấu hình 586 trở lên, bộ nhớ tối thiểu 64MRAM trở lên,
dung lượng ổ cứng 300 MB - để có thể cài đặt hệ nền Windows và bộ Ms.
Office. Không gian đĩa cho từ điển hàng không: 100 MB.
3) Yêu cầu về phần mềm:
Hệ điều hành: Windows 98 trở lên (NT, 2K, XP,…) hoặc Linux có
phần nhân kernel 2.0 hoặc cao hơn. Bộ gõ tiếng Việt: VietKey.
4) Các bước cài đặt:
Đĩa CD cài đặt sẽ tự động kích hoạt, hoặc nhắp đúp chuột vào file
install.exe, nếu đã copy vào đĩa cứng.
5) Điểm nhập của chương trình:
Là biểu tượng hoa sen của VNA hiển thị trên khay hệ thống.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 65 -
IV) Kết quả thực nghiệm
Để phục vụ cho mục đích dịch máy, chúng tôi sử dụng nội dung từ 03
trang web của ICAO (Tổ chức hàng không dân dụng quốc tế), hãng sản xuất
máy bay Boeing, hãng Airbus làm dữ liệu đầu vào (giao diện minh họa nằm ở
phần phụ lục). Để minh họa, chúng tôi sử dụng bảng đối sánh: (xin lưu ý rằng
bảng sau là những kết quả tốt nhất của ứng dụng thử nghiệm. Nên nó không
nói lên được điều gì, ngoài mục đích duy nhất là cung cấp một góc nhìn)
Bảng 4.1: Nội dung mẫu thử nghiệm
Nội dung mẫu thử nghiệm
( lấy tại địa chỉ: )
ICAO Symposium
This Symposium provides an important global forum for ICAO Member States, the
air transport industry and other interested parties, to share their liberalization
experiences, exchange views on trends and developments, examine issues and
solutions in the on-going liberalization process.
Kết xuất của EV Tran 3.0 Kết xuất của ứng dụng thử nghiệm
Sự Thu thập ý kiến ICAO
Sự Thu thập ý kiến này cung cấp một
diễn đàn toàn cầu quan trọng (cho)
những nước thành viên ICAO, công
nghiệp vận chuyển không khí và đương
sự khác tới cổ phiếu Của họ Mở rộng tự
do những kinh nghiệm, những sự nhìn
trao đổi trên những khuynh hướng và
những sự phát triển, những vấn đề
nghiên cứu và những giải pháp Print
Trên - Việc đi mở rộng tự do quá trình.
Tổ chức hàng không dân dụng quốc tế
(International Civil Aviation
Organization) hội nghị chuyên đề.
Hội nghị chuyên đề này cung cấp một
diễn đàn toàn cầu quan trọng cho các
quốc gia thành viên của Tổ chức hàng
không dân dụng quốc tế, ngành công
nghiệp vận tải hàng không và có quan
tâm khác các bên, hướng đến chia sẻ
mở rộng tự do của họ kinh nghiệm, trao
đổi tầm nhìn trên xu hướng và diễn
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 66 -
biến, kiểm tra vấn đề và giải pháp đang
trong tiến trình mở rộng tự do.
Thời gian tính: 0, 578 s ; Số từ: 42 ; Thời gian tính: 1 s ; Số từ: 41 ;
Nội dung mẫu thử nghiệm
( lấy tại địa chỉ: )
ICAO NEWS RELEASE
FOR IMMEDIATE RELEASE, PIO 14/06
NEW LIST OF PROHIBITED CARRY-ON ITEMS TO BE ISSUED BY ICAO
MONTREAL, 20 September 2006 – A new list of prohibited items that passengers
cannot bring on board commercial aircraft will be issued to the 189 Contracting
States of the International Civil Aviation Organization by the end of November
2006, the Organization announced today.
Kết xuất của EV Tran 3.0 Kết xuất của ứng dụng thử nghiệm
Phiên bản Tin tức ICAO
(Cho) Phiên bản Tức thời, PIO 14/ 06
Danh sách Mới Của Cấm những tiết
mục náo động sẽ được phát hành Bởi
ICAO
MONTREAL, 20 Tháng chín 2006- Một
danh sách mới của việc cấm những tiết
mục mà những hành khách không thể
mang trên tấm bảng thương mại ý định
máy bay được chảy ra tới 189 co rút lại
những tình trạng tổ chức hàng không
dân dụng quốc tế vào khoảng cuối
Tháng mười một 2006, Tổ chức được
công bố hôm nay
Tổ chức hàng không dân dụng quốc tế
bản tin phát hành.
Cho phát hành trực tiếp, PIO 14/ 06.
Danh sách cấm mới ồn ào khoản xuất
bởi Tổ chức hàng không dân dụng quốc
tế (International Civil Aviation
Organization).
MONTREAL, 20 tháng chín 2006 - một
danh sách cấm mới khoản những hành
khách (là bất kỳ một người nào mua vé
trên chuyến bay, trừ các thành viên của
đội bay, được chuyên chở hoặc sẽ
được chuyên chở trên tầu bay theo sự
thỏa thuận với nhà chuyên chở) đó
không thể mang lên tầu tầu bay thương
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 67 -
mại (tầu bay được khai thác hoặc sẵn
sàng cho thuê) sẽ xuất hướng đến 189
quốc gia ký kết của Tổ chức hàng
không dân dụng quốc tế (một cơ quan
của Liên hợp quốc có trách nhiệm thúc
đẩy và phát triển giao thông hàng không
dân dụng quốc tế, viết tắt: ICAO) vào
khoảng cuối tháng mười một 2006, tổ
chức đọc bản giới thiệu tin tức hôm
nay.
Thời gian tính: 2, 797 s ; Số từ: 56 ; Thời gian tính: 6 s ; Số từ: 62 ;
Nội dung mẫu thử nghiệm
(lấy tại địa chỉ: )
Last week, ICAO’s Aviation Security (AVSEC) Panel reviewed an expanded list of
prohibited items prepared by the Organization’s Secretariat following the thwarted
terrorist plot of 9 August in the United Kingdom. In the coming weeks, the Panel
will incorporate appropriate national and regional initiatives taken to date to deal
with the new threat posed by liquid, gel and aerosol products that may be used in
improvised explosive devices.
Kết xuất của EV Tran 3.0 Kết xuất của ứng dụng thử nghiệm
Tuần trước, Bảng sự An toàn (AVSEC)
Hàng không (của) ICAO tổng quan một
danh sách phát triển Của Cấm những
tiết mục được chuẩn bị bởi Chức thư ký
(của) Tổ chức sau đây Cản trở mảnh
đất khủng bố (của) 9 Tháng tám trong
Tuần trước, Ban an toàn - an ninh của
ICAO tổng quan một danh sách nới
rộng của vật phẩm bị cấm được chuẩn
bị bởi ban thư ký của tổ chức tiếp theo
ngăn trở âm mưu khủng bố của 9 tháng
tám trong Vương quốc Anh. Trong
những tuần tới, khung sẽ kết hợp chặt
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 68 -
Vương quốc Anh. Trong những tuần
tới, Bảng sẽ hợp nhất những sáng kiến
quốc gia và khu vực thích hợp được
cầm lấy để cho đến nay giải quyết lời
đe dọa mới được sắp đặt bởi chất lỏng,
chất gien và những sản phẩm chất xịt
(bình xịt) mà có thể được dùng Print
ứng khẩu những thiết bị dễ nổ.
chẽ thích hợp quốc gia và hãng chuyên
chở trong vùng bắt đầu nắm bắt cho
đến nay hướng đến giải quyết với mối
đe dọa mới định hình bởi chất lỏng,
chất keo đông (hình thành do sự đông
đặc của dung dịch khi nó chuyển động
sang pha đặc) và các sol khí, các bụi
khí bị phân chia ra thành những hạt cực
nhỏ và phân tán vào không khí sản
phẩm có thể đó thường dùng trong làm
nhanh dụng cụ chất nổ.
Thời gian tính: 4,453 s ; Số từ: 67 ; Thời gian tính: 5 s ; Số từ: 68 ;
Nội dung mẫu thử nghiệm
Là một URL:
Kết xuất của EV Tran 3.0 Kết xuất của ứng dụng thử nghiệm
http: // tại nhà.vnn.vn
Thời gian tính: 0, 219 s ; Số từ: 4 ; Thời gian tính: 1 s ; Số từ: 3 ;
Nội dung mẫu thử nghiệm
“The issuance of a revised list of prohibited items is a complex matter involving law
enforcement, explosives technologies, evaluation of trace detection equipment,
training of a new list by the end of November 2006, security personnel, logistics
and commercial considerations. The Panel is working diligently on ways to
strengthen and streamline security procedures at airports,” said Roberto Kobeh
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 69 -
González, President of the Council of ICAO.
On 27 and 28 September, the International Explosives Technical Commission of
ICAO is expected to follow through on some of the work of the AVSEC Panel in
relation to the question of liquids, gels and aerosols that have characteristics that
could make them attractive for use in improvised explosive devices. The report of
both bodies, including their recommendations, will be presented to the Council of
ICAO for review during its next session which begins on 10 October.
Once the recommendations are adopted, ICAO will notify all Member States of
various issues related to liquids used as explosives, including: a new list of
prohibited items; measures needed to counter the new threat; ongoing work on
technologies and operational procedures for detecting prohibited liquids; the need
for new measures to be effective, practicable, sustainable and harmonized among
States; and, special emphasis on close cooperation with intelligence agencies and
aviation regulators. A mechanism to rapidly share significant security information
on an international basis will be provided.
Kết xuất của EV Tran 3.0 Kết xuất của ứng dụng thử nghiệm
"Sự cấp phát Của Một Xem lại danh
sách Của Cấm những tiết mục Là một
vấn đề phức tạp liên quan đến sự
cưỡng bức luật, những công nghệ
những chất nổ, sự đánh giá của thiết bị
dò tìm vệt tin, sự huấn luyện (của) một
danh sách mới vào khoảng cuối Tháng
mười một 2006, nhân sự an ninh,
những logistic và những sự xem xét
thương mại. Bảng đang làm việc tích
cực trên những cách để làm mạnh thêm
và sắp xếp hợp lý hóa những thủ tục an
ninh tại những sân bay, " Nói Roberto
"phát hành của một xem lại danh sách
cấm khoản là một phức hệ vấn đề gồm
luật có hiệu lực, chất nổ công nghệ,
ước lượng của dấu vết dò ra thiết bị, sự
đào tạo, việc huấn luyện của một danh
sách mới vào khoảng cuối tháng mười
một 2006, an ninh nhân sự, logistics và
xem xét về khía cạnh thương mại.
Khung lao động tích cực trên đường
hướng đến trở nên mạnh và dòng an
ninh qui trình, thủ tục tiến hành, các
bước tiến hành ở tại cảng hàng không
(dùng trong hoạt động hàng không dân
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 70 -
Kobeh González, Tổng thống (của) Hội
đồng (của) ICAO.
Vào 27 và 28 Tháng chín, người ta hy
vọng ủy nhiệm Kỹ thuật những chất nổ
Quốc tế (của) ICAO sẽ đi theo sau
xuyên qua Trên một số công việc (của)
Bảng AVSEC đối với câu hỏi (của)
những chất lỏng, những chất gien và
những chất xịt (bình xịt) mà có những
đặc trưng mà có thể làm họ lôi cuốn
(cho) sự sử dụng Print ứng khẩu những
thiết bị dễ nổ.
dụng, cảng hàng không là một tổ hợp
công trình bao gồm sân bay, nhà ga và
trang thiết bị, công trình mặt đất khác
được sử dụng cho tầu bay đi và đến,
thực hiện dịch vụ vận chuyển hàng
không), " nói Roberto Kobeh Gonzalez,
chủ tịch của hội đồng của Tổ chức hàng
không dân dụng quốc tế (International
Civil Aviation Organization).
Vào 27 và 28 tháng chín, Uỷ ban kỹ
thuật về chất nổ toàn cầu thuộc ICAO
được mong đợi hướng đến theo hành
trình suốt trên một số công việc của
nhóm AVSEC (Aviation Security) trong
mối tương quan hướng đến câu hỏi của
chất lỏng, chất keo đông (hình thành do
sự đông đặc của dung dịch khi nó
chuyển động sang pha đặc) và các sol
khí, các bụi khí bị phân chia ra thành
những hạt cực nhỏ và phân tán vào
không khí có riêng đó đó bình chế tạo
chúng hút cho dùng trong làm nhanh
dụng cụ chất nổ. Bản báo cáo về cả hai
thành phần chính, bao gồm cả những
khuyến cáo, khuyến nghị của họ, sẽ
giới thiệu lên hội đồng của Tổ chức
hàng không dân dụng quốc tế
(International Civil Aviation
Organization) cho xem xét lại trong thời
gian phiên kế tiếp mà bắt đầu vào 10
tháng mười.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 71 -
Khi mà khuyến cáo, khuyến nghị được
thông qua, Tổ chức hàng không dân
dụng quốc tế (International Civil
Aviation Organization) sẽ thông báo tất
cả các quốc gia thành viên của khác
nhau vấn đề có liên quan hướng đến
chất lỏng thường dùng như chất nổ,
bao gồm cả: một danh sách cấm mới
khoản; đo đạc/biện pháp cần hướng
đến chống lại mối đe dọa mới; công
việc trên công nghệ và các phương
thức khai thác cho dò ra cấm đangchất
lỏng; cần cho những đo đạc/biện pháp
mới có hiệu quả, khả thi, có thể xác
thực được và hài hoà với nhau giữa các
Nhà nước; và, đặc biệt nhấn mạnh trên
hợp tác chặt chẽ với các cơ quan
chuyên trách và điều hành hàng không.
Một cơ chế hướng đến nhanh chóng
chia sẻ thông tin an ninh (hàng không)
quan trọng trên một nền tảng quốc tế sẽ
được cung ứng.
Thời gian tính: 6, 812 s ; Số từ: 109 ; Thời gian tính: 12 s ; Số từ: 228 ;
Nội dung mẫu thử nghiệm
( lấy tại địa chỉ: )
ST. LOUIS, Oct. 09, 2006 -- The Boeing Company [NYSE: BA] has flown its newly
designed A/MH-6X light-turbine helicopter for the first time, marking a significant
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 72 -
milestone in the continuing development of the versatile manned/unmanned
military aircraft.
Kết xuất của EV Tran 3.0 Kết xuất của ứng dụng thử nghiệm
ST. LOUIS, Tháng mười. 09, 2006--
Boeing Công ty [ NYSE: Three] is có
Căng ra Nó Mới thiết kế Một / MH-6 X
Máy bay trực thăng tua-bin- nhẹ trong
lần đầu, đánh dấu Một cột mốc quan
trọng Print Tiếp tục sự phát triển của
manned nhiều tài/ máy bay quân đội
không người điều khiển.
ST. LOUIS, tháng mười. 09, 2006 --
công ty chế tạo tầu bay Boeing [NYSE:
Hàng không Anh quốc (British Airways)
bay mới của họ thiết kế A/MH-6X light-
turbine trực thăng (một loại tầu bay
nặng hơn không khí có cánh dạng rôto
cánh quay, mà khi trục rôto quay sẽ tạo
ra lực nâng) cho lần đầu tiên, dấu hiệu
một cột mốc quan trọng trong tiếp tục
phát triển của đa năng tầu bay quân sự
có người lái/ không người lái.
Thời gian tính: 1, 844 s ; Số từ: 35 ; Thời gian tính: 2 s ; Số từ: 37 ;
Nội dung mẫu thử nghiệm
( lấy tại
"Boeing would like to congratulate Emirates SkyCargo on its success," Schulz
said. "We're confident the 747-8 brings the economics and reliability that will help
the company continue to expand its freight-carrying capabilities around the world."
Kết xuất của EV Tran 3.0 Kết xuất của ứng dụng thử nghiệm
"Boeing muốn chúc mừng Emirates
SkyCargo về thành công (của) nó, "
Schulz nói. "Chúng tôi (thì) tin chắc
rằng 747-8 mang kinh tế học và sự tin
cậy mà sẽ giúp đỡ công ty tiếp tục đến
"Boeing hân hoan chúc mừng Emirates
SkyCargo trên thành công của họ,"
Schulz nói. "chúng ta tin chắc 747-8
hướng về kinh tế chính trị học và độ tin
cậy sẽ đó giúp đỡ công ty tiếp tục
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 73 -
để mở rộng những khả năng mang
chuyên chở (của) nó trên khắp thế giới."
hướng đến mở rộng khả năng chuyên
chở của họ trên khắp thế giới."
Thời gian tính: 1, 844 s ; Số từ: 35 ; Thời gian tính: 1, 844 s ; Số từ: 35 ;
V) So sánh
1) Với EV-Trans 3.0
(đây là phiên bản mới nhất của EV-Trans, còn có tên là EvShuttle)
EV-Trans 3.0 Trình thử nghiệm
Tri thức trong kho ngữ liệu 530.000 từ (EV-Trans
được phát triển từ
năm 1990, đội ngũ 12
người: 3 tiến sỹ, 3
thạc sỹ, 6 kỹ sư, cử
nhân)
155.270 từ (trong đó có
21.740 thuật ngữ thuộc
lĩnh vực hàng không),
được phát triển từ cuối
tháng 4-2006.
Tính chính xác chính xác chính xác với từ hàng
không
Hướng thực hiện Dịch chuyển đổi Dịch trực tiếp (frase-
based)
Thời gian thực hiện dịch nhanh hơn chậm hơn
Dịch ngay trên ứng dụng
khác
Có có
Độ lớn của đầu vào (dữ liệu khoảng 10 dòng (Win không hạn chế
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 74 -
text) Word)
Phát âm không có
Kết xuất dử liệu dạng ảnh
(ảnh minh họa cho nghĩa của
từ)
không có (ở module gettext)
Chiều dịch Anh - Việt, Việt - Anh Anh - Việt hàng không
Tính ứng dụng trong thực
tiễn
Là một thương phẩm,
tuy nhiên tính ứng
dụng chưa cao
Là một trình thử
nghiệm, chưa có tính
ứng dụng cao.
Cung cấp các tính năng xóa,
sửa, thêm (huấn luyện cho
máy học)
không có
Bảng 4.2: Nội dung mẫu thử nghiệm (so sánh với EV-Trans 3.0)
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 75 -
2) Với Lạc Việt từ điển (ở chức năng tra từ tự động - AutoLook)
(so sánh dựa trên phiên bản 2002, đây là phiên bản mới nhất của Lạc Việt
từ điển)
Lạc Việt từ điển Trình thử nghiệm
Tri thức trong kho ngữ liệu thông dụng, tổng quát chỉ từ hàng không
Tính chính xác chính xác chính xác với từ hàng
không
Hướng thực hiện không xác định được
(do Lạc Việt là mã
nguồn đóng)
Get text
Tra ngay trên ứng dụng khác có (trừ file pdf) Có
Độ lớn văn bản nguồn tra nghĩa được 1 từ tra nghĩa được cụm
từ
Phát âm Có Có
Kết xuất dử liệu dạng ảnh
(ảnh minh họa cho nghĩa của
từ)
Không Có
Tương tác với người dùng
(khi liệt kê từ và xuất nghĩa
bởi các phím mũi tên, <pg
up>, , ,
)
Không Có
Bảng 4.3: So sánh trình thử nghiệm với Lạc Việt từ điển 2002.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 76 -
CHƯƠNG 5: KẾT LUẬN - HƯỚNG PHÁT TRIỂN
I) Kết luận
Luận văn đặt ra mục tiêu là tìm hiểu, nghiên cứu các phương pháp xây
dựng hệ dịch máy. Được trình bày trong 5 chương, luận văn đã đạt được
những kết quả sau:
• Khảo cứu: Tìm hiểu và nghiên cứu về các hệ thống dịch máy và các mô
hình xử lý ngữ nghĩa trong dịch máy.
• Trình bày, liên hệ và so sánh giữa các chiến lược dịch máy khác nhau,
từ những hướng tiếp cận cổ điển (dịch trực tiếp, dịch chuyển đổi,...) đến
những hướng tiếp cận mới (dịch dựa trên thống kê, dịch dựa trên mẫu
ví dụ,...).
• Đưa ra một ứng dụng thử nghiệm về dịch máy. Trình bày, liên hệ và so
sánh ưu nhược điểm của trình thử nghiệm với các sản phẩm thông dụng
trên thị trường.
Luận văn có hai phần: lý thuyết và cài đặt, phần lý thuyết về các hệ dịch
máy chưa sâu, hàm lượng khoa học chưa cao. Tính ứng dụng vào thực tiễn
của phần cài đặt còn khá hạn chế. Đi theo hướng thực hiện dịch trực tiếp,
phần học máy trong ứng dụng thử nghiệm còn sơ sài (người sử dụng tương
tác với chương trình: nhập bằng tay một mẫu tốt hơn so với mẫu kết xuất từ
chương trình, chương trình cập nhật mẫu tốt hơn này về kho ngữ liệu).
II) Hướng phát triển
Để phát triển hoàn thiện hơn mô hình dịch máy, các kết quả của luận văn
sẽ được tiếp tục phát triển theo các hướng sau:
• Bổ sung và tối ưu hơn nữa tri thức trong kho ngữ liệu.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 77 -
• Cải tiến thuật toán để thời gian thực hiện nhanh hơn. Phát triển trình
thử nghiệm có thể chạy trên trang web (như systransoft.com;
babelfish.yahoo.com, .v.v.).
• Nghiên cứu sâu hơn về lý thuyết dịch máy: dựa trên mẫu ví dụ, dựa trên
thống kê (đây cũng là hướng mà nhóm VLSP - Vietnamese language
and speech của GS. Hồ Tú Bảo, Lương Chi Mai) thuộc JAIST, Viện
Công nghệ Thông tin đang nghiên cứu. Chú trọng nghiên cứu về dịch
chuyển đổi.
• Tìm hiểu kỹ về mạng Bayes và mô hình Markov ẩn để việc học máy và
tương tác người dùng cuối – trình thử nghiệm có thể tối ưu hơn.
• Lập nhóm nghiên cứu, hiện thực thành một đề tài hoặc một nhiệm vụ
cấp ngành, đưa ứng dụng vào thực tiễn.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 78 -
TÀI LIỆU THAM KHẢO
1) Tài liệu tham khảo tiếng Anh
[1] Scott Bass, “Machine vs. Human Translation”.
on.pdf
[2] Hồ Tú Bảo, “Current Status of Machine Translation Research in
Vietnam”.
[3] Bonnie J. Dorr, “A Survey of Current Paradigms in Machine Translation”,
tài liệu được cung cấp nhóm VLSP (Vietnamese language and speech) của
GS. Hồ Tú Bảo, JAIST.
[4] Bonnie J. Dorr, “Natural Language Processing and Machine Translation
Encyclopedia of Language and Linguistics, 2nd ed. (ELL2). Machine
Translation: Interlingual Methods”, tài liệu được cung cấp bởi TS. Lê Khánh
Hùng, Viện Ứng dụng Công nghệ.
[5] John Hutchins (2005), “Computer based translation in Europe and North
America, and its future prospects”; JAPIO 20th anniversary. (Tokyo: Japan
Patent Information Organization, 2005), pp. 156–160.
[6] John Hutchins, “An introduction to machine translation”.
[7] Christer Samuelsson, “Linguistic Theory in Statistical Language
Learning”.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 79 -
[8] Bernard E. Scott, “Linguistic and computational motivations for the
Logos machine translation system - an overview”.
[9] Lucia Specia, Maria das Graças Volpe Nunes, Mark Stevenson,
“Exploiting Parallel Texts to Produce a Multilingual Sense Tagged Corpus for
Word Sense Disambiguation”.
[10] Wikipedia, các tài liệu về “Machine translation” trên Wikipedia
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 80 -
2) Tài liệu tham khảo tiếng Việt
[11] GS. Hồ Tú Bảo, GS. Lương Chi Mai (2005), “Về xử lý tiếng Việt trong
công nghệ thông tin”.
[12] Cục Hàng không dân dụng Việt nam (2005), Từ điển giải nghĩa thuật ngữ
kinh tế - kỹ thuật Anh-Việt hàng không.
[13] TS. Đinh Điền (2005), “Xử lý ngôn ngữ tự nhiên”, tập san khoa học
trường ĐH Khoa học Tự nhiên Tp. Hồ Chí Minh.
d=1
[14] Hồ Ngọc Đức, Từ điển Anh - Việt từ dự án “The Free Vietnamese
Dictionary Project”.
[15] Nguyễn Huy Hiệu (2001), Từ điển hàng không dân dụng Anh-Việt, Nhà
xuất bản Thế giới.
[16] Lê Khánh Hùng (2005), “Một số giải pháp nâng cao chất lượng dịch
máy”, tài liệu của TS. Lê Khánh Hùng, Viện Ứng dụng Công nghệ.
[17] Lê Khánh Hùng (2005), “Mở rộng mô hình văn phạm”, tài liệu của TS.
Lê Khánh Hùng, Viện Ứng dụng Công nghệ.
[18] Lê Khánh Hùng (2005), “Giải pháp dịch máy”, tài liệu của TS. Lê Khánh
Hùng, Viện Ứng dụng Công nghệ.
[19] Bùi Thanh Huy - Lê Phương Quang (2003), “Nghiên cứu và cài đặt bộ
gán nhãn từ loại cho song ngữ Anh-Việt”. Luận văn tốt nghiệp Đại học. Khoa
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 81 -
Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí
Minh.
[20] Trương Xuân Nam (2004), “Một số vấn đề về xử lý ngữ nghĩa trong dịch
tự động ngôn ngữ tự nhiên”.
[21] Văn Chí Nam (2003), “Xử lý ngữ nghĩa trong hệ dịch tự động Anh –
Việt cho các tài liệu tin học”. Luận văn tốt nghiệp Đại học. Khoa Công nghệ
Thông tin, Trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh.
[22] Nguyễn Lưu Thùy Ngân - Đỗ Xuân Quang (2003), “Xây dựng chương
trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt”. Luận văn tốt
nghiệp Đại học. Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự
nhiên, Thành phố Hồ Chí Minh.
[23] Nguyễn Thống Nhất, Lê Minh Sơn (2003), “Gán nhãn phân tích cú pháp
quan hệ cho song ngữ Anh-Việt thông qua liên kết ngữ”. Luận văn tốt nghiệp
Đại học. Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên,
Thành phố Hồ Chí Minh.
[24] Phạm Vinh (1999), “Từ điển kỹ thuật máy bay Anh-Việt”. Nhà xuất bản
Khoa học Kỹ thuật.
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 84 -
PHỤ LỤC
1) Giao diện của phần mềm
Trần Lâm Quân
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG
- 85 -
Giao diện của trình thử nghiệm dịch máy
Các file đính kèm theo tài liệu này:
- 000000208331R.pdf