MỘT GIẢI PHÁP SỬ DỤNG CỤM DANH TỪ CHO TÌM KIẾM TRÊN KHÁI NIỆM
TUẤN NGUYÊN HOÀI ĐỨC
Trang nhan đề
Lời cảm ơn
Mục lục
Danh mục
Chương 1: Giới thiệu
Chương 2: Các nghiên cứu về lập chỉ mục trên khái niệm
Chương 3: Phân tích cú pháp
Chương 4: Phát sinh biến thể
Chương 5: Ánh xạ tài liệu vào danh mục khái niệm
Chương 6: Kết quả thử nghiệm
Chương 7: Kết luận
Tài liệu tham khảo
Mục lục
Trang
LỜI CẢM ƠN .3
Mục lục .4
Danh mục các hình 7
Danh mục các bảng 8
Chương 1 : GIỚI THIỆU 9
1.1 Lý do chọn đề tài 9
1.2 Mục tiêu của luận văn .11
1.3 Nội dung nghiên cứu 11
Chương 2 : CÁC NGHIÊN CỨU VỀ LẬP CHỈ MỤC TRÊN KHÁI NIỆM .13
2.1 Tổng quan .13
2.2 Lập chỉ mục trên khái niệm không so khớp tài liệu với Ontology 14
2.2.1 Hướng tiếp cận xử lý phía câu truy vấn 14
2.2.2 Hướng tiếp cận xứ lý phía tài liệu .17
2.2.3 Hướng tiếp cận phối hợp xử lý cả câu truy vấn và tài liệu .19
2.3 Lập chỉ mục trên khái niệm có so khớp tài liệu với Ontology .21
2.3.1 Xây dựng Ontology 21
2.3.2 Lập chỉ mục – Chỉ sử dụng khái niệm 22
2.3.3 Lập chỉ mục – Sử dụng khái niệm và Mối kết hợp giữa chúng 26
2.4 Lựa chọn của đề tài 29
Chương 3 : PHÂN TÍCH CÚ PHÁP 30
3.1 Tổng quan .30
3.2 Tách từ 31
3.3 Gán nhãn từ loại 32
3.3.1 Phát sinh tập luật điều chỉnh từ loại 32
3.3.2 Bổ sung luật điều chỉnh từ loại .33
Trang 5
3.4 Gán nhãn ranh giới ngữ 35
3.4.1 Phát sinh bộ luật sửa nhãn ranh giới ngữ 35
3.4.2 Bổ sung luật sửa nhãn ranh giới ngữ 37
3.5 Cấu trúc hóa cụm danh từ 38
3.5.1 Cấu trúc của cụm danh từ tiếng Việt 38
3.5.2 Giải pháp cấu trúc hóa cụm danh từ tiếng Việt 41
Chương 4 : PHÁT SINH BIẾN THỂ .46
4.1 Lý do phải phát sinh biến thể .46
4.2 Các loại biến thể của cụm từ .48
4.2.1 Biến thể hình thái 48
4.2.2 Biến thể ngữ nghĩa 49
4.2.3 Biến thể ngữ pháp .51
4.3 Một số kỹ thuật phát sinh biến thể cho cụm từ .53
4.3.1 Phát sinh bằng tài nguyên Ngôn ngữ 53
4.3.2 Phát sinh bằng phương pháp thống kê 54
4.3.3 Phát sinh bằng Heuristic .55
4.3.4 Phát sinh bằng luật 57
4.4 Một giải pháp phát sinh biến thể cho cụm danh từ tiếng Việt .62
4.4.1 Chiến lược phát sinh biến thể .62
4.4.2 Bộ luật phát sinh biến thể .63
Chương 5 : ÁNH XẠ TÀI LIỆU VÀO DANH MỤC KHÁI NIỆM 73
5.1 Tổng quan .73
5.2 Ontology sử dụng trong luận văn .74
5.2.1 File MRCONSO.RRF .74
5.2.2 File MRHIER.RRF .75
5.2.3 Phạm vi của Ontology tiếng Việt 75
5.3 Meta-map và ứng dụng cho tài liệu Y khoa tiếng Việt .76
5.3.1 Các mức so khớp 76
5.3.2 Các độ đo 78
5.4 Conann và ứng dụng cho tài liệu Y khoa tiếng Việt .83
5.4.1 Tiền xử lý 83
5.4.2 Lần lọc thứ 1 .84
5.4.3 Lần lọc thứ 2 .84
5.4.4 Lần lọc thứ 3 .86
5.4.5 Ứng dụng cho tài liệu Y khoa tiếng Việt 87
5.5 Kết hợp Meta-map và Conann khi ứng dụng cho tài liệu Y khoa tiếng Việt .88
Trang 6
Chương 6 : KẾT QUẢ THỬ NGHIỆM .89
6.1 Mục tiêu thử nghiệm 89
6.2 Phương pháp thử nghiệm 89
6.2.1 Dữ liệu thử nghiệm .89
6.2.2 Dữ liệu đánh giá 90
6.2.3 Phương pháp tiến hành thử nghiệm 91
6.3 Kết quả thử nghiệm .94
6.3.1 Phân tích cú pháp 94
6.3.2 Phát sinh biến thể 95
6.3.3 Ánh xạ tài liệu vào danh mục khái niệm 95
Chương 7 : KẾT LUẬN 99
7.1 Kết quả đạt được 99
7.2 Những vấn đề còn tồn tại 99
7.3 Hướng phát triển .100
TÀI LIỆU THAM KHẢO .101
43 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2149 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Một giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
rúc hóa cụm danh từ cần phân tích cụm danh từ tiếng Việt thành một cấu trúc
ngữ pháp bao gồm các ngữ con. Một quan điểm thứ ba do [40] đề xuất đã đặc biệt
đáp ứng sát nhu cầu này.
Theo [40], cụm danh từ tiếng Việt gồm phần phụ trước, danh từ trung tâm và phần
phụ sau. Phần phụ trước vẫn chủ yếu được tạo nên bởi các thành tố ở mức từ như từ
phân loại, từ đơn vị và mạo từ. Tuy nhiên khái niệm được chuyển tải trong cụm
danh từ nhờ danh từ trung tâm và phần phụ sau. Phần phụ trước không tham gia
chuyển tải khái niệm. Do đó, để phục vụ bài toán lập chỉ mục trên khái niệm, đề tài
chỉ quan tâm danh từ trung tâm và phần phụ sau của cụm danh từ tiếng Việt. Tác
giả của [40] phân tích phần phụ sau của cụm danh từ tiếng Việt thành các thành tố ở
mức ngữ :
- Ngữ danh từ đi liền sau danh từ trung tâm, cung cấp thông tin chuyên biệt
hóa cho danh từ trung tâm. Vd: Sách đạo đức, trường quốc tế
- Ngữ tính từ cũng theo sau danh từ trung tâm và ngữ danh từ (nếu có) nhằm
bổ nghĩa cho danh từ trung tâm và có thể kèm theo một (hay một số) trạng từ
chỉ mức độ. Vd: Món hàng (rất) đắt đỏ, cô gái (cực kỳ) thông minh.
- Ngữ giới từ như quán ăn bên đường, bài thể dục vào buổi sáng…Ngữ giới
từ luôn đứng sau ngữ danh từ và ngữ tính từ (nếu có).
- Mệnh đề là một cấu trúc Chủ - Vị hẳn hoi. Nó thường bắt đầu với từ “mà”.
Tuy nhiên, từ “mà” không bắt buộc phải có. Ví dụ : Bộ phim kinh dị (mà) tôi
thích.
- Từ chỉ định như này / nầy / ni / đó / đấy / ấy / nớ / kia / nọ và luôn đứng sau
ngữ danh từ và ngữ tính từ.
Trang 41
- Ngữ sở hữu trong tiếng Việt thường là một nhóm từ bắt đầu với từ “của”,
nhưng trong một số ngữ cảnh rõ ràng, từ “của” có thể được lược bỏ. Ví dụ :
nhà (của) tôi, thế giới (của) thần tiên…
3.5.2 Giải pháp cấu trúc hóa cụm danh từ tiếng Việt
Công trình [40] đề xuất một cấu trúc rất mạch lạc của cụm danh từ tiếng Việt. Cấu
trúc này không chỉ đầy đủ, chi tiết mà còn gần gũi với cấu trúc dữ liệu của bài toán
tin học. Vì vậy cấu trúc nêu trong [40] đã được [7] vận dụng để định nghĩa chi tiết
một cấu trúc dữ liệu lưu trữ các thành phần ngữ pháp của cụm danh từ tiếng Việt.
Tuy nhiên, như đã đề cập trên đây, công đoạn cấu trúc hóa chỉ quan tâm danh từ
trung tâm và phần phụ sau của cụm danh từ.
Không xét thành phần phụ trước, cụm danh từ tiếng Việt phải bắt đầu bằng Danh từ
trung tâm. Danh từ trung tâm có thể là 1 danh từ duy nhất hoặc nhiều danh từ trong
một cấu trúc song song. Vd : trong “Sinh viên đại học”, danh từ trung tâm là 1 danh
từ duy nhất trong khi với “nguồn gốc và tính chất của saponin” thì danh từ trung
tâm gồm 2 thành phần song song liên kết nhau bởi liên từ “và”.
Đặt CS(x) là ký hiệu cho 1 thành tố x hoặc nhiều thành tố x nối nhau bằng liên từ.
Các thành tố x có thể là những từ cùng từ loại hay những ngữ cùng cấu trúc. Đặt
S(x) là ký hiệu với ý nghĩa như CS(x) ngoại trừ một điều là giữa các thành tố x
không có liên từ. Khi đó danh từ trung tâm có thể được biểu diễn là CS(dat) (dat là
nhãn từ loại cho danh từ). Trong các biểu thức sau đây, thành tố có thể khuyết
(optional) sẽ được ghi trong ngoặc vuông ([…]), các thành tố liên tiếp nhau được
liên kết bởi dấu cộng (+).
Ngay sau danh từ trung tâm có thể có Ngữ danh từ. Ngữ danh từ được biểu diễn
bởi CS(S(dat)). Vd : “cây trồng miền Trung Việt Nam và miền Đông Thái Lan”
Trang 42
Hình 3-1 : Cấu trúc cụm danh từ "Cây trồng miền Trung Việt Nam và miền Đông
Thái Lan"
Sau danh từ trung tâm và ngữ danh từ, các thành phần còn lại không bắt buộc và
không theo một thứ tự trước sau bắt buộc nào :
Ngữ tính từ (AP): CS([tpd]+[tmd]+S(tit)+[tmd]+[PPR]) với tit và tmd là nhãn từ
loại của tính từ và trạng từ chỉ mức độ, tpd là phủ định từ như “không” và PPR là
trạng ngữ chỉ nguyên nhân (mô tả sau trong phần này). Vd : “cô gái thông minh và
xinh đẹp”
Ngữ sở hữu (PP) : CS([tpd]+[tsh]+S(dat)) với tsh là từ sở hữu như “của”. Vd : “bài
tập của môn Hóa học”
Trạng ngữ nơi chốn (PPP) : CS([tpd]+[git]+S(dat)) với git là trạng từ nơi chốn như
“ở tại”, “trên” …Vd : “chiếc bánh trên bàn”
Trạng ngữ thời gian loại 1 (PPT1) : CS([tpd]+[gtg]+S(dat)) với gtg là trạng từ thời
gian như “lúc”, “khi”. Vd : “bầu trời lúc hoàng hôn”
Trạng ngữ thới gian loại 2 (PPT2) : CS([tpd]+[gtg]+VP) với VP là ngữ động từ
(mô tả sau trong phần này). Vd: “rắn khi tấn công con người”
Trạng ngữ phương tiện vật liệu (PPM) : CS([tpd]+[gpt]+S(dat)) với gpt là trạng
từ phương tiện vật liệu như “bằng”. Vd : “chiếc bàn bằng gỗ”
Trạng ngữ nguyên nhân nguồn gốc (PPR) : CS([tpd]+[gnn]+S(NP|AP|VP)) với
gnn là trạng từ nguyên nhân như “vì”, “bởi” hoặc “do”. Vd : the NP “bệnh do vi
rút”
Trạng ngữ khác (PPO) : CS([tpd]+[gtk]+S(dat)) với gtk là các loại trạng từ còn lại
như “về”. Vd : “bài viết về sinh viên”
Trang 43
Ngữ động từ (VP): CS([ttg]+[tpd]+[tit]+dot+S(dat)+[ttc]+[PP*]) với ttg là từ chỉ
thì (tense indicator) như “sẽ”, “vừa mới” …, tit là một số tính từ đặc biệt như
“thường”, “dễ”…, dot là động từ chính, ttc trạng từ thể cách như “mạnh”, “nhẹ” …,
PP* là bất kỳ loại trạng ngữ nào. Vd : “loài cây thường sống ở rừng nhiệt đới”
Hình 3-2 mô tả tổng thể cụm danh từ tiếng Việt theo cấu trúc đề nghị nêu trên
Hình 3-2 : Cấu trúc cụm danh từ tiếng Việt
Trong công đoạn cấu trúc hóa, toàn bộ cấu trúc này được cài đặt thành các lớp đối
tượng Java và được lưu trữ thành file XML. Xử lý cấu trúc hóa được thực hiện bằng
cách quét qua mỗi cụm danh từ nhiều lần để bắt gặp thể hiện của các công thức trên
đây nhằm nhận biết và rút trích ngữ tương ứng (ngữ đã rút trích sẽ biến mất khỏi
cụm danh từ). Quá trình lặp cho đến khi mọi ngữ đã được rút trích và cụm danh từ
thành rỗng. Hình sau đây mô tả các lớp đối tượng Java được dùng
Trang 44
Hình 3-3 : Các lớp đối tượng cài đặt cấu trúc cụm danh từ tiếng Việt
Trang 45
Hình 3-4 : Các lớp đối tượng cài đặt cấu trúc phân cấp của các ngữ trong cụm danh
từ tiếng Việt
Nhóm tác giả của [7] đã cài đặt các giải pháp trên và thử nghiệm với bộ dữ liệu Y
Khoa gồm 2500 cụm danh từ tiếng Việt (cung cấp bởi [11]). Kết quả thử nghiệm
được ghi nhận cho từng công đoạn rút trích và cấu trúc hóa :
Công đoạn rút trích cụm danh từ đạt độ chính xác (precision) 70% và độ bao phủ
(recall) 83% (với điều kiện ban đầu là dữ liệu được tách từ hòan toàn chính xác)
Công đoạn cấu trúc hóa cụm danh từ đạt độ chính xác (precision) 91 % (với điều
kiện là khâu rút trích cụm danh từ cho kết quả hoàn toàn chính xác)
Trang 46
Chương 4 : PHÁT SINH BIẾN THỂ
4.1 Lý do phải phát sinh biến thể
Kết quả sau cùng của một hệ thống lập chỉ mục trên khái niệm cần phải biểu diễn
được nội dung tài liệu bằng một tập các khái niệm từ một Ontology cho trước. Vì
vậy, việc lập chỉ mục theo khái niệm cần phải trích được các khái niệm ứng viên từ
nội dung tài liệu, sau đó ánh xạ các khái niệm ứng viên này với các khái niệm có
sẳn trong Ontology và chọn tập khái niệm trong Ontology liên quan để biểu diễn
cho tài liệu. Một khó khăn là khái niệm có thể xuất hiện trong tài liệu dưới nhiều
cách khác nhau : có thể là chuỗi chính xác với chuỗi định danh của khái niệm trong
Ontology, nhưng cũng có thể là những dạng thể hiện khác (biến thể) của chuỗi định
danh khái niệm. Ta xét một số ví dụ sau đây.
Ví dụ 4.1
Giả sử trong tài liệu có câu “nguyên nhân và triệu chứng của nhồi máu cơ tim
đã được nghiên cứu từ rất lâu”. Rõ ràng câu này có liên quan đến khái niệm
“nguyên nhân của nhồi máu cơ tim”. Nhưng khi so khớp hệ thống sẽ hoàn toàn
không tìm thấy chuỗi tương ứng xuất hiện tường minh trong câu này vì câu
trong tài liệu có sự xen vào của chuỗi “và triệu chứng”.
Vấn đề ở chỗ hệ thống đã không biết rằng cụm danh từ “nguyên nhân và triệu
chứng của nhồi máu cơ tim” thực chất là một cấu trúc song song của hai cụm
danh từ khác (hai biến thể ngữ pháp phân phối). Đó là “nguyên nhân của nhồi
máu cơ tim” và “triệu chứng của nhồi máu cơ tim”.
Ví dụ 4.2
Giả sử trong tài liệu có câu “Tình trạng viêm loét nghiêm trọng kéo dài có thể
dẫn tới ung thư bao tử”, nhưng định danh khái niệm trong Ontology lại là “ung
thư dạ dày”. Khi so khớp hệ thống sẽ không thể tìm thấy sự xuất hiện của “ung
thư dạ dày” trong câu trên mặc dù rõ ràng khái niệm này được đề cập.
Trang 47
Vấn đề ở chỗ hệ thống không biết rằng cụm danh từ “ung thư dạ dày” còn có
một cách nói khác (một biến thể ngữ nghĩa đồng nghĩa) là “ung thư bao tử”
Ví dụ 4.3
Giả sử trong tài liệu có câu “Chứng thấp khớp vào mùa lạnh ở người cao tuổi
có thể được chữa trị bằng Yoga”. Trong Ontology không có khái niệm “chứng
thấp khớp vào mùa lạnh ở người cao tuổi”. Nhưng rõ ràng câu này có đề cập
đến một khái niệm trong Ontology là “chứng thấp khớp ở người cao tuổi”. Tuy
nhiên khi so khớp, hệ thống không thể tìm được chuỗi tương ứng trong câu
trên vì có sự chen vào của chuỗi “vào mùa lạnh”.
Vấn đề ở chỗ hệ thống không biết rằng cụm danh từ “chứng thấp khớp vào
mùa lạnh ở người cao tuổi” thực chất là trường hợp chuyên biệt hóa của một
cụm danh từ khác (một biến thể ngữ pháp tinh giản) là “chứng thấp khớp ở
người cao tuổi”
Ví dụ 4.4
Giả sử trong tài liệu có câu “Khi trong não có khối u, bệnh nhân cần được xét
nghiệm sinh tiết”. Trong Ontology không có khái niệm “não có khối u”.
Nhưng rõ ràng câu này có đề cập đến một khái niệm trong Ontology là “khối u
não”. Tuy nhiên khi so khớp, hệ thống không thể tìm được chuỗi tương ứng
trong câu trên vì không những có sự chen vào của từ “có” mà hai danh từ con
là “não” và “khối u” còn đảo ngược vị trí.
Vấn đề ở chỗ hệ thống không biết rằng cụm danh từ “não có khối u” còn liên
quan trực tiếp đến một cụm danh từ khác (một biến thể ngữ pháp hoán vị) là
“khối u não”.
Qua một số ví dụ nêu trên, ta có thể thấy rằng nếu không có tri thức về biến thể cụm
từ, hệ thống lập chỉ mục sẽ bỏ sót rất nhiều khái niệm do không nhận biết được sự
xuất hiện của các khái niệm ấy trong tài liệu. Đó chính là lý do vì sao trong toàn bộ
Trang 48
quy trình xử lý của bài toán lập chỉ mục trên khái niệm có một tác vụ quan trọng là
Phát sinh biến thể cho cụm danh từ.
Mục đích của phát sinh biến thể là từ những cụm danh từ gốc rút trích được trong
tài liệu, hệ thống sẽ tự động phát sinh ra những biến thể của chúng. Trong các biến
thể này, sẽ có biến thể trùng khớp với định danh khái niệm được sử dụng trong
Ontology, nhờ đó làm tăng hiệu quả cho tác vụ so khớp. Tuy nhiên biến thể có
nhiều chủng loại khác nhau và trong phạm vi luận văn chưa thể xử lý hết thảy các
chủng loại ấy. Phần tiếp theo của chương này sẽ giới thiệu tổng quan về các loại
biến thể cụm từ và lý do luận văn chọn xử lý biến thể ngữ pháp trong hệ thống của
mình.
4.2 Các loại biến thể của cụm từ
Theo [14, 13] thì biến thể của cụm từ chia làm 3 loại: Biến thể hình thái, biến thể
ngữ nghĩa, biến thể ngữ pháp
4.2.1 Biến thể hình thái
Biến thể hình thái (morphology variant) còn gọi là biến thể chính tả (spelling
variant) là những biến thể chỉ sai khác vài ký tự so với cụm từ gốc. Loại biến thể
này khá phổ biến đối với loại hình ngôn ngữ hoà kết (chẳng hạn như tiếng Anh) và
thường xuất hiện vì mục đích ngữ pháp (chia thì, số ít/số nhiều, từ loại…). Sau đây
là một số ví dụ về biến thể hình thái.
Ví dụ 4.5
Make, makes, made, maker… là những biến thể hình thái của nhau.
Intelligent, intelligence… là những biến thể hình thái của nhau.
Trong tiếng Việt, biến thể hình thái là rất hiếm và thường bắt nguồn từ sự khác biệt
phương ngữ (như “mẹ” với “mạ”, “bệnh” với “bịnh”, “tôi” với “tui”…). Nếu xét
quốc ngữ chuẩn trong tiếng Việt, biến thể hình thái là không đáng kể nên có một số
quan điểm cho rằng tiếng Việt không có biến thể hình thái.
Trang 49
4.2.2 Biến thể ngữ nghĩa
Biến thể ngữ nghĩa (semantic variant) là những biến thể mà quan hệ của chúng với
cụm từ gốc chủ yếu dựa trên ngữ nghĩa, không dựa trên hình thức của từ ngữ. Phần
lớn các mối liên hệ giữa các biến thể ngữ nghĩa phụ thuộc rất nhiều vào từng lĩnh
vực chuyên môn. Nói cách khác, hai cụm từ bất kỳ A và B có thể là biến thể ngữ
nghĩa của nhau khi xét trong lĩnh vực chuyên môn này, nhưng lại hoàn toàn không
liên quan gì nhau trong một lĩnh vực chuyên môn khác. Ví dụ dưới đây minh họa
rõ sự phụ thuộc lĩnh vực của biến thể ngữ nghĩa.
Ví dụ 4.6
Nếu xét trong lĩnh vực Công nghệ Thông tin, “phần mềm” và “chương trình”
là biến thể ngữ nghĩa của nhau, trong đó “phần mềm” là một trường hợp
chuyên biệt hóa của “chương trình” (chương trình đạt đến một quy mô nhất
định thì được gọi là phần mềm). Nhưng cũng là hai cụm từ “phần mềm” và
“chương trình” trong lĩnh vực Y khoa thì lại không liên quan gì nhau, trong đó
“phần mềm” dùng để chỉ những mô không phải xương trong cơ thể, còn
chương trình chỉ một kế hoạch hoạt động có trình tự, thời gian và địa điểm cụ
thể.
Dựa vào mối quan hệ giữa biến thể ngữ nghĩa với cụm từ gốc, [14, 13] chia biến thể
ngữ nghĩa ra làm ba loại : biến thể đồng nghĩa (synonym variant), biến thể viết tắt
(acronym variant) hay còn gọi là biến thể từ điển (lexicon variant)và cuối cùng là
biến thể liên quan.
4.2.2.1 Biến thể đồng nghĩa
Biến thể đồng nghĩa là những cụm từ có thể viết rất khác nhau nhưng mang cùng
một nghĩa. Dưới đây là một số ví dụ về biến thể đồng nghĩa
Ví dụ 4.7
“HIV”, “AIDS” và “SIDA” là các biến thể đồng nghĩa của nhau
“Heaven” và “paradise” là các biến thể đồng nghĩa với nhau
Trang 50
Trong tiếng Việt, biến thể đồng nghĩa cũng khá phong phú : “chết” với “qua
đời”, “dạ dày” với “bao tử”, “tập” với “vở”, “dù” với “ô”, “não” với “óc” …
4.2.2.2 Biến thể viết tắt
Biến thể viết tắt là những cách viết ngắn gọn từ cùng một cụm từ gốc viết đầy đủ.
Có thể xem biến thể viết tắt là trường hợp đặc biệt của biến thể đồng nghĩa. Một
điều đặc biệt là biến thể viết tắt có thể được sử dụng vượt qua ranh giới ngôn ngữ.
Nói cách khác, dạng viết tắt của một cụm từ thuộc ngôn ngữ A có thể được dùng ám
chỉ một cách ngắn gọn cho cụm từ tương ứng thuộc ngôn ngữ B. Ví dụ dưới đây
minh họa điều đó.
Ví dụ 4.8
“AIDS” là biến thể viết tắt của cụm từ tiếng Anh “Acquired Immune
Deficiency Syndrome” nhưng vẫn được dùng trong tiếng Việt để chỉ “Hội
chứng suy giảm miễn dịch mắc phải”.
“WBC” và “RBC” lần lượt là viết tắt của hai cụm từ tiếng Anh “White Blood
Cell” và “Red Blood Cell” nhưng vẫn được dùng trong các bệnh án tiếng Việt
để chỉ tương ứng “Bạch cầu” và “Hồng cầu”.
4.2.2.3 Biến thể liên quan
Biến thể liên quan bao gồm tất cả những loại biến thể ngữ nghĩa còn lại mà không
phải là biến thể đồng nghĩa hoặc biến thể viết tắt. Các loại biến thể này phụ thuộc
rất nhiều vào lĩnh vực chuyên môn. Dưới đây là một số ví dụ về các loại biến thể
này trong lĩnh vực Y khoa
Ví dụ 4.9
Quan hệ chuyên biệt hóa – tổng quát hóa : “cholesterol” và “tryglycerit” là hai
biến thể chuyên biệt hóa của “mỡ máu”
Quan hệ chữa trị : “Oleanzapitab” là một dược chất điều trị “Stress”
Trang 51
Quan hệ đối kháng : “Saponin” là một loại hợp chất chống lại “quá trình Oxy
hóa”
4.2.3 Biến thể ngữ pháp
Biến thể ngữ pháp (grammar variant) hay còn gọi là biến thể cú pháp (syntax
variant) hoặc biến thể cấu trúc (structure variant) là loại biến thể được tạo nên từ
cụm từ gốc thông qua một hoặc một số thao tác liên tiếp làm thay đổi cấu trúc ngữ
pháp của cụm từ gốc. Theo [15], có ba loại biến thể ngữ pháp dựa trên cách mà
chúng được tạo ra : Biến thể kết hợp, biến thể hoán vị và biến thể chèn từ
4.2.3.1 Biến thể kết hợp
Biến thể kết hợp (coordination variant) là loại biến thể được tạo nên bằng cách bổ
sung hai (hoặc nhiều) từ vào cụm từ gốc để tạo thêm một (hoặc một số) thành phần
song song. Vì mục đích tạo nên thành phần song song, chuỗi từ thêm vào nhất định
phải bắt đầu hay kết thúc bằng liên từ kết hợp (“and”, “or”, “but”… đối với tiếng
Anh; “và”, “hay”, “hoặc”, “cũng như”… đối với tiếng Việt). Có hai kiểu kết hợp :
Kết hợp đầu tố và kết hợp điều biến tố. Dưới đây là một số ví dụ về biến thể kết
hợp.
Ví dụ 4.10 : Kết hợp đầu tố (hay còn gọi là kết hợp danh từ trung tâm)
Cụm từ A : “Triệu chứng viêm loét dạ dày”
Cụm từ B : “Triệu chứng và nguyên nhân viêm loét dạ dày”
Cụm từ B là một biến thể kết hợp của cụm từ A được tạo nên bằng cách bổ
sung thêm danh từ trung tâm “nguyên nhân” vào cụm từ A. Danh từ trung tâm
mới này đi song song với danh từ trung tâm cũ là “triệu chứng” và liên kết với
danh từ trung tâm cũ bằng liên từ “và”. Vì thành phần thêm vào là đầu tố của
cụm từ nên kiểu kết hợp này gọi là kết hợp đầu tố.
Ví dụ 4.11 : Kết hợp điều biến tố
Cụm từ A : “Chứng thiếu máu ở phụ nữ”
Trang 52
Cụm từ B : “Chứng thiếu máu ở trẻ em hoặc phụ nữ”
Cụm từ B là một biến thể kết hợp của cụm từ A được tạo nên bằng cách bổ
sung thêm điều biến tố “(ở) trẻ em” vào cụm từ A. Điều biến tố mới này đi
song song với điều biến tố cũ là “ở phụ nữ” và liên kết với điều biến tố cũ
bằng liên từ “hoặc”. Vì thành phần thêm vào là điều biến tố của cụm từ nên
kiểu kết hợp này gọi là kết hợp điều biến tố.
4.2.3.2 Biến thể hoán vị
Biến thể hoán vị (permutation variant) là loại biến thể có được nhờ thao tác hoán
đổi vị trí các từ trong cụm từ gốc và thêm vào các từ mới nếu cần. Sau đây là một số
ví dụ về biến thể hoán vị.
Ví dụ 4.12
Cụm từ “Túi mật bị tổn thương” và cụm từ “Tổn thương túi mật” là biến thể
hoán vị của nhau
Cụm từ “Máu vận chuyển Oxy” và cụm tử “Oxy máu” là biến thể hoán vị của
nhau.
4.2.3.3 Biến thể chèn từ
Biến thể chèn từ (insertion variant) theo [15] là tất cả các loại biến thể ngữ pháp còn
lại không rơi vào hai loại trên đây. Biến thể chèn từ thường mang nghĩa chuyên biệt
hóa so với cụm từ gốc. Sau đây là một số ví dụ về biến thể chèn từ.
Ví dụ 4.13
Cụm từ “viêm loét thượng vị dạ dày” là một biến thể chèn từ của cụm từ “viêm
loét dạ dày”, nó mang nghĩa chuyên biệt hóa, vì “viêm loét thượng vị dạ dày”
là một trong những trường hợp của “viêm loét dạ dày”.
Trên đây là tổng quan về các loại biến thể của cụm từ. Khi áp dụng vào tiếng Việt,
biến thể hình thái không đáng kể. Xét về biến thể ngữ nghĩa thì quá phụ thuộc lĩnh
vực chuyên môn và đòi hỏi nhiều tài nguyên ngôn ngữ để phát sinh (từ điển đồng
Trang 53
nghĩa, từ điển viết tắt…). Các tài nguyên ngôn ngữ này cho tiếng Việt hiện vẫn còn
hạn chế, nhất là trong lĩnh vực Y khoa. Ngoài ra, bản thân Ontology (dùng trong lập
chỉ mục) đã tổ chức khái niệm theo phả hệ phân cấp nên phần nào giúp cho biến thể
ngữ nghĩa có gián tiếp tham gia vào việc lập chỉ mục. Do vậy luận văn chưa xử lý
phát sinh biến thể ngữ nghĩa. Biến thể ngữ pháp là loại biến thể phong phú nhất, lại
không phụ thuộc vào lĩnh vực chuyên môn nên cùng một giải pháp phát sinh biến
thể ngữ pháp có thể dùng được cho nhiều lĩnh vực chuyên môn khác nhau. Không
những vậy, biến thể ngữ pháp không đòi hỏi nhiều tài nguyên ngôn ngữ. Chúng có
thể được phát sinh dựa trên cấu trúc ngữ pháp của cụm từ gốc và một số kỹ thuật
phù hợp (sẽ trình bày sau trong chương này). Vì những lý do trên, trong các loại
biến thể của cụm từ, luận văn tập trung xử lý phát sinh biến thể ngữ pháp.
4.3 Một số kỹ thuật phát sinh biến thể cho cụm từ
Vì phát sinh biến thể là một tác vụ quan trọng trong quá trình lập chỉ mục nên việc
giải quyết bài toán lập chỉ mục trên khái niệm bao gồm cả công đoạn xử lý phát
sinh biến thể cho cụm danh từ. Một bản khảo sát ngắn gọn về các kỹ thuật phát sinh
và nhận biết các loại biến thể cho cụm từ là cần thiết để có thể lựa chọn được kỹ
thuật phù hợp cho luận văn.
4.3.1 Phát sinh bằng tài nguyên Ngôn ngữ
Hướng tiếp cận này đơn giản về mặt xử lý, nhưng chi phí cao do đòi hỏi những tài
nguyên đồ sộ về mặt ngôn ngữ học (từ điển đồng nghĩa, từ điển viết tắt…).
Trong công trình của mình, [32] sử dụng một Cơ sở Dữ liệu mang tên CELEX để
phát sinh biến thể hình thái cho từ / cụm từ gốc. Cơ sở Dữ liệu CELEX có nội dung
như một từ điển, nhưng các mục từ trong ấy được gom nhóm thành từng họ hình
thái. Ví dụ như các từ make, made, maker, remake… là thuộc cùng một họ hình thái
trong CELEX. Khi xử lý một cụm từ X, [32] xét từng từ x trong X và tra trong
CELEX để tìm ra các từ cùng họ với x rồi thay chúng vào vị trí của x trong X để tạo
ra các biến thể hình thái cho cụm từ X.
Trang 54
Để phát sinh biến thể ngữ nghĩa loại đồng nghĩa, [32] sử dụng một giải pháp tương
tự như [25], đó là sử dụng Synset của Wordnet. Xét hai mục từ phân biệt A và B
trong Wordnet, riêng A hoặc B đều có thể mang nhiều nghĩa, nhưng chỉ cần trong
số đó có ít nhất một nghĩa trùng nhau thì A và B được xem như thuộc cùng một
Synset.
Khác với [32, 25], [39] tập trung xử lý trên tiếng Pháp nên Wordnet trên tiếng Anh
không phải một tài nguyên phù hợp. Thay vào đó, [39] dùng từ điển đồng nghĩa
tiếng Pháp do viện INaLF xây dựng để phát sinh biến thể đồng nghĩa. Cụm từ mà
[39] xử lý chỉ giới hạn trong 2 từ nội dung (không kể các hư từ), bao gồm 1 đầu tố
(Head – H) và 1 điều biến tố (Modifier – M). Trong [39], hệ thống phát sinh theo
đồng thời 3 chiến lược : Chỉ phát sinh cho đầu tố (H – M), chỉ phát sinh cho điều
biến tố (H – M), phát sinh cho cả đầu tố và điều biến tố (H – M).
Hiện tại các tài nguyên ngôn ngữ cho tiếng Việt còn khá hạn chế, nên luận văn
không chọn đi theo hướng tiếp cận này.
4.3.2 Phát sinh bằng phương pháp thống kê
Trong [44], một kỹ thuật được giới thiệu dựa trên phương pháp thống kê để phát
sinh biến thể hình thái cho từ / cụm từ. Trước tiên, [44] quét qua một bộ ngữ liệu rất
lớn là MEDLINE để tìm các dạng viết tắt trong dấu ngoặc đơn. Sau đó hệ thống rút
trích cụm từ đứng ngay trước ngoặc đơn với nhận định rằng đó chính là dạng viết
đầy đủ của từ viết tắt trong ngoặc đơn. Tất cả các dạng viết đầy đủ như thế của cùng
một dạng viết tắt mà sai khác nhau không quá một ký tự thì được xem là biến thể
hình thái của nhau. Sau quá trình này, hệ thống có được một khối lượng lớn các
nhóm biến thể hình thái, các cụm từ trong cùng nhóm là biến thể hình thái của nhau.
Các nhóm biến thể hình thái này sau đó phục vụ như bộ dữ liệu huấn luyện để hệ
thống học trên đó và rút ra các luật điều chỉnh cụm từ gốc thành biến thể hình thái
của nó. Trọng số của luật được tính toán bằng phương pháp thống kê qua một loạt
các phép tính (vì thế nên phương pháp này được gọi là phương pháp thống kê),
những công thức cụ thể được trình bày trong [44]. Mỗi luật sẽ thay một ký tự nguồn
Trang 55
trong cụm từ thành ký tự đích, hoặc xóa đi 1 ký tự, hoặc thêm mới 1 ký tự. Sự thay
thế này có quan tâm ngữ cảnh của ký tự bị xử lý (ngữ cảnh bao gồm từ 1 đến 2 ký
tự trước và/hoặc sau ký tự bị thay thế).
Ví dụ 4.14 :
Luật {Left context: c- / Target: R / Right context: el / Replace : r} có nghĩa là
nếu ký tự đang xét là “R”, kề trước nó là “c-” và kề sau nó là “el” thì thay nó
bằng “r”.
Khi áp dụng bộ luật này cho dữ liệu thô, quá trình phát sinh biến thể hình thái cho
một cụm từ X được thực hiện bởi thuật toán sau :
- Bước 1 : Thêm X vào tập kết quả KQ (khi này KQ chỉ mới có 1 phần tử là
X)
- Bước 2 : Với mỗi phần tử Xi trong KQ, trong số các luật có thể áp dụng cho
Xi, chọn luật trọng số cao nhất Rk
- Bước 3 : Áp dụng Rk và cho ra biến thề Xi’ của Xi. Tính điểm cho Xi’ (bằng
điểm của Xi nhân với trọng số của Rk). Sau đó thêm Xi’ vào KQ.
- Bước 4 : Quay lại bước 2 cho đến khi biến thể sinh ra có điểm thấp hơn một
ngưỡng cho trước.
Hướng tiếp cận này đòi hỏi một bộ ngữ liệu lớn mà hiện tại không có sẵn đối với
tiếng Việt. Hơn nữa đối tượng của hướng tiếp cận này là biến thể hình thái, vốn
không đáng kể trong tiếng Việt. Do đó luận văn không chọn đi theo hướng tiếp cận
này.
4.3.3 Phát sinh bằng Heuristic
Công trình [21] sử dụng một số heuristic để phát sinh biến thể hình thái cho tiếng
Anh. Dưới đây là một số ví dụ.
Trang 56
Ví dụ 4.15 :
Ví dụ
Heuristic
Cụm từ gốc Biến thể
Thay đuôi “ur” bằng “r” Colour color
Thay đuôi “f” bằng “ves” Leaf leaves
Bỏ “‘s” Down’s symtom Down symtom
Công trình [10] thì tập trung vào loại cụm từ có cấu trúc chung là N1PN2. Trong đó
N1 và N2 là các danh từ, còn P là một giới từ nào đó (Ví dụ như “comparisionN ofP
resultN”, “extractionN fromP novelN”…). Hệ thống này chỉ quan tâm đến duy nhất
biến thể ngữ nghĩa loại liên quan. Biến thể phát sinh ra luôn có dạng N’2[P’]N’1 và
dựa trên một Heuristic là : Việc hoán vị hai danh từ N1 và N2, đồng thời động hóa
một trong hai danh từ ấy (chuyển về dạng phân từ của động từ) và hiệu chỉnh giới từ
(nếu cần) có thể cho ra cụm từ mới có ngữ nghĩa liên quan mật thiết với cụm từ cũ.
Dưới đây là một số ví dụ.
Ví dụ 4.16
Cụm từ gốc Biến thể Diễn giải
Comparision of result Result comparing
Hoán vị hai danh từ, loại bỏ giới từ
“of”, đồng thời danh từ
“Comparision” được động hóa
thành “Comparing”
Comparision of result Result compared Tương tự trường hợp trên nhưng dạng động hóa là “Compared”
Extraction from novel Novel extracting
Bỏ giới từ “from”, hai danh từ bị
hoán vị và “Extraction” được động
hóa thành “extracting”
Heuristic của [10] gặp phải một vấn đề đó là không phải lúc nào nó cũng cho kết
quả đúng. Tất cả trường hợp sai của nó đều do việc hoán vị và động hóa làm cho vai
trò chủ từ/túc từ của danh từ N1 (hoặc N2) bị đảo. Ví dụ sau đây minh họa điều đó.
Ví dụ 4.17
Trang 57
Cụm từ gốc “Evaluation by professors” (nghĩa là những đánh giá thực hiện bởi
các chuyên gia) có thể được heuristic này phát sinh thành biến thể “professors
evaluating” (nghĩa là đánh giá các chuyên gia). Dễ thấy biến thể này là một
trường hợp không liên quan cụm từ gốc. Nguyên nhân là trong cụm từ gốc,
danh từ “professors” đóng vai trò chủ ngữ cho hành động “evaluate”. Nhưng
trong biến thể, “professors” lại là túc từ bị tác động bới hành động “evaluate”
nên ý nghĩa biến thể xa rời ý nghĩa cụm từ gốc.
Giải pháp của [10] là xây dựng một số khuôn mẫu (pattern) cho cụm từ gốc. Mỗi
khuôn mẫu chỉ chấp nhận một vai trò (hoặc chủ từ, hoặc túc từ) cho danh từ. Ví dụ
như mẫu N1onN2 thì N2 chỉ có thể đóng vai trò túc từ. Sau đó, hệ thống dựa trên từ
điển để xác định loại động từ trong cụm từ là ngoại động từ (transitive) hay nội
động từ (intransitive), đồng thời dùng một số heuristic để xác định thể cách của
động từ (passive/active). Nhờ vào loại động từ và thể cách, hệ thống xác định vai
trò của danh từ trong biến thể là chủ từ hay túc từ, từ đó lọai bỏ các biến thể mà vai
trò ấy trái ngược với vai trò quy định bởi khuôn mẫu của cụm từ gốc.
Hướng tiếp cận này dựa trên heuristic nên rất phụ thuộc từng ngôn ngữ. Các công
trình trên phục vụ cho tiếng Anh, lại chỉ quan tâm duy nhất 1 trường hợp biến thể
đặc thù, nên khả năng vận dụng các heuristic ấy cho tiếng Việt là hạn chế. Vì đó
luận văn không chọn đi theo hướng này.
4.3.4 Phát sinh bằng luật
Ý tưởng chung của hướng tiếp cận này là biến thể ngữ pháp của một cụm từ gốc
được nhận biết và phát hiện trong văn bản nhờ các luật. Nếu một cụm từ gốc thỏa
điều kiện hoạt động của một luật thì luật ấy sẽ phát huy hiệu lực trên cụm từ gốc để
phát hiện một hoặc nhiều biến thể của nó trong văn bản.
4.3.4.1 Tiền xử lý
Mục tiêu của tiền xử lý là mô hình hóa cụm từ thành một định dạng phù hợp cho
các luật phát sinh xử lý. [19] đề xuất việc mô hình hóa cụm từ thành các mẫu dựng
Trang 58
sẵn. Các tác giả gọi những mẫu dựng sẵn này là luật (rule), mặc dù chúng không có
chức năng gì của luật. Luận văn xin tôn trọng và giữ nguyên cách gọi này của các
tác giả. Từ đấy, trong xử lý của hệ thống, cụm từ được đại diện bởi các luật này.
Việc xử lý trên cụm từ để phát hiện biến thể trở thành việc xử lý trên luật. Việc mô
hình hóa các cụm từ trong văn bản thành các luật được xử lý tự động.
Ví dụ 4.18 : Luật (mẫu dựng sẵn) mô hình hóa từ
Luật {Word = ‘concentration’, cat = N, inflection = 0} có nghĩa rằng từ này
nội dung là “concentration”, từ loại là danh từ (Noun) và số lượng biến tố là 0.
Luật {Word = ‘effect’, cat = N, inflection = 1} có nghĩa rằng từ này nội dung
là “effect”, từ loại là danh từ (Noun) và số lượng biến tố là 1 (“effect” có 1
biến tố là dạng số nhiều của nó : “effects”).
Ví dụ 4.19 : Luật (mẫu dựng sẵn) mô hình hóa cụm từ
Rule N1Æ N2N3
= ‘025972’
= ‘concentration’
= 1
= ‘effect’
= 1
Luật trên đây mô hình hóa cho cụm danh từ (gọi là N1) tạo nên bởi hai danh từ
(gọi là N2 và N3). Mã của mẫu này là 025972. Trong đó danh từ N2 là từ
“concentration” và không có biến tố, còn N3 là từ “effect” và có 1 biến tố. Tóm
lại luật trên mô hình hóa cho cụm từ “concentration effect” hoặc
“concentration effects”
Rule N1 Æ {A2 = A3+A4}(N5 Æ A6 N7)
= ‘006431’
= ‘left’
= ‘right’
= ‘pulmonar’
= ‘orter’
Trang 59
Luật trên đây mô hình hóa cho cụm danh từ (gọi là N1) tạo nên bởi một tính từ
(gọi là A2) và một cụm danh từ con (gọi là N5)
Tính từ A2 có thể là 1 trong 2 trường hợp : A3 hoặc A4 (dấu “+” có nghĩa là
“hoặc”). Trong đó A3 là “left” còn A4 là “right”
Cụm danh từ con N5 được tạo nên bởi 1 tính từ A6 (là “pulmonar”) và một
danh từ N7 (là “orter”)
Như vậy tóm lại luật này mô hình hóa cho cụm từ “left pulmonar orter” hoặc
“right pulmonar orter”.
4.3.4.2 Phát sinh biến thể
Sau khi mô hình hóa cụm từ, một loạt những siêu luật biến hóa (paradigmatic meta-
rule) được xây dựng để làm nhiệm vụ phát hiện biến thể (các siêu luật này mới thực
sự mang chức năng đúng nghĩa của luật). Việc viết siêu luật biến hóa đòi hỏi tri
thức con người nên phải thực hiện thủ công. Các siêu luật biến hóa nhận đầu vào là
những cụm từ gốc đã được mô hình hóa (tức là luật), và cho đầu ta là các biến thể
có trong văn bản của cụm từ gốc ấy. Biến thể được tạo ra bởi 1 trong 3 hành động :
Kết hợp (coordination), hoán vị (permutation) và chèn từ (insertion). Tương ứng 3
hành động này là 3 loại siêu luật biến hóa. Các ví dụ minh họa sau đây sẽ cung cấp
cái nhìn cụ thể về những xử lý vừa nêu.
Ví dụ 4.20 : Siêu luật biến hóa kết hợp (coordination)
Siêu luật {Mrule Coo(X1ÆX2X3X4)=X1ÆX2C5X6X3X4} thực hiện hành động
kết hợp (Coo). Nó nhận vào luật {X1ÆX2X3X4} có nghĩa là cụm từ gốc X1
gồm 3 từ là X2,X3 và X4. Nó cho ra luật {X1ÆX2C5X6X3X4} có nghĩa là biến
thể phát sinh ra có thêm 1 liên từ (conjunction) C5 theo sau bởi từ X6 so với
cụm từ gốc.
Khi ta áp dụng siêu luật này lên cụm từ gốc “InflamatoryX2 jointX3 deseaseX4”,
nó sẽ nhận biết cụm từ “InflamatoryX2 andC5 erosiveX6 jointX3 deseaseX4” là
một biến thể của cụm từ gốc.
Trang 60
Ví dụ 4.21 : Siêu luật hoán vị (permutation)
Siêu luật {Mrule Per(X1ÆX2X3X4)=X1ÆX4X5X6X7X2X3} thực hiện hành
động hoán vị (Per). Nó nhận vào luật {X1ÆX2X3X4} có nghĩa là cụm từ gốc
X1 gồm 3 từ là X2,X3 và X4. Nó cho ra luật { X1ÆX4X5X6X7X2X3} có nghĩa là
biến thể phát sinh ra có thêm 3 từ (X5, X6 và X7) so với cụm từ gốc và X4 vốn
đứng cuối bị hoán vị lên vị trí đầu tiên.
Khi ta áp dụng siêu luật này lên cụm từ gốc “NervousX2 systemX3 deseaseX4”,
nó sẽ nhận biết cụm từ “DeseaseX4 ofX5 theX6 centralX7 nervousX2 systemX3” là
một biến thể của cụm từ gốc.
Ví dụ 4.22 : Siêu luật chèn từ (Insertion)
Siêu luật {Mrule Ins(X1ÆX2X3X4)=X1ÆX2X5X3X4} thực hiện hành động
chèn từ (Ins). Nó nhận vào luật {X1ÆX2X3X4} có nghĩa là cụm từ gốc X1 gồm
3 từ là X1,X2 và X3. Nó cho ra luật { X1Æ X2X5X3X4} có nghĩa là biến thể
phát sinh ra có thêm 1 từ (X5) so với cụm từ gốc.
Khi ta áp dụng siêu luật này lên cụm từ gốc “ImpairedX2 glucoseX3
tolerenceX4”, nó sẽ nhận biết cụm từ “ImpairedX2 intravenousX5 glucoseX3
tolerenceX4” là một biến thể của cụm từ gốc.
Hàng loạt ví dụ khác về siêu luật được trình bày trong [19].
4.3.4.3 Sàng lọc biến thể
Tuy nhiên các siêu luật này có thể cho ra biến thể khôn lường nên độ chính xác
chưa cao. [14, 13] đề xuất rằng bên cạnh siêu luật biến hóa như [19] đã làm, cần có
thêm siêu luật sàng lọc (filtering meta-rule) để sàng lọc bỏ các kết quả sai của siêu
luật biến hóa. Siêu luật sàng lọc gồm hai loại :
4.3.4.3.1 Siêu luật sàng lọc âm
Các biến thể thỏa siêu luật sàng lọc âm thì xem như kết quả sai và bị bỏ đi.
Ví dụ 4.23 : Siêu luật sàng lọc âm
Trang 61
Mrule Nins{X1ÆX2X3}=X1ÆX2{X6=Pu7+P8}X9X3 = ‘of’
Siêu luật này không chấp nhận thêm vào giữa cụm từ có 2 từ (X2 và X3) một từ
X6 mà là 1 dấu câu (Pu7=punctuation mark) hoặc một giới từ ‘of’ (P8 =
preposition). Ví dụ như với cụm từ gốc “Information System” thì biến thể
“Information of nervous system” là một biến thể sai.
4.3.4.3.2 Siêu luật sàng lọc dương
Các biến thể cho ra mà không thỏa bất kỳ Siêu luật sàng lọc dương nào thì xem là
sai và bị bỏ đi.
Ví dụ 4.24 : Siêu luật sàng lọc dương
Mrule PPer{X1ÆX2X3}=X1ÆX3X4X5X2 = P
Siêu luật này đòi hỏi trong 2 từ thêm vào một cụm từ, từ đầu tiên phải là một
giới từ. Ví dụ như “lung injury” Æ “injury in left lung”
Cách tìm biến thể của [19, 14, 13] giữ nguyên nội dung các từ vốn có trong cụm từ
gốc. [32] nhận xét cách làm ấy là chưa đủ và đề xuất kết hợp sử dụng các tài nguyên
ngôn ngữ để thay thế các từ vốn có trong cụm từ gốc bằng biến thể hình thái hay
ngữ nghĩa của nó nhằm phát hiện một lượng biến thể phong phú hơn.
Công trình [21] đề xuất một hình thức luật đơn giản hơn thay vì dùng siêu luật. Các
tác giả gọi những luật này là khuôn mẫu (template). Mỗi khuôn mẫu bao gồm biểu
thức cho cụm từ gốc và các biểu thức cho các biến thể ứng viên. Dưới đây là một số
ví dụ về khuôn mẫu.
Ví dụ 4.25
N1 & N2 A3 N+ | Candidate1=N2A3N+4 | Candidate2=N1A3N+4
(Vd: “function or surface antigenic profile” Æ “surface antigenic profile” /
“function antigenic profile”)
N+1(A+)2A3&A4 | Candidate1=N+1(A+)2A3 | Candidate2= N+1(A+)2A4
Trang 62
(Vd: RNA polymerases II and III Æ RNA polymerasis II / RNA polymerasis
III)
Trong [30], tác giả nhận xét hệ thống [21] chỉ phát sinh biến thể qua 1 cấp, nghĩa là
chỉ có biến thể của cụm từ gốc. [30] đề xuất áp dụng khuôn mẫu 2 cấp liên tiếp để
cho ra biến thể của biến thể, nhờ đó kết quả phong phú và đầy đủ hơn.
Hướng tiếp cận này không đòi hỏi tài nguyên ngôn ngữ đồ sộ, lại có tính uyển
chuyển vì có thể hiệu chỉnh bộ luật cho đến khi đạt kết quả mong muốn. Hướng này
cũng tập trung trên biến thể ngữ pháp – loại biến thể mà luận văn nhắm đến. Vì vậy
luận văn sẽ vận dụng hướng tiếp cận này, nhưng kèm theo những điều chỉnh, bổ
sung cần thiết cho phù hợp với tiếng Việt và mục tiêu lập chỉ mục của đề tài. Phần
tiếp theo sẽ trình bày giải pháp phát sinh biến thể mà luận văn đề xuất. Trong các
công trình vừa nêu, luật dùng trong phát sinh được gọi bởi nhiều tên tùy theo tác giả
công trình (luật, siêu luật, khuôn mẫu…), nhưng để thống nhất, từ đây trong phần
trình bày của mình luận văn xin gọi chung là luật.
4.4 Một giải pháp phát sinh biến thể cho cụm danh từ tiếng
Việt
4.4.1 Chiến lược phát sinh biến thể
Luận văn vận dụng hướng tiếp cận phát sinh biến thể bằng luật và tập trung phát
sinh biến thể ngữ pháp. Tuy nhiên cần phải có một giải pháp phù hợp với đặc thù
của tiếng Việt và phù hợp với mục tiêu là phát sinh biến thể để phục vụ lập chỉ mục
trên khái niệm. Để đạt được điều ấy, luận văn đề ra một chiến lược riêng cho việc
phát sinh biến thể cụm từ tiếng Việt.
Trước hết, việc phát sinh biến thể ngữ pháp phải dựa trên tri thức về cấu trúc ngữ
pháp của cụm từ gốc (thay vì dựa trên cụm từ không cấu trúc như [19]). Tri thức
này có được nhờ công đoạn cấu trúc hóa cụm danh từ (trình bày trong chương 3).
Sử dụng cấu trúc ngữ pháp của cụm từ gốc, ta có thể kiểm soát được biến thể phát
sinh ra. Do đó luận văn không cần thực hiện bước sàng lọc biến thể như [19].
Trang 63
Ngoài ra, luận văn có một nhận xét như sau : Xét về cấu trúc ngữ pháp của cụm từ
thì chuỗi định danh khái niệm trong Ontology luôn đơn giản gọn nhẹ vì nó là tên
của chỉ một khái niệm đơn, nhưng cụm danh từ trong tài liệu thì thường có cấu trúc
lồng ghép, kết hợp phức tạp. Chính khác biệt này gây khó khăn cho xử lý so khớp
(như đã đề cập trong 4.1).
Do đó biến thể mà luận văn phát sinh ra phải là những thành phần đơn hoặc giản
lược của cụm từ gốc trong tài liệu. Điều này nhằm rút ngắn khác biệt biệt giữa cụm
từ phức tạp trong tài liệu với cụm từ đơn giản trong định danh khái niệm. Nhờ đó so
khớp có dùng thêm biến thể sẽ khắc phục những khó khăn trong so khớp thông
thường chỉ dùng cụm từ gốc. Thế nhưng các thao tác tạo nên biến thể do [19] đề
xuất (gồm kết hợp, hoán vị và chèn từ) hầu hết đều làm tăng tính phức tạp của cụm
từ gốc nên luận văn đề xuất một tập thao tác khác cho phù hợp với chiến lược phát
sinh của mình :
- Thao tác phân phối : Trong cụm từ gốc nếu có nhiều thành phần song song
thì chúng sẽ được tách ra từng thành phần riêng, mỗi thành phần riêng là một
biến thể. Ví dụ cụ thể sẽ được nêu khi trình bày về bộ luật phân phối ở phần
sau trong chương này
- Thao tác hoán vị : Thao tác tác này giữ nguyên ý tưởng đề xuất bởi [19].
- Thao tác tinh giản : Từ 1 đến 2 điều biến tố trong cụm danh từ gốc sẽ bị bỏ đi
để tạo thành biến thể, danh từ trung tâm không được phép tinh giản.
4.4.2 Bộ luật phát sinh biến thể
Bộ luật phát sinh biến thể dùng trong luận văn được tác giả xây dựng dựa trên
những cơ sở và điều kiện sau đây :
- Kiến thức tích lũy của tác giả về tiếng Việt qua thời gian nghiên cứu và
hướng dẫn các luận văn của sinh viên trên bài toán Xử lý Ngôn ngữ tự nhiên
phục vụ Tìm kiếm Thông tin (NLP for IR).
Trang 64
- Các lý thuyết về ngữ pháp trong cụm danh từ tiếng Việt được trình bày chi
tiết trên nhiều khía cạnh trong các tác phẩm [16], [31] và [40].
- Sự giúp đỡ tận tình (cung cấp tài liệu, giảng giải, tư vấn, đánh giá dữ liệu…)
từ hai chuyên gia ngôn ngữ học của trường Đại học Khoa học Xã hội và
Nhân văn : TS.Lê Khắc Cường và TS. Trần Thủy Vịnh.
Bộ luật này chia làm 3 nhóm ứng với 3 thao tác phát sinh biến thể đã nêu tại 4.4.1.
Biến thể được phát sinh qua 3 cấp theo kịch bản sau :
- Cấp 1: Luật phân phối tác động lên tập cụm từ gốc R cho ra tập biến thể F1.
- Cấp 2: Luật tinh giản tác động lên R ∪ F1 cho ra tập biến thể F2.
- Cấp 3: Luật hoán vị tác động lên R ∪ F1 ∪ F2 cho ra tập biến thể F3.
- Kết quả cuối cùng tham gia lập chỉ mục sẽ là : R ∪ F1 ∪ F2 ∪ F3
- Vì 2 cụm từ gốc khác nhau có thể phát sinh ra cùng biến thể (chẳng hạn khi
luật tinh giản đã giản lược đi phần khác nhau giữa 2 cụm từ gốc), nên sau
cùng bước khử trùng được thực hiện để lọai bỏ hết trường hợp trùng lắp.
Biến thể được phát sinh ra sẽ cùng với cụm từ gốc tham gia so khớp với định danh
khái niệm trong Ontology (chương 5). Trong việc so khớp này, độ quan trọng của
hầu hết biến thể không bằng độ quan trọng của cụm từ gốc. Không những vậy, các
biến thể khác nhau cũng có độ quan trọng khác nhau (biến thể càng liên quan với
cụm từ gốc thì có độ quan trọng càng cao, biến thể càng xa rời cụm từ gốc – chẳng
hạn biến thể của biến thể – thì sẽ có độ quan trọng càng thấp). Dễ thấy các biến thể
sinh ra bởi cùng một luật thì có độ liên quan như nhau với cụm từ gốc. Do đó luận
văn gán cho mỗi luật một trọng số (tính bằng phần trăm) để dễ dàng tự động tính độ
liên quan của biến thể với cụm từ gốc khi phát sinh theo công thức (4.1) sau :
Độ liên quan của 1 biến thể = Điểm của cha trực tiếp * Trọng số luật sử dụng (4.1)
4.4.2.1 Nhóm luật phân phối
Cụm danh từ có thể có một đầu tố và nhiều điều biến tố, các thành tố này đều có thể
Trang 65
được tạo nên bởi nhiều thành phần song song. Các ví dụ sau đây minh họa điều đó.
Ví dụ 4.26 : Cụm danh từ
“Nguyên nhân và triệu chứng
của chứng đột quỵ” có danh từ
trung tâm mang 2 thành phần
song song liên kết nhau bởi liên
từ “và”.
Bảng 4-1 : Cấu trúc cụm từ “Nguyên
nhân và triệu chứng của chứng đột quỵ”
Danh từ trung
tâm Ngữ sở hữu
Nguyên nhân
Và
Triệu chứng
Của chứng đột
quỵ
Ví dụ 4.27 : Cụm danh từ “Viêm
loét ở dạ dày hoặc thực quản” có
trạng ngữ nơi chốn mang 2 thành
phần song song liên kết nhau bởi
liên từ “hoặc”.
Bảng 4-2 : Cấu trúc cụm từ “Viêm
loét ở dạ dày hoặc thực quản”
Danh từ trung
tâm
Trạng ngữ
nơi chốn
Viêm loét
Ở Dạ dày
Hoặc
Ở Thực
quản
Ví dụ 4.28 : Cụm danh từ “Chứng choáng do huyết khối hay mỡ máu ở người
trung niên và người già khi ẩn sâu hoặc phát tác” có trạng ngữ nguyên nhân
mang hai thành phần song song nối bởi liên từ “hay”, có trạng ngữ nơi chốn
mang 2 thành phần song song nối bởi liên từ “và”, và có trạng ngữ thời gian
(dạng 2) mang ngữ động từ gồm 2 thành phần song song nối bởi liên từ “hoặc”
Bảng 4-3 : Cấu trúc cụm từ “Chứng choáng do huyết khối hay mỡ máu ở người
trung niên và người già khi ẩn sâu hoặc phát tác”
Trạng ngữ thời gian dạng 2
Danh từ
trung tâm
Trạng ngữ
nguyên nhân
Trạng ngữ
nơi chốn Trạng từ chỉ
thời gian Ngữ động từ
Chứng
choáng
Do huyết khối
Hay
Do mỡ máu
Ở Người
trung niên
Và
Ở Người già
Khi
Ẩn sâu
Hoặc
Phát tác
Trang 66
Luật phân phối giúp tách n thành phần song song này thành n thành phần đơn và tạo
nên n biến thể. Trong phạm vi của luận văn, việc phân phối được thực hiện trên các
thành phần song song của từ 2 đến 3 thành tố. Cách hoạt động của luật phân phối
trên 2 thành tố được mô tả trong hình 4-1 dưới đây. Cách hoạt động của luật phân
phối trên 3 thành tố cũng tương tự, nhưng số lượng biến thể nhiều hơn do số lượng
thành tố tham gia phân phối nhiều hơn.
Phân phối trên 2 thành tố
L R P1 P2 … … … Pn Q1 Q2 … … … Qm
Các thành phần song song bên
trong thành tố (nối nhau bởi liên từ)
Thành tố thứ nhất tham
gia phân phối
Thành tố thứ hai tham
gia phân phối
Phân phối cho ra các biến thể
Phần còn lại bên trái
cụm từ (nếu có)
Phần còn lại bên
phải cụm từ (nếu có)
L R P1 QmL R P1 Q1
L R Pi QmL R Pi Q1
L R Pn QmL R Pn Q1
L R P1 Qk
L R Pi Qk
L R Pn Qk
CỤM TỪ GỐC
Hình 4-1 : Cách phát sinh biến thể của luật phân phối hai thành tố
Ví dụ 4.29 : Xét luật phân phối trên 2 thành tố là danh từ trung tâm và ngữ sở
hữu, khi áp dụng cho cụm từ “Nguyên nhân và triệu chứng của chứng đột quỵ”
(cấu trúc cụm từ mô tả trong bảng 4-1) sẽ phát sinh được 2 biến thể là
“Nguyên nhân của chứng đột quỵ” và “Triệu chứng của chứng đột quỵ”.
Trang 67
Ví dụ 4.30 : Xét luật phân phối trên 2 thành tố là danh từ trung tâm và trạng
ngữ nơi chốn, khi áp dụng cho cụm từ “Viêm loét ở dạ dày hoặc thực quản”
(cấu trúc cụm từ mô tả trong bảng 4-2) sẽ phát sinh được 2 biến thể là “Viêm
loét ở dạ dày” và “Viêm loét ở thực quản”.
Ví dụ 4.31 : Xét luật phân phối trên 3 thành tố là trạng ngữ nơi chốn, trạng ngữ
nguyên nhân và ngữ động từ trong trạng ngữ thời gian, khi áp dụng cho cụm từ
“Chứng choáng do huyết khối hay mỡ máu ở người trung niên và người già
khi ẩn sâu hoặc phát tác” (cấu trúc cụm từ mô tả trong bảng 4-3), sẽ phát sinh
được 8 biến thể sau :
- “Chứng choáng do huyết khối ở người trung niên khi ẩn sâu”
- “Chứng choáng do huyết khối ở người trung niên khi phát tác”
- “Chứng choáng do huyết khối ở người già khi ẩn sâu”
- “Chứng choáng do huyết khối ở người già khi phát tác”
- “Chứng choáng do mỡ máu ở người trung niên khi ẩn sâu”
- “Chứng choáng do mỡ máu ở người trung niên khi phát tác”
- “Chứng choáng do mỡ máu ở người già khi ẩn sâu”
- “Chứng choáng do mỡ máu ở người già khi phát tác”
4.4.2.2 Nhóm luật hoán vị
Luật hoán vị thực hiện đảo vị trí 2 thành tố trong cụm từ gốc khi không có thành tố
nào khác xen giữa chúng, đồng thời lược bỏ một số bộ phận (nếu cần) để cho ra
cụm từ mới. Luật hoán vị không dựa trên cơ sở vững chắc như luật phân phối,
chúng chủ yếu dựa trên heuristic. Do đó luật hoán vị có trọng số không cao và
chúng cần điều kiện kèm theo để hạn chế trường hợp sai. Sau đây là ví dụ minh họa
một luật hoán vị.
Ví dụ 4.32 : Xét luật hoán vị danh từ trung tâm và ngữ động từ. Thành phần bị
hoán vị là danh từ trung tâm và ngữ động từ. Thành phần bị lược bỏ là động từ
Trang 68
và trạng ngữ của ngữ động từ. Điều kiện áp dụng là khi động từ là một trong
các từ : có, chứa, mang, bị, tiết, mắc, mắc phải, nhiễm, bị nhiễm, nhiễm phải.
R
Danh từ trung tâm Động từ
Ngữ động từ
Hoán vị cho ra biến thể
Phần còn lại bên
phải cụm từ (nếu có)
CỤM TỪ GỐC
Túc từ
R
Danh từ trung tâm
Ngữ động từ
Túc từ
{ có, chứa, mang, bị,
tiết, mắc, mắc phải,
nhiễm, bị nhiễm,
nhiễm phải }
Động từ ∈
ĐIỀU KIỆN THÀNH PHẦN LƯỢC BỎ
Động từ
Hình 4-2 : Cách phát sinh biến thể của luật hoán vị danh từ trung tâm và ngữ động
từ
Bảng 4-4 : Một số trường hợp áp dụng luật hoán vị danh từ trung tâm và ngữ động
từ (phần chữ in đậm là động từ bị lược bỏ bởi luật).
Cụm từ gốc Biến thể
Thận có sỏi Sỏi thận
Tế bào bị biến dạng Biến dạng tế bào
Bao tử tiết acid Acid bao tử
Máu mang Oxy Oxy máu
Máu nhiễm mỡ Mỡ máu
Không khí chứa vi khuẩn Vi khuẩn không khí
Não bị khối u Khối u não
Phổi bị nhiễm lao Lao phổi
Trang 69
4.4.2.3 Nhóm luật tinh giản
Luật tinh giản thực hiện giản lược từ 1 đến 2 điều biến tố trong cụm từ gốc để cho
ra biến thể (không được giản lược danh từ trung tâm). Vì các điều biến tố cung cấp
thêm thông tin chi tiết bổ nghĩa cho cụm từ, nên việc giản lược bớt điều biến tố
đồng nghĩa với bỏ bớt thông tin chi tiết và nâng nội dung cụm từ lên mức tổng quát
hơn. Do vậy các biến thể cho ra là các trường hợp tổng quát hóa của cụm từ gốc.
Hình 4-3 sau đây mô tả cách hoạt động của luật tinh giản 1 thành tố và 2 thành tố.
Danh từ trung tâm
Tinh giản cho ra biến thể
Các điều biến tố
CỤM TỪ GỐC
Tinh giản 1 thành tố :
M1 MnMk+1MkMk-1
Thành phần bị tinh giản
Danh từ trung tâm M1 MnMk+1Mk-1
Danh từ TT
CỤM TỪ GỐC
M1 MnMi+1MiMi-1
Thành phần bị tinh giản
Tinh giản 2 thành tố :
Mk+1MkMk-1
Tinh giản cho ra biến thể
M1 Mi+1Mi-1 Mk+1Mk-1Danh từ TT Mn
Hình 4-3 : Cách hoạt động của luật tinh giản 1 thành tố và 2 thành tố
Sau đây là một số ví dụ về luật tinh giản.
Ví dụ 4.33 : Xét luật tinh giản 1 thành tố là trạng ngữ thời gian dạng 1. Khi áp
dụng vào cụm từ “Bài tập thể dục vào buổi sángtrangNguThoiGian1 cho người già”,
luật này sẽ cho ra biến thể “Bài tập thể dục cho người già” (trạng ngữ thời gian
Trang 70
dạng 1 bị lược bỏ là phần in nghiêng trong cụm từ gốc). Dễ thấy biến thể này
là trường hợp tổng quát hóa của cụm từ gốc (trong các hình thức tập thể dục
cho người già thì có hình thức tập vào buổi sáng)
Ví dụ 4.34 : Xét luật tinh giản 2 thành tố là ngữ tính từ và trạng ngữ chỉ
Tuy thành tố trong cụm danh từ có thể lược bỏ vô điều kiện để
au đây là một số ví dụ
nguyên nhân nguồn gốc. Khi áp dụng vào cụm từ “Melatonin dư thừanguTinhTu
từ tuyến yêntrangNguNguonGoc trong não bệnh nhân”, luật này sẽ cho ra biến thể
“Melatonin trong não bệnh nhân” (thành phần bị lược bỏ được in nghiêng
trong cụm từ gốc).
nhiên, trong khi các
cho ra biến thể tổng quát hóa, thì các thành phần nằm trong thành tố khi bị lược bỏ
tùy tiện sẽ để lại cụm từ tối nghĩa. Do vậy bên cạnh những luật tinh giản thành tố
không điều kiện còn có các luật tinh giản thành phần trong thành tố có điều kiện.
Hình 4-4 dưới đây mô tả cách hoạt động của luật tinh giản thành phần trong thành
tố có điều kiện kèm theo.
ĐIỀU KIỆN : E i ∈ {giá trị 1, …, giá trị n }
Hình 4-4 : Cách hoạt động của luật tinh giản thành phần trong thành tố
S
R
Tinh giản cho ra biến thể
Phần còn lại bên
phải cụm từ (nếu có)
CỤM TỪ GỐC
Thành tố có chứa thành phần bị lược bỏ
L E1 E1i-1 Ei Ei+1 En… …
Phần còn lại bên trái
cụm từ (nếu có) Thành phần bị lược bỏ
R
L
E1 E1i-1 Ei+1 En…… ……
Trang 71
Ví dụ 4.35 : Xét luật tinh giản động từ của ngữ động từ. Điều kiện áp dụng luật
này là khi động từ thuộc danh sách : chữa, điều trị, chữa trị, cứu chữa, chống,
phòng, ngừa, phòng ngừa, phòng chống. Bảng 4-5 dưới đây trình bày một số
trường hợp vận dụng luật này (phần in đậm là động từ bị lược bỏ).
Bảng 4-5 : Một số trường hợp áp dụng luật tinh giản động từ của ngữ động từ
Cụm từ gốc Biến thể
Thuốc chữa tim mạch Thuốc tim mạch
Bác sĩ điều trị xương khớp Bác sĩ xương khớp
Đợt tiêm chủng phòng uốn ván Đợt tiêm chủng uốn ván
Thuốc chống say sóng Thuốc say sóng
Liệu pháp chữa trị ung thư Liệu pháp ung thư
Ví dụ 4.35 : Xét luật tinh giản giới từ nơi chốn. Điều kiện áp dụng luật này là
khi giới từ ấy thuộc danh sách : ở, trong, tại, ở trong, ở tại, ngay tại, ngay ở,
trên, ở trên, ngay trên, bên trong, giữa. Tuy nhiên độ chính xác của luật này
khiến nó chỉ có trọng số 70%. Bảng dưới đây trình bày một số trường hợp vận
dụng luật này (phần in đậm là giới từ nơi chốn bị lược bỏ).
Bảng 4-6 : Một số trường hợp áp dụng luật tinh giản giới từ nơi chốn
Cụm từ gốc Biến thể
Dị tật ở cột sống do đột biến Dị tật cột sống do đột biến
Vi sinh trong thành ruột Vi sinh thành ruột
Tổn thương trên niêm mạc Tổn thương niêm mạc
Vết loét bên trong dạ dày Vết loét dạ dày
Cơn đau giữa lồng ngực Cơn đau lồng ngực
Tóm lại, các luật khác nhau cho ra biến thể có độ liên quan cao thấp khác nhau với
cụm từ gốc. Nhưng xét tổng thể khi kết hợp cả 3 nhóm luật thì kết quả tốt (chi tiết
kết quả thử nghiệm trình bày trong chương 6). Tuy nhiên 2 khâu rút trích cụm danh
từ và cấu trúc hóa cụm danh từ không phải chính xác 100% nên đầu vào của khâu
Trang 72
phát sinh biến thể tồn tại những cụm từ gốc sai hoặc cụm từ gốc đúng nhưng bị cấu
trúc hóa sai, dẫn đến tồn tại những biến thể sai ở đầu ra. Điều này không đáng ngại
vì đến tác vụ so khớp (chương 5), các biến thể vô nghĩa sớm muộn gì cũng bị lọai vì
không so khớp được với định danh khái niệm nào cả.
Sau khi phát sinh biến thể, các biến thể được gộp chung với các cụm từ gốc (nhưng
dĩ nhiên điểm của hầu hết biến thể không phải điểm tuyệt đối như của cụm từ gốc).
Lúc đó, tài liệu được biểu diễn bằng một tập cụm từ (bao gồm các cụm từ gốc lẫn
biến thể của chúng). Tập cụm từ này là dữ liệu đầu vào cho tác vụ ánh xạ tài liệu
vào Ontology được trình bày trong chương 5 sau đây.