Luận văn Một giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm

MỘT GIẢI PHÁP SỬ DỤNG CỤM DANH TỪ CHO TÌM KIẾM TRÊN KHÁI NIỆM TUẤN NGUYÊN HOÀI ĐỨC Trang nhan đề Lời cảm ơn Mục lục Danh mục Chương 1: Giới thiệu Chương 2: Các nghiên cứu về lập chỉ mục trên khái niệm Chương 3: Phân tích cú pháp Chương 4: Phát sinh biến thể Chương 5: Ánh xạ tài liệu vào danh mục khái niệm Chương 6: Kết quả thử nghiệm Chương 7: Kết luận Tài liệu tham khảo Mục lục Trang LỜI CẢM ƠN .3 Mục lục .4 Danh mục các hình 7 Danh mục các bảng 8 Chương 1 : GIỚI THIỆU 9 1.1 Lý do chọn đề tài 9 1.2 Mục tiêu của luận văn .11 1.3 Nội dung nghiên cứu 11 Chương 2 : CÁC NGHIÊN CỨU VỀ LẬP CHỈ MỤC TRÊN KHÁI NIỆM .13 2.1 Tổng quan .13 2.2 Lập chỉ mục trên khái niệm không so khớp tài liệu với Ontology 14 2.2.1 Hướng tiếp cận xử lý phía câu truy vấn 14 2.2.2 Hướng tiếp cận xứ lý phía tài liệu .17 2.2.3 Hướng tiếp cận phối hợp xử lý cả câu truy vấn và tài liệu .19 2.3 Lập chỉ mục trên khái niệm có so khớp tài liệu với Ontology .21 2.3.1 Xây dựng Ontology 21 2.3.2 Lập chỉ mục – Chỉ sử dụng khái niệm 22 2.3.3 Lập chỉ mục – Sử dụng khái niệm và Mối kết hợp giữa chúng 26 2.4 Lựa chọn của đề tài 29 Chương 3 : PHÂN TÍCH CÚ PHÁP 30 3.1 Tổng quan .30 3.2 Tách từ 31 3.3 Gán nhãn từ loại 32 3.3.1 Phát sinh tập luật điều chỉnh từ loại 32 3.3.2 Bổ sung luật điều chỉnh từ loại .33 Trang 5 3.4 Gán nhãn ranh giới ngữ 35 3.4.1 Phát sinh bộ luật sửa nhãn ranh giới ngữ 35 3.4.2 Bổ sung luật sửa nhãn ranh giới ngữ 37 3.5 Cấu trúc hóa cụm danh từ 38 3.5.1 Cấu trúc của cụm danh từ tiếng Việt 38 3.5.2 Giải pháp cấu trúc hóa cụm danh từ tiếng Việt 41 Chương 4 : PHÁT SINH BIẾN THỂ .46 4.1 Lý do phải phát sinh biến thể .46 4.2 Các loại biến thể của cụm từ .48 4.2.1 Biến thể hình thái 48 4.2.2 Biến thể ngữ nghĩa 49 4.2.3 Biến thể ngữ pháp .51 4.3 Một số kỹ thuật phát sinh biến thể cho cụm từ .53 4.3.1 Phát sinh bằng tài nguyên Ngôn ngữ 53 4.3.2 Phát sinh bằng phương pháp thống kê 54 4.3.3 Phát sinh bằng Heuristic .55 4.3.4 Phát sinh bằng luật 57 4.4 Một giải pháp phát sinh biến thể cho cụm danh từ tiếng Việt .62 4.4.1 Chiến lược phát sinh biến thể .62 4.4.2 Bộ luật phát sinh biến thể .63 Chương 5 : ÁNH XẠ TÀI LIỆU VÀO DANH MỤC KHÁI NIỆM 73 5.1 Tổng quan .73 5.2 Ontology sử dụng trong luận văn .74 5.2.1 File MRCONSO.RRF .74 5.2.2 File MRHIER.RRF .75 5.2.3 Phạm vi của Ontology tiếng Việt 75 5.3 Meta-map và ứng dụng cho tài liệu Y khoa tiếng Việt .76 5.3.1 Các mức so khớp 76 5.3.2 Các độ đo 78 5.4 Conann và ứng dụng cho tài liệu Y khoa tiếng Việt .83 5.4.1 Tiền xử lý 83 5.4.2 Lần lọc thứ 1 .84 5.4.3 Lần lọc thứ 2 .84 5.4.4 Lần lọc thứ 3 .86 5.4.5 Ứng dụng cho tài liệu Y khoa tiếng Việt 87 5.5 Kết hợp Meta-map và Conann khi ứng dụng cho tài liệu Y khoa tiếng Việt .88 Trang 6 Chương 6 : KẾT QUẢ THỬ NGHIỆM .89 6.1 Mục tiêu thử nghiệm 89 6.2 Phương pháp thử nghiệm 89 6.2.1 Dữ liệu thử nghiệm .89 6.2.2 Dữ liệu đánh giá 90 6.2.3 Phương pháp tiến hành thử nghiệm 91 6.3 Kết quả thử nghiệm .94 6.3.1 Phân tích cú pháp 94 6.3.2 Phát sinh biến thể 95 6.3.3 Ánh xạ tài liệu vào danh mục khái niệm 95 Chương 7 : KẾT LUẬN 99 7.1 Kết quả đạt được 99 7.2 Những vấn đề còn tồn tại 99 7.3 Hướng phát triển .100 TÀI LIỆU THAM KHẢO .101

pdf43 trang | Chia sẻ: maiphuongtl | Lượt xem: 2070 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận văn Một giải pháp sử dụng cụm danh từ cho tìm kiếm trên khái niệm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
rúc hóa cụm danh từ cần phân tích cụm danh từ tiếng Việt thành một cấu trúc ngữ pháp bao gồm các ngữ con. Một quan điểm thứ ba do [40] đề xuất đã đặc biệt đáp ứng sát nhu cầu này. Theo [40], cụm danh từ tiếng Việt gồm phần phụ trước, danh từ trung tâm và phần phụ sau. Phần phụ trước vẫn chủ yếu được tạo nên bởi các thành tố ở mức từ như từ phân loại, từ đơn vị và mạo từ. Tuy nhiên khái niệm được chuyển tải trong cụm danh từ nhờ danh từ trung tâm và phần phụ sau. Phần phụ trước không tham gia chuyển tải khái niệm. Do đó, để phục vụ bài toán lập chỉ mục trên khái niệm, đề tài chỉ quan tâm danh từ trung tâm và phần phụ sau của cụm danh từ tiếng Việt. Tác giả của [40] phân tích phần phụ sau của cụm danh từ tiếng Việt thành các thành tố ở mức ngữ : - Ngữ danh từ đi liền sau danh từ trung tâm, cung cấp thông tin chuyên biệt hóa cho danh từ trung tâm. Vd: Sách đạo đức, trường quốc tế - Ngữ tính từ cũng theo sau danh từ trung tâm và ngữ danh từ (nếu có) nhằm bổ nghĩa cho danh từ trung tâm và có thể kèm theo một (hay một số) trạng từ chỉ mức độ. Vd: Món hàng (rất) đắt đỏ, cô gái (cực kỳ) thông minh. - Ngữ giới từ như quán ăn bên đường, bài thể dục vào buổi sáng…Ngữ giới từ luôn đứng sau ngữ danh từ và ngữ tính từ (nếu có). - Mệnh đề là một cấu trúc Chủ - Vị hẳn hoi. Nó thường bắt đầu với từ “mà”. Tuy nhiên, từ “mà” không bắt buộc phải có. Ví dụ : Bộ phim kinh dị (mà) tôi thích. - Từ chỉ định như này / nầy / ni / đó / đấy / ấy / nớ / kia / nọ và luôn đứng sau ngữ danh từ và ngữ tính từ. Trang 41 - Ngữ sở hữu trong tiếng Việt thường là một nhóm từ bắt đầu với từ “của”, nhưng trong một số ngữ cảnh rõ ràng, từ “của” có thể được lược bỏ. Ví dụ : nhà (của) tôi, thế giới (của) thần tiên… 3.5.2 Giải pháp cấu trúc hóa cụm danh từ tiếng Việt Công trình [40] đề xuất một cấu trúc rất mạch lạc của cụm danh từ tiếng Việt. Cấu trúc này không chỉ đầy đủ, chi tiết mà còn gần gũi với cấu trúc dữ liệu của bài toán tin học. Vì vậy cấu trúc nêu trong [40] đã được [7] vận dụng để định nghĩa chi tiết một cấu trúc dữ liệu lưu trữ các thành phần ngữ pháp của cụm danh từ tiếng Việt. Tuy nhiên, như đã đề cập trên đây, công đoạn cấu trúc hóa chỉ quan tâm danh từ trung tâm và phần phụ sau của cụm danh từ. Không xét thành phần phụ trước, cụm danh từ tiếng Việt phải bắt đầu bằng Danh từ trung tâm. Danh từ trung tâm có thể là 1 danh từ duy nhất hoặc nhiều danh từ trong một cấu trúc song song. Vd : trong “Sinh viên đại học”, danh từ trung tâm là 1 danh từ duy nhất trong khi với “nguồn gốc và tính chất của saponin” thì danh từ trung tâm gồm 2 thành phần song song liên kết nhau bởi liên từ “và”. Đặt CS(x) là ký hiệu cho 1 thành tố x hoặc nhiều thành tố x nối nhau bằng liên từ. Các thành tố x có thể là những từ cùng từ loại hay những ngữ cùng cấu trúc. Đặt S(x) là ký hiệu với ý nghĩa như CS(x) ngoại trừ một điều là giữa các thành tố x không có liên từ. Khi đó danh từ trung tâm có thể được biểu diễn là CS(dat) (dat là nhãn từ loại cho danh từ). Trong các biểu thức sau đây, thành tố có thể khuyết (optional) sẽ được ghi trong ngoặc vuông ([…]), các thành tố liên tiếp nhau được liên kết bởi dấu cộng (+). Ngay sau danh từ trung tâm có thể có Ngữ danh từ. Ngữ danh từ được biểu diễn bởi CS(S(dat)). Vd : “cây trồng miền Trung Việt Nam và miền Đông Thái Lan” Trang 42 Hình 3-1 : Cấu trúc cụm danh từ "Cây trồng miền Trung Việt Nam và miền Đông Thái Lan" Sau danh từ trung tâm và ngữ danh từ, các thành phần còn lại không bắt buộc và không theo một thứ tự trước sau bắt buộc nào : Ngữ tính từ (AP): CS([tpd]+[tmd]+S(tit)+[tmd]+[PPR]) với tit và tmd là nhãn từ loại của tính từ và trạng từ chỉ mức độ, tpd là phủ định từ như “không” và PPR là trạng ngữ chỉ nguyên nhân (mô tả sau trong phần này). Vd : “cô gái thông minh và xinh đẹp” Ngữ sở hữu (PP) : CS([tpd]+[tsh]+S(dat)) với tsh là từ sở hữu như “của”. Vd : “bài tập của môn Hóa học” Trạng ngữ nơi chốn (PPP) : CS([tpd]+[git]+S(dat)) với git là trạng từ nơi chốn như “ở tại”, “trên” …Vd : “chiếc bánh trên bàn” Trạng ngữ thời gian loại 1 (PPT1) : CS([tpd]+[gtg]+S(dat)) với gtg là trạng từ thời gian như “lúc”, “khi”. Vd : “bầu trời lúc hoàng hôn” Trạng ngữ thới gian loại 2 (PPT2) : CS([tpd]+[gtg]+VP) với VP là ngữ động từ (mô tả sau trong phần này). Vd: “rắn khi tấn công con người” Trạng ngữ phương tiện vật liệu (PPM) : CS([tpd]+[gpt]+S(dat)) với gpt là trạng từ phương tiện vật liệu như “bằng”. Vd : “chiếc bàn bằng gỗ” Trạng ngữ nguyên nhân nguồn gốc (PPR) : CS([tpd]+[gnn]+S(NP|AP|VP)) với gnn là trạng từ nguyên nhân như “vì”, “bởi” hoặc “do”. Vd : the NP “bệnh do vi rút” Trạng ngữ khác (PPO) : CS([tpd]+[gtk]+S(dat)) với gtk là các loại trạng từ còn lại như “về”. Vd : “bài viết về sinh viên” Trang 43 Ngữ động từ (VP): CS([ttg]+[tpd]+[tit]+dot+S(dat)+[ttc]+[PP*]) với ttg là từ chỉ thì (tense indicator) như “sẽ”, “vừa mới” …, tit là một số tính từ đặc biệt như “thường”, “dễ”…, dot là động từ chính, ttc trạng từ thể cách như “mạnh”, “nhẹ” …, PP* là bất kỳ loại trạng ngữ nào. Vd : “loài cây thường sống ở rừng nhiệt đới” Hình 3-2 mô tả tổng thể cụm danh từ tiếng Việt theo cấu trúc đề nghị nêu trên Hình 3-2 : Cấu trúc cụm danh từ tiếng Việt Trong công đoạn cấu trúc hóa, toàn bộ cấu trúc này được cài đặt thành các lớp đối tượng Java và được lưu trữ thành file XML. Xử lý cấu trúc hóa được thực hiện bằng cách quét qua mỗi cụm danh từ nhiều lần để bắt gặp thể hiện của các công thức trên đây nhằm nhận biết và rút trích ngữ tương ứng (ngữ đã rút trích sẽ biến mất khỏi cụm danh từ). Quá trình lặp cho đến khi mọi ngữ đã được rút trích và cụm danh từ thành rỗng. Hình sau đây mô tả các lớp đối tượng Java được dùng Trang 44 Hình 3-3 : Các lớp đối tượng cài đặt cấu trúc cụm danh từ tiếng Việt Trang 45 Hình 3-4 : Các lớp đối tượng cài đặt cấu trúc phân cấp của các ngữ trong cụm danh từ tiếng Việt Nhóm tác giả của [7] đã cài đặt các giải pháp trên và thử nghiệm với bộ dữ liệu Y Khoa gồm 2500 cụm danh từ tiếng Việt (cung cấp bởi [11]). Kết quả thử nghiệm được ghi nhận cho từng công đoạn rút trích và cấu trúc hóa : Công đoạn rút trích cụm danh từ đạt độ chính xác (precision) 70% và độ bao phủ (recall) 83% (với điều kiện ban đầu là dữ liệu được tách từ hòan toàn chính xác) Công đoạn cấu trúc hóa cụm danh từ đạt độ chính xác (precision) 91 % (với điều kiện là khâu rút trích cụm danh từ cho kết quả hoàn toàn chính xác) Trang 46 Chương 4 : PHÁT SINH BIẾN THỂ 4.1 Lý do phải phát sinh biến thể Kết quả sau cùng của một hệ thống lập chỉ mục trên khái niệm cần phải biểu diễn được nội dung tài liệu bằng một tập các khái niệm từ một Ontology cho trước. Vì vậy, việc lập chỉ mục theo khái niệm cần phải trích được các khái niệm ứng viên từ nội dung tài liệu, sau đó ánh xạ các khái niệm ứng viên này với các khái niệm có sẳn trong Ontology và chọn tập khái niệm trong Ontology liên quan để biểu diễn cho tài liệu. Một khó khăn là khái niệm có thể xuất hiện trong tài liệu dưới nhiều cách khác nhau : có thể là chuỗi chính xác với chuỗi định danh của khái niệm trong Ontology, nhưng cũng có thể là những dạng thể hiện khác (biến thể) của chuỗi định danh khái niệm. Ta xét một số ví dụ sau đây. Ví dụ 4.1 Giả sử trong tài liệu có câu “nguyên nhân và triệu chứng của nhồi máu cơ tim đã được nghiên cứu từ rất lâu”. Rõ ràng câu này có liên quan đến khái niệm “nguyên nhân của nhồi máu cơ tim”. Nhưng khi so khớp hệ thống sẽ hoàn toàn không tìm thấy chuỗi tương ứng xuất hiện tường minh trong câu này vì câu trong tài liệu có sự xen vào của chuỗi “và triệu chứng”. Vấn đề ở chỗ hệ thống đã không biết rằng cụm danh từ “nguyên nhân và triệu chứng của nhồi máu cơ tim” thực chất là một cấu trúc song song của hai cụm danh từ khác (hai biến thể ngữ pháp phân phối). Đó là “nguyên nhân của nhồi máu cơ tim” và “triệu chứng của nhồi máu cơ tim”. Ví dụ 4.2 Giả sử trong tài liệu có câu “Tình trạng viêm loét nghiêm trọng kéo dài có thể dẫn tới ung thư bao tử”, nhưng định danh khái niệm trong Ontology lại là “ung thư dạ dày”. Khi so khớp hệ thống sẽ không thể tìm thấy sự xuất hiện của “ung thư dạ dày” trong câu trên mặc dù rõ ràng khái niệm này được đề cập. Trang 47 Vấn đề ở chỗ hệ thống không biết rằng cụm danh từ “ung thư dạ dày” còn có một cách nói khác (một biến thể ngữ nghĩa đồng nghĩa) là “ung thư bao tử” Ví dụ 4.3 Giả sử trong tài liệu có câu “Chứng thấp khớp vào mùa lạnh ở người cao tuổi có thể được chữa trị bằng Yoga”. Trong Ontology không có khái niệm “chứng thấp khớp vào mùa lạnh ở người cao tuổi”. Nhưng rõ ràng câu này có đề cập đến một khái niệm trong Ontology là “chứng thấp khớp ở người cao tuổi”. Tuy nhiên khi so khớp, hệ thống không thể tìm được chuỗi tương ứng trong câu trên vì có sự chen vào của chuỗi “vào mùa lạnh”. Vấn đề ở chỗ hệ thống không biết rằng cụm danh từ “chứng thấp khớp vào mùa lạnh ở người cao tuổi” thực chất là trường hợp chuyên biệt hóa của một cụm danh từ khác (một biến thể ngữ pháp tinh giản) là “chứng thấp khớp ở người cao tuổi” Ví dụ 4.4 Giả sử trong tài liệu có câu “Khi trong não có khối u, bệnh nhân cần được xét nghiệm sinh tiết”. Trong Ontology không có khái niệm “não có khối u”. Nhưng rõ ràng câu này có đề cập đến một khái niệm trong Ontology là “khối u não”. Tuy nhiên khi so khớp, hệ thống không thể tìm được chuỗi tương ứng trong câu trên vì không những có sự chen vào của từ “có” mà hai danh từ con là “não” và “khối u” còn đảo ngược vị trí. Vấn đề ở chỗ hệ thống không biết rằng cụm danh từ “não có khối u” còn liên quan trực tiếp đến một cụm danh từ khác (một biến thể ngữ pháp hoán vị) là “khối u não”. Qua một số ví dụ nêu trên, ta có thể thấy rằng nếu không có tri thức về biến thể cụm từ, hệ thống lập chỉ mục sẽ bỏ sót rất nhiều khái niệm do không nhận biết được sự xuất hiện của các khái niệm ấy trong tài liệu. Đó chính là lý do vì sao trong toàn bộ Trang 48 quy trình xử lý của bài toán lập chỉ mục trên khái niệm có một tác vụ quan trọng là Phát sinh biến thể cho cụm danh từ. Mục đích của phát sinh biến thể là từ những cụm danh từ gốc rút trích được trong tài liệu, hệ thống sẽ tự động phát sinh ra những biến thể của chúng. Trong các biến thể này, sẽ có biến thể trùng khớp với định danh khái niệm được sử dụng trong Ontology, nhờ đó làm tăng hiệu quả cho tác vụ so khớp. Tuy nhiên biến thể có nhiều chủng loại khác nhau và trong phạm vi luận văn chưa thể xử lý hết thảy các chủng loại ấy. Phần tiếp theo của chương này sẽ giới thiệu tổng quan về các loại biến thể cụm từ và lý do luận văn chọn xử lý biến thể ngữ pháp trong hệ thống của mình. 4.2 Các loại biến thể của cụm từ Theo [14, 13] thì biến thể của cụm từ chia làm 3 loại: Biến thể hình thái, biến thể ngữ nghĩa, biến thể ngữ pháp 4.2.1 Biến thể hình thái Biến thể hình thái (morphology variant) còn gọi là biến thể chính tả (spelling variant) là những biến thể chỉ sai khác vài ký tự so với cụm từ gốc. Loại biến thể này khá phổ biến đối với loại hình ngôn ngữ hoà kết (chẳng hạn như tiếng Anh) và thường xuất hiện vì mục đích ngữ pháp (chia thì, số ít/số nhiều, từ loại…). Sau đây là một số ví dụ về biến thể hình thái. Ví dụ 4.5 Make, makes, made, maker… là những biến thể hình thái của nhau. Intelligent, intelligence… là những biến thể hình thái của nhau. Trong tiếng Việt, biến thể hình thái là rất hiếm và thường bắt nguồn từ sự khác biệt phương ngữ (như “mẹ” với “mạ”, “bệnh” với “bịnh”, “tôi” với “tui”…). Nếu xét quốc ngữ chuẩn trong tiếng Việt, biến thể hình thái là không đáng kể nên có một số quan điểm cho rằng tiếng Việt không có biến thể hình thái. Trang 49 4.2.2 Biến thể ngữ nghĩa Biến thể ngữ nghĩa (semantic variant) là những biến thể mà quan hệ của chúng với cụm từ gốc chủ yếu dựa trên ngữ nghĩa, không dựa trên hình thức của từ ngữ. Phần lớn các mối liên hệ giữa các biến thể ngữ nghĩa phụ thuộc rất nhiều vào từng lĩnh vực chuyên môn. Nói cách khác, hai cụm từ bất kỳ A và B có thể là biến thể ngữ nghĩa của nhau khi xét trong lĩnh vực chuyên môn này, nhưng lại hoàn toàn không liên quan gì nhau trong một lĩnh vực chuyên môn khác. Ví dụ dưới đây minh họa rõ sự phụ thuộc lĩnh vực của biến thể ngữ nghĩa. Ví dụ 4.6 Nếu xét trong lĩnh vực Công nghệ Thông tin, “phần mềm” và “chương trình” là biến thể ngữ nghĩa của nhau, trong đó “phần mềm” là một trường hợp chuyên biệt hóa của “chương trình” (chương trình đạt đến một quy mô nhất định thì được gọi là phần mềm). Nhưng cũng là hai cụm từ “phần mềm” và “chương trình” trong lĩnh vực Y khoa thì lại không liên quan gì nhau, trong đó “phần mềm” dùng để chỉ những mô không phải xương trong cơ thể, còn chương trình chỉ một kế hoạch hoạt động có trình tự, thời gian và địa điểm cụ thể. Dựa vào mối quan hệ giữa biến thể ngữ nghĩa với cụm từ gốc, [14, 13] chia biến thể ngữ nghĩa ra làm ba loại : biến thể đồng nghĩa (synonym variant), biến thể viết tắt (acronym variant) hay còn gọi là biến thể từ điển (lexicon variant)và cuối cùng là biến thể liên quan. 4.2.2.1 Biến thể đồng nghĩa Biến thể đồng nghĩa là những cụm từ có thể viết rất khác nhau nhưng mang cùng một nghĩa. Dưới đây là một số ví dụ về biến thể đồng nghĩa Ví dụ 4.7 “HIV”, “AIDS” và “SIDA” là các biến thể đồng nghĩa của nhau “Heaven” và “paradise” là các biến thể đồng nghĩa với nhau Trang 50 Trong tiếng Việt, biến thể đồng nghĩa cũng khá phong phú : “chết” với “qua đời”, “dạ dày” với “bao tử”, “tập” với “vở”, “dù” với “ô”, “não” với “óc” … 4.2.2.2 Biến thể viết tắt Biến thể viết tắt là những cách viết ngắn gọn từ cùng một cụm từ gốc viết đầy đủ. Có thể xem biến thể viết tắt là trường hợp đặc biệt của biến thể đồng nghĩa. Một điều đặc biệt là biến thể viết tắt có thể được sử dụng vượt qua ranh giới ngôn ngữ. Nói cách khác, dạng viết tắt của một cụm từ thuộc ngôn ngữ A có thể được dùng ám chỉ một cách ngắn gọn cho cụm từ tương ứng thuộc ngôn ngữ B. Ví dụ dưới đây minh họa điều đó. Ví dụ 4.8 “AIDS” là biến thể viết tắt của cụm từ tiếng Anh “Acquired Immune Deficiency Syndrome” nhưng vẫn được dùng trong tiếng Việt để chỉ “Hội chứng suy giảm miễn dịch mắc phải”. “WBC” và “RBC” lần lượt là viết tắt của hai cụm từ tiếng Anh “White Blood Cell” và “Red Blood Cell” nhưng vẫn được dùng trong các bệnh án tiếng Việt để chỉ tương ứng “Bạch cầu” và “Hồng cầu”. 4.2.2.3 Biến thể liên quan Biến thể liên quan bao gồm tất cả những loại biến thể ngữ nghĩa còn lại mà không phải là biến thể đồng nghĩa hoặc biến thể viết tắt. Các loại biến thể này phụ thuộc rất nhiều vào lĩnh vực chuyên môn. Dưới đây là một số ví dụ về các loại biến thể này trong lĩnh vực Y khoa Ví dụ 4.9 Quan hệ chuyên biệt hóa – tổng quát hóa : “cholesterol” và “tryglycerit” là hai biến thể chuyên biệt hóa của “mỡ máu” Quan hệ chữa trị : “Oleanzapitab” là một dược chất điều trị “Stress” Trang 51 Quan hệ đối kháng : “Saponin” là một loại hợp chất chống lại “quá trình Oxy hóa” 4.2.3 Biến thể ngữ pháp Biến thể ngữ pháp (grammar variant) hay còn gọi là biến thể cú pháp (syntax variant) hoặc biến thể cấu trúc (structure variant) là loại biến thể được tạo nên từ cụm từ gốc thông qua một hoặc một số thao tác liên tiếp làm thay đổi cấu trúc ngữ pháp của cụm từ gốc. Theo [15], có ba loại biến thể ngữ pháp dựa trên cách mà chúng được tạo ra : Biến thể kết hợp, biến thể hoán vị và biến thể chèn từ 4.2.3.1 Biến thể kết hợp Biến thể kết hợp (coordination variant) là loại biến thể được tạo nên bằng cách bổ sung hai (hoặc nhiều) từ vào cụm từ gốc để tạo thêm một (hoặc một số) thành phần song song. Vì mục đích tạo nên thành phần song song, chuỗi từ thêm vào nhất định phải bắt đầu hay kết thúc bằng liên từ kết hợp (“and”, “or”, “but”… đối với tiếng Anh; “và”, “hay”, “hoặc”, “cũng như”… đối với tiếng Việt). Có hai kiểu kết hợp : Kết hợp đầu tố và kết hợp điều biến tố. Dưới đây là một số ví dụ về biến thể kết hợp. Ví dụ 4.10 : Kết hợp đầu tố (hay còn gọi là kết hợp danh từ trung tâm) Cụm từ A : “Triệu chứng viêm loét dạ dày” Cụm từ B : “Triệu chứng và nguyên nhân viêm loét dạ dày” Cụm từ B là một biến thể kết hợp của cụm từ A được tạo nên bằng cách bổ sung thêm danh từ trung tâm “nguyên nhân” vào cụm từ A. Danh từ trung tâm mới này đi song song với danh từ trung tâm cũ là “triệu chứng” và liên kết với danh từ trung tâm cũ bằng liên từ “và”. Vì thành phần thêm vào là đầu tố của cụm từ nên kiểu kết hợp này gọi là kết hợp đầu tố. Ví dụ 4.11 : Kết hợp điều biến tố Cụm từ A : “Chứng thiếu máu ở phụ nữ” Trang 52 Cụm từ B : “Chứng thiếu máu ở trẻ em hoặc phụ nữ” Cụm từ B là một biến thể kết hợp của cụm từ A được tạo nên bằng cách bổ sung thêm điều biến tố “(ở) trẻ em” vào cụm từ A. Điều biến tố mới này đi song song với điều biến tố cũ là “ở phụ nữ” và liên kết với điều biến tố cũ bằng liên từ “hoặc”. Vì thành phần thêm vào là điều biến tố của cụm từ nên kiểu kết hợp này gọi là kết hợp điều biến tố. 4.2.3.2 Biến thể hoán vị Biến thể hoán vị (permutation variant) là loại biến thể có được nhờ thao tác hoán đổi vị trí các từ trong cụm từ gốc và thêm vào các từ mới nếu cần. Sau đây là một số ví dụ về biến thể hoán vị. Ví dụ 4.12 Cụm từ “Túi mật bị tổn thương” và cụm từ “Tổn thương túi mật” là biến thể hoán vị của nhau Cụm từ “Máu vận chuyển Oxy” và cụm tử “Oxy máu” là biến thể hoán vị của nhau. 4.2.3.3 Biến thể chèn từ Biến thể chèn từ (insertion variant) theo [15] là tất cả các loại biến thể ngữ pháp còn lại không rơi vào hai loại trên đây. Biến thể chèn từ thường mang nghĩa chuyên biệt hóa so với cụm từ gốc. Sau đây là một số ví dụ về biến thể chèn từ. Ví dụ 4.13 Cụm từ “viêm loét thượng vị dạ dày” là một biến thể chèn từ của cụm từ “viêm loét dạ dày”, nó mang nghĩa chuyên biệt hóa, vì “viêm loét thượng vị dạ dày” là một trong những trường hợp của “viêm loét dạ dày”. Trên đây là tổng quan về các loại biến thể của cụm từ. Khi áp dụng vào tiếng Việt, biến thể hình thái không đáng kể. Xét về biến thể ngữ nghĩa thì quá phụ thuộc lĩnh vực chuyên môn và đòi hỏi nhiều tài nguyên ngôn ngữ để phát sinh (từ điển đồng Trang 53 nghĩa, từ điển viết tắt…). Các tài nguyên ngôn ngữ này cho tiếng Việt hiện vẫn còn hạn chế, nhất là trong lĩnh vực Y khoa. Ngoài ra, bản thân Ontology (dùng trong lập chỉ mục) đã tổ chức khái niệm theo phả hệ phân cấp nên phần nào giúp cho biến thể ngữ nghĩa có gián tiếp tham gia vào việc lập chỉ mục. Do vậy luận văn chưa xử lý phát sinh biến thể ngữ nghĩa. Biến thể ngữ pháp là loại biến thể phong phú nhất, lại không phụ thuộc vào lĩnh vực chuyên môn nên cùng một giải pháp phát sinh biến thể ngữ pháp có thể dùng được cho nhiều lĩnh vực chuyên môn khác nhau. Không những vậy, biến thể ngữ pháp không đòi hỏi nhiều tài nguyên ngôn ngữ. Chúng có thể được phát sinh dựa trên cấu trúc ngữ pháp của cụm từ gốc và một số kỹ thuật phù hợp (sẽ trình bày sau trong chương này). Vì những lý do trên, trong các loại biến thể của cụm từ, luận văn tập trung xử lý phát sinh biến thể ngữ pháp. 4.3 Một số kỹ thuật phát sinh biến thể cho cụm từ Vì phát sinh biến thể là một tác vụ quan trọng trong quá trình lập chỉ mục nên việc giải quyết bài toán lập chỉ mục trên khái niệm bao gồm cả công đoạn xử lý phát sinh biến thể cho cụm danh từ. Một bản khảo sát ngắn gọn về các kỹ thuật phát sinh và nhận biết các loại biến thể cho cụm từ là cần thiết để có thể lựa chọn được kỹ thuật phù hợp cho luận văn. 4.3.1 Phát sinh bằng tài nguyên Ngôn ngữ Hướng tiếp cận này đơn giản về mặt xử lý, nhưng chi phí cao do đòi hỏi những tài nguyên đồ sộ về mặt ngôn ngữ học (từ điển đồng nghĩa, từ điển viết tắt…). Trong công trình của mình, [32] sử dụng một Cơ sở Dữ liệu mang tên CELEX để phát sinh biến thể hình thái cho từ / cụm từ gốc. Cơ sở Dữ liệu CELEX có nội dung như một từ điển, nhưng các mục từ trong ấy được gom nhóm thành từng họ hình thái. Ví dụ như các từ make, made, maker, remake… là thuộc cùng một họ hình thái trong CELEX. Khi xử lý một cụm từ X, [32] xét từng từ x trong X và tra trong CELEX để tìm ra các từ cùng họ với x rồi thay chúng vào vị trí của x trong X để tạo ra các biến thể hình thái cho cụm từ X. Trang 54 Để phát sinh biến thể ngữ nghĩa loại đồng nghĩa, [32] sử dụng một giải pháp tương tự như [25], đó là sử dụng Synset của Wordnet. Xét hai mục từ phân biệt A và B trong Wordnet, riêng A hoặc B đều có thể mang nhiều nghĩa, nhưng chỉ cần trong số đó có ít nhất một nghĩa trùng nhau thì A và B được xem như thuộc cùng một Synset. Khác với [32, 25], [39] tập trung xử lý trên tiếng Pháp nên Wordnet trên tiếng Anh không phải một tài nguyên phù hợp. Thay vào đó, [39] dùng từ điển đồng nghĩa tiếng Pháp do viện INaLF xây dựng để phát sinh biến thể đồng nghĩa. Cụm từ mà [39] xử lý chỉ giới hạn trong 2 từ nội dung (không kể các hư từ), bao gồm 1 đầu tố (Head – H) và 1 điều biến tố (Modifier – M). Trong [39], hệ thống phát sinh theo đồng thời 3 chiến lược : Chỉ phát sinh cho đầu tố (H – M), chỉ phát sinh cho điều biến tố (H – M), phát sinh cho cả đầu tố và điều biến tố (H – M). Hiện tại các tài nguyên ngôn ngữ cho tiếng Việt còn khá hạn chế, nên luận văn không chọn đi theo hướng tiếp cận này. 4.3.2 Phát sinh bằng phương pháp thống kê Trong [44], một kỹ thuật được giới thiệu dựa trên phương pháp thống kê để phát sinh biến thể hình thái cho từ / cụm từ. Trước tiên, [44] quét qua một bộ ngữ liệu rất lớn là MEDLINE để tìm các dạng viết tắt trong dấu ngoặc đơn. Sau đó hệ thống rút trích cụm từ đứng ngay trước ngoặc đơn với nhận định rằng đó chính là dạng viết đầy đủ của từ viết tắt trong ngoặc đơn. Tất cả các dạng viết đầy đủ như thế của cùng một dạng viết tắt mà sai khác nhau không quá một ký tự thì được xem là biến thể hình thái của nhau. Sau quá trình này, hệ thống có được một khối lượng lớn các nhóm biến thể hình thái, các cụm từ trong cùng nhóm là biến thể hình thái của nhau. Các nhóm biến thể hình thái này sau đó phục vụ như bộ dữ liệu huấn luyện để hệ thống học trên đó và rút ra các luật điều chỉnh cụm từ gốc thành biến thể hình thái của nó. Trọng số của luật được tính toán bằng phương pháp thống kê qua một loạt các phép tính (vì thế nên phương pháp này được gọi là phương pháp thống kê), những công thức cụ thể được trình bày trong [44]. Mỗi luật sẽ thay một ký tự nguồn Trang 55 trong cụm từ thành ký tự đích, hoặc xóa đi 1 ký tự, hoặc thêm mới 1 ký tự. Sự thay thế này có quan tâm ngữ cảnh của ký tự bị xử lý (ngữ cảnh bao gồm từ 1 đến 2 ký tự trước và/hoặc sau ký tự bị thay thế). Ví dụ 4.14 : Luật {Left context: c- / Target: R / Right context: el / Replace : r} có nghĩa là nếu ký tự đang xét là “R”, kề trước nó là “c-” và kề sau nó là “el” thì thay nó bằng “r”. Khi áp dụng bộ luật này cho dữ liệu thô, quá trình phát sinh biến thể hình thái cho một cụm từ X được thực hiện bởi thuật toán sau : - Bước 1 : Thêm X vào tập kết quả KQ (khi này KQ chỉ mới có 1 phần tử là X) - Bước 2 : Với mỗi phần tử Xi trong KQ, trong số các luật có thể áp dụng cho Xi, chọn luật trọng số cao nhất Rk - Bước 3 : Áp dụng Rk và cho ra biến thề Xi’ của Xi. Tính điểm cho Xi’ (bằng điểm của Xi nhân với trọng số của Rk). Sau đó thêm Xi’ vào KQ. - Bước 4 : Quay lại bước 2 cho đến khi biến thể sinh ra có điểm thấp hơn một ngưỡng cho trước. Hướng tiếp cận này đòi hỏi một bộ ngữ liệu lớn mà hiện tại không có sẵn đối với tiếng Việt. Hơn nữa đối tượng của hướng tiếp cận này là biến thể hình thái, vốn không đáng kể trong tiếng Việt. Do đó luận văn không chọn đi theo hướng tiếp cận này. 4.3.3 Phát sinh bằng Heuristic Công trình [21] sử dụng một số heuristic để phát sinh biến thể hình thái cho tiếng Anh. Dưới đây là một số ví dụ. Trang 56 Ví dụ 4.15 : Ví dụ Heuristic Cụm từ gốc Biến thể Thay đuôi “ur” bằng “r” Colour color Thay đuôi “f” bằng “ves” Leaf leaves Bỏ “‘s” Down’s symtom Down symtom Công trình [10] thì tập trung vào loại cụm từ có cấu trúc chung là N1PN2. Trong đó N1 và N2 là các danh từ, còn P là một giới từ nào đó (Ví dụ như “comparisionN ofP resultN”, “extractionN fromP novelN”…). Hệ thống này chỉ quan tâm đến duy nhất biến thể ngữ nghĩa loại liên quan. Biến thể phát sinh ra luôn có dạng N’2[P’]N’1 và dựa trên một Heuristic là : Việc hoán vị hai danh từ N1 và N2, đồng thời động hóa một trong hai danh từ ấy (chuyển về dạng phân từ của động từ) và hiệu chỉnh giới từ (nếu cần) có thể cho ra cụm từ mới có ngữ nghĩa liên quan mật thiết với cụm từ cũ. Dưới đây là một số ví dụ. Ví dụ 4.16 Cụm từ gốc Biến thể Diễn giải Comparision of result Result comparing Hoán vị hai danh từ, loại bỏ giới từ “of”, đồng thời danh từ “Comparision” được động hóa thành “Comparing” Comparision of result Result compared Tương tự trường hợp trên nhưng dạng động hóa là “Compared” Extraction from novel Novel extracting Bỏ giới từ “from”, hai danh từ bị hoán vị và “Extraction” được động hóa thành “extracting” Heuristic của [10] gặp phải một vấn đề đó là không phải lúc nào nó cũng cho kết quả đúng. Tất cả trường hợp sai của nó đều do việc hoán vị và động hóa làm cho vai trò chủ từ/túc từ của danh từ N1 (hoặc N2) bị đảo. Ví dụ sau đây minh họa điều đó. Ví dụ 4.17 Trang 57 Cụm từ gốc “Evaluation by professors” (nghĩa là những đánh giá thực hiện bởi các chuyên gia) có thể được heuristic này phát sinh thành biến thể “professors evaluating” (nghĩa là đánh giá các chuyên gia). Dễ thấy biến thể này là một trường hợp không liên quan cụm từ gốc. Nguyên nhân là trong cụm từ gốc, danh từ “professors” đóng vai trò chủ ngữ cho hành động “evaluate”. Nhưng trong biến thể, “professors” lại là túc từ bị tác động bới hành động “evaluate” nên ý nghĩa biến thể xa rời ý nghĩa cụm từ gốc. Giải pháp của [10] là xây dựng một số khuôn mẫu (pattern) cho cụm từ gốc. Mỗi khuôn mẫu chỉ chấp nhận một vai trò (hoặc chủ từ, hoặc túc từ) cho danh từ. Ví dụ như mẫu N1onN2 thì N2 chỉ có thể đóng vai trò túc từ. Sau đó, hệ thống dựa trên từ điển để xác định loại động từ trong cụm từ là ngoại động từ (transitive) hay nội động từ (intransitive), đồng thời dùng một số heuristic để xác định thể cách của động từ (passive/active). Nhờ vào loại động từ và thể cách, hệ thống xác định vai trò của danh từ trong biến thể là chủ từ hay túc từ, từ đó lọai bỏ các biến thể mà vai trò ấy trái ngược với vai trò quy định bởi khuôn mẫu của cụm từ gốc. Hướng tiếp cận này dựa trên heuristic nên rất phụ thuộc từng ngôn ngữ. Các công trình trên phục vụ cho tiếng Anh, lại chỉ quan tâm duy nhất 1 trường hợp biến thể đặc thù, nên khả năng vận dụng các heuristic ấy cho tiếng Việt là hạn chế. Vì đó luận văn không chọn đi theo hướng này. 4.3.4 Phát sinh bằng luật Ý tưởng chung của hướng tiếp cận này là biến thể ngữ pháp của một cụm từ gốc được nhận biết và phát hiện trong văn bản nhờ các luật. Nếu một cụm từ gốc thỏa điều kiện hoạt động của một luật thì luật ấy sẽ phát huy hiệu lực trên cụm từ gốc để phát hiện một hoặc nhiều biến thể của nó trong văn bản. 4.3.4.1 Tiền xử lý Mục tiêu của tiền xử lý là mô hình hóa cụm từ thành một định dạng phù hợp cho các luật phát sinh xử lý. [19] đề xuất việc mô hình hóa cụm từ thành các mẫu dựng Trang 58 sẵn. Các tác giả gọi những mẫu dựng sẵn này là luật (rule), mặc dù chúng không có chức năng gì của luật. Luận văn xin tôn trọng và giữ nguyên cách gọi này của các tác giả. Từ đấy, trong xử lý của hệ thống, cụm từ được đại diện bởi các luật này. Việc xử lý trên cụm từ để phát hiện biến thể trở thành việc xử lý trên luật. Việc mô hình hóa các cụm từ trong văn bản thành các luật được xử lý tự động. Ví dụ 4.18 : Luật (mẫu dựng sẵn) mô hình hóa từ Luật {Word = ‘concentration’, cat = N, inflection = 0} có nghĩa rằng từ này nội dung là “concentration”, từ loại là danh từ (Noun) và số lượng biến tố là 0. Luật {Word = ‘effect’, cat = N, inflection = 1} có nghĩa rằng từ này nội dung là “effect”, từ loại là danh từ (Noun) và số lượng biến tố là 1 (“effect” có 1 biến tố là dạng số nhiều của nó : “effects”). Ví dụ 4.19 : Luật (mẫu dựng sẵn) mô hình hóa cụm từ Rule N1Æ N2N3 = ‘025972’ = ‘concentration’ = 1 = ‘effect’ = 1 Luật trên đây mô hình hóa cho cụm danh từ (gọi là N1) tạo nên bởi hai danh từ (gọi là N2 và N3). Mã của mẫu này là 025972. Trong đó danh từ N2 là từ “concentration” và không có biến tố, còn N3 là từ “effect” và có 1 biến tố. Tóm lại luật trên mô hình hóa cho cụm từ “concentration effect” hoặc “concentration effects” Rule N1 Æ {A2 = A3+A4}(N5 Æ A6 N7) = ‘006431’ = ‘left’ = ‘right’ = ‘pulmonar’ = ‘orter’ Trang 59 Luật trên đây mô hình hóa cho cụm danh từ (gọi là N1) tạo nên bởi một tính từ (gọi là A2) và một cụm danh từ con (gọi là N5) Tính từ A2 có thể là 1 trong 2 trường hợp : A3 hoặc A4 (dấu “+” có nghĩa là “hoặc”). Trong đó A3 là “left” còn A4 là “right” Cụm danh từ con N5 được tạo nên bởi 1 tính từ A6 (là “pulmonar”) và một danh từ N7 (là “orter”) Như vậy tóm lại luật này mô hình hóa cho cụm từ “left pulmonar orter” hoặc “right pulmonar orter”. 4.3.4.2 Phát sinh biến thể Sau khi mô hình hóa cụm từ, một loạt những siêu luật biến hóa (paradigmatic meta- rule) được xây dựng để làm nhiệm vụ phát hiện biến thể (các siêu luật này mới thực sự mang chức năng đúng nghĩa của luật). Việc viết siêu luật biến hóa đòi hỏi tri thức con người nên phải thực hiện thủ công. Các siêu luật biến hóa nhận đầu vào là những cụm từ gốc đã được mô hình hóa (tức là luật), và cho đầu ta là các biến thể có trong văn bản của cụm từ gốc ấy. Biến thể được tạo ra bởi 1 trong 3 hành động : Kết hợp (coordination), hoán vị (permutation) và chèn từ (insertion). Tương ứng 3 hành động này là 3 loại siêu luật biến hóa. Các ví dụ minh họa sau đây sẽ cung cấp cái nhìn cụ thể về những xử lý vừa nêu. Ví dụ 4.20 : Siêu luật biến hóa kết hợp (coordination) Siêu luật {Mrule Coo(X1ÆX2X3X4)=X1ÆX2C5X6X3X4} thực hiện hành động kết hợp (Coo). Nó nhận vào luật {X1ÆX2X3X4} có nghĩa là cụm từ gốc X1 gồm 3 từ là X2,X3 và X4. Nó cho ra luật {X1ÆX2C5X6X3X4} có nghĩa là biến thể phát sinh ra có thêm 1 liên từ (conjunction) C5 theo sau bởi từ X6 so với cụm từ gốc. Khi ta áp dụng siêu luật này lên cụm từ gốc “InflamatoryX2 jointX3 deseaseX4”, nó sẽ nhận biết cụm từ “InflamatoryX2 andC5 erosiveX6 jointX3 deseaseX4” là một biến thể của cụm từ gốc. Trang 60 Ví dụ 4.21 : Siêu luật hoán vị (permutation) Siêu luật {Mrule Per(X1ÆX2X3X4)=X1ÆX4X5X6X7X2X3} thực hiện hành động hoán vị (Per). Nó nhận vào luật {X1ÆX2X3X4} có nghĩa là cụm từ gốc X1 gồm 3 từ là X2,X3 và X4. Nó cho ra luật { X1ÆX4X5X6X7X2X3} có nghĩa là biến thể phát sinh ra có thêm 3 từ (X5, X6 và X7) so với cụm từ gốc và X4 vốn đứng cuối bị hoán vị lên vị trí đầu tiên. Khi ta áp dụng siêu luật này lên cụm từ gốc “NervousX2 systemX3 deseaseX4”, nó sẽ nhận biết cụm từ “DeseaseX4 ofX5 theX6 centralX7 nervousX2 systemX3” là một biến thể của cụm từ gốc. Ví dụ 4.22 : Siêu luật chèn từ (Insertion) Siêu luật {Mrule Ins(X1ÆX2X3X4)=X1ÆX2X5X3X4} thực hiện hành động chèn từ (Ins). Nó nhận vào luật {X1ÆX2X3X4} có nghĩa là cụm từ gốc X1 gồm 3 từ là X1,X2 và X3. Nó cho ra luật { X1Æ X2X5X3X4} có nghĩa là biến thể phát sinh ra có thêm 1 từ (X5) so với cụm từ gốc. Khi ta áp dụng siêu luật này lên cụm từ gốc “ImpairedX2 glucoseX3 tolerenceX4”, nó sẽ nhận biết cụm từ “ImpairedX2 intravenousX5 glucoseX3 tolerenceX4” là một biến thể của cụm từ gốc. Hàng loạt ví dụ khác về siêu luật được trình bày trong [19]. 4.3.4.3 Sàng lọc biến thể Tuy nhiên các siêu luật này có thể cho ra biến thể khôn lường nên độ chính xác chưa cao. [14, 13] đề xuất rằng bên cạnh siêu luật biến hóa như [19] đã làm, cần có thêm siêu luật sàng lọc (filtering meta-rule) để sàng lọc bỏ các kết quả sai của siêu luật biến hóa. Siêu luật sàng lọc gồm hai loại : 4.3.4.3.1 Siêu luật sàng lọc âm Các biến thể thỏa siêu luật sàng lọc âm thì xem như kết quả sai và bị bỏ đi. Ví dụ 4.23 : Siêu luật sàng lọc âm Trang 61 Mrule Nins{X1ÆX2X3}=X1ÆX2{X6=Pu7+P8}X9X3 = ‘of’ Siêu luật này không chấp nhận thêm vào giữa cụm từ có 2 từ (X2 và X3) một từ X6 mà là 1 dấu câu (Pu7=punctuation mark) hoặc một giới từ ‘of’ (P8 = preposition). Ví dụ như với cụm từ gốc “Information System” thì biến thể “Information of nervous system” là một biến thể sai. 4.3.4.3.2 Siêu luật sàng lọc dương Các biến thể cho ra mà không thỏa bất kỳ Siêu luật sàng lọc dương nào thì xem là sai và bị bỏ đi. Ví dụ 4.24 : Siêu luật sàng lọc dương Mrule PPer{X1ÆX2X3}=X1ÆX3X4X5X2 = P Siêu luật này đòi hỏi trong 2 từ thêm vào một cụm từ, từ đầu tiên phải là một giới từ. Ví dụ như “lung injury” Æ “injury in left lung” Cách tìm biến thể của [19, 14, 13] giữ nguyên nội dung các từ vốn có trong cụm từ gốc. [32] nhận xét cách làm ấy là chưa đủ và đề xuất kết hợp sử dụng các tài nguyên ngôn ngữ để thay thế các từ vốn có trong cụm từ gốc bằng biến thể hình thái hay ngữ nghĩa của nó nhằm phát hiện một lượng biến thể phong phú hơn. Công trình [21] đề xuất một hình thức luật đơn giản hơn thay vì dùng siêu luật. Các tác giả gọi những luật này là khuôn mẫu (template). Mỗi khuôn mẫu bao gồm biểu thức cho cụm từ gốc và các biểu thức cho các biến thể ứng viên. Dưới đây là một số ví dụ về khuôn mẫu. Ví dụ 4.25 N1 & N2 A3 N+ | Candidate1=N2A3N+4 | Candidate2=N1A3N+4 (Vd: “function or surface antigenic profile” Æ “surface antigenic profile” / “function antigenic profile”) N+1(A+)2A3&A4 | Candidate1=N+1(A+)2A3 | Candidate2= N+1(A+)2A4 Trang 62 (Vd: RNA polymerases II and III Æ RNA polymerasis II / RNA polymerasis III) Trong [30], tác giả nhận xét hệ thống [21] chỉ phát sinh biến thể qua 1 cấp, nghĩa là chỉ có biến thể của cụm từ gốc. [30] đề xuất áp dụng khuôn mẫu 2 cấp liên tiếp để cho ra biến thể của biến thể, nhờ đó kết quả phong phú và đầy đủ hơn. Hướng tiếp cận này không đòi hỏi tài nguyên ngôn ngữ đồ sộ, lại có tính uyển chuyển vì có thể hiệu chỉnh bộ luật cho đến khi đạt kết quả mong muốn. Hướng này cũng tập trung trên biến thể ngữ pháp – loại biến thể mà luận văn nhắm đến. Vì vậy luận văn sẽ vận dụng hướng tiếp cận này, nhưng kèm theo những điều chỉnh, bổ sung cần thiết cho phù hợp với tiếng Việt và mục tiêu lập chỉ mục của đề tài. Phần tiếp theo sẽ trình bày giải pháp phát sinh biến thể mà luận văn đề xuất. Trong các công trình vừa nêu, luật dùng trong phát sinh được gọi bởi nhiều tên tùy theo tác giả công trình (luật, siêu luật, khuôn mẫu…), nhưng để thống nhất, từ đây trong phần trình bày của mình luận văn xin gọi chung là luật. 4.4 Một giải pháp phát sinh biến thể cho cụm danh từ tiếng Việt 4.4.1 Chiến lược phát sinh biến thể Luận văn vận dụng hướng tiếp cận phát sinh biến thể bằng luật và tập trung phát sinh biến thể ngữ pháp. Tuy nhiên cần phải có một giải pháp phù hợp với đặc thù của tiếng Việt và phù hợp với mục tiêu là phát sinh biến thể để phục vụ lập chỉ mục trên khái niệm. Để đạt được điều ấy, luận văn đề ra một chiến lược riêng cho việc phát sinh biến thể cụm từ tiếng Việt. Trước hết, việc phát sinh biến thể ngữ pháp phải dựa trên tri thức về cấu trúc ngữ pháp của cụm từ gốc (thay vì dựa trên cụm từ không cấu trúc như [19]). Tri thức này có được nhờ công đoạn cấu trúc hóa cụm danh từ (trình bày trong chương 3). Sử dụng cấu trúc ngữ pháp của cụm từ gốc, ta có thể kiểm soát được biến thể phát sinh ra. Do đó luận văn không cần thực hiện bước sàng lọc biến thể như [19]. Trang 63 Ngoài ra, luận văn có một nhận xét như sau : Xét về cấu trúc ngữ pháp của cụm từ thì chuỗi định danh khái niệm trong Ontology luôn đơn giản gọn nhẹ vì nó là tên của chỉ một khái niệm đơn, nhưng cụm danh từ trong tài liệu thì thường có cấu trúc lồng ghép, kết hợp phức tạp. Chính khác biệt này gây khó khăn cho xử lý so khớp (như đã đề cập trong 4.1). Do đó biến thể mà luận văn phát sinh ra phải là những thành phần đơn hoặc giản lược của cụm từ gốc trong tài liệu. Điều này nhằm rút ngắn khác biệt biệt giữa cụm từ phức tạp trong tài liệu với cụm từ đơn giản trong định danh khái niệm. Nhờ đó so khớp có dùng thêm biến thể sẽ khắc phục những khó khăn trong so khớp thông thường chỉ dùng cụm từ gốc. Thế nhưng các thao tác tạo nên biến thể do [19] đề xuất (gồm kết hợp, hoán vị và chèn từ) hầu hết đều làm tăng tính phức tạp của cụm từ gốc nên luận văn đề xuất một tập thao tác khác cho phù hợp với chiến lược phát sinh của mình : - Thao tác phân phối : Trong cụm từ gốc nếu có nhiều thành phần song song thì chúng sẽ được tách ra từng thành phần riêng, mỗi thành phần riêng là một biến thể. Ví dụ cụ thể sẽ được nêu khi trình bày về bộ luật phân phối ở phần sau trong chương này - Thao tác hoán vị : Thao tác tác này giữ nguyên ý tưởng đề xuất bởi [19]. - Thao tác tinh giản : Từ 1 đến 2 điều biến tố trong cụm danh từ gốc sẽ bị bỏ đi để tạo thành biến thể, danh từ trung tâm không được phép tinh giản. 4.4.2 Bộ luật phát sinh biến thể Bộ luật phát sinh biến thể dùng trong luận văn được tác giả xây dựng dựa trên những cơ sở và điều kiện sau đây : - Kiến thức tích lũy của tác giả về tiếng Việt qua thời gian nghiên cứu và hướng dẫn các luận văn của sinh viên trên bài toán Xử lý Ngôn ngữ tự nhiên phục vụ Tìm kiếm Thông tin (NLP for IR). Trang 64 - Các lý thuyết về ngữ pháp trong cụm danh từ tiếng Việt được trình bày chi tiết trên nhiều khía cạnh trong các tác phẩm [16], [31] và [40]. - Sự giúp đỡ tận tình (cung cấp tài liệu, giảng giải, tư vấn, đánh giá dữ liệu…) từ hai chuyên gia ngôn ngữ học của trường Đại học Khoa học Xã hội và Nhân văn : TS.Lê Khắc Cường và TS. Trần Thủy Vịnh. Bộ luật này chia làm 3 nhóm ứng với 3 thao tác phát sinh biến thể đã nêu tại 4.4.1. Biến thể được phát sinh qua 3 cấp theo kịch bản sau : - Cấp 1: Luật phân phối tác động lên tập cụm từ gốc R cho ra tập biến thể F1. - Cấp 2: Luật tinh giản tác động lên R ∪ F1 cho ra tập biến thể F2. - Cấp 3: Luật hoán vị tác động lên R ∪ F1 ∪ F2 cho ra tập biến thể F3. - Kết quả cuối cùng tham gia lập chỉ mục sẽ là : R ∪ F1 ∪ F2 ∪ F3 - Vì 2 cụm từ gốc khác nhau có thể phát sinh ra cùng biến thể (chẳng hạn khi luật tinh giản đã giản lược đi phần khác nhau giữa 2 cụm từ gốc), nên sau cùng bước khử trùng được thực hiện để lọai bỏ hết trường hợp trùng lắp. Biến thể được phát sinh ra sẽ cùng với cụm từ gốc tham gia so khớp với định danh khái niệm trong Ontology (chương 5). Trong việc so khớp này, độ quan trọng của hầu hết biến thể không bằng độ quan trọng của cụm từ gốc. Không những vậy, các biến thể khác nhau cũng có độ quan trọng khác nhau (biến thể càng liên quan với cụm từ gốc thì có độ quan trọng càng cao, biến thể càng xa rời cụm từ gốc – chẳng hạn biến thể của biến thể – thì sẽ có độ quan trọng càng thấp). Dễ thấy các biến thể sinh ra bởi cùng một luật thì có độ liên quan như nhau với cụm từ gốc. Do đó luận văn gán cho mỗi luật một trọng số (tính bằng phần trăm) để dễ dàng tự động tính độ liên quan của biến thể với cụm từ gốc khi phát sinh theo công thức (4.1) sau : Độ liên quan của 1 biến thể = Điểm của cha trực tiếp * Trọng số luật sử dụng (4.1) 4.4.2.1 Nhóm luật phân phối Cụm danh từ có thể có một đầu tố và nhiều điều biến tố, các thành tố này đều có thể Trang 65 được tạo nên bởi nhiều thành phần song song. Các ví dụ sau đây minh họa điều đó. Ví dụ 4.26 : Cụm danh từ “Nguyên nhân và triệu chứng của chứng đột quỵ” có danh từ trung tâm mang 2 thành phần song song liên kết nhau bởi liên từ “và”. Bảng 4-1 : Cấu trúc cụm từ “Nguyên nhân và triệu chứng của chứng đột quỵ” Danh từ trung tâm Ngữ sở hữu Nguyên nhân Và Triệu chứng Của chứng đột quỵ Ví dụ 4.27 : Cụm danh từ “Viêm loét ở dạ dày hoặc thực quản” có trạng ngữ nơi chốn mang 2 thành phần song song liên kết nhau bởi liên từ “hoặc”. Bảng 4-2 : Cấu trúc cụm từ “Viêm loét ở dạ dày hoặc thực quản” Danh từ trung tâm Trạng ngữ nơi chốn Viêm loét Ở Dạ dày Hoặc Ở Thực quản Ví dụ 4.28 : Cụm danh từ “Chứng choáng do huyết khối hay mỡ máu ở người trung niên và người già khi ẩn sâu hoặc phát tác” có trạng ngữ nguyên nhân mang hai thành phần song song nối bởi liên từ “hay”, có trạng ngữ nơi chốn mang 2 thành phần song song nối bởi liên từ “và”, và có trạng ngữ thời gian (dạng 2) mang ngữ động từ gồm 2 thành phần song song nối bởi liên từ “hoặc” Bảng 4-3 : Cấu trúc cụm từ “Chứng choáng do huyết khối hay mỡ máu ở người trung niên và người già khi ẩn sâu hoặc phát tác” Trạng ngữ thời gian dạng 2 Danh từ trung tâm Trạng ngữ nguyên nhân Trạng ngữ nơi chốn Trạng từ chỉ thời gian Ngữ động từ Chứng choáng Do huyết khối Hay Do mỡ máu Ở Người trung niên Và Ở Người già Khi Ẩn sâu Hoặc Phát tác Trang 66 Luật phân phối giúp tách n thành phần song song này thành n thành phần đơn và tạo nên n biến thể. Trong phạm vi của luận văn, việc phân phối được thực hiện trên các thành phần song song của từ 2 đến 3 thành tố. Cách hoạt động của luật phân phối trên 2 thành tố được mô tả trong hình 4-1 dưới đây. Cách hoạt động của luật phân phối trên 3 thành tố cũng tương tự, nhưng số lượng biến thể nhiều hơn do số lượng thành tố tham gia phân phối nhiều hơn. Phân phối trên 2 thành tố L R P1 P2 … … … Pn Q1 Q2 … … … Qm Các thành phần song song bên trong thành tố (nối nhau bởi liên từ) Thành tố thứ nhất tham gia phân phối Thành tố thứ hai tham gia phân phối Phân phối cho ra các biến thể Phần còn lại bên trái cụm từ (nếu có) Phần còn lại bên phải cụm từ (nếu có) L R P1 QmL R P1 Q1 L R Pi QmL R Pi Q1 L R Pn QmL R Pn Q1 L R P1 Qk L R Pi Qk L R Pn Qk CỤM TỪ GỐC Hình 4-1 : Cách phát sinh biến thể của luật phân phối hai thành tố Ví dụ 4.29 : Xét luật phân phối trên 2 thành tố là danh từ trung tâm và ngữ sở hữu, khi áp dụng cho cụm từ “Nguyên nhân và triệu chứng của chứng đột quỵ” (cấu trúc cụm từ mô tả trong bảng 4-1) sẽ phát sinh được 2 biến thể là “Nguyên nhân của chứng đột quỵ” và “Triệu chứng của chứng đột quỵ”. Trang 67 Ví dụ 4.30 : Xét luật phân phối trên 2 thành tố là danh từ trung tâm và trạng ngữ nơi chốn, khi áp dụng cho cụm từ “Viêm loét ở dạ dày hoặc thực quản” (cấu trúc cụm từ mô tả trong bảng 4-2) sẽ phát sinh được 2 biến thể là “Viêm loét ở dạ dày” và “Viêm loét ở thực quản”. Ví dụ 4.31 : Xét luật phân phối trên 3 thành tố là trạng ngữ nơi chốn, trạng ngữ nguyên nhân và ngữ động từ trong trạng ngữ thời gian, khi áp dụng cho cụm từ “Chứng choáng do huyết khối hay mỡ máu ở người trung niên và người già khi ẩn sâu hoặc phát tác” (cấu trúc cụm từ mô tả trong bảng 4-3), sẽ phát sinh được 8 biến thể sau : - “Chứng choáng do huyết khối ở người trung niên khi ẩn sâu” - “Chứng choáng do huyết khối ở người trung niên khi phát tác” - “Chứng choáng do huyết khối ở người già khi ẩn sâu” - “Chứng choáng do huyết khối ở người già khi phát tác” - “Chứng choáng do mỡ máu ở người trung niên khi ẩn sâu” - “Chứng choáng do mỡ máu ở người trung niên khi phát tác” - “Chứng choáng do mỡ máu ở người già khi ẩn sâu” - “Chứng choáng do mỡ máu ở người già khi phát tác” 4.4.2.2 Nhóm luật hoán vị Luật hoán vị thực hiện đảo vị trí 2 thành tố trong cụm từ gốc khi không có thành tố nào khác xen giữa chúng, đồng thời lược bỏ một số bộ phận (nếu cần) để cho ra cụm từ mới. Luật hoán vị không dựa trên cơ sở vững chắc như luật phân phối, chúng chủ yếu dựa trên heuristic. Do đó luật hoán vị có trọng số không cao và chúng cần điều kiện kèm theo để hạn chế trường hợp sai. Sau đây là ví dụ minh họa một luật hoán vị. Ví dụ 4.32 : Xét luật hoán vị danh từ trung tâm và ngữ động từ. Thành phần bị hoán vị là danh từ trung tâm và ngữ động từ. Thành phần bị lược bỏ là động từ Trang 68 và trạng ngữ của ngữ động từ. Điều kiện áp dụng là khi động từ là một trong các từ : có, chứa, mang, bị, tiết, mắc, mắc phải, nhiễm, bị nhiễm, nhiễm phải. R Danh từ trung tâm Động từ Ngữ động từ Hoán vị cho ra biến thể Phần còn lại bên phải cụm từ (nếu có) CỤM TỪ GỐC Túc từ R Danh từ trung tâm Ngữ động từ Túc từ { có, chứa, mang, bị, tiết, mắc, mắc phải, nhiễm, bị nhiễm, nhiễm phải } Động từ ∈ ĐIỀU KIỆN THÀNH PHẦN LƯỢC BỎ Động từ Hình 4-2 : Cách phát sinh biến thể của luật hoán vị danh từ trung tâm và ngữ động từ Bảng 4-4 : Một số trường hợp áp dụng luật hoán vị danh từ trung tâm và ngữ động từ (phần chữ in đậm là động từ bị lược bỏ bởi luật). Cụm từ gốc Biến thể Thận có sỏi Sỏi thận Tế bào bị biến dạng Biến dạng tế bào Bao tử tiết acid Acid bao tử Máu mang Oxy Oxy máu Máu nhiễm mỡ Mỡ máu Không khí chứa vi khuẩn Vi khuẩn không khí Não bị khối u Khối u não Phổi bị nhiễm lao Lao phổi Trang 69 4.4.2.3 Nhóm luật tinh giản Luật tinh giản thực hiện giản lược từ 1 đến 2 điều biến tố trong cụm từ gốc để cho ra biến thể (không được giản lược danh từ trung tâm). Vì các điều biến tố cung cấp thêm thông tin chi tiết bổ nghĩa cho cụm từ, nên việc giản lược bớt điều biến tố đồng nghĩa với bỏ bớt thông tin chi tiết và nâng nội dung cụm từ lên mức tổng quát hơn. Do vậy các biến thể cho ra là các trường hợp tổng quát hóa của cụm từ gốc. Hình 4-3 sau đây mô tả cách hoạt động của luật tinh giản 1 thành tố và 2 thành tố. Danh từ trung tâm Tinh giản cho ra biến thể Các điều biến tố CỤM TỪ GỐC Tinh giản 1 thành tố : M1 MnMk+1MkMk-1 Thành phần bị tinh giản Danh từ trung tâm M1 MnMk+1Mk-1 Danh từ TT CỤM TỪ GỐC M1 MnMi+1MiMi-1 Thành phần bị tinh giản Tinh giản 2 thành tố : Mk+1MkMk-1 Tinh giản cho ra biến thể M1 Mi+1Mi-1 Mk+1Mk-1Danh từ TT Mn Hình 4-3 : Cách hoạt động của luật tinh giản 1 thành tố và 2 thành tố Sau đây là một số ví dụ về luật tinh giản. Ví dụ 4.33 : Xét luật tinh giản 1 thành tố là trạng ngữ thời gian dạng 1. Khi áp dụng vào cụm từ “Bài tập thể dục vào buổi sángtrangNguThoiGian1 cho người già”, luật này sẽ cho ra biến thể “Bài tập thể dục cho người già” (trạng ngữ thời gian Trang 70 dạng 1 bị lược bỏ là phần in nghiêng trong cụm từ gốc). Dễ thấy biến thể này là trường hợp tổng quát hóa của cụm từ gốc (trong các hình thức tập thể dục cho người già thì có hình thức tập vào buổi sáng) Ví dụ 4.34 : Xét luật tinh giản 2 thành tố là ngữ tính từ và trạng ngữ chỉ Tuy thành tố trong cụm danh từ có thể lược bỏ vô điều kiện để au đây là một số ví dụ nguyên nhân nguồn gốc. Khi áp dụng vào cụm từ “Melatonin dư thừanguTinhTu từ tuyến yêntrangNguNguonGoc trong não bệnh nhân”, luật này sẽ cho ra biến thể “Melatonin trong não bệnh nhân” (thành phần bị lược bỏ được in nghiêng trong cụm từ gốc). nhiên, trong khi các cho ra biến thể tổng quát hóa, thì các thành phần nằm trong thành tố khi bị lược bỏ tùy tiện sẽ để lại cụm từ tối nghĩa. Do vậy bên cạnh những luật tinh giản thành tố không điều kiện còn có các luật tinh giản thành phần trong thành tố có điều kiện. Hình 4-4 dưới đây mô tả cách hoạt động của luật tinh giản thành phần trong thành tố có điều kiện kèm theo. ĐIỀU KIỆN : E i ∈ {giá trị 1, …, giá trị n } Hình 4-4 : Cách hoạt động của luật tinh giản thành phần trong thành tố S R Tinh giản cho ra biến thể Phần còn lại bên phải cụm từ (nếu có) CỤM TỪ GỐC Thành tố có chứa thành phần bị lược bỏ L E1 E1i-1 Ei Ei+1 En… … Phần còn lại bên trái cụm từ (nếu có) Thành phần bị lược bỏ R L E1 E1i-1 Ei+1 En…… …… Trang 71 Ví dụ 4.35 : Xét luật tinh giản động từ của ngữ động từ. Điều kiện áp dụng luật này là khi động từ thuộc danh sách : chữa, điều trị, chữa trị, cứu chữa, chống, phòng, ngừa, phòng ngừa, phòng chống. Bảng 4-5 dưới đây trình bày một số trường hợp vận dụng luật này (phần in đậm là động từ bị lược bỏ). Bảng 4-5 : Một số trường hợp áp dụng luật tinh giản động từ của ngữ động từ Cụm từ gốc Biến thể Thuốc chữa tim mạch Thuốc tim mạch Bác sĩ điều trị xương khớp Bác sĩ xương khớp Đợt tiêm chủng phòng uốn ván Đợt tiêm chủng uốn ván Thuốc chống say sóng Thuốc say sóng Liệu pháp chữa trị ung thư Liệu pháp ung thư Ví dụ 4.35 : Xét luật tinh giản giới từ nơi chốn. Điều kiện áp dụng luật này là khi giới từ ấy thuộc danh sách : ở, trong, tại, ở trong, ở tại, ngay tại, ngay ở, trên, ở trên, ngay trên, bên trong, giữa. Tuy nhiên độ chính xác của luật này khiến nó chỉ có trọng số 70%. Bảng dưới đây trình bày một số trường hợp vận dụng luật này (phần in đậm là giới từ nơi chốn bị lược bỏ). Bảng 4-6 : Một số trường hợp áp dụng luật tinh giản giới từ nơi chốn Cụm từ gốc Biến thể Dị tật ở cột sống do đột biến Dị tật cột sống do đột biến Vi sinh trong thành ruột Vi sinh thành ruột Tổn thương trên niêm mạc Tổn thương niêm mạc Vết loét bên trong dạ dày Vết loét dạ dày Cơn đau giữa lồng ngực Cơn đau lồng ngực Tóm lại, các luật khác nhau cho ra biến thể có độ liên quan cao thấp khác nhau với cụm từ gốc. Nhưng xét tổng thể khi kết hợp cả 3 nhóm luật thì kết quả tốt (chi tiết kết quả thử nghiệm trình bày trong chương 6). Tuy nhiên 2 khâu rút trích cụm danh từ và cấu trúc hóa cụm danh từ không phải chính xác 100% nên đầu vào của khâu Trang 72 phát sinh biến thể tồn tại những cụm từ gốc sai hoặc cụm từ gốc đúng nhưng bị cấu trúc hóa sai, dẫn đến tồn tại những biến thể sai ở đầu ra. Điều này không đáng ngại vì đến tác vụ so khớp (chương 5), các biến thể vô nghĩa sớm muộn gì cũng bị lọai vì không so khớp được với định danh khái niệm nào cả. Sau khi phát sinh biến thể, các biến thể được gộp chung với các cụm từ gốc (nhưng dĩ nhiên điểm của hầu hết biến thể không phải điểm tuyệt đối như của cụm từ gốc). Lúc đó, tài liệu được biểu diễn bằng một tập cụm từ (bao gồm các cụm từ gốc lẫn biến thể của chúng). Tập cụm từ này là dữ liệu đầu vào cho tác vụ ánh xạ tài liệu vào Ontology được trình bày trong chương 5 sau đây.

Các file đính kèm theo tài liệu này:

  • pdf7.pdf
  • pdf10_3.pdf
  • pdf11.pdf
  • pdf12.pdf
  • pdf1_2.pdf
  • pdf2_2.pdf
  • pdf3.pdf
  • pdf4.pdf
  • pdf5_2.pdf
  • pdf6_4.pdf
  • pdf8.pdf
  • pdf9.pdf
Tài liệu liên quan