Luận văn Xây dựng hệ tìm kiếm thông tin theo hướng tiếp cận ngữ nghĩa (conceptual indexing)

XÂY DỰNG HỆ TÌM KIẾM THÔNG TIN THEO HƯỚNG TIẾP CẬN NGỮ NGHĨA (CONCEPTUAL INDEXING) LÊ THÚY NGỌC Trang nhan đề Lời cảm ơn Mục lục Mục lục hình Mục lục bảng Chương 1: Tổng quan Chương 2: Giới thiệu và khảo sát hệ thống tìm kiếm thông tin. Chương 3: CIRS-Hệ thống tìm kiếm thông tin dựa trên khái niệm. Chương 4: Các quá trình quan trọng CIRS. Chương 5: Nguồn tri thức cơ sở dữ liệu và công cụ. Chương 6: Hiện thực và kết quả. Chương 7: Kết luận và hướng phát triển Tài liệu tham khảo Phụ lục 1 Mục lục Chương 1. Tổng quan . 7 1.1 Bối cảnh hiện tại . 7 1.2 Mục tiêu, giới hạn và đóng góp của luận văn 9 1.2.1 Mục tiêu luận văn . 9 1.2.2 Giới hạn luận văn 10 1.2.3 Đóng góp của luận văn . 10 1.3 Bố cục của báo cáo . 11 Chương 2. Giới thiệu và khảo sát hệ thống tìm kiếm thông tin 13 2.1 Giới thiệu chung về hệ thống tìm kiếm thông tin 13 2.1.1 Định nghĩa về hệ thống tìm kiếm thông tin 13 2.1.2 Mục tiêu và chức năng của một hệ thống tìm kiếm thông tin . 14 2.1.3 Kiến trúc chung của một hệ thống tìm kiếm thông tin . 14 2.1.4 Phân loại hệ thống tìm kiếm thông tin 15 2.1.5 Tiêu chí để đánh giá một hệ thống tìm kiếm thông tin . 16 2.2 Hệ thống tìm kiếm dựa trên từ khóa 18 2.2.1 Bộ thu thập thông tin – Robot . 19 2.2.2 Bộ lập chỉ mục – Index . 19 2.2.3 Bộ truy vấn (bộ tìm kiếm) . 19 2.3 Hệ thống tìm kiếm dựa trên khái niệm . 20 2.3.1 Bộ thu thập thông tin 22 2.3.2 Bộ lập chỉ mục khái niệm . 22 Quy trình chung của rút trích khái niệm . 23 2.3.3 Bộ truy vấn 24 2.4 Khảo sát hiện trạng . 25 2.4.1 Khảo sát về các phương pháp lập chỉ mục cho các tài liệu: . 28 2.4.2 Khảo sát về các phương pháp mở rộng khái niệm 33 2.4.3 Khảo sát về các phương pháp rút trích khái niệm . 35 2.4.3.1 Rút trích từ chỉ mục từ các tài liệu 35 2.4.3.2 So khớp các cụm từ chỉ mục với nguồn tri thức 37 2.4.4 So sánh cách biểu diễn tri thức với cách biểu diễn tri thức của hệ thống khác 38 Chương 3. CIRS - Hệ thống tìm kiếm thông tin dựa trên khái niệm 40 2 3.1 Kiến trúc của CIRS 40 3.2 Các bộ phận cấu thành nên CIRS . 43 3.2.1 Bộ lập chỉ mục khái niệm . 43 3.2.2 Bộ truy vấn 46 Chương 4. Các quá trình quan trọng trong CIRS . 48 4.1 Rút trích các khái niệm từ tập các tài liệu và câu truy vấn. . 48 4.2 Phân loại tập khái niệm của các tài liệu . 50 4.2.1 Mục tiêu, ý nghĩa, cách tiếp cận của việc phân loại khái niệm 50 4.2.2 Các thuật ngữ 52 4.2.2.1 Độ dài khái niệm: 52 4.2.2.2 n-khái niệm, khái niệm ngắn, khái niệm dài, 53 4.2.3 Quy trình phân loại khái niệm 54 4.2.3.1 Giai đoạn 1: chuẩn hóa. . 55 4.2.3.2 Giai đoạn 2: loại bỏ các tag . 56 4.2.3.3 Giai đoạn 3: lấy thông tin về các khái niệm và vị trí . 59 4.2.3.4 Giai đoạn 4: tính độ dài khái niệm 61 4.2.3.5 Giai đoạn 5: phân loại khái niệm . 62 4.3 Mở rộng tập khái niệm của các tài liệu và câu truy vấn . 63 4.3.1 Mục đích của việc mở rộng khái niệm 63 4.3.2 Cách tiếp cận về mở rộng khái niệm của CIRS 63 4.3.3 Các mối quan hệ được hệ thống CIRS sử dụng để mở rộng khái niệm 63 4.3.4 Quy trình mở rộng khái niệm trong hệ thống CIRS . 66 4.3.4.1 Giai đoạn 1: rút trích các cặp khái niệm có quan hệ với nhau 67 4.3.4.2 Giai đoạn 2: mở rộng khái niệm 67 4.4 Lập chỉ mục theo khái niệm trong CIRS 69 4.4.1 Giai đoạn 1: tạo vector chỉ mục 70 4.4.2 Giai đoạn 2: tạo ma trận nghịch đảo . 72 4.5 So trùng trong CIRS . 73 4.6 Đánh giá hiệu quả của CIRS 75 Chương 5. Nguồn tri thức, cơ sở dữ liệu và công cụ 76 5.1 UMLS Metathesaurus 76 5.1.1 Các thành phần trong UMLS Metathesaurus: . 77 3 5.1.1.1 Khái niệm: . 77 5.1.1.2 Mối quan hệ . 80 5.1.2 Các ngôn ngữ mà UMLS Metathesaurus hỗ trợ . 81 5.1.3 Các tập tin định dạng RRF . 82 5.2 ImageCLEFmed . 86 5.2.1 Tổng quan về ImageCLEFmed . 86 5.2.2 ImageCLEFmed 2007 . 87 5.2.2.1 Những bộ dữ liệu ảnh trong ImageCLEFmed 2007 87 5.2.2.2 Kích thước các tập dữ liệu trong ImageCLEFmed 2007 . 88 5.2.2.3 Hệ thống tập tin trong ImageCLEFmed 2007 . 89 5.3 MetaMap 92 5.3.1 Tổng quan . 92 5.3.2 Quá trình rút trích các khái niệm trong các tài liệu của MetaMap . 92 5.4 XIOTA . 95 5.4.1 Tổng quan về XIOTA . 95 5.4.2 Hệ thống các module trong XIOTA . 96 5.4.2.1 Conversion . 96 5.4.2.2 Indexing . 96 5.4.2.3 Querying 97 5.4.2.4 Mining . 97 Chương 6. Hiện thực và kết quả . 99 6.1 Một số module trong chương trình . 99 6.2 Thử nghiệm. . 101 6.2.1 Mục tiêu thử nghiệm . 101 6.2.2 Cách thức thử nghiệm . 101 6.3 Kết quả và phân tích kết quả 102 6.3.1 Các kết quả thử nghiệm trên từ khóa, các loại khái niệm, các mô hình . 102 6.3.2 Các kết quả thử nghiệm về mở rộng khái niệm 107 6.3.2.1 So sánh việc sử dụng các mối quan hệ khác nhau để mở rộng tài liệu, khi cùng sử dụng một mối quan hệ để mở rộng câu truy vấn . 108 6.3.2.2 So sánh việc sử dụng các mối quan hệ khác nhau để mở rộng câu truy vấn, khi cùng sử dụng một mối quan hệ để mở rộng tài liệu . 114 6.4 So sánh kết quả với các hệ thống khác . 120 4 6.4.1 So sánh kết quả với hệ thống tìm kiếm thông tin dựa trên từ khóa 120 6.4.2 So sánh kết quả với hệ thống tìm kiếm dựa trên khái niệm sử dụng mô hình mạng Bayes . 121 6.4.3 So sánh kết quả với hệ thống MIRACLE . 122 Chương 7. Kết luận và hướng phát triển 124 7.1 Kết luận 124 7.2 Hướng phát triển 125 Tài liệu tham khảo 127 Phụ lục: Các kết quả của Module 8 và 9 . 132

23 trang | Chia sẻ: maiphuongtl | Lượt xem: 2392 | Lượt tải: 0Free

Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng hệ tìm kiếm thông tin theo hướng tiếp cận ngữ nghĩa (conceptual indexing), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

76 Chương 5. Nguồn tri thức, cơ sở dữ liệu và công cụ Chương này sẽ giới thiệu về nguồn tri thức, cơ sở dữ liệu và công cụ được sử dụng trong hệ thống CIRS. Cụ thể thể là nguồn tri thức UMLS Metathesaurus [25, 27], cơ sở dữ liệu ImageCLEFmed [51-53] và công cụ MetaMap [46, 49], và XIOTA [50]: • UMLS Metathesaurus: nguồn tri thức chứa các khái niệm trong lĩnh vực y khoa và mối quan hệ giữa các khái niệm đó. • ImageCLEFmed: cơ sở dữ liệu chứa những tài liệu về ảnh và văn bản đa ngôn ngữ trong lĩnh vực y khoa. • MetaMap: công cụ được dùng để hỗ trợ rút trích khái niệm từ các tài liệu và câu truy vấn. • XIOTA: công cụ được dùng để hỗ trợ việc lập chỉ mục và truy vấn thông tin. 5.1 UMLS Metathesaurus UMLS Metathesaurus [25, 27] là nguồn tri thức về lĩnh vực y khoa được sử dụng miễn phí. Nó được thư viện quốc gia về y khoa của Hoa Kỳ thiết kế, tạo ra và duy trì và được cập nhật hàng quỹ. Nó là một cơ sở dữ liệu từ vựng rất lớn, đa mục đích và đa ngôn ngữ. UMLS Metathesaurus chứa đựng thông tin về các khái niệm y khoa và sức khỏe, tên của các khái niệm và các mối quan hệ giữa những khái niệm đó. Nó được xây dựng từ một số lượng lớn các nguồn từ vựng, các từ điển, danh sách các từ quan trọng trong thống kê sức khỏe, chăm sóc sức khỏe, nghiên cứu y khoa…8. Phiên bản UMLS 2006 tập hợp gồm 139 nguồn từ vựng thuộc tri thức y học ở 17 ngôn ngữ khác nhau, gần 1.3 tỉ khái niệm (concept), 135 loại ngữ nghĩa (semantic type) và 54 mối quan hệ 8 77 (relation) giữa các loại ngữ nghĩa. Tri thức UMLS được phép sử dụng miễn phí nhằm phục vụ cho các mục tiêu nghiên cứu hay ứng dụng thực tế. 5.1.1 Các thành phần trong UMLS Metathesaurus: Gồm 2 thành phần chính là khái niệm (concept) và mối quan hệ giữa các khái niệm đó (relation). 5.1.1.1 Khái niệm: UMLS Metathesaurus được tổ chức dưới dạng từng khái niệm. Các khái niệm trong Metathesaurus có nguồn gốc từ nhiều nguồn từ vựng (source vocabulary) khác nhau, chẳng hạn như SNOMED (Thuật ngữ có hệ thống trong y khoa), ICD-10 (Phân loại bệnh nội), DSM-IV (Chẩn đoán và thống kê thông thường), MeSH (Đề mục chủ đề y khoa), … Các nguồn từ vựng này tạo thành một cơ sở dữ liệu phức tạp gồm các khái niệm liên quan đến y sinh ở 17 ngôn ngữ khác nhau (ở phiên bản 2006). UMLS Metathesaurus là liên kết các tên gọi khác nhau của một khái niệm từ nhiều nguồn tài nguyên từ vựng đến cùng một khái niệm chung. Như vậy một khái niệm trong Metathesaurus được xây dựng từ atom, term, và string. Nhiều từ vựng mang cùng một tên thuộc nhiều nguồn khác nhau, và nhiều từ đồng nghĩa được gom lại thành một khái niệm. Mỗi khái niệm sẽ có một tên duy nhất gọi là CUI (Concept Unique Identifier). Các khái niệm sẽ có các thuộc tính (property) đi kèm như: tên gọi của khái niệm, các đặc tính, … Vì vậy, ngoài khái niệm, trong UMLS Metathesaurus còn có atom, term, và string được hiểu như sau : • Atom: là đơn vị cơ bản nhất để có thể cấu thành nên tên của một khái niệm. Atom là một chuỗi chứa tên của một khái niệm trong một nguồn nào đó. Mỗi atom có một định danh duy nhất là AUI (atom unique identifier). 2 tên khác 78 nhau của cùng một sự vật,… trong cùng một nguồn hoặc 2 tên giống hệt nhau trong 2 nguồn khác nhau cũng được xem là các atom khác nhau. • String: biểu diễn cho những atom giống hệt nhau, xuất hiện ở những nguồn khác nhau. Mỗi string sẽ có 1 định danh duy nhất là SUI (String unique identifer). Như vậy có thể nhiều AUI sẽ tạo nên 1 SUI. • Term: là tập hợp tất cả các SUI là biến thể của nhau. Mỗi term có 1 định danh duy nhât là LUI (lexical unique identifier). Như vậy nhiều SUI là biến thể của nhau tạo thành 1 term. • Concept (khái niệm): tập hợp những term đồng nghĩa, hoặc những term khác nhau từ các ngôn ngữ khác nhau nhưng mang cùng 1 nghĩa. Mỗi khái niệm có một định danh duy nhất gọi là CUI (Concept unique identifier). Như vậy nhiều LUI tạo thành 1 CUI. Trong trường hợp một chuỗi có nhiều ý nghĩa (từ đa nghĩa) thì một SUI sẽ có thể có nhiều hơn một CUI. Mỗi SUI chỉ tương ứng với một LUI, và do đó, một LUI cũng có thể có nhiều hơn một CUI trong trường hợp này. Mối liên hệ giữ CUI, LUI, SUI, và AUI được minh họa trong hình 5.1. Để hiểu rõ hơn về mối quan hệ này, ta xét ví dụ được trình bày trong hình 5.2. 79 Hình 5.1 Mối quan hệ giữa CUI, LUI, SUI và AUI Hình 5.2 Ví dụ về mối quan hệ CUI, LUI, SUI và AUI 2 AUI là A0000001 và A0000002 đều là chuỗi “headache”, nhưng một AUI từ nguồn 1 và một AUI từ nguồn 2. Do 2 AUI này có chuỗi giống nhau nên đều được đại 80 diện bởi chuỗi SUI0000001, tức là chuỗi “headache”. Tương tự như thế, ta có 2 AUI là A0000003 và A0000004 từ 2 nguồn khác nhau đều được biểu diễn bởi chuỗi SUI0000002, tức là chuỗi “Headache”. Do 2 chuỗi “headache” và “Headache” là những biến thể của nhau, nên SUI0000001 và SUI0000002 đều được đại diện bởi 1 LUI duy nhất là LUI0000001. LUI0000002 là biểu diễn của chuỗi SUI0000003, chuỗi “Cephagia” từ nguồn 3, mà chuỗi “Cephagia” lại đồng nghĩa với “headache”, nhưng ở 2 ngôn ngữ khác nhau. Như vậy LUI0000001 và LUI0000002 sẽ được gom lại tạo thành một khái niệm duy nhất là CUI0000001 5.1.1.2 Mối quan hệ Mối quan hệ được nói tới trong UMLS Metathesaurus chính là mối quan hệ giữa các khái niệm. Cũng giống như khái niệm, các mối quan hệ cũng có các thuộc tính đi kèm với nó như loại mối quan hệ, tên của mối quan hệ, … Một số loại mối quan hệ giữa các khái niệm trong UMLS Metathesaurus: • RB – rộng hơn • RN – hẹp hơn • RL – tương đương • PAR – cha • CHD – con • SIB – anh em, vv … 81 5.1.2 Các ngôn ngữ mà UMLS Metathesaurus hỗ trợ Bảng 5.1 giới thiệu danh sách các ngôn ngữ mà Metathesaurus hỗ trợ. Chủ yếu là tiếng Anh, chiếm 84,2%. Còn lại là các ngôn ngữ khác. Bảng 5.1 Danh sách các ngôn ngữ mà UMLS Metathesaurus hỗ trợ Ngôn ngữ Số chuỗi Phần trăm Tiếng Anh 1,462,202 84.2 % Tiếng Đức 66,381 3.8 % Tiếng Tây Ban Nha 49,664 2.9 % Tiếng Bồ Đào Nha 43,348 2.5 % Tiếng Nga 40,716 2.4 % Tiếng Pháp 33,011 1.9 % Tiếng Phần Lan 20,178 1.2 % Tiếng Ý 14,417 0.8 % Tiếng Đan Mạch 723 < 0.1 % Tiếng Hà Lan 723 < 0.1 % Tiếng Thụy Điển 723 < 0.1 % Tiếng Na Uy 722 < 0.1 % Tiếng Hungary 718 < 0.1 % Tiếng Baxcơ 695 < 0.1 % Tiếng Do Thái 485 < 0.1 % Tổng cộng 1,734,706 100 % 82 5.1.3 Các tập tin định dạng RRF 9 Tất các các tập tin có định dạng RRF đều có tên bắt đầu là MR (Metathesaurus Relational) và có phần mở rộng là .RRF. Nội dung trong các tập tin này đều được sắp xếp theo dòng, ngoại trừ tập tin MRRANK.RRF. Mỗi tập tin RRF có số lượng cột cố định, số lượng dòng thay đổi tùy theo nội dung phiên bản của Metathesaurus. Ở mỗi dòng, các cột dữ liệu được phân cách nhau bởi dấu | và kết thúc bằng dấu |. Nếu cột nào khuyết, vẫn có dấu | để số cột được nhất quán. Thông tin của tất cả các cột trong các tập tin Metathesaurus được mô tả trong tập tin COLS.RRF. Các tập tin RRF trong Metathesaurus được chia làm 4 nhóm thành phần dữ liệu chính và các chỉ mục như sau: • Nhóm thứ nhất: chứa dữ liệu chung về Metathesaurus gồm các thông tin chung về toàn bộ các tập tin trong Metathesaurus, các thông tin về từng thành phần dữ liệu có trong mỗi tập tin đó. • Nhóm thứ hai: chứa khái niệm, tên gọi khái niệm và nguồn của chúng, nhóm này có tập tin duy nhất là MRCONSO.RRF. • Nhóm thứ ba: chứa các thuộc tính, chẳng hạn như thuộc tính định nghĩa của khái niệm, mối quan hệ ngữ nghĩa giữa các khái niệm.... • Nhóm thứ tư: chứa các quan hệ, gồm quan hệ phân cấp giữa các khái niệm, quan hệ đồng xuất hiện. • Nhóm thứ năm: dữ liệu khác về Metathesaurus. 9 83 • Nhóm chỉ mục: chứa chỉ mục. Dưới đây là thông tin về hai tập tin quan trọng nhất • MRCONSO.RRF Đây là tập tin quan trọng nhất của Metathesaurus, chứa toàn bộ thông tin về từng khái niệm trong Metathesaurus. Mỗi dòng trong tập tin là thông tin về một nguyên tử (atom), thông tin này cho biết nguyên tử thuộc về khái niệm nào, nguồn từ vựng nào, từ vựng đó có ngôn ngữ gì, … Bảng 5.2 Định dạng tập tin MRCONSO.RRF Tên cột Mô tả Kiểu dữ liệu CUI Định danh khái niệm char(8) LAT Loại ngôn ngữ của từ vựng char(3) TS Trạng thái từ vựng char(1) LUI Định danh từ vựng char(8) STT Loại chuỗi varchar(20) SUI Định danh chuỗi char(8) ISPREF Trạng thái nguyên tử - được ưa thích (Y) hoặc không (N) char(1) AUI Định danh nguyên tử varchar(9) SAUI Nguồn định danh nguyên tử (tùy chọn) varchar(50) SCUI Nguồn định danh khái niệm (tùy chọn) varchar(8) SDUI Nguồn định danh mô tả (tùy chọn) varchar(50) SAB Tên nguồn viết tắt (SAB). Có hai nguồn: Root Source Abbreviation (RSAB) và Versioned Source Abbreviation (VSAB) – có thêm thông tin về phiên varchar(20) 84 bản. TTY Viết tắt của loại từ vựng trong nguồn từ vựng, ví dụ PN (Metathesaurus Preferred Name) hoặc CD (Clinical Drug). varchar(20) CODE Định danh nguồn có ích nhất (nếu nguồn từ vựng có nhiều hơn một định danh), hoặc định danh nguồn được phát sinh (nếu không có nguồn từ vựng) varchar(50) STR Chuỗi khái niệm varchar(3000) SRL Mức độ hạn chế nguồn integer SUPPRESS Cờ khử nhiễu char(1) CVF Content View Flag integer Ví dụ: C0001175|ENG|P|L0001175|VO|S0010340|Y|A0019182||M0000245|D000163|MSH|PM |D000163|Acquired Immunodeficiency Syndromes|0|N|| C0001175|ENG|P|L0001175|VC|S0354232|Y|A2922342|103845019|62479008||SNOME DCT|SY|62479008|Acquired immunodeficiency syndrome |4|Y|| • MRREL.RRF Mỗi dòng trong tập tin là một quan hệ giữa các khái niệm hoặc nguyên tử. Hướng của quan hệ (REL) đi từ khái niệm hoặc nguyên tử thứ hai (CUI2, AUI2) đến khái niệm hoặc nguyên tử thứ nhất (CUI1, AUI1). Mô tả từng cột cho tập tin MRREL.RRF được nêu trong Bảng 3-7. 85 Bảng 5.3 Định dạng tập tin MRREL.RRF Tên cột Mô tả Kiểu dữ liệu CUI1 Định danh của khái niệm thứ nhất char(8) AUI1 Định danh của nguyên tử thứ nhất char(9) STYPE1 Tên cột định danh chỉ ra đối tượng tham gia trong quan hệ là khái niệm hoặc nguyên tử varchar(50) REL Quan hệ giữa khái niệm hoặc nguyên tử thứ hai với khái niệm hoặc nguyên tử thứ nhất varchar(4) CUI2 Định danh của khái niệm thứ hai char(8) AUI2 Định danh của nguyên tử thứ hai char(9) STYPE2 Tên cột định danh chỉ ra đối tượng tham gia trong quan hệ là khái niệm hoặc nguyên tử varchar(50) RELA Quan hệ varchar(100) RUI Định danh quan hệ varchar(10) SRUI Định danh quan hệ nguồn nếu có varchar(50) SAB varchar(20) SL Nguồn của nhãn quan hệ varchar(20) RG Nhóm quan hệ, sử dụng để chỉ ra tập các mối quan hệ cần xem xét varchar(10) DIR Cờ chỉ hướng nguồn của quan hệ varchar(1) SUPPRESS Cờ khử nhiễu, miền giá trị O, Y, E, N varchar(1) CVF Content View Flag. integer Miền giá trị của thuộc tính REL: RB: quan hệ rộng hơn 86 RN: quan hệ hẹp hơn RO: quan hệ khác RL: quan hệ tương tự PAR: quan hệ là cha CHD: quan hệ là con SIB: quan hệ là anh em Ví dụ: C0002372|A0022284|AUI|RB|C0002371|A0022279|AUI||R01983351||MSH|MSH|||N|| C0002372|A0022284|AUI|SY|C0002372|A0062352|AUI||R18851331||MSH|MSH|||N|| 5.2 ImageCLEFmed 5.2.1 Tổng quan về ImageCLEFmed ImageCLEFmed [51] là một cơ sở dữ liệu chứa những tài liệu về ảnh và văn bản đa ngôn ngữ , là một phận của CLEF (Cross Language Evaluation Forum). Ngôn ngữ được hỗ trợ chính là tiếng Anh, nhưng ngoài ra cũng hỗ trợ các ngôn ngữ khác la tiếng Pháp và tiếng Đức. ImageCLEFmed gồm có 3 thành phần chính: • Các tài liệu: được chia thành các bộ dữ liệu nhỏ hơn. Có 2 loại tài liệu là: - Tập tin ảnh (Image file): chứa những file ảnh. - Tập tin chú giải (Annotation file): ứng với mỗi tập tin ảnh có thể có hoặc không có tập tin chú giải. Trong hệ thống CIRS, mục đích là hỗ trợ tìm kiếm các tập tin văn bản nên chỉ sử dụng đến những tập tin chú giải mà không dùng đến những tập tin ảnh. 87 • Các câu truy vấn: mục đích của câu truy vấn là dùng để kiểm thử. Có tổng cộng 30 câu truy vấn mẫu, mỗi câu truy vấn đều được viết bằng 3 ngôn ngữ: Anh, Pháp, Đức. • Kết quả mẫu: là tập tin lưu trữ hệ thống kết quả mẫu: ứng với 1 câu truy vấn sẽ có những tài liệu nào liên quan. Mục đích của kết quả mẫu là dùng để kiểm thử độ chính xác các hệ thống. Hệ thống CIRS sử dụng ImageCLEFmed 2006 [52] và ImageCLEFmed 2007 [53] mà không sử dụng ImageCLEFmed 2008 vì cơ sở dữ liệu này chưa được hoàn thiện và chưa có tập kết quả mẫu. Bộ dữ liệu ImageCLEFmed 2006 gồm 4 tập dữ liệu con Casimage, MIR, PEIR, PathoPIC. ImageCLEFmed 2007 có 6 tập dữ liệu con, 4 tâp giống 4 tập dữ liệu con trong ImageCLEFmed 2006, ngoài ra còn có thêm 2 tập là myPACS và Endoscopic. Tính trên toàn bộ tập dữ liệu hoàn chỉnh mới nhất là tập dữ liệu ImageCLEFmed 2007, tổng số tập tin các loại và kích thước của tập dữ liệu như sau: • Số tập tin ảnh: 66.662 files • Số tập tin chú giải: 55.485 files • Tổng kích thước: 523.692 MB 5.2.2 ImageCLEFmed 2007 5.2.2.1 Những bộ dữ liệu ảnh trong ImageCLEFmed 2007 Tập dữ liệu ảnh năm 2007 [53] được mở rộng từ tập dữ liệu ảnh 2005-2006. Gồm những tập con được thể hiện như trong bảng 5.4. 88 Bảng 5.4 Những bộ dữ liệu ảnh trong ImageCLEFmed 2007 Tên bộ dữ liệu ảnh Loại ảnh Liên kết nguồn Casimage X-quang (Radiology) và bệnh lý học (pathology) MIR Thuốc hạt nhân (Nuclear medicine) (PEIR Bệnh lý học (Pathology) và X- quang (radiology) PathoPIC Bệnh lý học (Pathology) MyPACS X-quang (Radiology) Endoscopic Nội soi (Endoscopy) 5.2.2.2 Kích thước các tập dữ liệu trong ImageCLEFmed 2007 Kích thước của các bộ dữ liệu trên ImageCLEFmed 2007 được thể hiện như trong bảng 5.5 . Bảng 5.5 Kích thước các bộ dữ liệu trong ImageCLEFmed 2007 Tên bộ dữ liệu ảnh Số Cases Số ảnh Số Annotations Số Annotations tính theo từng ngôn ngữ Kích thước Casimage 2076 8725 2076 Pháp - 1899 Anh - 177 1.28 GB MIR 407 1177 407 Anh - 407 63.2MB PEIR 32319 32319 32319 Anh - 32319 2.50 GB PathoPIC 7805 7805 15610 Đức - 7805 Anh - 7805 879 MB myPACS 3577 15140 3577 Anh - 3577 390 MB Endoscopic 1496 1496 1496 Anh - 1496 34 MB 89 5.2.2.3 Hệ thống tập tin trong ImageCLEFmed 2007 Hệ thống file được tổ chức theo cấu trúc thư mục dưới đây: + ImageCLEFmed + CASImage - Images - XML + PathoPic - Images - XML + Peir - Images - XML + MIR - Images - XML + MyPACS - Images - XML + CORI - Images - XML ImageCLEFmed2007.xml Thư mục ImageCLEFmed là thư mục gốc. ImageCLEFmed2007.xml là file mà link giữa các thư mục và ảnh và các chú thích của ảnh. Nó có link với các ảnh và các file chú thích. Nó chứa đường dẫn tương đối từ thư mục gốc đến tất cả các tập tin. Cấu trúc của ImageCLEFmed.xml như dưới đây. Toàn bộ thư viện ImageCLEFmed chứa rất nhiều tập: Casimage, PEIR, MIR, PathoPIC, MyPacs, CORI. Mỗi tập được tổ chức thành các case đại diện cho một nhóm các ảnh và chú thích liên quan. Mỗi case chứa các nhóm ảnh và chú thích của nó. Mỗi ảnh thì thuộc 1 case và có thể có chú thích hoặc không có chú thích. Chú thích thì bao gồm những dữ liệu ngữ nghĩa và có thể có chú thích văn bản. Tất cả các ảnh và chú thích được lưu vào những tập tin khác nhau. ImageCLEFmed2007.xml chỉ chứa những liên kết giữa các tập hợp, các ảnh và các chú thích. Dưới đây hình cây biểu diễn cây thư viện: 90 Hình 5.3 thư viện ảnh trong ImageCLEFmed Dưới đây là cấu trúc các file XML (các link được lưu trong file ImageCLEFmed.xml) name-text identifier-text identifier-text file-name-text file-name-text file-name-text file-name-text file-name-text 91 Ví dụ về ảnh và tập tin chú giải: hình 5.4 là hình ví dụ về ảnh và tập tin chú giải trong ImageCLEFmed Hình 5.4 ảnh và tập tin chú giải trong ImageCLEFmed ImageCLEFmed 2006: ImageCLEFmed 2006 [52] cũng giống như ImageCLEFmed 2007, chỉ khác ở chỗ số lượng các tập dữ liệu con chỉ có 4 tập, không có 2 tập dữ liệu myPACS, Endoscopic. 92 5.3 MetaMap 5.3.1 Tổng quan MetaMap [46, 49] là một công cụ phổ biến được dùng để rút trích các khái niệm có trong UMLS Meta-thesaurus trong các tài liệu thành các khái niệm. Nói cách khác, công cụ MetaMap tìm ra các khái niệm trong UMLS Meta-thesaurus có trong văn bản. Với phần công cụ này, tài liệu sẽ được xử lý thông qua một chuỗi các giai đoạn. Đầu tiên, nó được tách thành các thành phần gồm các câu, các đoạn, các cụm từ, các mục từ, …. Các biến thể sẽ được tạo ra từ các thành phần này. Sau đó công cụ sẽ truy vấn các khái niệm từ UMLS Meta-thesaurus và so sánh chúng với các thành phần này. Những khái niệm thích hợp nhất được tổ chức thành ánh xạ cuối cùng sao cho nó phù hợp với tài liệu nhất. Công cụ MetaMap được thiết kế nhằm thỏa một số nguyên lý sau: có thể chạy đa nền (trên máy ảo Java), có module, có thể tái sử dụng, dễ bảo trì, dễ cấu hình,… 5.3.2 Quá trình rút trích các khái niệm trong các tài liệu của MetaMap Phần này sẽ giới thiệu các giai đoạn của quá trình rút trích các khái niệm của MetaMap 10. Toàn bộ quá trình sẽ trải qua những giai đoạn như trong hình 5.5 và chi tiết được thể hiện trong hình 5.6. Trong ngôn ngữ học: một tài liệu sẽ có nhiều đoạn văn (pharagrap), trong 1 đoạn văn sẽ có nhiều câu (sentence), trong 1 câu có nhiều cụm từ (phrase) và trong 1 cụm từ sẽ có nhiều mục từ (lexical element), trong 1 mục từ có nhiều token. 10 93 Hình 5.5 Tổng quan quá trình rút trích khái niệm từ các tài liệu Đầu tiên, một tài liệu sẽ được đưa vào để tách thành các câu và các token. Từ các token, module tra cứu mục từ sẽ gom một hay nhiều token lại thành một mục từ có ý nghĩa. Sau đó, các mục từ sẽ được gán nhãn từ loại để nhằm giảm bớt sự mơ hồ khi một mục từ mang nhiều nghĩa. Ví dụ như một mục từ có thể vừa là danh từ vùa là động từ, nhưng đứng trước nó là một mạo từ, thì trình gán nhãn sẽ khẳng định đây là danh từ. Sau khi đã xác định và gán nhãn các mục từ, hệ thống sẽ phân tích (paser) để tạo ra các cụm danh từ. MetaMap không xử lý động từ và tính từ. Vì vậy, các bước tiếp theo cũng chỉ thao tác trên các cụm danh từ. 94 Sau hàng loạt thao tác để có được cụm danh từ, hệ thống bắt đầu tạo ra các biến thể từ các cụm danh từ đó. Sau khi đã có các tập biến thể, hệ thống sẽ xem xét xem những biến thể nào có trong UMLS Meta-thesaurus thì sẽ đưa vào thành tập ứng viên. Hình 5.6 Chi tiết quá trình rút trích khái niệm từ các tài liệu Sau đó, tập ứng viên này sẽ được cho điểm dựa trên 4 tiêu chí là độ quan trọng (centrality), độ biến dạng (variation), độ bao phủ (coverage), và độ liên kết (cohesiveness). Ý nghĩa của điểm số là điểm càng cao thì ứng viên càng có khả năng là một khái niệm. Tập ứng viên này được sắp xếp theo độ giảm dần về điểm số. Cuối cùng là ánh xạ giữa khái niệm trong UMLS và tập ứng viên: hệ thống tìm ra những ứng viên phù hợp nhất để tạo thành khái niệm, ánh xạ với các cụm danh từ. 95 5.4 XIOTA 5.4.1 Tổng quan về XIOTA Bảng 5.6 Những gói chính trong XIOTA Gói Mô tả conversion Chứa tất cả các module phục vụ cho việc chỉnh sửa cấu trúc của file XML và làm những thao tác chuyển đổi cơ bản. Trong gói này, tất cả các file input đều phải là những file được định dạng theo kiểu XML indexing Tất cả các module làm công việc lập chỉ mục văn bản querying Chứa những module phục vụ cho việc truy vấn thông tin mining Chứa những module phục vụ cho việc khải mỏ văn bản XIOTA gồm những gói chính được thể hiện trong các bảng 5.6. Việc cài đặt một mô hình tìm kiếm chạy trên bộ dữ liệu lớn là một công việc nặng nề. Vì vậy mà XIOTA [50] ra đời nhằm giúp cho việc cài đặt một hệ thống tìm kiếm trên một bộ dữ liệu một cách dễ dàng hơn. Kiến trúc của nó được thiết kế sao cho có thể chạy trên nhiều máy chủ phân tán và có thể chạy với nhiều trọng số khác nhau. XIOTA được phát triển bởi nhóm nghiên cứu về xử lý văn bản và hình ảnh, IPAL lab, viện I2R, A*STAR, Singapore. IPAL lab phòng thí nghiệm liên kết giữa CNRS11 của Pháp và I2R của Singapore. 11 96 5.4.2 Hệ thống các module trong XIOTA 5.4.2.1 Conversion Bảng 5.7 Các module trong gói conversion Module Mô tả xmlRename Đổi tên các tags trong file có định dạng XML xmlExtrTxt Rút trích toàn bộ văn bản bằng cách bỏ đi toàn bộ các tag xmlDelDia Xóa các ký tự phụ trong file XML xmlCase Chuyển toàn bộ văn bản trong file có định dạng XML thành chữ thường xmlPrune Xóa toàn bộ những phần nằm trong 1 tag nhất định nào đó trong file XML xmlFilterTag Xóa/giữ toàn bộ những phần nào đó đứng sau 1 danh sách các tag nào đó xmlTest Kiểm tra tính nhất quán của file XML Bảng 5.7 thể hiện các module trong gói conversion, gói này làm những thao tác chuyển đổi cơ bản. 5.4.2.2 Indexing Bảng 5.8 thể hiện các module trong gói gói indexing, gói này làm việc lập chỉ mục văn bản Bảng 5.8 Các module trong gói indexing Module Mô tả 97 xmlAntiDico Bỏ các từ thuộc về bộ từ điển nào đó xml2vector Xây dựng 1 vector từ 1 tập tin văn bản XML thô, đánh lại trọng số cho 1 vector đã tồn tại xmlIndexTag Tạo tập tin chỉ mục cho những truy xuất trực tiếp từ tập tin XML. Được sử dụng với module xmlQueryTag. xmlInvMatrix Tạo ra ma trận nghịch đảo, và cũng tính toán trọng số. Đây là module quan trọng của quá trình lập chỉ mục. xmlAddGUID Thêm vào 1 tập tin XML, module này hiện chưa hoàn thành và đang được chỉnh sửa. 5.4.2.3 Querying Bảng 5.9 thể hiện các module trong gói gói querying, gói này làm việc truy vấn thông tin Bảng 5.9 Các module trong gói querying Module Mô tả xmlQueryTag Truy vấn 1 tập tin chỉ mục được tạo ra bởi module xmlIndexTag xmlMatrixProd Nhân 2 ma trận. Được sử dụng cho việc truy vấn ma trận chỉ mục nghịch đảo. 5.4.2.4 Mining Bảng 5.10 thể hiện các module trong gói gói mining, gói này làm việc phục vụ cho việc khải mỏ văn bản 98 Bảng 5.10 Các module trong gói mining Module Mô tả xmlCooc2Graph Tính toán sự xuất hiện đồng thời của các từ liên kết trên 1 đồ thị dựa trên sự tính toán tần số xuất hiện đồng thời của các từ.

Các file đính kèm theo tài liệu này:

9.pdf
0.pdf
1.pdf
10.pdf
11.pdf
12.pdf
13.pdf
2pdf.pdf
3.pdf
4_2.pdf
5.pdf
6.pdf
7.pdf
8.pdf