XÂY DỰNG HỆ TÌM KIẾM THÔNG TIN THEO HƯỚNG TIẾP CẬN NGỮ NGHĨA (CONCEPTUAL INDEXING)
LÊ THÚY NGỌC
Trang nhan đề
Lời cảm ơn
Mục lục
Mục lục hình
Mục lục bảng
Chương 1: Tổng quan
Chương 2: Giới thiệu và khảo sát hệ thống tìm kiếm thông tin.
Chương 3: CIRS-Hệ thống tìm kiếm thông tin dựa trên khái niệm.
Chương 4: Các quá trình quan trọng CIRS.
Chương 5: Nguồn tri thức cơ sở dữ liệu và công cụ.
Chương 6: Hiện thực và kết quả.
Chương 7: Kết luận và hướng phát triển
Tài liệu tham khảo
Phụ lục
1
Mục lục
Chương 1. Tổng quan . 7
1.1 Bối cảnh hiện tại . 7
1.2 Mục tiêu, giới hạn và đóng góp của luận văn 9
1.2.1 Mục tiêu luận văn . 9
1.2.2 Giới hạn luận văn 10
1.2.3 Đóng góp của luận văn . 10
1.3 Bố cục của báo cáo . 11
Chương 2. Giới thiệu và khảo sát hệ thống tìm kiếm thông tin 13
2.1 Giới thiệu chung về hệ thống tìm kiếm thông tin 13
2.1.1 Định nghĩa về hệ thống tìm kiếm thông tin 13
2.1.2 Mục tiêu và chức năng của một hệ thống tìm kiếm thông tin . 14
2.1.3 Kiến trúc chung của một hệ thống tìm kiếm thông tin . 14
2.1.4 Phân loại hệ thống tìm kiếm thông tin 15
2.1.5 Tiêu chí để đánh giá một hệ thống tìm kiếm thông tin . 16
2.2 Hệ thống tìm kiếm dựa trên từ khóa 18
2.2.1 Bộ thu thập thông tin – Robot . 19
2.2.2 Bộ lập chỉ mục – Index . 19
2.2.3 Bộ truy vấn (bộ tìm kiếm) . 19
2.3 Hệ thống tìm kiếm dựa trên khái niệm . 20
2.3.1 Bộ thu thập thông tin 22
2.3.2 Bộ lập chỉ mục khái niệm . 22
Quy trình chung của rút trích khái niệm . 23
2.3.3 Bộ truy vấn 24
2.4 Khảo sát hiện trạng . 25
2.4.1 Khảo sát về các phương pháp lập chỉ mục cho các tài liệu: . 28
2.4.2 Khảo sát về các phương pháp mở rộng khái niệm 33
2.4.3 Khảo sát về các phương pháp rút trích khái niệm . 35
2.4.3.1 Rút trích từ chỉ mục từ các tài liệu 35
2.4.3.2 So khớp các cụm từ chỉ mục với nguồn tri thức 37
2.4.4 So sánh cách biểu diễn tri thức với cách biểu diễn tri thức của hệ thống khác 38
Chương 3. CIRS - Hệ thống tìm kiếm thông tin dựa trên khái niệm 40
2
3.1 Kiến trúc của CIRS 40
3.2 Các bộ phận cấu thành nên CIRS . 43
3.2.1 Bộ lập chỉ mục khái niệm . 43
3.2.2 Bộ truy vấn 46
Chương 4. Các quá trình quan trọng trong CIRS . 48
4.1 Rút trích các khái niệm từ tập các tài liệu và câu truy vấn. . 48
4.2 Phân loại tập khái niệm của các tài liệu . 50
4.2.1 Mục tiêu, ý nghĩa, cách tiếp cận của việc phân loại khái niệm 50
4.2.2 Các thuật ngữ 52
4.2.2.1 Độ dài khái niệm: 52
4.2.2.2 n-khái niệm, khái niệm ngắn, khái niệm dài, 53
4.2.3 Quy trình phân loại khái niệm 54
4.2.3.1 Giai đoạn 1: chuẩn hóa. . 55
4.2.3.2 Giai đoạn 2: loại bỏ các tag . 56
4.2.3.3 Giai đoạn 3: lấy thông tin về các khái niệm và vị trí . 59
4.2.3.4 Giai đoạn 4: tính độ dài khái niệm 61
4.2.3.5 Giai đoạn 5: phân loại khái niệm . 62
4.3 Mở rộng tập khái niệm của các tài liệu và câu truy vấn . 63
4.3.1 Mục đích của việc mở rộng khái niệm 63
4.3.2 Cách tiếp cận về mở rộng khái niệm của CIRS 63
4.3.3 Các mối quan hệ được hệ thống CIRS sử dụng để mở rộng khái niệm 63
4.3.4 Quy trình mở rộng khái niệm trong hệ thống CIRS . 66
4.3.4.1 Giai đoạn 1: rút trích các cặp khái niệm có quan hệ với nhau 67
4.3.4.2 Giai đoạn 2: mở rộng khái niệm 67
4.4 Lập chỉ mục theo khái niệm trong CIRS 69
4.4.1 Giai đoạn 1: tạo vector chỉ mục 70
4.4.2 Giai đoạn 2: tạo ma trận nghịch đảo . 72
4.5 So trùng trong CIRS . 73
4.6 Đánh giá hiệu quả của CIRS 75
Chương 5. Nguồn tri thức, cơ sở dữ liệu và công cụ 76
5.1 UMLS Metathesaurus 76
5.1.1 Các thành phần trong UMLS Metathesaurus: . 77
3
5.1.1.1 Khái niệm: . 77
5.1.1.2 Mối quan hệ . 80
5.1.2 Các ngôn ngữ mà UMLS Metathesaurus hỗ trợ . 81
5.1.3 Các tập tin định dạng RRF . 82
5.2 ImageCLEFmed . 86
5.2.1 Tổng quan về ImageCLEFmed . 86
5.2.2 ImageCLEFmed 2007 . 87
5.2.2.1 Những bộ dữ liệu ảnh trong ImageCLEFmed 2007 87
5.2.2.2 Kích thước các tập dữ liệu trong ImageCLEFmed 2007 . 88
5.2.2.3 Hệ thống tập tin trong ImageCLEFmed 2007 . 89
5.3 MetaMap 92
5.3.1 Tổng quan . 92
5.3.2 Quá trình rút trích các khái niệm trong các tài liệu của MetaMap . 92
5.4 XIOTA . 95
5.4.1 Tổng quan về XIOTA . 95
5.4.2 Hệ thống các module trong XIOTA . 96
5.4.2.1 Conversion . 96
5.4.2.2 Indexing . 96
5.4.2.3 Querying 97
5.4.2.4 Mining . 97
Chương 6. Hiện thực và kết quả . 99
6.1 Một số module trong chương trình . 99
6.2 Thử nghiệm. . 101
6.2.1 Mục tiêu thử nghiệm . 101
6.2.2 Cách thức thử nghiệm . 101
6.3 Kết quả và phân tích kết quả 102
6.3.1 Các kết quả thử nghiệm trên từ khóa, các loại khái niệm, các mô hình . 102
6.3.2 Các kết quả thử nghiệm về mở rộng khái niệm 107
6.3.2.1 So sánh việc sử dụng các mối quan hệ khác nhau để mở rộng tài liệu, khi
cùng sử dụng một mối quan hệ để mở rộng câu truy vấn . 108
6.3.2.2 So sánh việc sử dụng các mối quan hệ khác nhau để mở rộng câu truy vấn,
khi cùng sử dụng một mối quan hệ để mở rộng tài liệu . 114
6.4 So sánh kết quả với các hệ thống khác . 120
4
6.4.1 So sánh kết quả với hệ thống tìm kiếm thông tin dựa trên từ khóa 120
6.4.2 So sánh kết quả với hệ thống tìm kiếm dựa trên khái niệm sử dụng mô hình
mạng Bayes . 121
6.4.3 So sánh kết quả với hệ thống MIRACLE . 122
Chương 7. Kết luận và hướng phát triển 124
7.1 Kết luận 124
7.2 Hướng phát triển 125
Tài liệu tham khảo 127
Phụ lục: Các kết quả của Module 8 và 9 . 132
23 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2160 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng hệ tìm kiếm thông tin theo hướng tiếp cận ngữ nghĩa (conceptual indexing), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
76
Chương 5. Nguồn tri thức, cơ sở dữ liệu và công cụ
Chương này sẽ giới thiệu về nguồn tri thức, cơ sở dữ liệu và công cụ được sử
dụng trong hệ thống CIRS. Cụ thể thể là nguồn tri thức UMLS Metathesaurus [25, 27],
cơ sở dữ liệu ImageCLEFmed [51-53] và công cụ MetaMap [46, 49], và XIOTA [50]:
• UMLS Metathesaurus: nguồn tri thức chứa các khái niệm trong lĩnh vực y
khoa và mối quan hệ giữa các khái niệm đó.
• ImageCLEFmed: cơ sở dữ liệu chứa những tài liệu về ảnh và văn bản đa ngôn
ngữ trong lĩnh vực y khoa.
• MetaMap: công cụ được dùng để hỗ trợ rút trích khái niệm từ các tài liệu và
câu truy vấn.
• XIOTA: công cụ được dùng để hỗ trợ việc lập chỉ mục và truy vấn thông tin.
5.1 UMLS Metathesaurus
UMLS Metathesaurus [25, 27] là nguồn tri thức về lĩnh vực y khoa được sử dụng
miễn phí. Nó được thư viện quốc gia về y khoa của Hoa Kỳ thiết kế, tạo ra và duy trì
và được cập nhật hàng quỹ. Nó là một cơ sở dữ liệu từ vựng rất lớn, đa mục đích và đa
ngôn ngữ. UMLS Metathesaurus chứa đựng thông tin về các khái niệm y khoa và sức
khỏe, tên của các khái niệm và các mối quan hệ giữa những khái niệm đó. Nó được xây
dựng từ một số lượng lớn các nguồn từ vựng, các từ điển, danh sách các từ quan trọng
trong thống kê sức khỏe, chăm sóc sức khỏe, nghiên cứu y khoa…8. Phiên bản UMLS
2006 tập hợp gồm 139 nguồn từ vựng thuộc tri thức y học ở 17 ngôn ngữ khác nhau,
gần 1.3 tỉ khái niệm (concept), 135 loại ngữ nghĩa (semantic type) và 54 mối quan hệ
8
77
(relation) giữa các loại ngữ nghĩa. Tri thức UMLS được phép sử dụng miễn phí nhằm
phục vụ cho các mục tiêu nghiên cứu hay ứng dụng thực tế.
5.1.1 Các thành phần trong UMLS Metathesaurus:
Gồm 2 thành phần chính là khái niệm (concept) và mối quan hệ giữa các khái
niệm đó (relation).
5.1.1.1 Khái niệm:
UMLS Metathesaurus được tổ chức dưới dạng từng khái niệm. Các khái niệm
trong Metathesaurus có nguồn gốc từ nhiều nguồn từ vựng (source vocabulary) khác
nhau, chẳng hạn như SNOMED (Thuật ngữ có hệ thống trong y khoa), ICD-10 (Phân
loại bệnh nội), DSM-IV (Chẩn đoán và thống kê thông thường), MeSH (Đề mục chủ
đề y khoa), … Các nguồn từ vựng này tạo thành một cơ sở dữ liệu phức tạp gồm các
khái niệm liên quan đến y sinh ở 17 ngôn ngữ khác nhau (ở phiên bản 2006).
UMLS Metathesaurus là liên kết các tên gọi khác nhau của một khái niệm từ
nhiều nguồn tài nguyên từ vựng đến cùng một khái niệm chung. Như vậy một khái
niệm trong Metathesaurus được xây dựng từ atom, term, và string. Nhiều từ vựng
mang cùng một tên thuộc nhiều nguồn khác nhau, và nhiều từ đồng nghĩa được gom lại
thành một khái niệm. Mỗi khái niệm sẽ có một tên duy nhất gọi là CUI (Concept
Unique Identifier). Các khái niệm sẽ có các thuộc tính (property) đi kèm như: tên gọi
của khái niệm, các đặc tính, … Vì vậy, ngoài khái niệm, trong UMLS Metathesaurus
còn có atom, term, và string được hiểu như sau :
• Atom: là đơn vị cơ bản nhất để có thể cấu thành nên tên của một khái niệm.
Atom là một chuỗi chứa tên của một khái niệm trong một nguồn nào đó. Mỗi
atom có một định danh duy nhất là AUI (atom unique identifier). 2 tên khác
78
nhau của cùng một sự vật,… trong cùng một nguồn hoặc 2 tên giống hệt nhau
trong 2 nguồn khác nhau cũng được xem là các atom khác nhau.
• String: biểu diễn cho những atom giống hệt nhau, xuất hiện ở những nguồn
khác nhau. Mỗi string sẽ có 1 định danh duy nhất là SUI (String unique
identifer). Như vậy có thể nhiều AUI sẽ tạo nên 1 SUI.
• Term: là tập hợp tất cả các SUI là biến thể của nhau. Mỗi term có 1 định danh
duy nhât là LUI (lexical unique identifier). Như vậy nhiều SUI là biến thể của
nhau tạo thành 1 term.
• Concept (khái niệm): tập hợp những term đồng nghĩa, hoặc những term khác
nhau từ các ngôn ngữ khác nhau nhưng mang cùng 1 nghĩa. Mỗi khái niệm có
một định danh duy nhất gọi là CUI (Concept unique identifier). Như vậy nhiều
LUI tạo thành 1 CUI.
Trong trường hợp một chuỗi có nhiều ý nghĩa (từ đa nghĩa) thì một SUI sẽ có thể
có nhiều hơn một CUI. Mỗi SUI chỉ tương ứng với một LUI, và do đó, một LUI cũng
có thể có nhiều hơn một CUI trong trường hợp này. Mối liên hệ giữ CUI, LUI, SUI, và
AUI được minh họa trong hình 5.1. Để hiểu rõ hơn về mối quan hệ này, ta xét ví dụ
được trình bày trong hình 5.2.
79
Hình 5.1 Mối quan hệ giữa CUI, LUI, SUI và AUI
Hình 5.2 Ví dụ về mối quan hệ CUI, LUI, SUI và AUI
2 AUI là A0000001 và A0000002 đều là chuỗi “headache”, nhưng một AUI từ
nguồn 1 và một AUI từ nguồn 2. Do 2 AUI này có chuỗi giống nhau nên đều được đại
80
diện bởi chuỗi SUI0000001, tức là chuỗi “headache”. Tương tự như thế, ta có 2 AUI là
A0000003 và A0000004 từ 2 nguồn khác nhau đều được biểu diễn bởi chuỗi
SUI0000002, tức là chuỗi “Headache”.
Do 2 chuỗi “headache” và “Headache” là những biến thể của nhau, nên
SUI0000001 và SUI0000002 đều được đại diện bởi 1 LUI duy nhất là LUI0000001.
LUI0000002 là biểu diễn của chuỗi SUI0000003, chuỗi “Cephagia” từ nguồn 3, mà
chuỗi “Cephagia” lại đồng nghĩa với “headache”, nhưng ở 2 ngôn ngữ khác nhau. Như
vậy LUI0000001 và LUI0000002 sẽ được gom lại tạo thành một khái niệm duy nhất là
CUI0000001
5.1.1.2 Mối quan hệ
Mối quan hệ được nói tới trong UMLS Metathesaurus chính là mối quan hệ giữa
các khái niệm. Cũng giống như khái niệm, các mối quan hệ cũng có các thuộc tính đi
kèm với nó như loại mối quan hệ, tên của mối quan hệ, …
Một số loại mối quan hệ giữa các khái niệm trong UMLS Metathesaurus:
• RB – rộng hơn
• RN – hẹp hơn
• RL – tương đương
• PAR – cha
• CHD – con
• SIB – anh em, vv …
81
5.1.2 Các ngôn ngữ mà UMLS Metathesaurus hỗ trợ
Bảng 5.1 giới thiệu danh sách các ngôn ngữ mà Metathesaurus hỗ trợ. Chủ yếu là
tiếng Anh, chiếm 84,2%. Còn lại là các ngôn ngữ khác.
Bảng 5.1 Danh sách các ngôn ngữ mà UMLS Metathesaurus hỗ trợ
Ngôn ngữ Số chuỗi Phần trăm
Tiếng Anh 1,462,202 84.2 %
Tiếng Đức 66,381 3.8 %
Tiếng Tây Ban Nha 49,664 2.9 %
Tiếng Bồ Đào Nha 43,348 2.5 %
Tiếng Nga 40,716 2.4 %
Tiếng Pháp 33,011 1.9 %
Tiếng Phần Lan 20,178 1.2 %
Tiếng Ý 14,417 0.8 %
Tiếng Đan Mạch 723 < 0.1 %
Tiếng Hà Lan 723 < 0.1 %
Tiếng Thụy Điển 723 < 0.1 %
Tiếng Na Uy 722 < 0.1 %
Tiếng Hungary 718 < 0.1 %
Tiếng Baxcơ 695 < 0.1 %
Tiếng Do Thái 485 < 0.1 %
Tổng cộng 1,734,706 100 %
82
5.1.3 Các tập tin định dạng RRF 9
Tất các các tập tin có định dạng RRF đều có tên bắt đầu là MR (Metathesaurus
Relational) và có phần mở rộng là .RRF. Nội dung trong các tập tin này đều được sắp
xếp theo dòng, ngoại trừ tập tin MRRANK.RRF.
Mỗi tập tin RRF có số lượng cột cố định, số lượng dòng thay đổi tùy theo nội
dung phiên bản của Metathesaurus. Ở mỗi dòng, các cột dữ liệu được phân cách nhau
bởi dấu | và kết thúc bằng dấu |. Nếu cột nào khuyết, vẫn có dấu | để số cột được nhất
quán. Thông tin của tất cả các cột trong các tập tin Metathesaurus được mô tả trong tập
tin COLS.RRF.
Các tập tin RRF trong Metathesaurus được chia làm 4 nhóm thành phần dữ liệu
chính và các chỉ mục như sau:
• Nhóm thứ nhất: chứa dữ liệu chung về Metathesaurus gồm các thông tin chung
về toàn bộ các tập tin trong Metathesaurus, các thông tin về từng thành phần dữ
liệu có trong mỗi tập tin đó.
• Nhóm thứ hai: chứa khái niệm, tên gọi khái niệm và nguồn của chúng, nhóm này
có tập tin duy nhất là MRCONSO.RRF.
• Nhóm thứ ba: chứa các thuộc tính, chẳng hạn như thuộc tính định nghĩa của khái
niệm, mối quan hệ ngữ nghĩa giữa các khái niệm....
• Nhóm thứ tư: chứa các quan hệ, gồm quan hệ phân cấp giữa các khái niệm, quan
hệ đồng xuất hiện.
• Nhóm thứ năm: dữ liệu khác về Metathesaurus.
9
83
• Nhóm chỉ mục: chứa chỉ mục.
Dưới đây là thông tin về hai tập tin quan trọng nhất
• MRCONSO.RRF
Đây là tập tin quan trọng nhất của Metathesaurus, chứa toàn bộ thông tin về từng
khái niệm trong Metathesaurus. Mỗi dòng trong tập tin là thông tin về một nguyên tử
(atom), thông tin này cho biết nguyên tử thuộc về khái niệm nào, nguồn từ vựng nào,
từ vựng đó có ngôn ngữ gì, …
Bảng 5.2 Định dạng tập tin MRCONSO.RRF
Tên cột Mô tả Kiểu dữ liệu
CUI Định danh khái niệm char(8)
LAT Loại ngôn ngữ của từ vựng char(3)
TS Trạng thái từ vựng char(1)
LUI Định danh từ vựng char(8)
STT Loại chuỗi varchar(20)
SUI Định danh chuỗi char(8)
ISPREF Trạng thái nguyên tử - được ưa thích (Y) hoặc không (N) char(1)
AUI Định danh nguyên tử varchar(9)
SAUI Nguồn định danh nguyên tử (tùy chọn) varchar(50)
SCUI Nguồn định danh khái niệm (tùy chọn) varchar(8)
SDUI Nguồn định danh mô tả (tùy chọn) varchar(50)
SAB
Tên nguồn viết tắt (SAB). Có hai nguồn:
Root Source Abbreviation (RSAB) và
Versioned Source Abbreviation (VSAB) – có thêm thông tin về phiên
varchar(20)
84
bản.
TTY
Viết tắt của loại từ vựng trong nguồn từ vựng, ví dụ PN
(Metathesaurus Preferred Name) hoặc CD (Clinical Drug).
varchar(20)
CODE
Định danh nguồn có ích nhất (nếu nguồn từ vựng có nhiều hơn một
định danh), hoặc định danh nguồn được phát sinh (nếu không có nguồn
từ vựng)
varchar(50)
STR Chuỗi khái niệm varchar(3000)
SRL Mức độ hạn chế nguồn integer
SUPPRESS
Cờ khử nhiễu
char(1)
CVF Content View Flag integer
Ví dụ:
C0001175|ENG|P|L0001175|VO|S0010340|Y|A0019182||M0000245|D000163|MSH|PM
|D000163|Acquired Immunodeficiency Syndromes|0|N||
C0001175|ENG|P|L0001175|VC|S0354232|Y|A2922342|103845019|62479008||SNOME
DCT|SY|62479008|Acquired immunodeficiency syndrome |4|Y||
• MRREL.RRF
Mỗi dòng trong tập tin là một quan hệ giữa các khái niệm hoặc nguyên tử. Hướng
của quan hệ (REL) đi từ khái niệm hoặc nguyên tử thứ hai (CUI2, AUI2) đến khái
niệm hoặc nguyên tử thứ nhất (CUI1, AUI1). Mô tả từng cột cho tập tin MRREL.RRF
được nêu trong Bảng 3-7.
85
Bảng 5.3 Định dạng tập tin MRREL.RRF
Tên cột Mô tả Kiểu dữ liệu
CUI1 Định danh của khái niệm thứ nhất char(8)
AUI1 Định danh của nguyên tử thứ nhất char(9)
STYPE1
Tên cột định danh chỉ ra đối tượng tham gia trong quan hệ là
khái niệm hoặc nguyên tử
varchar(50)
REL
Quan hệ giữa khái niệm hoặc nguyên tử thứ hai với khái niệm
hoặc nguyên tử thứ nhất
varchar(4)
CUI2 Định danh của khái niệm thứ hai char(8)
AUI2 Định danh của nguyên tử thứ hai char(9)
STYPE2
Tên cột định danh chỉ ra đối tượng tham gia trong quan hệ là
khái niệm hoặc nguyên tử
varchar(50)
RELA Quan hệ varchar(100)
RUI Định danh quan hệ varchar(10)
SRUI Định danh quan hệ nguồn nếu có varchar(50)
SAB varchar(20)
SL Nguồn của nhãn quan hệ varchar(20)
RG
Nhóm quan hệ, sử dụng để chỉ ra tập các mối quan hệ cần xem
xét
varchar(10)
DIR Cờ chỉ hướng nguồn của quan hệ varchar(1)
SUPPRESS Cờ khử nhiễu, miền giá trị O, Y, E, N varchar(1)
CVF Content View Flag. integer
Miền giá trị của thuộc tính REL:
RB: quan hệ rộng hơn
86
RN: quan hệ hẹp hơn
RO: quan hệ khác
RL: quan hệ tương tự
PAR: quan hệ là cha
CHD: quan hệ là con
SIB: quan hệ là anh em
Ví dụ:
C0002372|A0022284|AUI|RB|C0002371|A0022279|AUI||R01983351||MSH|MSH|||N||
C0002372|A0022284|AUI|SY|C0002372|A0062352|AUI||R18851331||MSH|MSH|||N||
5.2 ImageCLEFmed
5.2.1 Tổng quan về ImageCLEFmed
ImageCLEFmed [51] là một cơ sở dữ liệu chứa những tài liệu về ảnh và văn bản
đa ngôn ngữ , là một phận của CLEF (Cross Language Evaluation Forum). Ngôn ngữ
được hỗ trợ chính là tiếng Anh, nhưng ngoài ra cũng hỗ trợ các ngôn ngữ khác la tiếng
Pháp và tiếng Đức. ImageCLEFmed gồm có 3 thành phần chính:
• Các tài liệu: được chia thành các bộ dữ liệu nhỏ hơn. Có 2 loại tài liệu là:
- Tập tin ảnh (Image file): chứa những file ảnh.
- Tập tin chú giải (Annotation file): ứng với mỗi tập tin ảnh có thể có hoặc
không có tập tin chú giải. Trong hệ thống CIRS, mục đích là hỗ trợ tìm
kiếm các tập tin văn bản nên chỉ sử dụng đến những tập tin chú giải mà
không dùng đến những tập tin ảnh.
87
• Các câu truy vấn: mục đích của câu truy vấn là dùng để kiểm thử. Có tổng
cộng 30 câu truy vấn mẫu, mỗi câu truy vấn đều được viết bằng 3 ngôn ngữ:
Anh, Pháp, Đức.
• Kết quả mẫu: là tập tin lưu trữ hệ thống kết quả mẫu: ứng với 1 câu truy vấn sẽ
có những tài liệu nào liên quan. Mục đích của kết quả mẫu là dùng để kiểm thử
độ chính xác các hệ thống.
Hệ thống CIRS sử dụng ImageCLEFmed 2006 [52] và ImageCLEFmed 2007
[53] mà không sử dụng ImageCLEFmed 2008 vì cơ sở dữ liệu này chưa được hoàn
thiện và chưa có tập kết quả mẫu. Bộ dữ liệu ImageCLEFmed 2006 gồm 4 tập dữ liệu
con Casimage, MIR, PEIR, PathoPIC. ImageCLEFmed 2007 có 6 tập dữ liệu con, 4 tâp
giống 4 tập dữ liệu con trong ImageCLEFmed 2006, ngoài ra còn có thêm 2 tập là
myPACS và Endoscopic.
Tính trên toàn bộ tập dữ liệu hoàn chỉnh mới nhất là tập dữ liệu ImageCLEFmed
2007, tổng số tập tin các loại và kích thước của tập dữ liệu như sau:
• Số tập tin ảnh: 66.662 files
• Số tập tin chú giải: 55.485 files
• Tổng kích thước: 523.692 MB
5.2.2 ImageCLEFmed 2007
5.2.2.1 Những bộ dữ liệu ảnh trong ImageCLEFmed 2007
Tập dữ liệu ảnh năm 2007 [53] được mở rộng từ tập dữ liệu ảnh 2005-2006. Gồm
những tập con được thể hiện như trong bảng 5.4.
88
Bảng 5.4 Những bộ dữ liệu ảnh trong ImageCLEFmed 2007
Tên bộ dữ
liệu ảnh Loại ảnh Liên kết nguồn
Casimage
X-quang (Radiology)
và bệnh lý học
(pathology)
MIR Thuốc hạt nhân (Nuclear medicine)
(PEIR
Bệnh lý học
(Pathology) và X-
quang (radiology)
PathoPIC Bệnh lý học (Pathology)
MyPACS X-quang (Radiology)
Endoscopic Nội soi (Endoscopy)
5.2.2.2 Kích thước các tập dữ liệu trong ImageCLEFmed 2007
Kích thước của các bộ dữ liệu trên ImageCLEFmed 2007 được thể hiện như trong
bảng 5.5 .
Bảng 5.5 Kích thước các bộ dữ liệu trong ImageCLEFmed 2007
Tên bộ dữ liệu
ảnh
Số
Cases Số ảnh
Số
Annotations
Số Annotations tính
theo từng ngôn ngữ
Kích
thước
Casimage 2076 8725 2076 Pháp - 1899 Anh - 177 1.28 GB
MIR 407 1177 407 Anh - 407 63.2MB
PEIR 32319 32319 32319 Anh - 32319 2.50 GB
PathoPIC 7805 7805 15610 Đức - 7805 Anh - 7805 879 MB
myPACS 3577 15140 3577 Anh - 3577 390 MB
Endoscopic 1496 1496 1496 Anh - 1496 34 MB
89
5.2.2.3 Hệ thống tập tin trong ImageCLEFmed 2007
Hệ thống file được tổ chức theo cấu trúc thư mục dưới đây:
+ ImageCLEFmed
+ CASImage
- Images
- XML
+ PathoPic
- Images
- XML
+ Peir
- Images
- XML
+ MIR
- Images
- XML
+ MyPACS
- Images
- XML
+ CORI
- Images
- XML
ImageCLEFmed2007.xml
Thư mục ImageCLEFmed là thư mục gốc. ImageCLEFmed2007.xml là file mà
link giữa các thư mục và ảnh và các chú thích của ảnh. Nó có link với các ảnh và các
file chú thích. Nó chứa đường dẫn tương đối từ thư mục gốc đến tất cả các tập tin.
Cấu trúc của ImageCLEFmed.xml như dưới đây. Toàn bộ thư viện
ImageCLEFmed chứa rất nhiều tập: Casimage, PEIR, MIR, PathoPIC, MyPacs, CORI.
Mỗi tập được tổ chức thành các case đại diện cho một nhóm các ảnh và chú thích liên
quan. Mỗi case chứa các nhóm ảnh và chú thích của nó. Mỗi ảnh thì thuộc 1 case và có
thể có chú thích hoặc không có chú thích. Chú thích thì bao gồm những dữ liệu ngữ
nghĩa và có thể có chú thích văn bản. Tất cả các ảnh và chú thích được lưu vào những
tập tin khác nhau. ImageCLEFmed2007.xml chỉ chứa những liên kết giữa các tập hợp,
các ảnh và các chú thích. Dưới đây hình cây biểu diễn cây thư viện:
90
Hình 5.3 thư viện ảnh trong ImageCLEFmed
Dưới đây là cấu trúc các file XML (các link được lưu trong file
ImageCLEFmed.xml)
name-text
identifier-text
identifier-text
file-name-text
file-name-text
file-name-text
file-name-text
file-name-text
91
Ví dụ về ảnh và tập tin chú giải: hình 5.4 là hình ví dụ về ảnh và tập tin chú giải
trong ImageCLEFmed
Hình 5.4 ảnh và tập tin chú giải trong ImageCLEFmed
ImageCLEFmed 2006: ImageCLEFmed 2006 [52] cũng giống như ImageCLEFmed
2007, chỉ khác ở chỗ số lượng các tập dữ liệu con chỉ có 4 tập, không có 2 tập dữ liệu
myPACS, Endoscopic.
92
5.3 MetaMap
5.3.1 Tổng quan
MetaMap [46, 49] là một công cụ phổ biến được dùng để rút trích các khái niệm
có trong UMLS Meta-thesaurus trong các tài liệu thành các khái niệm. Nói cách khác,
công cụ MetaMap tìm ra các khái niệm trong UMLS Meta-thesaurus có trong văn bản.
Với phần công cụ này, tài liệu sẽ được xử lý thông qua một chuỗi các giai đoạn. Đầu
tiên, nó được tách thành các thành phần gồm các câu, các đoạn, các cụm từ, các mục
từ, …. Các biến thể sẽ được tạo ra từ các thành phần này. Sau đó công cụ sẽ truy vấn
các khái niệm từ UMLS Meta-thesaurus và so sánh chúng với các thành phần này.
Những khái niệm thích hợp nhất được tổ chức thành ánh xạ cuối cùng sao cho nó phù
hợp với tài liệu nhất. Công cụ MetaMap được thiết kế nhằm thỏa một số nguyên lý sau:
có thể chạy đa nền (trên máy ảo Java), có module, có thể tái sử dụng, dễ bảo trì, dễ cấu
hình,…
5.3.2 Quá trình rút trích các khái niệm trong các tài liệu của MetaMap
Phần này sẽ giới thiệu các giai đoạn của quá trình rút trích các khái niệm của
MetaMap 10. Toàn bộ quá trình sẽ trải qua những giai đoạn như trong hình 5.5 và chi
tiết được thể hiện trong hình 5.6. Trong ngôn ngữ học: một tài liệu sẽ có nhiều đoạn
văn (pharagrap), trong 1 đoạn văn sẽ có nhiều câu (sentence), trong 1 câu có nhiều cụm
từ (phrase) và trong 1 cụm từ sẽ có nhiều mục từ (lexical element), trong 1 mục từ có
nhiều token.
10
93
Hình 5.5 Tổng quan quá trình rút trích khái niệm từ các tài liệu
Đầu tiên, một tài liệu sẽ được đưa vào để tách thành các câu và các token. Từ các
token, module tra cứu mục từ sẽ gom một hay nhiều token lại thành một mục từ có ý
nghĩa. Sau đó, các mục từ sẽ được gán nhãn từ loại để nhằm giảm bớt sự mơ hồ khi
một mục từ mang nhiều nghĩa. Ví dụ như một mục từ có thể vừa là danh từ vùa là động
từ, nhưng đứng trước nó là một mạo từ, thì trình gán nhãn sẽ khẳng định đây là danh
từ. Sau khi đã xác định và gán nhãn các mục từ, hệ thống sẽ phân tích (paser) để tạo ra
các cụm danh từ. MetaMap không xử lý động từ và tính từ. Vì vậy, các bước tiếp theo
cũng chỉ thao tác trên các cụm danh từ.
94
Sau hàng loạt thao tác để có được cụm danh từ, hệ thống bắt đầu tạo ra các biến
thể từ các cụm danh từ đó. Sau khi đã có các tập biến thể, hệ thống sẽ xem xét xem
những biến thể nào có trong UMLS Meta-thesaurus thì sẽ đưa vào thành tập ứng viên.
Hình 5.6 Chi tiết quá trình rút trích khái niệm từ các tài liệu
Sau đó, tập ứng viên này sẽ được cho điểm dựa trên 4 tiêu chí là độ quan trọng
(centrality), độ biến dạng (variation), độ bao phủ (coverage), và độ liên kết
(cohesiveness). Ý nghĩa của điểm số là điểm càng cao thì ứng viên càng có khả năng là
một khái niệm. Tập ứng viên này được sắp xếp theo độ giảm dần về điểm số. Cuối
cùng là ánh xạ giữa khái niệm trong UMLS và tập ứng viên: hệ thống tìm ra những ứng
viên phù hợp nhất để tạo thành khái niệm, ánh xạ với các cụm danh từ.
95
5.4 XIOTA
5.4.1 Tổng quan về XIOTA
Bảng 5.6 Những gói chính trong XIOTA
Gói Mô tả
conversion
Chứa tất cả các module phục vụ cho việc chỉnh sửa cấu trúc của file XML
và làm những thao tác chuyển đổi cơ bản. Trong gói này, tất cả các file
input đều phải là những file được định dạng theo kiểu XML
indexing Tất cả các module làm công việc lập chỉ mục văn bản
querying Chứa những module phục vụ cho việc truy vấn thông tin
mining Chứa những module phục vụ cho việc khải mỏ văn bản
XIOTA gồm những gói chính được thể hiện trong các bảng 5.6. Việc cài đặt một
mô hình tìm kiếm chạy trên bộ dữ liệu lớn là một công việc nặng nề. Vì vậy mà
XIOTA [50] ra đời nhằm giúp cho việc cài đặt một hệ thống tìm kiếm trên một bộ dữ
liệu một cách dễ dàng hơn. Kiến trúc của nó được thiết kế sao cho có thể chạy trên
nhiều máy chủ phân tán và có thể chạy với nhiều trọng số khác nhau. XIOTA được
phát triển bởi nhóm nghiên cứu về xử lý văn bản và hình ảnh, IPAL lab, viện I2R,
A*STAR, Singapore. IPAL lab phòng thí nghiệm liên kết giữa CNRS11 của Pháp và
I2R của Singapore.
11
96
5.4.2 Hệ thống các module trong XIOTA
5.4.2.1 Conversion
Bảng 5.7 Các module trong gói conversion
Module Mô tả
xmlRename Đổi tên các tags trong file có định dạng XML
xmlExtrTxt Rút trích toàn bộ văn bản bằng cách bỏ đi toàn bộ các tag
xmlDelDia Xóa các ký tự phụ trong file XML
xmlCase Chuyển toàn bộ văn bản trong file có định dạng XML thành chữ thường
xmlPrune Xóa toàn bộ những phần nằm trong 1 tag nhất định nào đó trong file
XML
xmlFilterTag Xóa/giữ toàn bộ những phần nào đó đứng sau 1 danh sách các tag nào
đó
xmlTest Kiểm tra tính nhất quán của file XML
Bảng 5.7 thể hiện các module trong gói conversion, gói này làm những thao tác
chuyển đổi cơ bản.
5.4.2.2 Indexing
Bảng 5.8 thể hiện các module trong gói gói indexing, gói này làm việc lập chỉ
mục văn bản
Bảng 5.8 Các module trong gói indexing
Module Mô tả
97
xmlAntiDico Bỏ các từ thuộc về bộ từ điển nào đó
xml2vector Xây dựng 1 vector từ 1 tập tin văn bản XML thô, đánh lại trọng số cho
1 vector đã tồn tại
xmlIndexTag Tạo tập tin chỉ mục cho những truy xuất trực tiếp từ tập tin XML.
Được sử dụng với module xmlQueryTag.
xmlInvMatrix Tạo ra ma trận nghịch đảo, và cũng tính toán trọng số. Đây là module
quan trọng của quá trình lập chỉ mục.
xmlAddGUID Thêm vào 1 tập tin XML, module này hiện chưa hoàn thành và đang
được chỉnh sửa.
5.4.2.3 Querying
Bảng 5.9 thể hiện các module trong gói gói querying, gói này làm việc truy vấn
thông tin
Bảng 5.9 Các module trong gói querying
Module Mô tả
xmlQueryTag Truy vấn 1 tập tin chỉ mục được tạo ra bởi module xmlIndexTag
xmlMatrixProd Nhân 2 ma trận. Được sử dụng cho việc truy vấn ma trận chỉ mục
nghịch đảo.
5.4.2.4 Mining
Bảng 5.10 thể hiện các module trong gói gói mining, gói này làm việc phục vụ
cho việc khải mỏ văn bản
98
Bảng 5.10 Các module trong gói mining
Module Mô tả
xmlCooc2Graph
Tính toán sự xuất hiện đồng thời của các từ liên kết trên 1 đồ thị dựa
trên sự tính toán tần số xuất hiện đồng thời của các từ.