Mục lục
Nội dung Trang
Phần mở đầu 3
Ch−ơng 1. Bμi toán học máy vμ một số thuật toán 6
I.1. Bμi toán học máy 6
I.1.1. Bμi toán học máy 6
I.1.2. Một số đặc tr−ng trong học máy 7
I.1.3. Ph−ơng pháp điển hình biểu diễn tri thức trong học máy 9
I.2. Thuật toán điển hình trong học máy 10
I.2.1. Thuật toán tách nhóm 10
I.2.2. Thuật toán phân lớp Bayes 14
I.2.3. Thuật toán phân lớp k-ng−ời láng giềng gần nhất 18
I.2.4. Thuật toán cây quyết định 20
Ch−ơng 2. Học máy mô tả phức 21
II.1. Mô hình học máy mô tả phức 21
II.1.1. Sơ bộ về mô hình học máy mô tả phức 21
II.1.2. Một số nội dung của học máy mô tả phức 23
II.2. Một số khái niệm vμ trình bμy tri thức trong học máy mô tả
phức
26
II.2.1 Một số khái niệm 26
II.2.2 Trình bμy tri thức trong học máy mô tả phức 27
II.3. Một số mô hình học máy mô tả phức 33
II.3.1. Mô hình POIL 33
II.3.2. Mô hình POCL 37
II.3.3. Mô hình HYDRA 42
II.3.4. Mô hình HYDRA-MM 45
L−ơng Song Vân Học máy, học máy mô tả phức: thuật toán vμ vấn đề rút gọn lỗi
-2-
Ch−ơng 3. Rút gọn lỗi trong học máy mô tả phức 49
III.1. Sơ bộ về rút gọn lỗi trong học máy mô tả phức 49
III.1.1. Một số khái niệm 49
III.1.2. Sơ bộ về rút gọn lỗi trong học máy mô tả phức 49
III.2. Một số nội dung về rút gọn lỗi trong học máy mô tả phức 55
III.2.1. Sử dụng tập luật phức cho lỗi thấp hơn 55
III.2.2. Mối quan hệ giữa giảm lỗi vμ các lỗi t−ơng quan 57
III.2.3. Thu thập các mối quan hệ vμ rút gọn lỗi 58
III.2.4. Tác động của nhiễu 59
III.2.5. Tác động của thuộc tính không thích hợp 60
III.2.6. Tác động của việc đa dạng hoá 62
Ch−ơng 4. Thuật toán tìm kiếm vμ phân lớp trong cơ sở dữ liệu
full-text
64
IV.1. Cơ sở dữ liệu full-text 64
IV.1.1. Khái niệm về cơ sở dữ liệu full-text 64
IV.1.2. Các nội dung cơ bản của một cơ sở dữ liệu full-text 66
IV.1.3. Các mô hình quản lý vμ l−u trữ thông tin văn bản 69
IV.2. Thuật toán tìm kiếm vμ phân lớp trong cơ sở dữ liệu full-text
theo mô hình vector cải tiến
IV.2.1. Mô hình vector cải tiến vμ thuật toán tìm kiếm 73
IV.2.2. Thuật toán phân lớp Bayes thứ nhất 79
IV.2.3. Thuật toán phân lớp Bayes thứ hai 83
IV.2.4. Thuật toán phân lớp k-ng−ời láng giềng gần nhất 86
Phần kết luận 90
Tμi liệu tham khảo 92
95 trang |
Chia sẻ: maiphuongtl | Lượt xem: 1811 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Học máy, học máy mô tả phức: thuật toán và vấn đề rút gọn lỗi, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
thÝch hîp t¨ng lªn. Nh− vËy, c¸ch tiÕp cËn m« h×nh phøc thùc sù tèt khi cã nhiÒu
liªn kÕt t¨ng lªn. Ali K. & Pazzani M. [5] kÕt luËn r»ng, nh©n tè c¬ b¶n trong
viÖc gi¶i thÝch ph−¬ng sai cña gi¶m lçi lµ xu h−íng cña c¸c m« h×nh ®−îc häc ®Ó
t¹o ra c¸c lçi t−¬ng quan. MÆt kh¸c, c¸c t¸c gi¶ ®· cè g¾ng t¨ng sè l−îng cña c¸c
liªn kÕt ®èi víi mçi tËp hîp d÷ liÖu b»ng c¸ch bæ sung thªm mét sè thuéc tÝnh
kh«ng thÝch hîp cho víi mçi tËp hîp d÷ liÖu. §iÒu nµy lµm t¨ng sè l−îng cña
c¸c liªn kÕt t¨ng lªn ®−îc biÕt vµ còng t¹o ra sù gi¶m lçi m¹nh h¬n.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-64-
Ch−¬ng 4. thuËt to¸n t×m kiÕm vµ ph©n líp
trong c¬ së d÷ liÖu full-text
IV.1. c¬ së d÷ liÖu full-text
IV.1.1 Kh¸i niÖm vÒ c¬ së d÷ liÖu full-text
C¸c m« h×nh d÷ liÖu ®iÓn h×nh lµ m« h×nh ph©n cÊp, m« h×nh m¹ng vµ m«
h×nh quan hÖ ®−îc biÕt nh− nh÷ng m« h×nh d÷ liÖu cã cÊu tróc: d÷ liÖu trong hÖ
thèng ®−îc liªn kÕt nhau theo mçi cÊu tróc t−¬ng øng. CÊu tróc hÖ thèng cho
biÕt mèi liªn hÖ lÉn nhau gi÷a c¸c ®èi t−îng trong ph¹m vi xem xÐt. Ch¼ng h¹n,
trong m« h×nh quan hÖ, th«ng tin vÒ c¸c ®èi t−îng d÷ liÖu ®−îc tr×nh bµy d−íi
d¹ng b¶ng, c¸c ®èi t−îng d÷ liÖu cã sù t−¬ng øng ®ång nhÊt nhau theo c¸c
tr−êng th«ng tin chung cho b¶ng. Tuy nhiªn, ®èi víi nhiÒu hÖ thèng th«ng tin,
kh«ng ph¶i lu«n lu«n biÓu diÔn ®−îc toµn bé d÷ liÖu theo nh÷ng cÊu tróc ®· cã.
Ch¼ng h¹n, kh«ng thÓ x©y dùng ®−îc mét cÊu tróc nh»m biÓu diÔn ®èi t−îng
th«ng tin v¨n b¶n, h×nh ¶nh. D¹ng th«ng tin nh− vËy ®−îc gäi lµ th«ng tin phi
cÊu tróc; nã cã thÓ lµ mét h×nh vÏ, mét v¨n b¶n, d÷ liÖu multimedia v.v. C¬ së d÷
liÖu qu¶n lý th«ng tin phi cÊu tróc ®−îc gäi lµ c¬ së d÷ liÖu phi cÊu tróc. Th«ng
th−êng, th«ng tin trong mét c¬ së d÷ liÖu phi cÊu tróc bao gåm hai phÇn: phÇn cã
cÊu tróc chøa ®ùng th«ng tin chung nhÊt vÒ toµn bé ®èi t−îng (do t×m ®−îc cÊu
tróc biÓu diÔn chóng) vµ phÇn phi cÊu tróc chøa ®ùng th«ng tin riªng vÒ tõng ®èi
t−îng.
D÷ liÖu d¹ng full-text lµ mét d¹ng d÷ liÖu phi cÊu tróc víi th«ng tin v¨n
b¶n d¹ng text. Mçi v¨n b¶n chøa th«ng tin vÒ mét vÊn ®Ò nµo ®ã ®−îc thÓ hiÖn
qua néi dung cña tÊt c¶ c¸c tõ cÊu thµnh v¨n b¶n ®ã vµ c¸ch liªn kÕt c¸c tõ nµy.
ý nghÜa cña mét tõ trong v¨n b¶n kh«ng cè ®Þnh mµ tïy thuéc vµo tõng ng÷
c¶nh: ng÷ c¶nh kh¸c nhau sÏ cho ý nghÜa kh¸c nhau. C¸c tõ trong v¨n b¶n l¹i
®−îc liªn kÕt víi nhau bëi ng«n ng÷ tr×nh bµy ®ã. §Ó cã thÓ hiÓu ®−îc nghÜa cña
v¨n b¶n kh«ng nh÷ng cÇn ph¶i hiÓu ®−îc néi dung cña c¸c tõ mµ cßn ph¶i n¾m
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-65-
®−îc ng÷ ph¸p cña ng«n ng÷ ®ã. §iÒu nµy ®èi víi con ng−êi lµ kh¸ ®¬n gi¶n bëi
chÝnh hä t¹o ra ng«n ng÷ vµ c¸c v¨n b¶n ®ã ®Ó tr×nh bµy vÊn ®Ò. Tuy nhiªn viÖc
lËp tr×nh ®Ó lµm cho m¸y tÝnh hiÓu ®−îc néi dung cña mét v¨n b¶n khi tiÕp nhËn
v¨n b¶n ®ã th× l¹i lµ mét vÊn ®Ò hÕt søc phøc t¹p.
HÖ c¬ së d÷ liÖu Full-text qu¶n lý c¸c v¨n b¶n Full-text vµ tæ chøc t×m
kiÕm theo néi dung (liªn quan ®Õn phÇn phi cÊu tróc cña hÖ thèng). Ng−êi sö
dông ®−a ra néi dung cÇn t×m vµ hÖ thèng sÏ tr¶ l¹i c¸c v¨n b¶n cã néi dung liªn
quan. Nh− vËy hÖ thèng ph¶i n¾m b¾t ®−îc néi dung cña mäi v¨n b¶n, hay t−¬ng
øng, hÖ c¬ së d÷ liÖu Full-text ph¶i cã mét hÖ thèng ®o¸n nhËn ®−îc ng«n ng÷
diÔn ®¹t v¨n b¶n ®ã. HÖ thèng nµy lµ riªng biÖt ®èi víi mçi ng«n ng÷ vµ thùc
hiÖn ®−îc ®iÒu nµy lµ hÕt søc khã kh¨n vµ tèn kÐm.
Mét c¸ch lµm kh¸c ®Ó n¾m b¾t néi dung cña v¨n b¶n lµ th«ng qua viÖc
n¾m b¾t c¸c tõ vµ côm tõ trong v¨n b¶n ®ã theo h−íng suy nghÜ lµ c¸c tõ trong
v¨n b¶n còng ph¶n ¸nh phÇn nµo ý nghÜa cña néi dung v¨n b¶n. C¸ch nµy kÐm
chÝnh x¸c h¬n nh−ng cã ®é phøc t¹p võa ph¶i ®Ó cã thÓ gi¶i quyÕt ®−îc mµ Ýt tèn
kÐm h¬n vÒ thêi gian còng nh− vÒ c«ng søc. Trong mçi ng«n ng÷, sè c¸c tõ cã
nghÜa lµ h÷u h¹n, v× vËy, thay v× ph¶i qu¶n lý toµn bé néi dung v¨n b¶n, ng−êi ta
chØ qu¶n lý c¸c tõ cã nghÜa ®−îc dïng ®Ó thÓ hiÖn néi dung v¨n b¶n ®ã. §Æc biÖt,
nÕu nh− hÖ thèng qu¶n lý c¸c v¨n b¶n liªn quan ®Õn mét lÜnh vùc ho¹t ®éng
riªng biÖt th× danh s¸ch c¸c tõ cÇn qu¶n lý ®−îc giíi h¹n theo c¸c tõ cã nghÜa
thuéc lÜnh vùc ho¹t ®éng riªng biÖt ®ã vµ v× vËy, kÝch th−íc th«ng tin qu¶n lý sÏ
nhá. Néi dung cÇn t×m còng ®−îc thÓ hiÖn th«ng qua c¸c tõ hoÆc côm tõ. VÒ mÆt
thùc tÕ, do tÝnh dÔ thùc hiÖn, ng−êi ta hay dïng c¸ch nµy ®Ó x©y dùng hÖ CSDL
full-text vµ ®ang t×m c¸ch c¶i tiÕn chóng ®Ó ®¹t ®−îc kÕt qu¶ tèt h¬n.
Ngoµi chøc n¨ng qu¶n lý vµ t×m kiÕm c¸c v¨n b¶n theo néi dung, hÖ CSDL
full-text cÇn cã chøc n¨ng ph©n líp c¸c v¨n b¶n theo mét sè mÉu ®· ®Þnh s½n
(®−îc gäi lµ catalog v¨n b¶n, mçi líp ®−îc gäi lµ mét catalog). Dùa trªn mét sè
líp v¨n b¶n ®· ®−îc ®Þnh s½n theo c¸c v¨n b¶n mÉu cña tõng líp v¨n b¶n, thuËt
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-66-
to¸n ph©n líp sÏ ®−îc thùc hiÖn khi hÖ thèng cã thªm mét v¨n b¶n míi. KÕt hîp
hai thuËt to¸n ph©n líp vµ t×m kiÕm sÏ cho t¸c dông thu hÑp lÜnh vùc t×m kiÕm
v¨n b¶n vµ do ®ã, viÖc t×m kiÕm sÏ chÝnh x¸c h¬n. Ng−êi dïng sÏ nhËn ®−îc c¸c
v¨n b¶n trong ph¹m vi catalog ®· chän ra vµ nh− vËy tr¸nh ®−îc t×nh tr¹ng viÖc
t×m kiÕm ph¶i x¶y ra trªn toµn bé d÷ liÖu cña hÖ thèng.
IV.1.2. C¸c néi dung c¬ b¶n cña mét c¬ së d÷ liÖu full-text
a/ L−u tr÷ v¨n b¶n
V¨n b¶n lµ ®èi t−îng qu¶n lý chÝnh cña hÖ thèng. B¶n th©n c¸c v¨n b¶n
ch¾c ch¾n ph¶i ®−îc l−u gi÷ t¹i mét n¬i nµo ®ã ë bªn trong hoÆc bªn ngoµi hÖ
thèng vµ c¸c th«ng tin vÒ chóng ®−îc qu¶n lý tuú thuéc vµo thuËt to¸n l−u tr÷ vµ
t×m kiÕm. Cã hai c¸ch l−u tr÷ v¨n b¶n sau ®©y:
L−u tr÷ trùc tiÕp
C¸c v¨n b¶n ®−îc l−u tr÷ trùc tiÕp trong cét cña mét b¶ng nh− lµ mét
tr−êng cña b¶ng ®ã. Khi ®ã mét v¨n b¶n gåm c¸c thuéc tÝnh sau:
• Kho¸ (m·) v¨n b¶n
• Néi dung v¨n b¶n: l−u trùc tiÕp néi dung cña v¨n b¶n. Theo c¸ch nµy,
v¨n b¶n thùc chÊt lµ mét tr−êng cã kiÓu TEXT trong mét b¶ng. Ch¼ng
h¹n, néi dung v¨n b¶n ®−îc chØ dÉn tõ tr−êng memo trong file d÷ liÖu
cña FOXPRO lµ mét biÕn d¹ng cña c¸ch nµy.
• C¸c th«ng tin kh¸c vÒ v¨n b¶n nh− ngµy truy nhËp, ®é dµi cña v¨n b¶n.
C¸c th«ng tin nµy kh«ng cã t¸c dông trong qu¸ tr×nh t×m kiÕm theo néi
dung mµ chØ bæ sung cho ng−êi dïng mét sè th«ng tin vÒ mét v¨n b¶n
x¸c ®Þnh.
L−u tr÷ gi¸n tiÕp
V¨n b¶n kh«ng ®−îc l−u tr÷ trùc tiÕp bªn trong CSDL mµ ®−îc l−u t¹i mét
n¬i nµo ®ã ë bªn ngoµi CSDL. ViÖc qu¶n lý c¸c v¨n b¶n sÏ th«ng qua ®Þa chØ cña
nã. §Þa chØ cã thÓ lµ:
• §−êng dÉn ®Õn mét file
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-67-
• §Þa chØ URL trá ®Õn mét trang Web
• §−êng dÉn ®Õn mét tr−êng d¹ng Text trong mét CSDL kh¸c.
NÕu d÷ liÖu ®−îc l−u vµo mét file th× ph¶i chó ý ®Õn kh¶ n¨ng truy cËp ®Õn
file ®ã, ®Þa chØ sÏ gåm:
• Tªn file
• N¬i ®Æt file: ph¶i ®Æt t¹i n¬i mµ ch−¬ng tr×nh thùc hiÖn cã thÓ truy cËp
®Õn ®−îc.
Th«ng th−êng ng−êi ta hay sö dông theo ph−¬ng ph¸p l−u tr÷ ngoµi v× khi
®ã, mét mÆt, kh«ng bÞ h¹n chÕ vÒ ®é dµi v¨n b¶n l−u tr÷, vµ mÆt kh¸c, cho phÐp
më réng ph¹m vi l−u tr÷ v¨n b¶n trªn m¹ng tïy ý.
Trong c¸ch thøc nµy, th«ng tin vÒ mét v¨n b¶n gåm:
• M· v¨n b¶n,
• Con trá trá ®Õn n¬i chøa v¨n b¶n hay th«ng tin vÒ ®Þa chØ cña mét file,
• C¸c th«ng tin vÒ néi dung v¨n b¶n ®Ó cã thÓ tiÕn hµnh t×m kiÕm chóng,
• Ngoµi ra cßn cã mét sè th«ng tin phô vÒ v¨n b¶n ®ã nh− ngµy truy cËp
gÇn nhÊt, ®é dµi v¨n b¶n, lo¹i v¨n b¶n .. .
b/ C©u hái t×m kiÕm
C©u hái t×m kiÕm lµ bÊt kú c©u hái nµo mµ hÖ thèng cho phÐp ng−êi sö
dông ®−a ra nh»m thÓ hiÖn yªu cÇu t×m kiÕm v¨n b¶n vµ ®iÒu nµy lµ kh¸ réng r·i.
Cã nhiÒu c¸ch ®−a ra c©u hái tuú thuéc vµo c¸ch t×m kiÕm cña hÖ thèng vµ yªu
cÇu cña ng−êi dïng.
T×m kiÕm theo c¸c tõ hoÆc côm tõ
C©u hái t×m kiÕm ®−îc tr×nh bµy qua c¸c tõ hoÆc côm tõ ®−îc liªn kÕt bëi
c¸c phÐp to¸n logic nh»m diÔn t¶ ®−îc néi dung cña v¨n b¶n. §¬n gi¶n nhÊt cã
thÓ lµ ®−a ra mét tõ hoÆc côm tõ vµ yªu cÇu tr¶ l¹i c¸c v¨n b¶n cã chøa tõ hoÆc
côm tõ ®ã cïng víi sè lÇn xuÊt hiÖn chóng trong v¨n b¶n. Phøc t¹p h¬n, dïng
c¸c phÐp to¸n l«gic ®Ó biÓu diÔn c¸c tõ cã thÓ liªn quan ®Õn nhau vµ cã ¶nh
h−ëng kh¸c nhau ®Õn néi dung cÇn t×m.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-68-
Ch¼ng h¹n, cã thÓ ®Æt ra yªu cÇu t×m kiÕm nh− sau: T×m v¨n b¶n cã chøa
c¸c tõ ‘ruéng ®Êt’, ‘luËt’,‘®Êt ®ai’,‘§iÒu’ nh−ng kh«ng chøa tõ ‘thuÕ’ vµ tõ ‘c¸
nh©n’.
Ngoµi ra cã thÓ ®−a ra c¸c yªu cÇu bæ sung kh¸c nh−:
• Kho¶ng c¸ch gi÷a c¸c tõ cÇn t×m cã thÓ liªn quan ®Õn néi dung v¨n
b¶n.
Ch¼ng h¹n, ®−a ra yªu cÇu: T×m v¨n b¶n cã chøa c¸c tõ ‘thu’ vµ tõ ‘nhËp’,
nÕu hai tõ nµy gÇn nhau th× møc ®é liªn quan cña v¨n b¶n t×m ®−îc lµ cµng cao.
Khi ®ã v¨n b¶n cã chøa c©u ‘thu nhËp’ ®−îc ®¸nh gi¸ lµ cã ®é chÝnh x¸c cao h¬n
v¨n b¶n cã chøa c©u ‘thu vµ nhËp’.
• C©u hái ®−a vµo cã thÓ ë d¹ng më réng hoÆc ®−îc thÓ hiÖn b»ng c¸ch
dïng mét ký tù ®Æc biÖt thay cho mét tõ hoÆc mét nhãm tõ.
Ch¼ng h¹n, ®−a ra yªu cÇu: T×m v¨n b¶n cã chøa nhãm ký tù lµ an* hoÆc
thuy*. Cã thÓ cho phÐp ®−a ra c©u hái d¹ng nµy, tuy nhiªn nÕu nh− viÖc t×m kiÕm
lµ theo néi dung th× c©u hái trªn hoµn toµn kh«ng cã ý nghÜa g× c¶. §èi víi
tr−êng hîp nµy, hÖ thèng ph¶i tham kh¶o vµ thao t¸c trªn c¸c tõ kho¸ tho¶ m·n
yªu cÇu trªn.
T×m kiÕm theo chñ ®Ò
C©u hái t×m kiÕm theo néi dung cña v¨n b¶n cÇn t×m. Yªu cÇu tr−íc ®ã c¸c
v¨n b¶n ph¶i ®−îc x¸c ®inh bëi mét néi dung theo mét c¸ch nµo ®ã (nhËp b»ng
tay hoÆc ph©n tÝch có ph¸p..). C©u hái ®−a vµo còng cã thÓ ®−îc ph©n tÝch có
ph¸p ®−a ra mét chñ ®Ò t−¬ng øng. PhÐp t×m kiÕm sÏ ®−îc tiÕn hµnh trªn c¸c
b¶ng index cña c¸c chñ ®Ò v¨n b¶n vµ chñ ®Ò c©u hái.
C¸c c©u hái ®−a vµo ®−îc l−u tr÷ trong mét b¶ng. HÖ thèng sÏ qu¶n lý mét
d·y c¸c yªu cÇu nµy trong b¶ng vµ gi¶i quyÕt chóng theo mét c¸ch tuÇn tù.
c/ B¶ng kÕt qu¶
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-69-
B¶ng kÕt qu¶ lµ b¶ng l−u tr÷ toµn bé c¸c kÕt qu¶ t×m ®−îc trong qu¸ tr×nh
t×m kiÕm vµ ph©n líp v¨n b¶n. KÕt qu¶ trong b¶ng kh«ng ph¶i lµ cè ®Þnh mµ chØ
cã gi¸ trÞ ®èi víi tõng c©u hái, t¹i mét thêi ®iÓm nhÊt ®Þnh. Tuú thuéc vµo mçi
ph−¬ng ph¸p xö lý mµ th«ng tin trong b¶ng kÕt qu¶ lµ kh¸c nhau.
V.1.3. C¸c m« h×nh qu¶n lý vµ l−u tr÷ th«ng tin v¨n b¶n
a/ M« h×nh logic
Theo m« h×nh nµy, c¸c tõ cã nghÜa trong v¨n b¶n ®−îc g¸n chØ sè (index),
vµ ng−êi ta qu¶n lý néi dung cña v¨n b¶n theo c¸c chØ sè ®ã.
C¸c luËt l−u tr÷ vµ t×m kiÕm
ViÖc x©y dùng hÖ thèng theo m« h×nh nµy ®−îc thùc hiÖn nh− sau:
• Mçi v¨n b¶n ®Òu ®−îc chØ sè hãa theo luËt:
- Thèng kª c¸c tõ cã nghÜa trong c¸c v¨n b¶n, ®ã lµ nh÷ng tõ mang th«ng
tin chÝnh vÒ c¸c v¨n b¶n l−u gi÷.
- ChØ sè ho¸ c¸c v¨n b¶n ®−a vµo theo danh s¸ch c¸c tõ kho¸ nãi trªn. øng
víi mçi tõ kho¸ trong danh s¸ch sÏ l−u vÞ trÝ xuÊt hiÖn nã trong tõng v¨n b¶n vµ
tªn v¨n b¶n mµ tån taÞ tõ kho¸ ®ã.
• C©u hái t×m kiÕm ®−îc tr×nh bµy d−íi d¹ng logic tøc lµ gåm mét d·y
c¸c phÐp to¸n l«gic (AND, OR, NOT ...) thùc hiÖn trªn c¸c tõ hoÆc
côm tõ.
VÝ dô vÒ c©u hái: T×m v¨n b¶n trong ®ã cã chøa tõ “hÖ thèng” vµ tõ
“CSDL” nh−ng kh«ng chøa tõ “quan hÖ”
ViÖc t×m kiÕm sÏ dùa vµo b¶ng chØ sè ®· t¹o ra vµ tr¶ l¹i kÕt qu¶ lµ c¸c v¨n
b¶n tho¶ m·n toµn bé c¸c ®iÒu kiÖn trªn.
¦u vµ nh−îc ®iÓm
• ¦u ®iÓm
- T×m kiÕm nhanh vµ ®¬n gi¶n.
Thùc vËy gi¶ sö cÇn t×m kiÕm tõ “mÑ”. HÖ thèng sÏ duyÖt trªn b¶ng chØ sè
®Ó trá ®Õn chØ sè t−¬ng øng nÕu nh− tõ “mÑ” tån t¹i trong hÖ thèng. ViÖc t×m
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-70-
kiÕm nµy kh¸ nhanh vµ ®¬n gi¶n khi tr−íc ®ã ta ®· s¾p xÕp b¶ng chØ sè theo vÇn
ch÷ c¸i. PhÐp t×m kiÕm trªn sÏ cã ®é phøc t¹p cÊp nlog2n (víi n lµ sè tõ ®−îc chØ
sè ho¸ trong b¶ng chØ sè). T−¬ng øng víi chØ sè trªn sÏ cho ta biÕt c¸c v¨n b¶n
chøa nã. Nh− vËy nÕu viÖc t×m kiÕm liªn quan ®Õn k tõ th× sè c¸c phÐp to¸n cÇn
thùc hiÖn sÏ lµ k*n*log2n víi n lµ sè v¨n b¶n ®ang cã.
- C©u hái vÒ c¸c tõ t×m kiÕm lµ linh ho¹t.
Cã thÓ dïng c¸c ký tù ®Æc biÖt trong c©u hái t×m kiÕm mµ kh«ng lµm ¶nh
h−ëng ®Õn ®é phøc t¹p cña phÐp t×m kiÕm. VÝ dô tõ “bè%” sÏ tr¶ l¹i tÊt c¶ c¸c
v¨n b¶n cã chøa nh÷ng tõ nh− “bè”, “bèn”, “bèng”, “bèt”.. lµ c¸c tõ ®−îc b¾t
®Çu b»ng tõ “bè”. Ký tù “%” ®−îc gäi lµ kÝ tù thay thÕ.
Ngoµi ra b»ng c¸c phÐp to¸n logic c¸c tõ cÇn t×m cã thÓ ®−îc tæ chøc
thµnh c¸c c©u hái mét c¸ch linh ho¹t. VÝ dô tõ cÇn t×m lµ [vî, vîi, v−¬ng], dÊu [.]
sÏ thÓ hiÖn viÖc t×m kiÕm trªn mét trong sè nhiÒu tõ trong nhãm. §©y thùc ra lµ
mét c¸ch thÓ hiÖn linh ho¹t phÐp to¸n OR trong ®¹i sè logic thay v× ph¶i viÕt lµ
t×m v¨n b¶n cã chøa hoÆc tõ “vî” hoÆc tõ “vîi” hoÆc tõ “v−¬ng”..
• Nh−îc ®iÓm
- Ng−êi t×m kiÕm ph¶i cã chuyªn m«n trong lÜnh vùc m×nh t×m kiÕm.
Thùc vËy, do c©u hái ®−a vµo d−íi d¹ng logic nªn kÕt qu¶ tr¶ l¹i còng cã
gi¸ trÞ Boolean, mét sè v¨n b¶n sÏ ®−îc tr¶ l¹i khi tho¶ m·n mäi ®iÒu kiÖn ®−a
vµo. Nh− vËy, muèn t×m ®−îc v¨n b¶n theo néi dung th× ng−êi t×m kiÕm ph¶i biÕt
chÝnh x¸c vÒ c¸c tõ ng÷ cã trong v¨n b¶n ®ã vµ mèi quan hÖ gi÷a chóng, g©y khã
kh¨n cho viÖc t×m kiÕm.
- ViÖc chØ sè hãa v¨n b¶n lµ phøc t¹p vµ tèn nhiÒu thêi gian.
- Tèn nhiÒu kh«ng gian l−u tr÷ c¸c b¶ng chØ sè.
- C¸c v¨n b¶n ®−îc t×m kh«ng thÓ s¾p xÕp theo ®é chÝnh x¸c cña chóng.
Do gi¸ trÞ tr¶ l¹i lµ toµn bé c¸c v¨n b¶n tho¶ m·n ®iÒu kiÖn nªn sè v¨n
b¶n tr¶ l¹i kh«ng biÕt tr−íc víi sè l−îng cã thÓ lµ rÊt nhiÒu. MÆt kh¸c l¹i kh«ng
cã mét tiªu chuÈn nµo ®Ó ®¸nh gi¸ chÊt l−îng ®é liªn quan cña c¸c v¨n b¶n tr¶
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-71-
l¹i víi c©u hái ®Æt ra trong khi nh÷ng ng−êi t×m kiÕm th−êng xuyªn muèn tr¶ l¹i
sè c¸c v¨n b¶n cã gi¸ trÞ lµ Ýt nhÊt víi ®é liªn quan lµ lín nhÊt. §iÒu nµy vÉn cã
thÓ gi¶i quyÕt ®−îc b»ng c¸ch l−u c¸c chØ sè trong qu¸ tr×nh chØ sè hãa nh−ng rÊt
phøc t¹p trong viÖc truy xuÊt vµ tÝnh to¸n sè liÖu.
- C¸c b¶ng chØ sè kh«ng linh ho¹t. Khi c¸c tõ kho¸ trong b¶ng thay ®æi
(thªm, xo¸..) th× chØ sè cña c¸c v¨n b¶n còng ph¶i thay ®æi theo.
b/ M« h×nh ph©n tÝch có ph¸p
ThuËt to¸n l−u tr÷ vµ t×m kiÕm
ViÖc x©y dùng hÖ thèng theo m« h×nh nµy ph¶i tu©n theo c¸c luËt sau:
• Mçi v¨n b¶n ®Òu ph¶i ®−îc ph©n tÝch có ph¸p vµ tr¶ l¹i th«ng tin chi tiÕt vÒ
chñ ®Ò cña v¨n b¶n ®ã. Chñ ®Ò cña c¸c v¨n b¶n ®−îc t¹o ra ë nhiÒu møc
trõu t−îng kh¸c nhau phô thuéc vµo møc ®é chi tiÕt néi dung v¨n b¶n cña
yªu cÇu ng−êi dïng.
• C¸c v¨n b¶n ®−îc qu¶n lý th«ng qua c¸c chñ ®Ò nµy ®Ó cã thÓ t×m kiÕm
®−îc khi cã yªu cÇu.
• C©u hái t×m kiÕm sÏ dùa trªn c¸c chñ ®Ò trªn, nh− vËy tr−íc ®ã sÏ tiÕn hµnh
chØ sè hãa theo chñ ®Ò.
• C¸ch chØ sè hãa theo chñ ®Ò gièng nh− khi chØ sè ho¸ theo v¨n b¶n nh−ng
chØ sè hãa trªn toµn bé c¸c tõ cã trong chñ ®Ò ®ã.
• C©u hái ®−a vµo còng cã thÓ ®−îc ph©n tÝch có ph¸p ®Ó tr¶ l¹i mét chñ ®Ò
vµ t×m kiÕm trªn chñ ®Ò ®ã.
Nh− vËy bé phËn xö lý chÝnh ®èi víi mét hÖ CSDL x©y dùng theo m« h×nh
nµy chÝnh lµ hÖ thèng ph©n tÝch có ph¸p vµ ®o¸n nhËn néi dung v¨n b¶n.
§¸nh gi¸ chung vÒ ph−¬ng ph¸p
ChÊt l−îng cña hÖ thèng theo ph−¬ng ph¸p nµy hoµn toµn phô thuéc vµo
chÊt l−îng cña hÖ thèng ph©n tÝch có ph¸p vµ ®o¸n nhËn néi dung v¨n b¶n. Trªn
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-72-
thùc tÕ viÖc x©y dùng hÖ thèng nµy lµ rÊt phøc t¹p, phô thuéc vµo ®Æc ®iÓm cña
tõng ng«n ng÷, vµ ®a sè vÉn ch−a ®¹t ®−îc ®é chÝnh x¸c cao.
Tuy nhiªn, khi ®· cã chñ ®Ò th× viÖc t×m kiÕm theo ph−¬ng ph¸p nµy l¹i
kh¸ hiÖu qu¶ do t×m kiÕm nhanh vµ chÝnh x¸c. MÆt kh¸c, ®èi víi nh÷ng ng«n
ng÷ ®¬n gi¶n vÒ mÆt ng÷ ph¸p th× viÖc ph©n tÝch trªn lµ cã thÓ ®¹t ®−îc møc ®é
chÝnh x¸c cao vµ chÊp nhËn ®−îc.
c/ M« h×nh vector
M« h×nh vector sÏ ®−îc tr×nh bµy chi tiÕt trong phÇn sau (môc IV.2.1).
Trong m« h×nh nµy, viÖc l−u tr÷ vµ t×m kiÕm dùa theo sù xuÊt hiÖn c¸c tõ cã
nghÜa trong c©u hái vµ c¸c tµi liÖu t−¬ng øng. M« h×nh sö dông mét vector vÒ sù
xuÊt hiÖn c¸c tõ cã nghÜa trong v¨n b¶n ®Ó biÓu diÔn v¨n b¶n vµ hÖ thèng t×m
kiÕm dùa trªn viÖc xem xÐt c¸c vector nµy. C¸c v¨n b¶n ®−îc l−u tr÷ ngoµi, viÖc
hái vµ t×m kiÕm theo néi dung ®−îc thùc hiÖn theo c¸c tõ.
IV.2. thuËt to¸n t×m kiÕm vµ Ph©n líp trong c¬ së d÷
liÖu full-text theo m« h×nh vector c¶i tiÕn
M« h×nh vector lµ m« h×nh tæ chøc qu¶n lý, t×m kiÕm c¸c tµi liÖu Full-text
theo c¸c tõ vµ côm tõ. Nã cho phÐp ng−êi dïng t×m ra ®−îc nh÷ng tµi liÖu cÇn
thiÕt khi nhËp vµo mét sè tõ hoÆc côm tõ. HÖ thèng sÏ ®−a ra danh s¸ch c¸c tµi
liÖu cã chøa c¸c tõ ®ã. §Æc ®iÓm næi bËt cña m« h×nh nµy lµ c¸c tµi liÖu l−u tr÷
vµ c©u hái t×m kiÕm ®Òu biÓu diÔn d−íi d¹ng mét vector. ViÖc t×m kiÕm tµi liÖu
®−îc thùc hiÖn trªn hÖ thèng c¸c vector.
Trong phÇn nµy chóng ta tr×nh bµy chi tiÕt vÒ m« h×nh vector víi mét sè
c¶i tiÕn nhá cña chóng ta, thuËt to¸n t×m kiÕm vµ mét sè thuËt to¸n ph©n líp dùa
trªn m« h×nh ®· c¶i tiÕn ®ã.
IV.2.1. M« h×nh vector c¶i tiÕn vµ thuËt to¸n t×m kiÕm
a/ ThuËt to¸n l−u tr÷
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-73-
Gi¶ sö D= {d1, d2, d3, ... , dn ...} lµ tËp hîp c¸c v¨n b¶n mµ hÖ thèng cÇn
qu¶n lý, trong ®ã di lµ c¸c v¨n b¶n mang th«ng tin thuéc lÜnh vùc cÇn quan t©m.
T = {t1, t2, t3 , ... , tm} lµ tËp hîp h÷u h¹n c¸c tõ cã nghÜa trong lÜnh vùc
®ang ®−îc quan t©m cã trong c¸c v¨n b¶n vµ ®−îc gäi lµ c¸c tõ kho¸.
HÖ thèng biÓu diÔn néi dung cña v¨n b¶n th«ng qua viÖc kiÓm tra sù cã
mÆt cña mçi tõ kho¸ trong v¨n b¶n b»ng c¸ch thùc hiÖn mét ¸nh x¹ F tõ D vµo V
trong ®ã V lµ tËp hîp c¸c vector cã m thµnh phÇn (m lµ sè l−îng tõ khãa trong
hÖ thèng).
F: D→V
Víi mçi v¨n b¶n d thuéc tËp hîp D, F(d) sÏ x¸c ®Þnh mét vector v: v(d) =
(v1, v2, ..., vm) trong ®ã vi gi¸ trÞ ph¶n ¸nh sù xuÊt hiÖn cña tõ khãa ti trong v¨n
b¶n d, vi lµ 0 - khi kh«ng xuÊt hiÖn hoÆc 1 - khi cã xuÊt hiÖn (kh«ng kÓ lµ xuÊt
hiÖn bao nhiªu lÇn). Nh− vËy, thµnh phÇn trong vector v ®−îc x¸c ®Þnh theo luËt
sau:
• NÕu ti cã mÆt trong d ta cã vi = 1,
• NÕu ti kh«ng cã mÆt trong d ta cã vi = 0
VÝ dô, víi D = {d1,d2} trong ®ã:
d1 lµ “Céng hoµ, x· héi, chñ nghÜa, ViÖt Nam”
d2 lµ “§éc lËp, tù do, h¹nh phóc”
T= {Céng hoµ, ®éc lËp, tù do, chñ nghÜa, b¶o thñ, ®¶ng}
ta cã v(d1) = (1,0,0,1,0,0) vµ v(d2) = (0,1,1,0,0,0)
C©u hái t×m kiÕm Q thuéc d¹ng t×m kiÕm theo tõ vµ ®−îc ®−a vµo d−íi
d¹ng liÖt kª sù xuÊt hiÖn c¸c tõ trong ng«n ng÷ ®· cho (kh«ng nhÊt thiÕt lµ tõ
khãa) cã liªn quan ®Õn néi dung v¨n b¶n cÇn t×m, Q = {q1, q2, ..., qk}.
Ta còng lÊy F(Q) gièng nh− ®· lµm víi v¨n b¶n d, kÕt qu¶ ®−îc mét vector
P = (p1, p2, ... , pm)
Víi mçi v¨n b¶n d, ®Æt
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-74-
A(d) = P * v(d) = vp i
m
i
i *
1
∑
=
(4.1)
Khi ®ã, hÖ sè A(d) ®−îc coi lµ møc ®é liªn quan cña v¨n b¶n d ®èi víi néi
dung cÇn t×m.
VÝ dô, gi¶ sö Q = {§¶ng, b¶o thñ, chiÕm, ®a sè, phiÕu bÇu} th× P = (0, 0,
0, 0, 1, 1).
Ta cã mét sè nhËn xÐt sau ®©y:
• A=0 khi:
- Víi mäi i, pi=0 hay c¸c tõ trong c©u hái kh«ng cã mÆt trong tËp tõ khãa.
- Víi mäi j, vj = 0 hay c¸c tõ kho¸ kh«ng cã mÆt trong v¨n b¶n cÇn l−u tr÷,
- Víi mäi j, vj*pj=0 hay mäi tõ cã trong c©u hái t×m kiÕm ®Òu kh«ng cã
trong v¨n b¶n d.
• A>0 khi tån t¹i j tho¶ m·n vj*pj ≠ 0 hay còng vËy, tån t¹i Ýt nhÊt mét tõ
kho¸ võa cã mÆt trong v¨n b¶n d võa cã mÆt trong c©u hái t×m kiÕm.
• A = m khi mäi tõ khãa trong tõ ®iÓn ®Òu xuÊt hiÖn trong v¨n b¶n d.
Theo c¸ch tÝnh trªn khi ®−a vµo mét c©u hái q, víi mçi v¨n b¶n d, sÏ cho
t−¬ng øng mét gi¸ trÞ A(d). NÕu A(d) cµng lín th× cã thÓ quan niÖm r»ng ®é liªn
quan cña v¨n b¶n víi c©u hái cµng nhiÒu. Trong c¸c hÖ thèng thùc tÕ, kh«ng lµm
gi¶m tæng qu¸t ta lu«n gi¶ thiÕt lµ trong v¨n b¶n hay c©u hái cã Ýt nhÊt mét tõ
khãa.
ThuËt to¸n t×m kiÕm theo c©u hái Q (c©u hái Q ®−îc tr×nh bµy qua vector
P) ®−îc m« t¶ nh− sau:
- Víi mäi d ∈ D, tÝnh gi¸ trÞ A(d) = P * v(d) ,
- S¾p xÕp c¸c gi¸ trÞ A(d) theo thø tù gi¶m dÇn,
- HiÖn néi dung c¸c v¨n b¶n d theo thø tù gi¶m dÇn ®· cã cho ®Õn khi tháa
m·n yªu cÇu ng−êi dïng.
b/ M« h×nh vector c¶i tiÕn
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-75-
ViÖc c¶i tiÕn m« h×nh vector trong phÇn nµy lµ sù ph¸t triÓn mét sè c¶i tiÕn
®· ®−îc ®Ò cËp trong [4].
C¶i tiÕn theo h−íng tõ ®ång nghÜa vµ sè lÇn xuÊt hiÖn
Mét ®iÒu cã tÝnh phæ biÕn lµ trong mäi ng«n ng÷ tù nhiªn lu«n tån t¹i
nh÷ng tõ ®ång nghÜa, ch¼ng h¹n, trong tiÕng ViÖt c¸c tõ “an d−ìng”, “an trÝ” cã
cïng mét nghÜa lµ víi tõ "nghØ". Nh− vËy, cïng mét vÊn ®Ò cã thÓ dïng nhiÒu tõ
kh¸c nhau ®Ó biÓu ®¹t ý nghÜa cña nã. Trong khi ®ã néi dung trong c¸c c©u hái
th«ng th−êng chØ ®−îc diÔn ®¹t b»ng mét tõ duy nhÊt. Do vËy, trong qu¸ tr×nh
t×m kiÕm nÕu nh− hÖ thèng ®−îc tæ chøc kh«ng tèt th× sÏ chØ t×m kiÕm ®−îc c¸c
tµi liÖu cã chøa c¸c tõ ®−îc ®−a ra trong c©u hái mµ kh«ng t×m ®−îc c¸c tµi liÖu
cã cïng néi dung víi c¸c c¸ch thÓ hiÖn kh¸c.
C¸c tõ thuéc nhãm tõ ®ång nghÜa ®Òu thuéc tËp c¸c tõ cã nghÜa ®· ®−îc
liÖt kª khi thiÕt kÕ hÖ thèng. Trong mét nhãm c¸c tõ ®ång nghÜa, mÆc dï cïng
biÓu ®¹t mét néi dung nh−ng vai trß cña c¸c tõ cã thÓ sÏ kh¸c nhau do c¸c lý do
sau: Víi néi dung ®ã, tõ nµy hay ®−îc sö dông h¬n tõ kia. Ch¼ng h¹n, c¸c tõ
trong nhãm ®ång nghÜa (nghØ, an d−ìng, an trÝ) th× tõ “nghØ” ®−îc sö dông nhiÒu
h¬n lµ “an d−ìng” hay “an trÝ”. Chóng ta chän trong nhãm tõ ®ång nghÜa mét tõ
®−îc sö dông nhiÒu nhÊt lµm tõ ®¹i diÖn vµ chØ tõ ®¹i diÖn xuÊt hiÖn trong b¶ng
tõ khãa T. Mét b¶ng tra cøu vÒ c¸c tõ ®ång nghÜa liªn quan ®Õn mét tõ kho¸
®−îc bæ sung trong thuËt to¸n. Mét tõ khãa víi nhãm ®ång nghÜa chØ cã tõ khãa
®ã gäi lµ tõ ®¬n nghÜa. Sau khi ®· ph©n tÝch nh− trªn, ta cã thÓ biÓu diÔn hÖ sè
cña c¸c tõ trong nhãm tõ ®ång nghÜa trªn nh− sau (mäi tõ ®¹i diÖn cã hÖ sè 10):
Tõ “nghØ” cã hÖ sè = 10
Tõ “an d−ìng” cã hÖ sè = 9
Tõ “an trÝ” cã hÖ sè = 8.
ViÖc thèng kª c¸c tõ ®ång nghÜa vµ ®¸nh gi¸ vÒ hÖ sè cña c¸c tõ ®ång
nghÜa trong nhãm lµ mét viÖc kh¸ phøc t¹p ®ßi hái ph¶i cã kiÕn thøc vÒ ng÷
nghÜa cu¶ tõ trong ng«n ng÷. V× vËy c¸c nhãm tõ ®ång nghÜa trong hÖ thèng cÇn
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-76-
ph¶i th«ng qua viÖc ®¸nh gi¸ tõ c¸c nhµ ng«n ng÷ häc. Khi hÖ thèng cho phÐp
nhËp l¹i hoÆc bæ sung c¸c nhãm tõ ®ång nghÜa ®Ó cã thÓ lµm t¨ng ®é chÝnh x¸c
th× hiÖu qu¶ hÖ thèng sÏ t¨ng.
Mét néi dung cÇn quan t©m lµ sè lÇn xuÊt hiÖn cña tõ kho¸ (cïng c¸c tõ
®ång nghÜa víi nã) trong v¨n b¶n. Mét c¸ch ®Æt vÊn ®Ò kh¸ hîp lý lµ nÕu v¨n b¶n
D gÆp nhiÒu tõ kho¸ nµo ®ã h¬n v¨n b¶n D' th× D cã thÓ mang nghÜa cña tõ khãa
®ã nhiÒu h¬n v¨n b¶n D'. ChÝnh v× lÏ ®ã, cïng víi gi¶i ph¸p tõ ®ång nghÜa, chóng
ta nhÊn m¹nh thªm sè lÇn xuÊt hiÖn tõ khãa trong v¨n b¶n. Nh÷ng néi dung tr×nh
bµy d−íi ®©y thÓ hiÖn c¸c c¸ch ®Æt vÊn ®Ò trªn.
§Æt tËp mäi tõ cã nghÜa T* = T ∪ {tõ ®ång nghÜa} vµ hµm h: T* → N (sè
nguyªn d−¬ng) trong ®ã, ∀t∈T*: h(t) chÝnh lµ hÖ sè cña tõ t.
ViÖc t×m kiÕm vµ m· ho¸ sÏ ®−îc tiÕn hµnh trªn hÖ thèng c¸c tõ khãa.
Trong b¶ng vector m· ho¸, mçi tõ ®ång nghÜa sÏ ®−îc ®¹i diÖn bëi mét m· nhãm
duy nhÊt, nh− vËy sÏ gi¶m ®−îc ®é dµi vector m· ho¸ ®ång thêi gi¶m ®−îc c¸c
phÐp tÝnh cÇn thiÕt trong qu¸ tr×nh t×m kiÕm. Khi m· ho¸ tµi liÖu (nhê ¸nh x¹ F),
c¸ch tÝnh gi¸ trÞ vector cña mét tõ ®ång nghÜa còng kh¸c so víi c¸ch tÝnh gi¸ trÞ
vector cña mét tõ ®¬n nghÜa vµ ®−îc tÝnh theo c¸ch d−íi ®©y.
Víi v¨n b¶n d, F(d) = v = (v1, v2, ..., vm) ®−îc tÝnh nh− sau:
vi = ∑
∩∈ dTt
th
*
)(
Víi c©u hái Q = {q1, q2, ..., qk} thuËt to¸n thiÕt lËp vector P = (p1, p2, ... ,
pm) theo ¸nh x¹ tõ qi tíi tõ khãa t−¬ng øng (nÕu cã). Nh− vËy nÕu qi lµ tõ khãa tj
(hoÆc tõ ®ång nghÜa víi tj) th× pj = 1 cßn ng−îc l¹i pj = 0.
Vµ nh− vËy, hÖ sè liªn quan A = P * v theo c«ng thøc (4.1) cho phÐp lµm
t¨ng ®é chÝnh x¸c cña hÖ thèng.
Mét vÊn ®Ò ®¸ng quan t©m song kh«ng xem xÐt trong hÖ thèng cña chóng
ta lµ vÇn ®Ò ®a nghÜa cña hÖ thèng tõ cã nghÜa. §©y lµ mét néi dung rÊt lý thó ®ßi
hái nhiÒu c«ng søc nghiªn cøu.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-77-
C¶i tiÕn theo h−íng g¸n träng sè cho c¸c tõ thuéc c©u hái
C©u hái ®−a vµo d−íi d¹ng Q = {q1, q2, ..., qk} trong ®ã mçi tõ qi l¹i cã
mét hÖ sè ci thÓ hiÖn tÇm quan träng kh¸c nhau cña c¸c tõ trong c©u hái. ¸nh x¹
Q thµnh vector P (p1, p2, ..., pm) th× gi¸ trÞ cña pi ®−îc tÝnh theo c¸c träng sè nµy,
tøc lµ nÕu qi lµ tõ khãa tj (hoÆc tõ ®ång nghÜa víi tj) th× pj = ci (träng sè cña qi)
cßn ng−îc l¹i pj = 0.
HÖ sè liªn quan A = P * v theo c«ng thøc (4.1) còng thÓ hiÖn ®−îc träng
sè cña c¸c tõ trong c©u hái Q.
c/ §¸nh gi¸ vÒ c¸c −u nh−îc ®iÓm cña thuËt to¸n
• ¦u ®iÓm
- C¸c v¨n b¶n tr¶ l¹i cã thÓ ®−îc s¾p xÕp theo møc ®é liªn quan
®Õn néi dung yªu cÇu do trong phÐp thö mçi v¨n b¶n ®Òu tr¶ l¹i chØ sè
®¸nh gi¸ ®é liªn quan cña nã ®Õn néi dung yªu cÇu.
- ViÖc ®−a ra c¸c c©u hái t×m kiÕm lµ dÔ dµng vµ kh«ng yªu cÇu
ng−êi t×m kiÕm cã tr×nh ®é chuyªn m«n cao vÒ vÊn ®Ò ®ã.
- TiÕn hµnh l−u tr÷ vµ t×m kiÕm ®¬n gi¶n h¬n ph−¬ng ph¸p logic.
- Ng−êi t×m kiÕm cã thÓ tù ®−a ra sè c¸c v¨n b¶n tr¶ l¹i cã møc ®é
chÝnh x¸c cao nhÊt.
- M« h×nh l−u tr÷ vµ t×m kiÕm vector lµ phï hîp víi thuËt to¸n
ph©n líp v¨n b¶n (®−îc tr×nh bµy chi tiÕt trong phÇn IV.2.2-IV.2.4) võa
cã t¸c dông trong viÖc ph©n lo¹i v¨n b¶n l¹i cã ý nghÜa hçi trî cho bµi
to¸n t×m kiÕm v¨n b¶n.
• Nh−îc ®iÓm
- ViÖc t×m kiÕm tiÕn hµnh kh¸ chËm khi hÖ thèng c¸c tõ kho¸ lµ
lín do ph¶i tÝnh to¸n trªn toµn bé c¸c vector cña c¸c v¨n b¶n.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-78-
Khi biÓu diÔn c¸c vector víi c¸c hÖ sè lµ sè tù nhiªn lµm t¨ng møc ®é
chÝnh x¸c cña phÐp t×m kiÕm nh−ng sÏ lµm gi¶m tèc ®é tÝnh to¸n ®i rÊt nhiÒu do
c¸c phÐp nh©n vector ph¶i tiÕn hµnh trªn c¸c sè tù nhiªn hoÆc sè thùc, h¬n n÷a
viÖc l−u tr÷ c¸c vector sÏ phøc t¹p vµ tèn kÐm.
- HÖ thèng kh«ng linh ho¹t khi l−u tr÷ c¸c tõ kho¸. ChØ cÇn mét thay ®æi
rÊt nhá trong b¶ng tõ kho¸ sÏ kÐo theo hoÆc lµ vector ho¸ l¹i toµn bé c¸c v¨n b¶n
l−u tr÷ hoÆc sÏ bá qua c¸c tõ cã nghÜa bæ sung trong c¸c v¨n b¶n ®−îc m· ho¸
tr−íc ®ã.
Tuy nhiªn víi nh÷ng −u ®iÓm nhÊt ®Þnh, sù sai sè nhá nµy cã thÓ ®−îc bá
qua do hiÖn t¹i sè c¸c tõ cã nghÜa ®−îc m· ho¸ ®· kh¸ ®Çy ®ñ tr−íc khi tiÕn hµnh
m· ho¸ c¸c v¨n b¶n. V× vËy, ph−¬ng ph¸p vector vÉn ®−îc quan t©m vµ sö dông.
d/ VÒ tèc ®é thùc hiÖn ch−¬ng tr×nh
Tèc ®é thùc hiÖn ch−¬ng tr×nh ®−îc ®¸nh gi¸ qua tèc ®é trong qu¸ tr×nh
chÕ biÕn, l−u tr÷ tµi liÖu vµ tèc ®é t×m kiÕm tµi liÖu.
Tµi liÖu tr−íc khi l−u tr÷ trong hÖ thèng sÏ ®−îc m· ho¸ thµnh c¸c vector
b»ng c¸ch duyÖt tõng tõ trong tµi liÖu. Víi mét sè l−îng lín c¸c tõ kho¸ ®ång
thêi sè c¸c tõ ng÷ trong mét tµi liÖu lµ nhiÒu th× qu¸ tr×nh nµy diÔn ra kh¸ chËm.
ViÖc t×m kiÕm tµi liÖu diÔn ra gåm hai qu¸ tr×nh: qu¸ tr×nh m· ho¸ c©u hái
vµ qu¸ tr×nh thao t¸c trªn c¸c vector. Do sè l−îng tõ trong c©u hái ®−a vµo th«ng
th−êng lµ Ýt nªn thêi gian m· ho¸ c©u hái t−¬ng ®èi nhá. Trong khi ®ã thêi gian
dµnh cho c¸c thao t¸c trªn c¸c vector phô thuéc hoµn toµn vµo ®é dµi c¸c vector
hay sè l−îng c¸c phÐp tÝnh gi÷a c©u hái víi c¸c vector m· ho¸ cña tµi liÖu.
HÖ thèng x©y dùng theo ph−¬ng ph¸p vector ph¶i qu¶n lý c¸c tõ cã nghÜa
trong tµi liÖu. Sè l−îng c¸c tõ cã nghÜa ®−îc qu¶n lý trong hÖ thèng phô thuéc
vµo yªu cÇu ®èi víi hÖ thèng ®ã.
§Ó h¹n chÕ c¸c phÐp tÝnh trong giai ®o¹n nµy ta cã thÓ gi¶m ®é dµi cña
vector m· ho¸ c¸c tµi liÖu b»ng viÖc tõ khãa ®¹i diÖn cho mçi nhãm tõ ®ång
nghÜa.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-79-
IV.2.2. ThuËt to¸n ph©n líp Bayes thø nhÊt
T−¬ng øng víi c¸ch thøc mµ Dunja Mladenic' ®· tr×nh bµy trong [11], kÕt
hîp víi m« h×nh vector trªn ®©y, chóng ta sö dông thuËt to¸n ph©n líp Bayes ®Ó
ph©n líp mét tµi liÖu theo n nhãm tµi liÖu ®· ®Þnh tr−íc. ThuËt ng÷ "catalog"
t−¬ng øng víi thuËt ng÷ "nhãm" trong bµi to¸n ph©n líp. Khi ¸p dông thuËt to¸n
ph©n líp Bayes, viÖc x¸c ®Þnh x¸c suÊt tiªn nghiÖm vµ x¸c suÊt hËu nghiÖm hîp
lý lµ mét vÊn ®Ò cã tÝnh cèt lâi. Tån t¹i hai bé ph©n líp Bayes ®Ó gi¶i quyÕt bµi
to¸n ph©n líp tµi liÖu nãi trªn. Trong phÇn nµy, chóng ta nghiªn cøu bé ph©n líp
Bayes thø nhÊt.
Trong c¸c thuËt to¸n ph©n líp d−íi ®©y, sö dông m« h×nh vector ®Ó biÓu
diÔn c¸c tµi liÖu.
Ngoµi c¸c tham sè c¬ b¶n cña m« h×nh vector, hÖ thèng cßn cÇn thªm c¸c
tham sè sau ®©y:
• TËp hîp n catalog {C1, C2, ..., Cn} trong ®ã mçi catalog Ci cã mét sè tµi
liÖu mÉu chØ dÉn vÒ catalog ®ã. Trong m« h×nh nµy, th«ng tin vÒ mét
catalog chØ cã ®−îc tõ nhãm c¸c tµi liÖu mÉu t−¬ng øng víi nã. ViÖc chän
tµi liÖu mÉu vµo mÉu catalog dùa theo kinh nghiÖm cña c¸c chuyªn gia.
• X¸c suÊt P(Ci): x¸c suÊt ®−îc g¸n cho c¸c catalog Ci. Gi¸ trÞ nµy mang ý
nghÜa lµ tµi liÖu ®−îc ph©n kh«ng ®Òu vµo c¸c catalog. §iÒu nµy b¾t nguån
tõ thùc tÕ lµ sè l−îng c¸c tµi liÖu trong c¸c catalog lµ kh«ng ®Òu nhau. Do
vËy, tõng catalog sÏ ®−îc g¸n mét gi¸ trÞ P(Ci). Catalog nµo cã gi¸ trÞ P(Ci)
lín chøng tá sè l−îng c¸c tµi liÖu trong nã lµ nhiÒu. §©y lµ mét trong c¸c
gi¸ trÞ cã ¶nh h−ëng ®Õn ®é chÝnh x¸c cña bé ph©n líp.
• Ng−ìng CtgTshi ®Ó kiÓm tra xem tµi liÖu Doc ®· cho cã ®óng thuéc vµo
catalog Ci ®ã hay kh«ng, mçi catalog cã mét ng−ìng riªng.
Víi mçi líp catalog C, sau khi thùc hiÖn ph©n líp, hÖ thèng sÏ sinh ra mét
gi¸ trÞ t−¬ng øng P(C/Doc) - ®©y lµ x¸c suÊt ®Ó ph©n tµi liÖu Doc thuéc vµo C.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-80-
Tµi liÖu Doc sÏ ®−îc coi lµ thuéc vµo C nÕu P(C/Doc) ≥ CtgTsh t−¬ng øng,
ng−îc l¹i, khi (P(C/Doc) < CtgTsh) th× tµi liÖu Doc kh«ng thuéc vµo catalog C.
KÕt qu¶ lµ hÖ thèng sinh ra c¸c x¸c suÊt P(Ci/Doc) vµ cuèi cïng sÏ quyÕt
®Þnh xem tµi liÖu Doc ®· cho thuéc vµo catalog nµo. C¸c x¸c suÊt P(Ci/Doc)
®−îc gäi lµ x¸c suÊt hËu nghiÖm.
Gi¸ trÞ P(C/Doc) - x¸c suÊt tµi liÖu Doc thuéc vµo catalog C ®−îc tÝnh to¸n
dùa vµo c«ng thøc sau:
∑ ∏
∏
= ∈
∈
×
×
= n
i TF
DocFTF
ili
DocFTF
j
TF
l
l
j
j
CFPCP
CFPCP
DocCP
1
),(
),(
)()(
)()(
)( (4.2)
vµ
∑
=
+
+= n
i
i
j
j
CFTFT
CFTF
CFP
1
),(
),(1
)( (4.3)
Trong ®ã:
• Fj lµ tõ thø j trong tËp tõ khãa.
• TF(Fj, C) lµ tÇn suÊt cña tõ Fj trong tµi liÖu Doc.
• TF(Fj, C) lµ tÇn suÊt cña tõ Fj trong Catalog C.
• | T | lµ sè l−îng c¸c tõ cã trong tËp tõ khãa T.
• P(Fj, C) lµ x¸c suÊt cã ®iÒu kiÖn ®Ó tõ Fj cã mÆt trong tµi liÖu cña
Catalog C.
• n lµ sè l−îng Catalog cã trong hÖ thèng.
Trong c«ng thøc (4.3) x¸c suÊt P(Fj/C) ®−îc tÝnh sö dông −íc l−îng x¸c
suÊt Laplace. §Ó tr¸nh tr−êng hîp tÇn suÊt cña tõ Fj trong Catalog C b»ng 0 - tøc
lµ tõ Fj kh«ng cã trong Catalog C th× tö sè ®−îc céng thªm 1.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-81-
Tuy nhiªn cã mét ®iÒu quan träng ®Ó lµm gi¶m sù phøc t¹p trong tÝnh to¸n
vµ lµm gi¶m bít thêi gian tÝnh to¸n trong c«ng thøc (4.2) ta ®Ó ý thÊy r»ng:
Kh«ng ph¶i tµi liÖu Doc ®· cho ®Òu chøa tÊt c¶ c¸c tõ trong tËp tõ khãa T. Do ®ã,
TF(Fj , Doc) =0 khi tõ khãa Fj thuéc T nh−ng kh«ng thuéc tµi liÖu Doc. Vµ kÕt
qu¶ lµ kÐo theo lµ P(Fj|C)
TF(Fj,Doc)=1 t¹i tõ khãa Fj ®ã. Vµ nh− vËy ta cã thÓ bá
qua tõ khãa Fj nµy mµ kh«ng lµm ¶nh h−ëng ®Õn c«ng thøc (4.2). Vµ c«ng thøc
cuèi cïng cña c«ng thøc (4.2) ®−îc viÕt l¹i nh− sau:
( )
( )
( )P C Doc
P C P F C
P C P F C
j
TF F Doc
F Doc
i
n
i l i
TF F Doc
F Doc
j
j
l
l
=
×
×
∈
= ∈
∏
∑ ∏
( )
( )
( , )
( , )
1
(4.2’)
vµ t−¬ng tù (4.3) ®−îc viÕt l¹i nh− sau:
( )
∑
=
+
+= n
i
i
j
j
CFTFT
CFTF
CFP
1
),(
),(1
(4.3’)
víi Fj ∈Doc.
Nh− vËy, bé ph©n líp kh«ng ph¶i duyÖt toµn bé tËp tõ khãa T mµ chØ ph¶i
duyÖt trªn Vector cña tµi liÖu Doc.
Mét ®iÒu ®¸ng chó ý n÷a lµ: C¸c gi¸ trÞ P(Ci) vµ c¸c ng−ìng CtgTshi lµ c¸c
gi¸ trÞ ®−îc x¸c ®Þnh tr−íc th«ng qua nh÷ng ph©n tÝch tõ thùc tÕ. ViÖc x¸c ®Þnh
c¸c tham sè nµy cµng chÝnh x¸c th× cµng lµm t¨ng ®é tin cËy cña bé ph©n líp.
§Ó hiÓu râ h¬n sù ho¹t ®éng cña bé ph©n líp, ta xem xÐt vÝ dô 4.1 sau ®©y.
VÝ dô 4.1
Gi¶ sö cã hai Catalog C1 vµ C2 cã c¸c tham sè nh− sau:
Tham sè C1 C2
P(C) 0.5 0.5
Ng−ìng 0.75 0.6
Sè l−îng c¸c tõ khãa trong tËp tõ khãa T (tøc | T |) |µ 75.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-82-
HÖ thèng tõ khãa riªng cña c¸c Catalog (tøc lµ c¸c tõ xuÊt hiÖn cña c¸c tõ
trong c¸c Catalog) C1 vµ C2 lµ nh− sau:
Catalog C1 Catalog C2
Tõ khãa TÇn suÊt Tõ khãa TÇn suÊt
X· héi 10 X· héi 15
Chñ nghÜa 20 T− b¶n 30
Céng hoµ 15
ViÖt Nam 30
Tµi liÖu Doc cã néi dung: “X· héi chñ nghÜa”.
Vector cña tµi liÖu nµy lµ: ((X· héi,1), (Chñ nghÜa, 1));
Nh− vËy ta cã c¸c gi¸ trÞ tÝnh to¸n nh− sau:
Víi Catalog C1:
P(X· héi | C1)= 11/110;
P(Chñ nghÜa | C1)= 21/110;
Víi Catalog C2:
P(X· héi | C2)= 16/90;
P(Chñ nghÜa | C2)= 1/90;
( )
i
n
i l i
TF F Doc
F Doc
P C P F C l
l= ∈
∑ ∏×
1
( )
( , )
= 0.6464;
P(C1 | Doc) = 0.914;
P(C2 | Doc) = 0.156;
Nh− vËy P(C1 | Doc)= 0.914 > 0.75; do ®ã nã ®−îc ph©n vµo trong Catalog
C1.
Cßn P(C2 | Doc) = 0.156 < 0.6 do ®ã nã kh«ng ®−îc ph©n vµo trong
Catalog C2.
Bé ph©n líp ®· ph©n tµi liÖu Doc ®· cho vµo trong catalog C1 víi ®é chÝnh
x¸c lµ 0.914%. Nh− vËy c¸c tµi liÖu tuy ®−îc ph©n vµo cïng mét catalog nh−ng
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-83-
cã thÓ cã c¸c gi¸ trÞ P(C |Doc) hoµn toµn kh¸c nhau, gi¸ trÞ nµy cña chóng cµng
cao th× ®é chÝnh x¸c cña nã cµng cao.
IV.2.3. ThuËt to¸n ph©n líp Bayes thø hai
Bé ph©n líp thø hai còng cã qu¸ tr×nh ho¹t ®éng hoµn toµn gièng bé ph©n
líp Bayes thø nhÊt. Tuy nhiªn, c¸ch biÓu diÔn tµi liÖu Doc vµ c¸c tÝnh gi¸ trÞ P(C
| Doc) lµ kh¸c víi bé ph©n líp thø nhÊt. C¸c th«ng tin sau còng ®−îc ®ßi hái:
• TËp tõ khãa T – Cã ý nghÜa gièng nh− bé ph©n líp Bayes thø nhÊt.
• X¸c suÊt P(Ci) – Cã ý nghÜa gièng nh− trªn.
• C¸c ng−ìng CtgTsh i - Cã ý nghÜa gièng nh− trªn.
Doc còng biÓu diÔn d−íi d¹ng mét vector, nh−ng kÝch th−íc cña vector
nµy b»ng kÝch th−íc cña tËp tõ khãa T. Mçi thµnh phÇn cña vector sÏ gåm tõ
khãa Fi vµ gi¸ trÞ 1 hoÆc 0 thÓ hiÖn tõ khãa Fi ®ã xuÊt hiÖn hay kh«ng xuÊt hiÖn
trong tµi liÖu Doc. §iÒu nµy cã nghÜa lµ ®Ó tÝnh to¸n gi¸ trÞ P(C | Doc) th× bé
ph©n líp nµy ph¶i ho¹t ®éng trªn toµn bé tËp tõ khãa T.
C«ng thøc tÝnh to¸n gi¸ trÞ P(C | Doc) ®−îc m« t¶ d−íi ®©y:
( )
( )
( )∏∑
∏
∈=
∈
×
×
=
TF
ili
n
i
TF
j
l
j
CFDocPCP
CFDocPCP
DocCP
)()(
)()(
1
(4.4)
vµ
( ) ( )P Doc F C N Doc F C
Dcj
j
( )
( )= + +
1
2
(4.5)
Trong ®ã:
• P(Doc(Fj) | C) lµ x¸c suÊt cã ®iÒu kiÖn ®Ó tõ khãa Fj trong líp C cã
cïng gi¸ trÞ nh− trong tµi liÖu Doc, vµ ®−îc tÝnh to¸n sö dông c«ng
thøc −íc l−îng x¸c suÊt Laplace nh− trong c«ng thøc (4.5).
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-84-
• N(Doc(Fj) | C) lµ sè l−îng c¸c tµi liÖu thuéc catalog C cã cïng gi¸ trÞ
cña tõ Fj víi tµi liÖu Doc. Tøc lµ, sè l−îng c¸c tµi liÖu thuéc catalog C
cïng cã hoÆc cïng kh«ng cã tõ khãa Fj.
• | Dc | lµ tæng sè c¸c tµi liÖu cã trong catalog C.
Trong c«ng thøc (4.5) së dÜ cã sè 1 ë trªn tö sè lµ ®Ó tr¸nh tr−êng hîp
N(Doc(Fj)|C)=0, cßn sè 2 ë mÉu lµ hai tr¹ng th¸i gi¸ trÞ cña tõ (xuÊt hiÖn hoÆc
kh«ng xuÊt hiÖn trong tµi liÖu).
Qu¸ tr×nh cßn l¹i hoµn toµn t−¬ng tù nh− bé ph©n líp Bayes thø nhÊt. Tøc
lµ, so s¸nh P(C | Doc) víi ng−ìng CtgTsh ®Ó quyÕt ®Þnh tµi liÖu Doc cã thuéc vµo
Catalog C hay kh«ng.
VÝ dô 4.2
Gi¶ sö cã 2 Catalog C1 vµ C2 nh− sau:
Catalog C1 C2
X¸c suÊt 0.5 0.5
Ng−ìng 0.7 0.6
Vµ Catalog C1 cã c¸c tµi liÖu:
1. Häc tèt ph¶i häc vµ häc.
2. Vµ häc m·i m·i m·i.
3. §· häc ph¶i häc.
Cßn Catalog C2 cã c¸c tµi liÖu:
1. Sèng ®Ñp sèng m·i.
2. §Ñp nhÊt lµ sèng ®Ñp.
3. Cuéc sèng lµ ®Ñp.
Tµi liÖu Doc cÇn ph©n líp lµ: “M·i ph¶i häc”.
TËp tõ khãa T lµ: [ Häc, Tèt, Ph¶i, Vµ, M·i, §·, Sèng, §Ñp, Lµ, NhÊt].
TÝnh to¸n c¸c gi¸ trÞ cho Catalog C1 nh− sau:
C¸c gi¸ trÞ cña catalog C1 C¸c gi¸ trÞ cña catalog C2
| Dc1 |=3 | Dc2 |=3
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-85-
N(Häc | C1)= 3; (Sè c¸c tµi liÖu
trong Catalog C1 cã chøa tõ
Häc- gièng nh− trong tµi liÖu
Doc).
N(Häc | C2)= 0; (Sè c¸c tµi liÖu
trong Catalog C2 cã chøa tõ Häc-
gièng nh− trong tµi liÖu Doc).
N(Vµ | C1)=1; (Sè c¸c tµi liÖu
trong Catalog C1 kh«ng chøa tõ
Vµ- gièng nh− trong tµi liÖu
Doc).
N(Vµ | C2)= 3; (Sè c¸c tµi liÖu
trong Catalog C2 kh«ng chøa tõ
Vµ- gièng nh− trong tµi liÖu
Doc).
N(Ph¶i | C1)= 2 N(Ph¶i | C2)= 0
N(Tèt | C1)= 2 N(Tèt | C2)= 3
N(M·i | C1)=1 N(M·i | C2)=1
N(§· | C1)=2 N(§· | C2)=3
N(Sèng | C1)=3 N(Sèng | C2)=0
N(§Ñp | C1)=3 N(§Ñp | C2)=0
N(Lµ | C1)=3 N(Lµ | C2)=1
N(NhÊt | C1)=3 N(NhÊt | C1)=2
( )∏
∈
×
TF
j
j
CFDocPCP 11 )()( = 55296/510;
( )∏
∈
×
TF
j
j
CFDocPCP 22 )()( =384/510;
( )∏∑
∈=
×
TF
ili
n
i l
CFDocPCP )()(
1
=55680/510;
VËy P(C1 | Doc)=0.993;
P(C2 | Doc)=0.016;
Do P(C1 | Doc)= 0.993 > 0.7 nªn tµi liÖu Doc ®−îc ph©n vµo trong Catalog
C1; P(C2 | Doc)= 0.016 < 0.6 nªn tµi liÖu Doc kh«ng ®−îc ph©n vµo trong
Catalog C2.
ViÖc chän ng−ìng ph©n líp
Nh− ®· tr×nh bµy trong ch−¬ng 1, c¸ch chän c¸c ng−ìng CtgTshi lµ ph¶i
phï hîp. VÒ mÆt lÝ thuyÕt th× chän ng−ìng CtgTshi cµng cao th× khi ph©n tµi liÖu
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-86-
vµo líp C ®ßi hái ph¶i cã x¸c suÊt P(C|Doc) lín h¬n ng−ìng vµ khi ®ã x¸c suÊt
®ã ph¶i cao vµ v× vËy, ®é chÝnh x¸c còng cao theo. Tuy nhiªn, nÕu chän c¸c
ng−ìng qu¸ cao, th× cã thÓ x¶y ra tr−êng hîp mäi gi¸ trÞ P(Ci | Doc) ®Òu kh«ng
v−ît qua ®−îc c¸c ng−ìng CtgTshi. §iÒu ®ã cã nghÜa r»ng tµi liÖu Doc kh«ng
®−îc ph©n vµo Catalog nµo c¶.
VÝ dô 4.3
Gi¶ sö cã 3 Catalog C1, C2 vµ C3 lÇn l−ît cã c¸c ng−ìng lµ 0.7; 0.6; 0.5.
Mét tµi liÖu Doc sau khi ®−îc tÝnh to¸n cho kÕt qu¶ nh− sau:
P(C1 | Doc)=0.6; P(C2 | Doc)=0.3; P(C3 | Doc)=0.1; Khi ®ã tµi liÖu Doc sÏ
kh«ng ®−îc ph©n vµo Catalog nµo trong 3 Catalog C1, C2, C3.
Ng−îc l¹i, nÕu chän ng−ìng nhá qu¸ th× dÉn ®Õn t×nh huèng sau:
• Thø nhÊt lµ vÒ ®é chÝnh x¸c cña tµi liÖu ®−îc ph©n lµ nhá.
• Thø hai cã kh¶ n¨ng x¶y ra mét tµi liÖu cã thÓ ®−îc ph©n vµo nhiÒu nhãm
cïng mét lóc.
VÝ dô 4.4
Cã 3 Catalog nh− trªn nh−ng cã c¸c ng−ìng lµ 0.4; 0.5; 0.3; Vµ cã P(C1 |
Doc)=0.5; P(C2 | Doc)=0.1; P(C3 | Doc)=0.4;
Nh− vËy, tµi liÖu cïng mét lóc ®−îc ph©n vµo trong hai Catalog C1 vµ C3.
§Ó chän ®−îc ng−ìng phï hîp th× c¸ch tèt nhÊt lµ sù kÕt hîp gi÷a ng−êi vµ
m¸y. §iÒu nµy ®−îc thùc hiÖn b»ng c¸ch ta lÊy mét tµi liÖu ®· biÕt tr−íc ®−îc
néi dung cña nã n»m ë trong Catalog nµo. Sau ®ã cho m¸y tù t×m ra c¸c P(Ci |
Doc) vµ ph©n c¸c tµi liÖu ®ã vµo c¸c Catalog dùa trªn c¸c ng−ìng cò ®· cã. NÕu
ta thÊy chóng ®−îc ph©n ®óng theo nh− kÕt qu¶ nh− ®· biÕt tr−íc th× gi÷ nguyªn
l¹i c¸c ng−ìng cò. Ng−îc l¹i nÕu hÖ thèng ph©n kh«ng ®óng víi dù kiÕn th× tuú
theo t×nh huèng cô thÓ mµ cã thÓ t¨ng hoÆc gi¶m c¸c ng−ìng cò nÕu thÊy cÇn
thiÕt.
IV.2.4. ThuËt to¸n ph©n líp "k_ng−êi l¸ng giÒng gÇn nhÊt"
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-87-
Nh− ®· tr×nh bµy trong ch−¬ng 1, ®èi víi c¬ së d÷ liÖu full-text theo m«
h×nh vector trªn ®©y, sù ho¹t ®éng cña thuËt to¸n kh«ng phô thuéc vµo tËp tõ
khãa. Nãi c¸ch kh¸c, nã kh«ng dùa vµo tËp tõ khãa. Tuy nhiªn, thuËt to¸n vÉn sö
dông c¸c ng−ìng Ctgtshi, vµ nã còng tuÇn tù ®i theo c¸c b−íc nh− ®· nãi ë trªn.
Sù ho¹t ®éng cña nã lµ dùa vµo k tµi liÖu (lÊy ngÉu nhiªn) trong hÖ thèng, vµ tÝnh
P(C/Doc) dùa vµo sù gièng nhau cña tµi liÖu Doc ®· cho víi k tµi liÖu ®−îc chän.
Trong thuËt ng÷ "k ng−êi l¸ng giÒng gÇn nhÊt", chÝnh lµ chØ k tµi liÖu ®−îc chän.
Cô thÓ c«ng thøc tÝnh P(C/ Doc) nh− sau:
( ) ( )( )∑ ∑
∑
= =
=
×
×
= n
i
k
l
lil
k
l
ll
DCPDDocSm
DCPDDocSm
DocCP
1 1
1
),(
),(
(4.6)
Trong ®ã:
• k lµ sè l−îng tµi liÖu ®−îc chän ®Ó so s¸nh
• n lµ sè catalog
• P (Ci | Dl) cã gi¸ trÞ 1 hoÆc 0, chØ ra tµi liÖu Dl cã thuéc vµo catalog Ci hay
kh«ng, së dÜ cã gi¸ trÞ nµy lµ bëi t¹i mét tµi liÖu cã thÓ ®−îc ph©n vµo
nhiÒu h¬n mét catalog .
• Sm (Doc, Dl) x¸c ®Þnh møc ®é gièng nhau cña tµi liÖu ®· cho Doc víi tµi
liÖu ®−îc chän Dl. Nã ®−îc tÝnh b»ng cos cña gãc gi÷a hai vect¬ biÓu
diÔn tµi liÖu Doc vµ tµi liÖu Dl theo c«ng thøc sau ®©y:
Sm Doc D Cos Doc D
X Y
Sqrt X Yl l
i ii
j llj
( , ) ( , )
*
( )
= = ∑ ∑∑ 2 2 (4.7)
Trong ®ã c¸c biÓu diÔn tµi liÖu hoµn toµn t−¬ng tù víi c¸ch biÓu diÔn cña
bé phËn líp Bayes thø nhÊt. Tøc lµ nã gåm c¸c tõ khãa Fi vµ c¸c tÇn sè Xi t−¬ng
øng.
Trong c«ng thøc (4.7):
• Xi lµ tÇn suÊt cña c¸c tõ trong tµi liÖu Doc.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-88-
• Yi lµ tÇn suÊt cña c¸c tõ trong tµi liÖu Dl.
• Σi Xi *Yi lµ tæng cña c¸c tÝch c¸c tÇn suÊt cña c¸c tõ gièng nhau
gi÷a hai tµi liÖu Doc vµ Dl.
• Σj X2j lµ tæng b×nh ph−¬ng tÇn suÊt c¸c tõ cã trong tµi liÖu Doc.
• Σl Y2l lµ tæng b×nh ph−¬ng tÇn suÊt c¸c tõ cã trong tµi liÖu Dl.
• Sqrt(Σj X2j Σl Y2l) lµ c¨n bËc hai cña Σj X2j Σl Y2l .
Ch¼ng h¹n, tµi liÖu Doc lµ
((Hµ Néi , 2) , (ViÖt nam , 3) , (céng hoµ ,1) , (chñ nghÜa,4))
Cßn tµi liÖu Dl lµ:
((Céng hoµ ,2) , (X· héi , 5) , (Chñ nghÜa , 3) , (ViÖt nam, 1))
Khi ®ã:
Cos(Doc,Dl)=(2*1+3*4+3*1)/ sqrt((2
2 +32+12+42)*(22 +52+32+12)) =0.497
Qu¸ tr×nh cßn l¹i hoµn toµn t−¬ng tù nh− c¸c bé phËn líp ë trªn. Tøc lµ nã
còng so s¸nh gi¸ trÞ P(C | Doc) víi ng−ìng CtgTsh cña Catalog C ®Ó xem nã cã
thuéc vµo trong Catalog ®ã kh«ng. VÝ dô 4.5 nh− ®−îc tr×nh bµy d−íi ®©y m« t¶
ho¹t ®éng cña thuËt to¸n.
VÝ dô 4.5
Gi¶ sö cã 2 catalog C1vµ C2 víi c¸c ng−ìng t−¬ng øng lµ 0.67 vµ 0.6.
Tµi liÖu Doc cÇn ®−îc ph©n líp lµ: “Chñ nghÜa x· héi”.
C¸c tµi liÖu ®−îc chän ra ®Ó so s¸nh lµ:
1. “ Céng hoµ x· héi chñ nghÜa ViÖt Nam” thuéc catalog C1.
2. “ X· héi x· héi chñ nghÜa” thuéc C1.
3. “ Chñ nghÜa ®Õ quèc, x· héi t− b¶n” thuéc catalog C2.
Qu¸ tr×nh tÝnh to¸n diÔn ra nh− sau:
C¸c vector biÓu diÔn c¸c tµi liÖu lµ:
• D1 = ((céng hoµ,1), (x· héi, 1), (chñ nghÜa, 1), (ViÖt Nam, 1)).
• D2 = ((X· héi, 2), (chñ nghÜa, 1)).
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-89-
• D3 = ((x· héi, 1), (chñ nghÜa, 1), (§Õ quèc, 1), (t− b¶n, 1)).
• Doc = ((x· héi, 1), (chñ nghÜa, 1)).
• Cos (Doc, D1)= 0.716;
• Cos (Doc, D2) = 0.949;
• Cos (Doc, D3) = 0.716;
• ( )Sm Doc D P C Dl i l
l
k
i
n
( , ) ×
==
∑∑
11
= 2.362;
Vµ:
• P(C1 | Doc) = 0.70;
• P(C2 | Doc) = 0.30;
KÕt qu¶ cuèi cïng lµ: P(C1 | Doc)=0.7 > 0.67 nªn tµi liÖu Doc ®−îc ph©n
vµo trong Catalog C1. Ng−îc l¹i, P(C2 | Doc)=0.3 < 0.6 nªn tµi liÖu Doc kh«ng
®−îc ph©n vµo trong Catalog C2.
Chó ý vÒ n©ng cao chÊt l−îng thuËt to¸n
ViÖc x¸c ®Þnh k sè l−îng tµi liÖu mÉu vµ c¸ch chän nh÷ng tµi liÖu mÉu
nµo ®Ó tÝnh to¸n c¸c kho¶ng c¸ch nãi trªn cã ý nghÜa quan träng ®èi víi chÊt
l−îng cña thuËt to¸n. Mét trong nh÷ng c¸ch hiÖu qu¶ lµ dùa theo kinh nghiÖm
vµ sù kÕt hîp gi÷a ng−êi vµ m¸y.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-90-
PhÇn kÕt luËn
LuËn v¨n ®· xem xÐt mét sè néi dung trong m« h×nh häc m¸y cã gi¸m
s¸t. Häc m¸y lµ mét lÜnh vùc ®−îc coi lµ liªn quan mËt thiÕt ®Õn c«ng nghÖ tri
thøc. Tïy thuéc vµo l−îng th«ng tin ®· cã ®Ó ph©n lo¹i häc m¸y thµnh häc
m¸y kh«ng gi¸m s¸t vµ häc m¸y cã gi¸m s¸t. Bµi to¸n häc m¸y cã gi¸m s¸t ®·
cã nhiÒu kÕt qu¶ trong khi ®ã bµi to¸n häc m¸y kh«ng gi¸m s¸t l¹i cßn rÊt Ýt
kÕt qu¶. Trong häc m¸y cã gi¸m s¸t, ®· cã nhiÒu thuËt to¸n gi¶i quyÕt c«ng
viÖc ph©n líp ®èi t−îng trong ®ã ®iÓn h×nh nhÊt cã thÓ kÓ ®Õn c¸c thuËt to¸n
Bayes, thuËt to¸n k-ng−êi l¸ng giÒng gÇn nhÊt, thuËt to¸n c©y quyÕt ®Þnh v.v.
Trong m« h×nh häc m¸y m« t¶ phøc, mçi kh¸i niÖm t−¬ng øng mét tËp c¸c
luËt vµ d÷ liÖu ®−îc xem xÐt kh«ng chØ tõng tËp hîp d÷ liÖu ®¬n lÎ mµ cßn
®−îc xem xÐt theo nhiÒu tËp hîp d÷ liÖu. NhiÒu c«ng tr×nh nghiªn cøu cho
thÊy, m« h×nh häc m¸y m« t¶ phøc cho kÕt qu¶ häc m¸y chÝnh x¸c h¬n so víi
m« h×nh ®¬n t−¬ng øng. Bµi to¸n häc m¸y ®−îc gÆp trong nhiÒu lÜnh vùc kh¸c
nhau trong c«ng nghÖ tri thøc vµ mét sè d¹ng cña häc m¸y còng ®−îc t×m thÊy
trong c¬ së d÷ liÖu full-text. Bµi to¸n ph©n líp tµi liÖu trong c¬ së d÷ liÖu full-
text lµ mét bµi to¸n kh¸ phæ biÕn: Cã thÓ sö dông mét sè thuËt to¸n häc m¸y
cã gi¸m s¸t theo m« h×nh vector cña c¬ së d÷ liÖu full-text.
LuËn v¨n ®· thùc hiÖn ®−îc mét sè néi dung chÝnh nh− sau:
- Tr×nh bµy ®−îc mét c¸ch nh×n nhËn tæng quan vÒ bµi to¸n häc m¸y,
ph©n lo¹i bµi to¸n häc m¸y vµ mét sè thuËt to¸n chÝnh. Néi dung tæng quan
nµy ®−îc tËp hîp tõ nhiÒu nguån tµi liÖu kh¸c nhau, ë trong n−íc còng nh−
ngoµi n−íc.
- Tr×nh bµy ®−îc nh÷ng néi dung c¬ b¶n vÒ häc m¸y m« t¶ phøc. LuËn
v¨n ®· tr×nh bµy nh÷ng nÐt c¬ b¶n nhÊt vÒ c¸c m« h×nh häc m¸y m« t¶ phøc
nh− FOIL, FOCL, HYDRA, HYDRA-MM. KÕt qu¶ cña néi dung nµy ®−îc
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-91-
tËp hîp chñ yÕu tõ nhiÒu c«ng tr×nh nghiªn cøu cña nhãm häc m¸y t¹i tr−êng
§¹i häc Tæng hîp California, Ivrin.
- Tr×nh bµy néi dung c¬ b¶n vÒ c¬ së d÷ liÖu full-text. LuËn v¨n ph¸t
triÓn ®Ò xuÊt c¶i tiÕn m« h×nh vector, bao gåm viÖc xem xÐt tÇn suÊt xuÊt hiÖn
c¸c tõ khãa trong tµi liÖu còng nh− vÊn ®Ò tõ ®ång nghÜa. LuËn v¨n còng tr×nh
bµy mét sè thuËt to¸n ph©n líp tµi liÖu ®èi víi c¬ së d÷ liÖu full-text. Mét sè
kÕt qu¶ c¶i tiÕn ë ®©y tuy cã gi¸ trÞ ch−a cao song thùc sù ®−îc ph¸t triÓn bëi
chÝnh luËn v¨n trªn c¬ së cña [5, 13].
Do cßn cã h¹n chÕ vÒ ®iÒu kiÖn, vÒ kh¶ n¨ng triÓn khai trªn m¸y tÝnh
nªn luËn v¨n cßn cã khiÕm khuyÕt lµ ch−a thÓ hiÖn ®−îc mét cµi ®Æt cô thÓ c¶
vÒ bµi to¸n häc m¸y m« t¶ phøc lÉn bµi to¸n t×m kiÕm vµ ph©n líp trong c¬ së
d÷ liÖu full-text.
C¸c thuËt to¸n häc m¸y ®−îc gÆp kh¸ phæ biÕn trong c¸c qu¸ tr×nh
kh¸m ph¸ trÝ thøc trong c¸c c¬ së d÷ liÖu (KDD: Knowledge Discovery in
Databases) vµ ®©y lµ lÜnh vùc ®Þnh h−íng nghiªn cøu tiÕp cña luËn v¨n.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-92-
Tµi liÖu tham kh¶o
Tµi liÖu tiÕng ViÖt
1. Hå Tó B¶o. Mét sè kÕt qu¶ nghiªn cøu vÒ c«ng nghÖ tri thøc. B¸o c¸o Héi
nghÞ Khoa häc ViÖn C«ng nghÖ Th«ng tin. Hµ Néi 5&6-12-1996, trang 18-
25.
2. Hå Tó B¶o. Häc tù ®éng kh«ng gi¸m s¸t trªn dµn Galois víi d÷ liÖu thay ®æi.
B¸o c¸o Héi nghÞ Khoa häc ViÖn C«ng nghÖ Th«ng tin. Hµ Néi 5&6-12-
1996, trang 27-36.
3. Hµ Quang Thôy. TËp th« trong b¶ng quyÕt ®Þnh. T¹p chÝ Khoa häc §¹i häc
Quèc gia Hµ Néi. TËp 12. Sè 4-1996, trang 9-14.
4. NguyÔn ThÞ V©n. X©y dùng c¬ së d÷ liÖu Full-Text. LuËn v¨n tèt nghiÖp §¹i
häc, Khoa CNTT, 1998.
Tµi liÖu tiÕng Anh
5. Ali K. & Pazzani M.. Error Reduction through Learning Multiple
Descriptions Machine Learning, 24:3, 1996.
6. Ali K., Brunk C. & Pazzani M.. Learning Multiple Relational Rule-based
Models. In "Preliminary Papers of the 5th International Workshop on
Artificial Intelligence and Statistics". Fort Lauderdale, FL, 1995.
7. Ali K. & Pazzani M.. HYDRA-MM: Learning Multiple Descriptions to
Improve Classification Accuracy. International Journal on Artificial
Intelligence Tools, 4, 1995.
8. Ali K., Brunk C. & Pazzani M. On Learning Multiple Descriptions of a
Concept. In Proceedings of the Sixth International Conference on Tools
with Artificial Intelligence. New Orleans, LA: IEEE Press, 1994.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-93-
9. Bay S. D. Combining Nearest Neighbor Classifiers Through Multiple Feature
Subsets. Proceedings of the International Conference on Machine Learning.
Morgan Kaufmann Publishers. Madison, Wisc., 1998.
10. Billsus D. & Pazzani M. Learning probabilistic user models. In workshop
notes of Machine Learning for User Modeling, Sixth International
Conference on User Modeling, Chia Laguna, Sardinia, 2-5 June 1997.
11. Bruce Moxon. Defining Data mining. DBMS Data Warehouse Supplement,
August 1996.
12. Domingos P. Knowledge Acquisition from Examples Via Multiple Models.
Proceedings of the Fourteenth International Conference on Machine
Learning, 1997. Nashville, TN: Morgan Kaufmann.
13. Dunja Mladenic'. Machine Learning on non-homogeneous, distbuted text
data (Chapter 3. Document representation and learning algorithms).
Doctoral dissertation. University of Ljubljana, Slovenia. 1998.
14. Hume T. & Pzzani M. Learning Sets of Related Concepts: A Shared Task
Model. Proceedings of the Sixteen Annual Conference of the Cognitive
Science Society. Pittsburgh, PA: Lawrence Erlbaum, 1995.
15. Merz C. & Pazzani M. Handling Redundancy in Ensembles of Learned
Models Using Principal Components. AAAI Workshop on Integrating
Multiple Models, 1997.
16. Pazzani M. & Billsus D. Learning and Revising User Profiles: The
identification of interesting web sites. Machine Learning 27, 313-331,
1997.
17. Shankle W. S., Datta P., Pazzani M. & Michael D. Improving dementia
screening tests with machine learning methods. Alzheimer's Research,
June, 1996, vol. 2 no. 3.
L−¬ng Song V©n Häc m¸y, häc m¸y m« t¶ phøc: thuËt to¸n vµ vÊn ®Ò rót gän lçi
-94-
19. Peter Cheeseman, John Stutz. Bayesian Classification (AutoClass): Theory
and Results. Advances in Knowledge Discovery and Data Mining. AAAI
Press / The MIT Press 1996. 153-180.
20. Pazzani M., Kibler D. The Utility of Knowledge in Inductive Learning.
Machine Learning, 9 , 54-97, 1992.
Các file đính kèm theo tài liệu này:
- MSc99_Luong_Song_Van_Thesis.pdf