PHẦN MỞ ĐẦU
Ngày nay sự phát triển vượt bậc của công nghệ thông tin, đặc biệt là sự ra đời
và phát triển như vũ bão của mạng Internet đã tạo ra một cuộc cách mạng trong mọi
lĩnh vực đời sống xã hội. Có thể nói rằng Internet là một thế giới ảo với vô vàn các
thông tin về mọi mặt của đời sống kinh tế, chính trị, xã hội được trình bày dưới dạng
văn bản, hình ảnh, âm thanh, .
Internet luôn biến đổi không ngừng cả về kích thước lẫn nội dung. Đến nay
không có một ai biết được chính xác kích thước của Internet là bao nhiêu, có bao
nhiêu Website và bao nhiêu trang Web. Bên cạnh đó, thông tin trong chính các trang
Web cũng được cập nhật liên tục. Theo kết quả nghiên cứu , hơn 500.000 trang Web
trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày, và khoảng hơn 10 ngày thì
50% các trang trong tên miền đó biến mất, nghĩa là địa chỉ URL của nó không còn tồn
tại nữa [2].
Một điều thực tế là khối lượng dữ liệu tăng lên gấp nhiều lần, nhưng tỷ lệ các
thông tin có ích so với khối lượng dữ liệu đó lại giảm đi rất nhiều. Theo thống kê, 99%
của thông tin Web là vô ích với 99% người dùng Web [2]. Rõ ràng với một khối lượng
khổng lồ dữ liệu được lưu trữ trên Internet thì vấn đề tìm kiếm thông tin có ích đang
trở thành một vấn đề nghiên cứu có tính thời sự cao. Người dùng không thể tự tìm
kiếm địa chỉ trang Web chứa thông tin mà mình cần, do vậy đòi hỏi cần phải có một
trình tiện ích quản lý nội dung của các trang Web và cho phép tìm thấy các địa chỉ
trang Web có nội dung giống với yêu cầu của người tìm kiếm. Hiện nay, trên thế giới
có một số máy tìm kiếm thông dụng như Yahoo, Google, Alvista, .đã được xây dựng
và triển khai nhằm đáp ứng nhu cầu tìm kiếm thông tin của người dùng.
Mặc dù đã đáp ứng ứng được phần lớn nhu cầu tìm kiếm thông tin của người
dùng, tuy nhiên hầu hết các máy hiện nay mới chỉ hỗ trợ việc tìm kiếm theo từ khóa,
mà chưa xét đến vấn đề ngữ nghĩa của các từ cần tìm kiếm. Với việc tìm kiếm bằng
cách đối sánh các từ khóa, kết quả tìm kiếm có thể không bao gồm tất cả các tài liệu
như ý muốn của người dùng (do vấn đề từ đồng nghĩa). Thậm chí các tài liệu tìm thấy
có thể không liên quan đến yêu cầu của người dùng (do vấn đề từ đa nghĩa).
Mặc khác các máy tìm kiếm thông dụng hiện nay đều chưa có chức năng lưu
trữ và phân tích tiểu sử của người dùng, để từ đó có khả năng hỗ trợ tốt hơn với từng
lớp người dùng. Cụ thể, giả sử chúng ta có các trang Web về các vấn đề Tin học, Thể
thao, Kinh tể-Xã hội và Xây dựng .Căn cứ vào nội dung của các tài liệu mà khách
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
4
hàng xem hoặc tải về, sau khi phân lớp chúng ta sẽ biết khách hàng hay tập trung vào
nội dung gì, từ đó chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà
khách hàng quan tâm.
Từ những nhu cầu thực tế trên, phân lớp và tìm kiếm trang Web vẫn là bài
toán hay, có tính thời sự cao, cần được phát triển và nghiên cứu hiện nay.
Đề tài khóa luận tốt nghiệp ‘Thuật toán phân lớp văn bản Web và thực
nghiệm trong máy tìm kiếm VietSeek (Vinahoo)’ cũng không nằm ngoài mục đích
trên.
Ngoài phần mở đầu và phần kết luận, nội dung của khóa luận được tổ chức
thành 4 chương với nội dung chính như sau:
Chương 1, với tên gọi Máy tìm kiếm VietSeek, nhằm mục đích giới thiệu một
cách chi tiết cấu trúc cũng như cơ chế hoạt động của các máy tìm kiếm VietSeek.
Ngoài ra, phần đầu của chương còn giới thiệu tổng quát về cấu trúc chung của các máy
tìm kiếm đang được sử dụng rộng rãi hiện nay.
Chương 2 có tên gọi là Khai phá dữ liệu Web trong máy tìm kiếm. Nội dung
chính của chương trình bày các kỹ thuật cơ bản liên quan dến bài toán khai phá dữ liệu
Web trong máy tìm kiếm.
Chương 3, tích hợp giải pháp phân lớp trang văn bản vào máy tìm kiếm
VietSeek, giới thiệu các thuật toán điển hình được áp dụng để giải quyết bài toán phân
lớp văn bản. Trong đó đặc biệt tập trung vào giải pháp phân lớp theo phương pháp
Bayes thứ nhất. Các công thức đề xuất (3.15) và (3.16), cùng với quá trình chứng minh
tính đúng đắn của chúng được trình bày một cách chi tiết trong chương này. Đi kèm
với giải pháp phân lớp Bayes là các đề xuất nhằm giải quyết vấn đề tính ngưỡng cho
các lớp. Phần cuối của chương giới thiệu quá trình tích hợp giải pháp phân lớp trang
văn bản vào máy tìm kiếm VietSeek.
Chương 4 với tựa đề Kết qủa thực nghiệm và đánh giá sẽ giới thiệu các kết
quả thực nghiệm thu được khi tiến hành tích hợp giải pháp phân lớp văn bản Web vào
máy tìm kiếm VietSeek. Sau đó đưa ra các đánh giá về các công thức đề xuất dựa trên
kết quả thực nghiệm.
78 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2222 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
c thẻ HTML đặc trưng. Năm 1990, Quinlan
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
40
đã đưa ra thuật toán dựa trên lý thuyết logic vị từ cấp một (FOIL) để giải quyết bài
toán phân tích và khai thác các mối quan hệ trong tập dữ liệu Web. Ví dụ: nếu nội
dung của trang Web A có chứa siêu liên kết trỏ tới trang Web B thì chúng ta sẽ biểu
diễn mối quan hệ đó bằng vị từ Link_to(A, B).
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
41
Chương 3. TÍCH HỢP GIẢI PHÁP PHÂN LỚP TRANG VĂN
BẢN VÀO MÁY TÌM KIẾM VIETSEEK
3.1. Bài toán phân lớp văn bản
Phân lớp trang văn bản là quá trình gồm hai bước, với mục đích phân các tài
liệu văn bản vào các lớp cố định có sẵn. Trong bước thứ nhất, một mô hình được xây
dựng nhằm miêu tả một tập hợp ban đầu các lớp tài liệu. Mô hình này được xây dựng
bằng cách phân tích nội dung các trang văn bản trong tập dữ liệu huấn luyện. Tập dữ
liệu huấn luyện là tập hợp các trang văn bản trong cơ sở dữ liệu đã được gán nhãn từ
trước dựa trên sự kết hợp giữa các tri thức chuyên gia với một hay nhiều thuộc tính
nào đó. Do đó giai đoạn thứ nhất thường được đề cập như là việc học có giám sát
(Việc học của mô hình được giám sát thông qua việc nó được cho biết mỗi trang văn
bản trong tập huấn luyện thuộc vào lớp nào). Trong bước thứ hai, mô hình này được sử
dụng cho việc phân lớp các trang văn bản chưa được gán nhãn hoặc các tài liệu sẽ xuất
hiện trong tương lai. Điều này thực sự rất hữu ích, ví dụ để đoán nội dung của một
trang Web, hay quyết định xem nội dung của trang Web đó có phù hợp với lĩnh vực
của người dùng hay không?. Hiện nay có rất nhiều phương pháp được áp dụng vào quá
trình phân lớp trang văn bản như [3]:
♦ K người láng giềng gần nhất (K- Nearest Neighbours)
♦ Naive Bayes
♦ Support Vector Machines
♦ Cây quyết định (Decision Tree)
♦ Mang nơron
♦ Phương pháp tìm luất kết hợp
Chương này chủ yếu tập trung vào thuật toán Naive Bayes được áp dụng trong
quá trình xây dựng bộ phân lớp trang văn. Phần đầu của chương giới thiệu tổng quát
một số thuật toán thông dụng được áp dụng hiệu quả trong bài toán phân lớp trang văn
bản. Trong đó, đặc biệt tập trung vào việc chứng minh công thức phân lớp (3.15) và đề
xuất công thức phân lớp (3.16) dựa trên thuật toán Naive Bayes. Ngoài ra còn đề xuất
các thuật toán ước lượng và làm mịn giá trị ngưỡng cho các lớp trong bài toán phân
lớp. Phần còn lại của chương đề cập đến các chiến lược đánh giá bộ phân lớp.
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
42
3.2. Thuật toán K người láng giềng gần nhất
(K-Nearst Neighbors)
Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phân
lớp dựa trên bộ nhớ, đơn giản vì nó được xây dựng bằng cách lưu trữ tất cả các đối
tượng trong tập huấn luyện. Để phân lớp cho một điểm dữ liệu mới x, trước hết bộ
phân lớp sẽ tính khoảng cách từ điểm x đến tất cả các điểm dữ liệu trong tập huấn
luyện. Qua đó tìm được tập N(x, D, k) gồm k điểm dữ liệu mẫu có khoảng cách đến x
là gần nhất. Ví dụ nếu các dữ liệu mẫu được biểu diễn bởi không gian vector thì chúng
ta có thể sử dụng khoảng cách Euclian để tính khoảng cách giữa các điểm dữ liệu với
nhau. Sau khi xác định được tập N(x, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu
x bằng lớp chiếm đại đa số trong tập N(x, D, k). Mặc dù rất đơn giản, nhưng thuật toán
K người láng giềng gần nhất đã cho kết quả tốt trong nhiều ứng dụng thực tế.
Để áp dụng thuật toán k-NN vào tài liệu văn bản, chúng ta có sử dụng hàm tính
trọng số cho mỗi lớp theo biểu thức (3.1). Trong đó ),,( kDxcN là tập con chỉ chứa các
đối tượng thuộc lớp c của tập ),,( kDxN .
)1.3(),cos()|(
),,(
xxxcScore
kDxNcx
′∑=
∈′
Khi đó tài liệu x sẽ được phân vào lớp oc nếu:
{ }CcxcscoreMaxxocscore ∈= ),|()|(
3.3. Bộ phân lớp sử dụng vector hỗ trợ
Máy sử dụng vector hỗ trợ (SVM) được giới thiệu bởi Cortes và Vapnik vào
năm 1995[3]. SVM thực sự hiệu quả khi giải quyết vấn đề trên dữ liệu có số chiều
lớn, ví dụ như biểu diễn vector của các trang tài liệu văn bản. Ban đầu, SVM chỉ được
thiết kế để giải quyết các bài toán phân lớp có số lớp bằng 2, vấn đề phân lớp nhị
phân.Giả sử tập dữ liệu huấn luyện được biểu diễn như sau: { }niiyixD ...1),,( ==
Trong đó mRix ∈ và { }1,1−∈iy sẽ xác định điểm dữ liệu ix là ví dụ
dương hay ví dụ âm. Khi đó bộ phân cách tuyến tính sẽ là một siêu phẳng được định
nghĩa như sau:
{ }00)(: =+= wxTwxfx
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
43
Với mRw ∈ và Rw ∈0 là các hệ số thích nghi, đóng vai trò như là các
tham số biểu diễn mô hình cho máy phân lớp sử dụng vector hỗ trợ(SVM). Ta có thể
định nghĩa một hàm phân lớp nhị phân:
)2.3(
.0
0)(.1
)( ⎩⎨
⎧ >=
otherwise
xfif
xh
Giai đoạn học của mô hình này bao gồm việc ước lượng các tham số mRw ∈
và Rw ∈0 từ tập dữ liệu huấn luyện. Một tập dữ liệu huấn luyện được gọi là có thể
phân tách tuyến tính nếu tồn tại một siêu phẳng có hàm phân lớp h(x) bền vững với tất
cả các nhãn, ví dụ hàm phân lớp đó có thể thỏa mãn điều kiện sau đây:
niixfiy ..10)(* =∀> . Sử dụng giả thuyết này, Rosenblartt đã chứng minh được rằng
thuật toán lặp đơn giản sau có thể tạo ra siêu phẳng phân cách[3].
Thuật toán tạo siêu phẳng phân cách:
1. 0←w
2. 00 ←w
3. repeat
4. e ← 0
5. for i ← 1 to n do
6. s ← sgn( )0( wixTwiy + )
7. if(s < 0) then
8. ixiyww *+←
9. iyww +← 00
10. e ← e+1
11.untill e=0
12.return )0,( ww
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
44
Có thể thấy rằng điều kiện đủ để tập dữ liệu huấn luyện D có thể phân cách
tuyến tính được là số lượng các đối tượng dữ liệu trong D, n=|D| phải bé hơn hoặc
bằng m+1. Điều kiện này thường đúng với bài toán phân lớp trang văn bản, nơi có số
lượng các từ khóa rất lớn, khoảng vài ngàn từ, và lớn hơn rất nhiều so với số lượng các
đối tượng trong tập huấn luyện.
Trong hình (3.1), giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều
tuân theo luật phân bố chuẩn Gaussian với cùng một ma trận tương quan, và được tạo
ra với cùng một xác suất. Khi đó một siêu phẳng phân cách được gọi là lý tưởng nếu
nó làm cực tiểu hóa xác suất phân lớp sai cho một điểm dữ liệu mới. Với giả thuyết ở
trên thì siêu phẳng phân cách lý tưởng sẽ trực giao với đoạn thẳng nối tâm của hai
vùng có mật độ xác suất lớn nhất.
Rõ ràng các siêu phẳng mà chúng ta xây dựng nhằm phân cách các điểm dữ
liệu mẫu có thể lệch đi rất nhiều so với siêu phẳng lý tưởng, do đó sẽ dẫn tới việc phân
lớp không tốt trên dữ liệu mới sau này. Độ phức tạp của quá trình xác định siêu phẳng
lý tưởng sẽ tăng theo số chiều của không gian đầu vào, m. vì với một số lượng các dữ
_
_
_
_
_
_
_ _
_
_
_
_
+
+
+
+
+
+
++
+
+
+
+
+
+
_
Siêu phẳng phân cách lý tưởng Siêu phẳng thực tế
Hình 3.1. Mối quan hệ giữa các siêu phẳng phân cách
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
45
liệu mẫu cố định, tập hợp các siêu phẳng thực tế sẽ tăng theo hàm mũ với lũy thừa m.
Với bài toán phân lớp trang văn bản, m thường rất lớn, vào khoảng vài ngàn hay thậm
chí là hàng triệu từ.
Trên cơ sở lý thuyết học theo xác suất được phát triển bởi Vapnik năm 1998,
chúng ta có thể định nghĩa một siêu phẳng phân cách lý tưởng bằng hai đặc tính sau:
Là duy nhất đối với mỗi tập dữ liệu huấn luyện có thể phân tách tuyến tính.
Xác suất phân lớp sai cho các dữ liệu mới của nó là bé nhất so với tất cả các
siêu phẳng phân cách khác.
Biên giới M của bộ phân lớp được định nghĩa là khoảng cách giữa siêu phẳng
phân cách và điểm dữ liệu mẫu gần với nó nhất. Như vậy siêu phẳng phân cách lý
tưởng là siêu phẳng có biên giới M lớn nhất (Hình 3.2).
Có thể thấy rằng khoảng cách từ một điểm dữ liệu x đến siêu phẳng được tính
theo công thức: )0(||||
1 wxTw
w
+ . Bởi vậy siêu phẳng phân cách lý tưởng có thể được
tìm thấy bằng việc giải quyết bài toán tối ưu có điều kiện sau:
+
+
+
+
+
+
+ +
+
+
+
+
+
+
MwwTx =+ 0
MwwTx −=+ 0
00 =+ wwTx
M
w
2
||||
2 =
Hình 3.2. Biên giới của siêu phẳng phân cách
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
46
MMax
ww 0,
trong đó: )3.3(....1,)0(||||
1 niMwix
Twiyw
=≥+
Với mỗi siêu phẳng, bao giờ cũng tồn tại một điểm x’ sao cho:
||||
1
||||
)0(||||
1
ww
ConstwxTwiyw
M ⇐=+′=
Thay vào (3.3) ta có:
wwMin
ww
rr.2
1
0,
với )4.3(....1,1)0( niwixTwiy =≥+
Theo Lemma thì nghiệm w& của bài toán tối ưu (3.4) bao giờ cũng được biểu
diễn tuyến tính theo các vector niix ...1= bằng biểu thức[3]:
)5.3(0
1
≥
=
= ∑ iixiyin
i
w αα r&
Trong đó iα được gọi là các hệ số quyết định Lagrang.
Bài toán tối ưu đối ngẫu với (3.4) có dạng như sau[3]:
∑+∑∑
===
−
n
i
i
n
j
jxixjyiyji
n
i
Max
11
.
12
1 ααα
α
rr trong đó )6.3(0,0
1
≥=
=
∑ iiyin
i
αα
Theo lý thuyết đại số tuyến tính thì bài toán tối ưu (3.4) và (3.6) là tương
đương với nhau. Nói cách khác nếu α& là nghiệm của bài toán tối ưu (3.6) thì
⎟⎠
⎞⎜⎝
⎛ +=
=
= ∑ posxwnegxwowixiyin
i
w ..
2
1,
1
&&&r&& α là nghiệm của bài toán (3.4).
Mặt khác bài toán tối ưu (3.6) là bài toán bậc hai (quadratic programming), về
nguyên tắc có thể giải được bằng các phương pháp tối ưu chuẩn. Khi đó vector α&
được gọi là vector hỗ trợ (support vector). Mỗi thành phần iα& được gắn với một điểm
dữ liệu mẫu ix , thể hiện độ ảnh hưởng của điểm dữ liệu mẫu này tới kết quả của việc
phân lớp sau này.
Hàm quyết định phân lớp h(x) có thể được tính bằng biểu thức (3.2) hoặc bằng
dạng đối ngẫu tương đương (3.7) :
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
47
)7.3(
1
)( ∑
=
=
n
i
ixTixiiyxf α
Trong trường hợp dữ liệu huấn luyện không có khả năng phân cách tuyến tính,
phương pháp phân tích này vẫn có khả năng áp dụng bằng cách bổ sung n biến không
âm iξ , khi đó bài toán tối ưu sẽ được phát biểu lại như sau:
∑
=
+
n
i
iC
ww
wwMin
12
1
0,
. ξrr với niiwixTwiy ....1,1)0( =−≥+ ξ
và bài toán đối ngẫu sẽ là:
∑+∑∑
===
−
n
i
i
n
j
jxixjyiyji
n
i
Max
11
.
12
1 ααα
α
rr với điều kiện niCi ...1,0 =≤≤α
Việc giải quyết bài toán tối ưu bậc hai sử dụng các phương pháp chuẩn có độ
phức tạp )3(nΟ , với giả thuyết rằng số lượng các vector hỗ trợ tăng tuyến tính với số
lượng các đối tượng trong tập dữ liệu huấn luyện. Đây là một vấn đề khó khăn của
phương pháp SVM.
Bộ phân lớp SVM mà chúng ta đang thảo luận chỉ có thể được áp dụng cho
các bài toán phân lớp nhị phân. Với các ứng dụng có số lớp lớn hơn hai, phương pháp
tiếp cận truyền thống là tiến hành chuyển bài toán này thành một số bài toán phân lớp
nhị phân nhỏ hơn, mỗi lớp được biểu diễn bởi một xâu nhị phân. Sau đó áp dụng bộ
phân lớp SVM nhị phân cho từng nhãn bộ phận.
Ví dụ về SVM giải quyết bài toán có nhiều lớp
Tập dữ liệu mẫu huấn luyện:
[ ] { }{ }1,12,1,...1),2,1,( −∈== iyiyniiyiyixD
A A
A
D
D
D
D
B
B
B
C
C
C
C
Lớp Nhãn
A
B
C
D
(1, 1)
(1, -1)
(-1, 1)
(-1,-1)
Hình 3.3. Tập dữ liệu huấn luyện nhiều lớp
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
48
3.4. Bộ phân lớp sử dụng cây quyết định
Cây quyết định là một cấu trúc cây giống biểu đồ luồng, trong đó mỗi nút
trong là một bộ kiểm tra giá trị cho một thuộc tính xác định, mỗi nhánh thể hiện một
kết quả của quá trình kiểm tra và mỗi lá đại diện cho các lớp hoặc sự phân bố của lớp.
Nút trên cùng của cây là nút gốc.
Thuật toán: Decision_Tree[2]
Input: samples: tập dữ liệu huấn luyện
attributes_list: tập hợp các thuộc tính
Output: Cây quyết định
(1)Tạo ra một nút N
(2)If (tất cả dữ liệu mẫu trong “samples” đều thuộc lớp C) then
(3) Nhãn(N) ← C ; Xác định N là nút lá ; Thoát
(4)If(attribute_list rỗng) then
(5) Nhãn(N) ← Lớp chiếm đại đa số trong “sample”; Xác định
N là nút lá;Thoát
(6)test_attribute ←thuộc tính trong “attribute_list” có độ đo InformationGain
lớn nhất
(7)Nhãn(N) ←”test_attribute”
(8)For mỗi giá trị ai của thuộc tính “test_attribute” do
(9) Xây dựng một nhánh từ nút N
(10) si ← tập các dữ liệu thuộc “samples” có giá trị của thuộc tính
“test_attribute”=ai
(11) If(si rỗng) then
(12) Gắn thêm một nút lá có nhãn là lớp chiếm đại đa số trong
“samples” vào cây quyết định
(13) else
(14) Nút M ← Decision_Tree(si, attribute_list-test_attribute);
(15) Gắn thêm nút M vào cây.
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
49
Thuật toán trên hoạt động theo chiến lược tham lam, xây dựng cây quyết định
theo phương pháp đệ quy từ trên xuống dưới.
Độ đo Information Gain
Độ đo Information Gain được sử dụng để lựa chọn thuộc tính làm nhãn cho
mỗi nút trong thuật toán xây dựng cây quyết định. Nó thể hiện khả năng quyết định tới
việc phân lớp của các thuộc tính. Thuộc tính có độ đo Information Gain lớn nhất sẽ
được chọn làm thuộc tính phục vụ việc kiểm tra (phân hoạch)dữ liệu tại nút hiện thời.
Thuộc tính này sẽ làm cực tiểu hóa lượng thông tin cần thiết để có thể phân lớp các dữ
liệu huấn luyện trong kết quả của quá trình phân hoạch hiện tại. Phương pháp tiếp cận
dựa trên lý thuyết thông tin này sẽ làm cực tiểu hóa số lần kiểm tra trung bình cần thiết
để phân lớp một đối tượng dữ liệu và đảm bảo rằng cây quyết định đơn giản(không
nhất thiết phải tối ưu) sẽ được tạo ra.
Giả sử S là một tập gồm s đối tượng dữ liệu huấn luyện, C là tập hợp các lớp
gồm m phần tử khác nhau. Gọi is là số lượng các dữ liệu mẫu trong S thuộc về lớp
iC . Khi đó lượng thông tin trung bình cần thiết để phân lớp một dữ liệu mẫu sẽ được
tính theo công thức (x.y)[2]:
∑
=
−=
m
i
ipipmssisI
1
)(2log),......,2,(
Trong đó ip là xác suất để một đối tượng dữ liệu mẫu thuộc về lớp iC và được
ước lượng bởi sis . Ở đây chúng ta sử dụng hàm logarit theo cơ số 2 là vì thông tin
được mã hóa bằng dãy các bít.
Giả sử thuộc tính A có v giá trị phân biệt, { }vaaa ,....,2,1 , và có thể được sử
dụng để phân hoạch S thành v tập con, { }vSSS ,.....,2,1 , trong đó iS là tập chứa các dữ
liệu mẫu có giá trị của thuộc tính A bằng ia . Nếu A được chọn để kiểm tra việc phân
hoạch tập dữ liệu mẫu, thì các tập con này sẽ tương ứng với các nhánh được tạo ra từ
nút chứa tập S. Gọi ijs là số lượng các mẫu thuộc tập jS có nhãn là iC .Độ đo Entropy,
hay lượng thông tin trung bình, dựa trên sự phân hoạch bởi thuộc tính A được tính
theo công thức sau[2]:
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
50
∑
=
+++=
v
j
mjsjsIs
mjsjsjsAE
1
),.....,1(
....21)(
Đại lượng
s
mjsjsjs +++ .....21 đóng vai trò là trọng số của tập con thứ j,
chính là số lượng các mẫu trong tập con jS chia cho tổng số các mẫu trong S. Giá trị
độ đo Entropy của một thuộc tính càng nhỏ, thì sự phân hoạch tập dữ liệu mẫu theo
thuộc tính này càng tốt. Chú ý, với tập con jS cho trước ta có:
∑
=
−=
m
i
ijpijpmjsjsjsI
1
)(2log.),.......,2,1(
Với
|| jS
ijs
ijp = là xác suất để một mẫu trong tập jS thuộc về lớp iC .Khi đó
độ đo Information Gain của thuộc tính A được tính theo công thức sau[2]:
Gain(A)= )(),......,2,1( AEmsssI −
Ví dụ về cây quyết định
Qua quá trình theo dõi việc đi chơi Tennis của một vận động viên, giả sử
chúng ta có bảng thống kê như sau (xxx ví dụ phân lớp văn bản: xem luận văn anh
Đoàn Sơn):
Thời tiết Nhiệt độ Độ ẩm(%) Có gió? Lớp
Có nắng 75 70 đúng Đi chơi
Có nắng 80 90 đúng Không đi
Có nắng 85 85 sai Không đi
Có nắng 72 95 sai Không đi
Có nắng 69 70 sai Đi chơi
U ám 72 90 đúng Đi chơi
U ám 83 78 sai Đi chơi
U ám 64 65 đúng Đi chơi
U ám 81 75 sai Đi chơi
Mưa 71 80 đúng Không đi
Mưa 65 70 đúng Không đi
Mưa 75 80 sai Đi chơi
Mưa 68 80 sai Đi chơi
Mưa 70 96 sai Đi chơi
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
51
Sử dụng thuật toán xây dựng cây quyết định ở trên chúng ta sẽ có cây quyết
định như hình (3.4):
Để gán nhãn cho một dữ liệu mới, các giá trị thuộc tính của dữ liệu này sẽ
được kiểm tra trên cây quyết định(tiến hành duyệt cây quyết định theo chiều sâu dựa
trên giá trị các thuộc tính của dữ liệu). Một đường đi trên cây sẽ được xây dựng từ nút
gốc cho đến nút lá. Nhãn của nút lá này chính là lớp được gán cho dữ liệu mới.
3.5. Bộ phân lớp dựa trên thuật toán Naive Bayes
Năm 1998, trong luận án tiến sỹ [ Machine learning on non-homogenous,
distributed text data ], Dunja Mladenic đã sử dụng công thức (3.8) để tiến hành xây
dựng bộ phân lớp dựa trên thuật toán Naive Bayes:
)8.3()()|().(
)()|().(
)|( ∑ ∏
∏
∈
∈=
i dj
jTF
icjPicP
dj
jTFcjPcP
dcP
ω ωω
ω ωω
Trong phần sau, khóa luận sẽ tập trung vào việc chứng minh công thức phân
lớp (3.15) và đưa ra công thức đề xuất (3.16), được áp dụng để xây dựng bộ phân lớp
dựa trên thuật toán Naive Bayes.
Thời tiết
Độ ẩm Có gió?
Đi chơi
U ám
MưaNắng
Không đi Đi chơi Đi chơi Không đi
<=75
>75 sai
đúng
Hình 3.4. Cây quyết định
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
52
Khi muốn gán nhãn cho một tài liệu d nào đó, bộ phân lớp sẽ tính xác suất có
điều kiện của mỗi một lớp c với điều kiện đã có tài liệu d. Theo lý thuyết xác suất
Bayes ta có:
)9.3()|(
)|().,|(
),|( θ
θθθ dP
cPcdP
dcP =
Trong đó θ là mô hình tham số của bộ phân lớp mà chúng ta cần phải xây
dựng. Tuy nhiên, sự xuất hiện của θ sẽ được ngầm hiểu trong các công thức đề cập
sau này. Do tập các lớp C lập thành một hệ đầy đủ về xác suất, nên theo công thức
tính xác suất toàn phần ta có:
)10.3()(*)|()(
||
1
∑
=
=
C
i
cPcdPdP ii
Một cách trực quan ta có thể biểu diễn tài liệu d bằng một tập hợp các từ khóa
xuất hiện trong tài liệu )||,......,2,1( ωωω d , trong đó mỗi từ khóa ω i được gắn với một
trọng số ni là số lần xuất hiện của từ khóa đó trong tài liệu d . Theo quan điểm của lý
thuyết xác suất tài liệu d được xem là một sự kiện xác suất (biến cố xác suất) với mỗi
từ khóa và số lần xuất hiện của từ khóa đó là những tính chất của nó. Như vậy tài liệu
d có thể được thay thế tương đưong bằng một tập hợp các tính chất sau:
Gọi W i là biến ngẫu nhiên chỉ số lần xuất hiện của từ khóa ω i và X là biến
ngẫu nhiên chỉ số lượng từ khóa cần dùng để xây dựng tài liệu. Do đó ta có:
d ⇔
2. Số lần xuất hiện của )( 1ω = n1
3.Số lần xuất hiện của )(
2
ω =n2
.........................
..............................
|d|+1.Số lần xuất hiện của )( ||ω d = n d ||
1.Số lượng từ khóa =|d|
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
53
)|,....,,|,|()|( ||||2211 cnWnWnWdXPcdP dd =====
Do số lượng từ khóa cần dùng độc lập xác suất với số lần xuất hiện của tất cả
các từ khóa trong tài liệu cũng như với ngữ nghĩa của tài liệu nên ta có thể viết lại
công thức trên như sau:
)11.3()|,....,,(|).|()|( ||||2211 cnWnWnWPdXPcdP dd =====
Giả sử rằng số lần xuất hiện của các từ khóa trong tài liệu là độc lập với nhau
từng đôi một khi cho biết trước ngữ nghĩa (tên lớp) của các tài liệu. Khi đó kết hợp giả
thiết này với công thức (3.11) chúng ta có:
)12.3()|(*...*)|(*)|(*|)|()|( ||||2211 cnWPcnWPcnWPdXPcdP dd =====
Giả thiết rằng xác suất xuất hiện từ khóa ω i trong một miền ngữ nghĩa cho
trước là một hằng số , constciwP =)|( . Giả thiết này thường không đúng trong nhiều
trường hợp thực tế. Ví dụ: trong một tập hợp S gồm rất nhiều (đủ lớn cho việc thống
kê) các tài liệu liên quan đến chủ đề “văn hóa ẩm thực” có chứa từ khóa “ăn”. Tuy
nhiên có khả năng vào một thời điểm nào đó, từ khóa “ăn” sẽ được thay thế bằng từ
đồng nghĩa khác, ví dụ “xơi”, “chén”, “nhậu”. Rõ ràng trong trường hợp này xác suất
xuất hiện từ khóa “ăn” đã thay đổi. Mặc dù vậy sự thay đổi này vô cùng bé vì mỗi
một từ trong số các từ đồng nghĩa đó đều có một sắc thái tình cảm riêng, không thể tùy
tiện thay thế cho nhau được. Như vậy giả thiết trên hoàn toàn có thể chấp nhận được.
Chúng ta hãy thực hiện lược đồ xác suất S như sau:
♦ Chọn ngẫu nhiên giá trị của |d|
♦ Thực hiện |d| lần một phép thử có đặc điểm như sau: xác suất xuất hiện
từ khóa iω trong miền ngữ nghĩa c cho trước là constciP =)|(ω và xác suất
xuất không xuất hiện từ khóa iω trong miền ngữ nghĩa này là )|(1 ciP ω− .
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
54
Lược đồ S chính là lược đồ Becnulli, do đó theo công thức của lược đồ
Becnulli ta có:
)13.3(
||
)(1)|(*|)(|)|( ||
nd
PncPCdPcnWP
i
i
i
i
n i
dii
−
−== ⎥⎦⎤⎢⎣⎡ ωω
Kết hợp các công thức (3.9), (3.10), (3.12) và (3.13) ta có
=
−−∏∑
−−∏=
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
⎟⎠
⎞⎜⎝
⎛
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
⎟⎠
⎞⎜⎝
⎛
∈
n
cP
cPd
cPCdPdPcP
n
cP
cPd
cPCdPdPcP
dcP
i
ik
i
ki
ki
ki
n i
dk
i
i
i
n i
ddi
)|(1
)|(||
)|(1|)(||)(|)(
)|(1
)|(||
|(1|)(||)(|)(
)|(
||
||
ω
ωω
ω
ωω
ω
ω
)14.3(
)|(1
)|(||
)|(1)(
)|(1
)|(||
|(1)(
n
cP
cPd
cPcP
n
cP
cPd
cPcP
i
k
i
ki
ki
kidik
i
i
idi
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
⎟⎠
⎞⎜⎝
⎛
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
⎟⎠
⎞⎜⎝
⎛
−−∏∑
−−∏=
∈
∈
ω
ωω
ω
ωω
ω
ω
Chúng ta ánh xạ giá trị in trong miền [ 0, |d|] vào một giá trị tương ứng in′ trong miền
[0, 1] theo công thức sau:
)|(001
0||
0 dTF
d
n
n i
i
i ω=−−=′ +⎟⎠
⎞⎜⎝
⎛−
Thay vào công thức (3.14) ta có:
)15.3()(
)|(1
)|(
)|(1)(
)(
)|(1
)|(
)|(1)(
)|( ω
ω
ωω
ω
ω
ωω
ω
ω
i
ki
ki
kidik
i
i
i
idi
TF
cP
cP
cPcP
TF
cP
cP
cPcP
dcP
k ⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
⎟⎠
⎞⎜⎝
⎛
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
⎟⎠
⎞⎜⎝
⎛
−−∏∑
−−∏=
∈
∈
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
55
Gọi )( iCF ω là số lượng miền ngữ nghĩa có chứa từ khóa iω . Có thể nhận
thấy rằng, tham số )( iCF ω cũng phần nào ảnh hưởng tới việc quyết định ngữ nghĩa
cho tài liệu d của từ khóa này. Từ công thức đề xuất thứ nhất (3.15) kết hợp với trọng
số )( iCF ω , khóa luận đã đề xuất công thức thứ hai như sau:
)16.3()()(
)|(1
)|(
)|(1)(
)()(
)|(1
)|(
)|(1)(
)|(
i
i
ki
ki
kidik
i
i
i
i
idi
CFTF
cP
cP
cPcP
CFTF
cP
cP
cPcP
dcP
k
ωω
ω
ωω
ωω
ω
ωω
ω
ω
⎥⎥
⎥⎥
⎥
⎦
⎤
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
⎟⎠
⎞⎜⎝
⎛
⎢⎢
⎢⎢
⎣
⎡
⎥⎥
⎥⎥
⎥
⎦
⎤
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢
⎣
⎡
⎟⎠
⎞⎜⎝
⎛
⎢⎢
⎢⎢
⎢⎢
⎣
⎡
−−∏∑
−−∏
=
∈
∈
Như vậy bộ phân lớp có thể được biểu diễn bằng một mô hình θ bao gồm
tập hợp các tham số sau đây: )|();( cjPcjcPc ωθθ == . Các tham số của mô hình có
thể được ước lượng dựa trên tập dữ liệu huấn luyện ban đầu gồm n tài liệu theo công
thức sau:
nV
n
nK
N
il
n
cc ii
V
l
ij
n
cc ii
cj
c
c
∑∑+
∑+=
+
+=
==
=
:
||
1
:
||
1
1
θ
θ
3.5.1. Ước lượng ngưỡng cho các lớp
Sau khi xây dựng được mô hình tham số cho bộ phân lớp, chúng ta có thể tiến
hành phân lớp cho các tài liệu mới thu được. Tài liệu d sẽ được phân vào lớp c nếu
như { }CicdicPMaxdcP ∈∀= ),|()|( . Phương pháp này đơn giản, dễ hiểu và phù hợp
với suy luận logic của chúng ta. Vì mỗi tài liệu chỉ thuộc về một lớp duy nhất, nên
phương pháp này chỉ phù hợp với các ứng dụng có mật độ phân bố tài liệu không đều,
♦Nc: là số tài liệu thuộc lớp c
♦|V|: số từ khóa trong tập dữ
liệu huấn luyện
♦K: hằng số tùy chọn
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
56
các lớp hoàn toàn không giao nhau. Trong thực tế do ngôn ngữ tự nhiên thường có tính
đa nghĩa, một tài liệu có thể có nhiều ngữ nghĩa khác nhau nên phương pháp này sẽ
không chính xác. Để khắc phục điều này mỗi lớp c sẽ được gán một giá trị ngưỡng,
thc .Tài liệu d sẽ được gán vào lớp c nếu như thdcP c≥)|( . Với phương pháp thứ
hai này, điều khó khăn nhất là chúng ta phải ước lượng được chính xác giá trị ngưỡng
thc .
Đề xuất giải pháp ước lượng giá trị ban đầu cho các ngưỡng thc
Gọi T là tập các trang văn bản dùng để huấn luyện bộ học, C là tập các lớp cho
trước. Quá trình ước lượng giá trị ban đầu cho các ngưỡng được thực hiện theo thuật
toán sau:
Thuật toán:
(1). Xây dựng mô hình tham số θ cho bộ phân lớp
(2). For mỗi lớp c ∈ C do
(3). {
(4). thc← 1;
(5). For mỗi tài liệu d ∈ T, có nhãn là c do
(6). {
(7). Tính giá trị P(c|d) theo công thức (3.16);
(8). if (P(c|d) < thc ) then thc ← P(c|d);
(9). }
(10). }
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
57
3.5.2. Kết hợp thuật toán học máy EM và Naive Bayes
Miền ứng dụng của bài toán phân lớp trang văn bản là tập hợp rất lớn các tài
liệu không nhãn D. Thuật toán EM được sử dụng để xử lý dữ liệu không nhãn, từ đó
xây dựng được một mô hình phân lớp có khả năng thích nghi với các dữ liệu không
nhãn. Cụ thể, bước E bao gồm việc tính toán xác suất có điều kiện )|( idcP cho mỗi
tài liệu id ∈ D . Xác suất này sau đó sẽ được sử dụng để ước lượng lại các tham số của
mô hình trong bước M. Trong mô hình biểu diễn vector, chúng ta sử dụng công thức
ước lượng lại các tham số như sau:
nK
dcP
dcPnV
dcPn
i
n
i
iik
n
i
V
k
iij
n
i
c
cj
+
∑+
∑∑+
∑+
=
==
=
=
=
)|(1
)|(||
)|(1
1
1
||
1
1
θ
θ
Đề xuất giải pháp làm mịn giá trị ngưỡng của các lớp
Giá trị ngưỡng của các lớp sẽ được thích nghi với dữ liệu không có nhãn(dữ
liệu trong tương lai) bằng thuật toán sau:
Thuật toán:
(1) For mỗi tài liệu d ∈ Dtest do
(2) {
(3) Tiến hành phân lớp cho tài liệu d ;
(4) Lưu lại các gía trị )|( cdP và )|( dcP ;
(5) }
(6) For mỗi lớp c ∈ C do
(7) {
(8) othres ← thc ;
(9) tmp ← 0;
(10) tmpv ←0;
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
58
(11) For (mỗi tài liệu d ∈ Dtest ) AND tài liệu d có nhãn là c do
(12) {
(13) tmp ← tmp + )|( cdP * )|( dcP ;
(14) tmpv ← tmpv + )|( cdP * )|( 2dcP ;
(15) }
(16) tmpv ← tmp – tmpv;
(17) n ← 1;
(18) while ((tmp – n*tmpv) > othres) do
(19) {
(20) thc ← tmp – n*tmpv;
(21) n ← n+1;
(22) }
(23) }
3.6. Các yếu tố đánh giá bộ phân lớp
Khả năng sử dụng hàm lý thuyết h(•) để mô tả hàm phân lớp thật sự f(•) (hàm
phân lớp kỳ vọng) có thể được đánh giá bằng việc so sánh giá trị của hàm h(•) và hàm
f(•) trên cùng một tập dữ liệu đã biết trước nhãn. Giả sử chúng ta chỉ có hai lớp cho
trước và hàm lý thuyết h(•) được mô tả bằng ma trận sau:
Lớp thật sự Lớp được
phân
_ +
- TN FN
- FP TP
Nếu ứng dụng có các miền ngữ nghĩa phân bố đồng đều nhau(xác suất không
điều kiện của các lớp tương đương nhau), khi đó độ chính xác A(Accuracy) thường
được sử dụng để làm tham số đánh giá:
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
59
||D
TPTN
A
test
+=
Nếu các miền ngữ nghĩa không cân bằng với nhau, thì độ đo )( precisionρ và
)(recallπ sẽ phù hợp hơn. Không mất tính tổng quát, có thể giả sử rằng số lượng các
dữ liệu thật sự thuộc lớp (+) lớn hơn rất nhiều lần số lượng dữ liệu thuộc lớp
(-). Khi đó ta có:
FNTN
TN
FPTP
TP
+=
+=
ρ
π
Trong trường hợp có nhiều lớp, có thể định nghĩa )( precisionρ và
)(recallπ một cách độc lập cho từng lớp, đồng thời xem tất cả các lớp còn lại như là
lớp (-).
3.6.1. Các chiến lược đánh giá độ chính xác của bộ phân lớp
Việc ước lượng độ chính xác của của bộ phân lớp là một công việc quan trọng,
qua đó cho phép chúng ta đánh giá độ chính xác của bộ phân lớp trong việc gán nhãn
cho các dữ liệu trong tương lai, dữ liệu không nhãn. Ngoài ra nó còn cho phép chúng
ta so sánh giữa các bộ phân lớp với nhau, tìm ra bộ phân lớp tốt nhất để áp dụng vào
thực tiễn. Có một số chiến lược hay được sử dụng để ước lượng độ chính xác của bộ
phân lớp như chiến lược ước lượng trên hai tập con (holdout) và chiến lược ước lượng
chéo trên k tập con, k-fold cross validation. Cả hai chiến lược này đều ước lượng độ
chính xác của bộ phân lớp bằng cách phân hoạch ngẫu nhiên tập dữ liệu có nhãn cho
trước.
Chiến lược ước lượng trên hai tập con
(holdout strategy)
Trong chiến lược này, tập dữ liệu có nhãn cho trước được phân hoạch thành
hai tập con độc lập, tập huấn luyện và tập kiểm tra. Đặc biệt tập huấn luyện có lực
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
60
lượng lớn gấp hai lần tập kiểm tra. Tập huấn luyện dùng để xây dựng bộ phân lớp, sau
đó độ chính xác của bộ phân lớp này sẽ được ước lượng dựa trên tập kiểm tra. Ngoài
ra chúng ta có thể tiến hành lặp chiến lược này k lần, khi đó trung bình cộng của tất cả
các độ chính xác trong mỗi lần lặp sẽ là kết quả cuối cùng.
Chiến lược ước lượng chéo trên k tập con
(k-fold cross validation strategy)
Trong chiến lược này, tập dữ liệu có nhãn ban đầu được phân hoạch thành k
tập có lực lượng bằng nhau và loại trừ lẫn nhau từng đôi một, S1,S2, ......,Sk. Quá trình
huấn luyện và kiểm tra được tiến hành k lần. Trong lần lặp thứ i, tập con Si sẽ được sử
dụng như là tập kiểm tra và tất cả các tập còn lại sẽ được dùng để xây dựng bộ phân
lớp. Độ chính xác của bộ phân lớp sẽ được ước lượng bằng thương của số lần phân lớp
đúng chia cho tổng số đối tượng dữ liệu trong tập huấn luyện ban đầu.
3.7. Tích hợp bộ phân lớp Bayes vào máy tìm kiếm VietSeek
Qua quá trình nghiên cứu, khóa luận đã tiến hành xây dựng và ứng dụng thành công
bộ phân lớp trang văn bản Web đề xuất vào máy tìm kiếm VietSeek, bước đầu cho kết quả rất
khả quan. Ngoài ra hệ thống còn có khả năng tạo dữ liệu huấn luyện ban đầu một các tự động
theo hạn chế cụ thể nào đó.
Để có thể tích hợp bộ phân lớp Bayes thành công vào máy tìm kiếm VietSeek, cần
phải bổ sung các bảng cơ sở dữ liệu và các modul thích hợp.
3.7.1. Bổ sung cơ sở dữ liệu
Sau đây là các bảng cơ sở dữ liệu được bổ sung vào cơ sở dữ liệu ban đầu của
máy tìm VietSeek nhằm mục đích phục vụ cho quá trình tích hợp bộ phân lớp trang
văn bản Web vào máy tìm kiếm VietSeek.
Dữ liệu có
nhãn cho trước
Tập kiểm tra
Tập huấn
luyện
Xây dựng bộ
phân lớp
Ước lượng
độ chính xác
Hình 3.5.Chiến lược Holdout ước lượng độ chính xác bộ phân lớp
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
61
• Bảng category
Chứa thông tin về tất cả các lớp (ngữ nghĩa) của một ứng dụng cụ thể nào đó.
Trường Ý nghĩa
cat_id Số định danh của lớp
name Tên lớp
prob Xác suất không điều kiện của lớp
theshold Ngưỡng xác suất đề một tài liệu được phân vào lớp này.
• Bảng urlsample
Chứa thông tin về tất cả các tài liệu trong tập dữ liệu huấn luyện
Trường Ý nghĩa
url_id Số định danh của trang văn bản Web
vector Vector biểu diễn nội dung của trang Web
cat Số định danh xác định lớp của tài liệu
• Bảng urlcate
Chứa kết quả của quá trình phân lớp trên tất cả các trang Web đã được đánh
chỉ mục.
Trường Ý nghĩa
url_id Số định danh của trang văn bản Web
cat_id Số định danh của lớp được gán cho trang văn bản bởi bộ phân lớp
CatUrlPro Giá trị xác suất P(C | doc)
UrlCatPro Giá trị xác suất P(doc | C)
• Bảng newurls
Chứa tất cả các trang Web đã được đánh chỉ mục.
Trường Ý nghĩa
url_id Số định danh của trang văn bản Web
vector Vector biểu diễn nội dung của trang Web
3.7.2. Giới thiệu các môđun bổ sung
Mã chương trình cụ thể tích hợp trong một số modul chính của máy tìm kiếm
VietSeek được trình bày ở phần phụ lục. Khóa luận đã tiến hành tích hợp bộ phân lớp
Naive Bayes vào những nơi cần thiết và thích hợp trong mã chương trình của máy tìm
kiếm VietSeek, nhưng chủ yếu là vào các modul sau:
Modul CUrlContent::Save
Modul truy cập cơ sở dữ liệu CSQLDatabaseI
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
62
Ngoài ra, do quá trình tính toán trong bộ phân lớp Naive Bayes yêu cầu độ
chính xác rất cao, nên khóa luận đã phải xây dựng thành công bộ xử lý số thực lớn. Bộ
xử số thực lớn được đặt trong hai file ‘bignum.h’ và ‘scibignum.h’.
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
63
Chương 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Kết quả thực nghiệm
Sử dụng tập dữ huấn luyện ban đầu gồm 2435 trang Web lấy từ trang chủ
thuộc 6 lĩnh vực chính (Vi tính, Thể thao, Pháp luật, Sức khỏe, Văn hóa,
Xã hội), sau đó tiến hành phân lớp lại dữ liệu mẫu trên lần lượt bằng các bộ phân lớp Naive
Bayes dựa trên công thức (3.8), (3.15) và (3.16), khóa luận thu được kết quả trong hai trường
hợp có sử dụng ngưỡng và không sử dụng ngưỡng như sau:
(R-Là nhãn thực của các tài liệu Web;P-Là nhãn được gán bởi bộ phân lớp cho các tài liệu
Web):
4.1.1. Kết quả trong trường hợp không sử dụng ngưỡng:
Trong trường hợp phân lớp không sử dụng ngưỡng, tài liệu d sẽ được phân
vào lớp c nếu như { }CicdicPMaxdcP ∈∀= ),|()|( . Sau đây là các kết quả thu được
khi tiến hành phân lớp bằng các công thức khác nhau.
Sử dụng công thức thức (3.8)
R P Vitính Thể thao Pháp luật Sứckhỏe Văn hóa Xãhội Recall
Vi tính 340 1 6 5 96.59%
Thể thao 495 5 99%
Phápluật 1 173 0%
sức khỏe 1 386 22 94.38%
Văn hóa 500 100%
Xã hội 1 499 99.8%
Precision 100% 99.40% 0% 100% 93.63% 73.71%
Bảng 4.1. Kết quả khi sử dụng công thức (3.8) và không sử dụng ngưỡng
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
64
Sử dụng công thức đề xuất thứ nhất (3.15)
R P Vitính Thể thao Pháp luật Sứckhỏe Văn hóa Xãhội Recall
Vi tính 336 1 6 9 95.45%
Thể thao 495 5 99%
Phápluật 1 173 0%
sức khỏe 1 385 22 1 94.13%
Văn hóa 500 100%
Xã hội 1 499 99.8%
Precision 100% 99.4% 0% 100% 93.63% 73.17%
Sử dụng công thức đề xuất thứ hai (3.16)
R P Vitính Thể thao Pháp luật Sứckhỏe Văn hóa Xãhội Recall
Vi tính 350 1 1 99.43%
Thể thao 491 9 98.2%
Phápluật 150 1 23 86.21%
sức khỏe 405 4 99.02%
Văn hóa 500 100%
Xã hội 1 499 99.8%
Precision 100% 99.59% 100% 100% 97.28% 95.41%
Bảng 4.2. Kết quả khi sử dụng công thức (3.15) và không sử dụng ngưỡng
Bảng 4.3. Kết quả khi sử dụng công thức (3.16) và không sử dụng ngưỡng
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
65
Nhận xét:
Trong trường hợp sử dụng bộ phân lớp được xây dựng dựa trên công thức
(3.8) và (3.15), kết quả thu được rất tốt (độ hồi tưởng và độ chình xác), ngoại trừ việc
phân lớp sai hoàn toàn đối với lớp PhápLuật. Tuy nhiên điều này đã được khắc phục
khi sử dụng bộ phân lớp dựa trên công thức đề xuất (3.16). Ngoài ra kết quả thu cũng
tốt hơn trong trường hợp sử dụng bộ phân lớp dựa trên công thức (3.8) và công thức
(3.15).
4.1.2. Kết quả trong trường hợp sử dụng ngưỡng theo thuật toán đề xuất:
Trong trường hợp phân lớp có sử dụng ngưỡng, mỗi lớp c sẽ được gắn một giá
trị ngưỡng thc được tạo ra bởi thuật toán đề xuất, ước lượng giá trị ban đầu của
ngưỡng. Tài liệu d sẽ được gán vào lớp c nếu như thdcP c≥)|( . Sau đây là kết quả
khi tiến hành phân lớp bằng các công thức khác nhau:
Sử dụng công thức (3.8)
R P Vitính Thể thao Pháp luật Sứckhỏe Văn hóa Xãhội Recall
Vi tính 351 12 88 77.83%
Thể thao 499 9 98.23%
Phápluật 173 174 49.86%
sức khỏe 4 408 175 69.51%
Văn hóa 10 4 499 64 86.48%
Xã hội 3 1 499 99.2%
Precision 100% 94.51% 100% 98.79% 100% 49.54%
Bảng 4.4. Kết quả khi sử dụng công thức (3.8) và sử dụng ngưỡng theo thuật toán đề xuất
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
66
Sử dụng công thức đề xuất thứ nhất (3.15)
R P Vitính Thể thao Pháp luật Sứckhỏe Văn hóa Xãhội Recall
Vi tính 351 10 85 78.7%
Thể thao 499 7 98.62%
Phápluật 173 174 49.86%
sức khỏe 5 408 240 62.48%
Văn hóa 10 4 499 80 84.15%
Xã hội 3 1 499 99.2%
Precision 100% 94.69% 100% 98.79% 100% 45.99%
Sử dụng công thức đề xuất thứ hai (3.16)
R P Vitính Thểthao Pháp luật Sứckhỏe Văn hóa Xãhội Recall
Vi tính 351 21 23 88.86%
Thể thao 1 499 3 3 98.62%
Phápluật 173 88 66.28%
sức khỏe 2 408 4 98.55%
Văn hóa 3 2 499 7 97.65%
Xã hội 3 499 99.4%
Precision 99.72% 94.51% 100% 99.51% 99.4% 79.97%
Bảng 4.5. Kết quả khi sử dụng công thức (3.15) và sử dụng ngưỡng theo thuật toán đề xuất
Bảng 4.6. Kết quả khi sử dụng công thức (3.16) và sử dụng ngưỡng theo thuật toán đề xuất
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
67
Nhận xét
Nếu tiến hành phân lớp có sử dụng ngưỡng, được tạo ra bởi thuật toán đề xuất
[Ước lượng giá trị ban đầu cho các ngưỡng], thì kết quả thu được (độ chính xác và độ
hồi tưởng) đều tương đối tốt với cả ba bộ phân lớp dựa trên công thức (3.8), (3.15) và
công thức (3.16). Điều này chứng tỏ rằng giá trị ngưỡng của các lớp được tạo ra bởi
thuật toán đề xuất là tương đối tốt. Ngoài ra, dựa trên các bảng (4.4), (4.5) và (4.6) có
thể thấy rằng bộ phân lớp dựa trên công thức đề xuất (3.16) có số lần phân lớp sai bé
hơn rất nhiều so với bộ phân lớp dựa trên công thức (3.8) và công thức (3.16).
Sau đây là các biểu đồ so sánh kết quả thu được của ba bộ phân lớp dựa trên
các công thức (3.8), (3.15) và (3.16) được xây dựng từ kết quả thực nghiệm:
95.41
73 17
73.71
97.28
93 63
100100
0
99 4 99.59
100
100
90
80
70
Vi tính Thể thao Pháp luật Sức khỏe Văn hóa Xã hội
công thức (3.8)
công thức (3.15)
công thức (3.16)
Biểu đồ 4.1. Độ chính xác trong trường hợp không sử dụng ngưỡng
Precision (%)
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
68
10099.43
96.59
99.8
86.21
100
90
80
70
98.2
99
Thể thao
0
Pháp luật Văn hóa Xã hội
công thức (3.8)
công thức (3.15)
công thức (3 16)
Biểu đồ 4.2. Độ hồi tưởng trong trường hợp không sử dụng ngưỡng
95.45
Vi tính
94 38
99.02
94 13
Sức khỏe
Recall (%)
79 97
45 99
49 54
99.4
99 51
100
94 51
10099 72100100
90
80
40
94.69
94.51
Thể thao Pháp luật Văn hóa Xã hội
công thức (3.8)
công thức (3.15)
công thức (3 16)
Biểu đồ 4.3. Độ chính xác trong trường hợp sử dụng ngưỡng đề xuất
Vi tính
98.79
Sức khỏe
Precision (%)
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
69
4.2. Đánh giá và khả năng ứng dụng
Dựa trên các kết quả thực nghiệm ở trên, có thể khẳng định rằng công thức đề
xuất (3.16) là tốt nhất so với hai công thức (3.8) và (3.15) trên tập dữ liệu đã cho.
Hệ thống xây dựng trong khóa luận có khả năng áp dụng vào thực tế với vai
trò như là một cổng thông tin, có khả năng lọc (phân loại) và phân phối các tài liệu
Web đặc thù cho từng bộ phận chuyên môn trong một hệ thống nghiệp vụ lớn. Khóa
luận xin phép được đưa ra một mô hình ứng dụng cho toàn Đại học Quốc Gia như
hình (4.7). Ngoài ra hệ thống này là cơ sở cho việc nghiên cứu và xây dựng máy tìm
kiếm tài liệu Web theo ngữ nghĩa.
VietSeek Đại học
Đại học
Khoa học tự nhiên
Khoa Công nghệ
Khoa Luật Internet
Url
Url liên quan đến công nghệ
Url liên quan đến pháp luật
Url liên quan đến khoa học tự nhiên
Hình 4.7. Mô hình ứng dụng hệ thống VietSeek
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
70
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI
Qua quá trình tự tìm hiểu và nghiên cứu, cộng với sự giúp đỡ nhiệt tình của
các thầy cô giáo cũng như của bạn bè, khóa luận đã đạt được một số kết quả bước đầu
như sau:
Trình bày mô hình hoạt động tổng quát của các máy tìm kiếm nói chung và máy
tìm kiếm VietSeek nói riêng. Trình bày chi tiết quá trình hoạt động của modul
đánh chỉ mục của máy tìm kiếm VietSeek để từ đó làm cơ sở cho việc cải tiến
và tích hợp các yếu tố khai phá dữ liệu Web.
Trình bày khái quát các kỹ thuật cơ bản liên quan đến quá trình khai phá dữ liệu
FullText cũng như quá trình khai phá dữ liệu Web, đặc biệt là các thuật toán
(K-NN, SVM, Cây quyết định, Naive Bayes) được áp dụng nhằm giải quyết bài
toán phân lớp trang văn bản.
Khóa luận đã đề xuất các công thức phân lớp trang tài liệu văn bản dựa trên
thuật toán Bayes và chứng minh tính đúng dắn của chúng. Ngoài ra, khóa luận
đã đề xuất thuật toán ước lượng và làm mịn giá trị ngưỡng cho các lớp dựa trên
cơ sở lý thuyết xác suất.
Tích hợp thành công bộ phân lớp trang văn bản Web đề xuất vào mày tìm kiếm
VietSeek, và bước đầu cho kết quả đáng tin cậy.
Do thời gian không cho phép, kiến thức còn hạn chế và việc tích hợp các giải
pháp khai phá web vào máy tìm kiếm là một bài toán lớn cho nên các môđun được xây
dựng trong khóa luận còn cần phải phát triển thêm. Việc đánh giá hiệu quả của thuật
toán làm mịn giá trị ngưỡng của các lớp phải được tiến hành trên một lượng dữ liệu
lớn, do vậy hiện tại khóa luận chưa thể đưa ra được đánh giá chính xác về thuật toán
đề xuất này.
Trong tương lai, khóa luận cần phải được hoàn thiện theo các hướng sau đây:
Tích hợp quá trình xử lý ngôn ngữ tự nhiên vào bộ phân lớp. Cụ thể, ở mức đơn
giản có thể áp dụng quá trình chuyển các từ phát sinh về từ gốc ban đầu (loại
bỏ các tiền tố, hậu tố,......), còn ở mức cao hơn, đề cập tới bài toán phát hiện luật
liên quan đến cấu trúc cũng như ngữ nghĩa trong một ngôn ngữ nhất định.
Xây dựng VietSeek trở thành một máy tìm kiếm theo nội dung bằng cách
nghiên cứu quá trình tìm kiếm trong máy tìm kiếm VietSeek và các kỹ thuật
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
71
liên quan đến bài toán xây dựng hệ thống tìm kiếm thông tin thông minh
(Intelligent Information System).
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
72
PHỤ LỤC
Sau đây là mã chương trình cụ thể của bộ phân lớp Naive Bayes được tích
hợp vào máy tìm kiếm VietSeek :
CUrlContent::Save()
{
..........................
if((classifing/*&&changed*/)||(InitThreshold))//<ReIndex and ReClassify
{
CCategory*Cate=Classifier;
hash_map Cat_Value;
char* Mot=new char[2];
Mot[0]='1';
Mot[1]=0;
char* one=new char[2];
one[0]='0';
one[1]=0;
SciBigNum DocProb(one);
//SciBigNum Min(Mot);
while(Cate->next)
{
pvector=vector;
char *CProbS=new char[22];
//CProbS=gcvt(Cate->prob,20,CProbS);
CProbS=gcvt(Cate->prob,20,CProbS);
SciBigNum CProb(CProbS);
Cat_Value[Cate->cat_id].DocCatProb=Mot;
for(int i=0;i<ewords-words;i++){
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
73
double base=(double)FindWordClassParam(*(ULONG*)pvector,Cate);
double oldbase=base;
//base=(double)base/(1-(double)base);
double exp=(double)(*(pvector+2))/(double)totalword;//TF
double formular=pow(base, exp);
//formular=(double) formular*(1-(double)oldbase);
char* formularS=new char[22];
gcvt(formular,20,formularS);
SciBigNum temp(formularS);
Cat_Value[Cate->cat_id].DocCatProb=Cat_Value[Cate-
>cat_id].DocCatProb*temp;
pvector+=3;
delete formularS;
temp.~SciBigNum();
}
Cat_Value[Cate->cat_id].catp=Cate;
Cat_Value[Cate->cat_id].catevalue=Cat_Value[Cate-
>cat_id].DocCatProb*CProb;
if(strcmp(DocProb.value,one)==0)
{
DocProb=Cat_Value[Cate->cat_id].catevalue;
}
else
{
DocProb=DocProb+Cat_Value[Cate->cat_id].catevalue;
}
delete CProbS;
CProb.~SciBigNum();
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
74
Cate=Cate->next;
}
//int Predicted;
char* threshold=NULL;
int IsLabel;
for(hash_map::iterator
it=Cat_Value.begin();it!=Cat_Value.end();it++)
{
((*it).second).catevalue=((*it).second).catevalue/DocProb;
threshold=m_cache->m_database->GetThreshW((*it).first);
SciBigNum ThreshBig(threshold);
if(threshold) delete threshold;
//if(answ) delete answ;
if(InitThreshold)
{
int SampleOfClass=m_cache->m_database->IsSampleOfClass
( m_url.m_urlID, (*it).first );
if(SampleOfClass)// Actual belong to this class
{
if((strcmp(ThreshBig.value,Mot)==0)||(ThreshBig>
((*it).second).catevalue))
{
char* min=(((*it).second).catevalue).Reverse();
m_cache->m_database->UpdateThreshold( min, (*it).first );
if(min) delete min;
}
}
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
75
//if(answ) delete answ;
}
else //Classifing
{
if((((*it).second).catevalue >(ThreshBig))
&&(strcmp(ThreshBig.value,Mot)!=0))
{
IsLabel=1;
logger.log(CAT_ALL, L_INFO, "<CLASS_ID:%d,DOC_ID:%lu
>\n", (*it).first, m_url.m_urlID);
const char* Cat_Doc=(Cat_Value[(*it).first].catevalue).Reverse()
const char* Doc_Cat=(Cat_Value[(*it).first].DocCatProb).
Reverse()
m_cache->m_database->InsertRCate(m_url.m_urlID,(*it).first,
Cat_Doc,Doc_Cat);
if(Cat_Doc) delete Cat_Doc;
if(Doc_Cat) delete Doc_Cat;
}
}
ThreshBig.~SciBigNum();
}//end of for loop
if(!IsLabel)
{
int AnotherCat=m_cache->m_database->GetAnotherCat();
const char* ACat_Doc=(Cat_Value[AnotherCat].catevalue).Reverse();
const char* ADoc_Cat=(Cat_Value[AnotherCat].DocCatProb).Reverse();
m_cache->m_database->InsertRCate(m_url.m_urlID,AnotherCat,
ACat_Doc, ADoc_Cat);
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
76
if(ACat_Doc) delete ACat_Doc;
if(ADoc_Cat) delete ADoc_Cat;
}
if(vector&&classifing)
{
char* bufnew=NULL;
CSQLParam pnew;
pnew.AddParam(&(m_url.m_urlID));
ULONG wordCount=ewords-words;
ULONG vsize=(ewords-words)*3*sizeof(WORD);
if ( vsize >= 20000)
{
bufnew = new char[sizeof(wordCount) + vsize];
}
else
{
bufnew = (char*)alloca(sizeof(wordCount) + vsize);
}
memcpy(bufnew, (char*)&wordCount, sizeof(wordCount));
memcpy(bufnew+sizeof(wordCount), (char*)vector, vsize);
pnew.AddParamEsc((char*)bufnew, vsize+ sizeof(wordCount));
CSQLQuery *sqlquery1 = m_cache->m_database->m_sqlquery
->InsertUrlNew(&pnew);
m_cache->m_database->sql_real_query(sqlquery1);
if(vsize>=20000) delete bufnew;
}
for(hash_map::iterator it=Cat_Value.begin();
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
77
it!=Cat_Value.end();it++)
{
((*it).second).catevalue.~SciBigNum();
}
Cat_Value.clear();
delete one;
delete Mot;
//Max.~SciBigNum();
DocProb.~SciBigNum();
}//
.................................................
}//<END OF FUNCTION
Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
Khóa luận tốt nghiệp đại học Đặng Thanh Hải
78
TÀI LIỆU THAM KHẢO
[1]. Dunja Mladenic. Machine learning on non-homogenous, distributed text
data,Doctoral Dissertation. 1998
[2]. Micheline Kamber, Jiawei Han: Data Mining, Concepts and Techniques
[3]. Pierre Baldi, Paolo Fransconi, Padhraic Smyth. Modeling the Internet and the
Web, Probabilistic Methods and Algorithms 2003
[4]. Paolo Boldi, Bruno Cdenotti, Massimo Santini, Sebastinao Virga. UbiCrawler: A
scalable fully distributed web crawler. Jan. 27, 2003
[5]. Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual
Web Search Engine. 1998
[6]. Sen Slattery (2002). Hypertext Classification. Doctoral dissertation (CMU-CS-
02-142). School of Computer Science. Carnegie Mellon University.
[7]. Bùi Quang Minh (2002). Máy tìm kiếm VietSeek. Báo cáo kết quả nghiên cứu
thuộc Đề tài khoa học đặc biệt cấp ĐHQGHN mã số QG-02-02.
[8]. Đặng Tiểu Hùng. Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy
tìm kiếm VietSeek. Luận văn thạc sỹ Công nghệ thông tin- Đại học Quốc gia Hà Nội,
2004.
[9]. Nguyen Ngoc Minh, Nguyen Tri Thanh, Ha Quanh Thuy, Luong Song Van,
Nguyen Thi Van. A Knowledge Discovery Model in Full-text Databases. Proceedings
of the First Workshop of International Joint Research: “Parallel Computing, Data
Mining and Optical Networds”. March 7, 2001, Japan Advanced Institute of Science
and Technology (JAIST), Tatsunokuchi, Japan, 59-68
[10]. Phạm Thanh Nam, Bùi Quang Minh, Hà Quang Thụy. Giải pháp tìm kiếm trang
Web tương tự trong máy tìm kiếm VietSeek. Tạp chí Tin học và Điều khiển học (nhận
đăng 1-2004).
[11]. Phạm Thanh Nam. Một số giải pháp cho bài toán tìm kiếm trong cơ sở dữ liệu
Hypertext. Luận văn thạc sỹ Công nghệ thông tin- Đại học Quốc gia Hà Nội.
[12].
[13].
Các file đính kèm theo tài liệu này:
- K45_Dang_Thanh_Hai_Thesis.pdf