Trong phần thửnghiệm phân loại văn bản, hiện tại chúng em quy định một chủ
đềchỉcó một từkhóa chính là tên của chủ đề đó. Chính đây là một điểm hạn chế
dẫn đến kết quảphân loại văn bản chưa cao nhưtrong các công trình phân loại văn
bản tiếng Anh. Do vậy, nhu cầu xây dựng một công cụchiết xuất từkhóa tự động từ
tập dữliệu tin tức thô là rất cần thiết. Khi đã có tập từkhóa, độchính xác của việc
phân loại văn bản sẽtăng lên đáng kể.
Hiện tại, luận văn thực hiện phân loại theo hướng tiếp cận Naïve Bayes với các
từ được tách trong câu mà không có sựchọn lựa những từ đặc trưng đểthực hiện
phân loại. Điều này dẫn đến một sốtừkhông có ý nghĩa phân loại vẫn xem nhưcó
vai trò tương tựnhưnhững từcó ý nghĩa phân loại cao. Nếu chúng ta nghiên cứu
thực hiện chọn lựa các đặc trưng của văn bản (feature selection) rồi mới phân loại,
chứng ta sẽ đạt được tỉlệchính xác cao hơn và tăng tốc độxửlý của hệthống sẽ
tăng lên đáng kể
132 trang |
Chia sẻ: haianh_nguyen | Lượt xem: 1295 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề tài Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ân loại vào chủ đề ci cĩ giá trị 1 2( | , ,..., )i nP Y c w w w′ = cao
nhất.
74
5.4. Kết luận
Các phương pháp phân loại văn bản dựa trên cơng thức của IGATEC và phương
pháp Nạve đều tương đối đơn giản, khơng bị hạn chế về tập huấn luyện như khi sử
dụng các phương pháp khác. Ngồi ra, các phương pháp trên cũng khơng gặp
trường hợp sai lạc do cĩ sự thay đổi trong tập huấn luyện bởi tính linh hoạt đối với
sự thay đổi nhờ dùng thơng tin thống kê từ Google.
Các kết quả trên thu nhận được thơng qua việc chạy hệ thống thử nghiệm phân
loại ViKass sẽ được mơ tả chi tiết trong chương tiếp theo.
75
Chương 6
HỆ THỐNG THỬ
NGHIỆM PHÂN LOẠI VĂN
BẢN
Giới thiệu hệ thống thử nghiệm Vikass
Thử nghiệm các cách trích xuất thơng tin
Dữ liệu thử nghiệm
Thử nghiệm các cơng thức tính độ tương hỗ MI
Thử nghiệm phân loại tin tức điện tử
76
Chương 6. HỆ THỐNG THỬ NGHIỆM PHÂN LOẠI
VĂN BẢN
6.1. Giới thiệu hệ thống thử nghiệm Vikass
6.1.1. Chức năng hệ thống Vikass
Hệ thống thử nghiệm phân loại văn bản Vikass được xây dựng nhằm mục đích
kiểm nghiệm phương pháp tách từ IGATEC và các phương pháp phân loại đề cập ở
chương trước nhằm tìm ra được các tham số tối ưu trước khi tích hợp vào tồ soạn
báo điện tử. Các tham số này bao gồm các tham số chạy thuật tốn di truyền như số
lượng cá thể ban đầu, số thế hệ tối ưu, tỉ lệ lai ghép, tỉ lệ đột biến; cách tính MI
hiệu quả và phương pháp phân loại nào cho kết quả tốt hơn. Ngồi tích hợp mơ-đun
trích tần số xuất hiện từ Google, hệ thống cịn cung cấp các tính năng khác như trích
tin tức, chỉnh sửa từ khĩa. Chức năng của hệ thống sẽ được mơ tả chi tiết trong các
phần tiếp theo.
6.1.2. Tổ chức và xử lý dữ liệu
6.1.2.1. Giới thiệu chung
Hướng tiếp cận của luận văn dựa trên thống kê từ Google, điều đĩ cĩ nghĩa là
mỗi lần cần lấy tần số xuất hiện của một từ mới, hệ thống phải thực hiện lấy thơng
tin từ Internet. Điều này làm tiêu tốn rất nhiều thời gian chờ đợi, do vậy mỗi khi lấy
được thơng tin từ Google, chúng em lưu lại vào một file dữ liệu đệm để cĩ thể sử
dụng lại mỗi khi cần đến.
Với mục đích làm tăng tốc độ xử lý của chương trình thử nghiệm, việc quản lý
dữ liệu hồn tồn được thực hiện trên file văn bản thơng thường trên kiểu phơng
phổ biến của tiếng Việt là phơng Unicode UTF8.
Hệ thống thử nghiệm cần hai loại thơng tin như sau:
? Đối với thử nghiệm tách từ tiếng Việt, hệ thống cần thơng tin về xác suất
xuất hiện của các từ trên Google.
? Đối với việc thử nghiệm phân loại văn bản, hệ thống cần thơng tin về xác
suất xuất hiện đồng thời của từ và từ khố tương ứng với chủ đề.
77
6.1.2.2. Tổ chức dữ liệu
Từ những yêu cầu trên, hệ thống dữ liệu được thiết kế thành ba file cĩ nội dung
như sau:
Hình 6. 1. Tổ chức file dữ liệu
? File CACHE: là dạng file văn bản thơng thường, chứa thơng tin:
? Từ: từ đã tìm từ Google
? Xác suất: xác suất của từ đĩ trên Google
? Loại từ: mang một trong các giá trị W(là từ), NW (khơng là từ), WC (
cĩ thể là từ), NWC (khơng thể là từ), UD (chưa phân loại).
? File KEYWORD: File được viết dưới dạng xml bao gồm thơng tin về tên chủ
đề các cấp:
? Tên chủ đề: tên của chủ đề các cấp (cấp 1 và cấp 2)
? Chỉ số: chỉ số của mỗi chủ đề cho biết vị trí của chủ đề trong danh
sách xác suất của từ với từng chủ đề trong file Relevant.
? Chọn dạng xml để lưu tên chủ đề vì tính chất lồng nhau ở từng cấp
của chủ đề rất thích hợp với cấu trúc dạng cây của tài liệu xml.
? Ví dụ, ta cĩ các chủ đề cấp 1 là “thể thao” và các chủ đề cấp 2 của nĩ
là “Bĩng đá”, “Quần vợt” như hình vẽ dưới đây”
Hình 6. 2. Chủ đề Thể thao
Lúc đĩ, nội dung file chủ đề sẽ cĩ nội dung như sau:
78
? File RELEVANT: chứa thơng tin:
? Từ: từ đã tìm
? Danh sách xác suất của từ với từng chủ đề: xác suất xuất hiện đồng
thời của từ ứng với từng chủ đề theo chỉ số được lưu trong file
KEYWORD.
Sau khi thực hiện thử nghiệm, dung lượng file CACHE đã lên đến gần 10M và
file RELEVANT xấp xỉ 50M. Với khối lượng dữ liệu lớn như vậy, việc sử dụng
một hệ quản trị cơ sở dữ liệu là khơng cần thiết bởi vì việc xử lý thơng tin trong hệ
thống là đơn giản và yêu cầu tiên quyết của chương trình là tốc độ xử lý cao. Như
vậy, chọn lựa lưu trữ thơng tin dưới dạng văn bản bình thường là phù hợp với yêu
cầu hệ thống.
6.1.2.3. Xử lý dữ liệu
Khi bắt đầu hoạt động, hệ thống tự động thực hiện đọc các file dữ liệu, phân tích
chuỗi trong file để lấy thơng tin và đưa vào bộ nhớ dưới dạng “bảng băm”
(hashtable). Hệ thống thử nghiệm được phát triển nên ngơn ngữ C#, là một ngơn
ngữ khá mạnh hỗ trợ nhiều cấu trúc lưu trữ thơng tin trong đĩ cĩ hỗ trợ bảng băm.
Nhờ vậy mà việc tổ chức dữ liệu trở nên đơn giản hơn rất nhiều. Ngồi ra, cách xử
lý như vậy sẽ làm tăng tốc độ tìm kiếm thơng tin của từ nhờ các ưu điểm tổ chức dữ
liệu của bảng băm.
79
6.1.3. Một số màn hình của hệ thống Vikass
Hình 6. 3. Màn hình tách từ và phân loại
STT Mơ tả
1 Chọn thư mục chứa các tập tin cần tách từ và phân loại
2 Chọn thư mục lưu kết quả
3 Liệt kê tên các tập tin được chọn tách từ và phân loại
4 Di chuyển các tập tin qua lại để chọn các tập tin thực hiện tách từ
5 Liệt kê tên tất cả các tập tin cĩ trong thư mục (1)
6 Thực hiện tách từ và phân loại
7 Dừng tách thực thi
8 Xem tập tin kết quả phân loại
9 Tab tùy chọn các thơng số chạy GA
10 Tab tùy chọn các thơng số như loại MI sử dụng, cĩ sử dụng stopword hay
khơng ?
11 Tab chọn các từ khĩa sẽ sử dụng cho việc phân loại
Bảng 6. 1. Mơ tả một số control của màn hình tách từ
80
Màn hình mơđun trích xuất từ Google:
Hình 6. 4. Màn hình trích xuất từ Google
STT Mơ tả
1 Chọn thư mục chứa các tập tin như tập tin đệm, tập tin chứa độ liên quan
của từ và từ khĩa,…
2 Các tùy chọn như chỉ tìm kiếm các từ cĩ tần số 0, chỉ tìm các trang .vn, tìm
kiếm độ liên quan của từ và từ khĩa…
3 Các phương pháp tải về sử dụng
4 Thanh biểu thị tiến trình tìm kiếm và trích từ
5 Thực hiện tìm kiếm và trích xuất
6 Lưu lại tập tin đệm và tập tin chứa độ liên quan
7 Dừng việc tìm kiếm
8 Danh sách các từ đã được tìm kiếm
Bảng 6.2. Mơ tả một số control của màn hình trích từ Google
81
Màn hình phân loại tin tức điện tử hỗ trợ tồ soạn báo điện tử :
Hình 6. 5. Màn hình phân loại tin tức điện tử
STT Mơ tả
1 Thiết lập các tham số kết nối đến SQL server
2 Lấy các tin tức được tồ soạn báo điện tử tải về
3 Thực hiện phân loại
4 Cập nhật các tin tức đã được phân loại vào SQL server
5 Thực hiện tất cả các bước (2),(3),(4)
6 Hiển thị các thơng tin như : nội dung tin, tên của chủ đề được phân loại,…
Bảng 6.3. Bảng mơ tả một số control của màn hình phân loại tin tức điện tử
82
6.2. Thử nghiệm các cách trích xuất thơng tin
Việc trích xuất thơng tin về tần số xuất hiện của từ, độ liên quan giữa từ và chủ
đề được thực hiện thơng qua module Google Extractor. Nhằm mục đích tăng tốc
trích thơng tin từ Google, chúng em đã thử nghiệm trích thơng tin bằng nhiều cách
khác nhau và thực hiện kết nối đến Google sử dụng nhiều luồng (>=15). Bên cạnh
đĩ, để tránh việc phải thực hiện tìm kiếm nhiều lần, các tập tin đệm được sử dụng
với mục đích lưu lại hay cập nhất kết quả các lần tìm kiếm trước.
6.2.1. Các phương pháp thử nghiệm
Chúng em sử dụng 3 cách khác nhau để lấy kết quả tìm kiếm bao gồm sử dụng
dịch vụ web do Google cung cấp, tải trang kết quả về máy cục bộ sau đĩ sử dụng
XPath hay tìm kiếm chuỗi.
6.2.1.1. Google web service
Dịch vụ web là một ứng dụng cung cấp giao diện lập trình, hỗ trợ sự truyền
thơng từ ứng dụng này đến ứng dụng khác qua mạng dùng XML. Dịch vụ web của
Google tại địa chỉ là một phương pháp
tiện lợi để khai thác cơng cụ tìm kiếm này. Tuy nhiên, ta phải đăng kí tài khoản
trước khi sử dụng. Với mỗi tài khoản Google giới hạn số lượng truy vấn là 1000
truy vấn/ngày. Các tham số cần biết khi sử dụng dịch vụ :
Tham số tìm kiếm
q Câu truy vấn
n Số kết quả trả về trên từng trang
lr Giới hạn phạm vi ngơn ngữ tìm kiếm
ie Bảng mã câu truy vấn sử dụng
oe Bảng mã của kết quả trả về
Bảng 6. 4. Tham số sử dụng dịch vụ Google
Một số câu truy vấn đặc biệt trên Google :
83
Truy vấn đặc biệt Câu truy vấn Ý nghĩa
Loại bỏ một từ bass –music “-” để loại bỏ 1 từ ra khỏi kết
quả tìm kiếm
Từ khĩa OR vacation london OR
paris
OR
Giới hạn site Admission
site:www.stanford.edu
site: chỉ tìm kiếm trong site
được chỉ định
Giới hạn ngày Star Wars
daterange:2452122-
2452234
daterange: chỉ trả về các file cĩ
nhãn thời gian thõa điều kiện
Lọc file Google filetype:doc OR
filetype:pdf
filetype: chỉ tìm kiếm các file
cĩ kiểu mở rộng được liệt kê
Loại trừ file Google doc -filetype:
-filetype:pdf
-filetype: ngược lại với
filetype:
Tìm theo tiêu đề intitle:Google search intitle: chỉ tìm kiếm tiêu đề web
Bảng 6. 5. Một số câu truy vấn đặc biệt của Google
Trong quá trình thử nghiệm sử dụng dịch vụ web của Google, chúng em nhận
thấy thời gian đáp ứng khơng được nhanh (khoảng >5s cho một truy vấn-sử dụng
mạng Internet của trường) hơn nữa cịn tồn tại nhiều lỗi. Lý do cĩ thể kể đến như
phiên bản dịch vụ đang trong quá trình thử nghiệm (bản β), hạn chế do dung lượng
mạng, chi phí chứng thực. Giới hạn 1000truy vấn/ngày cũng ảnh hưởng đến chương
trình khi phải thực hiện trích xuất trên lượng lớn các từ. Để khắc phục vấn đề này,
chúng em sử dụng biện pháp tải trang kết quả về.
6.2.1.2. Xpath và tìm kiếm chuỗi
Trang kết quả trả về sẽ được chuyển sang định dạng xHTML dùng cho việc trích
xuất dùng Xpath ( hay thực hiện tìm kiếm trên
chuỗi. Cả hai phương pháp này đều cho hiệu suất tốt (khoảng 1-3s/truy vấn).
Xpath là định dạng được W3C đề nghị được sử dụng rộng rãi trong việc truy vấn
tập tin XML. Sử dụng Xpath cĩ thuận lợi hơn tìm kiếm chuỗi ở chỗ cĩ thể sử dụng
trích xuất trên nhiều ngơn ngữ trả về từ Google và nếu cấu trúc của trang web thay
84
đổi thì ta vẫn lấy được thơng tin trả về của Google. Trong khi đĩ việc tìm kiếm
chuỗi sẽ phụ thuộc vào các câu đặc biệt (như “các kết quả ”... ). Do đĩ, nếu các
trang trả về của Google trình bày khác đi, cách tìm kiếm chuỗi sẽ khơng cho kết quả
mong muốn. Tuy nhiên, sử dụng cách tìm kiếm chuỗi sẽ cho kết quả nhanh hơn
dùng Xpath vì hệ thống khơng phải tốn một thời gian phân tích dữ liệu thành dạng
tài liệu XML.
6.2.2. Nhận xét
Hiện tại, điều chúng ta quan tâm hàng đầu là tốc độ trích thơng tin từ Google.
Mặt khác, trang web Google cĩ cấu trúc khả ổn định, hầu như khơng thay đổi. Vì
vậy khi thực hiện thử nghiệm, chúng em sử dụng cách thức tìm kiếm chuỗi để đạt
tối độ cao nhất. Tuy nhiên, chúng em vẫn xây dựng các lựa chọn rút trích để tạo tính
linh hoạt trong thử nghiệm.
6.3. Dữ liệu thử nghiệm
6.3.1. Nguồn dữ liệu
Dữ liệu thử nghiệm được lấy từ trang tin tức VnExpress.net
(www.vnexpress.net) tại thời điểm tháng 6/2005. Đây là một trong những trang tin
tức điện tử đầu tiên tại Việt Nam ra đời vào ngày 26/2/2001, đến nay đã hơn bốn
năm hoạt động với lượng độc giả đơng đảo trong cả nước và quốc tế. Ngồi các
trang mục do phĩng viên của tờ báo viết, VnExpress.net cịn mở rộng đĩn nhận các
bài viết do độc giả gửi về từ khắp nơi để làm phong phú thêm cho nội dung của tờ
báo và cập nhật tin tức thường xuyên nhanh chĩng.
6.3.2. Số lượng dữ liệu thử nghiệm
Từ các mục của VnExpress.net, đầu tiên chúng em chọn lọc ra một số mục
chính để lấy dữ liệu thử nghiệm.
Vì chúng em quy định từ khĩa cho chủ đề chính là tên chủ đề đĩ nên trong quá
trình thử nghiệm, chúng em phát hiện ra một số trường hợp nhập nhằng.
85
Đầu tiên, từ khĩa Thế giới, Xã hội cĩ ý nghĩa bao quát cĩ thể về Kinh tế thế
giới, chính trị thế giới, văn hĩa xã hội…, nên khả năng các tin tức được phân loại
vào chủ đề này là rất cao do tần số xuất hiện của chủ đề này với các từ phổ biến lớn.
Thứ hai, một số mục cĩ tên khơng đồng nhất giữa các tờ báo điện tử như trang
VnExpress.net dùng Vi tính trong khi đĩ TuoiTre.com.vn lại dùng Nhịp sống số,
Vnn.vn dùng Cơng nghệ thơng tin và Viễn thơng.... Việc này làm giảm kết quả khi
sử dụng từ khĩa khĩa Vi tính cho chủ đề này vì từ khĩa này khơng bao quát được
cho các trang sử dụng tên chủ đề khác mặc dù cùng trình bày một nội dung.
Do vậy, chúng em chỉ sử dụng một số mục cĩ từ khĩa rõ ràng. Đối với mỗi tin
tức, chúng em chỉ tách lấy phần tiêu đề, phần tĩm lược và phần chú thích ảnh. Đây
là các phần cĩ ý nghĩa phân loại cao do được người viết bài tĩm lược và chọn lọc.
Ứng mỗi chủ đề, chúng em lấy ngẫu nhiên 100 tin. Cịn cách giải quyết phần nhập
nhằng trình bày ở trên sẽ là hướng mở rộng của luận văn. Tổng dữ liệu thử nghiệm
là 1500 tập tin bao gồm 15 chủ đề cấp 2, mỗi chủ đề 100 tập tin.
86
Hình 6. 6. Cây chủ đề
6.3.3. Nhận xét
Mặc dù dữ liệu dùng thử nghiệm khá nhỏ do hạn chế về mặt thời gian, nhưng
cách thức chọn dữ liệu và chủ đề thử nghiệm phân loại của chúng em đã mở rộng
rất nhiều so với 35 văn bản thử nghiệm của [H. Nguyen et al, 2005] trên 5 chủ đề
Chính trị, Giáo dục, Kinh doanh, Sức khỏe, Thể thao.
87
6.4. Thử nghiệm các cơng thức tính độ tương hỗ MI
6.4.1. Các phương pháp thử nghiệm
Nhằm xác định hiệu quả của các cách tính MI trong việc tách từ tiếng Việt,
chúng em thực hiện thử nghiệm 3 cơng thức MI đã được trình bày ở mục 4.5: một
cơng thức tính MI của [H.Nguyen et al, 2005] (gọi là MI1) , một của [Ong & Chen,
1999] (gọi là MI2), một do chúng em đề nghị (gọi là MI3) . Ứng với mỗi cơng thức
tính MI trên, chúng em thử nghiệm thêm việc tách stopword và khơng tách
stopword trước khi tách từ. Mục đích của việc tách stopword trước khi tách từ nhằm
tạo ra nhiều ngữ nhỏ hơn khi đã bỏ các từ khơng cĩ ý nghĩa, để làm tăng tốc độ tách
từ của hệ thống.
Như vậy, tổng cộng cĩ 6 thử nghiệm tách từ như sau:
? MI1 tách stop word (MI1_NonSW)
? MI1 khơng tách stop word (MI1_SW)
? MI2 tách stop word (MI2_NonSW)
? MI2 khơng tách stop word (MI2_NonSW)
? MI3 tách stop word (MI3_NonSW)
? MI3 khơng tách stop word (MI3_NonSW)
Chúng em thử nghiệm các cơng thức trên 1500 nội dung tĩm tắt các tin tức của
VnExpress.net
6.4.2. Kết quả
Độ chính xác của các cơng thức tính độ tương hỗ như sau:
Cách tính MI Khơng tách stop word Cĩ tách stopword
MI 1 [H. Nguyen et al, 2005] 74% 72%
MI 2 [Ong & Chen, 1999] 60% 55%
MI 3 (chúng em đề nghị) 72% 69%
Bảng 6. 6. Kết quả thực nghiệm các cơng thức tính độ tương hỗ MI
88
0%
10%
20%
30%
40%
50%
60%
70%
80%
MI1 MI2 MI3
Loại MI
Đ
ộ
ch
ín
h
xá
c
Non SW
SW
Hình 6. 7. Biểu đồ so sánh kết quả các cơng thức tính độ tương hỗ MI
6.4.3. Nhận xét
Trong 6 cách thử nghiệm, cách tách từ dùng cơng thức MI1. cĩ độ chính xác cao
nhất.
Thời gian chạy tách từ lúc đầu khá lâu (trung bình khoảng 10 phút cho một mẫu
tĩm tắt dài khoảng 100 tiếng) đa phần là do thời gian lấy thơng tin từ Google.
Nhưng khi thơng tin về tần số xuất hiện của các từ đã được lưu lại tương đối lớn (độ
lớn file cache khoảng 10M), thì tốc độ tách từ giảm xuống đáng kể (trung bình
<1giây đối với các văn bản khơng cần lấy thơng tin từ Internet)
Cách tiếp cận của cơng thức MI1 là ưu tiên dựa trên từ ghép cĩ hai tiếng, mà
theo thống kê dựa trên từ điển của chúng em, số từ 2 tiếng chiếm đa số trong từ
vựng tiếng Việt. Cách tính này cho kết quả khá tốt vì vừa thoả mãn được tính chất
tự nhiên dựa trên ưu thế áp đảo của từ 2 tiếng, vừa được chứng minh bằng thực
nghiệm.
Trong các trường hợp thử nghiệm cĩ tách stopword, thời gian tách từ giảm đi rất
nhiều (trung bình 5 phút cho văn bản mới). Tuy nhiên, trong quá trình thử nghiệm,
chúng em nhận thấy việc tách stopword cĩ thể làm sai lạc ý nghĩa của văn bản ban
89
đầu do danh sách stopword đưa vào khơng hồn chỉnh. Vì vậy kết quả tách từ cĩ
tách stopword khơng cao như cách tách thuần tuý.
6.5. Thử nghiệm phân loại tin tức điện tử
6.5.1. Thước đo kết quả phân loại văn bản
Để đánh giá hiệu quả phân loại văn bản, thơng thường người ta dùng các chỉ số
về độ thu về-recall và độ chính xác-precision [Yang, 2000]. Cho một phương pháp
phân loại văn bản, đầu vào là một văn bản, và kết quả trả về là một danh sách các
chủ đề được gán cho văn bản đĩ, chỉ số độ thu về, độ chính xác cĩ thể được tính
như sau:
Hình 6. 8. Các thơng số dùng tính độ thu về, độ chính xác
Hình trên mơ tả các thơng số sau:
? (A) là tất cả văn bản thực hiện phân loại văn bản cho chủ đề T
? (B) là số văn bản được phân loại lấy về cho chủ đề T
? (C) là số văn bản thực sự thuộc về chủ đề T
? (D) là số văn bản lấy về chính xác.
Các tham số trên được dùng trong cơng thức tính độ thu về-recall, độ chính xác-
precision dưới đây:
90
Việc gán nhãn chủ đề của các phương pháp phân loại văn bản cĩ thể được đánh
giá bằng cách dùng bảng trường hợp hai chiều ứng với từng loại chủ đề:
Chủ đề đang xét ĐÚNG
với chủ đề văn bản
Chủ đề đang xét SAI
với chủ đề văn bản
Phân loại ĐÚNG
với chủ đề văn bản
a b
Phân loại SAI
với chủ đề văn bản
c d
Bảng 6. 7. Bốn trường hợp của phân loại văn bản
Như vậy, với mỗi kết quả phân loại cho một văn bản, ta sẽ cĩ được một trong 4
trường hợp a,b,c hoặc d. Từ đĩ, ta tính được các chỉ số sau:
? arecall
a c
= + nếu a + c >0, ngược lại là khơng xác định.
? aprecision
a b
= + nếu a + b >0, ngược lại là khơng xác định.
? Tuy nhiên, cách tính với độ thu về, độ chính xác riêng rẽ sẽ cho kết quả
khơng cân đối. Ví dụ nếu số văn bản lấy về đúng (D) gần bằng với số văn
bản đúng thực sự (C) thì chỉ số độ thu về sẽ cao, tuy nhiên nếu số văn bản lấy
về (B) khá nhiều so với (D) sẽ cho chỉ số độ chính xác nhỏ. Do vậy, thơng
thường người ta thêm một chỉ số F1 [Yang , 1997] để phản ánh sự cân đối
giữa 2 độ đo trên:
21 1 1F
recall precision
=
+
Ngồi ra, để tính tốn hiệu quả thực thi trên tồn bộ chủ đề, thơng thường người
ta cịn sử dụng hai phương pháp macro-averaging và micro-averaging.
Macro-averaging tính trung bình các chỉ số recall, precision, fallout, Acc,Err
của tất cả các chủ đề.
91
Micro-averaging tính tốn các chỉ số dựa trên tổng giá trị a, b, c, d của từng chủ
đề dựa theo các cơng thức áp dụng tính cho một chủ đề.
Sự khác nhau chủ yếu giữa hai cách tính macro-averaging và micro-averaging
là : micro-averaging tính tốn dựa trên trọng số của mỗi văn bản, nên cho kết quả
trung bình trên mỗi văn bản (per-document average); trong khi đĩ, macro-
averaging tính tốn trọng số trên mỗi chủ đề, do đĩ, kết quả cho sẽ đại diện cho giá
trị trung bình trên mỗi chủ đề (per-category average).
6.5.2. Các phương pháp thử nghiệm
Ở phần phân loại văn bản, chúng em thử nghiệm 2 cơng thức đã được trình bày
ở 5.3. là cơng thức phân loại được sử dụng trong [H. Nguyen et al, 2005] (gọi tắt là
cơng thức IClass) và cơng thức tính Nạve Bayes được cải tiến cho phù hợp với
hướng tiếp cận dựa trên Google (gọi tắt là NBClass).
Ứng với cơng thức phân loại, chúng em thử nghiệm với 2 cơng thức tính MI:
một của [H. Nguyen et al, 2005] (gọi tắt là MI1) và một cơng thức MI do chúng em
đề xuất (gọi tắt là MI3) cho hai trường hợp tách và khơng tách stopword.Ở phần này
chúng em khơng thử nghiệm với MI2 của [Ong & Chen, 1999] vì kết quả tách từ
của cơng thức này thấp hơn các cơng thức khác khá nhiều sẽ cho kết quả khơng tốt.
Như vậy tổng cộng chúng em thực hiện 8 lần thử nghiệm phân loại như sau:
? Cơng thức IClass + MI1 + tách stop word
? Cơng thức IClass + MI1 + khơng tách stop word
? Cơng thức IClass + MI3 + tách stop word
? Cơng thức IClass + MI3 + khơng tách stop word
? Cơng thức NBClass + MI1 + tách stop word
? Cơng thức NBClass + MI1 + khơng tách stop word
? Cơng thức NBClass + MI3 + tách stop word
? Cơng thức NBClass + MI3 + khơng tách stop word
6.5.3. Kết quả
92
Sau khi thực hiện phân loại văn bản, chúng em sử dụng các độ đo đã được trình
bày ở mục 6.5.1. để tính tốn kết quả chính xác của các thử nghiệm phân loại. Kết
quả tính tốn được trình bày trong bảng thống kê sau:
Phương
pháp Tên chủ đề R P F1
Xã hội 0.62625 0.654047 0.639847
Khoa học 0.72 0.975434 0.828475
Thể thao 0.765 0.968245 0.854706
Kinh doanh 0.795 0.293358 0.428571
Macro 0.763437 0.892427 0.822908
IClass
+ MI 1
+tách
stopword
Micro 0.663 0.682801 0.672755
Xã hội 0.764 0.636667 0.694545
Khoa học 0.7216 0.942131 0.81725
Thể thao 0.65625 0.975 0.784483
Kinh doanh 0.816 0.348718 0.488623
Macro 0.814333 0.951923 0.877769
IClass
+ MI 1
+khơng
tách
stopword
Micro 0.656 0.672131 0.663968
Xã hội 0.630 0.660 0.645
Khoa học 0.857 0.873 0.865
Thể thao 0.861 0.915 0.887
Kinh doanh 0.630 0.740 0.681
Macro 0.913 0.892 0.903
IClass
+ MI 3
+tách
stopword
Micro 0.678 0.700 0.689
Xã hội 0.772 0.784 0.778IClass
+ MI 3 Khoa học 0.808 0.851 0.829
93
Thể thao 0.882 0.825 0.853
Kinh doanh 0.637 0.523 0.575
Macro 0.858 0.830 0.844
+khơng
tách
stopword
Micro 0.553 0.566 0.559
Xã hội 0.680 0.738 0.708
Khoa học 0.810 0.841 0.825
Thể thao 0.924 0.918 0.921
Kinh doanh 0.725 0.620 0.668
Macro 0.785 0.779 0.782
NBClass
+ MI 1
+tách
stopword
Micro 0.648 0.633 0.640
Xã hội 0.591 0.697 0.640
Khoa học 0.704 0.897 0.789
Thể thao 0.886 0.918 0.902
Kinh doanh 0.675 0.581 0.625
Macro 0.714 0.773 0.742
NBClass
+ MI 1
+khơng
tách
stopword
Micro 0.783 0.633 0.700
Xã hội 0.544 0.636 0.586
Khoa học 0.680 0.855 0.757
Thể thao 0.708 1.142 0.874
Kinh doanh 1.404 0.332 0.537
Macro 0.748 0.721 0.734
NBClass
+ MI 3
+tách
stopword
Micro 0.725 0.648 0.684
Xã hội 0.611 0.590 0.600
Khoa học 0.485 0.616 0.543
NBClass
+ MI 3
Thể thao 0.749 1.095 0.890
94
Kinh doanh 0.660 0.739 0.697
Macro 0.626 0.760 0.687
+khơng
tách
stopword
Micro 0.647 0.647 0.647
Bảng 6. 8. Kết quả phân loại văn bản cho từng chủ đề ở cấp 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
I M
I1
SW
I M
I1
No
nS
W
I M
I3
SW
I M
I3
No
nS
W
Ba
ye
s M
I1
SW
Ba
ye
s M
I1
No
n S
W
Ba
ye
s M
I3
SW
Ba
ye
s M
I3
No
nS
W
Xã hội
Khoa học
Thể thao
Kinh doanh
Macro
Micro
Hình 6. 9. Biểu đồ F1 cho cấp 1
Vì kết quả của phần thử nghiệm phân loại ở cấp hai rất dài, nên chúng em chỉ
xin trình bày biểu đồ kết quả phân loại mà khơng trình bày chi tiết bảng kết quả cho
từng chủ đề.
Sau đây là kết quả phân loại cho các chủ đề cấp 2.
95
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
I M
I1
SW
I M
I1
No
nS
W
I M
I3
SW
I M
I3
No
nS
W
Ba
ye
s M
I1
SW
Ba
ye
s M
I1
No
n S
W
Ba
ye
s M
I3
SW
Ba
ye
s M
I3
No
nS
W
Giáo dục
Du học
Lối sống
Du Lịch
Khoa học
Bĩng đá
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
I M
I1
SW
I M
I1
No
nS
W
I M
I3
SW
I M
I3
No
nS
W
Ba
ye
s M
I1
SW
Ba
ye
s M
I1
No
n S
W
Ba
ye
s M
I3
SW
Ba
ye
s M
I3
No
nS
W
Quần vợt
Bất động sản
Chứng khốn
Quốc tế
Âm nhạc
Thời trang
96
0
0.1
0.2
0.3
0.4
0.5
0.6
I M
I1
SW
I M
I1
No
nS
W
I M
I3
SW
I M
I3
No
nS
W
Ba
ye
s M
I1
SW
Ba
ye
s M
I1
No
n S
W
Ba
ye
s M
I3
SW
Ba
ye
s M
I3
No
nS
W
Điện ảnh
Làm đẹp
Giới tính
macro
micro
Hình 6. 10. Biểu đồ F1 cho cấp 2
6.5.4. Nhận xét
Trong hai mức phân loại chủ đề, ta nhận thấy kết quả phân loại ở mức 1 cho độ
chính xác cao hơn mức 2. Lý do là vì số lượng chủ đề của cấp 2 nhiều hơn cấp 1 rất
nhiều (15 so với 4 ở cấp 1) và một số chủ đề của cấp 2 chưa thực sự tốt như Bất
động sản, Lối sống, Làm đẹp, Giới tính. Từ đĩ, ta thấy được việc xây dựng danh
sách từ khố cho mỗi chủ đề một yêu cầu cần thiết để nâng hiệu suất phân loại văn
bản.
Dựa vào kết quả thử nghiệm ta nhận thấy rằng trong việc phân loại sử dụng
Bayes tốt hơn cơng thức phân loại của H. Nguyen et al (2005) trong nhiều trường
hợp. Trong các thử nghiệm cơng thức của H.Nguyen et al (2005), độ hỗ trợ của kết
quả vào chủ đề đối cĩ giá trị rất gần nhau, khi áp dụng cho các chủ đề hầu như
khơng cĩ sự khác biệt. Trong khi đĩ, với cơng thức Nạve Bayes, cĩ một số chủ đề
97
nổi trội hơn hẳn các chủ đề khác và kết quả thống kê cũng cho thấy Nạve Bayes
cho kết quả chính xác hơn.
Kết quả của thử nghiệm cơng thức trong [H.Nguyen et al, 2005] với độ chính
xác chưa cao lắm bởi vì đấy là cơng thức do chính tác giả đề nghị chưa dựa trên cơ
sở lý thuyết vững chắc. Trong khi đĩ, phương pháp Nạve Bayes đã xuất hiện khá
lâu, được chứng minh trên lý thuyết và thực nghiệm nên độ tin cậy rất cao. Việc sử
dụng hướng tiếp cận Nạve Bayes cho phân loại văn bản dựa trên Google cĩ thể nĩi
là bước cải tiến đáng khíck lệ so với cách phân loại cũ.
Dựa vào biểu đồ, ta nhận thấy sự kết hợp giữa phương pháp phân loại Nạve
Bayes và cơng thức tính độ tương hỗ (MI) của [H. Nguyen et al, 2005] cho kết quả
phân loại tốt nhất. Trong đĩ, tỉ lệ trung bình của phương pháp cho các chủ đề ở cấp
1 là 75%, và cho các chủ đề ở cấp 2 là 67%. Kết quả này hợp lý vì thực nghiệm cho
thấy cơng thức MI1 của H.Nguyen et al (2005) cho kết quả tách từ chính xác cao
nhất nên đã gĩp phần làm cho kết quả phân loại tốt hơn.
Kết quả phân loại văn bản trung bình giữa 8 cặp là 75%, là kết quả chấp nhận
được đối với phân loại văn bản tiếng Việt. Kết quả khơng cao so với kết quả phân
loại bằng tiếng Anh bởi vì như chúng ta đã biết phần tách từ tiếng Việt gặp rất nhiều
phức tạp.
98
Chương 7
ỨNG DỤNG PHÂN LOẠI
TIN TỨC ĐIỆN TỬ TỰ
ĐỘNG
Giới thiệu tịa soạn báo điện tử
Tính cần thiết của phân loại tin tức tự động
Phân tích hiện trạng
Mơ hình DFD quan niệm cấp 2 hiện hành cho ơ xử lý Nhận
bài và Trả bài
Phê phán hiện trạng
Mơ hình DFD quan niệm cấp 2 mới cho ơ xử lý Nhận bài và
Trả bài
Triển khai DLL
Chương trình cài đặt “Tịa soạn báo điện tử” đã tích hợp module
phân loại tin tức
Kết quả
99
Chương 7. ỨNG DỤNG PHÂN LOẠI TIN TỨC ĐIỆN TỬ
TỰ ĐỘNG
Nhằm đánh giá hiệu quả thực tế của việc phân loại sử dụng IGATEC và Nạve
Bayes, chúng em đã xây dựng cơng cụ phân loại thành một module đồng thời tích
họp vào trong tịa soạn báo điện tử. Trong chương này, chúng em sẽ giới thiệu sơ
lược về tịa soạn báo điện tử và mơ tả cách thức tích hợp module phân loại.
7.1. Giới thiệu tịa soạn báo điện tử
Phần mềm tịa soạn báo điện tử (Luận văn khĩa 2000-Hồng Minh Ngọc và
Nguyễn Duy Hiệp) xây dựng trên nền tảng DotNetNuke tuân thủ theo qui trình của
một tịa soạn thực tế đi từ soạn bài, duyệt bài và đăng bài. Mỗi biên tập viên sẽ phụ
trách một mảng chủ đề. Cộng tác viên hay người dùng sau khi viết bài phải được
biên tập viên duyệt. Nếu nội dung và hình thức chấp nhận được thì bài được chuyển
lên vị trí cĩ chức năng đưa bài lên website chính thức. Người quản trị sẽ phân cơng
chuyên mục và chủ đề cho các biên tập viên. Nếu đã qua các cấp kiểm duyệt, bài
viết được phép đưa lên website. Nếu tại một cấp nào đĩ, người quản lý thấy bài viết
cần được chỉnh sửa thì bài viết sẽ được trả về đúng cấp cĩ thẩm quyền.
Ngồi ra, tịa soạn báo điên tử cịn hỗ trợ việc thu thập tin tức điện tử từ nhiều
nguồn khác nhau. Tin tức được tải về sau đĩ phải được các biên tập viên xác định
chủ đề và chuyên mục mà bài báo thuộc về để tiến hành thủ tục đăng bài. Việc phân
loại tin tức ở giai đoạn thực hiện luận văn này là hồn tồn thủ cơng.
7.2. Tính cần thiết của phân loại tin tức tự động
Việc thực hiện phân loại thủ cơng trên số lương lớn các tin tức được tải về cĩ thể
ngốn rất nhiều thời gian và cơng sức. Nhằm làm tăng tính hiệu quả cũng như hỗ trợ
tối đa cho các biên tập viên tập trung vào các cơng việc khác quan trọng hơn.
Module phân loại tin tức tự động đã được xây dựng. Nhiệm vụ của module này là
thực hiện phân loại tự động các tin tức tải về nhằm đề xuất sắp xếp tin tức này vào
một chuyên mục hợp lý. Module được viết dưới dạng một thư viện dll thực hiện các
100
cơng việc như sau: lấy các tin tức được tải về, tiến hành phân loại và cập nhật vào
cơ sở dữ liệu.
7.3. Phân tích hiện trạng
Mục đích của luận văn chúng em là tích hợp phần xử lý phân loại trang web tự
động vào phần duyệt bài viết và sửa bài viết nên chúng em chỉ trình bày mơ hình
DFD cho ơ xử lý “Nhận bài và Trả bài”. Để tìm hiểu về tồn cảnh mơ hình DFD
của tồ soạn báo điện tử, xin tham khảo luận văn “Tồ soạn báo điện tử” của
Hồng Minh Ngọc Hải (0012545), Nguyễn Duy Hiệp (0012038))
7.3.1. Mơ hình DFD quan niệm cấp 2 hiện hành cho ơ xử lý Nhận bài và
Trả bài
7.3.1.1. Mơ hình
Hình 7. 1.Mơ hình DFD hiện hành
7.3.1.2. Mơ tả mơ hình
Thành viên cĩ chức năng viết bài nhận bài viết mới được giao, sau khi hồn
thành thì lưu xuống kho dữ liệu những bài viết chưa đăng để chờ duyệt. Sau khi bài
viết được duyệt, thành viên kiểm tra xem bài viết cĩ cần chỉnh sửa khơng, nếu cĩ thì
101
thực hiện chỉnh sửa sau đĩ lưu phiên bản mới của bài viết chờ duyệt tiếp. Ngồi ra,
các bài báo được lấy tự động từ Internet xuống cũng được lưu trong kho dữ liệu các
bài viết chưa đăng để chờ duyệt.
7.3.1.2.1. Mơ tả kho dữ liệu
Hệ thống thơng
tin:
Xây dựng tồ
soạn báo điện tử
Mơ hình quan niệm xử lý
Hiện tại []
Tương lai[]
Trang :
Ứng dụng :
Xây dựng tồ
soạn báo điện tử
Mơ tả kho dữ liệu :
NHỮNG BÀI VIẾT CHƯA
ĐƯỢC ĐĂNG
Tờ :
Ngày lập : 28/6/2004
Người lập :
1. Hồng Minh Ngọc Hải
2. Nguyễn Duy Hiệp
Dịng dữ liệu vào :
Bài viết đã chỉnh sửa
Bài viết mới
Dịng dữ liệu ra :
Bài viết cần chỉnh sửa
Diễn giải :
Kho này lưu trữ những bài viết đang nằm trong dây chuyền
Cấu trúc dữ liệu:
MA_BAI_VIET
MA_CHUYEN_MUC
MA_TAC_GIA
102
NGAY_VIET
TIEU_DE
NOI_DUNG
DUONG_DAN_ANH
KICH_THUOC_ANH
CHIEU_DAI
CHIEU_RONG
Khối lượng :
- Hiện tại : Khơng xác định
- Tương lai : Khơng xác định
Thơng tin thường truy xuất :
MA_BAI_VIET
MA_CHUYEN_MUC
TIEU_DE
NOI_DUNG
Bảng 7. 1. Bảng kho dữ liệu những bài viết chưa được đăng
7.3.1.2.2. Mơ tả ơ xử lý
Ơ xử
lý Tên
Dịng dữ
liệu vào
Dịng dữ
liệu ra Diễn giải
(1.1) Nhận bài
viết mới
Bài viết Bài viết mới Phĩng viên sau khi viết một bài
mới sẽ gửi vào hệ thống.
Những bài viết này được lưu
dưới dạng những bài viết chưa
được xử lý.
(1.2) Lưu bài
viết mới
Bài viết mới Bài viết mới Lưu bài viết dưới tình trạng
“Chưa xử lý”
103
(1.3) Kiểm tra
những bài
viết cần
xử lý
Nhu cầu
kiểm tra
Thơng tin cá
nhân
Bài viết cần
chỉnh sửa
Kiểm tra các bài viết đã được
duyệt xem cĩ cần chỉnh sửa
khơng
(1.4) Nhận bài
viết đã
chỉnh sửa
Bài viết đã
chỉnh sửa
Bài viết đã
chỉnh sửa
Bài viết sau khi thành viên (cĩ
chức năng chỉnh sửa) duyệt,
chỉnh sửa và trả lại cho thành
viên phụ trách bài viết đĩ.
(1.5) Lưu
phiên bản
mới của
bài viết
Bài viết đã
chỉnh sửa
Bài viết đã
chỉnh sửa
Bài viết đã chỉnh sửa được lưu
vào CSDL dưới tình trạng “Đã
xử lý” tại cấp vừa chỉnh sửa và
dưới tình trạng “Chưa xử lý”
tại cấp được chuyển bài về
(1.6) Lấy tin tự
động
Tin tức điện
tử
Tin tức điện
tử
Hệ thống tự động lấy tin tức từ
các trang báo khác và lưu
xuống kho dữ liệu
Bảng 7. 2. Bảng mơ tả các ơ xử lý của mơ hình DFD hiện hành
7.3.2. Phê phán hiện trạng
Hiện tại, hệ thống tự động lấy tin tức từ các trang báo điện tử khác về và gán vào
các mục đã được chỉ định sẵn. Tuy nhiên, việc chỉ định chủ đề cho các tin tức lấy về
một cách cứng nhắc chỉ đúng trong trường hợp trang web lấy tin cĩ cấu trúc chủ đề
tương ứng với chủ đề trong tồ soạn báo điện tử của mình. Đối với những trang báo
cĩ cấu trúc khác đi, việc gán nhãn mặc định cho các bài báo sẽ khơng cịn đúng nữa.
Ví dụ ở tồ soạn báo điện tử của chúng ta cĩ mục Kinh doanh\Quốc tế, cịn ở
báo www.vnexpress.net cĩ mục Thế giới bao gồm nhiều nội dung, trong đĩ cĩ một
số tin tức về Kinh doanh quốc tế, một số tin tức về chính trị thế giới, một số bài về
văn hố chẳng hạn. Như vậy nếu ta chỉ định các bài báo lấy từ mục tin Thế giới ở
www.vnexpress.net đều được xếp vào mục Kinh doanh\Quốc tế thì kết quả khơng
cịn đúng hồn tồn nữa. Lúc đĩ, các thành viên duyệt bài lại phải đọc lần lượt các
104
bài báo được lấy về một cách thủ cơng để phân loại chủ đề của tin tức cho phù hợp
với cấu trúc chủ đề của mình.
Để hạn chế trường hợp trên, chúng em đưa ra giải pháp là tích hợp module phân
loại văn bản vào việc xử lý lấy tin tự động từ Internet. Các tin tức vừa được lấy về
sẽ được module phân loại văn bản phân loại tự động vào các chủ đề cĩ sẵn của tồ
soạn báo. Như vậy, chúng ta sẽ tiết kiệm được nhiều cơng sức và thời gian duyệt bài
của các thành viên một cách đáng kể.
7.3.3. Mơ hình DFD quan niệm cấp 2 mới cho ơ xử lý Nhận bài và Trả bài
7.3.3.1. Mơ hình
Hình 7. 2. Mơ hình DFD cải tiến
7.3.3.2. Mơ tả mơ hình
Mơ hình mới chỉ thêm một ơ xử lý việc phân loại tin tức tự động sau khi hệ
thống lấy tin tức từ trang web khác về.
105
7.3.3.2.1. Mơ tả ơ xử lý
Ơ xử
lý Tên
Dịng dữ
liệu vào
Dịng dữ
liệu ra Diễn giải
(1.7) Phân loại
tin tức tự
động
Tin tức điện
tử
Tin tức điện
tử đã phân
loại
Module phân loại văn bản mới
tích hợp vào hệ thống thực hiện
phân loại tự động các tin tức
vừa lấy về.
Bảng 7. 3. Bảng mơ tả ơ xử lý phân loại tin tức tự động
7.4. Triển khai DLL
Chương trình phân loại văn bản tự động được viết trên ngơn ngữ C#, trong khi
“Tịa soạn báo điện tử” của luận văn khĩa 2000 được viết mã trên nền VB.Net. Do
đĩ, để tích hợp hai hệ thống lại, chúng em đã xây dựng các thành phần chính dùng
trong phân loại văn bản thành DLL.
Cĩ thể nĩi, việc đĩng gĩi chương trình thành dạng DLL ngồi tính tiện lợi trong
việc tích hợp giữa các hệ thống xây dựng trên các ngơn ngữ khác nhau, goíi DLL
cịn cĩ ưu điểm là khả năng sử dụng đơn giản, dễ mang chuyển, là yếu tố quan trọng
trong việc xây dựng chương trình.
“Tịa soạn báo điện tử” của luận văn khĩa 2000 được xây dựng khá cơng phu về
mặt hình thức lẫn nội dung, cho nên khi tích hợp DLL mới vào, chúng em nhận
thấy khơng cần thiết phải thiết lập thêm giao diện nào nữa. Chúng em chỉ tạo thêm
một số lựa chọn cho người dụng cĩ thể bật tắt chức năng phân loại.
106
Hình 7. 3. Màn hình lấy tin tức cho phép phân loại tự động
7.5. Chương trình cài đặt “Tịa soạn báo điện tử” đã tích hợp
module phân loại tin tức
“Tịa soạn báo điện tử” của luận văn khĩa 2000 hiện tại chưa xây dựng cơng cụ
cài đặt vài gỡ chương trình tự động (Install và Uninstall), địi hỏi người dùng phải
cĩ nhiều kiến thức về SQL Server để cĩ thể cài đặt cơ sở dữ liệu một cách thủ cơng.
Vì vậy, nhằm tăng thêm tính tiện dụng của “Tịa soạn báo điện tử”, chúng em tự xây
dựng cơng cụ cài đặt tự động “Tịa soạn báo điện tử” vào máy chỉ với thao tác click
chuột. Cơng cụ cài đặt thực hiện việc thiết lập cơ sở dữ liệu vào hệ quản trị SQL
Server, thư mục ảo chứa nội dung trang web trong IIS, và tạo shorcut trên desktop.
Một số giao diện của cơng cụ cài đặt:
107
Hình 7. 4. Màn hình bắt đầu. Click Next để bắt đầu cài đặt
Hình 7. 5.Màn hình chọn chế độ cài đặt hoặc tháo gỡ chương trình.
Chọn Install và click Next để sang bước tiếp theo
108
Hình 7. 6.Màn hình chọn đường dẫn để cài đặt chương trình.
Sau khi chọn xong các đường dẫn phù hợp, nhấp vào Next để thực hiện cài đặt.
Hình 7. 7.Màn hình cài đặt chương trình
109
Hình 7. 8.Màn hình chọn chức năng gỡ chương trình.
Chọn Remove để gỡ chương trình đã cài đặt trên máy.
Hình 7. 9.Màn hình gỡ chương trình thành cơng
110
7.6. Kết quả
Nhờ việc tích hợp module phân loại văn bản vào trong web “Tịa soạn báo điện
tử” mà giờ đây cơng việc phân loại tin tức điện tử đã trở nên nhanh chĩng và tiện
lợi hơn. Tuy xác suất phân loại đúng chưa đảm bảo cho hệ thống phân loại văn bản
hồn tồn tự động, mà cần cĩ sự duyệt bài lại để đảm bào chính xác hồn tồn,
nhưng module phân loại văn bản bán tự động cũng đã cung cấp cho người dùng một
tiện ích vơ cùng hữu hiệu.
111
Chương 8
TỔNG KẾT
Kết quả đạt được
Về mặt lý thuyết
Về mặt thực hành
Hạn chế và hướng giải quyết
Kết luận
112
Chương 8. TỔNG KẾT
8.1. Kết quả đạt được
8.1.1. Về mặt lý thuyết
Phân loại văn bản là một bài tốn khĩ và rất thú vị. Khĩ bởi vì vấn đề phân loại
văn bản cần phải thực hiện xử lý ngơn ngữ, mà như chúng ta đều biết, ngơn ngữ tự
nhiên là muơn hình vạn trạng, khơng chỉ phong phú về từ vựng, cú pháp mà cịn
phức tạp về ngữ nghĩa. Nhưng đây lại là bài tốn rất thú vị vì với mỗi ngơn ngữ
khác nhau, chúng ta phải thực hiện những cách xử lý khác nhau đối với ngơn ngữ.
Trong khuơn khổ luận văn này, những vấn đề liên quan đến đề tài như các
phương pháp tách từ và phương pháp phân loại văn bản đã được chúng em tiến
hành nghiên cứu khá cơng phu theo cả chiều rộng lẫn chiều sâu về. Trên cơ sở
nghiên cứu đĩ, các hướng tiếp cận áp dụng cho tiếng Anh và tiếng Hoa phù hợp đã
được lựa chọn và thử nghiệm lên tiếng Việt.
Đặc biệt, ở giai đoạn tách từ chuẩn bị cho phân loại, chúng em đã tìm hiểu một
cách sâu sắc về hướng thống kê dựa trên Internet. Dựa trên nền tảng đĩ, chúng em
mạnh dạn thực hiện cải tiến phương pháp tách từ dựa trên Internet và thuật tốn di
truyền thay vì sử dụng lại các cơng cụ tách từ tiếng Việt đã được cơng bố trước đây.
Hướng tiếp cận mới này khơng những hạn chế được nhược điểm phụ thuộc vào tập
ngữ liệu của các phương pháp khác mà cịn đem lại khả năng khai thác vơ tận nguồn
dữ liệu khổng lồ của nhân loại : word-wide-web. Kết quả đạt được của phương pháp
này là hồn tồn khả quan và chấp nhận được đối với một hướng tiếp cận mới cho
tách từ tiếng Việt dùng trong phân loại văn bản.
Phương pháp phân loại văn bản Nạve Bayes thường được dùng trong phân loại
văn bản tiếng Anh, nay được áp dụng trong tiếng Việt với hướng tiếp cận dựa trên
thống kê từ Google tỏ ra khá hiệu bởi. Nhờ tính đơn giản, các thơng số tính tốn
khơng cần quá lớn như các phương pháp khác, khả năng linh hoạt đối với sự thay
đổi về thơng tin huấn luyện, thời gian phân loại phù hợp yêu cầu, Nạve Bayes đã tở
ra rất phù hợp với các yêu cầu đề ra.
113
8.1.2. Về mặt thực nghiệm
Cơng trình nghiên cứu của luận văn đã thực hiện được nhiều thử nghiệm đối với
từng hướng tiếp cận tách từ tiếng Việt dựa trên Google cũng như phân loại văn bản.
Nhờ vậy, kết quả thực nghiệm đã chứng minh được tính hiệu quả cho các cơng thức
trên lý thuyết.
Qua kết quả thực nghiệm, chúng em nhận thấy cơng thức tách từ của [H.
Nguyen et al, 2005] và cơng thức MI do chúng em đề nghị cho hiệu quả gần tương
đương nhau, tuy cách tính của [H. Nguyen et al, 2005] cĩ vẻ chính xác hơn cho các
từ cĩ hai tiếng.
Kết quả thực nghiệm ở phần phân loại văn bản cho thấy cơng thức phân loại
trong [H. Nguyen et al, 2005] là mang tính chủ quan của tác giả, và dữ liệu thực
nghiệm khơng đủ lớn để cĩ thể kết luận. Nhưng khi áp dụng thử nghiệm trên số
lượng văn bản và chủ đề nhiều hơn thì cách tính này cho ra kết quả thấp hơn nhiều
so với kết quả mà tác giả trình bày. Kết quả sử dụng cơng thức Nạve Bayes đã cho
kết quả khả quan hơn nhờ dựa vào lý thuyết đã được chứng minh từ các cơng trình
trước.
8.2. Hạn chế và hướng phát triển
Với những kết quả thử nghiệm ban đầu, hệ thống phân loại văn bản đã bước đầu
hoạt động hiệu quả , gĩp phần thực hiện phân loại văn bản bán tự động, giúp tiết
kiệm được thời gian và cơng sức đọc văn bản một cách thủ cơng. Mặc dù những kết
quả của hệ thống là chấp nhận được, tuy nhiên hệ thống cĩ thể được cải thiện về độ
chính xác và tốc độ nếu ta khắc phục một số hạn chế của hệ thống và thực hiện
thêm các hướng mở rộng khác được trình bày sau đây.
Phương pháp tách từ dựa trên Internet và thuật tốn di truyền tỏ ra khá linh hoạt
trong việc xử lý ngơn ngữ. Tuy nhiên với mặt bằng chất lượng Internet hiện nay ở
Việt Nam, bước đầu thực hiện việc tách từ sẽ khá lâu vì phải mất thời gian lấy
thơng tin từ cơng cụ tìm kiếm trên mạng. Nhưng khi các thơng tin trên được lưu lại
tương đối lớn, tốc độ phân định ranh giới từ sẽ được cải thiện.
114
Trong phần thử nghiệm phân loại văn bản, hiện tại chúng em quy định một chủ
đề chỉ cĩ một từ khĩa chính là tên của chủ đề đĩ. Chính đây là một điểm hạn chế
dẫn đến kết quả phân loại văn bản chưa cao như trong các cơng trình phân loại văn
bản tiếng Anh. Do vậy, nhu cầu xây dựng một cơng cụ chiết xuất từ khĩa tự động từ
tập dữ liệu tin tức thơ là rất cần thiết. Khi đã cĩ tập từ khĩa, độ chính xác của việc
phân loại văn bản sẽ tăng lên đáng kể.
Hiện tại, luận văn thực hiện phân loại theo hướng tiếp cận Nạve Bayes với các
từ được tách trong câu mà khơng cĩ sự chọn lựa những từ đặc trưng để thực hiện
phân loại. Điều này dẫn đến một số từ khơng cĩ ý nghĩa phân loại vẫn xem như cĩ
vai trị tương tự như những từ cĩ ý nghĩa phân loại cao. Nếu chúng ta nghiên cứu
thực hiện chọn lựa các đặc trưng của văn bản (feature selection) rồi mới phân loại,
chứng ta sẽ đạt được tỉ lệ chính xác cao hơn và tăng tốc độ xử lý của hệ thống sẽ
tăng lên đáng kể.
Trong luận văn này, chúng em chỉ mới chọn thực hiện thử nghiệm phân loại
tiếng Việt với hướng tiếp cận Nạve Bayes mà chưa chọn các phương pháp khác.
Điều này là do phần nhiều bởi tính chủ quan và một số giới hạn về sự nghiên cứu.
Do đĩ, việc mở rộng thử nghiệm phân loại văn bản tiếng Việt trên các hướng tiếp
cận khác như SVM, kNN… sẽ cĩ thể đem lại nhiều kết quả cao hơn trong lĩnh vực
này.
8.3. Kết luận
Hệ thống phân loại văn bản ứng dụng cơng cụ tách từ tiếng Việt dựa trên thống
kê Internet và thuật tốn di truyền là ứng dụng một hướng tiếp cận mới đầy hứa hẹn
cho phương pháp tách từ tiếng Việt, vốn hiện nay vẫn cịn nhiều hạn chế. Ngồi ra,
phần mềm phân loại bán tự động tin tức của luận văn cĩ nhiều ý nghĩa thực tiễn
trong việc quản trị thơng tin của các tờ báo điện tử nĩi riêng, và trong các lĩnh vực
địi hỏi đến việc xử lý ngơn ngữ nĩi chung. Với ý nghĩa to lớn đĩ, chúng em nguyện
cố gắng nhiều hơn nữa tìm hiểu, nghiên cứu cải tiến hệ thống đạt hiệu quả ngày
càng cao.
115
TÀI LIỆU THAM KHẢO
[Broder et al, 2003] Andrei Z. Broder (NY), Marc Najork(CA), Janet L.
Wiener(CA). Efficient URL Caching for World Wide Web Crawling, 2003.
[Bagrow et al, 2004J.P. Bagrow, H.D. Rozenfeld, E.M. Bollt, and D. ben-Avraham,
“How Famous is a Scientist? – Famous to Those Who Know Us.",
arxiv.org/abs/cond-mat/0404515, Europhys. Lett., 67, (4) 511-516 (2004).
[Berger, 1999] Adam Berger, Error-correcting output coding for text classification.
In proceedings of IJCAI-99 Workshop on Machine Learning for Information
Filtering, Stockholm, Sweeden, 1999.
[Chien et al, 1997] Lee-Feng Chien, T. I. Huang, M. C. Chen. 1997. PATTree-
Based Keyword Extraction for Chinese Information Retrieval, Proceedings of
1997 ACM SIGIR Conference, Philadelphia, USA, 50-58.
[Chih-Hao Tsai, 2000] Chih-Hao Tsai, 2000. MMSEG: A Word Identification
System for Mandarin Chinese Text Based on Two Variants of the Maximum
Matching Algorithm. Web publication at
[Church et al, 1991] Kenneth Church, William Gale, Patrick Hanks, Donald Hindle,
Using Statistics in Lexical Analysis, Bell Laboratories and Oxford University
Press, 1991.
[Dasarathy, 1991] Belur V. Dasarathy. Nearest Neighbor (NN) Norms: NN Pattern
Classication Techniques. McGraw-Hill Computer Science Series. IEEE
Computer Society Press, Las Alamitos, California, 1991.
[Đinh Điền et al, 2001] Đinh Điền, Hoang Kiem, Nguyen Van Toan. 2001.
Vietnamese Word Segmentation. pp. 749 -756. The sixth Natural Language
Processing Pacific Rim Symposium, Tokyo, Japan.
[Đinh Điền,2004] Đinh Điền, Giáo trình xử lý ngơn ngữ tự nhiên, Đại học Khoa
Học Tự Nhiên Tp.HCM, 12/2004
[Foo & Li, 2004] Foo S., Li H. 2004. Chinese Word Segmentation and Its Effect on
Information Retrieval, Information Processing & Management: An International
Journal, 40(1): 161-190.
116
[Fuhr et al, 1991] N. Fuhr, S. Hartmanna, G. Lustig, M. Schwantner, and K. Tzeras.
Air/x – a rule-based multistage indexing system for large subject fields. In 606-
623, editor, Proceedings of RIAO’91, 1991.
[Ghani, 2000] Rayid Ghani, Using error-correcting codes for text classification. In
proceedings of Seventeenth International Conference on Machine Learning,
2000
[Goldberg et al, 1992] Goldberg, D.E., Deb, K., & Clark, J.H. (1992). Genetic
algorithms, noise, and the sizing of populations. Complex Systems, 6. 333-362.
[H. Nguyen et al, 2005] H. Nguyen, H. Nguyen, T. Vu, N. Tran, K. Hoang ,2005.
Internet and Genetics Algorithm-based Text Categorization for Documents in
Vietnamese, Research, Innovation and Vision of the Future, the 3rd
International Conference in Computer Science, (RIFT 2005), Can Tho,
Vietnam.
[He et al, 1996] He, J., Xu, J., Chen, A., Meggs, J, & Gey, F. C. (1996). Berkeley
Chinese information retrieval at TREC–5: Technical report.
.html, Maryland.
[James & Daniel, 2005] James P.Pagrow & Daniel ben-Avraham. On the Google –
Fame of Scientist and other populations, 2005.
[Jason, 2001] Jason D.M Rennie, Improving Multi-class Text Classification with
Naive Bayes, 2001
[Joachims, 1998] Thorsten Joachims. Text Categorization with Support Vector
Machines: Learning with Many Relevant Features. In European Conference on
Machine Learning (ECML), 1998
[Kwok, 1997a] Kwok, K.L. (1997a) Comparing representations in Chinese
information retrieval.
[Kwok, 1997b] Kwok, K.L. (1997b) Lexicon effects on Chinese information
retrieval.
[Le An Ha, 2003] Le An Ha, 2003. A method for word segmentation Vietnamese.
Proceddings of Corpus Linguistics 2003, Lancaster, UK.
[Maron, 1961] Maron, Automated indexing, JACM, 1961
117
[Mateev et al, 1997] Mateev, B., Munteanu, E., Sheridan, P., Wechsler, M., &
Schuble, P. (1997). ETH TREC-6: Routing, Chinese, cross-language and
spoken document retrieval. trec6/t6_ proceedings.html,
Maryland.
[McCallum & Nigam, 1998] Andrew McCallum & Kamal Nigam. A comparison of
Event Models for Nạve Bayes Text Classification, 1998.
[Mitchell, 2005] Tom M. Mitchell. Generative and Discriminative Classifiers:
Nạve Bayes and Logistic Regression, textbook Machine Learning, DRAFT OF
March 6, 2005.
[Nie et al, 1996] Nie, J.Y., Brisebois, M., & Ren, X.B. (1996). On Chinese text
retrieval. Proceedings of SIGIR '96, Zurich, Switzerland, 225-233.
[Ong & Chen, 1999] Thian-Huat Ong & Hsinchun Chen. Updateable PAT-Tree
Approach to Chinese Key Phrase Extraction using Mutual Information: A
Linguistic Foundation for Knowledge Management, Proceedings of the Second
Asian Digital Library Conference, pp.63-84, 1999.
[Platt, 1998] J.Platt. Sequential minimal optimization : A fast algorithm for training
support vector machines. In Technical Report MST-TR-98-14. Microsoft
Research,1998
[Richard et al,1996] Richard W Sproat. Chilin Shih, William Gale, and Nancy
Chang. A stochastic finite-state word-segmentation algorithm for Chinese. CL,
22(3):377-404. 1996
[Rijsbergen et al, 1970] Van Rijsbergen, Robertson, Sparck Jones, Croft, Harper
(early 1970’s) –search engines
[Rudi & Paul, 2005] Rudi Cilibrasi & Pau Vitanyi, Automatic Meaning Discovery
Using Google, Neitherlands, 2005.
[Sahami et al, 1998] Sahami, Dumais, Heckerman, Horvitz (1998) –spam filtering
[Schütze et al,1995] Schütze, H. Hull, D. , and Pedersen, J. (1995). A comparison
of classifier and document representations for the routing problem. In
International ACM SIGIR Conference on Research and Development in
Information Retrieval.
118
[Simkin & Roychowdhurry, 2003] M.V. Simkin and V.P. Roychowdhury, “Theory
of Aces:Fame by chance or merit?" (preprint, arxiv.org/abs/condmat/0310049,
2003).
[Su et al, 1993] Keh-Yih Su, Ming-Wen Wu, Jing-Shin Chang. A Corpus-based
Approach to Automatic Compound Extraction, 1993
[Vapnik & Cortes, 1995] C.Cortes and V.Vapnik, Support Vector Network.
Machine Learning, 20:273-297,1995
[Vapnik, 1995] V.Vapnik, The Nature of Statistical Learning Theory. Springer,
NewYork, 1995.
[Wiener et al, 1995] Erik Wiener, Jan O. Pedersen, and Andreas S. Weigend. A
Neural Network Approach to Topic Spotting. In Proceedings of the Fourth
Annual Sumposium on Document Analysis and Information Retrieval
(SDAIR’95), 1995.
[William & Yoram, 1996] William W. Cohen and Yoram Singer. Context-sensitive
learning methods for text categorization. In SIGIR ’96: Proceedings of the 19th
Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval, 1996. 307-315.
[Wu & Tseng, 1993] Wu, Z.M., & Tseng, G. (1993). Chinese text segmentation for
text retrieval: Achievements and problems. Journal of the American Society for
Information Science, 44 (9), 532-542.
[Wu & Tseng, 1995] Wu, Z.M., & Tseng, G. (1995). ACTS: An automatic Chinese
text segmentation system for full text retrieval. Journal of the American Society
for Information Science, 46(2), 83-96
[Yang & Chute, 1992] Y. Yang and G.Chute. A Linear Least Squares Fit Mapping
Method for Information Retrieval from Natural Language Texts, 1992
[Yang & Chute, 1994] Y. Yang and G.Chute. An example-based mapping method
for text categorization and retrieval. ACM Transaction on Information
Systems(TOIS), 12(3):252-277,1994
119
[Yang & Petersen, 1997] Yang, Y. and Petersen, J. (1997). A comparative study on
feature selection in text categorization. In International Conference on Machine
Learning(ICML).
[Yang & Wilbur, 1996] Yang, Y. and Wilbur, J. (1996). Using corpus statistics to
remove redundant words in text categorization. Journal of the American Society
for Information Science, 47(5):357-369.
[Yang & Xiu, 1999] Yiming Yang and Xin Liu, A re-examination of text
categorization methods. Proceedings of ACM SIGIR Conference on Research
and Development in Information Retrieval (SIGIR’ 99)
[Yang, 2000] Yiming Yang. An Evaluation of Statistical Approaches to Text
Categorization, Kluwer Academic Publishers, 2000.
Các file đính kèm theo tài liệu này:
- CNTT1036.pdf