Đề tài Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử

Trong phần thửnghiệm phân loại văn bản, hiện tại chúng em quy định một chủ đềchỉcó một từkhóa chính là tên của chủ đề đó. Chính đây là một điểm hạn chế dẫn đến kết quảphân loại văn bản chưa cao nhưtrong các công trình phân loại văn bản tiếng Anh. Do vậy, nhu cầu xây dựng một công cụchiết xuất từkhóa tự động từ tập dữliệu tin tức thô là rất cần thiết. Khi đã có tập từkhóa, độchính xác của việc phân loại văn bản sẽtăng lên đáng kể. Hiện tại, luận văn thực hiện phân loại theo hướng tiếp cận Naïve Bayes với các từ được tách trong câu mà không có sựchọn lựa những từ đặc trưng đểthực hiện phân loại. Điều này dẫn đến một sốtừkhông có ý nghĩa phân loại vẫn xem nhưcó vai trò tương tựnhưnhững từcó ý nghĩa phân loại cao. Nếu chúng ta nghiên cứu thực hiện chọn lựa các đặc trưng của văn bản (feature selection) rồi mới phân loại, chứng ta sẽ đạt được tỉlệchính xác cao hơn và tăng tốc độxửlý của hệthống sẽ tăng lên đáng kể

132 trang | Chia sẻ: haianh_nguyen | Lượt xem: 1232 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Đề tài Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ân loại vào chủ đề ci cĩ giá trị 1 2( | , ,..., )i nP Y c w w w′ = cao nhất. 74 5.4. Kết luận Các phương pháp phân loại văn bản dựa trên cơng thức của IGATEC và phương pháp Nạve đều tương đối đơn giản, khơng bị hạn chế về tập huấn luyện như khi sử dụng các phương pháp khác. Ngồi ra, các phương pháp trên cũng khơng gặp trường hợp sai lạc do cĩ sự thay đổi trong tập huấn luyện bởi tính linh hoạt đối với sự thay đổi nhờ dùng thơng tin thống kê từ Google. Các kết quả trên thu nhận được thơng qua việc chạy hệ thống thử nghiệm phân loại ViKass sẽ được mơ tả chi tiết trong chương tiếp theo. 75 Chương 6 HỆ THỐNG THỬ NGHIỆM PHÂN LOẠI VĂN BẢN Giới thiệu hệ thống thử nghiệm Vikass Thử nghiệm các cách trích xuất thơng tin Dữ liệu thử nghiệm Thử nghiệm các cơng thức tính độ tương hỗ MI Thử nghiệm phân loại tin tức điện tử 76 Chương 6. HỆ THỐNG THỬ NGHIỆM PHÂN LOẠI VĂN BẢN 6.1. Giới thiệu hệ thống thử nghiệm Vikass 6.1.1. Chức năng hệ thống Vikass Hệ thống thử nghiệm phân loại văn bản Vikass được xây dựng nhằm mục đích kiểm nghiệm phương pháp tách từ IGATEC và các phương pháp phân loại đề cập ở chương trước nhằm tìm ra được các tham số tối ưu trước khi tích hợp vào tồ soạn báo điện tử. Các tham số này bao gồm các tham số chạy thuật tốn di truyền như số lượng cá thể ban đầu, số thế hệ tối ưu, tỉ lệ lai ghép, tỉ lệ đột biến; cách tính MI hiệu quả và phương pháp phân loại nào cho kết quả tốt hơn. Ngồi tích hợp mơ-đun trích tần số xuất hiện từ Google, hệ thống cịn cung cấp các tính năng khác như trích tin tức, chỉnh sửa từ khĩa. Chức năng của hệ thống sẽ được mơ tả chi tiết trong các phần tiếp theo. 6.1.2. Tổ chức và xử lý dữ liệu 6.1.2.1. Giới thiệu chung Hướng tiếp cận của luận văn dựa trên thống kê từ Google, điều đĩ cĩ nghĩa là mỗi lần cần lấy tần số xuất hiện của một từ mới, hệ thống phải thực hiện lấy thơng tin từ Internet. Điều này làm tiêu tốn rất nhiều thời gian chờ đợi, do vậy mỗi khi lấy được thơng tin từ Google, chúng em lưu lại vào một file dữ liệu đệm để cĩ thể sử dụng lại mỗi khi cần đến. Với mục đích làm tăng tốc độ xử lý của chương trình thử nghiệm, việc quản lý dữ liệu hồn tồn được thực hiện trên file văn bản thơng thường trên kiểu phơng phổ biến của tiếng Việt là phơng Unicode UTF8. Hệ thống thử nghiệm cần hai loại thơng tin như sau: ? Đối với thử nghiệm tách từ tiếng Việt, hệ thống cần thơng tin về xác suất xuất hiện của các từ trên Google. ? Đối với việc thử nghiệm phân loại văn bản, hệ thống cần thơng tin về xác suất xuất hiện đồng thời của từ và từ khố tương ứng với chủ đề. 77 6.1.2.2. Tổ chức dữ liệu Từ những yêu cầu trên, hệ thống dữ liệu được thiết kế thành ba file cĩ nội dung như sau: Hình 6. 1. Tổ chức file dữ liệu ? File CACHE: là dạng file văn bản thơng thường, chứa thơng tin: ? Từ: từ đã tìm từ Google ? Xác suất: xác suất của từ đĩ trên Google ? Loại từ: mang một trong các giá trị W(là từ), NW (khơng là từ), WC ( cĩ thể là từ), NWC (khơng thể là từ), UD (chưa phân loại). ? File KEYWORD: File được viết dưới dạng xml bao gồm thơng tin về tên chủ đề các cấp: ? Tên chủ đề: tên của chủ đề các cấp (cấp 1 và cấp 2) ? Chỉ số: chỉ số của mỗi chủ đề cho biết vị trí của chủ đề trong danh sách xác suất của từ với từng chủ đề trong file Relevant. ? Chọn dạng xml để lưu tên chủ đề vì tính chất lồng nhau ở từng cấp của chủ đề rất thích hợp với cấu trúc dạng cây của tài liệu xml. ? Ví dụ, ta cĩ các chủ đề cấp 1 là “thể thao” và các chủ đề cấp 2 của nĩ là “Bĩng đá”, “Quần vợt” như hình vẽ dưới đây” Hình 6. 2. Chủ đề Thể thao Lúc đĩ, nội dung file chủ đề sẽ cĩ nội dung như sau: 78 ? File RELEVANT: chứa thơng tin: ? Từ: từ đã tìm ? Danh sách xác suất của từ với từng chủ đề: xác suất xuất hiện đồng thời của từ ứng với từng chủ đề theo chỉ số được lưu trong file KEYWORD. Sau khi thực hiện thử nghiệm, dung lượng file CACHE đã lên đến gần 10M và file RELEVANT xấp xỉ 50M. Với khối lượng dữ liệu lớn như vậy, việc sử dụng một hệ quản trị cơ sở dữ liệu là khơng cần thiết bởi vì việc xử lý thơng tin trong hệ thống là đơn giản và yêu cầu tiên quyết của chương trình là tốc độ xử lý cao. Như vậy, chọn lựa lưu trữ thơng tin dưới dạng văn bản bình thường là phù hợp với yêu cầu hệ thống. 6.1.2.3. Xử lý dữ liệu Khi bắt đầu hoạt động, hệ thống tự động thực hiện đọc các file dữ liệu, phân tích chuỗi trong file để lấy thơng tin và đưa vào bộ nhớ dưới dạng “bảng băm” (hashtable). Hệ thống thử nghiệm được phát triển nên ngơn ngữ C#, là một ngơn ngữ khá mạnh hỗ trợ nhiều cấu trúc lưu trữ thơng tin trong đĩ cĩ hỗ trợ bảng băm. Nhờ vậy mà việc tổ chức dữ liệu trở nên đơn giản hơn rất nhiều. Ngồi ra, cách xử lý như vậy sẽ làm tăng tốc độ tìm kiếm thơng tin của từ nhờ các ưu điểm tổ chức dữ liệu của bảng băm. 79 6.1.3. Một số màn hình của hệ thống Vikass Hình 6. 3. Màn hình tách từ và phân loại STT Mơ tả 1 Chọn thư mục chứa các tập tin cần tách từ và phân loại 2 Chọn thư mục lưu kết quả 3 Liệt kê tên các tập tin được chọn tách từ và phân loại 4 Di chuyển các tập tin qua lại để chọn các tập tin thực hiện tách từ 5 Liệt kê tên tất cả các tập tin cĩ trong thư mục (1) 6 Thực hiện tách từ và phân loại 7 Dừng tách thực thi 8 Xem tập tin kết quả phân loại 9 Tab tùy chọn các thơng số chạy GA 10 Tab tùy chọn các thơng số như loại MI sử dụng, cĩ sử dụng stopword hay khơng ? 11 Tab chọn các từ khĩa sẽ sử dụng cho việc phân loại Bảng 6. 1. Mơ tả một số control của màn hình tách từ 80 Màn hình mơđun trích xuất từ Google: Hình 6. 4. Màn hình trích xuất từ Google STT Mơ tả 1 Chọn thư mục chứa các tập tin như tập tin đệm, tập tin chứa độ liên quan của từ và từ khĩa,… 2 Các tùy chọn như chỉ tìm kiếm các từ cĩ tần số 0, chỉ tìm các trang .vn, tìm kiếm độ liên quan của từ và từ khĩa… 3 Các phương pháp tải về sử dụng 4 Thanh biểu thị tiến trình tìm kiếm và trích từ 5 Thực hiện tìm kiếm và trích xuất 6 Lưu lại tập tin đệm và tập tin chứa độ liên quan 7 Dừng việc tìm kiếm 8 Danh sách các từ đã được tìm kiếm Bảng 6.2. Mơ tả một số control của màn hình trích từ Google 81 Màn hình phân loại tin tức điện tử hỗ trợ tồ soạn báo điện tử : Hình 6. 5. Màn hình phân loại tin tức điện tử STT Mơ tả 1 Thiết lập các tham số kết nối đến SQL server 2 Lấy các tin tức được tồ soạn báo điện tử tải về 3 Thực hiện phân loại 4 Cập nhật các tin tức đã được phân loại vào SQL server 5 Thực hiện tất cả các bước (2),(3),(4) 6 Hiển thị các thơng tin như : nội dung tin, tên của chủ đề được phân loại,… Bảng 6.3. Bảng mơ tả một số control của màn hình phân loại tin tức điện tử 82 6.2. Thử nghiệm các cách trích xuất thơng tin Việc trích xuất thơng tin về tần số xuất hiện của từ, độ liên quan giữa từ và chủ đề được thực hiện thơng qua module Google Extractor. Nhằm mục đích tăng tốc trích thơng tin từ Google, chúng em đã thử nghiệm trích thơng tin bằng nhiều cách khác nhau và thực hiện kết nối đến Google sử dụng nhiều luồng (>=15). Bên cạnh đĩ, để tránh việc phải thực hiện tìm kiếm nhiều lần, các tập tin đệm được sử dụng với mục đích lưu lại hay cập nhất kết quả các lần tìm kiếm trước. 6.2.1. Các phương pháp thử nghiệm Chúng em sử dụng 3 cách khác nhau để lấy kết quả tìm kiếm bao gồm sử dụng dịch vụ web do Google cung cấp, tải trang kết quả về máy cục bộ sau đĩ sử dụng XPath hay tìm kiếm chuỗi. 6.2.1.1. Google web service Dịch vụ web là một ứng dụng cung cấp giao diện lập trình, hỗ trợ sự truyền thơng từ ứng dụng này đến ứng dụng khác qua mạng dùng XML. Dịch vụ web của Google tại địa chỉ là một phương pháp tiện lợi để khai thác cơng cụ tìm kiếm này. Tuy nhiên, ta phải đăng kí tài khoản trước khi sử dụng. Với mỗi tài khoản Google giới hạn số lượng truy vấn là 1000 truy vấn/ngày. Các tham số cần biết khi sử dụng dịch vụ : Tham số tìm kiếm q Câu truy vấn n Số kết quả trả về trên từng trang lr Giới hạn phạm vi ngơn ngữ tìm kiếm ie Bảng mã câu truy vấn sử dụng oe Bảng mã của kết quả trả về Bảng 6. 4. Tham số sử dụng dịch vụ Google Một số câu truy vấn đặc biệt trên Google : 83 Truy vấn đặc biệt Câu truy vấn Ý nghĩa Loại bỏ một từ bass –music “-” để loại bỏ 1 từ ra khỏi kết quả tìm kiếm Từ khĩa OR vacation london OR paris OR Giới hạn site Admission site:www.stanford.edu site: chỉ tìm kiếm trong site được chỉ định Giới hạn ngày Star Wars daterange:2452122- 2452234 daterange: chỉ trả về các file cĩ nhãn thời gian thõa điều kiện Lọc file Google filetype:doc OR filetype:pdf filetype: chỉ tìm kiếm các file cĩ kiểu mở rộng được liệt kê Loại trừ file Google doc -filetype: -filetype:pdf -filetype: ngược lại với filetype: Tìm theo tiêu đề intitle:Google search intitle: chỉ tìm kiếm tiêu đề web Bảng 6. 5. Một số câu truy vấn đặc biệt của Google Trong quá trình thử nghiệm sử dụng dịch vụ web của Google, chúng em nhận thấy thời gian đáp ứng khơng được nhanh (khoảng >5s cho một truy vấn-sử dụng mạng Internet của trường) hơn nữa cịn tồn tại nhiều lỗi. Lý do cĩ thể kể đến như phiên bản dịch vụ đang trong quá trình thử nghiệm (bản β), hạn chế do dung lượng mạng, chi phí chứng thực. Giới hạn 1000truy vấn/ngày cũng ảnh hưởng đến chương trình khi phải thực hiện trích xuất trên lượng lớn các từ. Để khắc phục vấn đề này, chúng em sử dụng biện pháp tải trang kết quả về. 6.2.1.2. Xpath và tìm kiếm chuỗi Trang kết quả trả về sẽ được chuyển sang định dạng xHTML dùng cho việc trích xuất dùng Xpath ( hay thực hiện tìm kiếm trên chuỗi. Cả hai phương pháp này đều cho hiệu suất tốt (khoảng 1-3s/truy vấn). Xpath là định dạng được W3C đề nghị được sử dụng rộng rãi trong việc truy vấn tập tin XML. Sử dụng Xpath cĩ thuận lợi hơn tìm kiếm chuỗi ở chỗ cĩ thể sử dụng trích xuất trên nhiều ngơn ngữ trả về từ Google và nếu cấu trúc của trang web thay 84 đổi thì ta vẫn lấy được thơng tin trả về của Google. Trong khi đĩ việc tìm kiếm chuỗi sẽ phụ thuộc vào các câu đặc biệt (như “các kết quả ”... ). Do đĩ, nếu các trang trả về của Google trình bày khác đi, cách tìm kiếm chuỗi sẽ khơng cho kết quả mong muốn. Tuy nhiên, sử dụng cách tìm kiếm chuỗi sẽ cho kết quả nhanh hơn dùng Xpath vì hệ thống khơng phải tốn một thời gian phân tích dữ liệu thành dạng tài liệu XML. 6.2.2. Nhận xét Hiện tại, điều chúng ta quan tâm hàng đầu là tốc độ trích thơng tin từ Google. Mặt khác, trang web Google cĩ cấu trúc khả ổn định, hầu như khơng thay đổi. Vì vậy khi thực hiện thử nghiệm, chúng em sử dụng cách thức tìm kiếm chuỗi để đạt tối độ cao nhất. Tuy nhiên, chúng em vẫn xây dựng các lựa chọn rút trích để tạo tính linh hoạt trong thử nghiệm. 6.3. Dữ liệu thử nghiệm 6.3.1. Nguồn dữ liệu Dữ liệu thử nghiệm được lấy từ trang tin tức VnExpress.net (www.vnexpress.net) tại thời điểm tháng 6/2005. Đây là một trong những trang tin tức điện tử đầu tiên tại Việt Nam ra đời vào ngày 26/2/2001, đến nay đã hơn bốn năm hoạt động với lượng độc giả đơng đảo trong cả nước và quốc tế. Ngồi các trang mục do phĩng viên của tờ báo viết, VnExpress.net cịn mở rộng đĩn nhận các bài viết do độc giả gửi về từ khắp nơi để làm phong phú thêm cho nội dung của tờ báo và cập nhật tin tức thường xuyên nhanh chĩng. 6.3.2. Số lượng dữ liệu thử nghiệm Từ các mục của VnExpress.net, đầu tiên chúng em chọn lọc ra một số mục chính để lấy dữ liệu thử nghiệm. Vì chúng em quy định từ khĩa cho chủ đề chính là tên chủ đề đĩ nên trong quá trình thử nghiệm, chúng em phát hiện ra một số trường hợp nhập nhằng. 85 Đầu tiên, từ khĩa Thế giới, Xã hội cĩ ý nghĩa bao quát cĩ thể về Kinh tế thế giới, chính trị thế giới, văn hĩa xã hội…, nên khả năng các tin tức được phân loại vào chủ đề này là rất cao do tần số xuất hiện của chủ đề này với các từ phổ biến lớn. Thứ hai, một số mục cĩ tên khơng đồng nhất giữa các tờ báo điện tử như trang VnExpress.net dùng Vi tính trong khi đĩ TuoiTre.com.vn lại dùng Nhịp sống số, Vnn.vn dùng Cơng nghệ thơng tin và Viễn thơng.... Việc này làm giảm kết quả khi sử dụng từ khĩa khĩa Vi tính cho chủ đề này vì từ khĩa này khơng bao quát được cho các trang sử dụng tên chủ đề khác mặc dù cùng trình bày một nội dung. Do vậy, chúng em chỉ sử dụng một số mục cĩ từ khĩa rõ ràng. Đối với mỗi tin tức, chúng em chỉ tách lấy phần tiêu đề, phần tĩm lược và phần chú thích ảnh. Đây là các phần cĩ ý nghĩa phân loại cao do được người viết bài tĩm lược và chọn lọc. Ứng mỗi chủ đề, chúng em lấy ngẫu nhiên 100 tin. Cịn cách giải quyết phần nhập nhằng trình bày ở trên sẽ là hướng mở rộng của luận văn. Tổng dữ liệu thử nghiệm là 1500 tập tin bao gồm 15 chủ đề cấp 2, mỗi chủ đề 100 tập tin. 86 Hình 6. 6. Cây chủ đề 6.3.3. Nhận xét Mặc dù dữ liệu dùng thử nghiệm khá nhỏ do hạn chế về mặt thời gian, nhưng cách thức chọn dữ liệu và chủ đề thử nghiệm phân loại của chúng em đã mở rộng rất nhiều so với 35 văn bản thử nghiệm của [H. Nguyen et al, 2005] trên 5 chủ đề Chính trị, Giáo dục, Kinh doanh, Sức khỏe, Thể thao. 87 6.4. Thử nghiệm các cơng thức tính độ tương hỗ MI 6.4.1. Các phương pháp thử nghiệm Nhằm xác định hiệu quả của các cách tính MI trong việc tách từ tiếng Việt, chúng em thực hiện thử nghiệm 3 cơng thức MI đã được trình bày ở mục 4.5: một cơng thức tính MI của [H.Nguyen et al, 2005] (gọi là MI1) , một của [Ong & Chen, 1999] (gọi là MI2), một do chúng em đề nghị (gọi là MI3) . Ứng với mỗi cơng thức tính MI trên, chúng em thử nghiệm thêm việc tách stopword và khơng tách stopword trước khi tách từ. Mục đích của việc tách stopword trước khi tách từ nhằm tạo ra nhiều ngữ nhỏ hơn khi đã bỏ các từ khơng cĩ ý nghĩa, để làm tăng tốc độ tách từ của hệ thống. Như vậy, tổng cộng cĩ 6 thử nghiệm tách từ như sau: ? MI1 tách stop word (MI1_NonSW) ? MI1 khơng tách stop word (MI1_SW) ? MI2 tách stop word (MI2_NonSW) ? MI2 khơng tách stop word (MI2_NonSW) ? MI3 tách stop word (MI3_NonSW) ? MI3 khơng tách stop word (MI3_NonSW) Chúng em thử nghiệm các cơng thức trên 1500 nội dung tĩm tắt các tin tức của VnExpress.net 6.4.2. Kết quả Độ chính xác của các cơng thức tính độ tương hỗ như sau: Cách tính MI Khơng tách stop word Cĩ tách stopword MI 1 [H. Nguyen et al, 2005] 74% 72% MI 2 [Ong & Chen, 1999] 60% 55% MI 3 (chúng em đề nghị) 72% 69% Bảng 6. 6. Kết quả thực nghiệm các cơng thức tính độ tương hỗ MI 88 0% 10% 20% 30% 40% 50% 60% 70% 80% MI1 MI2 MI3 Loại MI Đ ộ ch ín h xá c Non SW SW Hình 6. 7. Biểu đồ so sánh kết quả các cơng thức tính độ tương hỗ MI 6.4.3. Nhận xét Trong 6 cách thử nghiệm, cách tách từ dùng cơng thức MI1. cĩ độ chính xác cao nhất. Thời gian chạy tách từ lúc đầu khá lâu (trung bình khoảng 10 phút cho một mẫu tĩm tắt dài khoảng 100 tiếng) đa phần là do thời gian lấy thơng tin từ Google. Nhưng khi thơng tin về tần số xuất hiện của các từ đã được lưu lại tương đối lớn (độ lớn file cache khoảng 10M), thì tốc độ tách từ giảm xuống đáng kể (trung bình <1giây đối với các văn bản khơng cần lấy thơng tin từ Internet) Cách tiếp cận của cơng thức MI1 là ưu tiên dựa trên từ ghép cĩ hai tiếng, mà theo thống kê dựa trên từ điển của chúng em, số từ 2 tiếng chiếm đa số trong từ vựng tiếng Việt. Cách tính này cho kết quả khá tốt vì vừa thoả mãn được tính chất tự nhiên dựa trên ưu thế áp đảo của từ 2 tiếng, vừa được chứng minh bằng thực nghiệm. Trong các trường hợp thử nghiệm cĩ tách stopword, thời gian tách từ giảm đi rất nhiều (trung bình 5 phút cho văn bản mới). Tuy nhiên, trong quá trình thử nghiệm, chúng em nhận thấy việc tách stopword cĩ thể làm sai lạc ý nghĩa của văn bản ban 89 đầu do danh sách stopword đưa vào khơng hồn chỉnh. Vì vậy kết quả tách từ cĩ tách stopword khơng cao như cách tách thuần tuý. 6.5. Thử nghiệm phân loại tin tức điện tử 6.5.1. Thước đo kết quả phân loại văn bản Để đánh giá hiệu quả phân loại văn bản, thơng thường người ta dùng các chỉ số về độ thu về-recall và độ chính xác-precision [Yang, 2000]. Cho một phương pháp phân loại văn bản, đầu vào là một văn bản, và kết quả trả về là một danh sách các chủ đề được gán cho văn bản đĩ, chỉ số độ thu về, độ chính xác cĩ thể được tính như sau: Hình 6. 8. Các thơng số dùng tính độ thu về, độ chính xác Hình trên mơ tả các thơng số sau: ? (A) là tất cả văn bản thực hiện phân loại văn bản cho chủ đề T ? (B) là số văn bản được phân loại lấy về cho chủ đề T ? (C) là số văn bản thực sự thuộc về chủ đề T ? (D) là số văn bản lấy về chính xác. Các tham số trên được dùng trong cơng thức tính độ thu về-recall, độ chính xác- precision dưới đây: 90 Việc gán nhãn chủ đề của các phương pháp phân loại văn bản cĩ thể được đánh giá bằng cách dùng bảng trường hợp hai chiều ứng với từng loại chủ đề: Chủ đề đang xét ĐÚNG với chủ đề văn bản Chủ đề đang xét SAI với chủ đề văn bản Phân loại ĐÚNG với chủ đề văn bản a b Phân loại SAI với chủ đề văn bản c d Bảng 6. 7. Bốn trường hợp của phân loại văn bản Như vậy, với mỗi kết quả phân loại cho một văn bản, ta sẽ cĩ được một trong 4 trường hợp a,b,c hoặc d. Từ đĩ, ta tính được các chỉ số sau: ? arecall a c = + nếu a + c >0, ngược lại là khơng xác định. ? aprecision a b = + nếu a + b >0, ngược lại là khơng xác định. ? Tuy nhiên, cách tính với độ thu về, độ chính xác riêng rẽ sẽ cho kết quả khơng cân đối. Ví dụ nếu số văn bản lấy về đúng (D) gần bằng với số văn bản đúng thực sự (C) thì chỉ số độ thu về sẽ cao, tuy nhiên nếu số văn bản lấy về (B) khá nhiều so với (D) sẽ cho chỉ số độ chính xác nhỏ. Do vậy, thơng thường người ta thêm một chỉ số F1 [Yang , 1997] để phản ánh sự cân đối giữa 2 độ đo trên: 21 1 1F recall precision = + Ngồi ra, để tính tốn hiệu quả thực thi trên tồn bộ chủ đề, thơng thường người ta cịn sử dụng hai phương pháp macro-averaging và micro-averaging. Macro-averaging tính trung bình các chỉ số recall, precision, fallout, Acc,Err của tất cả các chủ đề. 91 Micro-averaging tính tốn các chỉ số dựa trên tổng giá trị a, b, c, d của từng chủ đề dựa theo các cơng thức áp dụng tính cho một chủ đề. Sự khác nhau chủ yếu giữa hai cách tính macro-averaging và micro-averaging là : micro-averaging tính tốn dựa trên trọng số của mỗi văn bản, nên cho kết quả trung bình trên mỗi văn bản (per-document average); trong khi đĩ, macro- averaging tính tốn trọng số trên mỗi chủ đề, do đĩ, kết quả cho sẽ đại diện cho giá trị trung bình trên mỗi chủ đề (per-category average). 6.5.2. Các phương pháp thử nghiệm Ở phần phân loại văn bản, chúng em thử nghiệm 2 cơng thức đã được trình bày ở 5.3. là cơng thức phân loại được sử dụng trong [H. Nguyen et al, 2005] (gọi tắt là cơng thức IClass) và cơng thức tính Nạve Bayes được cải tiến cho phù hợp với hướng tiếp cận dựa trên Google (gọi tắt là NBClass). Ứng với cơng thức phân loại, chúng em thử nghiệm với 2 cơng thức tính MI: một của [H. Nguyen et al, 2005] (gọi tắt là MI1) và một cơng thức MI do chúng em đề xuất (gọi tắt là MI3) cho hai trường hợp tách và khơng tách stopword.Ở phần này chúng em khơng thử nghiệm với MI2 của [Ong & Chen, 1999] vì kết quả tách từ của cơng thức này thấp hơn các cơng thức khác khá nhiều sẽ cho kết quả khơng tốt. Như vậy tổng cộng chúng em thực hiện 8 lần thử nghiệm phân loại như sau: ? Cơng thức IClass + MI1 + tách stop word ? Cơng thức IClass + MI1 + khơng tách stop word ? Cơng thức IClass + MI3 + tách stop word ? Cơng thức IClass + MI3 + khơng tách stop word ? Cơng thức NBClass + MI1 + tách stop word ? Cơng thức NBClass + MI1 + khơng tách stop word ? Cơng thức NBClass + MI3 + tách stop word ? Cơng thức NBClass + MI3 + khơng tách stop word 6.5.3. Kết quả 92 Sau khi thực hiện phân loại văn bản, chúng em sử dụng các độ đo đã được trình bày ở mục 6.5.1. để tính tốn kết quả chính xác của các thử nghiệm phân loại. Kết quả tính tốn được trình bày trong bảng thống kê sau: Phương pháp Tên chủ đề R P F1 Xã hội 0.62625 0.654047 0.639847 Khoa học 0.72 0.975434 0.828475 Thể thao 0.765 0.968245 0.854706 Kinh doanh 0.795 0.293358 0.428571 Macro 0.763437 0.892427 0.822908 IClass + MI 1 +tách stopword Micro 0.663 0.682801 0.672755 Xã hội 0.764 0.636667 0.694545 Khoa học 0.7216 0.942131 0.81725 Thể thao 0.65625 0.975 0.784483 Kinh doanh 0.816 0.348718 0.488623 Macro 0.814333 0.951923 0.877769 IClass + MI 1 +khơng tách stopword Micro 0.656 0.672131 0.663968 Xã hội 0.630 0.660 0.645 Khoa học 0.857 0.873 0.865 Thể thao 0.861 0.915 0.887 Kinh doanh 0.630 0.740 0.681 Macro 0.913 0.892 0.903 IClass + MI 3 +tách stopword Micro 0.678 0.700 0.689 Xã hội 0.772 0.784 0.778IClass + MI 3 Khoa học 0.808 0.851 0.829 93 Thể thao 0.882 0.825 0.853 Kinh doanh 0.637 0.523 0.575 Macro 0.858 0.830 0.844 +khơng tách stopword Micro 0.553 0.566 0.559 Xã hội 0.680 0.738 0.708 Khoa học 0.810 0.841 0.825 Thể thao 0.924 0.918 0.921 Kinh doanh 0.725 0.620 0.668 Macro 0.785 0.779 0.782 NBClass + MI 1 +tách stopword Micro 0.648 0.633 0.640 Xã hội 0.591 0.697 0.640 Khoa học 0.704 0.897 0.789 Thể thao 0.886 0.918 0.902 Kinh doanh 0.675 0.581 0.625 Macro 0.714 0.773 0.742 NBClass + MI 1 +khơng tách stopword Micro 0.783 0.633 0.700 Xã hội 0.544 0.636 0.586 Khoa học 0.680 0.855 0.757 Thể thao 0.708 1.142 0.874 Kinh doanh 1.404 0.332 0.537 Macro 0.748 0.721 0.734 NBClass + MI 3 +tách stopword Micro 0.725 0.648 0.684 Xã hội 0.611 0.590 0.600 Khoa học 0.485 0.616 0.543 NBClass + MI 3 Thể thao 0.749 1.095 0.890 94 Kinh doanh 0.660 0.739 0.697 Macro 0.626 0.760 0.687 +khơng tách stopword Micro 0.647 0.647 0.647 Bảng 6. 8. Kết quả phân loại văn bản cho từng chủ đề ở cấp 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 I M I1 SW I M I1 No nS W I M I3 SW I M I3 No nS W Ba ye s M I1 SW Ba ye s M I1 No n S W Ba ye s M I3 SW Ba ye s M I3 No nS W Xã hội Khoa học Thể thao Kinh doanh Macro Micro Hình 6. 9. Biểu đồ F1 cho cấp 1 Vì kết quả của phần thử nghiệm phân loại ở cấp hai rất dài, nên chúng em chỉ xin trình bày biểu đồ kết quả phân loại mà khơng trình bày chi tiết bảng kết quả cho từng chủ đề. Sau đây là kết quả phân loại cho các chủ đề cấp 2. 95 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 I M I1 SW I M I1 No nS W I M I3 SW I M I3 No nS W Ba ye s M I1 SW Ba ye s M I1 No n S W Ba ye s M I3 SW Ba ye s M I3 No nS W Giáo dục Du học Lối sống Du Lịch Khoa học Bĩng đá 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 I M I1 SW I M I1 No nS W I M I3 SW I M I3 No nS W Ba ye s M I1 SW Ba ye s M I1 No n S W Ba ye s M I3 SW Ba ye s M I3 No nS W Quần vợt Bất động sản Chứng khốn Quốc tế Âm nhạc Thời trang 96 0 0.1 0.2 0.3 0.4 0.5 0.6 I M I1 SW I M I1 No nS W I M I3 SW I M I3 No nS W Ba ye s M I1 SW Ba ye s M I1 No n S W Ba ye s M I3 SW Ba ye s M I3 No nS W Điện ảnh Làm đẹp Giới tính macro micro Hình 6. 10. Biểu đồ F1 cho cấp 2 6.5.4. Nhận xét Trong hai mức phân loại chủ đề, ta nhận thấy kết quả phân loại ở mức 1 cho độ chính xác cao hơn mức 2. Lý do là vì số lượng chủ đề của cấp 2 nhiều hơn cấp 1 rất nhiều (15 so với 4 ở cấp 1) và một số chủ đề của cấp 2 chưa thực sự tốt như Bất động sản, Lối sống, Làm đẹp, Giới tính. Từ đĩ, ta thấy được việc xây dựng danh sách từ khố cho mỗi chủ đề một yêu cầu cần thiết để nâng hiệu suất phân loại văn bản. Dựa vào kết quả thử nghiệm ta nhận thấy rằng trong việc phân loại sử dụng Bayes tốt hơn cơng thức phân loại của H. Nguyen et al (2005) trong nhiều trường hợp. Trong các thử nghiệm cơng thức của H.Nguyen et al (2005), độ hỗ trợ của kết quả vào chủ đề đối cĩ giá trị rất gần nhau, khi áp dụng cho các chủ đề hầu như khơng cĩ sự khác biệt. Trong khi đĩ, với cơng thức Nạve Bayes, cĩ một số chủ đề 97 nổi trội hơn hẳn các chủ đề khác và kết quả thống kê cũng cho thấy Nạve Bayes cho kết quả chính xác hơn. Kết quả của thử nghiệm cơng thức trong [H.Nguyen et al, 2005] với độ chính xác chưa cao lắm bởi vì đấy là cơng thức do chính tác giả đề nghị chưa dựa trên cơ sở lý thuyết vững chắc. Trong khi đĩ, phương pháp Nạve Bayes đã xuất hiện khá lâu, được chứng minh trên lý thuyết và thực nghiệm nên độ tin cậy rất cao. Việc sử dụng hướng tiếp cận Nạve Bayes cho phân loại văn bản dựa trên Google cĩ thể nĩi là bước cải tiến đáng khíck lệ so với cách phân loại cũ. Dựa vào biểu đồ, ta nhận thấy sự kết hợp giữa phương pháp phân loại Nạve Bayes và cơng thức tính độ tương hỗ (MI) của [H. Nguyen et al, 2005] cho kết quả phân loại tốt nhất. Trong đĩ, tỉ lệ trung bình của phương pháp cho các chủ đề ở cấp 1 là 75%, và cho các chủ đề ở cấp 2 là 67%. Kết quả này hợp lý vì thực nghiệm cho thấy cơng thức MI1 của H.Nguyen et al (2005) cho kết quả tách từ chính xác cao nhất nên đã gĩp phần làm cho kết quả phân loại tốt hơn. Kết quả phân loại văn bản trung bình giữa 8 cặp là 75%, là kết quả chấp nhận được đối với phân loại văn bản tiếng Việt. Kết quả khơng cao so với kết quả phân loại bằng tiếng Anh bởi vì như chúng ta đã biết phần tách từ tiếng Việt gặp rất nhiều phức tạp. 98 Chương 7 ỨNG DỤNG PHÂN LOẠI TIN TỨC ĐIỆN TỬ TỰ ĐỘNG Giới thiệu tịa soạn báo điện tử Tính cần thiết của phân loại tin tức tự động Phân tích hiện trạng Mơ hình DFD quan niệm cấp 2 hiện hành cho ơ xử lý Nhận bài và Trả bài Phê phán hiện trạng Mơ hình DFD quan niệm cấp 2 mới cho ơ xử lý Nhận bài và Trả bài Triển khai DLL Chương trình cài đặt “Tịa soạn báo điện tử” đã tích hợp module phân loại tin tức Kết quả 99 Chương 7. ỨNG DỤNG PHÂN LOẠI TIN TỨC ĐIỆN TỬ TỰ ĐỘNG Nhằm đánh giá hiệu quả thực tế của việc phân loại sử dụng IGATEC và Nạve Bayes, chúng em đã xây dựng cơng cụ phân loại thành một module đồng thời tích họp vào trong tịa soạn báo điện tử. Trong chương này, chúng em sẽ giới thiệu sơ lược về tịa soạn báo điện tử và mơ tả cách thức tích hợp module phân loại. 7.1. Giới thiệu tịa soạn báo điện tử Phần mềm tịa soạn báo điện tử (Luận văn khĩa 2000-Hồng Minh Ngọc và Nguyễn Duy Hiệp) xây dựng trên nền tảng DotNetNuke tuân thủ theo qui trình của một tịa soạn thực tế đi từ soạn bài, duyệt bài và đăng bài. Mỗi biên tập viên sẽ phụ trách một mảng chủ đề. Cộng tác viên hay người dùng sau khi viết bài phải được biên tập viên duyệt. Nếu nội dung và hình thức chấp nhận được thì bài được chuyển lên vị trí cĩ chức năng đưa bài lên website chính thức. Người quản trị sẽ phân cơng chuyên mục và chủ đề cho các biên tập viên. Nếu đã qua các cấp kiểm duyệt, bài viết được phép đưa lên website. Nếu tại một cấp nào đĩ, người quản lý thấy bài viết cần được chỉnh sửa thì bài viết sẽ được trả về đúng cấp cĩ thẩm quyền. Ngồi ra, tịa soạn báo điên tử cịn hỗ trợ việc thu thập tin tức điện tử từ nhiều nguồn khác nhau. Tin tức được tải về sau đĩ phải được các biên tập viên xác định chủ đề và chuyên mục mà bài báo thuộc về để tiến hành thủ tục đăng bài. Việc phân loại tin tức ở giai đoạn thực hiện luận văn này là hồn tồn thủ cơng. 7.2. Tính cần thiết của phân loại tin tức tự động Việc thực hiện phân loại thủ cơng trên số lương lớn các tin tức được tải về cĩ thể ngốn rất nhiều thời gian và cơng sức. Nhằm làm tăng tính hiệu quả cũng như hỗ trợ tối đa cho các biên tập viên tập trung vào các cơng việc khác quan trọng hơn. Module phân loại tin tức tự động đã được xây dựng. Nhiệm vụ của module này là thực hiện phân loại tự động các tin tức tải về nhằm đề xuất sắp xếp tin tức này vào một chuyên mục hợp lý. Module được viết dưới dạng một thư viện dll thực hiện các 100 cơng việc như sau: lấy các tin tức được tải về, tiến hành phân loại và cập nhật vào cơ sở dữ liệu. 7.3. Phân tích hiện trạng Mục đích của luận văn chúng em là tích hợp phần xử lý phân loại trang web tự động vào phần duyệt bài viết và sửa bài viết nên chúng em chỉ trình bày mơ hình DFD cho ơ xử lý “Nhận bài và Trả bài”. Để tìm hiểu về tồn cảnh mơ hình DFD của tồ soạn báo điện tử, xin tham khảo luận văn “Tồ soạn báo điện tử” của Hồng Minh Ngọc Hải (0012545), Nguyễn Duy Hiệp (0012038)) 7.3.1. Mơ hình DFD quan niệm cấp 2 hiện hành cho ơ xử lý Nhận bài và Trả bài 7.3.1.1. Mơ hình Hình 7. 1.Mơ hình DFD hiện hành 7.3.1.2. Mơ tả mơ hình Thành viên cĩ chức năng viết bài nhận bài viết mới được giao, sau khi hồn thành thì lưu xuống kho dữ liệu những bài viết chưa đăng để chờ duyệt. Sau khi bài viết được duyệt, thành viên kiểm tra xem bài viết cĩ cần chỉnh sửa khơng, nếu cĩ thì 101 thực hiện chỉnh sửa sau đĩ lưu phiên bản mới của bài viết chờ duyệt tiếp. Ngồi ra, các bài báo được lấy tự động từ Internet xuống cũng được lưu trong kho dữ liệu các bài viết chưa đăng để chờ duyệt. 7.3.1.2.1. Mơ tả kho dữ liệu Hệ thống thơng tin: Xây dựng tồ soạn báo điện tử Mơ hình quan niệm xử lý Hiện tại [] Tương lai[] Trang : Ứng dụng : Xây dựng tồ soạn báo điện tử Mơ tả kho dữ liệu : NHỮNG BÀI VIẾT CHƯA ĐƯỢC ĐĂNG Tờ : Ngày lập : 28/6/2004 Người lập : 1. Hồng Minh Ngọc Hải 2. Nguyễn Duy Hiệp Dịng dữ liệu vào : Bài viết đã chỉnh sửa Bài viết mới Dịng dữ liệu ra : Bài viết cần chỉnh sửa Diễn giải : Kho này lưu trữ những bài viết đang nằm trong dây chuyền Cấu trúc dữ liệu: MA_BAI_VIET MA_CHUYEN_MUC MA_TAC_GIA 102 NGAY_VIET TIEU_DE NOI_DUNG DUONG_DAN_ANH KICH_THUOC_ANH CHIEU_DAI CHIEU_RONG Khối lượng : - Hiện tại : Khơng xác định - Tương lai : Khơng xác định Thơng tin thường truy xuất : MA_BAI_VIET MA_CHUYEN_MUC TIEU_DE NOI_DUNG Bảng 7. 1. Bảng kho dữ liệu những bài viết chưa được đăng 7.3.1.2.2. Mơ tả ơ xử lý Ơ xử lý Tên Dịng dữ liệu vào Dịng dữ liệu ra Diễn giải (1.1) Nhận bài viết mới Bài viết Bài viết mới Phĩng viên sau khi viết một bài mới sẽ gửi vào hệ thống. Những bài viết này được lưu dưới dạng những bài viết chưa được xử lý. (1.2) Lưu bài viết mới Bài viết mới Bài viết mới Lưu bài viết dưới tình trạng “Chưa xử lý” 103 (1.3) Kiểm tra những bài viết cần xử lý Nhu cầu kiểm tra Thơng tin cá nhân Bài viết cần chỉnh sửa Kiểm tra các bài viết đã được duyệt xem cĩ cần chỉnh sửa khơng (1.4) Nhận bài viết đã chỉnh sửa Bài viết đã chỉnh sửa Bài viết đã chỉnh sửa Bài viết sau khi thành viên (cĩ chức năng chỉnh sửa) duyệt, chỉnh sửa và trả lại cho thành viên phụ trách bài viết đĩ. (1.5) Lưu phiên bản mới của bài viết Bài viết đã chỉnh sửa Bài viết đã chỉnh sửa Bài viết đã chỉnh sửa được lưu vào CSDL dưới tình trạng “Đã xử lý” tại cấp vừa chỉnh sửa và dưới tình trạng “Chưa xử lý” tại cấp được chuyển bài về (1.6) Lấy tin tự động Tin tức điện tử Tin tức điện tử Hệ thống tự động lấy tin tức từ các trang báo khác và lưu xuống kho dữ liệu Bảng 7. 2. Bảng mơ tả các ơ xử lý của mơ hình DFD hiện hành 7.3.2. Phê phán hiện trạng Hiện tại, hệ thống tự động lấy tin tức từ các trang báo điện tử khác về và gán vào các mục đã được chỉ định sẵn. Tuy nhiên, việc chỉ định chủ đề cho các tin tức lấy về một cách cứng nhắc chỉ đúng trong trường hợp trang web lấy tin cĩ cấu trúc chủ đề tương ứng với chủ đề trong tồ soạn báo điện tử của mình. Đối với những trang báo cĩ cấu trúc khác đi, việc gán nhãn mặc định cho các bài báo sẽ khơng cịn đúng nữa. Ví dụ ở tồ soạn báo điện tử của chúng ta cĩ mục Kinh doanh\Quốc tế, cịn ở báo www.vnexpress.net cĩ mục Thế giới bao gồm nhiều nội dung, trong đĩ cĩ một số tin tức về Kinh doanh quốc tế, một số tin tức về chính trị thế giới, một số bài về văn hố chẳng hạn. Như vậy nếu ta chỉ định các bài báo lấy từ mục tin Thế giới ở www.vnexpress.net đều được xếp vào mục Kinh doanh\Quốc tế thì kết quả khơng cịn đúng hồn tồn nữa. Lúc đĩ, các thành viên duyệt bài lại phải đọc lần lượt các 104 bài báo được lấy về một cách thủ cơng để phân loại chủ đề của tin tức cho phù hợp với cấu trúc chủ đề của mình. Để hạn chế trường hợp trên, chúng em đưa ra giải pháp là tích hợp module phân loại văn bản vào việc xử lý lấy tin tự động từ Internet. Các tin tức vừa được lấy về sẽ được module phân loại văn bản phân loại tự động vào các chủ đề cĩ sẵn của tồ soạn báo. Như vậy, chúng ta sẽ tiết kiệm được nhiều cơng sức và thời gian duyệt bài của các thành viên một cách đáng kể. 7.3.3. Mơ hình DFD quan niệm cấp 2 mới cho ơ xử lý Nhận bài và Trả bài 7.3.3.1. Mơ hình Hình 7. 2. Mơ hình DFD cải tiến 7.3.3.2. Mơ tả mơ hình Mơ hình mới chỉ thêm một ơ xử lý việc phân loại tin tức tự động sau khi hệ thống lấy tin tức từ trang web khác về. 105 7.3.3.2.1. Mơ tả ơ xử lý Ơ xử lý Tên Dịng dữ liệu vào Dịng dữ liệu ra Diễn giải (1.7) Phân loại tin tức tự động Tin tức điện tử Tin tức điện tử đã phân loại Module phân loại văn bản mới tích hợp vào hệ thống thực hiện phân loại tự động các tin tức vừa lấy về. Bảng 7. 3. Bảng mơ tả ơ xử lý phân loại tin tức tự động 7.4. Triển khai DLL Chương trình phân loại văn bản tự động được viết trên ngơn ngữ C#, trong khi “Tịa soạn báo điện tử” của luận văn khĩa 2000 được viết mã trên nền VB.Net. Do đĩ, để tích hợp hai hệ thống lại, chúng em đã xây dựng các thành phần chính dùng trong phân loại văn bản thành DLL. Cĩ thể nĩi, việc đĩng gĩi chương trình thành dạng DLL ngồi tính tiện lợi trong việc tích hợp giữa các hệ thống xây dựng trên các ngơn ngữ khác nhau, goíi DLL cịn cĩ ưu điểm là khả năng sử dụng đơn giản, dễ mang chuyển, là yếu tố quan trọng trong việc xây dựng chương trình. “Tịa soạn báo điện tử” của luận văn khĩa 2000 được xây dựng khá cơng phu về mặt hình thức lẫn nội dung, cho nên khi tích hợp DLL mới vào, chúng em nhận thấy khơng cần thiết phải thiết lập thêm giao diện nào nữa. Chúng em chỉ tạo thêm một số lựa chọn cho người dụng cĩ thể bật tắt chức năng phân loại. 106 Hình 7. 3. Màn hình lấy tin tức cho phép phân loại tự động 7.5. Chương trình cài đặt “Tịa soạn báo điện tử” đã tích hợp module phân loại tin tức “Tịa soạn báo điện tử” của luận văn khĩa 2000 hiện tại chưa xây dựng cơng cụ cài đặt vài gỡ chương trình tự động (Install và Uninstall), địi hỏi người dùng phải cĩ nhiều kiến thức về SQL Server để cĩ thể cài đặt cơ sở dữ liệu một cách thủ cơng. Vì vậy, nhằm tăng thêm tính tiện dụng của “Tịa soạn báo điện tử”, chúng em tự xây dựng cơng cụ cài đặt tự động “Tịa soạn báo điện tử” vào máy chỉ với thao tác click chuột. Cơng cụ cài đặt thực hiện việc thiết lập cơ sở dữ liệu vào hệ quản trị SQL Server, thư mục ảo chứa nội dung trang web trong IIS, và tạo shorcut trên desktop. Một số giao diện của cơng cụ cài đặt: 107 Hình 7. 4. Màn hình bắt đầu. Click Next để bắt đầu cài đặt Hình 7. 5.Màn hình chọn chế độ cài đặt hoặc tháo gỡ chương trình. Chọn Install và click Next để sang bước tiếp theo 108 Hình 7. 6.Màn hình chọn đường dẫn để cài đặt chương trình. Sau khi chọn xong các đường dẫn phù hợp, nhấp vào Next để thực hiện cài đặt. Hình 7. 7.Màn hình cài đặt chương trình 109 Hình 7. 8.Màn hình chọn chức năng gỡ chương trình. Chọn Remove để gỡ chương trình đã cài đặt trên máy. Hình 7. 9.Màn hình gỡ chương trình thành cơng 110 7.6. Kết quả Nhờ việc tích hợp module phân loại văn bản vào trong web “Tịa soạn báo điện tử” mà giờ đây cơng việc phân loại tin tức điện tử đã trở nên nhanh chĩng và tiện lợi hơn. Tuy xác suất phân loại đúng chưa đảm bảo cho hệ thống phân loại văn bản hồn tồn tự động, mà cần cĩ sự duyệt bài lại để đảm bào chính xác hồn tồn, nhưng module phân loại văn bản bán tự động cũng đã cung cấp cho người dùng một tiện ích vơ cùng hữu hiệu. 111 Chương 8 TỔNG KẾT Kết quả đạt được Về mặt lý thuyết Về mặt thực hành Hạn chế và hướng giải quyết Kết luận 112 Chương 8. TỔNG KẾT 8.1. Kết quả đạt được 8.1.1. Về mặt lý thuyết Phân loại văn bản là một bài tốn khĩ và rất thú vị. Khĩ bởi vì vấn đề phân loại văn bản cần phải thực hiện xử lý ngơn ngữ, mà như chúng ta đều biết, ngơn ngữ tự nhiên là muơn hình vạn trạng, khơng chỉ phong phú về từ vựng, cú pháp mà cịn phức tạp về ngữ nghĩa. Nhưng đây lại là bài tốn rất thú vị vì với mỗi ngơn ngữ khác nhau, chúng ta phải thực hiện những cách xử lý khác nhau đối với ngơn ngữ. Trong khuơn khổ luận văn này, những vấn đề liên quan đến đề tài như các phương pháp tách từ và phương pháp phân loại văn bản đã được chúng em tiến hành nghiên cứu khá cơng phu theo cả chiều rộng lẫn chiều sâu về. Trên cơ sở nghiên cứu đĩ, các hướng tiếp cận áp dụng cho tiếng Anh và tiếng Hoa phù hợp đã được lựa chọn và thử nghiệm lên tiếng Việt. Đặc biệt, ở giai đoạn tách từ chuẩn bị cho phân loại, chúng em đã tìm hiểu một cách sâu sắc về hướng thống kê dựa trên Internet. Dựa trên nền tảng đĩ, chúng em mạnh dạn thực hiện cải tiến phương pháp tách từ dựa trên Internet và thuật tốn di truyền thay vì sử dụng lại các cơng cụ tách từ tiếng Việt đã được cơng bố trước đây. Hướng tiếp cận mới này khơng những hạn chế được nhược điểm phụ thuộc vào tập ngữ liệu của các phương pháp khác mà cịn đem lại khả năng khai thác vơ tận nguồn dữ liệu khổng lồ của nhân loại : word-wide-web. Kết quả đạt được của phương pháp này là hồn tồn khả quan và chấp nhận được đối với một hướng tiếp cận mới cho tách từ tiếng Việt dùng trong phân loại văn bản. Phương pháp phân loại văn bản Nạve Bayes thường được dùng trong phân loại văn bản tiếng Anh, nay được áp dụng trong tiếng Việt với hướng tiếp cận dựa trên thống kê từ Google tỏ ra khá hiệu bởi. Nhờ tính đơn giản, các thơng số tính tốn khơng cần quá lớn như các phương pháp khác, khả năng linh hoạt đối với sự thay đổi về thơng tin huấn luyện, thời gian phân loại phù hợp yêu cầu, Nạve Bayes đã tở ra rất phù hợp với các yêu cầu đề ra. 113 8.1.2. Về mặt thực nghiệm Cơng trình nghiên cứu của luận văn đã thực hiện được nhiều thử nghiệm đối với từng hướng tiếp cận tách từ tiếng Việt dựa trên Google cũng như phân loại văn bản. Nhờ vậy, kết quả thực nghiệm đã chứng minh được tính hiệu quả cho các cơng thức trên lý thuyết. Qua kết quả thực nghiệm, chúng em nhận thấy cơng thức tách từ của [H. Nguyen et al, 2005] và cơng thức MI do chúng em đề nghị cho hiệu quả gần tương đương nhau, tuy cách tính của [H. Nguyen et al, 2005] cĩ vẻ chính xác hơn cho các từ cĩ hai tiếng. Kết quả thực nghiệm ở phần phân loại văn bản cho thấy cơng thức phân loại trong [H. Nguyen et al, 2005] là mang tính chủ quan của tác giả, và dữ liệu thực nghiệm khơng đủ lớn để cĩ thể kết luận. Nhưng khi áp dụng thử nghiệm trên số lượng văn bản và chủ đề nhiều hơn thì cách tính này cho ra kết quả thấp hơn nhiều so với kết quả mà tác giả trình bày. Kết quả sử dụng cơng thức Nạve Bayes đã cho kết quả khả quan hơn nhờ dựa vào lý thuyết đã được chứng minh từ các cơng trình trước. 8.2. Hạn chế và hướng phát triển Với những kết quả thử nghiệm ban đầu, hệ thống phân loại văn bản đã bước đầu hoạt động hiệu quả , gĩp phần thực hiện phân loại văn bản bán tự động, giúp tiết kiệm được thời gian và cơng sức đọc văn bản một cách thủ cơng. Mặc dù những kết quả của hệ thống là chấp nhận được, tuy nhiên hệ thống cĩ thể được cải thiện về độ chính xác và tốc độ nếu ta khắc phục một số hạn chế của hệ thống và thực hiện thêm các hướng mở rộng khác được trình bày sau đây. Phương pháp tách từ dựa trên Internet và thuật tốn di truyền tỏ ra khá linh hoạt trong việc xử lý ngơn ngữ. Tuy nhiên với mặt bằng chất lượng Internet hiện nay ở Việt Nam, bước đầu thực hiện việc tách từ sẽ khá lâu vì phải mất thời gian lấy thơng tin từ cơng cụ tìm kiếm trên mạng. Nhưng khi các thơng tin trên được lưu lại tương đối lớn, tốc độ phân định ranh giới từ sẽ được cải thiện. 114 Trong phần thử nghiệm phân loại văn bản, hiện tại chúng em quy định một chủ đề chỉ cĩ một từ khĩa chính là tên của chủ đề đĩ. Chính đây là một điểm hạn chế dẫn đến kết quả phân loại văn bản chưa cao như trong các cơng trình phân loại văn bản tiếng Anh. Do vậy, nhu cầu xây dựng một cơng cụ chiết xuất từ khĩa tự động từ tập dữ liệu tin tức thơ là rất cần thiết. Khi đã cĩ tập từ khĩa, độ chính xác của việc phân loại văn bản sẽ tăng lên đáng kể. Hiện tại, luận văn thực hiện phân loại theo hướng tiếp cận Nạve Bayes với các từ được tách trong câu mà khơng cĩ sự chọn lựa những từ đặc trưng để thực hiện phân loại. Điều này dẫn đến một số từ khơng cĩ ý nghĩa phân loại vẫn xem như cĩ vai trị tương tự như những từ cĩ ý nghĩa phân loại cao. Nếu chúng ta nghiên cứu thực hiện chọn lựa các đặc trưng của văn bản (feature selection) rồi mới phân loại, chứng ta sẽ đạt được tỉ lệ chính xác cao hơn và tăng tốc độ xử lý của hệ thống sẽ tăng lên đáng kể. Trong luận văn này, chúng em chỉ mới chọn thực hiện thử nghiệm phân loại tiếng Việt với hướng tiếp cận Nạve Bayes mà chưa chọn các phương pháp khác. Điều này là do phần nhiều bởi tính chủ quan và một số giới hạn về sự nghiên cứu. Do đĩ, việc mở rộng thử nghiệm phân loại văn bản tiếng Việt trên các hướng tiếp cận khác như SVM, kNN… sẽ cĩ thể đem lại nhiều kết quả cao hơn trong lĩnh vực này. 8.3. Kết luận Hệ thống phân loại văn bản ứng dụng cơng cụ tách từ tiếng Việt dựa trên thống kê Internet và thuật tốn di truyền là ứng dụng một hướng tiếp cận mới đầy hứa hẹn cho phương pháp tách từ tiếng Việt, vốn hiện nay vẫn cịn nhiều hạn chế. Ngồi ra, phần mềm phân loại bán tự động tin tức của luận văn cĩ nhiều ý nghĩa thực tiễn trong việc quản trị thơng tin của các tờ báo điện tử nĩi riêng, và trong các lĩnh vực địi hỏi đến việc xử lý ngơn ngữ nĩi chung. Với ý nghĩa to lớn đĩ, chúng em nguyện cố gắng nhiều hơn nữa tìm hiểu, nghiên cứu cải tiến hệ thống đạt hiệu quả ngày càng cao. 115 TÀI LIỆU THAM KHẢO [Broder et al, 2003] Andrei Z. Broder (NY), Marc Najork(CA), Janet L. Wiener(CA). Efficient URL Caching for World Wide Web Crawling, 2003. [Bagrow et al, 2004J.P. Bagrow, H.D. Rozenfeld, E.M. Bollt, and D. ben-Avraham, “How Famous is a Scientist? – Famous to Those Who Know Us.", arxiv.org/abs/cond-mat/0404515, Europhys. Lett., 67, (4) 511-516 (2004). [Berger, 1999] Adam Berger, Error-correcting output coding for text classification. In proceedings of IJCAI-99 Workshop on Machine Learning for Information Filtering, Stockholm, Sweeden, 1999. [Chien et al, 1997] Lee-Feng Chien, T. I. Huang, M. C. Chen. 1997. PATTree- Based Keyword Extraction for Chinese Information Retrieval, Proceedings of 1997 ACM SIGIR Conference, Philadelphia, USA, 50-58. [Chih-Hao Tsai, 2000] Chih-Hao Tsai, 2000. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm. Web publication at [Church et al, 1991] Kenneth Church, William Gale, Patrick Hanks, Donald Hindle, Using Statistics in Lexical Analysis, Bell Laboratories and Oxford University Press, 1991. [Dasarathy, 1991] Belur V. Dasarathy. Nearest Neighbor (NN) Norms: NN Pattern Classication Techniques. McGraw-Hill Computer Science Series. IEEE Computer Society Press, Las Alamitos, California, 1991. [Đinh Điền et al, 2001] Đinh Điền, Hoang Kiem, Nguyen Van Toan. 2001. Vietnamese Word Segmentation. pp. 749 -756. The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan. [Đinh Điền,2004] Đinh Điền, Giáo trình xử lý ngơn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên Tp.HCM, 12/2004 [Foo & Li, 2004] Foo S., Li H. 2004. Chinese Word Segmentation and Its Effect on Information Retrieval, Information Processing & Management: An International Journal, 40(1): 161-190. 116 [Fuhr et al, 1991] N. Fuhr, S. Hartmanna, G. Lustig, M. Schwantner, and K. Tzeras. Air/x – a rule-based multistage indexing system for large subject fields. In 606- 623, editor, Proceedings of RIAO’91, 1991. [Ghani, 2000] Rayid Ghani, Using error-correcting codes for text classification. In proceedings of Seventeenth International Conference on Machine Learning, 2000 [Goldberg et al, 1992] Goldberg, D.E., Deb, K., & Clark, J.H. (1992). Genetic algorithms, noise, and the sizing of populations. Complex Systems, 6. 333-362. [H. Nguyen et al, 2005] H. Nguyen, H. Nguyen, T. Vu, N. Tran, K. Hoang ,2005. Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future, the 3rd International Conference in Computer Science, (RIFT 2005), Can Tho, Vietnam. [He et al, 1996] He, J., Xu, J., Chen, A., Meggs, J, & Gey, F. C. (1996). Berkeley Chinese information retrieval at TREC–5: Technical report. .html, Maryland. [James & Daniel, 2005] James P.Pagrow & Daniel ben-Avraham. On the Google – Fame of Scientist and other populations, 2005. [Jason, 2001] Jason D.M Rennie, Improving Multi-class Text Classification with Naive Bayes, 2001 [Joachims, 1998] Thorsten Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning (ECML), 1998 [Kwok, 1997a] Kwok, K.L. (1997a) Comparing representations in Chinese information retrieval. [Kwok, 1997b] Kwok, K.L. (1997b) Lexicon effects on Chinese information retrieval. [Le An Ha, 2003] Le An Ha, 2003. A method for word segmentation Vietnamese. Proceddings of Corpus Linguistics 2003, Lancaster, UK. [Maron, 1961] Maron, Automated indexing, JACM, 1961 117 [Mateev et al, 1997] Mateev, B., Munteanu, E., Sheridan, P., Wechsler, M., & Schuble, P. (1997). ETH TREC-6: Routing, Chinese, cross-language and spoken document retrieval. trec6/t6_ proceedings.html, Maryland. [McCallum & Nigam, 1998] Andrew McCallum & Kamal Nigam. A comparison of Event Models for Nạve Bayes Text Classification, 1998. [Mitchell, 2005] Tom M. Mitchell. Generative and Discriminative Classifiers: Nạve Bayes and Logistic Regression, textbook Machine Learning, DRAFT OF March 6, 2005. [Nie et al, 1996] Nie, J.Y., Brisebois, M., & Ren, X.B. (1996). On Chinese text retrieval. Proceedings of SIGIR '96, Zurich, Switzerland, 225-233. [Ong & Chen, 1999] Thian-Huat Ong & Hsinchun Chen. Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information: A Linguistic Foundation for Knowledge Management, Proceedings of the Second Asian Digital Library Conference, pp.63-84, 1999. [Platt, 1998] J.Platt. Sequential minimal optimization : A fast algorithm for training support vector machines. In Technical Report MST-TR-98-14. Microsoft Research,1998 [Richard et al,1996] Richard W Sproat. Chilin Shih, William Gale, and Nancy Chang. A stochastic finite-state word-segmentation algorithm for Chinese. CL, 22(3):377-404. 1996 [Rijsbergen et al, 1970] Van Rijsbergen, Robertson, Sparck Jones, Croft, Harper (early 1970’s) –search engines [Rudi & Paul, 2005] Rudi Cilibrasi & Pau Vitanyi, Automatic Meaning Discovery Using Google, Neitherlands, 2005. [Sahami et al, 1998] Sahami, Dumais, Heckerman, Horvitz (1998) –spam filtering [Schütze et al,1995] Schütze, H. Hull, D. , and Pedersen, J. (1995). A comparison of classifier and document representations for the routing problem. In International ACM SIGIR Conference on Research and Development in Information Retrieval. 118 [Simkin & Roychowdhurry, 2003] M.V. Simkin and V.P. Roychowdhury, “Theory of Aces:Fame by chance or merit?" (preprint, arxiv.org/abs/condmat/0310049, 2003). [Su et al, 1993] Keh-Yih Su, Ming-Wen Wu, Jing-Shin Chang. A Corpus-based Approach to Automatic Compound Extraction, 1993 [Vapnik & Cortes, 1995] C.Cortes and V.Vapnik, Support Vector Network. Machine Learning, 20:273-297,1995 [Vapnik, 1995] V.Vapnik, The Nature of Statistical Learning Theory. Springer, NewYork, 1995. [Wiener et al, 1995] Erik Wiener, Jan O. Pedersen, and Andreas S. Weigend. A Neural Network Approach to Topic Spotting. In Proceedings of the Fourth Annual Sumposium on Document Analysis and Information Retrieval (SDAIR’95), 1995. [William & Yoram, 1996] William W. Cohen and Yoram Singer. Context-sensitive learning methods for text categorization. In SIGIR ’96: Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1996. 307-315. [Wu & Tseng, 1993] Wu, Z.M., & Tseng, G. (1993). Chinese text segmentation for text retrieval: Achievements and problems. Journal of the American Society for Information Science, 44 (9), 532-542. [Wu & Tseng, 1995] Wu, Z.M., & Tseng, G. (1995). ACTS: An automatic Chinese text segmentation system for full text retrieval. Journal of the American Society for Information Science, 46(2), 83-96 [Yang & Chute, 1992] Y. Yang and G.Chute. A Linear Least Squares Fit Mapping Method for Information Retrieval from Natural Language Texts, 1992 [Yang & Chute, 1994] Y. Yang and G.Chute. An example-based mapping method for text categorization and retrieval. ACM Transaction on Information Systems(TOIS), 12(3):252-277,1994 119 [Yang & Petersen, 1997] Yang, Y. and Petersen, J. (1997). A comparative study on feature selection in text categorization. In International Conference on Machine Learning(ICML). [Yang & Wilbur, 1996] Yang, Y. and Wilbur, J. (1996). Using corpus statistics to remove redundant words in text categorization. Journal of the American Society for Information Science, 47(5):357-369. [Yang & Xiu, 1999] Yiming Yang and Xin Liu, A re-examination of text categorization methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’ 99) [Yang, 2000] Yiming Yang. An Evaluation of Statistical Approaches to Text Categorization, Kluwer Academic Publishers, 2000.

Các file đính kèm theo tài liệu này:

CNTT1036.pdf