Luận văn Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

MỤC LỤC BẢNG DANH MỤC HÌNH HOẠ 3 LỜI GIỚI THIỆU 4 I. Đặt vấn đề 6 II. Cơ sở lý thuyết 7 1. Khái niệm Text Mining 7 a. Khai phá dữ liệu (Data Mining) 7 b. Khai phá dữ liệu văn bản (Text Mining) 8 2. Bài toán phân loại văn bản (Text categorization) 10 a. Khái niệm phân loại văn bản 10 b. Các phương pháp phân loại văn bản 11 b.1. Sử dụng từ điển phân cấp chủ đề 11 b.1.1. Giải thuật phân lớp và phân cấp chủ đề 11 b.1.2. Sự phù hợp và sự phân biệt của các trọng số 12 b.2. Phương pháp cây quyết định (Decision tree) 13 3. Bài toán thu thập thông tin (Information retrieval - IR) 14 a. Khái niệm thu thập thông tin 14 b. Các phương pháp thu thập thông tin 16 b.1. Các phương pháp chuẩn 16 b.1.1. Mô hình Boolean 16 b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) 18 b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 21 b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 22 4. Một số công cụ phân tích văn bản tiếng Anh 26 III. Các giải pháp áp dụng cho Vietnamese Text Mining 29 1. Đặc trưng của văn bản tiếng Việt 29 a. Các đơn vị của tiếng Việt 29 a.1. Tiếng và đặc điểm của tiếng 29 a.1.1. Tiếng và giá trị ngữ âm 29 a.1.2. Tiếng và giá trị ngữ nghĩa 29 a.1.3. Tiếng và giá trị ngữ pháp 29 a.2. Từ và các đặc điểm của từ 30 a.2.1. Từ là đơn vị nhỏ nhất để đặt câu 30 a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 30 a.3. Câu và các đặc điểm của câu 30 a.3.1. Câu có ý nghĩa hoàn chỉnh 30 a.3.2. Câu có cấu tạo đa dạng. 30 b. Các phương tiện ngữ pháp của tiếng việt. 31 b.1. Trong phạm vi cấu tạo từ. 31 b.2. Trong phạm vi cấu tạo câu. 31 c. Từ tiếng việt 32 c.1. Từ đơn - từ ghép 32 c.2. Từ loại 32 c.3. Dùng từ cấu tạo ngữ 33 d. Câu tiếng việt 34 d.1. Câu đơn 34 d.2. Câu ghép 35 d.2.1. Câu ghép song song 35 d.2.2. Câu ghép qua lại 35 d.2.3. Các thành phần câu. 35 e. Các đặc điểm chính tả và văn bản tiếng Việt 36 2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt 36 a. Bài toán phân loại văn bản tiếng Việt 36 b. Bài toán thu thập thông tin từ văn bản tiếng Việt 37 IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38 1. Chương trình và bài toán được giải quyết 38 2. Kết quả chạy chương trình 38 TÀI LIỆU THAM KHẢO 39 PHỤ LỤC 40 Các thông tin về báo cáo 40 Cách chạy chương trình demo 40 TỪ ĐIỂN THUẬT NGỮ 41

doc41 trang | Chia sẻ: maiphuongtl | Lượt xem: 2790 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Luận văn Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
với xử lý đầu vào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu. Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tính phù hợp của tài liệu đã nhận được. Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví dụ như kiểu văn bản, hình ảnh, âm thanh... Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc thu thập văn bản bởi văn bản là một loại thông tin mà phương thức thực hiện và kỹ thuật xử lý đơn giản hơn. Có thể nhấn mạnh rằng các kỹ thuật này cũng có thể được áp dụng cho thu thập thông tin đa phương tiện. Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại: Các kỹ thuật chuẩn Các kỹ thuật có áp dụng trí tuệ nhân tạo. Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các phương thức thuật toán và toán học truyền thống. Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật áp dụng trí tuệ nhân tạo để giành được các kết quả tốt hơn. b. Các phương pháp thu thập thông tin Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet. Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thu nhận thông tin nhanh chóng và tiện lợi. Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu cầu người dùng. Đó là lý do của các nghiên cứu chuyên sâu trong các lĩnh vực như khai phá dữ liệu (DataMining), trích xuất thông tin (Information Extraction), thu thập thông tin (Information Retrieval). Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt. Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn. Các phương pháp này thường dựa theo các phương pháp toán học cổ điển. Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo. Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin. b.1. Các phương pháp chuẩn Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm 1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học truyền thống. Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean (Boolean model), mô hình không gian vec-tơ (vector space model). b.1.1. Mô hình Boolean Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa ra ý tưởng cơ bản cho các chiến lượng xa hơn [4]. Hầu hết đồng ý rằng tất cả các chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu được lưu trữ. Mô hình Boolean nghiên cứu chiến lược thu thập các tài liệu được gán giá trị “true” ứng với truy vấn đó. Giả sử tài liệu dj được biểu diễn thành tập các thuật ngữ , ở đó ti là một thuật ngữ xuất hiện trong tài liệu dj. Một truy vấn được biểu diễn bằng một biểu thức logic của các thuật ngữ bao gồm các toán tử AND, OR, và NOT. Ví dụ với truy vấn: Q=(K1 AND (NOT K2)) OR K3 Ở đây phép tìm kiếm Boolean sẽ nhận được tất cả các tài liệu có liên kết với K1 nhưng không liên kết với K2 hoặc các tài liệu có liên kết với K3. Cụ thể hơn, với một câu truy vấn: Q=(“TextMining” AND ((“Information Retrieval”) AND (NOT “Categorization”)) Hệ thống sẽ cố gắng tìm ra tất cả các tài liệu thuộc chủ đề “TextMining”, mà cụ thể hơn là các phương pháp thu thập thông tin chứ không phải là các phương pháp phân lớp văn bản. b.1.1.1. Các hàm so sánh Liên kết giữa truy vấn và tài liệu có thể được hiểu theo nghĩa một hàm so sánh. Các hàm này thường rất đơn giản. Một triến lược được sử dụng gọi là chiến lược đơn giản hoá phép so sánh. Chiến lược này được sử dụng trong bộ biến đổi của phép tìm kiếm Boolean, ở đó chỉ có các toán tử logic AND. Ý tưởng chính của chiến lược này được đưa ra khi xem xét số lượng của các thuật ngữ chung trong câu truy vấn và trong tài liệu. Số này được gọi là mức đồng sắp xếp và có thể được sử dụng như một hàm so sánh. Ví dụ, các từ khoá K1, K2, K3 được liên kết với các tài liệu D1, D2, D3, D4 theo cách sau: K1 liên kết với D1, D2, D3, D4 K2 liên kết vơi D1, D2 K3 liên kết với D2, D3 và Q = K1 AND K2 AND K3 Với truy vấn Q, chúng ta sẽ có các mức đồng sắp xếp như sau: 3 D2 2 D1, D3 1 D4 b.1.1.2. Tìm kiếm tuần tự Kỹ thuât tìm kiếm tuần tự là cơ sở của mô hình Boolean. Tuy nhiên ngày nay nó rất thường xuyên được sử dụng mặc dù nó khá chậm. Nhưng với bất cứ cách nào, nó cho thấy cách mà các hàm so sánh được sử dụng [4]. Đưa ra một tập các tài liệu và một truy vấn và một truy vấn Q, chúng ta đi tính N giá trị của hàm so sánh M(Q,Di). Để nhận được các tài liệu liên quan, chúng ta cần sắp xếp các tài liệu giảm dần của hàm so sánh và bỏ đi tất cả các tài liệu ứng với hàm so sánh nhỏ hơn một ngưỡng cắt cho trước. Ngưỡng này có thể được định nghĩa như một giá trị hàm so sánh M hoặc là một gí trị so sánh với một văn bản nào đó. Thách thức lớn nhất của kỹ thuật này là tìm được cách chọn giá trị ngưỡng cắt phù hợp. Để thực hiện mô hình tìm kiếm Boolean, chúng ta có thể sử dụng một số kỹ thuật hiệu quả. Tuy nhiên, các thuật toán đó không được đề cập trong bài nghiên cứu này. b.1.1.3. Thực hiện Mỗi một tài liệu cần được đánh chỉ mục (index) bởi một số thuật ngữ, mỗi thuật ngữ này miêu tả nội dung của tài liêu. Các thuật ngữ này thường được gọi là các thuật ngữ đã gắn chỉ mục hay các từ khoá. Để việc thu thập được thực hiện nhanh chóng, chúng ta nên sắp xếp các từ này. Các từ khoá được lưu trữ trong tệp tin chỉ mục, và với mỗi từ khoá thuộc bộ từ vựng sẽ có danh sách các tài liệu chứa từ khoá này. Để thoả mãn một truy vấn, chúng ta sẽ thực hiện tìm kiếm trên file chỉ mục này. Kỹ thuật này được sử dụng bởi nhiều hệ thống thương mại với các độ tối ưu khác nhau của tệp tin chỉ mục tìm kiếm (ví dụ B-trees). Các nhược điểm của kỹ thuật này là: Lưu trữ quá nhiều (có thể cần không gian lưu trữ lên đến 300% so với kích thước ban đầu) Giá thành cập nhật và tổ chức lại chỉ mục cao Giá thành hợp các danh sách tài liệu cao nếu chúng quá dài Tuy nhiên, chúng cũng có các ưu điểm riêng: Thực hiện dễ dàng Tốc độ nhanh Dễ dàng hỗ trợ các từ đồng nghĩa b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) Mô hình không gian vec-tơ được mở rộng từ mô hình Boolean trong việc thể hiện các thuật ngữ của tài liệu [4]. Giống như mô hình Boolean, chúng ta gán nhãn các tài liệu bởi tập các thuật ngữ. Nhưng trên thực tế, điểm khác nhau được ẩn trong việc biểu diễn tài liêu. Tài liệu D được biểu diễn bởi một vec-tơ m-chiều với các thông số ứng với mỗi chiều là trọng số ứng với từng thuật ngữ cụ thể. Trong trường hợp này, m là tổng sô thuật ngữ được đinh nghĩa để xác định nội dung của tài liệu. Trọng số được tính bởi xác suất xuất hiện và độ quan trọng của từ khoá. D=(w1, w2,..., wN) Ví dụ, khi phân tích hai tài liệu D1 và D2 là hai bài nghiên cứu, liên quan đến bệnh đâu đầu, ta có hai vec-tơ được hinh hoạ trên đồ thị 2-chiều như sau: Magê Đau đầu 1.0 1.0 D1(0.25, 0.75) D2(0.6, 0.2) Hình 3. Đồ thị biểu diễn các vec-tơ của bài báo D1 và D2 Các trọng số trên mỗi vec-tơ biểu diễn xác suất xuất hiện của các thuật ngữ trong mỗi bài báo. Tài liệu D1, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.75, 0.25. Tài liệu D2, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.2, 0.6. Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] (xem hình 4). Hay nói cách khác, chúng ta sẽ biểu câu truy vấn bởi một vec-tơ trọng số của các thuật ngữ. Sau khi thực hiện việc phân tích câu truy vấn ta sẽ thu được một vec-tơ. Việc thực hiện câu truy vấn này thực chất là việc so sách vec-tơ của câu truy vấn với các vec-tơ đại diện cho các tài liệu theo một tiêu chuẩn nào đó. Kết quả ta sẽ thu được một danh sách các tài liệu có quan hệ “gần” với câu truy vấn đã đưa ra. Tất nhiên, các tài liệu đó sẽ được sắp xếp theo trình tự giảm dần và sẽ bị cắt ở một ngưỡng nào đó. 1.0 1.0 Magê Đau đầu D1 D2 query Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2 Để tính vec-tơ biểu diễn một tài liệu, các từ riêng biệt trong tài liệu được tổ hợp lại. Trên thực tế, việc thực hiện được thực hiện theo cách sau: Các từ phụ được soá đi Phân biệt các từ bởi khoảng trắng Đối với Anh ngữ hoặc Pháp ngữ, mỗi từ được tách biệt bởi các khoảng trắng. Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ ghép. Đây cũng là một vấn đề khó khăn khi phân tách từ trong tiếng Việt. Ví dụ, với từ company trong tiếng Anh, ứng với nó là từ công ty trong tiếng Việt. Do vấn đề về từ ghép nên gay nhiều hiểu nhầm trong tiếng Việt. Các vấn đề đó gọi là sự mập mờ trong tiếng Việt. Ví dụ, với câu thuộc địa bàn, ta có thể có hai cách phân tách thuộc địa|bàn và thuộc|địa bàn. Như vậy, đối với tiếng Việt, chúng ta cần có các phương pháp tách từ đặc biệt hơn. b.1.2.1. Tiếp cận phương thức TF * IDF Trọng số của một thuật ngữ có thể được xác định theo nhiều cách. Cách tiếp cận chung là sử dụng phương thức tf * idf, ở đó trọng số được tổng hợp bởi hai yếu tố: Xác suất thuật ngữ (term frequency - tf) - đặc trưng cho xác suất xuất hiện thuật ngữ trong tài liệu Nghịch đảo xác suất của tài liệu (inverse document frequency - idf) - đặc trưng cho xác suất của thuật ngữ trong toàn bộ tập hợp các tài liệu. Hay nói cách khác, một thuật ngữ hiếm khi xuất hiện trong các tài liệu thì idf sẽ cao, còn nếu nó xuất hiện thường xuyên trong các tài liệu thì idf sẽ thấp. Ví dụ: công thức dưới đây được đề xuất có thể được dùng để tính các giá trị đã nói ở trên [4]: [4] ở đó fi là xác suất xuất hiện thuật ngữ xi trong tài liệu. Phân số trong idf được tính toán bằng phương pháp giải tích với khả năng xuất hiện xi trong tài liệu này. b.1.2.2. Độ tương đồng (similarity) Khi các trọng số các thuật ngữ được xác định, chúng ta cần một hàm sắp xếp để định giá độ tương đồng giữa các vec-tơ truy vấn và tài liệu. Một số phép đo độ tương đồng được thể hiện dưới đây. Ở đó Q và D lần lượt là các tập thuật ngữ trong truy vấn và trong văn bản: công thức đơn giản nhất hệ số của Dice hệ số Jaccard hệ số consin hệ số nạp chồng Một đánh giá độ tương đồng thông thường, được biết đến như đánh giá consin [4], xác định góc giữa vec-tơ tài liệu và vec-tơ truy vấn bởi phép tính toán như một kết quả nội tại. Đặc biệt, đánh giá này thường được tính với độ dài của vec-tơ. Độ tương đồng được xác định theo công thức dưới đây [4]: Giả sử cả truy vấn và tài liệu được chuẩn hoá bởi độ dài của chúng, công thức sẽ trở nên đơn giản hơn: Sau khi tất cả các tài liệu được so sánh với truy vấn, chúng sẽ được sắp xếp giảm dần theo độ tương đồng, kết quả là một danh sách đã được sắp xếp của các tài liệu. Danh sách này có thể được xử lý bằng cách sử dụng các kỹ thuật khác nhau. b.1.2.3. Thực hiện Mô hình không gian vec-tơ rất tốn công khi thực hiện, do đó trong thực tế một số phép xấp xỉ đơn giản được sử dụng. Hiển nhiên là biểu hiện của các vec-tơ chỉ tồn tại khái niệm ngữ. Trong thực tế, các vec-tơ hiếm khi được lưu trữ đầy đủ dài do tính thưa của chúng. Ví dụ, có tất cả 300 thuật ngữ, tài liệu D chỉ đề cập đến 5 thuật ngữ, như vậy không cần thiết phải lưu trữ tất cả các thông số ứng với vec-tơ tương ứng với tài liệu này. Một mô hình không gian vec-tơ đầy đủ có thể được sử dụng hợp lệ để làm giảm độ phức tạp của thuật toán [4]. Ý tưởng của mô hình là lưu trữ vec-tơ trong một tệp tin đã được chuyển đổi. Tệp tin này trả về một danh sách các tài liệu với các từ khoá đặc biệt cùng với thông tin về xác suất. Bên cạnh việc truy xuất theo chỉ mục, tệp tin chuyển đổi cũng cải thiện các đặc tính thời gian của việc so sánh các vec-tơ. Kỹ thuật này cho ra một phép tính toán chấp nhận được với những truy vấn tương đối nhỏ, còn với những truy vấn lớn, phép tính phân số chuẩn hoá sẽ cực kì tốn kém. Nhược điểm thứ hai của kỹ thuật này là cần tính toán các các phân số chuẩn sau khi có sự thay đổi của idf. Điều đó rất có thể xảy ra trong thực tế, ví dụ khi ta thêm hoặc xoá đi một tài liệu trong tổ hợp. Để ước lượng hiệu quả của phép chuẩn hoá, chúng ta sử dụng bình phương số lượng các thuật ngữ trong một tài liệu như phân số chuẩn hoá. Với các trường hợp tài liệu ngắn thì phép tính xấp xỉ không được chính xác, tuy nhiên kỹ thuật này cũng có một số ưu điểm sau: Ảnh hưởng của kích thước tài liệu trở nên không có ý nghĩa với bất cứ loại chuẩn nào. Độ phức tạp tính toán nhỏ hơn rất nhiều so với các kỹ thuật trước đây Có thể tính toán trước Như vậy, độ tương đồng có thể được thực hiện bởi công thức sau: b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) Các phương pháp trí tuệ nhân tạo thường dựa trí tuệ nhân tạo tập trung vào các giải thuật huấn luyện máy học. Hay nói rõ hơn, cần phải có một quá trình huấn luyện cho máy học phân loại văn bản trước khi sử dụng nó. Quá trình huấn luyện này rất quan trọng. Nếu các mẫu huấn luyện hợp lý, kết quả thu được sẽ có chất lượng rất tốt. Nhưng ngược lại, nếu quá trình huấn luyện không hợp lý thì có thể dẫn đến sụp đổ toàn bộ hệ thống. Các phương pháp này thường phải đối mặt với một số vấn đề sau: Giải thuật suy luận Phương pháp lưu trữ thông tin hợp lý Tránh sự sụp đổ sau một thời gian dài hoạt động Hầu hết các giải thuật dựa trí tuệ nhân tạo thường gắn cả quá trình tự học trong khi sử dụng. Yếu tố này quyết định độ thông minh của hệ thống. Nhưng sau một thời gian dài hoạt đông, có thể hệ thống sẽ lâm vào tình trạng sụp đổ do trí tuệ tích luỹ quá nhiều, quá trình tự học bị nhiễu, thông tin lưu trữ quá nhiều. Tất cả các lý do trên đều làm giảm hoạt động của hệ thống. Do đó, các phương pháp này cần có sự tự điều chỉnh trong hoạt động. Bên cạnh giải thuật tích luỹ trí tuệ cũng cần có giải thuật xén tri thức và loại nhiễu. Sau đây chúng ta sẽ nghiên cứu cụ thể hơn về các phương pháp bày. b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) Có thể nói tương đối mạnh rằng, các nghiên cứu gần đây về IR khá thành công trong các kỹ thuật được đề xuất để “hiểu” nội dung của tài liệu và truy vấn, hay nói cách khác là thực hiện được các phân tích ngữ nghĩa. Với mục tiêu này, hệ thống có thể áp dụng các lĩnh vực tri thức cho các xử lý để tìm kiếm và thu thập thông tin. Thành công này có được theo nghĩa đạt được khả năng học và khả năng tổng quát hoá của mạng Nơ-ron (Neural network). Với việc sử dụng mạng nơ-ron, chúng ta có thể biểu diễn một phần tượng trưng tri thức trong lĩnh vực của bài toán, và có thể được sử dụng thành công trong hệ thống thu thập thông tin. b.2.1.1. Tổng quan về mạng nơ-ron Để có thể hiểu làm thế nào mạng nơ-ron có thể áp dụng cho xử lý thu thập thông tin, chúng ta sẽ định nghĩa một số khái niệm được sử dụng trong lý thuyêt mạng nơ-ron. Xây dựng các khối của mô hình tính toán cho mạng nơ-ron thành các đơn vị gọi là nút mạng (neurode) mang rất nhiều các đặc tính của rơ-ron sinh học [4], hay nói đúng hơn là các nút mạng này được mô phỏng theo các nơ-ron của động vật. Ở các nút mạng ở Hình 5 thể hiện các phép toán logic AND. Đầu ra của nút mạng sẽ sáng nếu các đầu vào đều sáng. Nó được thực hiện bởi phép so sánh với giá trị ngưỡng (T) mà mọi đầu ra đều có. Hiển nhiên là việc thực hiện phép logic OR sẽ có giá trị ngưỡng giảm còn 0.5 (xem Hình 5.b). Các giá trị trong ngoặc được gọi là các trọng số, định nghĩa độ mạnh của liên kết. Trong mô hình tính toán của mạng nơ-ron, trọng số thường được định nghĩa là giá trị nằm trong khoảng [-1, 1]. Trong trường hợp phức tạp hơn, ví dụ khi thực hiện phép toán NOR, chúng ta cần nhiều hơn một đơn vị, các đơn vị đó gọi là đơn vị ẩn. Mô hình tính toán mạng nơ-ron được biểu diễn bởi các thuật ngữ về kết nối của nó (các mẫu kết nối) và trong các thuật ngữ về cách mà chúng được đào tạo (các luật sửa các trọng số). (1) (1) T= (1) (1) T= Hình 5. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b) (a) (b) 0.5 1.5 1 1 -2 1 1 Hình 6. Mạng nơ-ron với lớp ẩn: toán tử NOR input b.2.1.2. Mô hình truyền ngược ba lớp Mô hình được đề xuất là một mô hình ba lớp: Lớp các thuật ngữ truy vấn (các nút mạng đầu vào) – Q layer Lớp các tài liệu (các nút mạng đầu ra) – D layer Lớp các chỉ mục (các nút ẩn) – T layer Trong hình 7, chúng ta có các ký hiệu sau: ti - chỉ mục thuật ngữ Di - tài liệu Qi - thuật ngữ truy vấn của người dùng pij - trọng số kết nối giữa ngăn của mạng thuật ngữ và một ngăn của mạng tài liệu qi - trọng số liên kết giữa thuật ngữ của truy vấn và thuật ngữ ti wij - giá trị liên kết giữa thuật ngữ ti và tj dij - trọng số liên kết giữa tài liệu Di và tài liệu Dj Hình 7: Mô hình biểu diễn mạng nơ-ron Lớp thuật ngữ truy vấn biểu diễn các yêu cầu người dùng. Mỗi một nút là một thuật ngữ trong truy vấn. Lớp tài liệu biểu diễn tập các tài liệu. Mỗi nút quy chiếu đến một tài liệu. Các nút trong lớp này có các liên kết hai chiều có trọng số, thể hiện sự tương đồng giữa các tài liệu. Giá trị tương đồng này được tính toán bởi trọng số ngữ nghĩa của các thuật ngữ trong mỗi tài liệu. Lớp các thuật ngữ là lớp động. Mỗi nút biểu diễn một thuật ngữ được đánh chỉ mục. Các liên kết có giá trị giữa các nút là các kết lối giữa các thuật ngữ trong pha truy vấn. Các liên kết có trọng số giữa các ngăn thuộc lớp thuật ngữ có chỉ dẫn và các ngăn thuộc lớp thuật ngữ pij biểu diễn khả năng hay ý nghĩa của thuật ngữ ti trong tài liệu Dj. Liên kết có trọng số qi định nghĩa độ quan trọng của thuật ngữ ti trong toàn bộ tổ hợp các tài liệu. Các giá trị khởi đầu của các trọng số này có thể được trọng ngẫu nhiên hoặc với bất cứ cách xác định nào. Nếu giá trị ngẫu nhiên được sử dụng, có thể ta sẽ phải đối mặt với các vấn đề sau: Thời gian học dài Khó đạt được sự hội tụ Để tìm ra trọng số wij (liên kết giữa ti và tj), chúng ta giả sử rằng độ liên kết giữa hai thuật ngữ tăng khi đồng xuất hiện trong một tài liệu, và giá trị này chỉ giảm khi có một lần xuất hiện trong một tài liệu. Liên kết giữa hai tài liệu được biểu diễn bởi công thức sau: b.2.1.3. Chức năng của mạng Chức năng mạng gồm hai pha: Pha thu thập thông tin Pha học Pha thu thập thông tin bắt đầu khi người dùng gửi cho hệ thống một yêu cầu (thường được viết dưới dạng ngôn ngữ tự nhiên). Yêu cầu này được phân tích và tương ứng lớp Q sẽ được xây dựng. Mỗi ngăn trong lớp Q được liên kết với một ngăn trong lớp T với cùng thuật ngữ. Liên kết này sẽ bắt đầu được kích hoạt dọc theo các mối liên kết qi. Mỗi ngăn của lớp T nhận một tín hiệu từ lớp Q sẽ tính toán rằng độ kích hoạt và sau đó truyền nó tới mạng. Trong trường hợp đó có hai khả năng có thể xảy ra: Truyền lan tín hiệu tới ngăn khác từ T (tự động tính toán lại yêu cầu) Truyền lan nó tới ngăn đó từ D Trong trường hợp thứ hai, mỗi ngăn của lớp D sẽ tính một giá trị kích hoạt phản xạ độ tương đồng giữa yêu cầu và tài liệu. Các tài liệu thu thập được sắp xếp theo giá trị kích hoạt của chúng. Khi đó, người dùng có những cơ hội để lan truyền lan sự kích hoạt của tài liệu tới những ngăn khác thuộc lớp D hoặc gây ra một sự lan truyền phản hồi của các ngăn thuộc lớp D tới các ngăn thuộc lớp T. Điều đó có nghĩa là sự lan truyền tài liệu phù hợp đến lớp T sẽ gây ra quá trình sự kích hoạt hay truyền lan trong lớp T và lớp D. Nhưng trong thực tế, quá trình này không mang bất kỳ tài liệu mới nào, nhưng dù sao đi nữa nó có thể giảm bớt số tài liệu ở đầu ra. Quá trình học bao gồm : Thay đổi các liên kết giữa các ngăn thuộc lớp D và lớp T Thay đổi liên kết trong một lớp Trước hết, áp dụng luật HEBB để sửa đổi các trọng số kết nối pi,j. Ý tưởng này sẽ tăng các giá trị trọng số của kết nối giữa các tài liệu bằng cách xem xét độ phù hợp và độ kích hoạt của các thuật ngữ, và giảm trọng số nếu các tài liệu được xét thấy không phù hợp. Các hoạt động này ảnh hưởng đến ý nghĩa của các thuật ngữ được so sánh với tài liệu theo sự phù hợp của tài liệu. Thứ đến, sửa đổi các liên kết giữa ti,j. Giải thuật sử dụng trong giai đoạn huấn luyện này phần lớn được dựa trên các nghiên cứu của Kohonen. Tóm lại, phương pháp này dực trên độ phù hợp của các tài liệu nhận được sau một truy vấn. Ở giai đoạn đầu tiên, có sự tăng giá trị của các kết nối thực chất là kích hoạt các ngăn với các tài liệu phù hợp và việc giảm giá trị nếu các kết giữa các ngăn với tài liệu là không phù hợp. Ở giai đoạn thứ hai, quá trình huấn luyện tạo ra kết nối giữa các thuật ngữ và kích hoạt các ngăn với các tài liệu phù hợp. Giải thuật này được sử dụng cho mục đích nhóm các thuật ngữ được liên kết tới tài liệu trên cùng chủ đề. Cách huấn luyện này có khả năng hướng việc mở rộng cách đối xử của các mạng nơ-ron, đặc biệt trong lĩnh vực thu thập thông tin. 4. Một số công cụ phân tích văn bản tiếng Anh Trong bài thực tập này em xin giới thiệu hai công cụ sử dụng cho TextAnalys và WebAnalys. Cả hai công cụ này đều được tải từ địa chỉ http:// www.megaputer.com. Sau đây em xin được giới thiệu về từng công cụ. TextAnalyst 2.0 là công cụ dùng để tự động xử lý văn bản tiếng Anh theo phương pháp các mạng nơ-ron, nhưng tạo ra các cấu trúc ngữ nghĩa như một sản phẩm cuối. Thuật toán áp dụng cho TextAnalyst 2.0 gồm ba bước: bước tiền xử lý, bước phân tích thống kê và đưa ra kết quả. Bước tiền xử lý bao gồm việc loại bỏ các phụ từ và việc nhận dạng các từ gốc. Các phụ từ thường không mang lại ý nghĩa khi phân tích ngữ nghĩa. Trong giai đoạn tiền xử lý, các từ này sẽ bị loại bỏ khỏi văn bản nhằm giảm khối lượng văn bản cần xử lý. Ví dụ của phụ từ là các giới từ như: a, an, the. Khi phân câu, các từ này thường không mang lại giá trị về mặt thuật ngữ hay ngữ nghĩa, thế nhưng các từ này có xác suất xuất hiện rát lớn trong các văn bản tiếng Anh. Việc nhận dạng các từ gốc rất quan trọng. Trong tiếng anh, một dang từ có thể có nhiều biết thể, ví dụ với từ use có các biến thể: use, using, user, used, useful, useless…Vấn đề là hệ thống cần nhận ra dạng biết thể của từ để tìm ra dạng nguyên thể của từ. Sau khi bước tiền xử lý hoàn tất, mạng nơ-ron sẽ nắm lấy tất cả các từ quan trọng cũng như tần xuất xuất hiện của mỗi từ, độ liên kết giữa các từ và trọng số liên kết. Ví dụ, khi xem xét một tài liệu, TextAnalyst nhận thấy từ database xuất hiện nhiều nhất. Khi phân tích các từ có liên quan đến từ database như thuộc cùng một câu, thuộc cùng một đoạn, TextAnalyst nhận thấy từ sql server xuất hiện nhiều trong các câu hoặc đoạn văn có xuất hiện từ database. Như vậy khả năng tài liệu đề cập đến cơ sở dữ liệu sql server là rất lớn. TextAnalyst cố gắng phân tích và ghi lại các thông tin liên kết này. Từ kết quả phân tích thống kê, TextAnalyst đưa ra những câu văn được xem như quan trọng nhất trong cả văn bản. Nhờ TextAnalyst, chúng ta có thể tiết kiệm đáng kể thời gian trong khi chọn ra các văn bản chứa các thông tin cần thiết. Thay vì các phương pháp phân loại cổ điển là đọc hết văn bản để đánh giá nội dung của văn bản đó thì nay ta chỉ việc đọc các thông in quan trọng được trích ra từ văn bản thông qua TextAnalyst. Ví dụ, khi em thử dùng TextAnalyst để phân tích một tài liệu (chứa trong file “KDT1.txt”) về TextMining, công cụ này đã đưa ra kết quả như hình 8. Trên cây phân cấp có thể nhìn thấy các thuật ngữ được tách ra từ tài liêu. Từ khoá có mức ưu tiên cao nhất (xác suất xuất hiện lớn nhất) là “discovery”. Liên hệ mật thiết với “discovery” lần lượt (theo thứ tự ưu tiên) là “knowledge discovery”, “database”, “KDD”, “Text”, “Exploration”, “Collection”, và “Keywork”. Trên cửa sổ Summarization xuất hiện đoạn văn bản “We show how this keyword-frequency approach supports a range of KDD operations, providing a suitable foundation for knowledge discovery and exploration for collections of unstructured text.” Đây là đoạn tổng kết qua phân tích của công cụ. Nó là đoạn văn bản được hệ thống cho là quan trọng nhất trong toàn bộ tài liệu. Hình 8: Minh hoạ công cụ TextAnalyst Tương tự như TextAnalyst, WebAnalyst cũng được dùng để phân tích nội dung của văn bản tiếng Anh. Nhưng điểm khác biệt là công cụ này được gắn ngay vào Internet Explorer của Microsoft chạy trên hệ điều hành Windows. Khi ta vào bất cứ một trang web nào thì công cụ này tự động chạy ở chế độ nền và phân tích toàn bộ trang web đó và tóm lượng các thông tin được xem là quan trọng nhất. Ví dụ, khi em cài đặt bộ “TextAnalyst for IE”, kích hoạt phần công cụ TextAnalyst đươc gắn vào trình duyệt IE của Microsoft, rồi vào thử trang web tại địa chỉ Đây là tài liệu có nội dung về “Text categorization”. Khi đó, trên cửa sổ summarization của TextAnalyst có một đoạn văn bản “Text categorization with support vector machines: learning with many relevant feature”. Đây là nội dung chính bao quát toàn bộ tài liệu này. Sau khi dùng thử hai công cụ trên, em có chung một nhận xét là chúng làm việc khá tốt. Cả hai đều giải quyết một bài toán chung là “Text Summarization”. Hình 9: Minh hoạ công cụ TextAnalyst nhúng trên Internet Explorer III. Các giải pháp áp dụng cho Vietnamese Text Mining 1. Đặc trưng của văn bản tiếng Việt Tiếng Việt là một ngôn ngữ đơn lập [3], đặc điểm này bao quát toàn bộ đặc trưng tiếng Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp. Do đó, chúng ta phải tiến hành nghiên cứu đặc điểm này của tiếng Việt để có thể có được những hướng nghiên cứu cụ thể về văn bản tiếng Việt. a. Các đơn vị của tiếng Việt a.1. Tiếng và đặc điểm của tiếng Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy tiếng là một thành phần khá quan trọng. Trong kí pháp, mỗi tiếng đứng độc lập, và ta có thể phát hiện được ngay các tiếng trong cả tiếng nói cũng như trong văn bản [3]. a.1.1. Tiếng và giá trị ngữ âm Ngữ âm chính là mặt âm của ngôn ngữ. Tại sao ta lại phải nghiên cứu khía cạnh này của ngôn ngữ tiếng Việt. Đó là vì trên thực tế, các ứng dụng liên quan đến tiếng Việt như dịch thuật, lưu trữ người ta vẫn ghi lại âm thành dạng văn bản, sau đó mới tiến hành các thao tác xử lý. Mỗi tiếng chính là một âm tiết và được ghi lại thành một cụm trong văn bản. a.1.2. Tiếng và giá trị ngữ nghĩa Nếu xét về mặt ngữ nghĩa thì tiếng là đơn vị nhỏ nhất có thể có nghĩa [3]. Thực ra ta có thể thấy rằng đơn vị ngữ âm thấp nhất là âm vị thì hoàn toàn không có nghĩa (ví dụ như các chữ cái đứng riêng rẽ). Tuy nhiên cũng có những tiếng có nghĩa (ví dụ như ạ, ứ). Theo [3], ta có thể phân biệt các tiếng như sau: Các tiếng tự nó có nghĩa (ví dụ như chuông, kính, bút) có thể được dùng để gọi tên sự vật, hiện tượng, có thể được dùng như một từ. Các tiếng có nghĩa nhưng không dùng để gọi tên sự vật, hiện tượng (ví dụ như thuỷ, thực) mà chỉ được dùng với tư cách là bộ phận để cấu thành nên từ có nghĩa ở bậc cao hơn. Ta không thể nói tôi thực mà chỉ có thể nói tôi ăn, nhưng có những từ như thực phẩm. Các tiếng bản thân không hề có nghĩa mà chỉ dùng để kết hợp tạo thành nghĩa cho đơn vị trực tiếp cao hơn, đó là từ. Ví dụ như các tiếng lãng, đãng tự nó không có nghĩa nhưng có thể tạo thành từ có nghĩa là lãng đãng. a.1.3. Tiếng và giá trị ngữ pháp Khía cạnh ngữ pháp bao gồm những quy tắc cấu tạo từ, cấu tạo câu. Và ta có thể thấy rằng tiếng là đơn vị ngữ pháp dùng để cấu tạo từ [3]. Về việc dùng tiếng để cấu tạo từ, ta có hai trường hợp như sau: Từ một tiếng: đây là trường hợp một tiếng dùng để làm một từ, ví dụ như cây, đá. Các tiếng (đóng vai trò là từ) là một bộ phận cấu thành nên câu. Từ nhiều tiếng: là một khối hai hay nhiều hơn các tiếng kết hợp với nhau, gắn bó tương đối chặt chẽ. Việc nghiên cứu cấu trúc từ (nhiều tiếng hay một tiếng) đóng vai trò rất quan trọng trong quá trình nghiên cứu và cài đặt ứng dụng phân tích cú pháp tiếng Việt. a.2. Từ và các đặc điểm của từ Từ và tiếng là hai đơn vị khác nhau nhưng đều rất quan trọng trong ngữ pháp tiếng Việt. Do đó ta phải đi xét các đặc điểm của từ. a.2.1. Từ là đơn vị nhỏ nhất để đặt câu Như trên vừa trình bày, ta thấy từ có thể gồm có một tiếng nhưng cũng có thể gồm hai hay nhiều tiếng, tuy nhiên từ là đơn vị nhỏ nhất để đặt câu [3]. Ví dụ: Công ty này rất lớn. Người này rất giỏi Có một lưu ý là để đặt câu, tức là để viết, để nói, để suy nghĩ thì chúng ta dùng từ chứ không phải là dùng tiếng. Ta có thể thấy lưu ý này rất quan trọng, vì trong thực thế thành phần riêng rẽ có thể phát hiện trong một câu (ở dạng nói hay viết) là một tiếng nhưng để có thể hiểu ý nghĩa của câu ta phải dùng từ. Do đó bất kì một nghiên cứu về tiếng Việt trên máy tính nào cũng phải quan tâm đến việc ghép các tiếng thành từ. a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định Ta có thể nhận ra điều này ở các từ tiếng Việt một tiếng, còn đối với những từ nhiều tiếng thì đó là những đặc điểm xác định lẫn nhau. Cấu tạo ổn định dẫn đến nghĩa hoàn chỉnh và ngược lại. Ví dụ như từ hai tiếng cây cối có cấu tạo ổn định và nghĩa hoàn chỉnh, nhưng cụm không phải là từ như cây và cối không có cấu tạo ổn định và nghĩa hoàn chỉnh. Đối với những từ nhiều tiếng, tính hoàn chỉnh về nghĩa và ổn định về cấu tạo được hình thành theo mối quan hệ giữa các tiếng cấu thành nên từ. Đó là mối quan hệ phối hợp, có thể theo ngữ âm (các từ láy âm), hoặc về nghĩa (ví dụ như nghĩa của hai từ xe và đạp trong từ xe đạp). a.3. Câu và các đặc điểm của câu Trong nghữ pháp tiếng Việt, từ và câu là những đơn vị ngữ pháp rất quan trọng. Đối với con người, từ được coi như sẵn có trong kho từ vựng được tích luỹ trong quá trình sống. Còn để có thể hiểu, giao tiếp thì con người phải dùng đến câu. Trong ngôn ngữ, câu là đơn vị ở bậc cao hơn cả. Nói gì, viết gì cũng phải thành câu. a.3.1. Câu có ý nghĩa hoàn chỉnh Tính hoàn chỉnh về nghĩa của câu là tính hoàn chỉnh của cả một quá trình tư duy, quá trình thông báo diễn ra trong một hoàn cảnh nhất định [3]. Trong một câu bao giờ cũng có hai thành phần, một thành phần nêu sự vật hiện tượng và một thành phần giải thích của sự vật hiện tượng đó. a.3.2. Câu có cấu tạo đa dạng. Câu có dạng đơn giản như là câu đơn, và còn có những cấu trúc phức tạp hơn gọi là câu ghép. Xét về mặt ngữ nghĩa, câu đơn có nhiều dạng khác nhau, biểu lộ những ý nghĩa, trạng thái, nội dung cần thông báo khác nhau. Tính chất đa dạng không trái ngược với tính chất chặt chẽ của câu về mặt ngữ pháp. Nói chung, cấu tạo ngữ pháp có thay đổi thì nghĩa cũng có thay đổi và ngược lại [3]. b. Các phương tiện ngữ pháp của tiếng việt. b.1. Trong phạm vi cấu tạo từ. Trong phạm vi cấu tạo từ, phương tiện chủ yếu về ngữ pháp chính là sự kết hợp các tiếng. Trật tự sắp xếp các tiếng có vai trò quan trọng trong cấu tạo từ. Kết hợp hai phương tiện này, có hai phương thức cấu tạo từ chủ yếu là láy và ghép. Láy là việc sắp đặt các tiếng thành đôi, kề cận nhau, có sự phối hợp về ngữ âm tạo nên nghĩa. Ghép là việc sắp đặt các tiếng thành đội, kề cận nhau, có sự phối hợp về ngữ nghĩa tạo nên nghĩa của từ ghép. b.2. Trong phạm vi cấu tạo câu. Tức là trong phạm vi cú pháp, ta có các phương tiện trật tự, hư từ và ngữ điệu. Trật tự sắp đặt các từ là phương tiện chính để biểu thị quan hệ ngữ pháp – tức là quan hệ cú pháp – giữa các từ trong một câu [3]. Trong tiếng Việt, trật tự các yếu tố cấu thành được quy định bằng một vị trí nhất định. Khi vị trí thay đổi thì nghĩa cũng thay đổi theo. Ví dụ ta có các hoán vị các tiếng của một tổ hợp như sau: Sai đâu sửa đấy. Sửa đâu sai đấy. Sửa đấy sai đâu. Đâu sai sửa đấy. Đấy sai sửa đâu. Trật tự theo hướng thuận biểu hiện ở chỗ yếu tố chính trước, yêu tố phụ sau, yếu tố được xác định trước, yếu tố xác định sau, yếu tố dùng để khai triển đứng liền sau từ, nếu có cách ly cũng đứng không quá xa. Hư từ là những từ dùng để biểu thị một số những quan hệ cú pháp nhất định. Ví dụ trong câu Anh, chị đã đi chơi rồi, có thể dùng từ và để nối hai từ anh, chị để làm rõ hơn mối quan hệ liên hợp, bình đẳng giữa hai từ. Như thế từ và là một hư từ. Tuy nhiên ta có thể thấy rằng hư từ có những sắc thái về nghĩa [3], ví dụ như ta thấy Anh với chị khác với Anh và chị. Điều đó đặt ra một khó khăn khi tiến hành nghiên cứu tiếng Việt trên máy tính, đó là việc xác định ngữ nghĩa của một câu, vì trong văn bản tiến Việt thì cách viết hay biểu thị trên khá phổ biến. Tất nhiên, ngữ điệu đóng vai trò vô cùng quan trọng trong tiếng Việt, tuy nhiên trong phạm vi nghiên cứu về văn bản tiếng Việt, ngữ điệu sẽ không được đi sâu nghiên cứu. c. Từ tiếng việt c.1. Từ đơn - từ ghép Như đã trình bày ở trên, từ trong tiếng Việt có thể có một tiếng hay gồm nhiều tiếng. Hơn nữa, trong tiếng Việt, những từ nhiều tiếng lại có thể được ghép bởi những tiếng hay từ khác có nghĩa. Ví dụ hai từ một tiếng đất, nước có thể được ghép với nhau thành một từ có ý nghĩa trừu tượng hơn là đất nước. Những từ này được gọi là các từ ghép. Do sự tồn tại của những từ đơn (là những từ một tiếng) và từ ghép, chúng ta phải tiến hành nghiên cứu để có thể đề xuất những phương án hữu hiệu trong bài toán nhận dạng từ trong câu. Khi xem xét từ ghép, chúng ta có thể thấy có hai loại như sau: Từ ghép song song: mỗi tiếng thường là một tiếng có nghĩa, có thể dùng làm từ một tiếng, gắn bó với nhau theo quan hệ song song và nói chung có thể đổi chỗ cho nhau. Trong sự phối hợp về ngữ nghĩa thì thường có sự biến đổi nghĩa riêng thành một nghĩa hình tượng, như ví dụ của từ đất nước đã nêu trên, hoặc trong các từ quần áo, giày dép.... Từ ghép chính phụ: mỗi tiếng có thể là một tiếng có nghĩa, nhưng thông thường có một tiếng chính có thể được dùng làm từ còn tiếng kia không có chức năng ngữ pháp đó, ví dụ như nhà thương, bánh mì. Ta cũng có thể thấy trong tiếng Việt tồn tại một số các từ ghép có nhiều tiếng hơn, phát triển từ loại từ ghép chính phụ, qua đó có thể chia thành các phần chính, phần phụ, thuận tiện hơn trong việc phân tích từ. Chính sự tồn tại của từ ghép (ghép bởi các tiếng có nghĩa) mà có sự nhập nhằng về nghĩa của một câu. Ta có thể lấy ví dụ sau: Chiếc xe đạp nặng Ở đây, hai tiếng xe và đạp đều là các tiếng có nghĩa, do đó câu trên có thể hiểu theo hai cách như sau: Chiếc xe đạp / nặng Chiếc xe / đạp / nặng Giải quyết được vấn đề này rất phức tạp, tuy nhiên chắc chắn muốn phân tích câu hoặc xử lý văn bản tiếng Việt thì bài toán đầu tiên được đặt ra là làm thế nào để tách các từ trong câu. c.2. Từ loại Có thể phân loại các từ theo cách thức cấu tạo như đã xét ở phần trên, cũng có thể phân loại theo các chữ cái đầu như khi ta làm từ điển. Tuy nhiên có một cách phân loại đặc biệt quan trọng về mặt cấu tạo câu, đó là xác định từ loại cho mỗi từ tiếng Việt. Theo [3], tiếng Việt có thể có những từ loại sau: Danh từ Động từ Tính từ Phó từ (sẽ, đã, rồi, rất) Liên từ (của, thì) Đại từ (tôi, nó, anh, em, hắn) Trợ từ (nhỉ, hả, nhé) Cảm từ (ái chà, chao ôi, vâng, dạ) Số từ (một, hai) Loại từ (con, cái) Giới từ (cùng, với, bằng, để) Trạng từ (hôm qua) Tất nhiên việc phân loại trên chỉ có ý nghĩa tương đối, vì trong nhiều tài liệu khác nhau vẫn có những sự khác nhau về các phân chia từ theo từ loại. Nếu xem xét một cách kỹ lưỡng hơn nữa về mặt cú pháp, trong mỗi loại từ lại còn có thể chia nhỏ hơn được nữa, ví dụ rất là phó từ đứng trước vì trong một câu nó chỉ đứng trước các tính từ đề nhấn mạnh hiệu quả biểu đạt của tính từ. c.3. Dùng từ cấu tạo ngữ Ngữ là đơn vị ngữ pháp bậc trung gian giữa từ và câu [3]. Việc tìm hiểu cấu tạo cũng như các loại ngữ là cần thiết để tì m hiểu cấu tạo của câu. Qua cấu tạo của ngữ, có thể nhận rõ thêm đặc điểm ngữ pháp của từ loại và các tiểu loại. Theo [3], ta có một số nhận xét như sau: Ngữ là một cấu tạo theo quan hệ cú pháp chính phụ. Kết từ cũng được dùng để biểu hiện quan hệ chính phụ giữa chính tố với một số loại phụ tố sau. Ví dụ "báo của tôi". Khi phụ tố sau do thực từ đảm nhiệm thì nói chung phụ tố ấy có thể là một ngữ. Ví dụ "một người / học sinh / rất thông minh". Ta có thể xét một số ngữ loại như sau [3]: Danh ngữ: Ngữ có danh từ làm trung tâm Động ngữ: Ngữ có động từ làm trung tâm Tính ngữ: Ngữ có tính từ làm trung tâm Giới ngữ: Ngữ bắt đầu bằng giới từ. Cũng như đã phân tích trong phần từ loại, để có thể xây dựng được một hệ thống luật cú pháp tốt, ta cần phải phân chia các ngữ loại một cách chặt ché hơn, ví dụ: ta có danh ngữ "cái cầu", nếu thêm một số từ nữa, ví dụ là một thì danh ngữ mới "một cái cầu" phải là một danh ngữ kết thúc trái vì rõ ràng ta không thể mở rộng về phái trái danh ngữ này nữa. Toàn bộ các từ loại và ngữ loại chi tiết sẽ được nêu trong phần xây dựng luật cú pháp. d. Câu tiếng việt Câu là đơn vị dùng từ, hay đúng hơn là dùng ngữ mà cấu tạo nên trong quá trình tư duy, thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp và có tính chất độc lập [3]. Xét về cấu trúc câu, tiếng Việt có hai loại câu là câu đơn và câu ghép. d.1. Câu đơn Câu đơn là loại câu cơ sở của tiếng Việt, bao gồm một nòng cốt đơn hay một kết cấu chủ vị. Về mặt ngữ nghĩa, câu đơn mang nghĩa tự thân, còn câu ghép mang nghĩa kết hợp. Câu đơn có thể là câu khẳng định, câu phủ định, câu nghi vấn, câu tường thuật, câu cầu khiến, câu biểu cảm. Ví dụ: Cái xe này tốt. Tôi chưa làm xong việc này. Anh đi làm chưa? Nó đang đi đến trường. Con đi ngủ đi! Con mèo mới đẹp làm sao! Nòng cốt đơn của một câu đơn là một kết cấu chủ vị. Ngoài ra, câu đơn còn có các thành phần ngoài nòng cốt [3]: Thành phần than gọi. Ví dụ "bạn ơi, chúng ta đi nào". Thành phần chuyển tiếp. Ví dụ "Anh Trường, trái lại, không làm gì cả". Thành phần chú thích. Ví dụ "Nó, em tôi, rất thông minh". Thành phần tình huống. Ví dụ " Trong máy tính, dữ liệu ở dạng nhị phân". Thành phần khởi ý. Ví dụ " Thuốc, anh ấy không hút". Để biểu diễn một câu đơn, người ta thường dùng mô hình suy diễn câu đơn như sau: Px - Cx - Vx - Bx. Với P: thành phần phụ C: chủ ngữ V: vị ngữ B: Bổ ngữ, định ngữ. x: thành phần có thể khai triển tiếp. Cách biểu diễn này rõ ràng rất thuận tiện trong việc xây dựng bộ luật cú pháp và tiến hành phân tích cú pháp cho một câu đầu vào. d.2. Câu ghép Về mặt ngữ pháp, câu ghép bao gồm bộ phận chủ yếu là một nòng cốt ghép, được tạo nên bởi ít nhất hai vế và mỗi vế thường bao gồm một nòng cốt đơn. Ví dụ: Mây tan, mưa tạnh. Tuy rằng câu đơn chỉ có một nòng cốt đơn nhưng không phải bao giờ câu đơn cũng ngắn hơn câu ghép, có những câu rất đơn giản như câu trên cũng là một câu ghép. Người ta có thể chia câu ghép thành hai loại: câu ghép song song và câu ghép qua lại [3]. d.2.1. Câu ghép song song Là loại câu ghép có thể có hai vế hay nhiều hơn, tuy nhiên sự liên kết giữa các vế là lỏng lẻo, có thể tách thành các câu đơn mà vẫn bảo toàn nghĩa. Trong một số trường hợp các vế có quan hệ, sử dụng các kết từ, tuy nhiên ý nghĩa độc lập của các vế vẫn tương đối rõ ràng. Ví dụ: Khán giả hò reo, cờ phất rực trời, cuộc đấu diễn ra quyết liệt. Nó vẫy tôi và tôi tiến lại phía nó. d.2.2. Câu ghép qua lại Là loại câu có hai vế và vế này là điều kiện tồn tại của vế kia. Có cả hai vế thì câu mới có ý nghĩa trọn vẹn. Nối giữa hai vế là các liên từ, thông thường người ta dùng cả cặp liên từ. Ta có thể biểu diễn câu ghép là câu có dạng như sau: xN1 + yN2 Một trong các liên từ có thể được loại bỏ. Ta có một số ví dụ như sau: (Bởi) vì N1 (cho) nên/ mà N2. Để N1 (cho) nên/ mà N2. Nếu N1 thì N2. Không những N1 mà còn N2 ... Tôi đi thì nó chết Vì phở ngon nên cửa hành của nó mới đông khách thế. Ặ d.2.3. Các thành phần câu. Chủ ngữ: Thành phần chủ yếu của câu. Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho thành phần chủ ngữ. Trạng ngữ: Thành phần thứ yếu, bổ sung ý nghĩa cho câu, chỉ nơi chốn, thời gian, không gian Bổ ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho động từ làm vị ngữ. Định ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho vị ngữ. e. Các đặc điểm chính tả và văn bản tiếng Việt Hiện nay, chính tả tiếng Việt chưa thống nhất, tuy đã có những quy tắc chuẩn mực nhất định. Việc nghiên cứu các đặc điểm chính tả tiếng Việt có ý nghĩa đặc biệt quan trọng trong khâu tiền xử lý dữ liệu, tạo nguồn dữ liệu đầu vào cho những pha sau như phân tích cú pháp hay đánh trọng số cho các từ (terms), lập chỉ mục. Một số vấn đề về chính tả tiếng Việt mà ta cần quan tâm như sau: Các chữ đồng âm: Các chữ đồng âm như “Mĩ”/ “Mỹ”, “kĩ”/ “kỹ”... thường bị sử dụng lẫn nhau. Từ địa phương: Trong văn bản người ta vẫn thường sử dụng một số từ địa phương thay cho các từ phổ thông. Ví dụ “cây kiểng” thay cho “cây cảnh”. Vị trí dấu: Theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm có ưu tiên cao nhất. Tuy nhiên khi viết văn bản, do mỗi người sử dụng các bộ gõ tiếng Việt khác nhau nên nhiều khi dấu được đặt không theo chuẩn. Ví dụ hai chữ: “hỏa” hay “hoả”. Cách viết hoa: Theo quy định, đầu câu và đầu tên riêng phải viết hoa. Tuy nhiên vẫn tồn tại một số cách viết như sau: “Tổng công ty Dệt may Việt nam”. Phiên âm tiếng nước ngoài: Các cách viết sau vẫn được chấp nhận mà không có quy chuẩn trong văn bản tiếng Việt: “Singapore”/ “Xinh-ga-po”... Từ gạch nối: Do cách viết dấu gạch nối tuỳ tiện nên không thể phân biệt giữa nối tên riêng hay chú thích. Những vấn đề vừa nêu trên thực sự gây ra nhiễu trong dữ liệu đầu vào, đòi hỏi phải có một hệ thống tiền xử lý tốt, đảm bảo cho việc phân tích cú pháp được thực hiện có hiệu quả. 2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt Có rất nhiều bài toán phân loại văn bản. Tuy nhiên, ở đây em chỉ xin nhắc tới hai bài toán đại diện, và cũng là hai bài toán đang được quan tâm nhiều nhất. Đó là bài toán phân loại văn bản tiếng Việt và thu thập thông tin từ văn bản tiếng Việt. a. Bài toán phân loại văn bản tiếng Việt Cần xây dựng một hệ thống có thể phân loại được tài liệu tiếng Việt. Hay nói khác đi, khi đưa ra một tài liệu tiếng Việt, hệ thống cần chỉ ra rằng đó là loại văn bản thuộc chủ đề nào (văn hoá, kinh tế, chính trị, thể thao,...). Ở trên chúng ta đã trình bày hai phương pháp phân loại khác nhau, đó là phương pháp sử dụng từ điển phân cấp chủ đề và phương pháp cây quyết định. Đối với giải thuật sử dụng từ điển phân cấp chủ đề, có thể hiểu đây là một phương pháp chuẩn. Quá trình thực hiện khá dễ dàng và mọi kết quả đã được lường trước. Tuy nhiên, đây là một phương pháp thu được hiệu quả không cao. Lý do là phương pháp này không đề cập đến vấn đề ngữ nghĩa của văn bản. Ở phương pháp thứ hai, chúng ta đã gắn bài toán vào một dạng trí tuệ nhân tạo. So với phương pháp trước thì phương pháp này cho kết quả tốt hơn do tính mềm dẻo, tính tự học của giải thuật. Tuy nhiên, kết quả đạt được vẫn còn rất khiêm tốn. Do một số đặc trưng, như đã nêu ở trên, của văn bản tiếng Việt, việc phân tích văn bản sẽ rất phức tạp. Việc áp dụng hai phương pháp đã nêu ở trên chỉ thu được các kết quả tương đối hạn chế. Để giải giải quyết bài toán phân loại văn bản tiếng Việt một cách triệt để phương pháp phân tích cú pháp được ưu tiên lên hàng đầu. Trong đề tài này của em chưa đề cập được đến phương pháp này. Nó thuộc vào các phương pháp xử lý ngôn ngữ tự nhiên. Do thời gian có hạn hướng tiếp cận ban đầu không đúng, nên em vẫn để ngỏ phương pháp này. Tuy nhiên, hướng mục tiêu của em trong kì làm luận văn tốt nghiệp tới sẽ tập trung giải chuyết bài toán này. Đó là: “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.” b. Bài toán thu thập thông tin từ văn bản tiếng Việt Ở trên chúng ta đã chình bày ba phương pháp cho bài toán thu thập thông tin. Đó là các phương pháp: mô hình Boolean, mô hình không gian vec-tơ, và mạng nơ-ron. Đối với mô hình Boolean, đây là phương pháp truy vấn thông tin dựa theo các biểu thức logic. ưu điểm lớn nhất của phương pháp này là tính đơn giản, dễ cài đặt và tốc độ nhanh. Tuy nhiên, hạn trế lớn nhất của nó không gian lưu trữ và giá thành cho việc thêm bớt văn bản từ kho lưu trữ tài liệu. Phương pháp thứ hai đã cài tiến được một số hạn trế của phương pháp thức nhất. Tuy nhiên, nhược điểm lớn nhất của phương pháp này là tốc độ. Tuy nhiên, đây vẫn là một phương án có tính khả thi cao. Phương pháp này nên được áp dụng cho thu thập thông tin tiếng Việt. Phương pháp thứ ba dựa trên giải thuật trí tuệ nhân tạo. ưu điểm của phương pháp này là khả năng huấn luyện được của hệ thống. Khi các mẫu huấn luyện và phương pháp huấn luyện tốt, hệ thống sẽ cho ra các kết quả rất tốt. Nhưng nhược điểm của phương pháp này là giải thuật phức tạp, khó cài đặt. IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 1. Chương trình và bài toán được giải quyết Để phục vụ cho bài toán phân tích văn bản tiếng Việt, em đã xây dựng thử nghiệm một chương trình Tách thuật ngữ tiếng Việt. Chương trình được viết bằng ngôn ngữ java. Bài toán đặt ra được mô tả như sau: Xây dựng một công cụ tách các thuật ngữ trong một văn bản tiếng Việt theo một từ điển thuật ngữ có sẵn Đầu vào của bài toán là một tệp tin chứa một tài liệu tiếng Việt được định dạng Text dưới dạng phông .VN (ví dụ phông .VnTime), một tệp tin chứa thông tin về các thuật ngữ cũng được đinh dạng Text dưới dạng phông .VN. Đầu ra của bài toán là một tệp tin định dạng Text bởi phông .VN, trong đó chưa các thông tin về các thuật ngữ tìm được theo khuân dạng: “Tên thuật ngữ ” (số từ tìm được). Chương trình được xây dựng bằng ngôn ngữ java và được đặt với tên “tachthuatngu”. 2. Kết quả chạy chương trình Khi chạy chương trình với tệp tin “Test.txt” (tệp tin mẫu có sẵn) với nội dung là một báo cáo nghiên cứu về lý thuyết tập thô, kết quả hiện ra với nội dung như sau: Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien) "th«ng tin" (40) "hµm" (34) "khai th¸c" (33) "truy vÊn" (26) "thùc hiÖn" (22) "d÷ liÖu" (22) "tËp th«" (14) "hÖ thèng" (10) "xö lý" (10) "kh«ng gian dung sai" (8) "ph©n nhãm" (5) "tõ kho¸" (5) "l­u tr÷" (5) "nghiªn cøu" (4) "ng÷ nghÜa" (3) "khai ph¸ d÷ liÖu" (3) "kh¸i niÖm" (2) "chØ tiªu" (2) Sau hai dòng mở đầu, trên mỗi dòng sau đó ghi “tên thuật ngữ tìm được” (số lần xuất hiện trong tài liệu). Ví dụ: với từ “tập thô” ta thấy xuất hiện 14 lần trong tài liệu. TÀI LIỆU THAM KHẢO [1] “Text Categorization Using a Hierarchical Topic Dictionary” - Alexander Gelbukh, Grigori Sidorov, Adolfo Guzmán-Arenas [2] “Machine Learning in Automated Text Categorization” - Fabrizio Sebastiani [3] “Ngữ pháp tiếng Việt” – Trung tâm Khoa học xã hội và Nhân văn quốc gia – Nhà xuất bản Khoa học và xã hội – Hà nội 2000 [4] “Information retrieval: standard and AI - based methods” - Ilya Baraev PHỤ LỤC Các thông tin về báo cáo Trên đĩa mềm gồm có: Báo cáo (2 bản softcopy) nằm trong các tệp tin “A:\Docs\BaocaoTTTN.doc”, và “A:\Docs\BaocaoTTTN.pdf” Bản bảo vệ bằng Microsoft PowerPoint “A:\Docs\Baove.ppt” Chương trình demo chứa trong thư mục “A:\Project” bao gồm mã nguồn viết bằng java chứa trong thư mục “A:\Project\src” và mã dịch chứa trong thư mục “A:\Project\tachthuatngu”. Cách chạy chương trình demo Yêu cầu: Trên máy tính chưa bộ dịch java. Đặt đường dẫn đến thư mục chứa tệp tin “java.exe” trong PATH. Sao thư mục “A:\Project” vào một nơi khác trên đĩa cứng Cách chạy: Vào chế độ Command Prompt Chuyển đến thư mục “Project” đã sao trên đĩa cứng Ghõ vào dòng lệnh: “java tachthuatngu.Main ten_file_tai_lieu” Sau khi chương trình kết thúc, kết quả đã được ghi ra tệp tin như chương trình thông bao. Bạn có thể mở tệp tin này (nên mở bằng Notepad) để xem kết quả Chú ý: Tệp tin đầu vào phải có dạng text, chứa các văn bản đặt ở phông .VN. TỪ ĐIỂN THUẬT NGỮ Data Mining Khai phá văn bản dữ liệu Text Mining Khai phá dữ liệu văn bản Text Categorization Phân loại văn bản Text Clustering Lập nhóm văn bản Information Retrieval (IR) Thu thập thông tin Neural Network Mạng Nơ-ron Decision tree Cây quyết định AI-based method Phương pháp dựa trí tuệ nhân tạo similarity Độ tương đồng Vector space model (VSM) Mô hình không gian vec-tơ Text summarization Tổng hợp văn bản Term Thuật ngữ

Các file đính kèm theo tài liệu này:

  • doc40338.DOC
Tài liệu liên quan