Đề tài Phân loại các văn bản tiếng Việt bằng phương pháp phân tích cú pháp

Cần xây dựng một hệ thống có thể phân loại được tài liệu tiếng Việt. Hay nói khác đi, khi đưa ra một tài liệu tiếng Việt, hệ thống cần chỉ ra rằng đó là loại văn bản thuộc chủ đề nào (văn hoá, kinh tế, chính trị, thể thao,.). Ở trên chúng ta đã trình bày hai phương pháp phân loại khác nhau, đó là phương pháp sử dụng từ điển phân cấp chủ đề và phương pháp cây quyết định. Đối với giải thuật sử dụng từ điển phân cấp chủ đề, có thể hiểu đây là một phương pháp chuẩn. Quá trình thực hiện khá dễ dàng và mọi kết quả đã được lường trước. Tuy nhiên, đây là một phương pháp thu được hiệu quả không cao. Lý do là phương pháp này không đề cập đến vấn đề ngữ nghĩa của văn bản. Ở phương pháp thứ hai, chúng ta đã gắn bài toán vào một dạng trí tuệ nhân tạo. So với phương pháp trước thì phương pháp này cho kết quả tốt hơn do tính mềm dẻo, tính tự học của giải thuật. Tuy nhiên, kết quả đạt được vẫn còn rất khiêm tốn.

57 trang | Chia sẻ: Kuang2 | Lượt xem: 1318 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Đề tài Phân loại các văn bản tiếng Việt bằng phương pháp phân tích cú pháp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

với xử lý đầu vào và đầu ra bao gồm vòng lặp tính toán lại yêu cầu. Thao tác này chuyển đổi truy vấn theo một chiến lược có sẵn nhằm tăng tính phù hợp của tài liệu đã nhận được. Việc thu thập thông tin có thể được định nghĩa cho bất cứ một loại thông tin nào ví dụ như kiểu văn bản, hình ảnh, âm thanh... Tuy nhiên, ở đây chúng ta chỉ đề cập đến việc thu thập văn bản bởi văn bản là một loại thông tin mà phương thức thực hiện và kỹ thuật xử lý đơn giản hơn. Có thể nhấn mạnh rằng các kỹ thuật này cũng có thể được áp dụng cho thu thập thông tin đa phương tiện. Các kỹ thuật thu thập thông tin có thể được chia ra thành hai loại: Các kỹ thuật chuẩn Các kỹ thuật có áp dụng trí tuệ nhân tạo. Nhóm đầu tiên bao gồm các kỹ thuật dựa trên các phương thức thuật toán và toán học truyền thống. Nhóm thứ hai cố gắng thu thập tri thức bằng các kỹ thuật áp dụng trí tuệ nhân tạo để giành được các kết quả tốt hơn. b. Các phương pháp thu thập thông tin Ngày nay, các thông tin đang được phát triển mạnh mẽ về số lượng và chủ yếu là từ Internet. Internet đã trở thành nơi lưu trữ, quản lý và đặc biệt là nơi thu nhận thông tin nhanh chóng và tiện lợi. Lợi ích trung tâm là các thông tin thu nhận được phù hợp với nhu cầu người dùng. Đó là lý do của các nghiên cứu chuyên sâu trong các lĩnh vực như khai phá dữ liệu (DataMining), trích xuất thông tin (Information Extraction), thu thập thông tin (Information Retrieval). Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt. Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn. Các phương pháp này thường dựa theo các phương pháp toán học cổ điển. Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo. Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin. b.1. Các phương pháp chuẩn Phần lớn các kỹ thuật chuẩn được phát triển từ những năm 1960 đến những năm 1970, và phần lớn trong số chúng dựa trên các thuật toán và công thức toán học truyền thống. Trong bài nghiên cứu này chỉ đề cập đến các mô hình mô hình Boolean (Boolean model), mô hình không gian vec-tơ (vector space model). b.1.1. Mô hình Boolean Boolean là mô hình nghiên cứu chiến lượng, đơn giản nhất, và được thể hiện để đưa ra ý tưởng cơ bản cho các chiến lượng xa hơn [4]. Hầu hết đồng ý rằng tất cả các chiến lược nghiên cứu dựa trên việc so sánh giữa câu truy vấn và các tài liệu được lưu trữ. Mô hình Boolean nghiên cứu chiến lược thu thập các tài liệu được gán giá trị “true” ứng với truy vấn đó. Giả sử tài liệu dj được biểu diễn thành tập các thuật ngữ , ở đó ti là một thuật ngữ xuất hiện trong tài liệu dj. Một truy vấn được biểu diễn bằng một biểu thức logic của các thuật ngữ bao gồm các toán tử AND, OR, và NOT. Ví dụ với truy vấn: Q=(K1 AND (NOT K2)) OR K3 Ở đây phép tìm kiếm Boolean sẽ nhận được tất cả các tài liệu có liên kết với K1 nhưng không liên kết với K2 hoặc các tài liệu có liên kết với K3. Cụ thể hơn, với một câu truy vấn: Q=(“TextMining” AND ((“Information Retrieval”) AND (NOT “Categorization”)) Hệ thống sẽ cố gắng tìm ra tất cả các tài liệu thuộc chủ đề “TextMining”, mà cụ thể hơn là các phương pháp thu thập thông tin chứ không phải là các phương pháp phân lớp văn bản. b.1.1.1. Các hàm so sánh Liên kết giữa truy vấn và tài liệu có thể được hiểu theo nghĩa một hàm so sánh. Các hàm này thường rất đơn giản. Một triến lược được sử dụng gọi là chiến lược đơn giản hoá phép so sánh. Chiến lược này được sử dụng trong bộ biến đổi của phép tìm kiếm Boolean, ở đó chỉ có các toán tử logic AND. Ý tưởng chính của chiến lược này được đưa ra khi xem xét số lượng của các thuật ngữ chung trong câu truy vấn và trong tài liệu. Số này được gọi là mức đồng sắp xếp và có thể được sử dụng như một hàm so sánh. Ví dụ, các từ khoá K1, K2, K3 được liên kết với các tài liệu D1, D2, D3, D4 theo cách sau: K1 liên kết với D1, D2, D3, D4 K2 liên kết vơi D1, D2 K3 liên kết với D2, D3 và Q = K1 AND K2 AND K3 Với truy vấn Q, chúng ta sẽ có các mức đồng sắp xếp như sau: 3 D2 2 D1, D3 1 D4 b.1.1.2. Tìm kiếm tuần tự Kỹ thuât tìm kiếm tuần tự là cơ sở của mô hình Boolean. Tuy nhiên ngày nay nó rất thường xuyên được sử dụng mặc dù nó khá chậm. Nhưng với bất cứ cách nào, nó cho thấy cách mà các hàm so sánh được sử dụng [4]. Đưa ra một tập các tài liệu và một truy vấn và một truy vấn Q, chúng ta đi tính N giá trị của hàm so sánh M(Q,Di). Để nhận được các tài liệu liên quan, chúng ta cần sắp xếp các tài liệu giảm dần của hàm so sánh và bỏ đi tất cả các tài liệu ứng với hàm so sánh nhỏ hơn một ngưỡng cắt cho trước. Ngưỡng này có thể được định nghĩa như một giá trị hàm so sánh M hoặc là một gí trị so sánh với một văn bản nào đó. Thách thức lớn nhất của kỹ thuật này là tìm được cách chọn giá trị ngưỡng cắt phù hợp. Để thực hiện mô hình tìm kiếm Boolean, chúng ta có thể sử dụng một số kỹ thuật hiệu quả. Tuy nhiên, các thuật toán đó không được đề cập trong bài nghiên cứu này. b.1.1.3. Thực hiện Mỗi một tài liệu cần được đánh chỉ mục (index) bởi một số thuật ngữ, mỗi thuật ngữ này miêu tả nội dung của tài liêu. Các thuật ngữ này thường được gọi là các thuật ngữ đã gắn chỉ mục hay các từ khoá. Để việc thu thập được thực hiện nhanh chóng, chúng ta nên sắp xếp các từ này. Các từ khoá được lưu trữ trong tệp tin chỉ mục, và với mỗi từ khoá thuộc bộ từ vựng sẽ có danh sách các tài liệu chứa từ khoá này. Để thoả mãn một truy vấn, chúng ta sẽ thực hiện tìm kiếm trên file chỉ mục này. Kỹ thuật này được sử dụng bởi nhiều hệ thống thương mại với các độ tối ưu khác nhau của tệp tin chỉ mục tìm kiếm (ví dụ B-trees). Các nhược điểm của kỹ thuật này là: Lưu trữ quá nhiều (có thể cần không gian lưu trữ lên đến 300% so với kích thước ban đầu) Giá thành cập nhật và tổ chức lại chỉ mục cao Giá thành hợp các danh sách tài liệu cao nếu chúng quá dài Tuy nhiên, chúng cũng có các ưu điểm riêng: Thực hiện dễ dàng Tốc độ nhanh Dễ dàng hỗ trợ các từ đồng nghĩa b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) Mô hình không gian vec-tơ được mở rộng từ mô hình Boolean trong việc thể hiện các thuật ngữ của tài liệu [4]. Giống như mô hình Boolean, chúng ta gán nhãn các tài liệu bởi tập các thuật ngữ. Nhưng trên thực tế, điểm khác nhau được ẩn trong việc biểu diễn tài liêu. Tài liệu D được biểu diễn bởi một vec-tơ m-chiều với các thông số ứng với mỗi chiều là trọng số ứng với từng thuật ngữ cụ thể. Trong trường hợp này, m là tổng sô thuật ngữ được đinh nghĩa để xác định nội dung của tài liệu. Trọng số được tính bởi xác suất xuất hiện và độ quan trọng của từ khoá. D=(w1, w2,..., wN) Ví dụ, khi phân tích hai tài liệu D1 và D2 là hai bài nghiên cứu, liên quan đến bệnh đâu đầu, ta có hai vec-tơ được hinh hoạ trên đồ thị 2-chiều như sau: Magê Đau đầu 1.0 1.0 D1(0.25, 0.75) D2(0.6, 0.2) Hình 3. Đồ thị biểu diễn các vec-tơ của bài báo D1 và D2 Các trọng số trên mỗi vec-tơ biểu diễn xác suất xuất hiện của các thuật ngữ trong mỗi bài báo. Tài liệu D1, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.75, 0.25. Tài liệu D2, thuật ngữ Đau đầu, Magê xuất hiện với xác suất lần lượt là 0.2, 0.6. Trong mô hình này, một truy vấn được đối xử như một tài liệu [4] (xem hình 4). Hay nói cách khác, chúng ta sẽ biểu câu truy vấn bởi một vec-tơ trọng số của các thuật ngữ. Sau khi thực hiện việc phân tích câu truy vấn ta sẽ thu được một vec-tơ. Việc thực hiện câu truy vấn này thực chất là việc so sách vec-tơ của câu truy vấn với các vec-tơ đại diện cho các tài liệu theo một tiêu chuẩn nào đó. Kết quả ta sẽ thu được một danh sách các tài liệu có quan hệ “gần” với câu truy vấn đã đưa ra. Tất nhiên, các tài liệu đó sẽ được sắp xếp theo trình tự giảm dần và sẽ bị cắt ở một ngưỡng nào đó. 1.0 1.0 Magê Đau đầu D1 D2 query Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2 Để tính vec-tơ biểu diễn một tài liệu, các từ riêng biệt trong tài liệu được tổ hợp lại. Trên thực tế, việc thực hiện được thực hiện theo cách sau: Các từ phụ được soá đi Phân biệt các từ bởi khoảng trắng Đối với Anh ngữ hoặc Pháp ngữ, mỗi từ được tách biệt bởi các khoảng trắng. Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ ghép. Đây cũng là một vấn đề khó khăn khi phân tách từ trong tiếng Việt. Ví dụ, với từ company trong tiếng Anh, ứng với nó là từ công ty trong tiếng Việt. Do vấn đề về từ ghép nên gay nhiều hiểu nhầm trong tiếng Việt. Các vấn đề đó gọi là sự mập mờ trong tiếng Việt. Ví dụ, với câu thuộc địa bàn, ta có thể có hai cách phân tách thuộc địa|bàn và thuộc|địa bàn. Như vậy, đối với tiếng Việt, chúng ta cần có các phương pháp tách từ đặc biệt hơn. b.1.2.1. Tiếp cận phương thức TF * IDF Trọng số của một thuật ngữ có thể được xác định theo nhiều cách. Cách tiếp cận chung là sử dụng phương thức tf * idf, ở đó trọng số được tổng hợp bởi hai yếu tố: Xác suất thuật ngữ (term frequency - tf) - đặc trưng cho xác suất xuất hiện thuật ngữ trong tài liệu Nghịch đảo xác suất của tài liệu (inverse document frequency - idf) - đặc trưng cho xác suất của thuật ngữ trong toàn bộ tập hợp các tài liệu. Hay nói cách khác, một thuật ngữ hiếm khi xuất hiện trong các tài liệu thì idf sẽ cao, còn nếu nó xuất hiện thường xuyên trong các tài liệu thì idf sẽ thấp. Ví dụ: công thức dưới đây được đề xuất có thể được dùng để tính các giá trị đã nói ở trên [4]: [4] ở đó fi là xác suất xuất hiện thuật ngữ xi trong tài liệu. Phân số trong idf được tính toán bằng phương pháp giải tích với khả năng xuất hiện xi trong tài liệu này. b.1.2.2. Độ tương đồng (similarity) Khi các trọng số các thuật ngữ được xác định, chúng ta cần một hàm sắp xếp để định giá độ tương đồng giữa các vec-tơ truy vấn và tài liệu. Một số phép đo độ tương đồng được thể hiện dưới đây. Ở đó Q và D lần lượt là các tập thuật ngữ trong truy vấn và trong văn bản: công thức đơn giản nhất hệ số của Dice hệ số Jaccard hệ số consin hệ số nạp chồng Một đánh giá độ tương đồng thông thường, được biết đến như đánh giá consin [4], xác định góc giữa vec-tơ tài liệu và vec-tơ truy vấn bởi phép tính toán như một kết quả nội tại. Đặc biệt, đánh giá này thường được tính với độ dài của vec-tơ. Độ tương đồng được xác định theo công thức dưới đây [4]: Giả sử cả truy vấn và tài liệu được chuẩn hoá bởi độ dài của chúng, công thức sẽ trở nên đơn giản hơn: Sau khi tất cả các tài liệu được so sánh với truy vấn, chúng sẽ được sắp xếp giảm dần theo độ tương đồng, kết quả là một danh sách đã được sắp xếp của các tài liệu. Danh sách này có thể được xử lý bằng cách sử dụng các kỹ thuật khác nhau. b.1.2.3. Thực hiện Mô hình không gian vec-tơ rất tốn công khi thực hiện, do đó trong thực tế một số phép xấp xỉ đơn giản được sử dụng. Hiển nhiên là biểu hiện của các vec-tơ chỉ tồn tại khái niệm ngữ. Trong thực tế, các vec-tơ hiếm khi được lưu trữ đầy đủ dài do tính thưa của chúng. Ví dụ, có tất cả 300 thuật ngữ, tài liệu D chỉ đề cập đến 5 thuật ngữ, như vậy không cần thiết phải lưu trữ tất cả các thông số ứng với vec-tơ tương ứng với tài liệu này. Một mô hình không gian vec-tơ đầy đủ có thể được sử dụng hợp lệ để làm giảm độ phức tạp của thuật toán [4]. Ý tưởng của mô hình là lưu trữ vec-tơ trong một tệp tin đã được chuyển đổi. Tệp tin này trả về một danh sách các tài liệu với các từ khoá đặc biệt cùng với thông tin về xác suất. Bên cạnh việc truy xuất theo chỉ mục, tệp tin chuyển đổi cũng cải thiện các đặc tính thời gian của việc so sánh các vec-tơ. Kỹ thuật này cho ra một phép tính toán chấp nhận được với những truy vấn tương đối nhỏ, còn với những truy vấn lớn, phép tính phân số chuẩn hoá sẽ cực kì tốn kém. Nhược điểm thứ hai của kỹ thuật này là cần tính toán các các phân số chuẩn sau khi có sự thay đổi của idf. Điều đó rất có thể xảy ra trong thực tế, ví dụ khi ta thêm hoặc xoá đi một tài liệu trong tổ hợp. Để ước lượng hiệu quả của phép chuẩn hoá, chúng ta sử dụng bình phương số lượng các thuật ngữ trong một tài liệu như phân số chuẩn hoá. Với các trường hợp tài liệu ngắn thì phép tính xấp xỉ không được chính xác, tuy nhiên kỹ thuật này cũng có một số ưu điểm sau: Ảnh hưởng của kích thước tài liệu trở nên không có ý nghĩa với bất cứ loại chuẩn nào. Độ phức tạp tính toán nhỏ hơn rất nhiều so với các kỹ thuật trước đây Có thể tính toán trước Như vậy, độ tương đồng có thể được thực hiện bởi công thức sau: b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) Các phương pháp trí tuệ nhân tạo thường dựa trí tuệ nhân tạo tập trung vào các giải thuật huấn luyện máy học. Hay nói rõ hơn, cần phải có một quá trình huấn luyện cho máy học phân loại văn bản trước khi sử dụng nó. Quá trình huấn luyện này rất quan trọng. Nếu các mẫu huấn luyện hợp lý, kết quả thu được sẽ có chất lượng rất tốt. Nhưng ngược lại, nếu quá trình huấn luyện không hợp lý thì có thể dẫn đến sụp đổ toàn bộ hệ thống. Các phương pháp này thường phải đối mặt với một số vấn đề sau: Giải thuật suy luận Phương pháp lưu trữ thông tin hợp lý Tránh sự sụp đổ sau một thời gian dài hoạt động Hầu hết các giải thuật dựa trí tuệ nhân tạo thường gắn cả quá trình tự học trong khi sử dụng. Yếu tố này quyết định độ thông minh của hệ thống. Nhưng sau một thời gian dài hoạt đông, có thể hệ thống sẽ lâm vào tình trạng sụp đổ do trí tuệ tích luỹ quá nhiều, quá trình tự học bị nhiễu, thông tin lưu trữ quá nhiều. Tất cả các lý do trên đều làm giảm hoạt động của hệ thống. Do đó, các phương pháp này cần có sự tự điều chỉnh trong hoạt động. Bên cạnh giải thuật tích luỹ trí tuệ cũng cần có giải thuật xén tri thức và loại nhiễu. Sau đây chúng ta sẽ nghiên cứu cụ thể hơn về các phương pháp bày. b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) Có thể nói tương đối mạnh rằng, các nghiên cứu gần đây về IR khá thành công trong các kỹ thuật được đề xuất để “hiểu” nội dung của tài liệu và truy vấn, hay nói cách khác là thực hiện được các phân tích ngữ nghĩa. Với mục tiêu này, hệ thống có thể áp dụng các lĩnh vực tri thức cho các xử lý để tìm kiếm và thu thập thông tin. Thành công này có được theo nghĩa đạt được khả năng học và khả năng tổng quát hoá của mạng Nơ-ron (Neural network). Với việc sử dụng mạng nơ-ron, chúng ta có thể biểu diễn một phần tượng trưng tri thức trong lĩnh vực của bài toán, và có thể được sử dụng thành công trong hệ thống thu thập thông tin. b.2.1.1. Tổng quan về mạng nơ-ron Để có thể hiểu làm thế nào mạng nơ-ron có thể áp dụng cho xử lý thu thập thông tin, chúng ta sẽ định nghĩa một số khái niệm được sử dụng trong lý thuyêt mạng nơ-ron. Xây dựng các khối của mô hình tính toán cho mạng nơ-ron thành các đơn vị gọi là nút mạng (neurode) mang rất nhiều các đặc tính của rơ-ron sinh học [4], hay nói đúng hơn là các nút mạng này được mô phỏng theo các nơ-ron của động vật. Ở các nút mạng ở Hình 5 thể hiện các phép toán logic AND. Đầu ra của nút mạng sẽ sáng nếu các đầu vào đều sáng. Nó được thực hiện bởi phép so sánh với giá trị ngưỡng (T) mà mọi đầu ra đều có. Hiển nhiên là việc thực hiện phép logic OR sẽ có giá trị ngưỡng giảm còn 0.5 (xem Hình 5.b). Các giá trị trong ngoặc được gọi là các trọng số, định nghĩa độ mạnh của liên kết. Trong mô hình tính toán của mạng nơ-ron, trọng số thường được định nghĩa là giá trị nằm trong khoảng [-1, 1]. Trong trường hợp phức tạp hơn, ví dụ khi thực hiện phép toán NOR, chúng ta cần nhiều hơn một đơn vị, các đơn vị đó gọi là đơn vị ẩn. Mô hình tính toán mạng nơ-ron được biểu diễn bởi các thuật ngữ về kết nối của nó (các mẫu kết nối) và trong các thuật ngữ về cách mà chúng được đào tạo (các luật sửa các trọng số). (1) (1) T= (1) (1) T= Hình 5. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b) (a) (b) 0.5 1.5 1 1 -2 1 1 Hình 6. Mạng nơ-ron với lớp ẩn: toán tử NOR input b.2.1.2. Mô hình truyền ngược ba lớp Mô hình được đề xuất là một mô hình ba lớp: Lớp các thuật ngữ truy vấn (các nút mạng đầu vào) – Q layer Lớp các tài liệu (các nút mạng đầu ra) – D layer Lớp các chỉ mục (các nút ẩn) – T layer Trong hình 7, chúng ta có các ký hiệu sau: ti - chỉ mục thuật ngữ Di - tài liệu Qi - thuật ngữ truy vấn của người dùng pij - trọng số kết nối giữa ngăn của mạng thuật ngữ và một ngăn của mạng tài liệu qi - trọng số liên kết giữa thuật ngữ của truy vấn và thuật ngữ ti wij - giá trị liên kết giữa thuật ngữ ti và tj dij - trọng số liên kết giữa tài liệu Di và tài liệu Dj Hình 7: Mô hình biểu diễn mạng nơ-ron Lớp thuật ngữ truy vấn biểu diễn các yêu cầu người dùng. Mỗi một nút là một thuật ngữ trong truy vấn. Lớp tài liệu biểu diễn tập các tài liệu. Mỗi nút quy chiếu đến một tài liệu. Các nút trong lớp này có các liên kết hai chiều có trọng số, thể hiện sự tương đồng giữa các tài liệu. Giá trị tương đồng này được tính toán bởi trọng số ngữ nghĩa của các thuật ngữ trong mỗi tài liệu. Lớp các thuật ngữ là lớp động. Mỗi nút biểu diễn một thuật ngữ được đánh chỉ mục. Các liên kết có giá trị giữa các nút là các kết lối giữa các thuật ngữ trong pha truy vấn. Các liên kết có trọng số giữa các ngăn thuộc lớp thuật ngữ có chỉ dẫn và các ngăn thuộc lớp thuật ngữ pij biểu diễn khả năng hay ý nghĩa của thuật ngữ ti trong tài liệu Dj. Liên kết có trọng số qi định nghĩa độ quan trọng của thuật ngữ ti trong toàn bộ tổ hợp các tài liệu. Các giá trị khởi đầu của các trọng số này có thể được trọng ngẫu nhiên hoặc với bất cứ cách xác định nào. Nếu giá trị ngẫu nhiên được sử dụng, có thể ta sẽ phải đối mặt với các vấn đề sau: Thời gian học dài Khó đạt được sự hội tụ Để tìm ra trọng số wij (liên kết giữa ti và tj), chúng ta giả sử rằng độ liên kết giữa hai thuật ngữ tăng khi đồng xuất hiện trong một tài liệu, và giá trị này chỉ giảm khi có một lần xuất hiện trong một tài liệu. Liên kết giữa hai tài liệu được biểu diễn bởi công thức sau: b.2.1.3. Chức năng của mạng Chức năng mạng gồm hai pha: Pha thu thập thông tin Pha học Pha thu thập thông tin bắt đầu khi người dùng gửi cho hệ thống một yêu cầu (thường được viết dưới dạng ngôn ngữ tự nhiên). Yêu cầu này được phân tích và tương ứng lớp Q sẽ được xây dựng. Mỗi ngăn trong lớp Q được liên kết với một ngăn trong lớp T với cùng thuật ngữ. Liên kết này sẽ bắt đầu được kích hoạt dọc theo các mối liên kết qi. Mỗi ngăn của lớp T nhận một tín hiệu từ lớp Q sẽ tính toán rằng độ kích hoạt và sau đó truyền nó tới mạng. Trong trường hợp đó có hai khả năng có thể xảy ra: Truyền lan tín hiệu tới ngăn khác từ T (tự động tính toán lại yêu cầu) Truyền lan nó tới ngăn đó từ D Trong trường hợp thứ hai, mỗi ngăn của lớp D sẽ tính một giá trị kích hoạt phản xạ độ tương đồng giữa yêu cầu và tài liệu. Các tài liệu thu thập được sắp xếp theo giá trị kích hoạt của chúng. Khi đó, người dùng có những cơ hội để lan truyền lan sự kích hoạt của tài liệu tới những ngăn khác thuộc lớp D hoặc gây ra một sự lan truyền phản hồi của các ngăn thuộc lớp D tới các ngăn thuộc lớp T. Điều đó có nghĩa là sự lan truyền tài liệu phù hợp đến lớp T sẽ gây ra quá trình sự kích hoạt hay truyền lan trong lớp T và lớp D. Nhưng trong thực tế, quá trình này không mang bất kỳ tài liệu mới nào, nhưng dù sao đi nữa nó có thể giảm bớt số tài liệu ở đầu ra. Quá trình học bao gồm : Thay đổi các liên kết giữa các ngăn thuộc lớp D và lớp T Thay đổi liên kết trong một lớp Trước hết, áp dụng luật HEBB để sửa đổi các trọng số kết nối pi,j. Ý tưởng này sẽ tăng các giá trị trọng số của kết nối giữa các tài liệu bằng cách xem xét độ phù hợp và độ kích hoạt của các thuật ngữ, và giảm trọng số nếu các tài liệu được xét thấy không phù hợp. Các hoạt động này ảnh hưởng đến ý nghĩa của các thuật ngữ được so sánh với tài liệu theo sự phù hợp của tài liệu. Thứ đến, sửa đổi các liên kết giữa ti,j. Giải thuật sử dụng trong giai đoạn huấn luyện này phần lớn được dựa trên các nghiên cứu của Kohonen. Tóm lại, phương pháp này dực trên độ phù hợp của các tài liệu nhận được sau một truy vấn. Ở giai đoạn đầu tiên, có sự tăng giá trị của các kết nối thực chất là kích hoạt các ngăn với các tài liệu phù hợp và việc giảm giá trị nếu các kết giữa các ngăn với tài liệu là không phù hợp. Ở giai đoạn thứ hai, quá trình huấn luyện tạo ra kết nối giữa các thuật ngữ và kích hoạt các ngăn với các tài liệu phù hợp. Giải thuật này được sử dụng cho mục đích nhóm các thuật ngữ được liên kết tới tài liệu trên cùng chủ đề. Cách huấn luyện này có khả năng hướng việc mở rộng cách đối xử của các mạng nơ-ron, đặc biệt trong lĩnh vực thu thập thông tin. 4. Một số công cụ phân tích văn bản tiếng Anh Trong bài thực tập này em xin giới thiệu hai công cụ sử dụng cho TextAnalys và WebAnalys. Cả hai công cụ này đều được tải từ địa chỉ http:// www.megaputer.com. Sau đây em xin được giới thiệu về từng công cụ. TextAnalyst 2.0 là công cụ dùng để tự động xử lý văn bản tiếng Anh theo phương pháp các mạng nơ-ron, nhưng tạo ra các cấu trúc ngữ nghĩa như một sản phẩm cuối. Thuật toán áp dụng cho TextAnalyst 2.0 gồm ba bước: bước tiền xử lý, bước phân tích thống kê và đưa ra kết quả. Bước tiền xử lý bao gồm việc loại bỏ các phụ từ và việc nhận dạng các từ gốc. Các phụ từ thường không mang lại ý nghĩa khi phân tích ngữ nghĩa. Trong giai đoạn tiền xử lý, các từ này sẽ bị loại bỏ khỏi văn bản nhằm giảm khối lượng văn bản cần xử lý. Ví dụ của phụ từ là các giới từ như: a, an, the. Khi phân câu, các từ này thường không mang lại giá trị về mặt thuật ngữ hay ngữ nghĩa, thế nhưng các từ này có xác suất xuất hiện rát lớn trong các văn bản tiếng Anh. Việc nhận dạng các từ gốc rất quan trọng. Trong tiếng anh, một dang từ có thể có nhiều biết thể, ví dụ với từ use có các biến thể: use, using, user, used, useful, uselessVấn đề là hệ thống cần nhận ra dạng biết thể của từ để tìm ra dạng nguyên thể của từ. Sau khi bước tiền xử lý hoàn tất, mạng nơ-ron sẽ nắm lấy tất cả các từ quan trọng cũng như tần xuất xuất hiện của mỗi từ, độ liên kết giữa các từ và trọng số liên kết. Ví dụ, khi xem xét một tài liệu, TextAnalyst nhận thấy từ database xuất hiện nhiều nhất. Khi phân tích các từ có liên quan đến từ database như thuộc cùng một câu, thuộc cùng một đoạn, TextAnalyst nhận thấy từ sql server xuất hiện nhiều trong các câu hoặc đoạn văn có xuất hiện từ database. Như vậy khả năng tài liệu đề cập đến cơ sở dữ liệu sql server là rất lớn. TextAnalyst cố gắng phân tích và ghi lại các thông tin liên kết này. Từ kết quả phân tích thống kê, TextAnalyst đưa ra những câu văn được xem như quan trọng nhất trong cả văn bản. Nhờ TextAnalyst, chúng ta có thể tiết kiệm đáng kể thời gian trong khi chọn ra các văn bản chứa các thông tin cần thiết. Thay vì các phương pháp phân loại cổ điển là đọc hết văn bản để đánh giá nội dung của văn bản đó thì nay ta chỉ việc đọc các thông in quan trọng được trích ra từ văn bản thông qua TextAnalyst. Ví dụ, khi em thử dùng TextAnalyst để phân tích một tài liệu (chứa trong file “KDT1.txt”) về TextMining, công cụ này đã đưa ra kết quả như hình 8. Trên cây phân cấp có thể nhìn thấy các thuật ngữ được tách ra từ tài liêu. Từ khoá có mức ưu tiên cao nhất (xác suất xuất hiện lớn nhất) là “discovery”. Liên hệ mật thiết với “discovery” lần lượt (theo thứ tự ưu tiên) là “knowledge discovery”, “database”, “KDD”, “Text”, “Exploration”, “Collection”, và “Keywork”. Trên cửa sổ Summarization xuất hiện đoạn văn bản “We show how this keyword-frequency approach supports a range of KDD operations, providing a suitable foundation for knowledge discovery and exploration for collections of unstructured text.” Đây là đoạn tổng kết qua phân tích của công cụ. Nó là đoạn văn bản được hệ thống cho là quan trọng nhất trong toàn bộ tài liệu. Hình 8: Minh hoạ công cụ TextAnalyst Tương tự như TextAnalyst, WebAnalyst cũng được dùng để phân tích nội dung của văn bản tiếng Anh. Nhưng điểm khác biệt là công cụ này được gắn ngay vào Internet Explorer của Microsoft chạy trên hệ điều hành Windows. Khi ta vào bất cứ một trang web nào thì công cụ này tự động chạy ở chế độ nền và phân tích toàn bộ trang web đó và tóm lượng các thông tin được xem là quan trọng nhất. Ví dụ, khi em cài đặt bộ “TextAnalyst for IE”, kích hoạt phần công cụ TextAnalyst đươc gắn vào trình duyệt IE của Microsoft, rồi vào thử trang web tại địa chỉ Đây là tài liệu có nội dung về “Text categorization”. Khi đó, trên cửa sổ summarization của TextAnalyst có một đoạn văn bản “Text categorization with support vector machines: learning with many relevant feature”. Đây là nội dung chính bao quát toàn bộ tài liệu này. Sau khi dùng thử hai công cụ trên, em có chung một nhận xét là chúng làm việc khá tốt. Cả hai đều giải quyết một bài toán chung là “Text Summarization”. Hình 9: Minh hoạ công cụ TextAnalyst nhúng trên Internet Explorer III. Các giải pháp áp dụng cho Vietnamese Text Mining 1. Đặc trưng của văn bản tiếng Việt Tiếng Việt là một ngôn ngữ đơn lập [3], đặc điểm này bao quát toàn bộ đặc trưng tiếng Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp. Do đó, chúng ta phải tiến hành nghiên cứu đặc điểm này của tiếng Việt để có thể có được những hướng nghiên cứu cụ thể về văn bản tiếng Việt. a. Các đơn vị của tiếng Việt a.1. Tiếng và đặc điểm của tiếng Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy tiếng là một thành phần khá quan trọng. Trong kí pháp, mỗi tiếng đứng độc lập, và ta có thể phát hiện được ngay các tiếng trong cả tiếng nói cũng như trong văn bản [3]. a.1.1. Tiếng và giá trị ngữ âm Ngữ âm chính là mặt âm của ngôn ngữ. Tại sao ta lại phải nghiên cứu khía cạnh này của ngôn ngữ tiếng Việt. Đó là vì trên thực tế, các ứng dụng liên quan đến tiếng Việt như dịch thuật, lưu trữ người ta vẫn ghi lại âm thành dạng văn bản, sau đó mới tiến hành các thao tác xử lý. Mỗi tiếng chính là một âm tiết và được ghi lại thành một cụm trong văn bản. a.1.2. Tiếng và giá trị ngữ nghĩa Nếu xét về mặt ngữ nghĩa thì tiếng là đơn vị nhỏ nhất có thể có nghĩa [3]. Thực ra ta có thể thấy rằng đơn vị ngữ âm thấp nhất là âm vị thì hoàn toàn không có nghĩa (ví dụ như các chữ cái đứng riêng rẽ). Tuy nhiên cũng có những tiếng có nghĩa (ví dụ như ạ, ứ). Theo [3], ta có thể phân biệt các tiếng như sau: Các tiếng tự nó có nghĩa (ví dụ như chuông, kính, bút) có thể được dùng để gọi tên sự vật, hiện tượng, có thể được dùng như một từ. Các tiếng có nghĩa nhưng không dùng để gọi tên sự vật, hiện tượng (ví dụ như thuỷ, thực) mà chỉ được dùng với tư cách là bộ phận để cấu thành nên từ có nghĩa ở bậc cao hơn. Ta không thể nói tôi thực mà chỉ có thể nói tôi ăn, nhưng có những từ như thực phẩm. Các tiếng bản thân không hề có nghĩa mà chỉ dùng để kết hợp tạo thành nghĩa cho đơn vị trực tiếp cao hơn, đó là từ. Ví dụ như các tiếng lãng, đãng tự nó không có nghĩa nhưng có thể tạo thành từ có nghĩa là lãng đãng. a.1.3. Tiếng và giá trị ngữ pháp Khía cạnh ngữ pháp bao gồm những quy tắc cấu tạo từ, cấu tạo câu. Và ta có thể thấy rằng tiếng là đơn vị ngữ pháp dùng để cấu tạo từ [3]. Về việc dùng tiếng để cấu tạo từ, ta có hai trường hợp như sau: Từ một tiếng: đây là trường hợp một tiếng dùng để làm một từ, ví dụ như cây, đá. Các tiếng (đóng vai trò là từ) là một bộ phận cấu thành nên câu. Từ nhiều tiếng: là một khối hai hay nhiều hơn các tiếng kết hợp với nhau, gắn bó tương đối chặt chẽ. Việc nghiên cứu cấu trúc từ (nhiều tiếng hay một tiếng) đóng vai trò rất quan trọng trong quá trình nghiên cứu và cài đặt ứng dụng phân tích cú pháp tiếng Việt. a.2. Từ và các đặc điểm của từ Từ và tiếng là hai đơn vị khác nhau nhưng đều rất quan trọng trong ngữ pháp tiếng Việt. Do đó ta phải đi xét các đặc điểm của từ. a.2.1. Từ là đơn vị nhỏ nhất để đặt câu Như trên vừa trình bày, ta thấy từ có thể gồm có một tiếng nhưng cũng có thể gồm hai hay nhiều tiếng, tuy nhiên từ là đơn vị nhỏ nhất để đặt câu [3]. Ví dụ: Công ty này rất lớn. Người này rất giỏi Có một lưu ý là để đặt câu, tức là để viết, để nói, để suy nghĩ thì chúng ta dùng từ chứ không phải là dùng tiếng. Ta có thể thấy lưu ý này rất quan trọng, vì trong thực thế thành phần riêng rẽ có thể phát hiện trong một câu (ở dạng nói hay viết) là một tiếng nhưng để có thể hiểu ý nghĩa của câu ta phải dùng từ. Do đó bất kì một nghiên cứu về tiếng Việt trên máy tính nào cũng phải quan tâm đến việc ghép các tiếng thành từ. a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định Ta có thể nhận ra điều này ở các từ tiếng Việt một tiếng, còn đối với những từ nhiều tiếng thì đó là những đặc điểm xác định lẫn nhau. Cấu tạo ổn định dẫn đến nghĩa hoàn chỉnh và ngược lại. Ví dụ như từ hai tiếng cây cối có cấu tạo ổn định và nghĩa hoàn chỉnh, nhưng cụm không phải là từ như cây và cối không có cấu tạo ổn định và nghĩa hoàn chỉnh. Đối với những từ nhiều tiếng, tính hoàn chỉnh về nghĩa và ổn định về cấu tạo được hình thành theo mối quan hệ giữa các tiếng cấu thành nên từ. Đó là mối quan hệ phối hợp, có thể theo ngữ âm (các từ láy âm), hoặc về nghĩa (ví dụ như nghĩa của hai từ xe và đạp trong từ xe đạp). a.3. Câu và các đặc điểm của câu Trong nghữ pháp tiếng Việt, từ và câu là những đơn vị ngữ pháp rất quan trọng. Đối với con người, từ được coi như sẵn có trong kho từ vựng được tích luỹ trong quá trình sống. Còn để có thể hiểu, giao tiếp thì con người phải dùng đến câu. Trong ngôn ngữ, câu là đơn vị ở bậc cao hơn cả. Nói gì, viết gì cũng phải thành câu. a.3.1. Câu có ý nghĩa hoàn chỉnh Tính hoàn chỉnh về nghĩa của câu là tính hoàn chỉnh của cả một quá trình tư duy, quá trình thông báo diễn ra trong một hoàn cảnh nhất định [3]. Trong một câu bao giờ cũng có hai thành phần, một thành phần nêu sự vật hiện tượng và một thành phần giải thích của sự vật hiện tượng đó. a.3.2. Câu có cấu tạo đa dạng. Câu có dạng đơn giản như là câu đơn, và còn có những cấu trúc phức tạp hơn gọi là câu ghép. Xét về mặt ngữ nghĩa, câu đơn có nhiều dạng khác nhau, biểu lộ những ý nghĩa, trạng thái, nội dung cần thông báo khác nhau. Tính chất đa dạng không trái ngược với tính chất chặt chẽ của câu về mặt ngữ pháp. Nói chung, cấu tạo ngữ pháp có thay đổi thì nghĩa cũng có thay đổi và ngược lại [3]. b. Các phương tiện ngữ pháp của tiếng việt. b.1. Trong phạm vi cấu tạo từ. Trong phạm vi cấu tạo từ, phương tiện chủ yếu về ngữ pháp chính là sự kết hợp các tiếng. Trật tự sắp xếp các tiếng có vai trò quan trọng trong cấu tạo từ. Kết hợp hai phương tiện này, có hai phương thức cấu tạo từ chủ yếu là láy và ghép. Láy là việc sắp đặt các tiếng thành đôi, kề cận nhau, có sự phối hợp về ngữ âm tạo nên nghĩa. Ghép là việc sắp đặt các tiếng thành đội, kề cận nhau, có sự phối hợp về ngữ nghĩa tạo nên nghĩa của từ ghép. b.2. Trong phạm vi cấu tạo câu. Tức là trong phạm vi cú pháp, ta có các phương tiện trật tự, hư từ và ngữ điệu. Trật tự sắp đặt các từ là phương tiện chính để biểu thị quan hệ ngữ pháp – tức là quan hệ cú pháp – giữa các từ trong một câu [3]. Trong tiếng Việt, trật tự các yếu tố cấu thành được quy định bằng một vị trí nhất định. Khi vị trí thay đổi thì nghĩa cũng thay đổi theo. Ví dụ ta có các hoán vị các tiếng của một tổ hợp như sau: Sai đâu sửa đấy. Sửa đâu sai đấy. Sửa đấy sai đâu. Đâu sai sửa đấy. Đấy sai sửa đâu. Trật tự theo hướng thuận biểu hiện ở chỗ yếu tố chính trước, yêu tố phụ sau, yếu tố được xác định trước, yếu tố xác định sau, yếu tố dùng để khai triển đứng liền sau từ, nếu có cách ly cũng đứng không quá xa. Hư từ là những từ dùng để biểu thị một số những quan hệ cú pháp nhất định. Ví dụ trong câu Anh, chị đã đi chơi rồi, có thể dùng từ và để nối hai từ anh, chị để làm rõ hơn mối quan hệ liên hợp, bình đẳng giữa hai từ. Như thế từ và là một hư từ. Tuy nhiên ta có thể thấy rằng hư từ có những sắc thái về nghĩa [3], ví dụ như ta thấy Anh với chị khác với Anh và chị. Điều đó đặt ra một khó khăn khi tiến hành nghiên cứu tiếng Việt trên máy tính, đó là việc xác định ngữ nghĩa của một câu, vì trong văn bản tiến Việt thì cách viết hay biểu thị trên khá phổ biến. Tất nhiên, ngữ điệu đóng vai trò vô cùng quan trọng trong tiếng Việt, tuy nhiên trong phạm vi nghiên cứu về văn bản tiếng Việt, ngữ điệu sẽ không được đi sâu nghiên cứu. c. Từ tiếng việt c.1. Từ đơn - từ ghép Như đã trình bày ở trên, từ trong tiếng Việt có thể có một tiếng hay gồm nhiều tiếng. Hơn nữa, trong tiếng Việt, những từ nhiều tiếng lại có thể được ghép bởi những tiếng hay từ khác có nghĩa. Ví dụ hai từ một tiếng đất, nước có thể được ghép với nhau thành một từ có ý nghĩa trừu tượng hơn là đất nước. Những từ này được gọi là các từ ghép. Do sự tồn tại của những từ đơn (là những từ một tiếng) và từ ghép, chúng ta phải tiến hành nghiên cứu để có thể đề xuất những phương án hữu hiệu trong bài toán nhận dạng từ trong câu. Khi xem xét từ ghép, chúng ta có thể thấy có hai loại như sau: Từ ghép song song: mỗi tiếng thường là một tiếng có nghĩa, có thể dùng làm từ một tiếng, gắn bó với nhau theo quan hệ song song và nói chung có thể đổi chỗ cho nhau. Trong sự phối hợp về ngữ nghĩa thì thường có sự biến đổi nghĩa riêng thành một nghĩa hình tượng, như ví dụ của từ đất nước đã nêu trên, hoặc trong các từ quần áo, giày dép.... Từ ghép chính phụ: mỗi tiếng có thể là một tiếng có nghĩa, nhưng thông thường có một tiếng chính có thể được dùng làm từ còn tiếng kia không có chức năng ngữ pháp đó, ví dụ như nhà thương, bánh mì. Ta cũng có thể thấy trong tiếng Việt tồn tại một số các từ ghép có nhiều tiếng hơn, phát triển từ loại từ ghép chính phụ, qua đó có thể chia thành các phần chính, phần phụ, thuận tiện hơn trong việc phân tích từ. Chính sự tồn tại của từ ghép (ghép bởi các tiếng có nghĩa) mà có sự nhập nhằng về nghĩa của một câu. Ta có thể lấy ví dụ sau: Chiếc xe đạp nặng Ở đây, hai tiếng xe và đạp đều là các tiếng có nghĩa, do đó câu trên có thể hiểu theo hai cách như sau: Chiếc xe đạp / nặng Chiếc xe / đạp / nặng Giải quyết được vấn đề này rất phức tạp, tuy nhiên chắc chắn muốn phân tích câu hoặc xử lý văn bản tiếng Việt thì bài toán đầu tiên được đặt ra là làm thế nào để tách các từ trong câu. c.2. Từ loại Có thể phân loại các từ theo cách thức cấu tạo như đã xét ở phần trên, cũng có thể phân loại theo các chữ cái đầu như khi ta làm từ điển. Tuy nhiên có một cách phân loại đặc biệt quan trọng về mặt cấu tạo câu, đó là xác định từ loại cho mỗi từ tiếng Việt. Theo [3], tiếng Việt có thể có những từ loại sau: Danh từ Động từ Tính từ Phó từ (sẽ, đã, rồi, rất) Liên từ (của, thì) Đại từ (tôi, nó, anh, em, hắn) Trợ từ (nhỉ, hả, nhé) Cảm từ (ái chà, chao ôi, vâng, dạ) Số từ (một, hai) Loại từ (con, cái) Giới từ (cùng, với, bằng, để) Trạng từ (hôm qua) Tất nhiên việc phân loại trên chỉ có ý nghĩa tương đối, vì trong nhiều tài liệu khác nhau vẫn có những sự khác nhau về các phân chia từ theo từ loại. Nếu xem xét một cách kỹ lưỡng hơn nữa về mặt cú pháp, trong mỗi loại từ lại còn có thể chia nhỏ hơn được nữa, ví dụ rất là phó từ đứng trước vì trong một câu nó chỉ đứng trước các tính từ đề nhấn mạnh hiệu quả biểu đạt của tính từ. c.3. Dùng từ cấu tạo ngữ Ngữ là đơn vị ngữ pháp bậc trung gian giữa từ và câu [3]. Việc tìm hiểu cấu tạo cũng như các loại ngữ là cần thiết để tì m hiểu cấu tạo của câu. Qua cấu tạo của ngữ, có thể nhận rõ thêm đặc điểm ngữ pháp của từ loại và các tiểu loại. Theo [3], ta có một số nhận xét như sau: Ngữ là một cấu tạo theo quan hệ cú pháp chính phụ. Kết từ cũng được dùng để biểu hiện quan hệ chính phụ giữa chính tố với một số loại phụ tố sau. Ví dụ "báo của tôi". Khi phụ tố sau do thực từ đảm nhiệm thì nói chung phụ tố ấy có thể là một ngữ. Ví dụ "một người / học sinh / rất thông minh". Ta có thể xét một số ngữ loại như sau [3]: Danh ngữ: Ngữ có danh từ làm trung tâm Động ngữ: Ngữ có động từ làm trung tâm Tính ngữ: Ngữ có tính từ làm trung tâm Giới ngữ: Ngữ bắt đầu bằng giới từ. Cũng như đã phân tích trong phần từ loại, để có thể xây dựng được một hệ thống luật cú pháp tốt, ta cần phải phân chia các ngữ loại một cách chặt ché hơn, ví dụ: ta có danh ngữ "cái cầu", nếu thêm một số từ nữa, ví dụ là một thì danh ngữ mới "một cái cầu" phải là một danh ngữ kết thúc trái vì rõ ràng ta không thể mở rộng về phái trái danh ngữ này nữa. Toàn bộ các từ loại và ngữ loại chi tiết sẽ được nêu trong phần xây dựng luật cú pháp. d. Câu tiếng việt Câu là đơn vị dùng từ, hay đúng hơn là dùng ngữ mà cấu tạo nên trong quá trình tư duy, thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp và có tính chất độc lập [3]. Xét về cấu trúc câu, tiếng Việt có hai loại câu là câu đơn và câu ghép. d.1. Câu đơn Câu đơn là loại câu cơ sở của tiếng Việt, bao gồm một nòng cốt đơn hay một kết cấu chủ vị. Về mặt ngữ nghĩa, câu đơn mang nghĩa tự thân, còn câu ghép mang nghĩa kết hợp. Câu đơn có thể là câu khẳng định, câu phủ định, câu nghi vấn, câu tường thuật, câu cầu khiến, câu biểu cảm. Ví dụ: Cái xe này tốt. Tôi chưa làm xong việc này. Anh đi làm chưa? Nó đang đi đến trường. Con đi ngủ đi! Con mèo mới đẹp làm sao! Nòng cốt đơn của một câu đơn là một kết cấu chủ vị. Ngoài ra, câu đơn còn có các thành phần ngoài nòng cốt [3]: Thành phần than gọi. Ví dụ "bạn ơi, chúng ta đi nào". Thành phần chuyển tiếp. Ví dụ "Anh Trường, trái lại, không làm gì cả". Thành phần chú thích. Ví dụ "Nó, em tôi, rất thông minh". Thành phần tình huống. Ví dụ " Trong máy tính, dữ liệu ở dạng nhị phân". Thành phần khởi ý. Ví dụ " Thuốc, anh ấy không hút". Để biểu diễn một câu đơn, người ta thường dùng mô hình suy diễn câu đơn như sau: Px - Cx - Vx - Bx. Với P: thành phần phụ C: chủ ngữ V: vị ngữ B: Bổ ngữ, định ngữ. x: thành phần có thể khai triển tiếp. Cách biểu diễn này rõ ràng rất thuận tiện trong việc xây dựng bộ luật cú pháp và tiến hành phân tích cú pháp cho một câu đầu vào. d.2. Câu ghép Về mặt ngữ pháp, câu ghép bao gồm bộ phận chủ yếu là một nòng cốt ghép, được tạo nên bởi ít nhất hai vế và mỗi vế thường bao gồm một nòng cốt đơn. Ví dụ: Mây tan, mưa tạnh. Tuy rằng câu đơn chỉ có một nòng cốt đơn nhưng không phải bao giờ câu đơn cũng ngắn hơn câu ghép, có những câu rất đơn giản như câu trên cũng là một câu ghép. Người ta có thể chia câu ghép thành hai loại: câu ghép song song và câu ghép qua lại [3]. d.2.1. Câu ghép song song Là loại câu ghép có thể có hai vế hay nhiều hơn, tuy nhiên sự liên kết giữa các vế là lỏng lẻo, có thể tách thành các câu đơn mà vẫn bảo toàn nghĩa. Trong một số trường hợp các vế có quan hệ, sử dụng các kết từ, tuy nhiên ý nghĩa độc lập của các vế vẫn tương đối rõ ràng. Ví dụ: Khán giả hò reo, cờ phất rực trời, cuộc đấu diễn ra quyết liệt. Nó vẫy tôi và tôi tiến lại phía nó. d.2.2. Câu ghép qua lại Là loại câu có hai vế và vế này là điều kiện tồn tại của vế kia. Có cả hai vế thì câu mới có ý nghĩa trọn vẹn. Nối giữa hai vế là các liên từ, thông thường người ta dùng cả cặp liên từ. Ta có thể biểu diễn câu ghép là câu có dạng như sau: xN1 + yN2 Một trong các liên từ có thể được loại bỏ. Ta có một số ví dụ như sau: (Bởi) vì N1 (cho) nên/ mà N2. Để N1 (cho) nên/ mà N2. Nếu N1 thì N2. Không những N1 mà còn N2 ... Tôi đi thì nó chết Vì phở ngon nên cửa hành của nó mới đông khách thế. Ặ d.2.3. Các thành phần câu. Chủ ngữ: Thành phần chủ yếu của câu. Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho thành phần chủ ngữ. Trạng ngữ: Thành phần thứ yếu, bổ sung ý nghĩa cho câu, chỉ nơi chốn, thời gian, không gian Bổ ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho động từ làm vị ngữ. Định ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho vị ngữ. e. Các đặc điểm chính tả và văn bản tiếng Việt Hiện nay, chính tả tiếng Việt chưa thống nhất, tuy đã có những quy tắc chuẩn mực nhất định. Việc nghiên cứu các đặc điểm chính tả tiếng Việt có ý nghĩa đặc biệt quan trọng trong khâu tiền xử lý dữ liệu, tạo nguồn dữ liệu đầu vào cho những pha sau như phân tích cú pháp hay đánh trọng số cho các từ (terms), lập chỉ mục. Một số vấn đề về chính tả tiếng Việt mà ta cần quan tâm như sau: Các chữ đồng âm: Các chữ đồng âm như “Mĩ”/ “Mỹ”, “kĩ”/ “kỹ”... thường bị sử dụng lẫn nhau. Từ địa phương: Trong văn bản người ta vẫn thường sử dụng một số từ địa phương thay cho các từ phổ thông. Ví dụ “cây kiểng” thay cho “cây cảnh”. Vị trí dấu: Theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm có ưu tiên cao nhất. Tuy nhiên khi viết văn bản, do mỗi người sử dụng các bộ gõ tiếng Việt khác nhau nên nhiều khi dấu được đặt không theo chuẩn. Ví dụ hai chữ: “hỏa” hay “hoả”. Cách viết hoa: Theo quy định, đầu câu và đầu tên riêng phải viết hoa. Tuy nhiên vẫn tồn tại một số cách viết như sau: “Tổng công ty Dệt may Việt nam”. Phiên âm tiếng nước ngoài: Các cách viết sau vẫn được chấp nhận mà không có quy chuẩn trong văn bản tiếng Việt: “Singapore”/ “Xinh-ga-po”... Từ gạch nối: Do cách viết dấu gạch nối tuỳ tiện nên không thể phân biệt giữa nối tên riêng hay chú thích. Những vấn đề vừa nêu trên thực sự gây ra nhiễu trong dữ liệu đầu vào, đòi hỏi phải có một hệ thống tiền xử lý tốt, đảm bảo cho việc phân tích cú pháp được thực hiện có hiệu quả. 2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt Có rất nhiều bài toán phân loại văn bản. Tuy nhiên, ở đây em chỉ xin nhắc tới hai bài toán đại diện, và cũng là hai bài toán đang được quan tâm nhiều nhất. Đó là bài toán phân loại văn bản tiếng Việt và thu thập thông tin từ văn bản tiếng Việt. a. Bài toán phân loại văn bản tiếng Việt Cần xây dựng một hệ thống có thể phân loại được tài liệu tiếng Việt. Hay nói khác đi, khi đưa ra một tài liệu tiếng Việt, hệ thống cần chỉ ra rằng đó là loại văn bản thuộc chủ đề nào (văn hoá, kinh tế, chính trị, thể thao,...). Ở trên chúng ta đã trình bày hai phương pháp phân loại khác nhau, đó là phương pháp sử dụng từ điển phân cấp chủ đề và phương pháp cây quyết định. Đối với giải thuật sử dụng từ điển phân cấp chủ đề, có thể hiểu đây là một phương pháp chuẩn. Quá trình thực hiện khá dễ dàng và mọi kết quả đã được lường trước. Tuy nhiên, đây là một phương pháp thu được hiệu quả không cao. Lý do là phương pháp này không đề cập đến vấn đề ngữ nghĩa của văn bản. Ở phương pháp thứ hai, chúng ta đã gắn bài toán vào một dạng trí tuệ nhân tạo. So với phương pháp trước thì phương pháp này cho kết quả tốt hơn do tính mềm dẻo, tính tự học của giải thuật. Tuy nhiên, kết quả đạt được vẫn còn rất khiêm tốn. Do một số đặc trưng, như đã nêu ở trên, của văn bản tiếng Việt, việc phân tích văn bản sẽ rất phức tạp. Việc áp dụng hai phương pháp đã nêu ở trên chỉ thu được các kết quả tương đối hạn chế. Để giải giải quyết bài toán phân loại văn bản tiếng Việt một cách triệt để phương pháp phân tích cú pháp được ưu tiên lên hàng đầu. Trong đề tài này của em chưa đề cập được đến phương pháp này. Nó thuộc vào các phương pháp xử lý ngôn ngữ tự nhiên. Do thời gian có hạn hướng tiếp cận ban đầu không đúng, nên em vẫn để ngỏ phương pháp này. Tuy nhiên, hướng mục tiêu của em trong kì làm luận văn tốt nghiệp tới sẽ tập trung giải chuyết bài toán này. Đó là: “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.” b. Bài toán thu thập thông tin từ văn bản tiếng Việt Ở trên chúng ta đã chình bày ba phương pháp cho bài toán thu thập thông tin. Đó là các phương pháp: mô hình Boolean, mô hình không gian vec-tơ, và mạng nơ-ron. Đối với mô hình Boolean, đây là phương pháp truy vấn thông tin dựa theo các biểu thức logic. ưu điểm lớn nhất của phương pháp này là tính đơn giản, dễ cài đặt và tốc độ nhanh. Tuy nhiên, hạn trế lớn nhất của nó không gian lưu trữ và giá thành cho việc thêm bớt văn bản từ kho lưu trữ tài liệu. Phương pháp thứ hai đã cài tiến được một số hạn trế của phương pháp thức nhất. Tuy nhiên, nhược điểm lớn nhất của phương pháp này là tốc độ. Tuy nhiên, đây vẫn là một phương án có tính khả thi cao. Phương pháp này nên được áp dụng cho thu thập thông tin tiếng Việt. Phương pháp thứ ba dựa trên giải thuật trí tuệ nhân tạo. ưu điểm của phương pháp này là khả năng huấn luyện được của hệ thống. Khi các mẫu huấn luyện và phương pháp huấn luyện tốt, hệ thống sẽ cho ra các kết quả rất tốt. Nhưng nhược điểm của phương pháp này là giải thuật phức tạp, khó cài đặt. IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 1. Chương trình và bài toán được giải quyết Để phục vụ cho bài toán phân tích văn bản tiếng Việt, em đã xây dựng thử nghiệm một chương trình Tách thuật ngữ tiếng Việt. Chương trình được viết bằng ngôn ngữ java. Bài toán đặt ra được mô tả như sau: Xây dựng một công cụ tách các thuật ngữ trong một văn bản tiếng Việt theo một từ điển thuật ngữ có sẵn Đầu vào của bài toán là một tệp tin chứa một tài liệu tiếng Việt được định dạng Text dưới dạng phông .VN (ví dụ phông .VnTime), một tệp tin chứa thông tin về các thuật ngữ cũng được đinh dạng Text dưới dạng phông .VN. Đầu ra của bài toán là một tệp tin định dạng Text bởi phông .VN, trong đó chưa các thông tin về các thuật ngữ tìm được theo khuân dạng: “Tên thuật ngữ ” (số từ tìm được). Chương trình được xây dựng bằng ngôn ngữ java và được đặt với tên “tachthuatngu”. 2. Kết quả chạy chương trình Khi chạy chương trình với tệp tin “Test.txt” (tệp tin mẫu có sẵn) với nội dung là một báo cáo nghiên cứu về lý thuyết tập thô, kết quả hiện ra với nội dung như sau: Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien) "th«ng tin" (40) "hµm" (34) "khai th¸c" (33) "truy vÊn" (26) "thùc hiÖn" (22) "d÷ liÖu" (22) "tËp th«" (14) "hÖ thèng" (10) "xö lý" (10) "kh«ng gian dung sai" (8) "ph©n nhãm" (5) "tõ kho¸" (5) "lu tr÷" (5) "nghiªn cøu" (4) "ng÷ nghÜa" (3) "khai ph¸ d÷ liÖu" (3) "kh¸i niÖm" (2) "chØ tiªu" (2) Sau hai dòng mở đầu, trên mỗi dòng sau đó ghi “tên thuật ngữ tìm được” (số lần xuất hiện trong tài liệu). Ví dụ: với từ “tập thô” ta thấy xuất hiện 14 lần trong tài liệu. TÀI LIỆU THAM KHẢO [1] “Text Categorization Using a Hierarchical Topic Dictionary” - Alexander Gelbukh, Grigori Sidorov, Adolfo Guzmán-Arenas [2] “Machine Learning in Automated Text Categorization” - Fabrizio Sebastiani [3] “Ngữ pháp tiếng Việt” – Trung tâm Khoa học xã hội và Nhân văn quốc gia – Nhà xuất bản Khoa học và xã hội – Hà nội 2000 [4] “Information retrieval: standard and AI - based methods” - Ilya Baraev PHỤ LỤC Các thông tin về báo cáo Trên đĩa mềm gồm có: Báo cáo (2 bản softcopy) nằm trong các tệp tin “A:\Docs\BaocaoTTTN.doc”, và “A:\Docs\BaocaoTTTN.pdf” Bản bảo vệ bằng Microsoft PowerPoint “A:\Docs\Baove.ppt” Chương trình demo chứa trong thư mục “A:\Project” bao gồm mã nguồn viết bằng java chứa trong thư mục “A:\Project\src” và mã dịch chứa trong thư mục “A:\Project\tachthuatngu”. Cách chạy chương trình demo Yêu cầu: Trên máy tính chưa bộ dịch java. Đặt đường dẫn đến thư mục chứa tệp tin “java.exe” trong PATH. Sao thư mục “A:\Project” vào một nơi khác trên đĩa cứng Cách chạy: Vào chế độ Command Prompt Chuyển đến thư mục “Project” đã sao trên đĩa cứng Ghõ vào dòng lệnh: “java tachthuatngu.Main ten_file_tai_lieu” Sau khi chương trình kết thúc, kết quả đã được ghi ra tệp tin như chương trình thông bao. Bạn có thể mở tệp tin này (nên mở bằng Notepad) để xem kết quả Chú ý: Tệp tin đầu vào phải có dạng text, chứa các văn bản đặt ở phông .VN. TỪ ĐIỂN THUẬT NGỮ Data Mining Khai phá văn bản dữ liệu Text Mining Khai phá dữ liệu văn bản Text Categorization Phân loại văn bản Text Clustering Lập nhóm văn bản Information Retrieval (IR) Thu thập thông tin Neural Network Mạng Nơ-ron Decision tree Cây quyết định AI-based method Phương pháp dựa trí tuệ nhân tạo similarity Độ tương đồng Vector space model (VSM) Mô hình không gian vec-tơ Text summarization Tổng hợp văn bản Term Thuật ngữ

Các file đính kèm theo tài liệu này:

V0064.doc