Luận văn Xây dựng chương trình bắt lỗi chính tả tiếng Việt

MỤC LỤC MỤC LỤC 1 1 Mở đầu 10 1.1 Nội dung bài toán . 11 1.2 Đặc điểm . 12 1.3 Hướng giải quyết . 14 1.4 Bố cục luận văn 15 2 Cơ sở lý thuyết ngôn ngữ 16 2.1 Âm tiết 16 2.1.1 Nguyên âm và phụ âm 17 2.1.2 Âm vị . 18 2.1.3 Âm tiết 19 2.1.4 Phụ âm đầu 23 2.1.5 Vần 25 2.1.6 Thanh điệu 30 2.2 Từ . 32 2.2.1 Định nghĩa từ . 32 2.2.2 Đặc điểm của từ . 36 2.2.3 Các quan niệm về hình vị và từ trong tiếng Việt . 37 KHOA CNTT – ĐH KHTN MỤC LỤC 2 2.3 Từ láy . 38 2.4 Chính tả tiếng Việt 39 2.4.1 Tổng quan về chữ viết tiếng Việt . 39 2.4.2 Chính tả tiếng Việt 41 2.4.3 Lỗi chính tả 45 3 Cơ sở tin học 46 3.1 Bắt lỗi chính tả 47 3.1.1 Phân loại lỗi chính tả . 47 3.1.2 Phát hiện lỗi chính tả . 49 3.1.3 Các sai lầm của trình bắt lỗi chính tả 49 3.1.4 Vấn đề chữ hoa, chữ thường . 50 3.2 Lập danh sách từ đề nghị . 51 3.2.1 Lỗi phát âm sai 52 3.2.2 Lỗi nhập sai . 53 3.2.3 Các lỗi khác . 54 3.3 Sắp xếp danh sách 55 3.3.1 Văn phạm ràng buộc . 55 3.3.2 Mật độ quan niệm 56 3.4 Bắt lỗi tự động 59 3.4.1 Mô hình TBL . 59 3.4.2 Mô hình Winnow . 62 3.4.3 Mô hình Danh sách quyết định 65 3.4.4 Mô hình Trigram và Bayes 66 3.4.5 Mô hình Bayes và Danh sách quyết định 67 3.5 Bắt lỗi tiếng châu Á 68 3.6 Tách từ 69 3.6.1 Khớp tối đa 71 KHOA CNTT – ĐH KHTN MỤC LỤC 3 3.6.2 Mô hình HMM 72 3.6.3 Mô hình WFST và mạng nơ-ron . 73 3.6.4 Mô hình Source-Channel cải tiến 73 3.6.5 Mô hình TBL . 75 3.7 Tách từ mờ 76 3.7.1 Huấn luyện 77 4 Mô hình 79 4.1 Mô hình chung 80 4.1.1 Tiền xử lý . 82 4.1.2 Bắt lỗi non-word . 82 4.1.3 Bắt lỗi real-word . 82 4.2 Tiền xử lý . 83 4.2.1 Tách token 83 4.2.2 Tách câu . 85 4.2.3 Chuẩn hoá 85 4.2.4 Chữ viết hoa . 87 4.2.5 Từ nước ngoài, từ viết tắt, các ký hiệu . 87 4.3 Bắt lỗi non-word . 88 4.3.1 Tìm lỗi chính tả 88 4.3.2 Lập danh sách từ đề nghị . 88 4.3.3 Sắp xếp danh sách từ đề nghị 96 4.4 Bắt lỗi real-word . 96 4.4.1 Lưới từ 96 4.4.2 Tạo lưới từ 99 4.4.3 Mở rộng lưới từ — Phục hồi lỗi . 100 4.4.4 Hoàn chỉnh lưới từ 103 4.4.5 Áp dụng mô hình ngôn ngữ — Tách từ . 103 KHOA CNTT – ĐH KHTN MỤC LỤC 4 4.4.6 Tìm lỗi chính tả 106 4.4.7 Lập danh sách từ đề nghị . 106 4.4.8 Sắp xếp danh sách từ đề nghị 107 4.4.9 Các heuristic để cải thiện độ chính xác . 107 4.5 Huấn luyện 111 4.5.1 Huấn luyện mô hình ngôn ngữ 112 5 Cài đặt 120 5.1 Cấu trúc dữ liệu 122 5.1.1 Lưu chuỗi . 122 5.1.2 Từ điển 123 5.1.3 Câu 124 5.1.4 Lưới từ 124 5.1.5 Cách tách từ . 125 5.1.6 Mô hình ngôn ngữ 125 5.2 Tiền xử lý . 126 5.2.1 Tách token 126 5.2.2 Tách câu . 126 5.3 Lưới từ . 126 5.3.1 Tạo lưới từ 126 5.3.2 Bổ sung lưới từ 132 5.3.3 Tìm cách tách từ tốt nhất . 132 5.3.4 Lỗi phát âm 135 5.3.5 Danh từ riêng . 136 5.3.6 Lỗi bàn phím . 137 5.4 Bắt lỗi chính tả 137 5.4.1 Separator . 142 5.4.2 vspell-gtk . 142 KHOA CNTT – ĐH KHTN MỤC LỤC 5 5.5 Huấn luyện 146 5.5.1 Dữ liệu huấn luyện 146 5.5.2 Dữ liệu nguồn 146 5.5.3 Tiền xử lý ngữ liệu huấn luyện 147 5.5.4 Huấn luyện dữ liệu 148 5.6 Linh tinh . 148 5.6.1 Xử lý bảng mã 148 5.6.2 So sánh chuỗi . 149 5.6.3 Xử lý tiếng Việt 149 6 Đánh giá và kết luận 150 6.1 Tóm tắt 152 6.2 Thử nghiệm 152 6.3 Đánh giá 157 6.4 Hướng phát triển . 158 Tài liệu tham khảo

pdf172 trang | Chia sẻ: maiphuongtl | Lượt xem: 1866 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng chương trình bắt lỗi chính tả tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Các file đính kèm theo tài liệu này:

  • pdf0012020.pdf