Thư viện tài liệu trực tuyến miễn phí dành cho các bạn học sinh, sinh viên
Dữ liệu luyện: 2000 cặp câu J-E J: tách từ sử dụng Chasen E: PTCP sử dụng bộ PTCP Collins Luyện trên 40000 câu từ Treebank, độ cx ~90% E: từ cây cú pháp, xác định trật tự từ và chuyển đổi (SVO <-> SOV) Luyện sử dụng EM: 20 vòng lặp
12 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 694 | Lượt tải: 0
Từ đồng nghĩa có ảnh hưởng lớn hơn: z Gonzalo et al. (1998; 1999): sử dụng SemCor (tập ngữ liệu Brown với các thẻ nghĩa của WordNet) cho thấy nếu phân giải nhập nhằng có độ cx = 100% z Đánh chỉ số nghĩa (vd synset number) có độ cx IR = 62% z Đánh chỉ số nghĩa của từ (vd canine1) có độ cx IR = 53.2% z Đánh chỉ số từ gốc có độ cx IR = 48% z Go...
7 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 824 | Lượt tải: 0
Nhìn từ dưới lên đểtìm ký hiệu đầu tiên (left-corner) của đoạn, sau đó phân tích phần còn lại theo kiểu trên S→ NP VP NP→ the Noun VP→ ate NP 109 xu ng z Tìm cách kết hợp các đặc trưng tốt nhất của tìm phân tích trên xuống và dưới lên the Noun 1 2 tìm predict ate Phương pháp này làm việc tốt với ngôn ngữ với thành phần quan trọng đặ...
19 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 969 | Lượt tải: 0
Độ chính xác của parser được đo qua việc tính xem có bao nhiêu thành phần ngữ pháp trong cây giống với cây chuẩn, gọi là gold-standard reference parses. z Độ chính xác (Precision) = % trường hợp hệ gán đúng 32 tổng số trường hợp hệ gán (%THợp hệ tính đúng). z Độ phủ (Recall) = % số trường hợp hệ gán đúng tổng số trường hợp đúng (%THợp hệ...
6 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 813 | Lượt tải: 0
Cần xác định từ loại cho từ “trò_chuyện”, các đặc trưng: z Chính bản thân từ “trò_chuyện” thường xuất hiện với từ loại nào trong tập dữ liệu Viet Treebank? z Từ “trò chuy _chuyện” thường có nhãn từ loại là gì trong từ điển? Là động từ chăng? z Từ thường đi ngay trước từ “trò_chuyện” thường có gợi ý gì? z Từ với đi sau từ “trò_chuyện” có gợi ý...
13 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 1176 | Lượt tải: 0
Phát hiện các mẫu thông thường như tên riêng, chữ viết tắt, số, ngày tháng, địa chỉ email, URL, sử dụng biểu thức chính qui z Hệ thống chọn chuỗi âm tiết dài nhất từ vị trí hiện tại và có trong từ điển, chọn cách tách có ít từ nhất ¾ Hạn chế: có thể đưa ra cách phân tích không đúng. ¾ Giải quyết: liệt kê tất, có 1 chiến lược để chọn cách tách...
5 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 978 | Lượt tải: 0
Khó: xử lý tiếng nói (speech processing), dịch máy (machine translation) trích rút , trích rút thông tin (information extraction), giao diện hội thoại = NNTN (dialog interface), hỏi đáp (question answering) z Ứng dụng hiện nay: sửa lỗi chính tả, phân loại văn bản,
13 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 902 | Lượt tải: 0
Ví dụ 5 (tiếp): Chúng ta có thể làm gì ? Không có thời gian để chờ Do not waste time unless you are a genius to save the world Mục đích khiêm tốn hơn Với xác suất 90%, có thể tìm được hành trình tối ưu Thuật toán tìm hành trình không tồi hơn 1.1 lần hành trình tối ưu
33 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 1352 | Lượt tải: 1
The largest solved instance of the traveling salesman problem consists of a tour through 85,900 cities in a VLSI application that arose in Bell Laboratories in the late 1980s. The computation with Concorde was carried out in 2005/06 and reported in the book The Traveling Salesman Problem: A Computational Study. The instance is called pla85900 in G...
93 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 938 | Lượt tải: 0
Đánh số các cột và dòng của bàn cờ từ 1 đến n. Một cách xếp hậu có thể biểu diễn bởi bộ có n thành phần (a1, a2 ,., an), trong đó ai là toạ độ cột của con Hậu ở dòng i. Các điều kiện đặt ra đối với bộ (a1, a2 ,., an): ai aj , với mọi i j (nghĩa là hai con hậu ở hai dòng i và j không được nằm trên cùng một cột); | ai – aj | | i – j |, với...
142 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 879 | Lượt tải: 0