• Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 6: Dịch máy - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 6: Dịch máy - Lê Thanh Hương

    Dữ liệu luyện: 2000 cặp câu J-E J: tách từ sử dụng Chasen E: PTCP sử dụng bộ PTCP Collins Luyện trên 40000 câu từ Treebank, độ cx ~90% E: từ cây cú pháp, xác định trật tự từ và chuyển đổi (SVO <-> SOV) Luyện sử dụng EM: 20 vòng lặp

    pdf12 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 694 | Lượt tải: 0

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 5: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 5: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh Hương

    Từ đồng nghĩa có ảnh hưởng lớn hơn: z Gonzalo et al. (1998; 1999): sử dụng SemCor (tập ngữ liệu Brown với các thẻ nghĩa của WordNet) cho thấy nếu phân giải nhập nhằng có độ cx = 100% z Đánh chỉ số nghĩa (vd synset number) có độ cx IR = 62% z Đánh chỉ số nghĩa của từ (vd canine1) có độ cx IR = 53.2% z Đánh chỉ số từ gốc có độ cx IR = 48% z Go...

    pdf7 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 824 | Lượt tải: 0

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 4: Phân tích cú pháp - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 4: Phân tích cú pháp - Lê Thanh Hương

    Nhìn từ dưới lên đểtìm ký hiệu đầu tiên (left-corner) của đoạn, sau đó phân tích phần còn lại theo kiểu trên S→ NP VP NP→ the Noun VP→ ate NP 109 xu ng z Tìm cách kết hợp các đặc trưng tốt nhất của tìm phân tích trên xuống và dưới lên the Noun 1 2 tìm predict ate Phương pháp này làm việc tốt với ngôn ngữ với thành phần quan trọng đặ...

    pdf19 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 969 | Lượt tải: 0

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 4: Phân tích cú pháp xác suất - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 4: Phân tích cú pháp xác suất - Lê Thanh Hương

    Độ chính xác của parser được đo qua việc tính xem có bao nhiêu thành phần ngữ pháp trong cây giống với cây chuẩn, gọi là gold-standard reference parses. z Độ chính xác (Precision) = % trường hợp hệ gán đúng 32 tổng số trường hợp hệ gán (%THợp hệ tính đúng). z Độ phủ (Recall) = % số trường hợp hệ gán đúng tổng số trường hợp đúng (%THợp hệ...

    pdf6 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 813 | Lượt tải: 0

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 3: Gán nhãn từ loại - Lê Thanh HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 3: Gán nhãn từ loại - Lê Thanh Hương

    Cần xác định từ loại cho từ “trò_chuyện”, các đặc trưng: z Chính bản thân từ “trò_chuyện” thường xuất hiện với từ loại nào trong tập dữ liệu Viet Treebank? z Từ “trò chuy _chuyện” thường có nhãn từ loại là gì trong từ điển? Là động từ chăng? z Từ thường đi ngay trước từ “trò_chuyện” thường có gợi ý gì? z Từ với đi sau từ “trò_chuyện” có gợi ý...

    pdf13 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 1176 | Lượt tải: 0

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 2: Tác từ Tiếng Việt - Lê Thạch HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 2: Tác từ Tiếng Việt - Lê Thạch Hương

    Phát hiện các mẫu thông thường như tên riêng, chữ viết tắt, số, ngày tháng, địa chỉ email, URL, sử dụng biểu thức chính qui z Hệ thống chọn chuỗi âm tiết dài nhất từ vị trí hiện tại và có trong từ điển, chọn cách tách có ít từ nhất ¾ Hạn chế: có thể đưa ra cách phân tích không đúng. ¾ Giải quyết: liệt kê tất, có 1 chiến lược để chọn cách tách...

    pdf5 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 978 | Lượt tải: 0

  • Bài giảng Xử lý ngôn ngữ tự nhiên - Chương 1: Xử lý ngôn ngữ tự nhiên - Lê Thạch HươngBài giảng Xử lý ngôn ngữ tự nhiên - Chương 1: Xử lý ngôn ngữ tự nhiên - Lê Thạch Hương

    Khó: xử lý tiếng nói (speech processing), dịch máy (machine translation) trích rút , trích rút thông tin (information extraction), giao diện hội thoại = NNTN (dialog interface), hỏi đáp (question answering) z Ứng dụng hiện nay: sửa lỗi chính tả, phân loại văn bản,

    pdf13 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 902 | Lượt tải: 0

  • Bài giảng Toán rời rạc - Nguyễn Đức NghĩaBài giảng Toán rời rạc - Nguyễn Đức Nghĩa

    Ví dụ 5 (tiếp): Chúng ta có thể làm gì ? Không có thời gian để chờ Do not waste time unless you are a genius to save the world Mục đích khiêm tốn hơn Với xác suất 90%, có thể tìm được hành trình tối ưu Thuật toán tìm hành trình không tồi hơn 1.1 lần hành trình tối ưu

    ppt33 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 1352 | Lượt tải: 1

  • Bài giảng Lý thuyết tổ hợp - Chương 4: Bài toán tối ưu tổ hợpBài giảng Lý thuyết tổ hợp - Chương 4: Bài toán tối ưu tổ hợp

    The largest solved instance of the traveling salesman problem consists of a tour through 85,900 cities in a VLSI application that arose in Bell Laboratories in the late 1980s. The computation with Concorde was carried out in 2005/06 and reported in the book The Traveling Salesman Problem: A Computational Study. The instance is called pla85900 in G...

    ppt93 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 938 | Lượt tải: 0

  • Bài giảng Lý thuyết tổ hợp - Chương 3: Bài toán liệt kê tổ hợpBài giảng Lý thuyết tổ hợp - Chương 3: Bài toán liệt kê tổ hợp

    Đánh số các cột và dòng của bàn cờ từ 1 đến n. Một cách xếp hậu có thể biểu diễn bởi bộ có n thành phần (a1, a2 ,., an), trong đó ai là toạ độ cột của con Hậu ở dòng i. Các điều kiện đặt ra đối với bộ (a1, a2 ,., an): ai  aj , với mọi i  j (nghĩa là hai con hậu ở hai dòng i và j không được nằm trên cùng một cột); | ai – aj |  | i – j |, với...

    ppt142 trang | Chia sẻ: huongthu9 | Ngày: 18/08/2021 | Lượt xem: 879 | Lượt tải: 0