Luận văn Xây dựng hệ thống học linh hoạt với tương tác người dùng cho bài toán so khớp ontology

XÂY DỰNG HỆ THỐNG HỌC LINH HOẠT VỚI TƯƠNG TÁC NGƯỜI DÙNG CHO BÀI TOÁN SO KHỚP ONTOLOGY TÔ HOÀI VIỆT Trang nhan đề Lời cảm ơn Mục lục Danh mục các ký hiệu, các chữ viết tắt Mở đầu Chương_1: Ontology Chương_2: Bài toán so khớp Ontology Chương_3: Học máy và so khớp Ontology Chương 4: Hệ thống học linh hoạt với tương tác người dùng cho bài toán so khớp Ontology Chương_5: Thử nghiệm và đánh giá Phụ lục Tài liệu tham khảo 1 Mục lục Mục lục . 1 Danh mục các ký hiệu, các chữ viết tắt 4 Danh mục các bảng 5 Danh mục các hình vẽ, đồ thị . 6 MỞ ĐẦU 7 Chương 1 ONTOLOGY . 11 1.1 Định nghĩa 11 1.2 Các thành phần của ontology 11 1.2.1 Cá thể . 11 1.2.2 Lớp . 12 1.2.3 Thuộc tính 13 1.2.4 Quan hệ 14 1.3 Mã hoá các ontology . 16 1.4 Tóm tắt 20 Chương 2 BÀI TOÁN SO KHỚP ONTOLOGY . 21 2.1 Bài toán Ví dụ . 22 2.2 Phát biểu Bài toán . 23 2.3 Ứng dụng của So khớp ontology 25 2.4 Các kỹ thuật Cơ bản . 25 2.4.1 Các kỹ thuật dựa trên tên . 26 2.4.2 Các kỹ thuật dựa trên cấu trúc . 282 2.4.3 Các kỹ thuật mở rộng . 29 2.4.4 Các kỹ thuật dựa trên ngữ nghĩa 30 2.5 Các Chiến lược So khớp . 30 2.6 Ontology Alignment Evaluation Innitiative . 31 2.7 Vấn đề Tương tác Người dùng trong So khớp Ontology . 33 2.8 Tóm tắt 36 Chương 3 HỌC MÁY VÀ SO KHỚP ONTOLOGY . 37 3.1 Các phương pháp học máy . 37 3.1.1 Học có giám sát 37 3.1.2 Học bán giám sát 40 3.2 Học máy trong So khớp Ontology 42 3.2.1 Bài toán So khớp Ontology như là một Bài toán học máy 43 3.2.2 Các nghiên cứu có liên quan 45 Chương 4 HỆ THỐNG HỌC LINH HOẠT VỚI TƯƠNG TÁC NGƯỜI DÙNG CHO BÀI TOÁN SO KHỚP ONTOLOGY . 49 4.1 Xây dựng Vector Tương tự 50 4.1.1 Độ tương tự của Từ 52 4.1.2 Độ tương tự của Danh sách Từ 57 4.1.3 Độ tương tự của Phân cấp Khái niệm 58 4.2 Hệ thống Học Linh hoạt cho So khớp Ontology 59 4.2.1 Bộ học cơ sở 60 4.2.2 Học Bán giám sát và Học chủ động với Phản hồi Người dùng . 61 Chương 5 THỬ NGHIỆM VÀ ĐÁNH GIÁ 63 5.1 Môi trường Thử nghiệm Chung . 633 5.1.1 Dữ liệu Thử nghiệm . 63 5.1.2 Độ đo Đánh giá 65 5.2 Thử nghiệm 1 (Học có giám sát) 67 5.3 Thử nghiệm 2 (Học bán giám sát kết hợp học chủ động) 69 5.4 Thảo luận 71 5.5 Kết luận và Hướng phát triển . 72 TÀI LIỆU THAM KHẢO 75 PHỤ LỤC A . 78 PHỤ LỤC B . 81

pdf12 trang | Chia sẻ: maiphuongtl | Lượt xem: 1659 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Luận văn Xây dựng hệ thống học linh hoạt với tương tác người dùng cho bài toán so khớp ontology, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
37 Chương 3 HỌC MÁY VÀ SO KHỚP ONTOLOGY 3.1 Các phương pháp học máy Học máy là một lĩnh vực thuộc ngành trí tuệ nhân tạo liên quan đến việc thiết kế và phát triển các thuật toán cho phép máy tính cải thiện hiệu quả qua thời gian dựa trên dữ liệu. Tuỳ thuộc vào tính chất của dữ liệu huấn luyện, các thuật toán máy học được chia thành ba nhóm. Nhóm thứ nhất là nhóm các thuật toán học có giám sát (supervised learning), huấn luyện trên tập mẫu được gán nhãn, thường được sử dụng trong các bài toán phân lớp hoặc nội suy. Nhóm thứ hai là các thuật toán học không giám sát (unsupervised learning), sử dụng các thuật toán gom cụm để khai thác các cấu trúc vốn có trong dữ liệu chưa gán nhãn. Nhóm các phương pháp học bán giám sát (semi-supervised learning), sử dụng cả các mẫu gán nhãn và chưa gán nhãn trong quá trình gán nhãn. Các thuật toán này quan tâm đến các tập dữ liệu mà tập mẫu gán nhãn chỉ chiếm một phần nhỏ (từ một đến vài mẫu trong mỗi lớp), trong đó a) không đạt được đủ số mẫu cần thiết để đạt được độ tin cậy cao và b) không cho phép tích hợp các thông tin biết trước vào trong quá trình học. Những tiểu mục dưới đây sẽ tóm lược một số kiến thức cơ bản về hai loại học có giám sát và bán giám sát. 3.1.1 Học có giám sát Trong các thuật toán học có giám sát, dữ liệu huấn luyện bao gồm các cặp đối tượng đầu vào (thường là các vector) và kết xuất mong muốn tương ứng. Các kết xuất có thể là một giá trị liên tục hoặc có thể dự đoán nhãn lớp của đối tượng đầu vào. Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho bất kỳ đối tượng đầu vào sau khi nhìn qua một số mẫu huấn luyện (các cặp đầu vào và kết xuất mục tiêu). Để đạt điều này, chương trình học phải tổng quát hoá từ những dữ liệu cho trước và đưa ta đến những tình huống chưa thấy theo một cách thức “hợp lý”. Các chương trình phân loại được dùng rộng rãi là Mạng Nơ- ron hìn trên nha tả m đượ vào qua lan hiệ thu và với hiể liên chi khô Nhân tạo, h Hỗn hợp Mạng Nơ- mạng nơ- u và xử lý ột mạng c sử dụng , các giá tr nút ẩn và truyền tiến n bằng sự ộc các lớp. các siêu ph người sử d u thấu đáo Các Suppo hệ với nh ều, một Sup ng gian đó Support V Gauss. ron Nhân ron sinh h thông tin d nơ-ron lan trong các ị của vecto cho kết xu và dùng t lan truyền Mạng nơ-r ẳng phân b ụng, ý ngh được. Hình rt Vector M au. Xem d port Vecto sao cho n ector Mach tạo là một ọc. Nó bao ùng một cá truyền tiến bài toán ph r đầu vào q ất của mạng rong pha p ngược sai on nhân tạ iệt phức tạ ĩa của các 3.1. Mạng achine (S ữ liệu đầu r Machine ó tối đa ho 38 ine, k-láng mô hình to gồm một n ch tiếp cận nhiều lớp ân lớp. M ua các nút qua các n hân lớp đố số để điều o có ưu điể p nhưng m tham số tro lan truyền VM) là một vào như h sẽ xây dựn á biên lề g giềng gần án học hay hóm các n kết nối để , loại mạng ạng nơ-ron ở lớp nhập út xuất. Qu i tượng. Q chỉnh trọn m có thể gi ô hình của ng mô hìn tiến nhiều họ các thu ai tập vect g một siêu iữa hai tập nhất, Naïv mô hình t ơ-ron nhân tính toán. nơ-ron ph này nhận , lan truyền á trình trên uá trình họ g số kết nố úp xác định nó là một h lại không lớp ật toán học or trong kh phẳng ph dữ liệu. Đ e Bayes, M ính toán dự tạo nối vớ Hình 3.1 m ổ biến nh tín hiệu đầ các tín hiệ được gọi c được thự i giữa nod các hàm s hộp đen đ thể dễ dàn có giám s ông gian n ân biệt tron ể tính lề, h ô a i ô ất u u là c e ố ối g át - g ai siêu phâ Hìn kho lớn thu toá trư giả chấ huấ dụn phư Bay nào Bay phẳng so n biệt và c h 3.2). Mộ ảng cách l thì sai số ật toán phâ n có thể gi ng biến đổi H Thuật toá n dựa trên v t rõ ràng c n luyện rất g thực tế, ơng pháp k es mà khô . Dù thiết es thường ng song đư húng được t cách trự ớn nhất đế tổng quát h n lớp tuyến úp tìm ra c . Và đây ch ình 3.2. Si đượ n phân lớp iệc áp dụn ủa mô hìn hiệu quả t việc ước l hả suất tối ng cần tin kế chất phá hoạt động ợc xây dự đẩy về ph c quan, mộ n các điểm oá của bộ tính, nhưn ác siêu phẳ ính là điểm êu phẳng lề c huấn luyệ Naïve Bay g định lý B h xác suất rong một m ượng tham đại; nói cá vào xác suấ c và các g tốt hơn m 39 ng, mỗi cá ía hai tập d t phân biệ lân cận củ phân lớp c g nhờ việc ng phân bi nổi bật củ tối đại và n với các m es là một ayes với gi , các bộ ph ôi trường số cho cá ch khác, ng t Bayes ha iả định quá ong đợi tro i nằm ở m ữ liệu (xem t tốt thu đ a cả hai lớ àng tốt hơn áp dụng củ ệt phi tuyế a các SVM các biên ch ẫu từ hai l thuật toán ả định độc ân lớp Na học có giá c mô hình ười ta có t y dùng bất đơn giản, ng nhiều tì ột phía của ví dụ min ược bởi si p, vì nói ch . SVM ban a các hàm n trong khô . o một SVM ớp phân lớp x lập mạnh. ïve Bayes m sát. Tron Naïve Ba hể dùng m kỳ phương các bộ phâ nh huống t siêu phẳn h hoạ tron êu phẳng c ung lề càn đầu là m kernel, thu ng gian đặ ác suất đơ Dựa vào bả có thể đượ g nhiều ứn yes sử dụn ô hình Naïv pháp Baye n lớp Naïv hế giới thự g g ó g ột ật c n n c g g e s e c 40 phức tạp. Một ưu điểm của thuật toán phân lớp Naïve Bayes là nó đòi hỏi ít dữ liệu huấn luyện để ước lượng các tham số cần thiết để phân lớp. Thuật toán k-láng giềng gần nhất là thuật toán đơn giản nhất trong số các thuật toán học máy. Một đối tượng được phân loại bằng một cuộc bỏ phiếu đa số giữa các láng giềng của nó và đối tượng sẽ được gán lớp có nhiều có nhiều đối tượng chung nhất trong số k láng giềng gần nhất. k là một số nguyên dương, thường là số nhỏ. Nếu k = 1, đối tượng sẽ đơn giản được gán cho lớp của láng giềng gần nó nhất. Trong bài toán phân loại hai lớp, việc chọn k là số lẻ sẽ hữu ích giúp tránh được trường hợp số phiếu bầu bằng nhau. 3.1.2 Học bán giám sát Về cơ bản, các thuật toán học bán giám sát sử dụng các mẫu dữ liệu chưa gán nhãn để làm giàu cho tập huấn luyện bằng cách từ từ gán nhãn cho chúng dựa vào ước lượng từ tập mẫu gán nhãn ban đầu. Hình 3.3 minh hoạ một ví dụ trực quan cho phương pháp học bán giám sát. Bởi vì chúng ta chỉ có một mẫu đen và một mẫu sọc biểu diễn cho hai lớp, khó mà quyết định mẫu trắng chưa gán nhãn sẽ thuộc lớp nào. Nhưng với sự hiện diện của các mẫu xám chưa biết, mẫu trắng có thể được phân vào lớp đen với độ chính xác cao hơn. Một số phương pháp học bán giám sát tiêu biểu là: EM (Expectation Maximization) với mô hình sinh hỗn hợp, tự huấn luyện, huấn luyện cộng tác, transductive support vector machine và các phương pháp đồ thị. Các nghiên cứu tổng quan về các phương pháp này được giới thiệu trong [23], [16]. Các thuật toán học bán giám sát dựa trên giả định phân phối của dữ liệu chưa biết và phân phối của dữ liệu đã biết là như nhau hoặc giả định nhất quán (consistent assumption), các điểm dữ liệu ở gần nhau trong không gian metric hoặc có cấu trúc gần giống nhau sẽ có cùng nhãn. Mô hình sinh có lẽ là phương pháp học bán giám sát sớm nhất. Nó giả định phân phối của các điểm dữ liệu thuộc các phân lớp là phân phối hỗn hợp đồng nhất, ví dụ tuân theo mô hình hỗn hợp Gauss. Với số lượng lớn dữ liệu chưa gán nhãn, các thành phần hỗn hợp có thể được xác định; sau đó một cách lý tưởng 41 chúng ta chỉ cần một mẫu gán nhãn trên mỗi thành phần cũng đủ xác định phân phối hỗn hợp. Tự huấn luyện là kỹ thuật được sử dụng được dùng nhiều nhất cho học bán giám sát. Trong tự huấn luyện một bộ phân lớp đầu tiên được huấn luyện với một lượng nhỏ dữ liệu gán nhãn. Bộ phân lớp sau đó được dùng để phân loại các dữ liệu chưa gán nhãn. Thông thường những điểm được gán nhãn với độ tin cậy cao nhất cùng với những nhãn dự đoán của nó sẽ được thêm vào tập huấn luyện. Bộ phân lớp được huấn luyện lại và thủ tục trên lặp lại. Lưu ý rằng bộ phân lớp dùng dự đoán của chính nó để dạy lại nó. Mô hình sinh và thuật toán EM có thể xem là một trường hợp đặc biệt của tự huấn luyện mềm. Người ta có thể nghĩ rằng một lỗi phân lớp có thể tăng cường thêm chính nó. Một số thuật toán cố gắng loại lỗi này bằng cách “không học” những điểm chưa gán nhãn nếu độ tin cậy dự đoán xuống dưới một ngưỡng nào đó. Huấn luyện cộng tác giả định rằng (i) các đặc trưng có thể được chia thành hai tập; (ii) mỗi tập đặc trưng phụ là đủ để huấn luyện một bộ phân lớp tốt; (iii) hai tập là độc lập có điều kiện cho trước phân lớp. Đầu tiên hai bộ phân lớp độc lập được huấn luyện với dữ liệu gán nhãn, trên hai tập đặc trưng phụ tương ứng. Mỗi bộ phân lớp sau đó sẽ phân lớp dữ liệu chưa gán nhãn và “dạy” bộ phân lớp kia với một vài mẫu chưa gán nhãn (vùng với nhãn dự đoán của nó) mà chúng cảm thấy tin cậy nhất. Mỗi bộ phân lớp được huấn luyện với mẫu huấn luyện bổ sung cho bởi bộ phân lớp kia và quá trình lặp lại. Transductive support vector machine (TSVM) là một mở rộng của support vector machine chuẩn với dữ liệu chưa gán nhãn. Trong một SVM chuẩn chỉ có dữ liệu gán nhãn được dùng và mục tiêu là tìm một biên tuyến tính có lề tối đại sọc hay đen? đen Hình 3.3. Ví dụ về trường hợp học bán giám sát. 42 trong không gian. Trong TSVM dữ liệu chưa gán nhãn cũng được dùng. Mục tiêu là tìm một gán nhãn của các dữ liệu chưa gán nhãn, sao cho tồn tại một biên tuyến tính có lề tối đại trên cả dữ liệu gán nhãn ban đầu và dữ liệu chưa gán nhãn. Biên quyết định có sai số tổng quát hoá nhỏ nhất giới hạn trên dữ liệu chưa gán nhãn. Hình 3.4 minh hoạ trực quan cho trường hợp TSVM, dữ liệu chưa gán nhãn hướng dẫn biên tuyến tính ra xa khỏi vùng có mật độ dữ liệu dày. Chỉ với dữ liệu gán nhãn, biên lề tối đại là đường chấm chấm. Với thêm các dữ liệu chưa gán nhãn (các điểm đen), biên lề tối đại là đường thẳng màu đen. 3.2 Học máy trong So khớp Ontology Những kỹ thuật học máy rút trích được tri thức tự động từ dữ liệu. Do đó, những kỹ thuật này có ý nghĩa khi chúng ta cần giải quyết các bài toán mà lượng dữ liệu nhiều đến mức tràn ngập, không cho phép xử lý bằng tay và các hệ thống tự động cũng chưa đưa ra được kết quả cao, chẳng hạn như trong bài toán so khớp ontology [17]. Tiểu mục đầu tiên trong phần này trình bày biểu diễn bài toán so khớp ontology như một bài toán học máy có thể được giải quyết trong một mô hình học tổng quát Cách biểu diễn và mô hình học này được giới thiệu trong [11]. Tiểu mục tiếp theo giới thiệu các công trình liên quan đến việc nghiên cứu học máy trong bài toán so khớp ontology cùng với vấn đề được giải quyết trong luận văn này. Hình 3.4. Một ví dụ về Tranductive SVM 43 3.2.1 Bài toán So khớp Ontology như là một Bài toán học máy Trong nghiên cứu này, luận văn quan tâm đến bài toán so khớp ontology với khái niệm tương ứng đơn giản, nghĩa là quan hệ giữa hai khái niệm được định nghĩa là quan hệ tương đương với độ tin cậy nhận giá trị 0 hoặc 1. Để giải quyết bài toán so khớp ontology, hệ thống tổ hợp các khái niệm giữa những ontology khác nhau. Trong trường hợp này, vấn đề là xác định giá trị của những cặp tổ hợp này. Nói cách khác, bài toán so khớp ontology bao gồm việc định nghĩa giá trị của các cặp khái niệm trong một ma trận cặp khái niệm, như trình bày trong Hình 3.5. Các dòng của ma trận biểu diễn các khái niệm của Ontology A, đó là Ca1, Ca2 và Ca3 và các cột của ma trận biểu diễn các khái niệm của Ontology B: Cb1, Cb2 và Cb3. Giá trị của ma trận biểu diễn giá trị của ánh xạ. Giá trị 1 khi hai khái niệm có thể được ánh xạ và giá trị 0 khi hai khái niệm không thể được ánh xạ. Ví dụ, giá trị ở dòng thứ hai và cột thứ ba của ma trận biểu diễn giá trị của ánh xạ đối cho Ca2 của Ontology A và Cb3 của Ontology B. Ánh xạ cụ thể này là không hợp lệ bởi vì giá trị trong ma trận là 0. Câu hỏi tiếp theo là cần thông tin gì để suy ra được ma trận. Như đã trình bày trong Chương 2, kỹ thuật cơ bản để xác định được ánh xạ giữa hai cặp khái niệm của hai ontology là sử dụng các độ đo tương tự. Chúng ta có thể sử dụng một độ đo khái niệm, ví dụ độ tương tự dựa trên tên, sử dụng so sánh chuỗi, hoặc các độ đo khác. Tuy nhiên, một độ đo tương tự duy nhất là không đủ để xây dựng được ma trận bởi tính đa dạng của các ontology. Ví dụ, xét trường hợp khái niệm “bank” giữa hai ontology. Các khái niệm trên dường như là một cặp tương ứng nếu dùng độ đo tương tự dựa trên chuỗi. Tuy nhiên, khi một khái niệm trong một ontology có khái niệm cha là “finance” và một khái niệm trong ontology kia có khái niệm cha là “construction”, hai khái niệm này không phải là một tương ứng đúng vì chúng diễn tả những khái niệm khác nhau. Trong trường hợp như thế, một độ đo tương tự khác của các khái niệm. Do đó, hệ thống cần dùng nhiều độ đo tương tự để xác định các ánh xạ đúng. 44 Hình 3.5. Biểu diễn ma trận của bài toán so khớp ontology [11] Như vậy để xác định giá trị cho ma trận so khớp, đầu tiên cần định nghĩa một vector tương tự sử dụng nhiều độ đo tương tự. Kết quả là ta có thể xây dựng được một bảng biểu diễn cho bài toán này như trình bày trong Bảng 3.1. Cột ID trong bảng đại diện cho một cặp khái niệm: Class biểu diễn giá trị của tương ứng và các cột ở giữa biểu diễn độ tương tự giữa các khái niệm. Ví dụ, dòng đầu tiên của bảng biểu diễn tương ứng cho Ca1 và Cb1 có giá trị tương tự 0.75 cho độ đo tương tự 1. Khi biết một số ánh xạ, ví dụ Ca1 ⇔ Cb1 và Ca1 ⇔ Cb2, hệ thống có thể dùng những ánh xạ này để xác định độ quan trọng của các độ đo tương tự. Sau đó, hệ thống có thể quyết định giá trị ánh xạ cho những cặp chưa biết ví dụ Ca5 ⇔ Cb7 bằng cách dùng độ quan trọng của các độ đo tương tự. Bảng ví dụ 3.1 này tương tự như bài toán trong một hệ thống học máy có giám sát. Do đó, bài toán so khớp ontology có thể được chuyển thành một bài toán học máy. Bảng 3.1. Biểu diễn dạng bảng của bài toán so khớp ontology ID Độ tương tự 1 Độ tương tự 2 … Độ tương tự n Lớp Ca1 ⇔ Cb1 0.75 0.4 … 0.38 1 (Dương) Ca1 ⇔ Cb2 0.52 0.7 … 0.42 0 (Âm) … … … … … … Ca5 ⇔ Cb7 0.38 0.6 … 0.25 ? … … … … … … Cb1 Cb2 Cb3 Ca1 1 0 0 Ca2 1 1 0 Ca3 0 0 1 Ca3 Ca1 Ca2 Ontology A Ontology B Cb1 Cb3Cb2 45 3.2.2 Các nghiên cứu có liên quan Ngoài mô hình học tổng quát từ [11] như được trình bày ở trên, cách tiếp cận học máy cũng được giới thiệu trong một vài công trình có liên quan đến bài toán so khớp ontology. Agrawal và Srikant [1] giới thiệu mô hình ENB (Enhanced Naïve Bayes) cho bài toán tích hợp các catalog hàng hoá. ENB là thuật toán cải tiến của thuật toán học cơ sở Naïve Bayes, trong đó các tác giả sử dụng các thông tin bổ sung về quan hệ giữa lớp đề hỗ trợ cho việc phân lớp các thể hiện vào các lớp của catalog. Kết quả phân tích và thử nghiệm cho thấy mô hình học cải tiến giúp cải thiện đáng kể độ chính xác của việc tích hợp dữ liệu. Wang và cộng sự [19] giới thiệu hệ thống cũng giới thiệu một hệ thống so khớp ontology trong đó sử dụng nội dung của các thể hiện để xây dựng độ đo tương tự giữa các khái niệm. Tiếp đó, sử dụng nhân lực để gán nhãn bằng tay cho các cặp khái niệm chọn lọc, họ xây dựng một tập dữ liệu huấn luyện mẫu và sử dụng phương pháp Markov Random Field để làm bộ học phân lớp cho bài toán so khớp các bộ chỉ mục thư viện tại Thư viện Quốc gia Hà Lan. Trong hệ thống này, các tác giả sử dụng thông tin là các trường siêu dữ liệu mô tả cho các đối tượng sách và đa phương tiện làm cơ sở để tính độ đo tương tự. Thông tin này được dùng riêng trong trường hợp của tác giả nhưng có thể dễ dàng tích hợp vào các hệ thống học máy tổng quát như [11], các thông tin này có sẵn trong một số bài toán so khớp khác. Doan và cộng sự [7] giới thiệu GLUE là hệ thống so khớp ontology trong đó sử dụng kỹ thuật học trong một số bước để xây dựng độ tương tự giữa các khái niệm. GLUE cũng sử dụng nhiều bộ học bao gồm các bộ học trên các loại dữ liệu khác nhau và một bộ siêu học để lựa chọn đặc trưng tương tự cho các bước so khớp tiếp theo. Hình 3.6 mô tả kiến trúc tổng quát của GLUE. 46 Hình 3.6. Kiến trúc của GLUE [7] Jeong và cộng sự [14] giới thiệu một mô hình học cho bài toán tổng quát cho bài toán so khớp các lược đồ XML. Mô hình này cũng tương tự như mô hình được giới thiệu trong [11] bao gồm việc xây dựng vector tương tự nhiều đặc trưng và áp dụng các chiến lược học khác nhau. Các tác giả cũng thử nghiệm các phương pháp học khác nhau trên hệ thống bao gồm học cả học có giám sát và bán giám sát. Các thuật toán học máy có giám sát cần sử dụng một tập dữ liệu đã được gán nhãn để huấn luyện mô hình, việc này thường gây tốn kém vì chi phí nhân công cho việc gán nhãn cao. Hơn nữa, do đặc thù đa dạng của các môi trường ứng dụng so khớp ontology thực tế, hệ thống học cần sử dụng một tập dữ liệu huấn luyện riêng nhận từ người dùng cuối cho từng bài toán. Do đó, việc giới hạn kích thước tập huấn luyện là cần thiết để bảo đảm sự hài lòng của người dùng. Những Base Learner LkBase Learner L1 Meta Learner M Joint Distributions: P(A,B), P(A, not B) Taxonomy O2 (tree structure + data instance) Similariy function Similarity Estimator Relaxation Labeler Similarity Matrix Common knowledge & Domain constraints Mapping for O1, Mapping for O2 Taxonomy O1 (tree structure + data instance) 47 người dùng cuối thường không sẵn lòng để gán nhãn hàng ngàn mẫu dữ liệu khác nhau như yêu cầu của các hệ thống học máy. Trong trường hợp số mẫu huấn luyện được giới hạn đến mức ít nhất, hệ thống sử dụng phương pháp học bán giám sát kết hợp với học chủ động để giải quyết vấn đề số mẫu huấn luyện ít hơn nhiều so với số mẫu cần dự đoán. APPEL [8] cũng là một hệ thống học máy tương tự như [11], nhưng hệ thống này đòi hỏi việc sử dụng các ontology khác cũng như yêu cầu người dùng thẩm định là một số cặp so khớp hạt giống được phát sinh tự động trước sử dụng chúng làm tập huấn luyện cho mô hình. Hệ thống này có thể đáp ứng về mặt hiệu quả đối với chương trình nhưng gây khó khăn đối với những người dùng không chuyên do phải cung cấp một số tham số chuyên môn như độ tin cậy của tương ứng. Có một điểm lưu ý khi sử dụng phương pháp học bán giám sát là cần thiết lập một môi trường thích hợp để sử dụng. Qua thử nghiệm, Jeong và cộng sự [14] nhận thấy các thuật toán học bán giám sát không thực sự cho kết quả cải thiện đáng kể so với các thuật toán học có giám sát. Điều này có thể lý giải do môi trường thử nghiệm không thật sự thích hợp với các thuật toán học bán giám sát, cụ thể số mẫu gán nhãn không thực sự vượt trội so với số mẫu gán nhãn (190 mẫu chưa gán nhãn trên 60 mẫu gán nhãn). Ngoài ra, việc mẫu chưa gán nhãn có thể là giảm hiệu quả học trong các thuật toán học bán giám sát cũng được ghi nhận trong [6]. Tian và cộng sự [18] xem xét hiện tượng này qua việc khảo sát hiệu quả của các thuật toán học trong các điều kiện phân phối xác suất của các tập dữ liệu có gán nhãn (L) và tập dữ liệu chưa gán nhãn (U). Với tình huống giả định về phân phối dữ liệu thoả, tức là PL = PU, dữ liệu chưa gán nhãn giúp nâng cao hiệu quả học của các các học bán giám sát. Trong trường hợp PL ≠ PU, việc thay đổi của hiệu quả là không đoán trước. Tuy nhiên, ngược với những ghi nhận trên, Zhou và cộng sự [22] đề xuất một mô hình học cộng tác trong bài toán truy vấn ảnh với phản hồi người dùng. 48 Thử nghiệm cho thấy mô hình được đề xuất cho hiệu quả cao hơn các mô hình học có giám sát do ảnh hưởng của kích thước tập huấn luyện nhỏ. Với những thông tin trên, luận văn đề xuất mở rộng mô hình học tổng quát trong [11] thành một hệ thống học linh hoạt trong đó bổ sung phương pháp học bán giám sát kết hợp học chủ động vào mô hình để xử lý cho trường hợp phản hồi người dùng.

Các file đính kèm theo tài liệu này:

  • pdf7.pdf
  • pdf0.pdf
  • pdf1.pdf
  • pdf10.pdf
  • pdf11.pdf
  • pdf2.pdf
  • pdf3.pdf
  • pdf4.pdf
  • pdf5.pdf
  • pdf6.pdf
  • pdf8.pdf
  • pdf9.pdf
Tài liệu liên quan