Luận văn Logic mô tả và ứng dụng trong cơ sở dữ liệu

MỤC LỤC LỜI CAM ĐOAN .1 LỜI CÁM ƠN .2 MỤC LỤC .3 DANH SÁCH CÁC BẢNG 6 DANH SÁCH CÁC HÌNH .6 LỜI GIỚI THIỆU 7 Chương 1. LOGIC MÔ TẢ .10 1.1. GIỚI THIỆU .10 1.2. NGÔN NGỮ THUỘC TÍNH AL .11 1.2.1. Ngôn ngữ mô tả cơ bản AL 11 1.2.2. Ngữ nghĩa của các khái niệm AL .12 1.2.3. Họ ngôn ngữ logic mô tả AL 13 1.2.4. Ngôn ngữ mô tả là tập con của logic vị từ bậc nhất .15 1.3. HỆ CƠ SỞ TRI THỨC .15 1.3.1. Kiến trúc hệ logic mô tả .15 1.3.2. Bộ thuật ngữ (TBox) 16 1.3.2.1. Tiên đề thuật ngữ . 16 1.3.2.2. Định nghĩa khái niệm . 17 1.3.2.3. Mở rộng bộ thuật ngữ 20 1.3.2.4. Đệ quy 22 1.3.2.5. Thuật ngữ với các tiên đề bao hàm 22 1.3.3. Bộ khẳng định (ABox) .23 1.3.4. Cá thể 25 -4- 1.3.5. Suy luận 26 1.3.5.1. Lập luận đối với khái niệm 26 1.3.5.2 Loại trừ TBox . 28 1.3.5.3. Lập luận đối với ABox 29 1.3.5.4. Ngữ nghĩa “đóng”, ngữ nghĩa “mở” 30 1.4. CÁC THUẬT TOÁN SUY LUẬN 33 1.4.1. Thuật toán bao hàm cấu trúc 33 1.4.2. Thuật toán tableau 35 1.5. MỞ RỘNG NGÔN NGỮ MÔ TẢ .41 1.5.1. Các constructor vai trò .41 1.5.2. Biểu diễn các giới hạn số .42 1.6. NGÔN NGỮ DATALOG 42 1.6.1. Các khái niệm và thành phần của Datalog .43 1.6.2. Cú pháp của chương trình Datalog 44 1.7. TỔNG KẾT CHƯƠNG 46 Chương 2. SƠ LƯỢC VỀ CƠ SỞ DỮ LIỆU .48 2.1. MÔ HÌNH THỰC THỂ - QUAN HỆ .48 2.2. MÔ HÌNH HƯỚNG ĐỐI TƯỢNG 52 2.3. TỔNG KẾT CHƯƠNG 56 Chương 3. CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU THÀNH CƠ SỞ TRI THỨC CỦA LOGIC MÔ TẢ 57 3.1. MÔ HÌNH HOÁ LƯỢC ĐỒ THỰC THỂ - QUAN HỆ BẰNG LOGIC MÔ TẢ 57 3.2. MỞ RỘNG KHẢ NĂNG BIỂU DIỄN CỦA NGÔN NGỮ MÔ HÌNH HOÁ .63 3.2.1. Tổng quát hoá thực thể .63 3.2.2. Lọc các tính chất thuộc một cấu trúc IS-A .64 -5- 3.3. BIỂU DIỄN MÔ HÌNH DỮ LIỆU HƯỚNG ĐỐI TƯỢNG BẰNG LOGIC MÔ TẢ .64 3.4. CHUYỂN DỮ LIỆU TỪ CƠ SỞ DỮ LIỆU VÀO ABOX CỦA LOGIC MÔ TẢ .66 3.5 TỔNG KẾT CHƯƠNG .72 Chương 4. TRUY VẤN 73 4.1. NGUYÊN TỬ TRUY VẤN, ĐỐI TƯỢNG, CÁ THỂ VÀ BIẾN 73 4.1.1. Nguyên tử truy vấn khái niệm 73 4.1.2. Nguyên tử truy vấn vai trò .74 4.2. TRUY VẤN PHỨC HỢP .75 4.3. HỖ TRỢ MÔ TẢ - ĐỊNH NGHĨA VÀ THUẬT TOÁN .76 4.4. TỔNG KẾT CHƯƠNG 78 KẾT LUẬN .79 CÁC THUẬT NGỮ 80 TÀI LIỆU THAM KHẢO .82

84 trang | Chia sẻ: maiphuongtl | Lượt xem: 2163 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận văn Logic mô tả và ứng dụng trong cơ sở dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

sở dữ liệu, nhưng chưa thật phổ biến trong các hệ thống cơ sở dữ liệu thương mại. -43- 1.6.1. Các khái niệm và thành phần của Datalog Vì Datalog là một ngôn ngữ con của Prolog nên các thành phần chủ yếu của Datalog tương tự với Datalog. Bây giờ ta sẽ xem xét cụ thể các thành phần của Datalog. - Vị từ (predicate) là một hàm với một hoặc nhiều tham số. Tham số của vị từ là phối hợp của miền vị từ. - Biến (variable) là một tham số của vị từ. Trong Datalog có hai loại biến, biến được đặt tên và biến vô danh. Biến vô danh được ký hiệu bằng dấu "_". Trình biên dịch sẽ tự gắn các định danh duy nhất cho từng biến vô danh. - Hạng thức (term) là biến hoặc hằng. Hạng thức được gọi là phức nếu nó chứa các biểu thức (chẳng hạn biểu thức số học), ngược lại được gọi là đơn giản. Trong Datalog chỉ chứa các hạng thức đơn giản. - Nguyên tử (atom) là vị từ trong chương trình. Nguyên tử bao gồm tên vị từ và danh sách hạng thức. Ví dụ, p(X,Y). Các nguyên tử có cùng tên liên quan đến cùng vị từ. Nguyên tử được gọi là cơ sở (ground) nếu nó chỉ chứa các hằng. Mỗi nguyên tử phải được xác lập bằng một vị từ của nó. Trong phạm vị của Datalog điều đó có nghĩa là số ngôi của vị từ và số ngôi của nguyên tử có tên của vị từ này phải trùng nhau. - Literal là nguyên tử - p(X1,...,Xn) hoặc phủ định của nguyên tử - not p(X1,...,Xn). Nguyên tử được gọi là literal khẳng định, sự phủ định nguyên tử được gọi là literal phủ định. - Sự kiện (Fact) là literal khẳng định. Sự kiện cơ sở không chứa các biến. - Luật là tập các literal mà có nhiều nhất một literal khẳng định. Đôi khi luật được coi như tập có thứ tự các literal. - Đích (goal) là tập các literal phủ định. Đích được gọi là đơn giản nếu nó có một literal. -44- - Vị từ mở rộng (Extensional predicate) là vị từ, mà miền của nó được lập trực tiếp bằng sự trợ giúp của các sự kiện cơ sở. Tập các vị từ mở rộng tạo lên cơ sở dữ liệu mở rộng (EDB). - Vị từ tăng cường (Intensional predicate) được xác định không rõ ràng bằng sự có mặt của vị từ luật mà được tính toán khi chương trình thực hiện. Tập các vị từ tăng cường tạo nên cơ sở dữ liệu tăng cường (IDB). - Đầu luật (vị từ đầu) là literal khẳng định của luật. Đầu của luật không thể mở rộng. - Thân luật là tập tất cả các literal phủ định của luật. Tất cả các biến được đề cập ở đầu luật cũng được đề cập trong các vị từ của thân luật (là các tham số). - Mô hình là kết quả của việc thực hiện chương trình. Mô hình của chương trình logic bao gồm các sự kiện mở rộng và các sự kiện tăng cường được tính toán. 1.6.2. Cú pháp của chương trình Datalog Chương trình Datalog có cú pháp tương tự chương trình Prolog. Luật Datalog có cú pháp như sau: "luật" ::= "đầu luật" :- "thân luật" "đầu luật" ::= "vị từ" "thân luật" ::= "vị từ" [, "thân luật"] "vị từ" ::= "TÊN VỊ TỪ" ("danh sách tham số") "danh sách tham số" ::= "tham số" [, "danh sách tham số"] "tham số" ::= "HẰNG" | "biến" "biến" ::= "TÊN BIẾN" | "biến vô danh" "biến vô danh" ::= _ Sự kiện của Datalog là tập như sau: "sự kiện" ::= "TÊN VỊ TỪ" ("danh sách hằng") -45- "danh sách hằng" ::= "HẰNG" [, "danh sách hằng"] Đích của Datalog: "đích" ::= ? "danh sách vị từ" "danh sách vị từ" ::= "vị từ" [,"danh sách vị từ"] Các thành phần của chương trình (sự kiện, luật, đích) kết thúc bằng dấu chấm. Để giải thích rõ ràng hơn ta xét ví dụ về quan hệ gia đình. parent(peter, mary). parent(mary, paul). ancestor(X, Y) :- parent(X, Y). ancestor(X,Y) :- parent(X, Z), ancestor(Z, Y). ? ancestor(peter, X). Trong chương trình Datalog trên chứa hai vị từ nhị phân: vị từ mở rộng parent và vị từ tăng cường ancestor. Hai sự kiện được thiết lập vị từ parent: parent(peter, mary). parent(mary, paul). Vị từ ancestor được mô tả bằng hai luật: ancestor(X, Y) :- parent(X, Y). ancestor(X,Y) :- parent(X, Z), ancestor(Z, Y). Bên trái dấu ":-" là đầu luật, còn bên phải dấu ":-" là thân luật. EDB bao gồm một vị từ parent, IDB bao gồm một vị từ ancestor. Trong ví dụ có chứa một đích đơn giản: ? ancestor(peter, X). Chương trình gồm có 3 hằng: peter, mary, paul. Chỉ các biến tham số được dùng trong các luật, trong khi đích có cả biến (X) và hằng (peter). Mỗi nguyên tử của chương trình được thiết lập bằng một vị từ. Vì vậy, ancestor(peter, X), ancestor(X, Y), ancestor(Z, Y) và tất cả mọi đề cập đến vị từ parent chứa hai tham số (số ngôi của chúng bằng hai). -46- Ta thấy rằng để biểu diễn cơ sở tri thức logic mô tả bằng ngôn ngữ Datalog là việc chuyển đổi tương đối dễ dàng. Dữ liệu ABox được biểu diễn bằng các sự kiện, còn TBox ta có thể biểu diễn bằng các luật trong Datalog (Tính tương đương chuyển đổi luật của Datalog sang logic mô tả sẽ được thảo luận ở chương 4 trong thủ tục DescriptiveSupport). Ngoài ra, trong Datalog ở các phiên bản mới đây còn tăng cường thêm các phép toán, nhằm hỗ trợ cho việc biểu diễn logic mô tả được thuận lợi hơn, như các phép toán phủ định, đảo vai trò (not, inv) và các phép giới hạn số lượng (atLeastOf, atMostOf). 1.7. TỔNG KẾT CHƯƠNG Trong Chương 1 ta đã thảo luận về những khái niệm cơ bản của logic mô tả và ngôn ngữ truy vấn cơ sở tri thức Datalog. Cu thể là: • Ngôn ngữ ALC là ngôn ngữ cho phép ta xây dựng những khái niệm phức hợp từ những khái niệm và vai trò nguyên thuỷ. ALC là ngôn ngữ chuẩn, các mở rộng của ALC cung cấp cho ngôn ngữ có khả năng biểu diễn linh hoạt hơn. Các constructor được dùng để mở rộng ALC là lượng từ tồn tại (∃R), lượng từ với mọi (∀R), toán tử phủ định (:), toán tử đảo vai trò (R–) và các lượng từ giới hạn (giới hạn nhỏ nhất (≥ n), giới hạn lớn nhất (· m)). • Cùng với biểu diễn cơ sở tri thức bằng ALC thông qua các TBox và ABox, Chương này cũng đã thảo luận phép diễn dịch I được dùng để xây dựng ngữ nghĩa cho logic mô tả. • Chương 1 cũng cung cấp các dịch vụ để giả quyết các bài toán cơ bản trên logic mô tả đó là bài toán thoả, bài toán tương đương và bài toán giao. • Cuối Chương ta đã giới thiệu một ngôn ngữ cho phép xây dựng lên các ứng dụng dựa vào logic mô tả, đó là ngôn ngữ Datalog, một ngôn ngữ -47- con của Prolog. Datalog có khả năng cho phép ta xây dựng các luật (chủ yếu dựa vào biểu thức hội các hạng thức) để truy vấn các hệ cơ sở dữ liệu suy diễn. Nội dung của Chương 1 là cơ sở lý thuyết cơ bản, đồng thời cũng đã nêu được những ưu điểm (khả năng suy diễn đệ quy, biểu diễn ngữ nghĩa mở) để ta tiếp tục hướng tới bài toán ứng dụng logic mô tả để mở rộng năng lực biểu diễn trong cơ sở dữ liệu. Ở các chương tiếp theo ta sẽ hướng tới việc ứng dụng logic mô tả vào cơ sở dữ liệu. -48- Chương 2. SƠ LƯỢC VỀ CƠ SỞ DỮ LIỆU Một cơ sở dữ liệu có thể nói là một tập hợp nhất quán các dữ liệu liên quan. Cơ sở dữ liệu gần tương tự như cơ sở tri thức. Sự khác nhau chủ yếu giữa cơ sở dữ liệu và cơ sở tri thức là: đối với cơ sở dữ liệu thì người tạo tập trung vào điều tác các mô dữ liệu lớn và ổn định nhưng các dữ liệu có quan hệ đơn giản; còn cơ sở tri thức đòi hỏi phải hỗ trợ nhiều trong việc tìm kiếm câu trả lời mà không thể nói rõ được. Trong cơ sở dữ liệu, cùng với thời gian người ta đã đưa ra nhiều mô hình dữ liệu khác nhau, mỗi mô hình đều có những ưu điểm, nhược điểm nhất định. Một trong những mô hình được người ta biết đến và sử dụng nhiều nhất tại thời điểm hiện nay là mô hình dữ liệu thực thể - quan hệ (ER). Ở chương này ta sẽ thảo luận sơ lược về mô hình dữ liệu thực thể - quan hệ và mô hình dữ liệu hướng đối tượng, là một mô hình có triển vọng đang được tiếp tục nghiên cứu và ứng dụng (tuy nhiên nó vẫn chưa được các hãng phát triển hệ quản trị cơ sở dữ liệu tập trung vào nhiều). 2.1. MÔ HÌNH THỰC THỂ - QUAN HỆ Mô hình thực thể - quan hệ do Chen giới thiệu vào năm 1976, đến nay nó đã thành chuẩn và rất phổ biến trong mô hình hoá và thiết kế cơ sở dữ liệu. Các thành phần cơ bản của mô hình ER là các thực thể, các quan hệ và các tính chất. Một tập thực thể (hoặc một thực thể đơn) biểu thị một tập các đối tượng, được gọi là các trường hợp, mà chúng có các thuộc tính chung. Các tính chất cơ bản được mô hình thông qua các thuộc tính có các giá trị thuộc vào một trong các miền định sẵn như: Integer, String hoặc Boolean... Các tính chất mà thuộc vào các quan hệ với các thực thể khác được mô hình hoá thông qua việc tham gia vào thực thể trong quan hệ. Tập quan hệ (hoặc -49- một quan hệ đơn) biểu thị một tập các bộ, mỗi quan hệ biểu diễn một liên kết giữa các thành phần khác nhau của các trường hợp trong các thực thể tham gia vào quan hệ. Khi mỗi thực thể có thể tham gia vào quan hệ nhiều hơn một lần, thì ý niệm vai trò ER được đưa vào, nó miêu tả sự tham gia và một tên duy nhất được xác lập cho nó. Số ngôi của quan hệ là số lượng vác vai trò của nó. Các ràng buộc chủ yếu có thể được gắn vào vai trò ER để giới hạn số lần mỗi trường hợp của thực thể được phép tham gia thông qua vai trò ER của quan hệ. Các ràng buộc như vậy có thể được dùng để đặc tả cả sự độc lập tồn tại và chức năng của quan hệ. Chúng chỉ được dùng trong dạng giới hạn, ở đó ràng buộc chủ yếu cực tiểu hoặc là 0 hay 1 và ràng buộc cực đại hoặc là 1 hoặc ∞. Thêm vào nữa, quan hệ có tên là IS-A được dùng để diễn tả các khẳng định bao hàm giữa các thực thể, vì thế sự thừa kế các thuộc tính từ một thực thể tổng quát hơn với thực thể chuyên biệt hơn. Một lược đồ thực thể - quan hệ S được xây dựng bắt đầu từ các tập ký hiệu thực thể, các ký hiệu quan hệ (mỗi ký hiệu quan hệ với một ngôi), các ký hiệu vai trò, các ký hiệu thuộc tính và các ký hiệu miền tách rời nhau từng đôi một. Mỗi ký hiệu miền D có một miền cơ sở định nghĩa trước DBD, chúng ta giả sử rằng miền cơ sở là miền không giao nhau. Mỗi ký hiệu thực thể là một tập các ký hiệu thuộc tính được định nghĩa, và với mỗi thuộc tính như vậy thì có một ký hiệu miền duy nhất được liên kết. Mỗi ký hiệu quan hệ của ngôi k có k liên kết với các ký hiệu vai trò, mỗi ký hiệu vai trò có một ký hiệu thực thể được liên kết và định nghĩa một quan hệ giữa các thực thể này. Những ràng buộc chủ yếu được diễn đạt bằng hai hàm cminS, từ ký hiệu vai trò đến một số nguyên không âm, cmaxS, từ ký hiệu vai trò đến một số nguyên dương hợp với ký hiệu đặc biệt ∞. Quan hệ Là một (IS-A) giữa các thực thể được mô hình bằng quan hệ nhị phân vS . -50- Thông thường, biểu diễn đồ hoạ mô hình thực thể - quan hệ thì các thực thể là các hình chữ nhật, các quan hệ được biểu diễn bằng các hình thoi. Thuộc tính được thể hiện bằng vòng tròn gắn với thực thể định nghĩa nó. Các vai trò được miêu tả bằng việc kết nối quan hệ với các thực thể tham gia vào quan hệ và gắn nhãn trên đường liên kết bằng các ràng buộc liên kết chính. Quan hệ IS-A giữa hai thực thể được diễn đạt bằng một mũi tên từ thực thể chuyên biệt hơn đến thực thể khái quát hơn. Hình 2.1 biểu diễn một lược đồ ER đơn giản mô hình hoá một trường hợp tại một trường đại học. Mô tả một phần lược đồ như sau: Thực thể Course biểu diễn các khoá học mà các sinh viên đăng ký và được các giảng viên giảng dạy. Ràng buộc được dùng để giới hạn số lượng sinh viên đăng ký vào một khoá là từ 10 đến 50, số lượng khoá học mà mỗi sinh viên có thể tham Hình 2.1 Lược đồ ER Professor Course AdvCourse GradStudent Student Teaching Enrolling oProfID / String o ProfName / String o ProfAge / Integer o ProfPhoneNum / String o StudentID / String o StudentName / String o StudentAge / Integer o StudentSex / Boolean o StudentAddress / String o Deegree / String o CourseID / String o CourseName / String o CourseStart / Date o CourseLong / Integer TeachOf TaughtBy EnrollOf EnrollIn (1,1) (1,∞) (10,50) (3,6) -51- gia trong khoảng từ 3 đến 6. Hai thực thể AdvCourse và GradStudent là chuyên biệt hoá của Course và Student. Ngữ nghĩa của lược đồ ER có thể được đưa ra bằng việc đặc tả trạng thái cơ sở dữ liệu đặc trưng với cấu trúc thông tin được biểu diễn bởi lược đồ. Một trạng thái cơ sở dữ liệu B tương đương với một lược đồ ER S được tạo thành bởi một tập giới hạn không rỗng ∆B, giả sử tách biệt với tất cả miền cơ sở khác, và một hàm .B mà ánh xạ: - Tất cả ký hiệu miền D vào miền cơ sở DBD tương ứng, - Tất cả thực thể E vào tập con EB của ∆B, - Tất cả thuộc tính A vào một hàm cục bộ AB từ ∆B đến hợp nhất, đối với tất cả các miền D, của DBD, - Tất cả các quan hệ R vào một tập RB của các bộ gắn nhãn trên ∆B. Một bộ gắn nhãn trên miền ∆B là một hàm từ một tập của vai trò ER đến ∆B. Một bộ gắn nhãn T mà ánh xạ vai trò ER Ui thành oi, i ∈ {1,....,k}, được biểu thi là [U1:o1,....,Uk:ok]. Chúng ta cũng có thể viết T[Ui] đề biểu thị oi, và gọi nó là thành phần Ui của T. Các phần tử của EB, AB và RB được gọi là các trường hợp của E, A, R tương ứng. Một trạng thái cơ sở dữ liệu được xem xét là chấp nhận được nếu nó thoả tất cả các ràng buộc toàn vẹn. Một trạng thái cơ sở dữ liệu B là hợp lệ đối với lược đồ ER S, nếu nó thoả các điều kiện sau: - Mỗi cặp thực thể E1, E2 với E1 vS E2, thì E1B ⊆ E2B. - Mỗi thực thể E, nếu E có thuộc tính A với miền D, thì mỗi trường hợp e ∈ EB, AB(e) được định nghĩa và trong DBD. -52- - Mỗi quan hệ R k ngôi giữa các thực thể E1,...,Ek, mà R liên kết với cúng bằng các vai trò ER U1,..., Uk tương ứng, thì tất cả các trường hợp của R có dạng [U1:e1,...,Uk:ek], với ei ∈ EiB, i ∈ {1,...,k}. - Mỗi vai trò ER U được mà liên kết với quan hệ R và thực thể E, và mỗi trường hợp e của E thì cminS(U) ≤ #{r ∈ RB | r[U] = e} ≤ cmaxS(U). 2.2. MÔ HÌNH HƯỚNG ĐỐI TƯỢNG Mô hình dữ liệu hướng đối tượng được giới thiệu với mục đích nhằm thừa kế chuẩn cơ sở dữ liệu mà có thể tích hợp với các hệ lập trình hướng đối tượng. Nó là chủ đề trong việc nghiên cứu lĩnh vực cơ sở dữ liệu, nó dựa trên các tính năng sau: - Nó dựa vào ý niệm nhận diện các đối tượng tại mức mở rộng và vào ý niệm của các lớp ở mức tăng cường. - Cấu trúc của các lớp được đặc tả bằng kiểu và kế thừa. Chúng ta định nghĩa một ngôn ngữ hướng đối tượng đơn giản theo kiểu mô hình thông thường nhất có các đối tượng phức tạp và định danh đối tượng. Mô hình hướng đối tượng được thể hiện bằng 1 ví dụ trong hình dưới đây: Class Professor type-is Record ProfID: String ProfName: String ProfAge: Integer ProfPhoneNum: String End Class Student type-is -53- Record StudentID: String StudentName: String StudentAge: Integer StudentSex: Boolean StudentAddress: String End Class Teacher type-is Union Professor, GradStudent End Class GradStudent is-a Student type-is Record degree:String End Class Course type-is Record enrolls: Set-of Student taughtby: Teacher CourseStart: Date CourseLong: Integer End Hình 2.2 Một mô hình hướng đối tượng Một lược đồ hướng đối tượng được định nghĩa trên một tập hữu hạn các tên lớp, biểu diễn bởi ký tự C và tập hữu hạn tên các thuộc tính, biểu diễn bởi ký tự A. Một lược đồ hướng đối tượng S là một tập hữu hạn các định nghĩa lớp có dạng: -54- Class C is-a C1,..., Ck type-is T, với chính xác một định nghĩa đối với mỗi lớp C, ở đây T biểu diễn cho biểu thức kiểu được xây dựng theo cú pháp sau: T ! C | Union T1,..., Tk End | Set-of T | Record A1: T1,..., Ak: Tk End. Hình 2.2 biểu diễn một phần lược đồ hướng đối tượng tương ứng với lược đồ thực thể quan hệ trong Hình 2.1. Mỗi định nghĩa lớp chứa các ràng buộc về các trường hợp của lớp mà nó liên quan. Phần is-a của định nghĩa lớp cho phép người ta đặc tả sự bao hàm giữa các tập trường hợp của lớp liên quan, phần type-is đặc tả kiểu cấu trúc được ấn định cho các đối tượng của lớp. Nghĩa của lược đồ hướng đối tượng được đưa ra bởi việc đặc tả tính chất của các thể hiện trong lược đồ. Trước hết ta định rõ đặc điểm tập các giá trị được xây dựng từ một tập các ký hiệu, gọi là các định danh đối tượng. Cho O là một tập hữu hạn các ký hiệu, tập VO các giá trị trên O được định nghĩa một cách quy nạp như sau: • µ VO. • Nếu v1,...,vk ∈ VO thì {|v1,...,vk|} ∈ VO. • Nếu v1,...,vk thuộc VO thì {|A1:v1,...,Ak:vk|} thuộc VO. • Còn lại VO rỗng. Một thể hiện cơ sở dữ liệu J của lược đồ S được tạo thành bởi: • một tập hữu hạn OJ các định danh đối tượng; • một phép ánh xạ πJ ấn định cho mỗi tên lớp một tập con của OJ; • một ánh xạ ρJ ấn định một giá trị trong VOJ cho mỗi đối tượng trong OJ. -55- Cho dù tập giá trị VOJ mà có thể được xây dựng từ một tập OJ các định danh đối tượng là vô hạn, thì đối với một thể hiện cơ sở dữ liệu người ta chỉ cần quan tâm đến một tập con hữu hạn của VOJ, vì các cấu trúc hữu hạn mới có thể được lưu trong một cơ sở dữ liệu. Đối với một lược đồ hướng đối tượng S và một thể hiện J của S, tập hữu hạn này được gọi là tập VJ các giá trị tích cực đối với J, và được tạo bởi hợp của: • tập các định danh đối tượng OJ và • tập các giá trị được ấn định cho các phần tử của OJ bởi ρJ, bao gồm các giá trị mà không liên kết rõ ràng với các định danh đối tượng, nhưng được dùng để tạo các giá trị khác. Diễn dịch của các biểu thức kiểu trong J được định nghĩa thông qua một hàm diễn dịch .J. Hàm này ấn định cho mỗi biểu thức kiểu một tập con của VOJ mà các điều kiện dưới đây được thoả: CJ = πJ (C) (Union T1,...,Tk End)J = T1J [ ... [ TkJ (Set-of T)J = {{|v1,...,vk|} | k ≥ 0, vi thuộc TJ, với i thuộc {1,...,k}} (Record A1:T1,...,Ak:Tk End)J = {[|A1:v1,...,Ah:vh|] | h ≥ k, v1 ∈ TiJ, với i ∈ {1,...,k}, vj ∈ VOJ, với j ∈ {k + 1,...,h}}. Để đặc tả các mô hình hướng đối tượng ta định nghĩa các thể hiện có thể được chấp nhận đối với một mô hình. Một thể hiện cơ sở dữ liệu J của một mô hình hướng đối tượng S được cho là hợp lệ nếu mỗi định nghĩa Class C is-a C1,...Cn type-is T trong S, nó có CJ µ CiJ với i ∈ {1,...,n}, và có (CJ) µ TJ. Bởi vậy, đối với một thể hiện cơ sở dữ liệu hợp lệ, biểu thức kiểu mà xuất hiện trong lược đồ -56- xác định tập hữu hạn các giá trị tích cực, phải được xem xét. Việc xây dựng giá trị như vậy bị giới hạn bởi độ sâu của biểu thức kiểu. 2.3. TỔNG KẾT CHƯƠNG Trong chương này ta đã lược qua hai mô hình dữ liệu phổ biến là mô hình thực thể - quan hệ và mô hình dữ liệu hướng đối tượng. Trong chương tiếp theo, kết hợp các kiến thức được thảo luận ở Chương 1 và Chương 2, ta sẽ thảo luận việc mô hình hoá cơ sở dữ liệu bằng logic mô tả; đồng thời đưa ra các thuật toán biến đổi một cơ sở dữ liệu thành một cơ sở tri thức dựa trên logic mô tả. -57- Chương 3. CHUYỂN ĐỔI CƠ SỞ DỮ LIỆU THÀNH CƠ SỞ TRI THỨC CỦA LOGIC MÔ TẢ 3.1. MÔ HÌNH HOÁ LƯỢC ĐỒ THỰC THỂ - QUAN HỆ BẰNG LOGIC MÔ TẢ Bây giờ chúng ta biểu diễn ngữ nghĩa của mô hình ER bằng logic mô tả, bằng việc định nghĩa một hàm chuyển đổi φ từ lược đồ ER sang cơ sở tri trức ALCNI, và sau đó thiết lập sự tương ứng giữa các trạng thái cơ sở dữ liệu hợp lệ và mô hình của cơ sở tri thức nhận được. Cơ sở tri thức φ(S) nhận được từ một lược đồ ER S được định nghĩa bao gồm một khái niệm nguyên tố φ(A) cho từng ký hiệu miền, ký hiệu thực thể, hoặc ký hiệu quan hệ A trong S, một vai trò nguyên tố φ(P) cho từng ký hiệu thuộc tính hoặc ký hiệu vai trò P trong S, Cơ sở tri thức φ(S) được suy ra từ lược đồ S được định nghĩa và ví dụ áp dụng vào lược đồ ở Hình 2.1 như sau: - Mỗi cặp thực thể E1, E2 nếu E1 vS E2, thì φ(E1)v φ(E2). Ví dụ: AdvCourse v Course GradStudent v Student. - Mỗi thực thể E với các thuộc tính A1, ... Ah với miền D1,...,Dh tương ứng thì: φ(E) v ∀φ(A1).φ(D1) u ... u∀φ(Ah).φ(Dh) u = 1φ(A1) u...u = 1φ(Ah). Ví dụ: Professor v ∀ProfName.String u ∀ProfAge.Integer u ∀ProfPhone.String u =1 ProfName u =1 ProfAge u =1 ProfPhone -58- Course v ∀CourseName.String u ∀CourseStart.Date u ∀CourseLong.Integer u =1 CourseName u = 1 CourseStart u = 1 CourseLong Student v ∀StudentName.String u ∀StudentAge.Date u ∀StudentSex.Boolean u ∀StudentAddress.String u =1StudentName u =1 StudentAge u =1 StudentSex u =1 StudentAddress - Mỗi quan hệ R với k ngôi giữa các thực thể E1,...,Ek được liên kết bằng các vai trò quan hệ U1,...,Uk tương ứng thì: φ(R) v ∀φ(U1).φ(E1)⊓ … ⊓∀φ(Uk).φ(Ek) ⊓ = 1φ(U1)⊓… ⊓ = 1φ(Uk) φ(Ei) v ∀(φ(Ui))–.φ(R), với i ∈ {1,...,k}. Mỗi vai trò quan hệ U liên kết với quan hệ R và thực thể E, Nếu m = cminS(U) ≠ 0, thì: φ(E) v ≥ m(φ(U))–. Nếu n = cmaxS(U) ≠ ∞, thì: φ(E) v ≤ n(φ(U))–. Ví dụ: TEACHING v ∀TaughtBy. Professor u = 1 TaughtBy u ∀TeachOf.Course u = 1 TeachOf ENROLLING v ∀EnrollIn.Course u = 1 EnrollIn u ∀EnrollOf.Student u = 1 EnrollOf Professor v TaughtBy–.TEACHING u ≥ 1 TaughtBy– u ≤ n TaughtBy– -59- Course v ∀TeachOf–.TEACHING u ≥1 TeachOf– u ≤ n TeachOf– ∀EnrollIn–.ENROLLING u ≥ 10 EnrollIn– u ≤ 50 EnrollIn– Student v ∀EnrollOf–.ENROLLING u ≥ 3 EnrollOf– u ≤ 6 EnrollOf– - Mỗi cặp ký hiệu C1, C2 mà C1 là một ký hiệu quan hệ hoặc một ký hiệu miền, C2 là một ký hiệu thực thể, một ký hiệu quan hệ hoặc ký hiệu miền và C1 ≠ C2, thì φ(C1) v ¬φ(C2). Ví dụ: Professor v : Student Như vậy bằng việc chuyển đổi lược đồ trong Hình 2.1 ta nhận được một TBox biểu diễn lược đồ quan hệ bằng logic mô tả đầy đủ như sau: Các khái niệm nguyên thuỷ: String, Integer, Boolean, Date Các vai trò nguyên thuỷ (được dùng để biểu diễn cho các thuộc tính của các thực thể): ProfName, ProfAge, ProfPhone CourseName, CourseStart, CourseLong StudentName, StudentAge, StudentSex, StudentAddress Các vai trò biểu diễn các quan hệ giữa các thực thể: TaughtBy, TeachOf, EnrollIn, EnrollOf. TBox biểu diễn lược đồ quan hệ: TEACHING v ∀TaughtBy.Professor u = 1 TaughtBy u ∀TeachOf.Course u = 1 TeachOf -60- ENROLLING v ∀EnrollIn.Course u = 1 EnrollIn u ∀Eof.Student u = 1 EnrollOf Professor v ∀TaughtBy–.TEACHING u ≥ 1 TaughtBy– u ≤ n TaughtBy– u ∀ProfName.String u ∀ProfAge.Integer u ∀ProfPhone.String u =1 ProfName u =1 ProfAge u =1 ProfPhone Course v ∀TeachOf–.TEACHING u ≥1 TeachOf– u ≤n TeachOf– u ∀EnrollIn–.ENROLLING u ≥ 10 EnrollIn– u ≤ 50 EnrollIn– u ∀CourseName.String u ∀CourseStart.Date u ∀CourseLong.Number u =1 CourseName u = 1 CourseStart u = 1 CourseLong Student v ∀EnrollOf–.ENROLLING u ≥3 EnrollOf– u ≤6 EnrollOf– u ∀StudentName.String u ∀StudentAge.Date u ∀StudentSex.Boolean u ∀StudentAddress.String u =1StudentName u =1 StudentAge u =1 StudentSex u =1 StudentAddress AdvCourse v Course GradStudent v Student u ∀Degree.String u = 1 Degree Professor v : Student Hình 3.1: TBox được chuyển đổi từ lược đồ ER trong Hình 2.1 Đối với phép biến đổi được cung cấp trên đây, chúng ta có các nhận xét sau: -61- - Vì một lược đồ ER chỉ biểu diễn các trạng thái cấn thiết của đối tượng, nên sự chuyển đổi chỉ sử dụng các khẳng định bao hàm, còn các khẳng định tương đương không cần thiết. - Mỗi quan hệ được cụ thể hoá, được mô hình hoá bằng một khái niệm mà các trường hợp của nó biểu diễn các bộ trong quan hệ. Các khẳng định buộc từng vai trò φ(U) của quan hệ phải kết nối với chỉ một đối tượng mà biểu diễn thành phần U của bộ tương ứng. - Các vai trò đảo và giới hạn số cũng được dùng để nắm bắt ngữ nghĩa của lược đồ ER. Chính xác hơn, chức năng của các vai trò liên kết với các vai trò ER được dùng để biểu diễn các sự kiện mà mỗi instance của một quan hệ được kết nối thông qua từng vai trò ER đến chính xác một instance của thực thể được liên kết, trong khi chúng ta sử dụng các giới hạn số trong các vai trò đảo để biểu diễn các ràng buộc của lược đồ. - Ngay cả khi lược đồ ER không có chu trình, thì cơ sở tri thức kết quả vẫn bao gồm chu trình. - Bằng constructor đảo vai trò, một quan hệ nhị phân được xử lý theo cách đơn giản hơn bằng việc lựa chọn một hướng đi và một ánh xạ trực tiếp quan hệ đó tới một vai trò. Để chứng tỏ rằng phép biến đổi bảo toàn ngữ nghĩa của mô hình ER, chúng ta định nghĩa một phép ánh xạ giữa các trạng thái cơ sở dữ liệu tương ứng với mô hình ER và các diễn dịch hữu hạn của cơ sở tri thức bắt nguồn từ đó. Do cụ thể hoá các quan hệ, nên phép ánh xạ này đương nhiên không phải một – một và chúng ta cần miêu tả trước các diễn dịch của cơ sở tri thức tương ứng trực tiếp với các trạng thái cơ sở dữ liệu. Chúng ta nói rằng một diễn dịch I của cơ sở tri thức φ(S) bắt nguồn từ lược đồ ER S là quan hệ - mô tả, nếu với tất cả các quan hệ R của S, có các vai trò U1,..., Uk, với d,d’ ∈ (φR)I, chúng ta có: -62- ( ^ (∀d” ∈ ∆I.( d,d”) ∈ (φ(Ui))I ↔ (d’,d”) ∈ (φ(Ui))I)) → d = d”. 1≤ i ≤ k Tính tương ứng của các mô hình ER với biểu diễn Lôgic mô tả. Thực chất nó không phải là ánh xạ 1 - 1, nhưng nó vẫn bảo toàn về mặt ngữ nghĩa. Tính tương ứng có thể được thiết lập bằng việc định nghĩa hai phép ánh xạ αS và βS như sau: - αS là phép ánh xạ từ các trạng thái cơ sở dữ liệu tương ứng với S tới các diễn dịch quan hệ - mô tả của φ(S), bằng các thuộc tính sau (cho β là một trạng thái cơ sở dữ liệu và I = αS(β)): + Nếu β là một cơ sở dữ liệu hợp lệ, thì I là một mô hình của φ(S). + ∆I là hợp của ∆B, tập của các bộ (tuples) và tập giá trị miền xuất hiện trong β. Tập giá trị miền xuất hiện trong β là giá trị của một số thuộc tính. + Đối với mỗi E có (φ(E))I = Eβ. - βS là phép ánh xạ từ các diễn dịch quan hệ - mô tả của φ(S) tới các trạng thái cơ sở dữ liệu tương ứng với S, bằng các thuộc tính sau (cho I là một diễn dịch của φ(S) và β = βS(I)): + Nếu I là một mô hình của φ(S), thì β là một trạng thái cơ sở dữ liệu hợp lệ. + ∆β là tập tất cả các đối tượng trong ∆I mà không có các trường hợp của bất cứ khái niệm nguyên tố nào tương ứng với một quan hệ hoặc một miền cơ sở. + Đối với mỗi thực thể E, Eβ = (φ(E))I. Việc tồn tại các phép ánh xạ αS và βS cho phép chúng ta giảm bớt vấn đề kiểm tra các thuộc tính trong việc suy luận trên cơ sở tri thức ALCQI tương ứng. -63- 3.2. MỞ RỘNG KHẢ NĂNG BIỂU DIỄN CỦA NGÔN NGỮ MÔ HÌNH HOÁ Các mô hình dữ liệu ngữ nghĩa nói chung và mô hình ER nói riêng, không cung cấp nhiều tính năng biểu diễn sự phụ thuộc phức tạp của dữ liệu. Logic mô tả là một trong những công cụ hiệu quả để tăng cường khả năng biểu diễn. Sau đây chúng ta sẽ xem xét các ví dụ mang nhiều ý nghĩa về khả năng tăng cường cho mô hình ER thông qua logic mô tả. 3.2.1. Tổng quát hoá thực thể Chỉ có quan hệ trực tiếp giữa các thực thể được biểu diễn trong mô hình ER cơ sở mới là quan hệ IS-A. Một mở rộng thông dụng đó là tổng quát hoá (generalization). Để tổng quát hoá ta có thể dùng phép hợp và phép phủ định của logic mô tả. Ví dụ: Thực tế rằng mỗi một Professor có thể là một Associate Professor hoặc là một Full Professor. Ta có thể biểu diễn thực thể Professor là tổng quát hoá của hai thực thể AssProfessor và FullProfessor. Chúng ta biểu diễn bằng ALCQI thông qua việc thêm các khẳng định sau: Professor v AssProfessor t FullProfessor AssProfessor v Professor u :FullProfessor FullProfessor v Professor Thông thường, mỗi mức tổng quát hoá biểu diễn rằng thực thể E là tổng quát hoá của các thực thể tách biệt nhau E1,...,En có thể được chuyển thành các khẳng định như sau: φ(E) v φ(E1) t ... t φ(En) φ(E1) v φ(E) u :φ(E2) u :φ(E3) u ... u :φ(En) φ(E2) v φ(E) u :φ(E3) u :φ(E4) u ... u :φ(En) .... -64- φ(En-1) v φ(E) u :φ(En) φ(En) v φ(E) 3.2.2. Lọc các tính chất thuộc một cấu trúc IS-A Một mở rộng quan trọng khác cần được quan tâm đó là khả năng đặc tả việc lọc các thuộc tính của các thực thể thuộc cấu trúc IS-A. Đây là tính năng cốt yếu trong các mô hình hướng đối tượng. Đặc biệt, các ràng buộc có thể được lọc bằng việc hạn chế khoảng giá trị và thành phần trong các quan hệ. Ví dụ, khẳng định sau ràng buộc rằng các khoá học cao cấp (advanced courses) phải có ít nhất 5 sinh viên, nhiều nhất 15 sinh viên và những sinh viên học ở khoá này là những sinh viên đã tốt nghiệp: AdvCourse v ∃ ≥5 EnrollIn– u ∃≤15EnrollIn– u ∀EnrollIn– .∀EnrollOf.GradStudent 3.3. BIỂU DIỄN MÔ HÌNH DỮ LIỆU HƯỚNG ĐỐI TƯỢNG BẰNG LOGIC MÔ TẢ Ta thiết lập một quan hệ giữa ngôn ngữ mô tả ALCQI và ngôn ngữ hướng đối tượng đã giới thiệu ở Chương 2. Nghĩa là ta sẽ cung cấp một phép ánh xạ từ lược đồi hướng đối tượng sang cơ sở tri thức ALCQI. Ta sẽ đưa ra khái niệm AbstractClass để biểu diễn các lớp, hai khái niệm RecType và SetType để biểu diễn các kiểu dữ liệu tương ứng, vai trò value để mô hình hoá mối liên quan giữa lớp và kiểu, và vai trò member được dùng để chỉ rõ kiểu của các thành phần trong một tập. Hơn nữa, các khái niệm biểu diễn kiểu được coi là không giao nhau và không giao với các khái niệm biểu diễn lớp. Những ràng buộc này được biểu diễn bởi các khẳng định bao hàm thích hợp trong cơ sở tri thức. Nói một cách hình thức, cơ sở tri thức ψ(S) tương ứng với một lược đồi hướng đối tượng S chứa các khái niệm nguyên tố xác định trước là -65- AbstractClass, RecType và SetType, và một khái niệm ψ(C) ứng với mỗi lớp C trong S. Đồng thời nó cũng chứa các vai trò nguyên tố xác định trước là value và member; một vai trò nguyên tố ψ(A) ứng với mỗi tên thuộc tính A trong S. Trước khi định rõ tập các khẳng định của ψ(S) ta xác định cách mà hàm ψ ánh xạ từng biểu thức kiểu vào biểu thức khái niệm như sau: • Tất cả lớp C được ánh xạ vào một khái niệm nguyên tố ψ(C). • Tất cả biểu thức kiểu Union T1,...,Tk End được ánh xạ vào ψ(T1) t...t ψ(Tk). • Tất cả biểu thức kiểu Set-of T được ánh xạ vào SetType u∀member.ψ(T). • Tất cả thuộc tính A được ánh xạ vào một vai trò ψ(A). • Tất cả biểu thức kiểu Record A1:T1,...,Ak:Tk End được ánh xạ vào: Rectype u ∀ψ(A1).ψ(T1) u ∃=1ψ(A1) u...u ∀ψ(Ak).ψ(Tk) u ∃=1ψ(Ak). Sử dụng ψ ta định nghĩa cơ sở tri thức ψ(S) tương ứng với S như sau: AbstractClass v ∃=1value RecType v ∀value.? SetType v ∀value.? u :RecType và mỗi định nghĩa lớp Class C is-a C1,...,Cn type-is T trong S được thể hiện bằng một bao hàm sau: ψ(C) v AbstractClass u ψ(C1) u...u ψ(Cn) u ∀value.ψ(T). Ví dụ: Ta sẽ chuyển đổi lược đồ hướng đối tượng trong Hình 2.2 tương ứng với cơ sở tri thức ALCQI sau đây: Professor v AbstractClass u ∀value.(RecType u ∀ProfID.String u ∃=1 ProfID u ∀ProfName.String u ∃=1 ProfName u ∀ProfAge.Integer u ∃=1 ProfAge u -66- ∀ProfPhoneNum.String u ∃=1 ProfPhoneNum) Student v AbstractClass u ∀value.(RecType u ∀StudentID.String u ∃=1 StudentID u ∀StudentName.String u ∃=1 StudentName u ∀StudentAge.Integer u ∃=1 StudentAge u ∀StudentSex.Boolean u ∃=1 StudentSex u ∀StudentAddress.String u ∃=1 StudentAddress) Teacher v AbstractClass u ∀value.(Professor t GradStudent) GradStudent v AbstractClass u Student u ∀value.(RecType u ∀Degree.String u ∃=1 Degree) Course v AbstractClass u ∀value.(RecType u ∀Enrolls.(SetType u ∀member.Student) u ∃=1 Enrolls u ∀taughtBy.Teacher u ∃=1 taughtBy) AbstractClass v ∃=1value RecType v ∀value.? SetType v ∀value.? u :RecType Hình 3.2 Cơ sở tri thức ALCQI tương ứng với lược đồ hướng đối tượng trong Hình 2.2 3.4. CHUYỂN DỮ LIỆU TỪ CƠ SỞ DỮ LIỆU VÀO ABOX CỦA LOGIC MÔ TẢ Như ta đã biết, các thực thể được xem là các khái niệm nguyên tố trong DL, các thuộc tính được biểu diễn bằng các vai trò. Như vậy mỗi một bảng dữ liệu có n thuộc tính sẽ được biểu diễn bằng n vai trò. Việc đưa các dữ liệu vào ABox được tiến hành như sau: các đại diện của mỗi bản ghi được đưa vào -67- khái niệm bảng đã được định nghĩa, chẳng hạn như Professor (P001), Professor(P002), ta có thể coi P001, P002 là duy nhất (cũng là "khoá" trong CSDL quan hệ). Các thuộc tính của mỗi cá thể đưa vào các vai trò thuộc tính tương ứng, ví dụ ProfName(P001, Tên 1); ProfName(P002, tên 2), ProfAge(P001, 1950)... Ta có thể xây dựng thuật toán chuyển đổi dữ liệu từ các bảng của cơ sở dữ liệu quan hệ vào ABox của cơ sở tri thức logic mô tả thông qua thủ tục DBtoKBConvert sau đây: Procedure DBtoKBConvert( ) Begin {đối với các bảng thực thể, giả sử rằng khoá chính chỉ chứa 1 trường} For each (tbl là các bảng thực thể) in (DB.tabledef) do While not (tbl.Recordset.EOF) do {xác nhận khái niệm trùng với tên của bảng mang giá trị của trường làm khoá chính trong bảng} AssertConcept (tbl.Name) = tbl.PrimaryKeyField.Value For each fld in (tbl.Fields) do {với mỗi trường của bảng:} {Xác nhận giá trị cho các vai trò trùng tên với các thuộc tính của bảng} AssertRole((fld.Name)=(tbl.PrimaryKeyField, fld.Value) Next {với trường tiếp theo} tbl.Recordset.MoveNext {Tới bản ghi tiếp theo của bảng} Loop Next {Với bảng thực thể tiếp theo} {Đối với các bảng quan hệ} For each (tbl là các bảng quan hệ) in (DB.tabledef) do While not (tbl.Recordset.EOF) do -68- {Thêm một giá trị bằng giá trị số thứ tự bản ghi cho khái niệm có tên trung tên của bảng quan hệ} AssertConcept(tbl.Name) = tbl.RecordNumber For each fld in tbl.Fields do {Thêm một giá trị cho vai trò có tên trùng tên trường trong bảng} AssertRole(fld.Name)= (tbl.RecordNum, fld.Value) Next tbl.Recordset.MoveNext loop Next End. Hình 3.3: Thủ tục chuyển dữ liệu từ bảng vào ABox Để cụ thể hơn ta xét ví dụ về việc chuyển các dữ liệu được đưa ra dưới dạng các bảng quan hệ dưới đây thành cơ sở tri thức ABox tương ứng với mô hình dữ liệu ở Hình 2.1. Professor: ProfID ProfName ProfAge ProfPhoneNum P001 Professor A 1950 9422957 P002 Professor B 1952 8343097 P003 Professor C 1966 5742488 P004 Professor D 1952 7662009 P005 Professor E 1963 8271483 Bảng 3.1: Bảng thực thể Professor -69- Student: StudentID StudentName StudentAge StudentSex StudentAddress S001 Student 1 1981 Nam Hà Nội S002 Student 2 1979 Nam Nam Định S003 Student 3 1973 Nữ Hà Nội S004 Student 4 1975 Nữ Hà Nội S005 Student 5 1979 Nam Thái Bình S006 Student 6 1979 Nữ Bắc Giang Bảng 3.2: Bảng thực thể Student Course: CourseID CourseName CourseStart CourseLong C01 Course a 15/8/2006 4 C02 Course b 27/8/2006 3 C03 Course c 8/9/2006 5 C04 Course d 20/9/2006 4 C05 Course e 1/10/2006 4 C06 Course f 22/10/2006 4 Bảng 3.3: Bảng thực thể Course AdvCourse: AdvCourseID C04 C05 Bảng 3.4: Bảng thực thể AdvCourse Teaching: TaughtBy TeachOf P001 C02 -70- P002 C04 P003 C01 P004 C05 P005 C03 Bảng 3.5: Bảng quan hệ Teaching GradStudent: GradStudent Degree S002 Degree A S006 Degree A Bảng 3.6: Bảng thực thể GradStudent Enrolling: EnrollIn EnrollOf S001 C01 S001 C02 S001 C03 S001 C06 S002 C01 S002 C04 S002 C05 S003 C01 S003 C02 S003 C06 S004 C02 S004 C06 S004 C03 Bảng 3.7: Bảng quan hệ Enrolling -71- Từ các bảng quan hệ với các dữ liệu trên ta xây dựng được ABox tương ứng với các khái niệm, vai trò trong Hình 3.1 như sau: Professor (P001), ProfName(P001, Professor A), ProfAge(P001, 1950), ProfPhoneNum(P001, 9422957) Professor (P002), ProfName(P001, Professor B), ProfAge(P001, 1952), ProfPhoneNum(P001, 8343097) Professor (P003), ProfName(P001, Professor C), ProfAge(P001, 1966), ProfPhoneNum(P001, 5742488) Professor (P004), ProfName(P001, Professor D), ProfAge(P001, 1962), ProfPhoneNum(P001, 7662009) Professor (P005), ProfName(P001, Professor E), ProfAge(P001, 1963), ProfPhoneNum(P001, 8271483) ... Student(S001), StudentName(S001, Student 1), StudentAge(S001, 1981), StudentSex(S001, Nam), StudentAddress(S001, Hà Nội) .... Course(C01), CourseName(C01, Course a), CourseStart(C01, 15/8/2006), CourseLong(C01, 4) .... AdvCourse(C04), AdvCourse(C05) .... GradStudent(S02), Degree(S02, Degree A) GradStudent(S06), Degree(S06, Degree A) .... Teaching(1), TaughtBy(1, P001), TeachOf(1, C02) Teaching(2), TaughtBy(2, P002), TeachOf(2, C04) .... -72- Enrolling (1), EnrollIn(1, S001), EnrollOf(1, C01) Enrolling (2), EnrollIn(2, S001), EnrollOf(1, C02) ... Enrolling (5), EnrollIn(5, S002), EnrollOf(5, C01) Hình 3.4 ABox nhận được từ việc chuyển đổi dữ liệu của các thực thể 3.5 TỔNG KẾT CHƯƠNG Chương 3 đã giới thiệu phương pháp để chuyển lược đồ của mô hình dữ liệu thực thể - quan hệ và mô hình dữ liệu hướng đối tượng thành TBox của cơ sở tri thức DL, đồng thời xây dựng một thuật toán để chuyển đổi dữ liệu từ các bảng trong cơ sở dữ liệu quan hệ vào ABox của cơ sở tri thức DL. Chương tiếp theo ta sẽ thảo luận cách thức thực hiện truy vấn trên cơ sở tri thức đã được chuyển đổi ở Chương này. -73- Chương 4. TRUY VẤN 4.1. NGUYÊN TỬ TRUY VẤN, ĐỐI TƯỢNG, CÁ THỂ VÀ BIẾN Các biểu thức cơ bản trong truy vấn bằng DL được gọi là nguyên tử truy vấn (query atoms), hay nói một cách đơn giản là tiên đề. Các nguyên tử có thể là một ngôi hoặc hai ngôi. Nguyên tử một ngôi tham chiếu đến một đối tượng, còn nguyên tử hai ngôi tham chiếu đến hai đối tượng. Một đối tượng là một cá thể trong ABox hoặc là một biến. Các biến được buộc vào các cá thể trong ABox mà thoả mãn biểu thức truy vấn. Một truy vấn ở dạng cơ bản là truy vấn hội có dạng Q(X) := q1 ^ ... ^ qn, với q1,...,qn là các nguyên tử truy vấn. Mỗi nguyên tử truy vấn có dạng C(x) hoặc R(x,y), ở đó C là khái niệm còn R là vai trò còn x, y là các cá thể hoặc các biến. X là tập các biến riêng biệt trong truy vấn, nó được dùng để trả về các thể hiện mà người dùng quan tâm. Một truy vấn được chia làm 2 phần, phần đầu và phần thân. Phần thân truy vấn là một biểu thức được thiết lập bởi các tiên đề. Phần đầu truy vấn để trả về danh sách các thể hiện được buộc vào biến. 4.1.1. Nguyên tử truy vấn khái niệm Nguyên tử khái niệm là loại nguyên tử một ngôi. Một nguyên tử khái niệm được dùng để trả về một cá thể của một khái niệm. Ví dụ ta có truy vấn sử dụng nguyên tử khái niệm Student(x) để trả về các thể hiện (instances) của khái niệm Student như sau: ans(x) := Student(x) Giả sử với cơ sở tri thức ta đã xây dựng ở chương 3 gồm bộ TBox trong hình 3.1 và ABox hình 3.2, với truy vấn trên ta được câu trả lời là là các sinh viên: (S001 S002 S003 S004 S005 S006 S007) -74- Truy vấn với các cá thể: Giả sử ta chỉ muốn biết có sinh viên nào trong tất cả các mô hình ở ABox ở hình 3.2 không. Ta chỉ truy vấn một cách đơn giản là: ans() := student(x) Câu trả lời là đúng (True) hoặc rỗng (NIL). Trong trường hợp này câu trả lời là "True". Giả sử ta chỉ muốn biết S001 có phải là một sinh viên không ta có thể thực hiện truy vấn: ans() := Student(S001) Và câu trả lời ta nhận được là "True". 4.1.2. Nguyên tử truy vấn vai trò Kiểu nguyên tử thứ hai là nguyên tử vai trò. Đó là các nguyên tử hai ngôi, tương phản với nguyên tử khái niệm một ngôi. Nguyên tử vai trò được dùng để trả về một cặp filler vai trò từ ABox. Giả sử ta tìm tất cả các cặp sinh viên và giới tính trong cơ sở tri thức trên. Ta có thể tạo truy vấn sau: ans(StudID, StudSex) := StudentSex(StudID, StudSex) Câu trả lời là: S001 Nam S002 Nam S003 Nữ S004 Nữ S005 Nam S006 Nam trong câu truy vấn trên biểu thức StudtSex(StudID, StudSex) là nguyên tử vai trò. Nếu ta chỉ muốn quan tâm đến những sinh viên là Nữ, ta có thể thực hiện: ans(X) := StudentSex(X, Nữ) Kết quả trả về là: S003, S004, S006 -75- Ta cũng có thể truy vấn bằng nguyên tử vai trò ở dạng đảo để trả về giới tính của sinh viên 002: ans(X) := StudentSex –(002, X) Kết quả trả về là: Nam 4.2. TRUY VẤN PHỨC HỢP Sau khi đã thảo luận các nguyên tử truy vấn ta tiếp tục với việc miêu tả phần thân truy vấn. Phần thân truy vấn được định nghĩa bằng các nguyên tử đơn hoặc kết hợp phức tạp các nguyên tử bằng các constructor ^ ,_, :, –, ∀, ∃. Dựa vào cơ sở tri thức ở chương 3 ta xét các ví dụ sau: Ví dụ 1: Cho biết những sinh viên có năm sinh là 1979 và là nam ans (x) := Student(x) ^ StudentAge(x, 1979) ^ StudentSex(x, “Nam”) Ta có mô tả khái niệm (áp dụng thuật toán hỗ trợ mô tả ở mục 4.3) như sau: Student u ∃≥1StudentAge u ∀StudentAge.{1979} u ∃ ≥1 StudentSex u ∀StudentSex.{Nam} Kết quả thu được là: S002, S005 Ví dụ 2: Cho biết những sinh viên nam sống ở Nam Định có cùng tuổi với một trong những sinh viên nữ ans(x) := Student(x) ^StudentSex(x,{Nam}) ^ StudentAddress(x,{Nam Định}) ^ StudentAge(x,y) ^ StudentAge(z,y) ^ StudentSex(z,{Nữ}) Có thể chuyển phần thân của truy vấn trên thành mô tả khái niệm (áp dụng thuật toán hỗ trợ mô tả ở mục 4.3): Student u ∃ ≥ 1StudentSex u ∀StudentSex.{Nam} u ∃≥1 StudentAddress u ∀StudentAddress.{Nam Định} u ∃≥ 1 StudentAge u ∀StudentAge.(∃≥1 StudentAge– u ∀StudentAge–.(∃≥1 StudentSex u ∀StudentSex.{Nữ})) Kết quả thu được là: S002 -76- 4.3. HỖ TRỢ MÔ TẢ - ĐỊNH NGHĨA VÀ THUẬT TOÁN Cho CJ(X, Y) là hội của các nguyên tử khái niệm và nguyên tử vai trò, với X là các biến tách biệt, còn Y là các biến tồn tại. Ta nói rằng biến z' là một kế thừa trực tiếp của biến z trong CJ(X, Y) nếu ở đó tồn tại một nguyên tử R(z,z') trong CJ(X,Y). Quan hệ kế thừa này là bao đóng của quan hệ kế thừa trực tiếp. Với mọi x ∈ X, cho s(x) là một tập các kế thừa của x mà tập kế thừa này là các biến tồn tại, cho CJ(x) là mệnh đề hội các nguyên tử của CJ(X,Y) và gồm có các nguyên tử khái niệm dính lứu đến các biến trong s(x). Ta định nghĩa một đồ thị G giải thích sự liên kết của các biến xuất hiện trong CJ(X,Y) như sau: Các nút của đồ thị là các biến, có một cung từ một biến bất kỳ đến một biến kế thừa trực tiếp của nó. Ta nói rằng một mệnh đề hội CJ(x) nằm trong CJ(X,Y) có cấu trúc cây khi và chỉ khi: - Với mọi biến tách biệt x' mà x ≠ x' thì s(x) \ s(x') = ; hoặc s(x) ⊂ s(x'). - Đồ thị con của G giới hạn các biến x [ s(x) là một cây có gốc là x. - Mỗi nút trong cây không có kế thừa tách biệt trong G. Ví dụ C(x1) ^ R1(x1,y1) ^ R2(y1, y2) ^ D(y2) là một cấu trúc cây có gốc là x1. Còn C1(x1) ^ R(x1,y1) ^ R2(y1, x1) hoặc R(y,y) không phải là cấu trúc cây. Biểu thức hội của các nguyên tử khái niệm và các nguyên tử vai trò có cấu trúc cây có thể thay thế bằng một nguyên tử khái niệm đơn giản theo thuật toán diễn đạt bằng thủ tục "DescriptiveSupport" [10] dưới đây: Procedure DescriptiveSupport (ST(z)) { ST(z) là một biểu thức của các nguyên tử khái niệm và vai trò có cấu trúc cây với gốc là z và các biến tồn tại là Y} { Thuật toán trả về một khái niệm DS và một nguyên tử khái niệm DS(z)} If ST(z) có dạng: C1(z) ^ ...^ Cn(z), với Ci là các biểu thức khái niệm Then: DS = C1 u ... u Cn Else If ST(z) có dạng: -77- C1(z) ^...^ Cn(z) ^ R1(z,y11) ^...^ R1(z,y1n1) ^...^ Rk(z, yk1) ^...^ Rk(z,yknk) ^ Tree(y11) ^...^ tree(y1n1) ^...^ Tree(yk1) ^...^Tree(yknk), với các Tree(yij) là biểu thức hội của các nguyên tử có cấu trúc cây gốc là yij Then: for i ∈ [1..k] do: for j ∈ [1..ni] do: DSij := DescriptiveSupport(Tree(yij)) DS := C1 u...u Cn u (≥ n1R1) u ...u (≥nkRk) u ∀R1.(DS11 u...u DSn11) u...u ∀Rk.(D1k u...u DSnkk) return DS { trả lại một mô tả của ST(z)} return DS(z) { trả lại một nguyên tử DS của ST(z)} Hình 4.1: Thủ tục hỗ trợ mô tả Chẳng hạn, xét biểu thức hội các nguyên tử khái niệm và vai trò dưới đây, với x1 là một biến tách biệt còn y1 và y2 là các biến tồn tại: C(x1) ^ R1(x1,y1) ^ R2(y1, y2) ^ D(y2) Biểu thức trên có cấu trúc cây gốc là x1. Ta có khái niệm trả về bằng cách áp dụng thuật toán DescriptiveSupport như sau: C u (≥1R1) u ∀R1.((≥1R2) u ∀R2.D) hay ta có thể viết lại dưới dạng chuẩn như sau: C u (≥1R1) u ∀R1.(≥1R2) u ∀R1.∀R2.D Ta xét tiếp các truy vấn sau: Ví dụ 3: Tìm những sinh viên học 3 môn học Ans(x) :- Student(x) ^ =3 EnrollIn(x, _) Mô tả logic như sau: Student u ∃=3 EnrollIn Kết quả là: S002, S003, S004 -78- Ví dụ 4: Tìm những sinh viên học giáo sư có tên là “Professor C” Ans(x) :- Student(x) ^ EnrollIn(y,x) ^ EnrollOf(y,z) ^ teachOf(z,w) ^ ProfessorName(w,{Professor B}) Luật truy vấn biểu diễn bằng DL như sau: Student u ∃≥1EnrollIn– u ∀EnrollIn–.(∃≥1 EnrollOf u ∀EnrollOf.(∃≥1teachOf u ∀teachOf.(∃≥1 ProfessorName u ∀ProfessorName.{Professor C}))). Kết quả là: S001, S002, S003 4.4. TỔNG KẾT CHƯƠNG Ở Chương 4, ta đã thảo luận về truy vấn cơ sở tri thức, từ các thành phần cơ bản của truy vấn như truy vấn nguyên tử khái niệm, truy vấn nguyên tử vai trò đến các truy vấn phức hợp bằng biểu thức hội các thành phần khái niệm và vai trò cơ sở. Chương 4 cũng đưa ra thuật toán nhằm chuyển đổi các câu truy vấn xây dựng theo cách thể hiện của ngôn ngữ lập trình logic Datalog sang biểu diễn mô tả khái niệm trong logic mô tả. Cũng như đã xem xét các ví dụ cụ thể có áp dụng thuật toán hỗ trợ mô tả (DescriptiveSupport) đã đưa ra. -79- KẾT LUẬN Trong đề tài này em đã giới thiệu một cách tương đối đầy đủ về họ logic mô tả ALC, thảo luận về khả năng biểu diễn cơ sở tri thức của ngôn ngữ AL; đồng thời giới thiệu một ngôn ngữ lập trình tương thích để biểu diễn cơ sở tri thức bằng logic mô tả, đó là ngôn ngữ Datalog. Đề tài đã trình bày khẳ năng ứng dụng logic mô tả trong biểu diễn các mô hình cơ sở dữ liệu, như cơ sở dữ liệu quan hệ và cơ sở dữ liệu hướng đối tượng. Đề tài cũng đưa ra các phương pháp biến đổi một cơ sở dữ liệu thành cơ sở tri thức dựa trên logic mô tả, như biểu diễn dữ liệu của các bảng trong cơ sở dữ liệu quan hệ thành các sự kiện trong ABox của cơ sở tri thức. Đề tài cũng thảo luận về khả năng thực hiện truy vấn thông qua cách thức biểu diễn của ngôn ngữ Datalog, biến đổi các luật của Datalog thành các mô tả khái niệm trong logic mô tả. Với khả năng biểu diễn, truy vấn bằng logic mô tả ta có thể suy rộng ra rằng, cơ sở dữ liệu có thể được biến đổi thành cơ sở tri thức, với ngữ nghĩa truy vấn phong phú hơn. Tuy nhiên, ngoài những công việc đã làm được, trong đề tài này mới mang tính lý thuyết. Em vẫn chưa xây dựng được chương trình DEMO, nên chắc chắn chưa hoàn toàn thuyết phục. Vì vậy, kế hoạch công việc trong tương lai để hoàn thiện hơn sẽ là đi sâu, ứng dụng một trong những ngôn ngữ suy diễn (chẳng hạn Prolog, Datalog, Racer...) để xây dựng được một cơ sở tri thức cụ thể dựa trên một cơ sở dữ liệu cụ thể. Trong đề tài chắc chắn còn nhiều những hạn chế, em rất mong các thầy, các cô và các bạn đồng nghiệp đóng góp ý kiến cho em để tiếp tục hoàn thiện đề tài. -80- CÁC THUẬT NGỮ Tiếng việt Tiếng Anh Bài toán bao hàm Subsumtion Bài toán không giao Disjointness Bài toán không thoả Unsatisfiability Bài toán thoả Satisfiability Bài toán tương đương Equivalence Bộ khẳng định Assertional box (ABox) Bộ thuật ngữ Terminological box (TBox) Cơ sở dữ liệu mở rộng Extensional Database (EDB) Cơ sở dữ liệu tăng cường Intensional Database (IDB) Cơ sở tri thức Knowledge base Chuẩn hoá Normalization Chuyên biệt hoá khái niệm Concept specialization Giới hạn lớn nhất At most of Giới hạn nhỏ nhất At least of Giới hạn số lượng Number restriction Hàm diễn dịch Interpretation function Hạng thức Term Hội Conjunction Khái niệm Concept Khái niệm đáy Bottom concept Khái niệm đỉnh Top concept Khái niệm nguyên thuỷ Primitive concept Khái quát hoá Generalization Khẳng định Assertion Không chứa mâu thuẫn Clash-free Logic mô tả Description logic -81- Lượng từ tồn tại Existential quantification Lượng từ với mọi Universal quantification Mâu thuẫn Clash Mô hình Model Mở rộng Expansion Ngôn ngữ biểu diễn tri thức thuật ngữ Terminological knowledge representation language Ngôn ngữ khái niệm Concept language Ngôn ngữ thuộc tính Attributed language Nguyên tử, nguyên tố Atom Ngữ nghĩa Semantics Phép diễn dịch Interpretation Phủ đinh Negation Quan hệ Relationship Thể hiện Instance Thuật ngữ Terminology Thuật toán cấu trúc Structural algorithm Tiên đề khái niệm Terminological axiom Tuyển Disjunction Vai trò Role -82- TÀI LIỆU THAM KHẢO Tiếng việt [1] Nguyễn Văn Ba, Phân tích và thiết kế các hệ thống thông tin, Nhà xuất bản Đại học Quốc gia. Tiếng Anh [2] Alex Borgida, (1995),Description logics in data management, IEEE Trans. on Know. and Data Engineering. [3] Alex Borgida and Ronald J. Brachman, Conceptual modeling with description logics, In Baader et al. [4] Catriel Beeri, Alon Y. Levy and Marie-Christine Rousset (1997), Rewriting queries using views in description logics, In Proceedings of the Sixteenth Symposium on Principles of Database Systems, (PODS’97). [5] Diego Calvanese, Maurizio Lenzerini, Daniele Nardi, Description Logics For Conceptual Data Modeling, Dipartimento di Informatica e Sistemistica, Universita di Roma, “La Sapienza”,Via Salaria 138. 10098, Roma, Italy. [6] Diego Calvanese, Giuseppe De Giacomo, Domenico Lembo, Maurizio Lenzerini, Riccardo Rosati, Data Complexity of Query Answering in Description Logics, Faculty of Computer Science, Free University of Bozen-Bolzano, Piazza Domenicani 3, 39100 Bolzano, Italy. -83- [7] Diego Calvanese, Giuseppe De Giacomo, and Maurizio Lenzerini (2000), Answering queries using views over description logics knowledge bases, In Proc. of AAAI. [8] Franz Baader, Diego Calvanese, Deborah McGuinness, Daniele Nardi, and Peter Patel-Schneider (2003), The Description Logic HandBook. Theory, Implementation and Applications, Hardback. [9] Francesca A. Lisi and Floriana Esposito, On Learning in AL-log, Dipartimento di Informatica, Universit`a degli Studi di Bari, Italy. [10] Marie Christine Rousset, Backward Reasoning in Aboxes for Query Answering, L.R.I Computer Science Laboratory C.N.R.S, University of Paris, Sud Building Orsay Cedex, France. [11] Mathieu Roger, Ana Simonet, Michel Simonet, Bringing together Description Logics and Databases in an Object Oriented Model, Laboratory TIMC-IMAG- Osiris Team, La Tronche Cedex. [12] Mathieu Roger, Ana Simonet, Michel Simonet, A Description Logics- like Model for a Knowledge and Data Management System, TIMC- IMAG Faculté de Médecine de Grenoble, 38706 La Tronche Cedex. France.

Các file đính kèm theo tài liệu này:

000000208313R.pdf