Bài giảng cơ sở dữ liệu - Bài 4: Tối ưu truy vấn trên hệ cơ sở dữ liệu phân tán - Đỗ Phúc

Begin SJ ← most_benefit(BS) BS ← BS – SJ ES ← ES + SJ sửa lại số liệu thống kê để phản ánh tác dụng của việc gắn SJ BS ← BS – các nối nửa không lợi ích BS ← BS ∪ các nối nửa lợi ích mới End While; AS(ES) ← chọn vị trí i sao cho i có chứa dữ liệu lớn nhất sau khi thực hiện tất cả mọi thao tác cục bộ ES ← ES ∪ truyền các quan hệ trung gian đến AS(ES) For mỗi quan hệ Ri tại AS(ES) do For mỗi nối nửa SJ của R i với Rj do If cost(ES) > cost(ES – SJ) then ES ← ES – SJ End If End For End For End

49 trang | Chia sẻ: huongthu9 | Lượt xem: 478 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Bài giảng cơ sở dữ liệu - Bài 4: Tối ưu truy vấn trên hệ cơ sở dữ liệu phân tán - Đỗ Phúc, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Bài 4: TỐI ƯU TRUY VẤN TRÊN HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN Khoa Hệ thống thông tin Trường Đại học Công nghệ thông tin, ĐHQG-HCM 2NỘI DUNG MỞ ĐẦU I. TỔNG QUAN VỀ XỬ LÝ TRUY VẤN PHÂN TÁN 1. Bài toán xử lý truy vấn phân tán 2. Mục tiêu của tối ưu truy vấn phân tán 3. Độ phức tạp của các phép toán đại số quan hệ 4. Các vấn đề của tối ưu truy vấn phân tán 5. Các tầng xử lý truy vấn phân tán II. XỬ LÝ TRUY VẤN PHÂN TÁN 1. Phân rã truy vấn 2. Cục bộ hoá dữ liệu phân tánIII. III.TỐI ƯU TRUY VẤN PHÂN TÁN 1. Tối ưu hoá truy vấn 2. Các thuật toán tối ưu hoá truy vấn phân tán KẾT LUẬN 3MỞ ĐẦU • Vấn đề tối ưu hoá trên hệ CSDL phân tán là rất quan trọng do tính phân mảnh, nhân bản, tốn kém chi phí cho việc truyền dữ liệu. • Thuật toán tối ưu truy vấn phân tán cổ điển là vét cạn và leo đồi: – Thuật toán vét cạn không phù hợp với sự bùng nổ dữ liệu. – Thuật toán leo đồi chỉ tìm kiếm được tối ưu cục bộ. • Để khắc phục, các giải thuật tìm kiếm ngẫu nhiên và Heuristic được đề xuất có thể tìm ra các giải pháp gần tối ưu chấp nhận được. 4I. TỔNG QUAN VỀ XỬ LÝ TRUY VẤN PHÂN TÁN Xét một CSDL mẫu mô hình hoá cho một công ty máy tính. Các thuộc tính của CSDL bao gồm: ENO: mã số nhân viên ENAME: tên nhân viên TITLE: chức vụ trong công ty SALE: mức lương RESP: nhiệm vụ trong dự án DUR: thời gian được phân công trong dự án PNO: mã số dự án PNAME: tên dự án BUDGET: ngân sách dự án BÀI TOÁN XỬ LÝ TRUY VẤN PHÂN TÁN 5CÁC QUAN HỆ ĐÃ CHUẨN HOÁ EMP ASG ENO ENAME TITLE ENO PNO RESP DUR E1 E2 E3 E4 E5 E6 E7 E8 J. Doe M. Smith A. Lee J. Miller B. Casey L. Chu R. David J. Jones Elect. Eng. Syst. Anal. Mech. Eng. Programmer Syst. Anal. Elect. Eng. Mech. Eng. Syst. Anal. E1 E2 E2 E3 E3 E4 E5 E6 E7 E8 P1 P1 P2 P3 P4 P2 P2 P4 P3 P3 Manager Analyst Analyst Consultant Engineer Programmer Manager Manager Engineer Manager 12 24 6 10 48 18 24 48 36 40 PROJ PAY PNO PNAME BUDGET TITLE SAL P1 P2 P3 P4 Instrumentation Database Develop CAD/CAM Maintenance 150000 135000 250000 310000 Elect. Eng. Syst. Anal. Mech. Eng. Programmer 40000 34000 27000 24000 6CHỌN LỰA CHIẾN LƯỢC SELECT ENAME FROM EMP, ASG WHERE EMP.ENO = ASG.ENO AND DUR > 37 Chiến lược 1 πENAME(σDUR>37 ∧ EMP.ENO=ASG.ENO(EMP x ASG)) Chiến lược 2 πENAME(EMP ENO (σDUR>37 (ASG))) Chiến lược 2 tránh được việc sử dụng tích Descartes nên “tốt hơn” 7CÁC CHIẾN LƯỢC THỰC THI TRUY VẤN TƯƠNG ĐƯƠNG Site 1 Site 2 Site 3 Site 4 Site 5 EMP1=σENO≤“E3”(EMP) EMP2=σENO>“E3”(EMP)ASG2=σENO>“E3”(ASG)ASG1=σENO≤“E3”(ASG) Result Site 4 result1 = EMP1’∪EMP2’ Site 3 Site 1 Site 2 EMP2’=EMP2 ENOASG2’EMP1’=EMP1 ENOASG1’ ASG1’=σDUR>37(ASG1) ASG2’=σDUR>37(ASG2) Site 5 ASG2’ASG1’ EMP1’ EMP2’ Chiến lược 2a Site 5 Site 1 Site 2 Site 3 Site 4 ASG1 EMP1 EMP2ASG2 result2=(EMP1∪EMP2) ENOσDUR>37(ASG1∪ASG2) Chiến lược 2b 8CHI PHÍ CỦA CÁC CHIẾN LƯỢC Giả sử • size(EMP) = 400, size(ASG) = 1000 • Chi phí truy xuất 1 bộ TA = 1; Chi phí truyền 1 bộ TT = 10 Chiến lược 2a 1. Tạo ASG’ bằng cách chọn trên ASG: (10 + 10) * TA = 20 2. Truyền ASG’ đến các vị trí (site) của EMP: (10 + 10) * TT = 200 3. Tạo EMP’ bằng cách nối ASG’ và EMP’: (10 + 10) * TA * 2 = 40 4. Truyền EMP’ đến vị trí (site) nhận kết quả: (10 + 10) * TT = 200 Tổng chi phí 460 Chiến lược 2b 1. Truyền EMP đến vị trí (site) 5: 400 * TT = 4,000 2. Truyền ASG đến vị trí (site) 5: 1000 * TT = 10,000 3. Tạo ASG’ bằng cách chọn trên ASG: 1000 * TA = 1,000 4. Nối EMP và ASG’: 400 * 20 * TA = 8,000 Tổng chi phí 23,000 9MỤC TIÊU CỦA TỐI ƯU TRUY VẤN • Cực tiểu hàm chi phí truy vấn Chi phí I/O + chi phí CPU + chi phí truyền thông Có những khác biệt về trọng số trong những môi trường phân tán khác nhau. • Mạng diện rộng - Chi phí truyền thông có ảnh hưởng lớn Dải thông thấp Tốc độ thấp - Hầu hết các giải thuật đều bỏ qua các thành phần chi phí khác trong quá trình xử lý cục bộ • Mạng cục bộ - Chi phí truyền thông không có ảnh hưởng lớn - Hàm chi phí tổng cộng cần phải được xem xét 10 ĐỘ PHỨC TẠP CỦA CÁC PHÉP TOÁN QUAN HỆ Giả sử số quan hệ của lực lượng là n Phép toán Độ phức tạp Chọn Chiếu (không loại bỏ trùng lặp) O(n) Chiếu (có loại bỏ trùng lặp) Gộp nhóm O(n*logn) Nối Nối nửa Chia Các phép toán tập hợp O(n*logn) Tích Descartes O(n2) 11 CÁC KIỂU TỐI ƯU • Giải thuật tìm kiếm vét cạn - Dựa trên chi phí - Tối ưu - Tổ hợp phức tạp trong một số quan hệ • Giải thuật Heuristics - Không tối ưu - Nhóm lại các biểu thức con chung - Thực hiện các phép chọn và chiếu trước - Thay thế các nối bằng một tổ hợp các nối nửa - Sắp xếp lại thứ tự thực hiện các phép toán để giảm các quan hệ trung gian - Tối ưu các phép toán riêng lẻ 12 THỜI ĐIỂM TỐI ƯU • Tĩnh - Biên dịch→ tối ưu hoá trước khi thực hiện truy vấn - Khó khăn trong việc ước lượng kích thước của các kết quả trung gian → lỗi truyền - Có thể truyền lại cho nhiều thực thi khác - R* • Động - Tối ưu hoá trong khi thực hiện truy vấn - Thông tin chính xác về kích thước của các quan hệ trung gian - Phải tối ưu lại với các thực thi bội nên tốn nhiều chi phí - INGRES • Lai (hỗn hợp) - Biên dịch sử dụng một giải thuật tĩnh - Nếu xảy ra lỗi do việc ước lượng kích thước > ngưỡng, phải tối ưu hoá lại lúc chạy chương trình 13 VỊ TRÍ QUYẾT ĐỊNH • Tập trung - Chỉ một vị trí xác định chiến lược tốt nhất - Đơn giản - Cần tri thức về CSDL phân tán toàn vẹn • Phân tán - Nhiều vị trí tham gia vào quá trình chọn ra chiến lược tốt nhất - Chỉ cần thông tin về vị trí • Lai (Hỗn hợp) - Một ví trí xác định các quyết định chính - Các vị trí khác đưa ra chọn lựa cục bộ - System R* 14 CẤU HÌNH MẠNG • Mạng diện rộng (WAN) - Đặc điểm Dải thông thấp Tốc độ thấp - Chi phí truyền thông chiếm ưu thế, có thể bỏ qua các nhân tố chi phí khác - Sắp xếp toàn thể để tối ưu hoá chi phí truyền thông - Sắp xếp cục bộ kéo theo tối ưu truy vấn tập trung • Mạng cục bộ (LAN) - Chi phí truyền thông không đáng kể - Hàm tổng chi phí phải được xem xét 15 CÁC TẦNG XỬ LÝ TRUY VẤN PHÂN TÁN Truy vấn dạng phép tính trên các quan hệ phân tán Vị trí điều khiển Các vị trí cục bộ Phân rã truy vấnPhân rã truy vấn Cục bộ hoá dữ liệuCục bộ hoá dữ liệu Truy vấn dạng đại số trên các quan hệ phân tán Tối ưu hoá toàn cụcTối ưu hoá toàn cục Truy vấn theo mảnh Tối ưu hoá cục bộTối ưu hoá cục bộ Truy vấn theo mảnh đã tối ưu cùng với các phép toán truyền Các truy vấn cục bộ đã tối ưu Lược đồ toàn cục Lược đồ toàn cục Lược đồ mảnh Lược đồ mảnh Số liệu trên các mảnh Số liệu trên các mảnh Lược đồ cục bộ Lược đồ cục bộ 16 II. XỬ LÝ TRUY VẤN PHÂN TÁN 1. PHÂN RÃ TRUY VẤN • Chuẩn hoá - Biến đổi câu truy vấn thành dạng chuẩn để xử lý tiếp • Phân tích - Tìm và loại bỏ các truy vấn không đúng hoặc không cần thiết - Có thể chỉ có một tập con của quan hệ toán • Loại bỏ dư thừa - Loại các vị từ thừa • Viết lại câu truy vấn - Truy vấn phép toán quan hệ truy vấn đại số quan hệ - Cấu trúc lại câu truy vấn đại số - Sử dụng các quy tắc biến đổi 17 CHUẨN HOÁ DỮ LIỆU • Phân tích cú pháp và từ vựng - Kiểm tra tính hợp lệ (tương tự bộ biên dịch) - Kiểm tra các thuộc tính và quan hệ • Đưa vào dạng chuẩn - Dạng chuẩn hội (p11 ∨ p12 ∨∨ p1n) ∧∧ (pm1 ∨ pm2 ∨ ∨ pmn) - Dạng chuẩn tuyển (p11 ∧ p12 ∧∧ p1n) ∨∨ (pm1 ∧ pm2 ∧∧ pmn) - OR (∨) được ánh xạ vào phép hội - AND (∧) được ánh xạ vào phép nối và chọn 18 PHÂN TÍCH • Loại bỏ những câu truy vấn sai • Sai kiểu - Nếu có bất kỳ thuộc tính hoặc tên quan hệ trong câu truy vấn chưa được khai báo trong lược đồ toàn cục. - Nếu các phép toán áp dụng cho các thuộc tính có kiểu không thích hợp • Sai nghĩa - Các thành phần của nó không tham gia vào việc tạo ra kết quả - Các câu truy vấn không chứa các tuyển và phủ định - Để tìm kiếm câu truy vấn sai, sử dụng: Đồ thị truy vấn Đồ thị kết nối 19 PHÂN TÍCH – VÍ DỤ SELECT ENAME,RESP FROM EMP, ASG, PROJ WHERE EMP.ENO = ASG.ENO AND ASG.PNO = PROJ.PNO AND PNAME = "CAD/CAM" AND DUR ≥ 36 AND TITLE = "Programmer" Đồ thị truy vấn Đồ thị kết nối DUR≥36 PNAME=“CAD/CAM” ENAME EMP.ENO=ASG.ENO ASG.PNO=PROJ.PNO RESULT TITLE = “Programmer” RESP ASG.PNO=PROJ.PNOEMP.ENO=ASG.ENO ASG PROJEMP EMP PROJ ASG 20 PHÂN TÍCH Nếu đồ thị truy vấn không liên thông, truy vấn bị sai. SELECT ENAME,RESP FROM EMP, ASG, PROJ WHERE EMP.ENO = ASG.ENO AND PNAME = "CAD/CAM" AND DUR ≥ 36 AND TITLE = "Programmer" PNAME=“CAD/CAM” ENAME RESULT RESP ASG PROJEMP DUR≥36 EMP.ENO=ASG.ENO ASG.PNO=PROJ.PNO TITLE = “Programmer” 21 LOẠI BỎ DƯ THỪA – VÍ DỤ SELECT TITLE FROM EMP WHERE EMP.ENAME = “J. Doe” OR (NOT(EMP.TITLE = “Programmer”) AND (EMP.TITLE = “Programmer” OR EMP.TITLE = “Elect. Eng.”) AND NOT(EMP.TITLE = “Elect. Eng.”)) Ø SELECT TITLE FROM EMP WHERE EMP.ENAME = “J. Doe” 22 VIẾT LẠI CÂU TRUY VẤN • Biến đổi câu truy vấn từ phép tính quan hệ thành đại số quan hệ • Tạo cây truy vấn • Ví dụ “Tìm tên các nhân viên trừ J. Doe đã làm cho dự án CAD/CAM trong một hoặc hai năm” SELECT ENAME FROM EMP, ASG, PROJ WHERE EMP.ENO = ASG.ENO AND ASG.PNO = PROJ.PNO AND ENAME ≠ “J. Doe” AND PNAME = “CAD/CAM” AND (DUR = 12 OR DUR = 24) ΠENAME σDUR=12 OR DUR=24 σPNAME=“CAD/CAM” σENAME≠“J. DOE” PROJ ASG EMP Project Select Join PNO ENO 23 VIẾT LẠI CÂU TRUY VẤN ΠENAME σPNAME=“CAD/CAM” ∧ (DUR=12 ∨ DUR=24) ∧ ENAME ≠ “J. DOE” × PROJASG EMP PNO ∧ ENO EMP ΠENAME σENAME ≠ "J. Doe" ASGPROJ ΠPNO,ENAME σPNAME = "CAD/CAM" ΠPNO σDUR =12 ∧ DUR=24 ΠPNO,ENO ΠPNO,ENAME PNO ENO Cây toán tử đã được viết lại Cây toán tử tương đương 24 CỤC BỘ HOÁ DỮ LIỆU PHÂN TÁN Giả sử – EMP được tách thành ba mảnh ngang EMP1, EMP2, EMP3 như sau: • EMP1= σ ENO≤“E3”(EMP) • EMP2= σ“E3”<ENO≤“E6”(EMP) • EMP3= σ ENO≥“E6”(EMP) – ASG được tách thành hai mảnh ngang ASG1 and ASG2 như sau: • ASG1= σ ENO≤“E3”(ASG) • ASG2= σ ENO>“E3”(ASG) Thay thế EMP bằng (EMP1 ∪ EMP2 ∪ EMP3 ) và ASG bằng (ASG1 ∪ ASG2) trong câu truy vấn ΠENAME σDUR=12 OR DUR=24 σPNAME=“CAD/CAM” σENAME≠“J. DOE” PROJ ∪ ∪ EMP1 EMP2 EMP3 ASG1 ASG2 PNO ENO 25 RÚT GỌN CHO PHÂN MẢNH NGANG Rút gọn với phép chọn Cho quan hệ R và FR = {R1, R2, , Rw} trong đó Rj= σpj(R) σpi(Rj)= φ nếu ∀x thuộc R: ¬(pi(x) ∧ pj(x)) Ví dụ: SELECT * FROM EMP WHERE ENO=“E5” σ ENO=“E5” ∪ EMP1 EMP2 EMP3 EMP2 σ ENO=“E5” 26 RÚT GỌN CHO PHÂN MẢNH NGANG Rút gọn với nối Ví dụ: Giả sử EMP được phân mảnh thành ASG1: σ ENO ≤ "E3"(ASG); ASG2: σ ENO > "E3"(ASG) Xem câu truy vấn SELECT * FROM EMP, ASG WHERE EMP.ENO=ASG.ENO ∪ ∪ EMP1 EMP2 EMP3 ASG1 ASG2 ENO Truy vấn gốc 27 RÚT GỌN CHO PHÂN MẢNH NGANG – Phân phối nối trên hợp – Áp dụng quy tắc rút gọn ∪ EMP1 ASG1 EMP2 ASG2 EMP3 ASG2 ENO ENO ENO Truy vấn đã rút gọn 28 RÚT GỌN CHO PHÂN MẢNH DỌC Tìm các quan hệ trung gian vô dụng (không rổng) Quan hệ R được định nghĩa trên các thuộc tính A = {A1, ..., An} và được phân mảnh dọc thành Ri = ΠA' (R) trong đó A' ⊆ A: ΠD,K(Ri) là vô dụng nếu tập các thuộc tính chiếu D không trong A' Ví dụ: EMP1= ΠENO,ENAME (EMP) EMP2= ΠENO,TITLE (EMP) SELECT ENAME FROM EMP ΠENAME EMP1EMP1 EMP2 ΠENAME ⇒ENO 29 RÚT GỌN CHO PHÂN MẢNH DẪN XUẤT Quy tắc – Phân phối các nối trên hợp – Áp dụng việc loại bỏ các nối trên phân mảnh ngang Ví dụ ASG1 = ASG ENO EMP1 ASG2 = ASG ENO EMP2 EMP1 = σ TITLE=“Programmer” (EMP) EMP2 = σ TITLE=“Programmer” (EMP) Truy vấn SELECT * FROM EMP, ASG WHERE ASG.ENO = EMP.ENO AND EMP.TITLE = “Mech. Eng.” 30 RÚT GỌN CHO PHÂN MẢNH DẪN XUẤT Truy vấn gốc Phép chọn trước ∪ ∪ ASG1 σ TITLE=“Mech. Eng.” ASG2 EMP1 EMP2 ∪ ASG1 ASG2 EMP2 σ TITLE=“Mech. Eng.” ENO ENO 31 RÚT GỌN CHO PHÂN MẢNH DẪN XUẤT Nối trên các hợp ∪ ASG1 EMP2 Loại bỏ các quan hệ trung gian rỗng (loại bỏ cây con trái) EMP2 σ TITLE=“Mech. Eng.” ASG2 σ TITLE=“Mech. Eng.” ASG2 EMP2 σ TITLE=“Mech. Eng.” ENO ENO ENO 32 RÚT GỌN CHO PHÂN MẢNH HỖN HỢP Kết hợp các quy tắc đã có: • Loại bỏ các quan hệ rỗng được tạo ra bởi các phép chọn mâu thuẫn trên các mảnh ngang; • Loại bỏ các quan hệ vô dụng được tạo ra từ các phép chiếu trên các mảnh dọc; • Phân phối các nối cho các hợp nhằm cô lập và loại bỏ các nối vô dụng. 33 RÚT GỌN CHO PHÂN MẢNH HỖN HỢP Ví dụ – Giả sử có phân mảnh hỗn hợp sau: EMP1= σ ENO≤"E4" (ΠENO,ENAME (EMP)) EMP2= σ ENO>"E4" (ΠENO,ENAME (EMP)) EMP3= ΠENO,TITLE (EMP) – Và câu truy vấn SELECT ENAME FROM EMP WHERE ENO=“E5” EMP2 σ ENO=“E5” ΠENAME Ä EMP1 EMP2 ∪ EMP3 σ ENO=“E5” ΠENAME ENO 34 III. TỐI ƯU TRUY VẤN PHÂN TÁN Input: Truy vấn phân mảnh Tìm kế hoạch tổng quát tốt nhất (không nhất thiết phải tối ưu) – Cực tiểu hoá hàm chi phí – Xử lý các nối phân tán, sử dụng nối nửa. – Phương pháp nối: Lặp lồng và thứ tự nối (nối trộn và nối băm) Không gian tìm kiếm – Tập của các biểu thức đại số tương đương (các cây truy vấn). Hàm chi phí (trong quan hệ thời gian) – Chi phí I/O + chi phí CPU + chi phí truyền Thuật toán tìm kiếm – Di chuyển bên trong không gian tìm kiếm – Các thuật giải heuristic (lặp cải tiến, mô phỏng luyện thép, di truyền,) 35 TỐI ƯU HOÁ TRUY VẤN Tạo ra không gian tìm kiếm Search Strategy QEP tương đương Câu truy vấn Quy tắc biến đổi Mô hình chi phí QEP tốt nhất 36 KHÔNG GIAN TÌM KIẾM PROJ ASGEMP Không gian tìm kiếm đặc trưng bởi việc chọn lựa hoạch định thực thi Trọng tâm trên cây nối Với N quan hệ, có O(N!) cây nối tương đương có thể thu được bằng cách áp dụng các quy tắc giao hoán và kết hợp SELECT ENAME,RESP FROM EMP, ASG, PROJ WHERE EMP.ENO=ASG.ENO AND ASG.PNO=PROJ.PNO PROJ ASG EMP PROJ ASG EMP × ENO ENO PNO PNO ENO,PNO 37 CHIẾN LƯỢC TÌM KIẾM Cách di chuyển trong không gian tìm kiếm Đơn định – Bắt đầu từ các quan hệ cơ sở và xây dựng các hoạch định bằng cách thêm vào một quan hệ ở mỗi bước – Quy hoạch động: theo chiều ngang – Thuật toán thiển cận: theo chiều sâu Ngẫu nhiên – Tìm kiếm lời giải tối ưu xung quanh một số điểm đặc biệt – Đánh đổi thời gian tối ưu với thời gian thực thi – Tốt nhất khi số quan hệ lớn hơn 5-6 – Mô phỏng luyện thép (Simulated Annealing) – Lặp cải tiến (Iterative improvement) 38 CHIẾN LƯỢC TÌM KIẾM Đơn định Ngẫu nhiên R2R1 R3 R3R1 R2 R2R1 R3 R4 R2R1 R2R1 R3 39 MÔ HÌNH CHI PHÍ PHÂN TÁN • Tổng thời gian (hay Tổng chi phí): Tổng các thành phần chi phí • Thời gian đáp ứng: Thời gian tính từ khi khởi hoạt cho đến khi hoàn thành câu truy vấn • Mạng diện rộng WAN – Khởi tạo và truyền thông điệp với chi phí cao – Xử lý cục bộ có chi phí thấp (với mainframes hoặc minicomputers) – Tỷ lệ truyền và thời gian xuất nhập có chi phí = 20:1 • Mạng cục bộ LAN – Phải xét cả chi phí cục bộ lẫn chi phí truyền – Tỷ lệ = 1:1.6 40 CÁC THUẬT TOÁN TỐI ƯU TRUY VẤN PHÂN TÁN Ba thuật toán cơ bản đại diện cho nhiều lớp thuật toán khác nhau là: • Ingres phân tán • System R* • SDD-1 • Ingres dùng thời điểm tối ưu hoá động còn các hệ kia dùng thời điểm tĩnh. • Hàm chi phí của SDD-1 và R* là hạ thấp tối đa tổng thời gian, còn Ingres phân tán là giảm tổ hợp thời gian đáp ứng và tổng thời gian. • Cấu hình mạng được giả thiết là mạng diện rộng điểm - điểm theo SDD-1. Các thuật toán Ingres và R* có thể thực thi trên cả mạng LAN và WAN. • SDD-1 sử dụng nối nửa như một kỹ thuật tối ưu hoá. • Ingres có thể xử lý các mảnh. 41 THUẬT TOÁN INGRES PHÂN TÁN Nguyên liệu: MRQ (Multi Relation Query, truy vấn đa quan hệ) Thành phẩm: kết quả cuối cùng của truy vấn đa quan hệ Begin {thực hiện mọi truy vấn một quan hệ} For mỗi ORQi khả tách trong MRQ do Run(ORQi) End For {thay MRQ bằng một danh sách có n truy vấn đã tối giản (bất khả tách)} MRQ’_list← REDUCE(MRQ) 42 THUẬT TOÁN INGRES PHÂN TÁN (tt) While n 0 do Begin {chọn một truy vấn bất khả tách có chứa các mảnh nhỏ nhất} MRQ’← SELECT_QUERY(MRQ’_list) {xác định các mảnh cần truyền và vị trí xử lý cho MRQ’} Fragment_site_list ← SELECT_STRATEGY(MRQ’) For mỗi cặp (F, S) trong Fragment_site_list do di_chuyển_mảnh_F_đến_vị_trí_S End For run(MRQ’) dec(n) End While {MRQ’ cuối cùng là thành phẩm} End. 43 THUẬT TOÁN SYSTEM R* Nguyên liệu: QT (Query Tree, cây truy vấn) Thành phẩm: strat (chiến lược có chi phí nhỏ nhất) Begin For mỗi quan hệ Ri ∈ QT do Begin For mỗi đường truy xuất Apij đến Ri do xác định cost(Apij); End For; best_Api← Apij có chi phí nhỏ nhất End; 44 THUẬT TOÁN SYSTEM R* (tt) For mỗi thứ tự (Ri1, Ri2, , Rin) với i = 1, , n! do Begin xây dựng chiến lược (((best_Api1 Ri2) Ri3) Rin) tính chi phí của chiến lược End For strat← chiến lược có chi phí nhỏ nhất For mỗi vị trí k có lưu quan hệ có mặt trong QT do Begin LSk← chiến lược cục bộ (chiến lược, k) {mỗi chiến lược cục bộ được tối ưu hoá tại vị trí k} send(LSk, vị trí k) End For; End. 45 THUẬT TOÁN SDD-1 Nguyên liệu: QG: đồ thị truy vấn có n quan hệ; số liệu thống kê cho mỗi quan hệ; Thành phẩm: ES: chiến lược thực thi truy vấn Begin ES← thao tác cục bộ (QG) sửa lại số liệu thống kê để phản ánh tác dụng của xử lý cục bộ BS← ∅ {tập các nối nửa lợi ích} For mỗi nối nửa SJ trong QG do If cost(SJ) < benefit(SJ) then BS← BS ∪ SJ End If End For While BS ∅ do {chọn các nối nửa lợi ích} 46 THUẬT TOÁN SDD-1 (tt) Begin SJ← most_benefit(BS) BS← BS – SJ ES← ES + SJ sửa lại số liệu thống kê để phản ánh tác dụng của việc gắn SJ BS← BS – các nối nửa không lợi ích BS← BS ∪ các nối nửa lợi ích mới End While; AS(ES)← chọn vị trí i sao cho i có chứa dữ liệu lớn nhất sau khi thực hiện tất cả mọi thao tác cục bộ ES← ES ∪ truyền các quan hệ trung gian đến AS(ES) For mỗi quan hệ Ri tại AS(ES) do For mỗi nối nửa SJ của Ri với Rj do If cost(ES) > cost(ES – SJ) then ES← ES – SJ End If End For End For End. 47 SO SÁNH CÁC THUẬT TOÁN TỐI ƯU HOÁ Thuật toán Thời điểm tối ưu Hàm mục tiêu Hệ số tối ưu hoá Topo mạng Nối nửa Số liệu thống kê Phân mảnh Dist. INGRES Động Thời gian đáp ứng hoặc tổng chi phí Kích thước TB, chi phí xử lý Tổng quát hoặc phát tán Không 1 Ngang R* Tĩnh Tổng chi phí Lượng TB, kích thước TB, IO, CPU Tổng quát hoặc cục bộ Không 1, 2 Không SDD-1 Tĩnh Tổng chi phí Kích thước TB Tổng quát Có 1, 3, 4, 5 Không 1. Lực lượng của quan hệ; 2. Số giá trị duy nhất của mỗi thuộc tính; 3. Hệ số tuyển chọn nối; 4. Kích thước của nối trong mỗi thuộc tính nối; 5. Kích thước thuộc tính và kích thước bộ 48 KẾT LUẬN • Mục tiêu của việc xử lý truy vấn phân tán là hạ thấp tối đa hàm chi phí • Nguyên liệu quan trọng của bài toán tối ưu truy vấn là số liệu thống kê CSDL và các công thức dùng để đánh giá kích thước các kết quả trung gian. • Phép toán quan trọng nhất trong xử lý truy vấn phân tán là phép toán nối. • Việc sử dụng thuật toán nào là còn tuỳ theo từng điều kiện cụ thể: – Với mạng diện rộng WAN, nên sử dụng thuật toán SDD-1. – Với mạng cục bộ LAN, có thể dùng thuật toán D-Ingres hoặc R* do không sử dụng các nối nửa, trong đó D-Ingres tối ưu động thích hợp với phân mảnh ngang R* tối ưu tĩnh thích hợp với các truy vấn được dùng thường xuyên. 49 TÀI LIỆU THAM KHẢO [1] Fragkiskos Pentaris; Distributed Query Optimization by Query Trading; 2006. [2] Ravindra Guravannavar, Ramanujam H.S.; Optimizing Nested Queries with Parameter Sort Orders; 2006. [3] Fabio Porto; Distributed Query Processing; 2005. [4] Farnoush Banaei-Kashani; Distributed Databases; 2005. [5] Yongluan Zou, Beng Chin Ooi; An Adaptable Distributed Query Processing; 2005. [6] Đỗ Phúc; Bài giảng môn học Cơ sở dữ liệu nâng cao; 2004. [7] Donald Kossmann; The State of Art in Distributed Query Processing; 2000. [8] M. Tamer Ozsu, Patrick Valduriez; Principles of Distributed Database Systems; 1999.

Các file đính kèm theo tài liệu này:

bai_giang_co_so_du_lieu_bai_4_toi_uu_truy_van_tren_he_co_so.pdf