MỤC LỤC
Danh mục hình vẽ 5
Danh sách các thuật ngữ và từ viết tắt .6
Lời mở đầu .7
Chương I. Khai thác dữ liệu và xử lý phân tích trực tuyến 10
1.1. Giới thiệu các phương pháp khai thác dữ liệu .10
1.2. Xử lý phân tích trực tuyến (OLAP) 11
1.3. Nguyên tắc của OLAP 12
1.3.1. Khung nhìn đa chiều .12
1.3.2. Tính trong suốt (Transparency) 12
1.3.3. Khả năng truy nhập được 13
1.3.4. Thực hiện việc tạo báo cáo đồng nhất 13
1.3.5. Kiến trúc khách/chủ (Client/Server) .13
1.3.6. Cấu trúc chung cho các chiều (Generic Dimensionality) .13
1.3.7. Làm việc với ma trận .14
1.3.8. Hỗ trợ nhiều người sử dụng .14
1.3.9. Phép toán giữa các chiều không hạn chế 14
1.3.10. Thao tác tập trung vào dữ liệu 14
1.3.11. Tạo báo cáo linh hoạt .15
1.3.12. Không hạn chế số chiều và các mức kết hợp dữ liệu 15
Chương II. Kho dữ liệu (Data Warehouse) 16
2.1. Các thành phần kho dữ liệu 16
2.1.1. Siêu dữ liệu (Metadata) .17
2.1.2. Các nguồn dữ liệu .17
2.1.3. Hệ thống xử lý giao dịch trực tuyến (OLTP) 18
2.1.3.1. Những đặc điểm của hệ thống OLTP 19
2.1.3.2. Các công cụ thu thập, làm sạch và chuyển đổi dữ liệu nguồn .20
2.1.4. Cơ sở dữ liệu của kho dữ liệu .22
2.1.5. Kho dữ liệu 23
2.1.5.1. Định nghĩa 23
2.1.5.2. Đặc điểm dữ liệu trong kho dữ liệu .24
2.1.6. Kho dữ liệu chủ đề (Datamart) .25
2.2. Sử dụng kho dữ liệu .26
2.3. Phương pháp xây dựng kho dữ liệu 28
2.4. Thiết kế CSDL cho kho dữ liệu .29
2.4.1. Giản đồ hình sao (Star) .29
2.4.2. Giản đồ hình tuyết rơi (Snowflake) .32
2.4.3 Giản đồ kết hợp 33
2.4.4. Những vấn đề liên quan tới thiết kế giản đồ hình sao .34
2.4.4.1. Đánh chỉ số 34
2.4.4.2. Chỉ thị về mức 35
2.4.5. Những nhân tố thiết kế cần phải được cân nhắc .35
2.5. Quản trị kho dữ liệu .37
Chương III. Tiếp cận và phân tích đa chiều trong xử lý phân tích
trực tuyến 39
3.1. Tiếp cận đa chiều 39
3.2. Phân tích đa chiều 40
3.3. Kiến trúc khối của OLAP (OLAP Cube Architecture) 42
3.3.1. Giới thiệu kiến trúc khối .42
3.3.2. Khối (Cube) .43
3.3.2.1. Xác định khối .44
3.3.2.2. Xử lý các khối 45
3.3.2.3. Khối ảo (Virtual Cube) 46
3.3.3 Chiều (Dimension) .46
3.3.3.1. Xác định các chiều .48
3.3.3.2. Chiều có phân cấp 48
3.3.3.3. Phân cấp chiều .49
3.3.3.4. Roll_up và Drill_down dựa trên phân cấp chiều .50
3.3.3.5. Các chiều ảo (Virtual Dimensions) 50
3.3.4. Các đơn vị đo lường (Measures) .51
3.3.5. Các phân hoạch (Partitions) .51
3.3.6. Các phương pháp lưu trữ dữ liệu (MOLAP, ROLAP, HOLAP) .53
3.3.6.1. MOLAP (Multidimensional OLAP) 53
3.3.6.2. ROLAP (Relational OLAP) .54
3.3.6.3. HOLAP (Hybrid OLAP) 55
3.4. Thuật toán chỉ số hoá các khung nhìn trong xử lý phân tích trực tuyến kho dữ
liệu .55
3.4.1. Một số khái niệm cơ bản .56
3.4.1.1. Các khối dữ liệu con (Subcubes) .56
3.4.1.2. Câu truy vấn (Queries) .56
3.4.1.3. Chỉ số (Indexes) .57
3.4.1.4. Quan hệ tính toán và phụ thuộc .58
3.4.2. Thuật toán chọn View và Index .61
3.4.2.1. Ước tính kích thước của mỗi View 61
3.4.2.2. Ước tính kích thước của chỉ số Index 61
3.4.2.3. Xác định bài toán .62
3.4.2.4. Giải quyết bài toán .63
3.3.5 Kết luận 66
Chương IV. Hệ trợ giúp quyết định dựa vào dữ liệu .67
4.1. Hệ trợ giúp quyết định .67
4.1.1. Giới thiệu 67
4.1.2. Hệ trợ giúp quyết định 68
4.1.3. Phân loại các hệ trợ giúp quyết định 69
4.2. Hệ trợ giúp quyết định dựa vào dữ liệu 71
4.2.1. Tiếp cận kho dữ liệu và OLAP 71
4.2.2. Trợ giúp quyết định dựa vào dữ liệu trên cơ sở kho dữ liệu và OLAP .73
4.2.3. Tiến trình trợ giúp quyết định dựa vào dữ liệu cho bài toán cụ thể .75
4.3. Xây dựng cấu trúc thông tin hỗ trợ việc ra quyết định 77
4.3.1. Vai trò của cấu trúc thông tin .77
4.3.2. Các yếu tố ảnh hưởng .78
4.3.2.1. Các yêu cầu thông tin .78
4.3.2.2. Mức độ tích hợp .80
4.3.3. Mô hình tổ chức thông tin .81
4.3.3.1. Các yêu cầu thông tin và năng lực của hệ thống thông tin 81
4.3.3.2. Mức độ tích hợp hệ thống 83
4.3.4. Kết luận .84
4.4. Dịch vụ trợ giúp quyết định của Microsoft 85
4.4.1. Kho dữ liệu Microsoft .85
4.4.1.1. Microsoft Data Warehousing Framework .86
4.4.1.2. Sự phức tạp của dữ liệu .87
4.4.1.3. Lợi ích đối với việc kinh doanh .88
4.4.1.4. Mô hình dữ liệu 88
4.4.1.5. Các hình thức lưu trữ .89
4.4.2. Kiến trúc dịch vụ trợ giúp ra quyết định của Microsoft 90
4.4.3. Các vấn đề trong việc triển khai Microsoft DSS .91
4.4.3.1. Xây dựng mô hình dữ liệu OLAP cho Microsoft DSS 91
4.4.3.2. Lưu trữ mềm dẻo .93
4.4.3.3. Chuyển thông tin tới người sử dụng 97
4.4.3.4. Khả năng của các công cụ OLAP 100
4.5. Hướng nghiên cứu phát triển: Hệ trợ giúp quyết định phân tán 102
Chương V. Xây dựng hệ thống trợ giúp quyết định dựa vào dữ liệu
bằng công cụ Analysis Services 106
5.1. Mục tiêu của hệ thống 106
5.2. Yêu cầu về hệ thống 106
5.3. Chức năng chính của hệ thống 107
5.3.1. Chức năng tạo lập CSDL đa chiều .109
5.3.2. Chức năng phân tích và hiển thị dữ liệu .109
5.4. Giới thiệu hệ thống .110
5.4.1. Khởi động Analysis Manager 110
5.4.2. Cài đặt cơ sở dữ liệu và nguồn dữ liệu (Database & Data Source) .110
5.4.3. Tạo khối .111
5.4.4. Lưu trữ và xử lý khối .114
5.4.5. Khối ảo tăng cường khả năng xử lý và bảo mật .117
5.4.6. Tạo khối ảo 118
5.4.7. Hiển thị dữ liệu khối 120
5.4.8. Ví dụ minh họa 121
Phần kết luận .122
Tài liệu tham khảo .124
Tóm tắt luận văn 125
125 trang |
Chia sẻ: banmai | Lượt xem: 2383 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ trợ giúp quyết định dựa vào dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ơ sở giản đồ dữ
- 92 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
liệu ban đầu với mô hình đa chiều. Trong sự pháp triển của các sản phẩm
OLAP, quá trình thiết kế cơ sở dữ liệu OLAP trở thành quan trọng đặc biệt,
liên quan một cách phức tạp đến công nghệ OLAP cụ thể sẽ được triển khai.
Do đó, công cụ phát triển cơ sở dữ liệu OLAP phải chuyên dụng, có khả năng
phát triển ứng dụng và tăng cường hỗ trợ cho việc thiết kế dữ liệu
Trong hầu hết các vấn đề khi triển khai OLAP có vẻ như dữ liệu đã
được chuẩn bị cho việc phân tích qua quá trình thực hiện kho dữ liệu nơi mà
thông tin được trích chọn từ các hệ thống tác nghiệp, được làm sạch, hợp lý
hoá và tổng hợp để đưa vào các ứng dụng OLAP. Đây là bước cần thiết trong
quá trình để đảm bảo rằng dữ liệu được hiển thị bởi người sử dụng OLAP là
chính xác, nhất quán và phù hợp.
Ngoài ra, thông tin trong kho dữ liệu được tổ chức theo giản đồ hình
sao hoặc hình tuyết rơi dễ dàng giúp người sử dụng hiểu được dữ liệu, tối đa
hoá khả năng truy xuất dữ liệu cho các ứng dụng hỗ trợ ra quyết định và giảm
thiếu khối lượng lưu trữ đối với các dữ liệu lớn. Các giản đồ này là sự tương
đối về mặt quan hệ của mô hình dữ liệu OLAP và là bước đầu cho việc định
nghĩa các khối OLAP. Một vài sản phẩm OLAP tạo sự thuận lợi cho xu
hướng này. Nó thường không cung cấp các công cụ để ánh xạ một giản đồ
hình sao tới một mô hình OLAP làm cho chi phí của việc xây dựng các mô
hình OLAP rất cao và thời gian phát triển kéo dài không cần thiết.
Một sự khác biệt quan trọng trong Microsoft DSS là giao diện người sử
dụng OLAP Manager được tạo với phần quản trị dữ liệu OLAP (OLAP
Database Administrator - DBA). Microsoft DSS OLAP Manager được thực
hiện từ Microsoft Management Console (MMC) và chia sẻ cùng một giao
diện quản trị với SQL Server. Lợi ích rõ ràng là OLAP DBA có thể làm tốt
hơn việc dịch từ SQL Server đến các sản phẩm Microsoft khác. Microsoft
DSS bao gồm nhiều tính năng giúp những người ít kinh nghiệm hoặc những
- 93 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
người ít sử dụng thực hiện được các tác vụ chính. Microsoft DSS còn có đầy
đủ các tính năng trợ giúp OLAP và các hướng dẫn theo từng bước để xây
dựng một khối. Các Wizard có sẵn có thể tự động thực hiện các tác vụ chính
như tạo các chiều.
Hơn nữa, Microsoft DSS được đánh giá là có thể phát triển trong môi
trường kho dữ liệu được thiết kế theo cấu trúc giản đồ hình sao hay tuyết rơi.
Wizard tạo khối đặc biệt thích hợp cho việc tạo các mô hình đa chiều một
cách nhanh chóng. Ngoài ra Microsoft DSS cũng có thể dễ dàng cung cấp các
kiểu giản đồ khác.
4.4.3.2. Lưu trữ mềm dẻo
Thu thập dữ liệu là chính sách của hầu hết các sản phẩm OLAP. Bước
thu thập trước sẽ cho các kết quả có ý nghĩa: có thể dễ dàng được loại bỏ từ
đầu một số tập hợp và việc độ lớn của dữ liệu lưu trữ đột ngột tăng lên.
Các ví dụ thực về ảnh hưởng của bùng nổ dữ liệu là rất nhiều. Một báo
cáo chính thức từ một thử nghiệm chuẩn của một sản phẩm OLAP cho kết
quả là dữ liệu bị tăng tới 240 lần và cần 2,4 GB dung lượng đĩa chỉ để lưu trữ
10 MB dữ liệu nhập vào ban đầu.
Việc cung cấp dung lượng lưu trữ thích hợp để đối phó với bùng nổ dữ
liệu là rất quan trọng để triển khai OLAP và tạo ra các giới hạn khác biệt đối
với một tổ chức để phân tích tất cả các mức dữ liệu được thiết kế.
Do đặc trưng của bùng nổ dữ liệu, các ứng dụng OLAP có thể hứng
chịu nhiều hơn khi nguồn dữ liệu hay chi tiết dữ liệu được phân tán qua khối
đa chiều. Mất dữ liệu hoặc dữ liệu không hợp lệ có thể xuất hiện rải rác trong
mô hình dữ liệu OLAP. Trong trường hợp xấu nhất một sản phẩm OLAP sẽ
không lưu lại một giá trị rỗng. Ví dụ, một công ty có thể không bán tất cả sản
phẩn của họ trong tất cả các khu vực bởi vậy giá trị rỗng sẽ xuất hiện ở điểm
giao của các sản phẩm không được bán trong khu vực cụ thể.
- 94 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Dữ liệu rải rác gây nên sự khó khăn cho những người cung cấp OLAP,
một số trường hợp sẽ cho kết quả là cơ sở dữ liệu sẽ lưu trữ các giá trị rỗng,
mật độ lưu trữ thấp và tốn chỗ cũng như tài nguyên. Microsoft DSS không
lưu trữ giá trị rỗng và kết quả là các khối không bị tăng kích cỡ. Khi điều này
thường xuyên xuất hiện như yếu tố quyết định trong kiến trúc OLAP, sự khác
biệt giữa các bổ xung từ nhà cung cấp là nhỏ so với sự bùng nổ dữ liệu ngày
càng lớn do việc tính toán trước quá nhiều tập hợp.
Microsoft DSS đưa ra giải pháp mềm dẻo để cho phép OLAP DBA
quyết định kiểu lưu trữ nào là thích hợp. Microsoft DSS hỗ trợ đầy đủ việc xử
lý MOLAP, ROLAP hoặc giải pháp kết hợp trong đó các tập hợp được lưu trữ
cả đa chiều và quan hệ. Ví dụ, quản trị cơ sở dữ liệu có thể lựa chọn các dữ
liệu được truy cập thường xuyên như giá trị năm (Year) trong MOLAP và dữ
liệu lịch sử có các vấn đề về phân cấp trong ROLAP.
Dù sao mô hình dữ liệu cơ bản là hoàn toàn vô hình đối với ứng dụng
Client và người sử dụng chỉ tiếp xúc với các khối. Dù chọn giải pháp nào để
thực hiện một mô hình dữ liệu (MOLAP, ROLAP hay HOLAP) thì sự tích
hợp của Microsoft DSS với các cơ sở dữ liệu quan hệ vẫn là chủ đạo. Với
công cụ thiết kế GUI và Wizard liên kết thẳng tới OLE DB, Microsoft DSS
duy trì liên kết chặt chẽ giữa nguồn dữ liệu, siêu dữ liệu đa chiều OLAP và
tập hợp của chúng.
Khi thực hiện các mô hình dữ liệu ROLAP, Microsoft DSS sẽ định
nghĩa, tạo lập và duy trì tất cả các cấu trúc cơ sở dữ liệu quan hệ. Tính chất
này giúp công cụ phát triển tự do trong việc thực hiện các tác vụ hoặc quản lý
các truy vấn phức tạp.
Microsoft DSS cũng tối thiểu hoá vấn đề cơ bản của công nghệ OLAP
là bùng nổ dữ liệu do sự thu thập trước dữ liệu quá mức. Sự bùng nổ dữ liệu
OLAP là kết quả của việc thu thập trước đa chiều. Trong các hệ thống OLAP
- 95 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
truyền thống, dữ liệu không được thu thập trước sẽ không được dùng cho mục
đích phân tích và báo cáo trừ khi được tính toán khi chạy. Việc tính toán trước
và lưu trữ tất cả tập hợp phức tạp (Ví dụ: tổng của tất cả các sản phẩm và các
mức sản phẩm qua tất cả các giai đoạn, qua tất cả các tổ chức, qua tất cả các
kênh phân phối), các sản phẩm OLAP truyền thống sẽ gây ra một sự bùng nổ
về dữ liệu một cách ồ ạt.
Trái ngược với việc buộc phải tiếp cận tính toán trên tất cả các tập hợp
có thể, Microsoft DSS xác định rõ các tập hợp nào cung cấp các cải tiến tốt
nhất cho việc thực hiện nhưng cũng có thể tạo ra sự cân bằng giữa tốc độ hệ
thống và dung lượng lưu trữ yêu cầu để quản lý các tập hợp. Nếu công cụ
phát triển tính toán trước tất cả các tập hợp, dung lượng lưu trữ yêu cầu sẽ
được tối đa hoá (đây là biểu hiện bùng nổ dữ liệu). Mặt khác nếu công cụ phát
triển không thực hiện tính toán trước, dung lượng lưu trữ yêu cầu có thể sẽ là
không nhưng việc xử lý sẽ không được cải thiện.
Trong hầu hết các trường hợp, Microsoft DSS có thể cải thiện được
thêm 80% các yêu cầu truy vấn mà không cần tính toán trước trên các tập
hợp: bùng nổ dữ liệu thường xuất hiện trong 20% số tập hợp còn lại. DSS
phân tích mô hình siêu dữ liệu OLAP và sử dụng phương pháp đánh giá
(Heuristics) để xác định tập các tập hợp là gốc của tất cả các tập hợp khác.
Kết quả là Microsoft DSS nhận được dữ liệu không có tính tập hợp từ một vài
tập đã tồn tại hơn là phải quét toàn bộ kho dữ liệu.
Phương pháp đánh giá của Microsoft DSS là khá tốt, nó dựa trên các
mô hình toán học có thể phù hợp hoặc không phù hợp với các mô hình được
sử dụng trên thực tế. Để đánh giá việc xử lý theo các mô hình thực tế,
Microsoft DSS có thể ghi lại (Log) các truy vấn được gửi tới Server. Các Log
này sau đó có thể được sử dụng để tìm ra tập các tập hợp mà Microsoft DSS
duy trì. Ví dụ: một Wizard đơn giản có thể làm DBA yêu cầu Microsoft DSS
- 96 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
tạo mới một tập các tập hợp cho tất cả các truy vấn cần nhiều hơn n giây để
trả lời (n có thể là 10 giây hoặc hơn).
Trong nhiều tổ chức, thời gian thực hiện được quan tâm hơn dung
lượng đĩa cần cho lưu trữ. Người ta có thể chịu bỏ tiền mua thêm dung lượng
lưu trữ hơn là phải mất hàng ngày để có được dữ liệu. Giải pháp Microsoft
DSS về vấn đề bùng nổ dữ liệu dẫu sao cũng giảm bớt được thời gian yêu cầu
cho quá trình nạp dữ liệu ban đầu và các cập nhật có lợi như giảm thiểu khối
lượng đĩa lưu trữ cần thiết. Nếu một ứng dụng bắt đầu với 10 GB kho dữ liệu
và sinh ra 10 GB các tập hợp, thời gian của quá trình yêu cầu là một phần nhỏ
của tiến trình bùng nổ toàn phần tập các tập hợp.
Microsoft DSS cũng tạo ra một cách tiếp cận mới với vấn đề dữ liệu bị
dàn trải. Khi các chi tiết thực hiện nội tại được sở hữu, các kết quả thực hiện
trên cả MOLAP và ROLAP quản lý lưu trữ cực kỳ tốt và trên thực tế các cơ
sở dữ liệu với yêu cầu lưu trữ OLAP là nhỏ hơn dữ liệu chi tiết ban đầu.
Các khối ảo có thể được sử dụng trong bất kỳ tình huống nào, nơi mà
người sử dụng muốn có một khung nhìn về thông tin kết hợp từ hai khối khác
nhau chia sẻ một vài chiều chung. Tương tự trong khái niệm về khung nhìn,
các khối ảo là hai hay nhiều khối liên kết theo một hoặc nhiều chiều chung.
Lợi thế của các khối ảo áp dụng trong các tình huống dữ liệu dàn trải là vấn
đề đáng kể. Ví dụ, một khối chứa các đơn vị đo cho giá bán một sản phẩm và
giá bán thực tế có thể có một đơn vị đo bằng bảng giá để thực hiện giảm giá
nhưng giá trị bảng giá có thể được lặp lại nhiều lần. Bằng cách xây dựng khối
bảng giá được kết hợp trong khối ảo với thông tin giá bán thực tế, DBA có thể
loại trừ khá nhiều dữ liệu dư thừa. Khả năng tạo các khối ảo có nghĩa là nhiều
giá trị không cần thiết có thể được loại trừ khỏi lưu trữ dữ liệu OLAP.
Việc thực hiện cụ thể một ứng dụng OLAP cần tính năng của một vài
yếu tố bao gồm kích cỡ cơ sở dữ liệu, sức mạnh phần cứng hệ thống và dung
- 97 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
lượng đĩa cấp cho các dữ liệu tập hợp trước. Các ứng dụng Microsoft DSS
đáp ứng được hầu hết các yêu cầu truy vấn trong thời gian dưới 5 giây và gần
như tất cả các truy vấn trong 10 giây.
Các bổ xung mới của Microsoft DSS là các khối phân chia, làm cho
công nghệ này được nâng lên một bậc. Khối phân chia có thể là một khối
Lôgic của dữ liệu được dàn trải qua các khối vật lý thậm chí rải rác trên các
Server riêng biệt. Để trả lời các truy vấn từ người sử dụng, Microsoft DSS
phân tán các truy vấn đễn các Server, kích hoạt dữ liệu và có thể nhận lại song
song.
Ví dụ, trường hợp một ứng dụng dò tìm các cuộc điện thoại trong 10
khu vực địa lý nơi có hàng triệu cuộc điện thoại mỗi ngày. Do mục đích của
phân tích này, dữ liệu có thể nằm trong 10 Server mà mỗi cái chứa dữ liệu
một khu vực riêng và thường chỉ có một khối dữ liệu Lôgic đơn giản. Để trả
lời yêu cầu từ người sử dụng về thông tin này, Microsoft DSS chuyển các yêu
cầu truy vấn thích hợp cho mỗi Server và nhận lại các kết quả riêng lẻ. Mỗi cơ
sở dữ liệu riêng biệt cũng sẵn sàng cho các truy xuất riêng biệt để phân tích
chỉ thông tin tìm kiếm cho từng khu vực. Khả năng của Microsoft DSS quản
lý hiệu quả dữ liệu phân chia trên các Server làm cho công nghệ này tiến xa
hơn.
4.4.3.3. Chuyển thông tin tới người sử dụng
Công nghệ OLAP Server được kết hợp chặt chẽ với công nghệ Client,
có nghĩa là khách hàng có rất ít lựa chọn cho sản phẩm. Điều này dẫn đến giá
của giải pháp cao và thường có các lựa chọn không tương xứng cho các ứng
dụng Client/Server và chuyển tải thông tin OLAP dựa trên nền Web. Vài năm
trước trong thị trường cơ sở dữ liệu quan hệ, một giao diện chung là cần thiết
để phát triển trong lựa chọn các ứng dụng và cơ sở dữ liệu là ODBC.
Các công cụ OLAP lần đầu tiên được áp dụng vào năm 1996 khi nhóm
- 98 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
các nhà cung cấp gọi là Hội đồng OLAP công bố chuẩn MDAPI để mở ra một
thị trường cho sự tham gia của các nhà cung cấp lớn. Cộng đồng các nhà cung
cấp gồm các thành viên Hội đồng OLAP.
Nhận ra sự cần thiết phải có một chuẩn thống nhất, Microsoft đã đưa ra
một định nghĩa mở rộng của API dùng để truy nhập dữ liệu OLE DB đang tồn
tại bao gồm các tính năng đa chiều. Microsoft đã đưa ra hai phác thảo của
API, tìm kiếm các ý kiến của các nhà cung cấp và đưa ra phiên bản cuối cùng
đã được chứng thực bởi 18 nhà cung cấp trong bản beta. Ngày nay OLE DB
cho OLAP API đã được hỗ trợ từ 30 nhà cung cấp trong số này có tất cả các
thành viên hiện tại của Hội đồng OLAP. Rất nhiều trong số này đã sẵn sàng
đưa ra các sản phẩm dạng beta chi tiết cho người sử dụng.
Nhiều nhà phân tích kinh doanh cần dữ liệu phân tích đa chiều ngay cả
khi đã ngắt kết nối mạng trong lúc họ đang đi công tác chẳng hạn. Người sử
dụng lưu động thường muốn xem và phân tích chỉ những lát nhỏ của khối,
chẳng hạn như trường hợp người quản lý bán hàng muốn biết tổng doanh thu
cho từng khu vực khi đến thăm các văn phòng công ty ở từng khu vực.
DOLAP (Desktop OLAP) là công nghệ không đòi hỏi một máy chủ chia sẻ để
truy cập dữ liệu đa chiều.
Hầu hết các công nghệ máy chủ OLAP ngày nay không cung cấp việc
tạo các khối DOLAP trong suốt. Công việc này được dành cho các nỗ lực
phát triển đòi hỏi sự tập trung hoặc để các công cụ Client sẽ thêm vào tính
năng OLAP hỗ trợ sử dụng trên máy để bàn.
Hầu hết công cụ hiển thị hiện nay đều là dùng các dạng thông tin trên
Web và OLAP không phải là ngoại lệ. Để giảm chi phí cho mỗi người sử
dụng các ứng dụng OLAP, trình duyệt Web hứa hẹn mở ra một cách truy cập
đa chiều. Hiện tại đã có một vài sản phẩm và công cụ chuyển giao dữ liệu
OLAP qua mạng nội bộ nhưng chưa có một cơ chế dễ dàng cho công cụ phát
- 99 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
triển ứng dụng để tạo ra các công cụ hiển thị OLAP theo ý muốn.
DSS Server lưu cả các truy vấn của người sử dụng, siêu dữ liệu cũng
như dữ liệu. Việc xác định các truy vấn đã lưu và siêu dữ liệu làm Microsoft
DSS có khả năng trả lời các truy vấn mới bằng cách tính toán dữ liệu đã được
lưu thay vì truy xuất từ đĩa. Ví dụ, một người sử dụng yêu cầu dữ liệu bán
hàng trong các tháng 1, 2 và 3, người khác yêu cầu dữ liệu bán hàng trong
quý I, khi đó Microsoft DSS có thể lấy tổng số từ tháng 1 đến 3 từ RAM
nhanh hơn tìm dữ liệu quý I từ đĩa. Không có gì khác biệt từ hầu hết các máy
chủ OLAP khác.
Microsoft DSS là giải pháp duy nhất có khả năng cung cấp nhiều tính
năng cho phía Client. Mọi Client kết nối tới DSS Server sẽ dùng một thành
phần gọi là Microsoft PivotTable Service. PivotTable Service có tính năng
điều khiển và quản lý kết nối giữa Client và Server. PivotTable Service chia
sẻ nhiều đoạn mã với DSS Server, chuyển thành phần tính toán đa chiều của
Server, Cache và quản lý truy vấn đến Client. Kết quả sẽ cho ta một mô hình
quản lý dữ liệu Client/Server mới có khả năng thực hiện yêu cầu cao và giảm
thiểu lưu thông mạng. Điều này đem lại lợi ích là dung lượng đĩa yêu cầu của
PivotTable Service chỉ xấp xỉ 2 MB và bộ nhớ yêu cầu là 500 KB.
Kiến trúc DSS Client/Server thông minh này có khả năng xác định cách
thức để trả lời một yêu cầu từ người sử dụng nhanh nhất và loại trừ sự dư thừa
trong lưu thông mạng. Điểm cốt lõi của kiến trúc này là chia sẻ siêu dữ liệu
giữa Client và Server. Khi người sử dụng yêu cầu thông tin từ Server, cả dữ
liệu và siêu dữ liệu (định nghĩa bởi cấu trúc khối) được tải xuống Client. Siêu
dữ liệu khối trên Client cho phép PivotTable Service quyết định yêu cầu nào
cần được trả lại cho Server.
Xét một ví dụ khi ai đó cần xem xét dữ liệu bán hàng trong 3 tháng.
Cho rằng cả DSS Server và ứng dụng phía Client đã được kích hoạt. Khi
- 100 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
người sử dụng yêu cầu dữ liệu bán hàng của tháng 1, 2 và 3, dữ liệu sẽ được
lưu trên Cache ở cả 2 phía Server và Client. Nếu sau đó người sử dụng yêu
cầu dữ liệu trong quý I, PivotTable Service sẽ lấy kết quả trên máy Client mà
không cần gửi yêu cầu tới Server. Nếu người sử dụng sau đó lại yêu cầu dữ
liệu quý I của năm đó để so sánh với năm ngoái, PivotTable Service sẽ đủ
thông minh và chỉ truy cập vào dữ liệu năm ngoái trên Server.
PivotTable Service cũng cung cấp cơ chế cho việc sử dụng lưu động.
Các phần của một khối được định nghĩa và truy nhập từ Server có thể được
lưu trên Client để dùng cho truy nhập sau này khi ngắt kết nối mạng. Theo
cách này, những người sử dụng là các nhà kinh doanh có thể dùng những
phần trong cơ sở dữ liệu của họ khi đang lưu động và có các phân tích hoàn
chỉnh khi không cần phải ngồi tại văn phòng. Hơn nữa, PivotTable Service
cũng cho phép người sử dụng tạo các mô hình OLAP đơn giản trên máy
Client, truy nhập các thông tin trong nguồn dữ liệu OLE DB từ các file cho
đến các cơ sở dữ liệu trên máy để bàn.
PivotTable Service cũng cung cấp kết nối cho các ứng dụng dựa trên
Web. Khi OLE DB cho OLAP là một giao diện chương trình mức thấp, một
ActiveX Data Object (ADO) được phát triển để cung cấp truy nhập dữ liệu đa
chiều. Nó sẽ gọi ADO/MD, có thể dễ dàng sử dụng để tạo ActiveX điều khiển
trong Microsoft Visual Basic để xem, lập báo cáo về dữ liệu DSS từ trang
Web. ADO/MD là công cụ lập trình ứng dụng hợp tác cho phép truy xuất tới
tất cả các tính năng DSS.
4.4.3.4. Khả năng của các công cụ OLAP
Microsoft nhận thấy OLAP chính là sự mở rộng tự nhiên của công nghệ
cơ sở dữ liệu và đã đưa DSS vào SQL Server. SQL Server bao gồm rất nhiều
đặc tính bổ xung khác hỗ trợ tiến trình kho dữ liệu bao gồm:
• Visual Database Tools: dùng để tạo các giản đồ cơ sở dữ liệu.
- 101 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
• Data Transformation Services: dùng để trích xuất và chuyển dữ liệu tác
nghiệp vào kho dữ liệu.
• Microsoft Repository: cung cấp tính năng lưu trữ siêu dữ liệu thống
nhất trong SQL Server.
Trong phiên bản sắp tới của Microsoft Office, Microsoft sẽ đưa ra
nhiều năng lực OLAP tương thích với DSS. Xây dựng OLE DB cho giao diện
OLAP, năng lực mới này sẽ hỗ trợ truy nhập trực tiếp vào DSS Server, khả
năng sử dụng khi đã ngắt mạng và tính năng truy nhập qua giao diện Web.
Đầu tiên, trong MS Excel, tính năng PivotTable mới có thể kết nối bảng tính
MS Excel với OLE DB cho việc cung cấp dữ liệu OLAP. Trong trường hợp
này, nó sẽ có thêm các năng lực như khả năng tạo khối cục bộ từ một phần
của khối trên Server.
Công cụ PivotTable hiện tại trên MS Excel được thay thế với công cụ
PivotTable Service từ Microsoft DSS cho phép người dùng máy để bàn nhiều
khả năng mềm dẻo hơn khi tạo các cấu trúc đa chiều mà không phải giới hạn
bộ nhớ.
Một số tính năng mới được gọi là Web Components trong phiên bản
sắp tới của Office sẽ cung cấp việc truy xuất OLAP cơ bản và tính năng lập
bảng qua ActiveX để dễ dàng thêm vào các trang Web. Xây dựng OLE DB
cho OLAP có thể được sử dụng với bất kỳ cung cấp OLAP tương thích trong
Microsoft DSS. Với việc cải tiến và đưa ra các tính năng phân tích và hiển thị
OLAP cơ bản, Microsoft đang cố gắng tạo ra một bước chuyển của xu thế kho
dữ liệu để nhằm giảm giá công cụ ra quyết định.
Sự kết hợp OLE DB và OLAP cũng tạo ra sự đa dạng của các sản phẩm
từ các nhà cung cấp phần mềm cho việc sử dụng DSS. Do vậy nhiều công vụ
Client mới được xây dựng để truy nhập thông tin trong DSS, người sử dụng
có nhiều lựa chọn cho ứng dụng.
- 102 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
4.5. Hướng nghiên cứu phát triển: Hệ trợ giúp quyết định phân tán
Khi xây dựng các hệ trợ giúp quyết định, nói chung người ta cũng đã
quan tâm đến các công nghệ phân tán nhưng việc tính toán phân tán thường bị
hạn chế ở các tác vụ phụ trợ. Các tính toán phân tán có khả năng tích hợp hệ
trợ giúp quyết định với các hệ thống E-mail, nhiều nghiên cứu về hệ trợ giúp
quyết định đã tận dụng các lợi thế của công nghệ mạng và phân tán để mở
rộng với nhiều công cụ như Video tương tác hai chiều, Chat, Bulletin Board...
Nói chung, công nghệ phân tán được ứng dụng trong các hệ trợ giúp quyết
định thường được xem như một cách thuận tiện để truy cập vào các cơ sở dữ
liệu bên ngoài hay truy cập vào hệ thống Client/Server. Các hệ trợ giúp quyết
định dựa trên Web được cung cấp như các thành phần Client để kết nối với
Server có Hosting ứng dụng trợ giúp quyết định.
Tuy nhiên, tiềm năng to lớn của các công nghệ phân tán không chỉ
được sử dụng bởi các nhà thiết kế trong việc mở rộng các hệ trợ giúp quyết
định truyền thống với các công cụ bổ trợ, nó còn có thể thay thế các chiến
lược hỗ trợ quyết định kiểu hợp tác hay cộng tác phân tán mới có ảnh hưởng
tới cấu trúc lõi của các hệ trợ giúp quyết định. “Về cơ bản, nhiều hệ thống
được liệt vào loại hệ trợ giúp quyết định phân tán đa phần vẫn là các ứng
dụng tập trung cho ra các kết quả trong mô hình Client/Server. Tuy nhiên, hệ
trợ giúp quyết định phân tán gần gũi hơn với các quá trình có nhiều người
tham gia nếu nó có thể tránh được cấu trúc tập trung và thực hiện các chức
năng hỗ trợ và ra quyết định cho người sử dụng”[4].
Hệ thống cần phải hỗ trợ càng nhiều càng tốt cho các quá trình quyết
định mà không áp đặt bất kỳ sự ép buộc nào đối với những người ra quyết
định. Về cơ bản, hai yêu cầu cần thiết để coi hệ trợ giúp quyết định là sự mở
rộng tự nhiên của các năng lực ra quyết định là:
• Hệ trợ giúp quyết định cần bắt chước hành động ra quyết định của
- 103 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
người ra quyết định,
• Hệ trợ giúp quyết định phải luôn gần gũi với người ra quyết định, sẵn
sàng được sử dụng bất kỳ đâu, bất kỳ lúc nào.
Bắt chước các hành vi ra quyết định về cơ bản là nhiệm vụ chính của bất
kỳ hệ trợ giúp quyết định nào. Tuy nhiên, để hoàn thành nhiệm vụ này tốt
nhất điều quan trọng là cần hiểu rằng những người ra quyết định hiện nay
hiếm khi ra quyết định một mình. Vì vậy hệ trợ giúp quyết định cần bắt chước
các hành động ra quyết định với nhiều người tham gia. Việc chuyển từ hệ trợ
giúp quyết định với một người sử dụng sang hệ trợ giúp quyết định nhiều
người sử dụng cần được chia thành hai hướng riêng:
• Thiết kế kiến trúc phân tán mới cho hệ trợ giúp quyết định,
• Hỗ trợ kết hợp các tính năng khác nhau của hệ trợ giúp quyết định phân
tán.
Để bắt chước hành động ra quyết định, điều vô cùng quan trọng là phải
giải phóng người ra quyết định khỏi các thúc ép về kỹ thuật, nói cách khác
người ra quyết định cần tránh các nhiệm vụ kỹ thuật kiểu cấu hình hoặc sửa
lỗi. Các tình huống về y tế là các ví dụ tốt cho yêu cầu này: các hệ thống có
thể kết nối với bất kỳ loại thiết bị y tế nào mà không đòi hỏi các thầy thuốc
phải bận tâm về cấu hình dữ liệu hay phần mềm. Để đạt được mục tiêu này
việc sử dụng hệ trợ giúp quyết định phân tán là giải pháp linh hoạt nhất.
Để đảm bảo rằng hệ trợ giúp quyết định luôn gần gũi với người ra
quyết định và những người hỗ trợ, sẵn sàng được sử dụng bất kỳ lúc nào, bất
kỳ đâu, trên bất kỳ thiết bị nào, người ra quyết định và những người hỗ trợ có
thể làm việc với hệ thống từ bất kỳ đâu thì việc truy cập thẳng vào hệ trợ giúp
quyết định là luôn cần thiết để tạo sự linh hoạt. Mô hình mạng tập trung
không phù hợp cho việc hỗ trợ quá trình ra quyết định với đông người tham
gia. Hơn nữa, khi hệ trợ giúp quyết định phân tán chạy ở mọi nơi thì nó không
- 104 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
được phụ thuộc vào vị trí. Thêm vào đó trong một số môi trường làm việc,
những người ra quyết định và những người hỗ trợ sẽ làm việc độc nên hệ trợ
giúp quyết định phân tán cần có tính năng chạy cả ở chế độ Offline. Nói cách
khác, hệ trợ giúp quyết định phân tán không phụ thuộc vào bất kỳ máy chủ
trung tâm nào.
Mô hình liên kết
Các kiến trúc phân tán truyền thống được sử dụng trong quá trình thiết
kế hệ trợ giúp quyết định phân tán thường là kiểu mô hình mạng tập trung.
Mặc dù lợi thế của các hệ thống tập trung là sự đơn giản nhưng hạn chế chính
của chúng là tập trung một chỗ. Do vậy hệ thống không có khả năng chịu lỗi,
không có sự độc lập về vị trí, khó mở rộng và cân bằng. Sự phụ thuộc vào các
nguồn tập trung là không thể chấp nhận được đối với cách tiếp cận của chúng
ta. Nói cách khác, kiến trúc không tập trung là mô hình thích hợp để đáp ứng
các yêu cầu. Ta có thể đưa ra một mô hình liên kết tận dụng lợi thế của mô
hình mạng không tập trung. Trong mô hình này, mỗi người sử dụng hệ trợ
giúp quyết định nhận được môi trường làm việc phù hợp với vai trò và có thể
liên tục thay đổi. Môi trường làm việc này chứa cả thông tin của người sử
dụng hệ trợ giúp quyết định và các dịch vụ cung cấp cho người sử dụng trong
việc liên kết với các thành viên khác trong quá trình hỗ trợ quyết định. Môi
trường làm việc là Node hay Peer có thể giao tiếp với các Node khác khá linh
hoạt. Mỗi môi trường làm việc chứa tối thiểu các dịch vụ hạ tầng cần để chạy
hệ trợ giúp quyết định. Các dịch vụ này đều cung cấp các tính năng cơ bản
như tra cứu (Lookup), quản lý giao dịch, liên kết các quá trình…
Khi người sử dụng được quyền tham gia vào hệ trợ giúp quyết định,
môi trường làm việc của họ sẽ thông báo sự hiện diện của họ trên mạng. Môi
trường làm việc của những người sử dụng đã tồn tại sẽ thông báo và hỏi môi
trường làm việc mới để chia sẻ các chính sách. Thông tin trao đổi được hiển
- 105 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
thị trong thời gian thật trên màn hình của thiết bị. Mỗi người sử dụng hệ trợ
giúp quyết định biết về sự hiện diện của người sử dụng khác và có thể truy
cập vào thông tin chung. Theo nghĩa này, cộng đồng sử dụng vừa linh hoạt
vừa tự hình thành. Môi trường làm việc không chỉ chứa dữ liệu mà còn chứa
các dịch vụ mà tất cả các thành viên đều có thể sử dụng. Trong khi mỗi môi
trường làm việc chứa một bộ tối thiểu các dịch vụ hạ tầng cần để chạy hệ trợ
giúp quyết định thì các dịch vụ mở rộng chỉ được cung cấp cho các Roles đặc
trưng.
Hệ thống còn có thể tự quản trị. Tính mềm dẻo cho phép các môi
trường làm việc phát hiện một cách tự động sự biến mất của môi trường làm
việc khác và cập nhật thông tin tới người sử dụng. Các môi trường làm việc
còn lại sẽ loại bỏ các thông tin liên quan đến các môi trường vừa biến mất và
người sử dụng sẽ được biết về sự vắng mặt của người sử dụng khác. Thông
tin này sẽ được hiển thị trở lại ngay khi người sử dụng quay lại mạng. Môi
trường làm việc bị biến mất cho thấy một ví dụ về dịch vụ hạ tầng cần để
chạy hệ trợ giúp quyết định, điều này cho thấy cộng đồng sử dụng có tính tự
sửa lỗi.
Trong mô hình liên kết, người sử dụng hệ trợ giúp quyết định có thể
làm việc cục bộ, đơn lẻ với môi trường làm việc của người đó. Tuy nhiên, cơ
sở thông tin của toàn bộ hệ thống tăng tỉ lệ trực tiếp với số người sử dụng chia
sẻ các môi trường làm việc. Mỗi người sử dụng được trang bị các năng lực
cần để sử dụng trong chế độ cục bộ và phân tán (các năng lực mạng và dịch
vụ hạ tầng). Thông tin của mỗi người sử dụng được quản lý theo cách mà
những người tham gia kết nối có thể chia sẻ, nếu họ được cho phép. Sự khác
biệt quan trọng nhất giữa kiến trúc này và kiến trúc tập trung là sự vắng mặt
của các máy chủ trung tâm và/hoặc các hệ thống quản trị cơ sở dữ liệu.
- 106 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Chương V. Xây dựng hệ thống trợ giúp quyết định dựa vào
dữ liệu bằng công cụ Analysis Services
5.1. Mục tiêu của hệ thống
Hệ thống sẽ cung cấp một công cụ để xử lý mô hình OLAP của một
ứng dụng cụ thể: cho phép tổ chức CSDL đa chiều và trên CSDL đã được
thiết lập này cung cấp khả năng phân tích dữ liệu một cách dễ dàng, linh hoạt
và nhanh chóng nhằm trợ giúp cho việc ra quyết định.
Để thực hiện được những chức năng này, luận văn sử dụng công cụ
Analysis Services của Microsoft SQL Server 2000 với mô hình đối tượng
DSO (Decision Support Objects) cho phép tạo ra những ứng dụng quản lý:
Databases, DataSources, Dimensions, Cubes và Roles. Ngoài ra ta cũng có
thể quản trị an ninh, xử lý Cubes và khai thác mẫu...
5.2. Yêu cầu về hệ thống
Hệ thống phải dễ dàng cho người sử dụng, không cần thiết họ phải là
người hiểu biết nhiều về máy tính. Có thể ứng dụng để trợ giúp quyết định
trong một phạm vi rộng các bài toán, trong các lĩnh vực khác nhau mà dữ liệu
có khuynh hướng đa chiều.
Các quyết định được thực hiện của người sử dụng là hoàn toàn khách
quan và đủ căn cứ, dựa trên tiềm tàng của khối lượng lớn các dữ liệu cơ sở
sẵn có (là kết quả của các hoạt động tác nghiệp).
Hệ thống cung cấp một khả năng phân tích khá mạnh, cho phép người
sử dụng có thể:
• Cắt lát các khối đa chiều theo các mức, các chiều tùy chọn.
• Khoan sâu xuống các mức dữ liệu chi tiết.
• Cuộn lên các mức dữ liệu tổng hợp hơn (theo phân cấp chiều).
Hệ thống có thể giúp người sử dụng dễ dàng mô tả, thay đổi yêu cầu
- 107 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
phân tích dữ liệu của mình ở các giao diện và màn hình thể hiện kết quả đa
chiều. Với hệ trợ giúp quyết định này, người sử dụng sẽ dễ dàng, thuận tiện
và nhanh chóng trong việc ra các quyết định cho bài toán ứng dụng thực tế
của mình bằng cách thực hiện các công việc sau:
(1). Xác định yêu cầu của bài toán ứng dụng cụ thể.
(2). Xây dựng mô hình OLAP cho bài toán, hướng đến việc giải quyết
các yêu cầu này. Đây là công việc phụ thuộc chủ yếu vào nội dung, yêu cầu
của bài toán và rất dễ thực hiện khi sử dụng hệ thống.
(3). Thực hiện một vài thao tác đơn giản để tạo lập cơ sở dữ liệu đa
chiều.
(4). Thực hiện việc phân tích dữ liệu thuận tiện, linh hoạt và trực quan.
Người sử dụng dễ dàng, linh động trong việc mô tả, thay đổi các yêu cầu truy
vấn thông tin (trên bất kỳ mức nào, trên bất kỳ khía cạnh nào của các dữ liệu
chứa trong khối) bằng các thao tác chọn lựa đơn giản trên một màn hình thân
thiện.
Người dùng sẽ thấy những kết quả phân tích mong muốn dưới dạng các
bảng báo cáo tổng hợp rất tiện lợi và linh hoạt trong việc uốn nắn hoạt động
phân tích dữ liệu của mình để làm sáng tỏ dần tất cả các thông tin cần thiết,
đủ để dễ dàng ra các quyết định tốt nhất.
5.3. Chức năng chính của hệ thống
Một hệ trợ giúp quyết định dựa vào dữ liệu sử dụng hai thành tố chính
là Kho dữ liệu và OLAP sẽ có đầu vào là các dữ liệu thu được từ các hoạt
động tác nghiệp (của các hệ thống tác nghiệp) và đầu ra là các báo cáo, thông
tin phân tích dồi dào và phong phú được hiển thị một cách trực quan và linh
hoạt. Hoạt động phân tích có thể được tiến hành một cách dễ dàng, thuận tiện
và nhanh chóng. Dựa trên những kết quả của các phân tích này, các nhà quản
lý sẽ có đủ các thông tin cần thiết để có thể ra được những quyết định hợp lý
- 108 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
nhất.
Dưới đây là sơ đồ thể hiện kiến trúc của hệ thống trợ giúp quyết định
dựa vào dữ liệu:
Hình 5.1. Kiến trúc hệ trợ giúp quyết định dựa vào dữ liệu
Hệ thống sẽ được giới thiệu tập chung vào những khối chức năng quan
trọng sau:
• Chức năng tạo lập CSDL đa chiều (Cubes).
• Chức năng phân tích, hiển thị dữ liệu.
Hình 5.2. Chức năng hệ trợ giúp quyết định dựa vào dữ liệu
- 109 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
5.3.1. Chức năng tạo lập CSDL đa chiều
Là công cụ giúp tạo lập nên các khối và cấu trúc các chiều từ mô hình
OLAP của ứng dụng cụ thể. Dữ liệu nguồn được chứa trong bảng Fact. Để tạo
khối cần thực hiện các bước như sau:
• Chọn bảng Fact cho khối cần tạo.
• Tạo các đơn vị đo (Measures): chọn các cột (có kiểu dữ liệu là kiểu số)
trong bảng Fact để làm các đơn vị đo.
• Tạo lập các chiều dữ liệu: mỗi chiều tương ứng với một bảng (bảng
Dimension) trong sơ đồ hình sao mà bảng Fact ở trên là bảng trung
tâm. Trong mỗi bảng chiều (Dimension) chọn các cột làm các mức
(Level) của chiều đó. Chúng ta cần chọn các mức sao cho có thể đáp
ứng được việc tham chiếu “Roll_up”, “Drill_down” theo mức.
• Xử lý khối.
Ngoài ra chức năng tạo khối ảo giúp ta tạo ra một khối mới từ các khối
đã có bằng cách sử dụng lại các đơn vị đo và các chiều của các khối cũ mà
không cần tốn thêm không gian nhớ:
• Chọn các khối mà ta cần tạo khối ảo từ nó.
• Chọn các đơn vị đo cho khối ảo.
• Chọn các chiều cho khối ảo.
• Xử lý khối.
5.3.2. Chức năng phân tích và hiển thị dữ liệu
Sau khi khối đã được tạo, dữ liệu trong khối sẽ được phân tích qua thao
tác xử lý khối. Sau đó người sử dụng có thể tham khảo được kết quả phân tích
một cách dễ dàng bằng cách thực hiện các thao tác “Roll_up”, “Drill_down”
theo mức trên mỗi chiều của khối đã chọn. Với chức năng này ta có thể:
• Cắt lát các khối đa chiều theo các mức, các chiều tùy chọn.
- 110 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
• Khoan sâu xuống các mức dữ liệu chi tiết khi cần.
• Cuộn lên các mức dữ liệu tổng hợp hơn (theo phân cấp chiều) nếu
muốn.
• Tạo ra sự linh hoạt và tiện ích cho người sử dụng: dễ dàng mô tả, thay
đổi yêu cầu phân tích dữ liệu.
5.4. Giới thiệu hệ thống
5.4.1. Khởi động Analysis Manager
Khi cài đặt MS SQL 2000 Analysis Services, Analysis Manager cũng
được cài đặt như một công cụ quản trị cho Analysis Server. Giống như
Microsoft SQL Server Enterprise Manager, giao diện khi ta sử dụng Analysis
Manager cũng được tích hợp các tiện ích cho việc quản trị. Một cấu trúc cây
sẽ xuất hiện bên trái của giao diện quản trị như cấu trúc phân cấp thường thấy
trong Windows Explorer.
Khởi động Analysis Manager, ta sẽ thấy giao diện Analysis Manager
với tất cả các Analysis Server được thiết lập trong môi trường phía bên trái
giao diện. Tên của Analysis Server được tự động gán khi cài đặt MS SQL
Server 2000 và giống tên của máy.
5.4.2. Cài đặt cơ sở dữ liệu và nguồn dữ liệu (Database & Data Source)
Trước khi thiết kế một khối mới, ta cần cài đặt cơ sở dữ liệu riêng biệt
trong Analysis Manager gọi là cơ sở dữ liệu OLAP. Với cơ sở dữ liệu OLAP
được tạo ta có thể tổ chức các khối, các Roles, nguồn dữ liệu, các chiều chia
sẻ và các đối tượng khác. Trong các đối tượng khác, cơ sở dữ liệu có thể chứa
đa khối mà mỗi khối có nguồn dữ liệu riêng. Để cài đặt cơ sở dữ liệu, ta sẽ
liên kết nguồn dữ liệu với cơ sở dữ liệu trước khi tiến hành cấu trúc khối.
Nguồn dữ liệu cần phải tồn tại qua các OLE DB được sử dụng, với
Microsoft OLE DB Provider for ODBC Drivers thì có thể chọn các hệ thống
- 111 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
cũ hơn. Chọn Microsoft Jet 4.0 OLE DB Provider. OLE DB Drivers for
ODBC thường cung cấp cách thứ cấp để kết nối, OLE DB Driver tối ưu hơn
cho việc lựa chọn.
5.4.3. Tạo khối
• Chọn lệnh ‘New Database’ để tạo một Database để lưu, chứa các khối
và đặt tên cho Database này (ví dụ ‘chientd’). Chọn ‘DataSource’ để
tạo nguồn dữ liệu cho các khối trong Database (ví dụ chọn bộ dữ liệu
có sẵn của Microsofft là FoodMart 2000).
Hình 5.3. Tạo DataSource cho các khối trong Database
• Chọn ‘New Cube’ để tạo các khối.
• Chọn bảng Fact cho khối: Chọn bảng Fact trong Datasource ở cửa sổ
bên trái, việc chọn bảng nào là tuỳ thuộc vào yêu cầu truy vấn (ví dụ
- 112 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
chọn bảng ‘sales_fact_1998’).
• Cửa sổ bên phải hiển thị các trường dữ liệu của bảng Fact đã chọn. Để
kiểm tra dữ liệu của bảng Fact, kích vào nút ‘Browse Data’. Để tạo mới
hoặc tạo thêm nguồn dữ liệu cho khối chọn nút ‘New Data Source’.
Hình 5.4. Chọn bảng Fact
• Tạo các đơn vị đo: Chọn các cột số của bảng Fact (sales_fact_1998) ở
cửa sổ trái để làm các đơn vị đo, cửa sổ bên phải hiện thị các cột số
được chọn.
• Tạo các chiều: Để định nghĩa một chiều ta cũng chọn bảng chiều trong
danh sách các bảng của nguồn dữ liệu ở cửa sổ trái (ví dụ chọn bảng
customer).
- 113 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Hình 5.5. Chọn đơn vị đo
Hình 5.6. Tạo chiều
- 114 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
• Tạo các mức cho mỗi chiều: Chọn các cột của bảng chiều ở cửa sổ bên
trái làm các mức của chiều. Lưu ý ta cần chọn các mức sao cho có thể
đáp ứng được việc tham chiếu “Roll_up”, “Drill_down” theo mức (ví
dụ với bảng chiều ‘customer’ trên ta chọn ba cột ‘country’,
‘state_province’, ‘city’ làm ba mức của chiều).
Hình 5.7. Chọn các mức của chiều
• Chọn ‘Edit’ để thêm, sửa hay xoá các khối, các đơn vị đo và các chiều
trong khối.
5.4.4. Lưu trữ và xử lý khối
Analysis Services thường đưa ra nhiều lựa chọn lưu trữ dữ liệu và các
tập dữ liệu trong các khối. Các kiểu lưu trữ gồm: MOLAP, ROLAP và
HOLAP.
Khi kết thúc việc thiết kế cấu trúc của khối, ta cần thiết kế mô hình lưu
trữ theo một trong 3 kiểu trên và cho Analysis Services biết cách sinh ra các
- 115 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
tập hợp hoặc tính toán trước các tổng hợp để cải thiện việc thực hiện các truy
vấn cũng như cải tiến năng lực của các khối. Tiếp theo ta sẽ xử lý các khối,
nạp dữ liệu từ nguồn dữ liệu đã thiết kế để sinh ra các tính toán tổng hợp mà
ta định nghĩa trong chỉ dẫn của tập hợp.
Hình 5.8. Chọn kiểu lưu trữ
• Để thiết kế cách lưu trữ, sử dụng ‘Storage Design Wizard’, chọn ‘Type
of Data Storage’, kiểu mặc định để lưu trữ dữ liệu là MOLAP. Khi xuất
hiện ‘Set Aggregation Options’, có thể yêu cầu Analysis Services tăng
tốc độ xử lý mà không cần quan tâm dung lượng lưu trữ yêu cầu là bao
nhiêu bằng cách chọn ‘Performance Gain Reaches’ và gõ tỉ lệ chọn (ví
dụ 65%). Sự cân bằng giữa dung lượng lưu trữ sử dụng và khả năng
đáp ứng của khối có thể được quản lý bằng tính năng này.
- 116 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Hình 5.9. Tăng tốc độ thực hiện
Hình 5.10. Xử lý khối
• Cửa sổ tiến trình xuất hiện cho phép ta giám sát tiến trình của khối qua
từng các giai đoạn và toàn tiến trình. Khi tiến trình kết thúc xuất hiện
- 117 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
thông báo “Processing completed successfully”
5.4.5. Khối ảo tăng cường khả năng xử lý và bảo mật
Có thể tạo ra các khung nhìn từ việc kết hợp các bảng một cách Lôgic
trong một cơ sở dữ liệu quan hệ, một khối ảo là một khối Lôgic được tạo ra
qua việc kết hợp các khối. Ta có thể chọn các chiều và các đơn vị đo của khối
ảo từ các chiều và đơn vị đo đã tồn tại. Không cần thiết phải sử dụng tất cả
các chiều và đơn vị đo nhưng có thể chọn những những chiều cung cấp cho ta
những khung nhìn tốt nhất của dữ liệu mà ta đang cố đưa ra từ những nguồn
dữ liệu khác nhau. Khối ảo xuất hiện như một khối đơn lẻ từ các yêu cầu
thông tin người dùng.
Các khối ảo thường gồm các chiều và đơn vị đo được lựa chọn từ các
khối. Ta thường gặp các tình huống yêu cầu kết hợp dữ liệu từ nhiều nguồn
dữ liệu OLAP và muốn hạn chế dữ liệu đưa tới người dùng chỉ trong một tập
hợp con các chiều và đơn vị đo trong một khối đơn lẻ. Trong tình huống này
khối ảo có thể cung cấp một lựa chọn tốt.
Sức mạnh của khối ảo bao gồm tính mềm dẻo, tính khả chuyển và dễ
dàng trong việc tạo hay sửa khối. Yêu cầu lưu trữ tối thiểu khá mềm dẻo, có
thể cho phép kết hợp và đa dạng hoá việc tạo các khối. Sức mạnh của khối ảo
nằm trong khả năng bảo mật của nó. Thuộc tính này tạo ra sự hữu dụng của
khối ảo khi một phần hoặc các phần của thông tin khối là nhạy cảm và không
thích hợp để cung cấp cho tất cả người sử dụng. Một khối ảo cần bỏ qua một
số thông tin nhạy cảm khi cung cấp. Có thể tạo hai Role bảo mật: cái thứ nhất
chứa những người dùng được phép xem các thông tin nhạy cảm và cái thứ hai
chứa những người dùng còn lại. Ta dễ dàng cấp quyền cho Role thứ nhất truy
cập toàn bộ khối và Role thứ hai chỉ truy cập khối ảo.
- 118 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
5.4.6. Tạo khối ảo
• Chọn ‘New Virtual Cube’ để tạo khối ảo từ các khối đã có.
• Chọn các khối cho khối ảo: cửa sổ trái liệt kê tất cả các khối có trong
FoodMart 2000. Cửa sổ phải hiển thị các khối được chọn (ví dụ ta chọn
hai khối ‘Sales’ và ‘HR’).
Hình 5.11. Chọn các khối cho khối ảo
• Chọn các đơn vị đo cho khối ảo: màn hình tiếp theo sẽ liệt kê tất cả các
đơn vị đo của các khối đã chọn (khối ‘Sales’ và ‘HR’) trên cửa sổ trái.
Thực hiện việc chọn các đơn vị đo có sẵn để làm đơn vị đo cho khối ảo.
Cửa sổ phải sẽ hiển thị các đơn vị đo được chọn.
• Chọn chiều cho khối ảo: thực hiện việc chọn chiều cho khối ảo tương
tự như việc chọn các đơn vị đo.
- 119 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Hình 5.12. Chọn đơn vị đo cho khối ảo
Hình 5.13. Chọn chiều cho khối ảo
- 120 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
5.4.7. Hiển thị dữ liệu khối
• Chọn ‘Browse Data’ để hiển thị dữ liệu của khối cần phân tích (ví dụ
khối ‘Sales’), màn hình phân tích dữ liệu của khối sẽ xuất hiện.
• Cửa sổ bên dưới hiển thị dữ liệu của một chiều nào đó, ở đây là chiều
Store (lúc này ta đang nhìn thấy dữ liệu của khối Sales theo chiều
Store). Tại đây, ta có thể khoan sâu xuống (Drill_down) các mức dữ
liệu chi tiết hoặc cuộn lên (Roll_up) các mức dữ liệu tổng hợp hơn theo
phân cấp chiều sẽ có được dữ liệu phân tích theo yêu cầu. Cửa sổ bên
trên hiển thị các chiều còn lại của khối.
• Để xoay khối ‘Sales’ sang chiều khác (nhìn dữ liệu của khối theo chiều
khác) ta chỉ việc chọn tên chiều ở cửa sổ bên trên.
Hình 5.14. Hiển thị dữ liệu khối
- 121 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
• Muốn cắt lát một khối, ta sẽ cố định một số chiều tại giá trị cụ thể bằng
cách kích chuột vào nút lệnh cạnh mỗi tên chiều.
5.4.8. Ví dụ minh họa
Dựa vào bộ dữ liệu mẫu FoodMart 2000 của Microsoft ta có thể đưa ra
một ví dụ như sau: Giám đốc doanh nghiệp muốn biết “Mặt hàng nào bán
chạy nhất vào quý 4 năm 1998 từ các kho thuộc thành phố Los Angeles của
Mỹ, tầng lớp khách hàng (nhóm tuổi) nào tiêu thụ mạnh nhất?”. Đây là câu
hỏi có 4 chiều: mặt hàng, thời gian, vùng, nhóm tuổi. Không dễ gì có được
câu trả lời cho những câu hỏi nhiều chiều như vậy bằng cách sử dụng các kỹ
thuật truy vấn truyền thống trong các mô hình dữ liệu quan hệ như SQL mà
phải dựa trên những kết quả phân tích nhiều chiều. Hơn nữa, do yêu cầu của
người sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải được xử lý theo
thứ tự khác nhau lúc theo vùng, khi thì theo thời gian, khi khác lại theo nhóm
tuổi... Để trả lời được câu hỏi này, ta sẽ xây dựng khối ‘Test’ như sau:
• Bảng Fact: chọn bảng ‘sales_fact_1998’
• Đơn vị đo: ‘unit_sales’
• Chiều:
o Sản_phẩm: chọn bảng ‘product’
Các mức: ‘product_name’
o Thời_gian: chọn bảng ‘time_by_day’
Các mức: ‘the_year’, ‘quarter’, ‘the_month’
o Vùng: chọn bảng ‘store’
Các mức: ‘store_country’, ‘store_state’, ‘store_city’
o Nhóm_tuổi: chọn bảng ‘customer’
Các mức: ‘country’, ‘state_province’, ‘city’, ‘birthdate’
Xoay khối ‘Test’ theo chiều Sản_phẩm, cố định giá trị Q4 ở chiều
Thời_gian, giá trị Los Angeles ở chiều Vùng chúng ta sẽ có câu trả lời.
- 122 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Phần kết luận
Sau một thời gian nghiên cứu và hoàn thành luận văn, tác giả đã nắm
bắt được các khái niệm tổng quát và các lý thuyết căn bản về OLAP, tiếp cận
và phân tích đa chiều. Đề tài cũng đã nêu rõ các chi tiết để áp dụng những cơ
sở lý luận này vào phát triển mô hình cụ thể của một hệ trợ giúp quyết định
dựa vào dữ liệu, của tiến trình trợ giúp ra quyết định, triển khai tổ chức hệ
thống và xây dựng những thành phần chính yếu nhất của một hệ trợ giúp
quyết định dựa vào dữ liệu.
Luận văn đã thực hiện được tất cả các nội dung và đạt được các mục
tiêu đề ra như trong bản đề cương đã được duyệt. Các kết quả đạt được bao
gồm:
• Nắm bắt được các lý thuyết về khai thác dữ liệu và xử lý phân tích trực
tuyến.
• Nắm bắt được lý thuyết về tổ chức kho dữ liệu.
• Nắm bắt được cách tiếp cận và phân tích dữ liệu đa chiều.
• Tìm hiểu về Hệ thống trợ giúp quyết định dựa vào dữ liệu trên cơ sở
phương pháp luận xử lý phân tích trực tuyến.
• Xây dựng hệ trợ giúp quyết định dựa vào dữ liệu bằng công cụ
Analysis Services.
Tuy nhiên vẫn còn một số vấn đề mà luận văn chưa đề cập đến. Một số
hướng phát triển khác nữa có thể mở rộng như: việc tổ chức và quản lý kho
dữ liệu trên mạng và thực hiện những liên kết giữa các khối đa chiều với kho
dữ liệu hay trực tiếp đến các hệ xử lý tác vụ để tự động hoá việc cập nhật dữ
liệu và cấu trúc chiều cho các khối đa chiều; việc phối hợp giữa các khối đa
chiều để khai thác tối đa khả năng của các khối đa chiều; nghiên cứu tăng
cường khả năng hiển thị kết quả, giúp cho việc mô tả, thay đổi các yêu cầu
truy vấn thông tin thuận lợi hơn, linh hoạt hơn.
- 123 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Mặc dù đã cố gắng trong nghiên cứu và thực hiện đề tài, nhưng vì thời
gian và trình độ có hạn, chắc chắn luận văn không tránh khỏi nhiều thiếu sót.
Em xin bày tỏ lòng biết ơn sâu sắc tới GS.TS.Nguyễn Thúc Hải, người đã tận
tình giảng dạy và hướng dẫn em hoàn thành bản luận văn này. Em cũng xin
bầy tỏ lòng biết ơn tới các thầy, cô và các anh, chị ở khoa Công nghệ Thông
tin và Trung tâm Đào tạo sau Đại học đã nhiệt tình giảng dạy và giúp đỡ em
trong suốt thời gian học tập vừa qua. Xin chân thành cảm ơn các bạn học và
đồng nghiệp đã giúp đỡ tôi trong quá trình học tập, nghiên cứu và thử nghiệm
đề tài.
- 124 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Tài liệu tham khảo
[1] Viện Công nghệ Thông tin (1997), Kho dữ liệu - Data Warehouse, Hà
Nội.
[2] Surajit Chaudhuri (1997), An Overview of Data Warehouse and OLAP
Technology,
[3] Ching T.H., Agrawal R., Megiddo N., Srikant R. (1997), Range
Queries in OLAP Data Cubes, Proceeding ACM SIGMOD.
[4] Alexandre Gachet (2003), Distributed Decision Support System: A
Federalist Model of Cooperation, University of Fribourg.
[5] William H.Inmon (2005), Building the Data Warehouse - Fourth
Edition, Wiley Publishing Inc.
[6] Intelligent Science, Intelligent Decision Support System - IDSS,
[7] Ralph Kimball (1996), Dealing with Dirty Data, DBMS Online
Magazine Sep 1996.
[8] Patrick O’Neil, Dallan Quass (1997), Improved Query Performance
with Variant Indexes, Proceeding ACM SIGMOD.
[9] Chrisantha Silva (2004), Building Info-Structures for Decision Making,
IT Business Systems.
[10] Erik Thomsen (2002), OLAP Solutions: Building Multidimensional
Information Systems - Second Edition, Wiley Computer Publishing.
[11] E.Turban, J.E.Aronson (2001), Decision Support Systems and
Intelligent Systems - 6th Edition, Prentice Hall.
Một số Website tham khảo:
- 125 -
Luận văn tốt nghiệp cao học chuyên ngành Xử lý Thông tin và Truyền thông khoá 2004 - 2006
Tóm tắt luận văn
Luận văn đề cập đến việc nghiên cứu xây dựng một hệ trợ giúp quyết
định dựa vào dữ liệu, sử dụng phương pháp luận xử lý phân tích trực tuyến
(OLAP). Hệ trợ giúp quyết định theo tiếp cận này có thể giúp các nhà quản lý
thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức
cơ sở dữ liệu đa chiều và dễ dàng điều chỉnh hoạt động phân tích, tìm kiếm
thông tin theo những khía cạnh khác nhau của dữ liệu nhằm thu thập được tối
đa dữ liệu cần thiết để từ đó đưa được những quyết định tốt nhất một cách
nhanh chóng.
Không giống với các hệ trợ giúp quyết định truyền thống thường được
xây dựng với mục đích đưa ra giải pháp tối ưu cho một bài toán cụ thể, trong
một phạm vi ứng dụng hẹp, hệ trợ giúp quyết định dựa vào dữ liệu hướng đến
việc giúp người sử dụng có thể khai thác được tối đa khả năng tiềm ẩn của
một khối lượng dữ liệu lớn, nhằm thu được những thông tin tổng hợp ở đủ các
khía cạnh khác nhau của dữ liệu, để từ đó có thể ra các quyết định đúng một
cách nhanh chóng. Do đặc điểm này, phạm vi ứng dụng của hệ trợ giúp quyết
định dựa vào dữ liệu là rộng. Nó có thể được sử dụng để trợ giúp quyết định
cho các bài toán khác nhau, trong những lĩnh vực khác nhau.
Luận văn trình bày các nội dung chính về phương pháp tiếp cận và
phân tích đa chiều trong xử lý phân tích trực tuyến, xây dựng hệ trợ giúp
quyết định dựa vào dữ liệu với hai thành phần chính là kho dữ liệu và xử lý
phân tích trực tuyến, tiến trình trợ giúp quyết định dựa vào dữ liệu, xây dựng
cấu trúc thông tin để hỗ trợ việc ra quyết định và xây dựng hệ thống với chức
năng tạo lập cơ sở dữ liệu đa chiều và phân tích hiển thị dữ liệu.
Các từ khoá (Key Word): xử lý phân tích trực tuyến (OLAP), kho dữ
liệu (Data Warehouse), hệ trợ giúp quyết định (DSS), khối (Cube) và đa chiều
(Multidimensional).
Các file đính kèm theo tài liệu này:
- 091..pdf