Các tài liệu thứ cấp:đó là những thông tin được thu nhập trước đây nó có thể còn có ý nghĩa phản ánh điều gì đó bao gồm nguồn tàI liệu bên trong. Báo cáo về lỗ lãi,báo cáo về chào hàng; nguồn tàI liệu bên trong là các ấn phẩm của các cơ quan, sách báo thường kì, sách chuyên nghành,dịch vụ và các tổ chức thương mại
Tài liệu sơ cấp đó là những thông tin được thu thập lần đầu với những thông tin gần và chính xác nhất thông qua các cuộc phỏng vấn : quan sát, thực nghiệm, điều tra, phiếu điều tra hay bảng câu hỏi, chọn mẫu điều tra
Phân tích thông tin thu được để có những thông tin có tính tập trung hơn giúp ra quyết định cuối cùng
32 trang |
Chia sẻ: aloso | Lượt xem: 1744 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề án Tổng quan về quản trị tổng kho dữ liệu trong các tổ chức doanh nghiệp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
A. Mở đầu
Mục tiêu chính của các tổ chức, doanh ngiệp là phục vụ tốt yêu cầu của khách hàng và giành ưu thế trong cạnh tranh. Xu thế phát triển của các xí ngiệp hiện nay theo hướng có thể quản lí được các hoạt động, các doanh nghiệp của từng xí nghiệp. Người quản lí không chỉ cần biết điều gì đã xảy ra trong doanh nghiệp của mình mà cần phải biết được tại sao.
Trong giai đoạn xử lí dữ liệu tự động nhờ những kĩ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng được nhiều ứng dụng để trả lời câu hỏi “Những cái gì đã xẩy ra”. Các hệ thống thông tin hiện đại sẽ giúp các nhà quản lí hiểu được “Tại sao những điều đó đã xẩy ra trong thực tế” và để giành được lợi thế trong cạnh tranh,đáp ứng những yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán biết được “ những điều gì đã xẩy ra ”.
Để giải quyết những vấn đề trên thì cần có các phương pháp,công cụ để tổ chức,xử lí khai thác tốt những kho dữ liệu (datawarehouse) liên quan.
Trên thế giới khái niệm dataware hóue đã trở thành thông dựng trong các tổ chức kinh tế, các công ty lớn nhưng ở Việt Nam khái niệm này mới chỉ xuất hiện trên sách tham khảo hoặc được sử dụng rất ít trong các tổ chức doanh nghiệp ở nước ta. Chính vì thế em tìm hiểu về đề tài này chỉ với một mục đích nhỏ là giới thiệu khái quát về khái niệm kho dữ liệu là gì?Cấu trúc của nó ra sao?chúng ta có thể xây dựng và phát triển kho dữ liệu như thế nào ?các yêu cầu khi xây dựng ? Quan trọng hơn là việc ứng dụng kho dữ liệu vào thực tiễn: Chúng ta có thể truy nhập và tìm kiếm dữ liệu trong kho như thế nào để đưa ra các quyết định chính xác.
Khi các tổ chức kinh tế càng mở rộng,quy mô ngày một tăng,thi trường ngày một phức tạp, tính cạnh tranh ngày một gay gắt thì nguồn dữ liệu thông tin và cách quản lí sao cho có hiệu quả ngày một trở nên quan trọng, đồng nghĩa với việc xây dựng và khai thác kho dữ liệu càng cần thiết. Khi đã tiếp cận và hiểu thêm về datawarehouse thì mối quan tâm và quyết định trong quản lí dữ liêụ, thông tin của các công ty về việc xây dựng cho mình một phương thức quản lí tốt hơn, hiệu quả hơn. Sự phát triển trong các doanh nghiệp sẽ góp phần quan trọng trong phát triển kinh tế nước ta thơì kì công nghiệp hoá,hiện đại hoá.
đề tàI:tổng quan về quản trị tổng kho dữ liệu trong các tổ chức doanh nghiệp
Đề cương sơ bộ
Lời mở đầu
Nội dung
Các khái niệm cơ bản
II Khai thác sử dụng kho dữ liệu
III Xây dựng và phát triển kho dữ liệu
IV Mô hình kho dữ liệu trong nghiên cứu thị trường
c. Lời cảm ơn
B. Nội dung
I. Các kháI niệm cơ bản
1. Kho dữ liệu
Kho dữ liệu là tập hợp các dữ liệu hướng chủ thể, tích hợp, biến thể với thời gian và có tính ổn định,hỗ trợ cho những quá trình xử lí, quyết định trong quản lí.
a. Hướng chủ thể: Dữ liệu trong kho được tổ chức theo các chủ điểm phục vụ cho các tổ chức dễ dàng xác định được những thông tin cần thiết theo yêu cầu. Cách tổ chức này khác với cách tổ chức theochức năng như các hệ thống cũ từ trước đến nay, ví dụ hệ thống quản lí tài chính tổ chức theo chức năng, dữ liệu được tổ chức theo các nhiệm vụ xử lí vay nợ (loan), cácphiếu ngân hàng, quỹ tín dụng…ngược lại hệ thống tổ chức theo chủ thể thì dựa vào các đối tượng người bán hàng, khách hàng,sản phảm, các hoạt động của xí nghiệp …nói cách khác cách hoạt động của tổ chức truyền thông là dựa vào chức năng còn cách tổ chức theo kho dữ liệu là dựa vào dữ liệu là chính. Sự khác nhau giữa hai cách tiếp cận đó dẫn đến sự khác nhau về nội dung dữ liệu được lưu trữ trong hệ thống:
Kho dữ liệu không cần lưu trữ những dữ liệu chi tiết, chỉ lưu trữ những dữ liệu mang tính chất tổng hợp cần thiết cho quá trình trợ giúp phân tích quyết định.
Các hệ thống ứng dụng tác nghiệp (AOS) lại chứa những dữ liệu chi tiết phục vụ trực tiếp cho những yêu cầu về xử lí chức năng và những dữ liệu đó lại ít hay không cần thiết đới với những nhà phân tích trợ giúp quyết định.
Có sự khác nhau trong quan hệ của các dữ liệu: Dữ liệu trong quan hệ OAS có quan hệ trực tiếp tới nhu cầu và kết quả xử lí tác nghiệp như độ chính xác và tính thời sự, còn trong kho dữ liệu thì dữ liệu đã trải qua một khoảng thời gian, nó là quan hệ giữa nhiều bảng dữ liệu.
b. Tích hợp: tích hợp của kho dữ liệu được chia theo nhiều cách phù hợp với quy ước và tên gọi, số đo, cấu trúc mã hoá và những thuộc tính vật lí của dữ liệu Các tên gọi, biến, thuộc tính có thể mô tả khác nhau trong các ứng dụng, song những cái đó sẽ tích hợp lại trong kho dữ liệu ở dạng chung nhất.
c. Biến thể với thời gian: dữ liệu trong các OAS phải chính xác ở chính thời điểm truy nhập còn kho dữ liệu chỉ cần chính xác trong khoảng thời gian nào đó:dài là đến 5,10 năm ngắn là hàng tuần,hàng tháng không yêu cầu phải chính xác ở thời điểm truy nhập dữ liệu. Dữ liệu trong kho dữ liệu khi đã chính xác thì được ghi lưu lại không cho phép cập nhật và nó được sử dụng như một bức ảnh. Nếu bức ảnh dữ liệu đó không đúng thì sau đó có thể sửa nhưng không thể thay đổi ngay tức thì.
d. Tính ổn định: Các thao tác cập nhật dữ liệu như insert, dele, change…thực hiện trong một môi trường cơ sở record by record. Kho dữ liệu chỉ thực hiện hai thao tác:
Nạp dữ liệu vào kho (load of data)
Truy nhập vào các vùng trong kho(access of data)
Tóm lại dữ liệu được lọc ra từ nhiều môi trường tác nghiệp, được xây dựng, tổ chức thành kho dữ liệu, đó là những dữ liệu cần thiết cho việc xử lí để có được những thông tin đầy đủ chính xác cho những nhà quản lí, cho các tổ chức, xí nghiệp hoạt động có hiệu quả và phát triển trong môi trường cạnh tranh.
2. Cấu trúc của kho dữ liệu
các kho dữ liệu bao gồm những dữ liệu ở mức tổng hợp, chi tiết rất khác nhau và thuyền xuyên có thêm yếu tố thời gian. Cấu trúc tổng quát của kho dữ liệu được mô tả:
Kho dữ liệu bao gồm các thành phần sau:
Dữ liệu chi tiết cũ
Dữ liệu chi tiết hiện thời
Dữ liệu tổng hợp
Dữ liệu tổng hợp mức cao
Meta dữ liệu
Dữ liệu cũ chi tiết thường được lưu giữ ở những dạng và thiết bị cho phép lưu trữ với khối lượng lớn.các loại dữ liệu không thường xuyên truy nhập những chúng phải được lưu trữ để phù hợp với dữ liệu hiện thời.
Dữ liệu chi tiết hiện thời phải được đặc quan tâm vì đó là các dữ liệu tươi khối lượng rất lớn và vì:
Dữ liệu đó fản ánh những sự liện mời xảy ra và những gì chúng ta quan tâm nhất.
Dữ liệu được truy nhập trên đĩa tốc độ nhanh những chi phí lớnvà khó quản lí
Dữ liệu tổng hợp mức thấp là những dữ liệu được chắt lọc to hang dữ liệu chi tiết hiện thời. Các loại dữ liệu tổng hợp thường lưu giữ trên đĩa. Khi thiết kế kiến trod cho dữ liệu tổng hợp chúng ta cần lưu ý
Thời gian cần thiết để tổng hợp dữ liệu
Nội dung chủ yếu mà các thuộc tính mà các dữ liệu cần tổng hợp
Mock tiếp theo của kho tổng hợp dữ liệu là mức tổng hợp cao. Dữ liệu ở mức này phải có tính đúc kếtvà tiện lợi cho nhiều truy nhập khác
Mức cuối cùng trong kho là meta dữ liệu là dạng dữ liệu mô tả về dữ liệu. Trong CSDL chúng thường là các dạng dữ liệu biểu diễn khác nhau của các đối tượng trong CSDL. Trong CSDL quan hệ thì meta dữ liệu là các mô tả các bảng bảng view và nhiều đối tượng khác. trong kho dữ liệu meta dữ liệu là dạng định nghĩa dữ liệu mô tả dữ liệu như bảng cột một báo cáo các luật doanh nghiệphay những quy tắc biến đổi… meta dữ liệu bao quát tất cả các phương tiện của kho dữ liệu. Như vậy meta phải chứa các thông tin:
Cấu trúc của dữ liệu
Thuật toán để sử dụng tổng hợp dữ liệu
ánh xạ xác định sự tương ứng của môi trường tác nghiệp sang kho dữ liệu.
Chúng ta cần lưu ý răng không phải tất cả những gì tổng hợp được đều được đưa vào kho dữ liệu nó chỉ cần lưu ý những dữ liệu tổng hợp mà thường xuyên được truy nhập.
Ngoài việc phân lớp các không thì các dòng dữ liệu trong kho dữ liệu cũng là vấn đề quan trọng.
Dữ liệu đầu vào của các kho dữ liệu được chắt lọc từ nhiều tác nghiệp khác nhau, được biến đổi và tổng hợp lại à lưu trữ trong kho dữ liệu. Quá trình chuyển đổi dần dữ liệu chi tiết hiện thời thành dữ liệu chi tiết cũ dựa vào từng mốc thời gian đã qua. Mục tiêu chính của các tổ chức, doanh ngiệp là phục vụ tốt yêu cầu của khách hàng và giành ưu thế trong cạnh tranh. Xu thế phát triển của các xí ngiệp hiện nay theo hướng có thể quản lí được các hoạt động, các doanh nghiệp của từng xí nghiệp. Người quản lí không chỉ cần biết điều gì đã xảy ra trong doanh nghiệp của mình mà cần phải biết được tại sao.
Trong giai đoạn xử lí dữ liệu tự động nhờ những kĩ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng được nhiều ứng dụng để trả lời câu hỏi “Những cái gì đã xẩy ra”. Các hệ thống thông tin hiện đại sẽ giúp các nhà quản lí hiểu được “Tại sao những điều đó đã xẩy ra trong thực tế” và để giành được lợi thế trong cạnh tranh,đáp ứng những yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán biết được “ những điều gì đã xẩy ra ”.
Để giải quyết những vấn đề trên thì cần có các phương pháp,công cụ để tổ chức,xử lí khai thác tốt những kho dữ liệu (datawarehouse) liên quan.
Quá trình tổng hợp
Quá trình xử lí theo thời gian
Dòng dữ liệu bên trong kho dữ liệu
3. Kho dữ liệu thao tác
Như chúng ta đã biết. Kho dữ liệu được sử dụng trực tiếp cho các hệ thống trợ giúp cho các quyết định và có mặt hạn chế là không phục vụ trực tiếp cho quá trình môi trường tác nghiệp. Mặt khác những hệ thống lớn đã được xây dựng từ nhiều năm thi khả năng tích hợp của chúng lại rất thấp. để giải quyết được tất cả những vấn đề trên nghĩa là sử dụng được tất cả các thông tin của hệ thống hiện hành và của mt tác nghiệp thì cần sử dụng kho dữ liệu thao tác. kho dữ liệu thao tác là dữ liệu được mở rộng sang môi trường tác nghiệp, có tác dụng phục vụ chính cho nghiệp vụ tác nghiệp và dữ liệu được lấy từ những ứng dụng mà khả năng tích hợp rất thấp kho dữ liệu thao tác chứa những giá trị hiện tại hoặc rất gần với hiện tại, còn kho dữ liệu chứa những dữ liệu lịch sử, những nội dung liên quan gần với hiện tại.
Kho dữ liệu thao tác chứa những dữ liệu hầu như chi tiết còn kho dữ liệu chứliệu hầu như đã được làm giàu hoặc đã được tổng hợp thông thường kho dữ liệu rất lớn còn kho dữ liệu thao tác thì rất nhỏ.
Kho dữ liệu thao tác có thể cập nhật trong khi kho dữ liệu chỉ có thẻ truy nhập vào để xử lí như các bức tranh.
Trong kho dữ liệu thao tác cũng có mức tổng hợp và kiểu khác với kho dữ liệu.
Cuối cùng sự khác nhau chủ yếu là ở công nghệ : Kho dữ liệu thao tác được xây dựng với mục đích cập nhật và trả lời nhanh những câu hỏi đáp ứng mọi yêu cầu của khách hàng hay hỗ trợ quyết định cho các hoạt động thường nhật, còn kho dữ liệu phục vụ cho các nhà phân tích để trợ giúp quyết định hoặc phục vụ công tác quản lí trong cộng đồng.
4. Khối các nguồn dữ liệu
Kiến trúc của kho dữ liệu
Các nguồn dữ liệu có thể chia thành các lớp:
Dữ liệu sản xuất: những dữ liệu trong cơ sở dữ liệu thao tác là những thông tin được tập hợp lại từ nhiều ứng dụng khác nhau
Dữ liệu trong các di sản: Những dữ liệu được lưu trữ có tính lịch sử chỉ có ý nghĩa trong việc phân tích để xác định xu thế phát triển chứ không sử dụng hỗ trợ cho nhứng dụng hiện tại
Dữ liệu từ các hệ thống văn phòng nội bộ bao gồm
Dữ liệu phi cấu trúc: những dạng tài liệu phi điện tử
Dữ liệu có cấu trúc: các báo cáo, biểu đồ, bảng tính điện tử, những tài liệu được soạn thảo bằng các văn bản trên máy tính
Tài liệu bán cấu trúc: những báo cáo hàng năm hay những biểu mẫu thống kê…
Dữ liệu từ hệ thống ngoại lai: nguồn dữ liệu không thể điều khiển được, nó cần thiết để phân tích, đánh giá tình hình phát triển của xí nghiệp trong môi trường cạnh tranh nhiều đối tác
Meta dữ liệu về các nguồn: những thông tin định nghĩa về các nguồn cung cấp dữ liệu, meta dữ liệu xác định xác định tên gọi dữ liệu được lọc ra từ các nguồn, định nghĩa về các trường, các thời điểm liên quan đến dữ liệu.
Dữ liệu sản xuất
Dữ liệu kế thừa
Các hệ thống văn phòng nội bộ
Các nguồn từ bên ngoài
Meta dữ liệu về nguồn
Khối các nguồn dữ liệu
5. Khối kiến thiết các kho dữ liệu
Đây là phần chính của kiến trúc của kho tham chiếu, gồm ba bộ nhóm thành phần và được tổ chức như sau:
Chuẩn hoá tích hợp
Phân tách
Mô hình
Lọc và đối sách
Gộp chung và tổng hợp
Tổng hợp
Làm sạch và dọn dẹp
Tiền xử lí
Gộp chung
đóng dấu thời gian nguồn dữ liệu
Lập khuôn và chuyển đổi
điều chỉnh và phê chuẩn
Kiểm tra chất lượng dữ liệu
Biến đổi và làm lại
Xây dựng các câu hỏi
Tạo lập chiết xuất meta dữ liệu
Tạo lập meta dữ liệu
Tạo lập từ điển thuật ngữ dữ liệu
điều khiển meta dữ liệu
Các thành phần của khối kiến thiết kho dữ liệu
Trong các thành phần làm mịn dần, meta dữ liệu được chuyển sang dạng tên gọi các dữ liệu chuẩn và các định nghĩa chính của nó. Trong thành phần tái kiến thiết, dữ liệu được tạo ra sao cho phù hợp với yêu cầu của người sử dụng.
Khối kiến thiết trung tâm
Khối này được tạo ra các trung tâm dữ liệu được xd từ kho dữ liệu các thành phần của nó cũng tương tự như như khối kiến thiết kho dữ liệu.
b . Truy nhập và sử dụng kho dữ liệu
Khối này gồm hai chức năng chính: truy nhập và tìm kiếm, phân tích lập báo cáo
Tầng quản lí
Chiết xuất và quản trị dữ liệu mới. Câu hỏi yêu cầu
Nạp, lưu trữ và cập nhật hệ thống
Quyền ttruy nhập và an toàn hệ thống
Cất giữ thanh lọc và khôi phục hệ thống
Tầng quản lí metadata
Kiến trúc kho dữ liệu được xây dựng dựa trên những khái niệm định nghĩa dữ liệu (được gọi là meta data). Metadata boa quát mọi hoạt động của kho dữ liệu
Tầng meta chụi trách nhiệm :
Đảm bảo chuẩn hoá các định nghĩa dữ liệu (bao gồm cả định nghĩa chức năng và định nghĩa tác nghiệp )được lưu trữ trong kho.
Tạo lập các meta data được xây dựng trong khối làm mịn dần và tái xây dựng
Xây dựng các meta data dựa trên hạt nhân, các vùng chú điểm, gộp chung và tổng hợp lại
Xác định những mô tả những câu hỏi và báo cáo những định nghĩa trước
Xác địnhcác meta data mô tả5 chỉ số hoá, các quy tắc phân chia thời gian, cập nhật hệ thống.
c. Tầng truyền thông
Tầng này phục vụ cho việc trao đổi giữa các khối trong kiến trúc chung của hệ thống.
Truyền dữ liệu và phân phối mạng
Client-serverr và các công cụ phục vụ trung gian
Hệ thống trả lời
Quyền truy nhập và an toần hệ thóng
Chức năng truyền dữ liệu và phân phối mạng bao gồm những loại hệ thống:
Giao lễ của mạng
Cơ cấu quản lí của mạng
Hệ điều hành mạng
Loại kết nối mạng
Bộ phận Client-serverrvaf công cụ phục vụ trung gian bao gồm: phần phục vụ truyền thông và bộ phận môi giới
Hệ thống trả lời bao gồm các hệ thống nhỏ sau: IBMData EdA SQL.
Các sản phẩm
d. Tầng cơ sở
Tầng cơ sởcủa hệ thống đề cập đến:
* Cấu hình hệ thống
Bộ nhớ lưu trữ
Độ an toàn
Phân phối phần mền
Theo dõi sự hoạt động các công việc
Phân tích các khả năng, công suất.
Tìm hiểu thêm về OLAP
OLAP là kĩ thuật phân tích dữ liệu bao gồm:
_ Thể hiện vieulogic nhiều chiều của dữ liệu trong kho dữ liệu, view nào cũng độc lập với cách lưu trữ dữ liệu
_Xử lí câu hỏi và dữ liệu trực tiếp
_ Tạo ra khả năng tổng hợp và dữ liệu gộp chungtheo một cấu trod phân cấp.
_ Hỗ trợ tạo ra mô hình chức năng để dự báo, phân tích xu thế phát triển và phân tích xu thế thống kê.
_ Tìm kiếm và hiển thị dữ liệu trong không gian
_ Trả lời các câu hỏi, quá trình phân tích không bị gián đoạn, thông tin không bị tổn thất.
OLAP là thành phần quan trọng trong phân tích và lập báo cá, là thành phần quan trọng để truy nhập và sử dụng dữ liệu trong kho dữ liệu
Truy nhập trực tiếp vào dữ liệu trong datawarrehouse hay từ datamart biến đổi chúng sang cấu trúc nhiều chiềuvà lưu trữ chúng ở kho của các trạm .
Truy nhập trực tiếp vào dữ liệu trong datawarrehouse hay từ datamart biến đổi chúng sang dạng view đa chiều và thể hiện nó như cấu chúc nhiều chiều phục vụ cho phân tích và lập báo cáo ở các trạm
II. Khai thác sử dụng kho dữ liệu
7. Mục đích của kho dữ liệu
Mục đích của kho dữ liệu là để chocác nhà quản lí hiểu được bản chất của những gì đã xẩy ra và nắm bắt được những gì sẽ xảy ra trong tương lai. Các nhà quản lí phải trả lời những câu tương tự như sau:
Khách hàng cần mua gì ? họ không cần mua gì ?
Bao nhiêu nhân viên bán hàng phục vụ cho một khách hàng? khách hàng nghĩ như thế nào về dịch vụ của công ty?
Đối thủ cạnh tranh có thể làm những gì? Những điều đó ảnh hưởng như thế nào đối với khách hàng ?
Chi phí cho một đơn vị mặt hàng so với ba năm qua tăng hay giảm? những yếu tố chính làm cho nó tăng…
Những nhà quản lí phải có được những câu hỏi chủ chốt để có được những quyết định kịp thời và tốt hơn. Hệ thống kho dữ liệu giúp chúng ta đạt được mục tiêu đó. Dữ liệu được lấy ra từ kho dữ liệu và được chuyển đổi sang dạng thông tin hỗ trợ cho các doanh nghiệp(tổ chức) có được nhiều khả năng lựa chọn với nhiều thông tin hơn để có được quyết định tốt hơn và duy trì được lợi thế trong cạnh tranh.
Quá trình sử dụng kho dữ liệu được thực hiện qua nhiều bước. Đầu tiên là kho dữ liệu được sử dụng để lập báo cáo và định nghĩa trước các câu hỏi. Sau đó là nó được sử dụng để phân tích tổng hợp hay chi tiết dữ liệu mà kết quả là các bản báo cáo hay các biểu đồ. Trong giai đoạn này cũng cần kiểm tra chất lượng và tính đầy đủ các nội dung dữ liệu, đồng thời tiến hành huấn luỵện, đào tạo người sử dụng. Khi người sử dụng cảm thấy tiện lợi trong công việc thì họ sẽ sử dụng kho dữ liệu để thực hiện công việc để đạt được những mục tiêu chiến lược thông qua phân tích nhiều chiều hay nhiều phép toán khác trên kho dữ liệu.
8. Tiềm năng của kho dữ liệu
Trong môi trường cạnh tranh hiện nay, không có chỗ đứng cho những quyết định chậm hay thiếu thông tin. Việc sử dụng dữ liệu trong kho dữ liệu dưới dạng các thông tin cần thiết để có những quyết định tốt có thể mô tả như trong hình8.1
Tri thức
Dữ liệu
Sự kiện thông tin
Kho dữ liệu có thể cung cấp đầy đủ những thông tin cần thiết cho các nhà phân tích, quản lí và những người thực hiện. Họ sử dụng kho dữ liệu để đề ra kế hoạch, chiến lược phát triển và từ việc quản lí tốt mối quan hệ giữa khách hàng để điều chỉnh theo hướng có lợi hơn trong môi trường cạnh tranh.
Phân tích tăng lợi nhuận và tăng trưởng kho: kho dữ liệu cung cấp các dữ liệu để phân tích hỗ trợ để có được những quyết định tốt đảm bảo sự phát triển và tăng lợi nhuận cho từng xí nghiệp
Quản lí được các mục tiêu chiến lược: những dữ liệu tác nghiệp của xí nghiệp là những nguồn thông tin cơ bản được lưu trữ trong kho. Chính những dữ liệu này sẽ cung cấp đủ thông tin để hiểu, nắm được thị hiếu, nhu cầu phát triển của khách hàng trên cơ sở đó đề ra chiến lược phát triển cho xí nghiệp.
Giúp cho việc cải tiến quá trình tác nghiệp và quản lí toàn bộ chất lượng.
9. Các ứng dụng của kho dữ liệu
Những kinh nghiệm trong các hoạt động nhân hành và tài chính và dịch vụ, kinh doanh,sản xuất,…cũng đã nêu lên khả năng ứng dụng của kho dữ liệu để thực hiện chức năng của một tổ chức. Chúng ta xét một số lĩnh vực ứng dụng kho dữ liệu phổ biến:
Trong lĩnh vực tài chính và ngân hàng:kho dữ liệu được sử dụng trong quản lí các dịch vụ, khách hàng và phát hiện những may rủi trong hoạt động đầu tư phát triển.
Trong các dịch vụ kinh doanh và quản lí: trong lĩnh vực này, ứng dụng kho dữ liệu đóng vai trò quan trọng trong hoạt động kinh doanh, khách hàng, hàng hoá, mối quan hệ giữa chúng…ngoài công việc hỗ trợ cho quản lí còn cho ta biết được nhu cầu, thị hiếu và xu thế phát triển của khách hàng nói riêng và thị trường nói chung.
Trong sản xuất: kho dữ liệu giúp cho việc tăng hiệu quả của sản xuất, vốn đầu tư đảm bảo đáp ứng nhu cầu khách hàng và phù hợp với nhu cầu phát triển của xí nghiệp.
10.Những người sử dụng kho dữ liệu và yêu cầu của họ
Nhiệm vụ của kho dữ liệu là hỗ trợquyết định cho phạm vi rộng lớn các lớp người sử dụng khác nhau với sự giúp đỡ cuả công nghệ thông tin.
Người sử dụng hệ thống kho dữ liệu phải có những khả năng sau:
Hiểu biết về lĩnh vực tác nghiệp và kho dữ liệu hỗ trợ
Hiểu được ngữ nghĩa có được của thông tin từ kho dữ liệu
Biết được cách truy nhập và tìm kiếm thông tin trong kho.
Có khả năng xử lí,biến đổi những dữ liệu tìm được từ trong kho dữ liệu sang những dạng thông tin sự kiện,rồi chuyển chúng sang tri thức để ra quyết định.
Nhu cầu cơ bản của tất cả những người sử dụng kho dữ liệu là biết được cái gì có trong kho dữ liệu, phân tích các dữ liệu,xác định được những thông tin cần thiết để lấy ra từ trong kho dữ liệu, nhu cầu của họ được thoả mãn khi trả lời được những câu hỏi sau:
Kho dữ liệu chính xác chứa những gì?và chất lượng của chúng?
Cách truy nhập và tìm kiếm dữ liệu
Tất nhiên nhu cầu về tìm kiếm nghiệp vụ,công nghệ…cũng rất khác nhau đối với những người sử dụng khác nhau vi dụ như bảng dưới đây:
Người thực hiện
Công cụ phân tích
đóng gói thông tin
Khả năng của trạm
làm việc
Người quản lí lâu
năm
Người lập báo cáo
Biểu đồ
Hình thức tác nghiệp
Biểu diễn đa phương tiện
Mô hình tác nghiệp
Lập kế hoạch và
mô hình dự báo
Đồ hoạ chất lượng cao
Cơ chế ảo
Giám đốc phân tích tác nghiệp
Các câu hỏi
Biểu đồ và báo cáo
Bảng tính và các hệ quản trị CSDL
Mô hình lập kế hoạch và dự báo
Mô hình tác nghiệp
Đồ thị
Khả năng ảo
của những thông tin đã được phân tích
Phân tích
viên tác nghiệp
Các truyền
viên CNTT
Tổng hợp dữ liệu
Chi tiết dữ liệu
Biến đổi dữ liệu
CSDL
Bảng tính và
hthử QTCSDL
Quản trị dữ liệu
nội bộ
Dữ liệu bên ngoài
CSDL
Khai thác dữ liệu
Phân tích dữ liệu
ảo hoá dữ liệu
10. Sử dụng kho dữ liệu
từ xu thế phát triển của công việc, kho dữ liệu được xây dựng đã cung cấp những dữ liệu và thông tin ở dưới dạng thông tin và khuân mẫu thuận lợi cho người sử dụng nghiệp vụ, những người sử dụng với những công cụ và khả năng phân tích để có những quyết định đúng nhất.
Kho dữ liệu được sử dụng hàng ngày với hai hoạt động chính:
Truy nhập và tìm kiếm
phân tích và làm báo cáo.
Truy nhập trực
tiếp vào kho dữ liệu
Các công cụ làm báo cáo
Truy nhập vào data
mart
Công cụ phân tích
và trợ giúp quyết định
Xây dựng lại
Công cụ xây dựng mô
hình tác nghiệp
Chuyển đổi sang cấutrúc nhiều chiều
Các công cụ khai thác
dữ liệu
Tạo ra những kho
ứng dụng sản xuất
Hiển thị và điều hành
Quản lí meta dữ liệu
OLAP
Quản lí
Khối truy nhập và sử dụng trong kiến trúc quy chiếu của kho dữ liệu
11. Kĩ thuất sử dụng kho dữ liệu
Công cụ trợ giúp quyết định thường sử dụng sau khi sử dụng những công cụ hay những trương trình ứng dụng để tìm kiếm xử lí phân tích những dữ liệu tìm được trong kho theo yêu
cầu để cuối cùng có được những kết luận tốt.
Hỗ
trợ quyết
định
Kiển phát
Chứng hiện
Thông Phân Khai thác
tin tích dữ liệu
Hình trên ta thấy những kĩ thuật sử dụng chính ở đâylà kiểm chứng và phát triển.
Theo chức năng kiểm chứng người sử dụng đưa ra các giả thuyết đó là những câu hỏi liên quan đến nghiệp vụ rồi tìm cách khẳng định những điều nêu ra thông qua các dữ liệu truy nhập được phân tích nhiều chiềulấy ra từ kho dữ liệu. Chức năng kiểm chứng làm nhiệm vụ phát hiện những đặc tính của dữ liệu.
12. Các bước sử dụng dữ liệu
các bước sử dụng dữ liệu của kho dữ liệu oàn toàn giống xử lí dữ liệu của những người quản lí giàu kinh nghiệm. Nó bao gồm các bước
Kiểm tra chất và tính chất công việc
Xây dựng luận cứ về kết quả công việc
Xác định mục tiêu hoăc những vấn đề nghiệp vụ
Xây dựng cách truy nhập vào kho dữ liệu
Truy nhập và tìm kiếm trong kho dữ liệu
Phân tích dữ liệu
Giới thiệu và quyết định
Các bước sử dụng dữ liệu
13. Phân tích và xử lí thông tin trong kho dữ liệu
Chúng ta nghiên cứu những phương pháp, công cụ để xử lí thông tin: sau đó là những kĩ thuật xử lí phân tích, đặc biệt nhấn mạnh phương pháp xử lí bằng trực tuyến.
Các bước trong quá trình xử lí thông tin gần giống các bước phân tích để có được những quyết định của những người thành thạo trong công việc của mình.
Truy nhập và tìm kiếm trong kho dữ liệu
Biểu diễn và phân tích kết quả
Xác định nhu cầu về dữ liệu
Xây dựng giả thuyết
Xác định công việc
Quá trình phân tích và thực hiện công việc của công nhân thạo nghề
Định nghĩa câu hỏi
Những giả thuyết về câu hỏi tương tựCác mùa trong năm và lượt các mặt hàng được bán ra trong quý có mối quan hệ như thế nào? ” cần phải được chuyển sang dạng câu hỏi có những trả lời từ kho dữ liệu. Công việc chuyển đổi này có thể thực hiện bởi các chuyên gia công nghệ thông tin hay người có nghiệp vụ hay người có trình độ chuyên môn cao về hệ thống thông tin.
Truy nhập và tìm kiếm dữ liệu
Nhiều công cụ truy nhập hỗ trợ để đưa ra những câu hỏi tính toán và tìm ra những dữ liệu thích hợp. Quá trình truy nhập và tìm kiếm có thể bao gồm cả những khả năng tính toán và sắp xếp theo một tiêu chí nào đó.
định nghĩa câu hỏi
Các công cụ
Truy nhập và tìm kiếm
tính toán xử lí /phân tích
Biểu diễn kết quả/lậpbáo cáo
Trao đổi thông tin: E-mail
Quá trình xử lí thông tin
c. Tính toán,xử lí, phân tích dữ liệu
để thực hiện công việc được giao thì người thừa hành công việc phải tính toán,xử lí nhiều kết quả từ kho dữ liệu theo những câu hỏi đặt ra. Thực hiện phân tích với mục đích là chuyển những dữ liệu tìm được sang dạng thông tin và các sự kiện. Có nhiều công cụ được sử dụng để phân tích như sơ đồ, đồ thị.
d. Biểu diễn thông tin
Những kết quả phân tích có thể biểu diễn dưới nhiều dạng như biểu đồ đồ thị, các báo cáo hay những dữ liệu được xử lí trước cho những quá trình phân tích tiêp theo. Những kết quả đó có thể thể hiện trong không gian hai chiều,ba chiều
e. Trao đổi thông tin
các lượng thông tin có thêtrao đổi với nhau dưới nhiềy hình thứckhác nhau như dưới dạng tài liệu, báo cáo hoặc dưới các dạng tệp thông tin hay thư tín điện tử…Để tăng hiệu quả xử lí của hệ thống thì những kết quả phân tích phải được chuyển ngay đến thực tế dưới dạng trang điện tử hoặc để soạn các báo cáo để cung cấp các tài liệu cần thiết.
Phục vụ khách hàng
Sản xuất
Bán hàng
Nghiên cứu thị trường
Tài chính kế toán
Những người sử dụng bất thường
Những người sử dụng thường xuyên
Những người sử dụng tiềm năng
Cách nhìn của người sử dụng
III. Xây dựng và phát triển kho dữ liệu
Hệ thống kho dữ liệu cũng có chu trình phát triển giống như các phần mềm khác. để phát triển hệ thống kho dữ liệu chúng ta phải thực hiện lần lượt qua các bước: lập kế hoạch, xác định yêu cầu,phân tích , thiết kế, cài đặt, trắc nghiệm và cuối cùng là bảo trì,phát triển.
Bảo trì và phát triển trắc nghiệm cài đặt
Xác định phân tích thiết
Yêu cầu kế
Lập KH
Chu trình phát triển của hệ thống
1. Lập kế hoạch
Để xây dựng kho dữ liệu cần thực hiện qua các bước, một số bước có thể thực hiện đồng thời
Xác định chiến lược cài đặt hệ thống
Lập KH
Tập hợp meta data
Xây dựng kịch bản sử dụng trong tác nghiệp
Xây dựng chương trình ngân sách cho kế hoạch
Lựa chọn cách tiếp cận kiến túc
Xác định miền pham vi của hệ thống
Lựa chọn phương pháp luận dể phát triển
a.Xác định chiến lược cài đặt
Đây là bước đầu tiên vô ùng quan trọng, nó được quyết định đưa cơ sở vào cơ cấu tổ chức cần thiết phát triển hệ thống kho dữ liệu. Chúng ta có thể lựa chọn một trong ba cách tiếp cận sau:
Cách tiiếp cận trên –xuống
Cách tiếp cận dưới—lên
Tổ hợp hai cách trên
Nên chọn cách tiếp cận trên – xuống khi có những điều kiện sau:
+ khi tổ chức thực hiện cài đật nấm vững được thông tinvà có nhiều kinh nghiệm đẻ phát triển các ứng dụng dựa trên việc xác định danh sách các yêu cầu cua hệ thống
+ Khi thực hiện các nhà quyết định, nhà đầu tư đã xác định rõ mục đích và yêu cầu đối với hệ thống kho dữ liệu
+ khi thực hiện những nhà quyết định, những nhà đầu tư đã có ý tưởng rõ ràng nơi nào hệ thống kho dữ liệu sẽ được sử dụng và sử dụng như thế nào để có những quyết định trợ giúp
* Nên lựa chọn cách tiếp cận từ dưới lên trên khi có các điều kiện sau:
+ Khi chưa xác định được công nghệ cài đặt chủ đạo và có nhiều công nghệ mới cần phải tiếp xúc và xem xét
+ Khi tổ chức chưa phó thác cho công nghệ khai thác kho dữ liệu nhưng đang tìm kiếm một công nghệ để xác định triển khai công nghệ
+ Khi mục tiêu về hệ thống kho dữ liệu chưa rõ ràng, hoặc là quá trình tác nghiệp hiện thời hay trong chưa cụ thể
* Nên chọn cách tiếp cận tổ hợp khi có những điều kiện sau:
+ Tổ chức thực hiện cài đặt có những chuyên gia cài đặt giàu kinh nghiệm . tổ chức này có cơ sở vững chắc về xây dựng và phát triển kho dữ liệu
+ Khi tổ chức đã có một nhóm thực hiện dự án,xác định rõ những nơi cần ứng dụng kho dữ liệu. Thông thường nhóm dự án là một phòng ban, một ban được bổ sung thêm một số người và những đội ngũ cán bộ của hệ thống thông tin thống nhất với nhau để đề xuất một giải pháp cụ thể để cài đặt hệ thống kho dữ liệu phù hợp với yêu cầu của công việc
b. Lựa chọn phương pháp luận để phát triển
Trong công nghệ phần mềm có nhiều phương pháp luận đã được tập trung nghiên cứu và ứng dụng để phát triển các hệ thống phần mềm. Mỗi phương pháp đều có những ưu và nhược điểm khác nhau. Những kĩ thuật phát triển hệ thống phần mềm hiện nay chủ yếu được sử dụng là: phương pháp phân tích thiết kế cơ sở cấu trúc theo mô hình thác nước, phương pháp phân tích thieets kế cài đật hướng đối tượngtheo mô hình đài phun nước và phương pháp phát triển theo vòng xoắn ốc
c. Xác định mục tiêu
Để hiểu rõ công việc và để thực hiện thành công dự án thì vấn đề đầu tiên quan trong nhất láac định rõ mục tiêu, nhiệm vụ và hệ thống cần cài đặt.
Việc xã các định các mục tiêu của kho dữ liệu là công việc rất phức tạp vì kho dữ liệu chính là CSDL với khối lượng thông tin phức hợp trong một phạm vi xử lí rất rộng. Ngoài ra còn luôn phát triển nhiều xu thế phát triển công cụ
Để khắc phục được những khó khăn trong việc xác định mục tiêu, khi lập kế hoạch chúng ta nên trả lời những câu hỏi :
Thị trường những người sử dụng kho dữ liệu tiềm năng là gì? Câu trảt lơi sẽ phụ thuộc vào mơc độ nhận thớc và nhu cầu của hệ thống . việc lựa chọn các đối tượng phục vụ cần phải xét tới những khả năng cần tới trạm làm việc, kết nối mạng và trình độ t của khách hàng.
Những lĩnh vực nào đang ứng dụng hoặc dự kiến sẽ ứng dụng? Câu trả lời cần phải chú ý và miên ứng dụng nhiều chiều, rất rộng: người phục vụ các trạm làm việc của khách hàng, giao diện đồ hoạ, các hệ thống thông tin (hệ quản trị CSDL các quan hệ truyền thông ).
Những vấn đề cần lập kế hoạch chủ yếu dựa vào chức năng, vào đặc tính là gì? đặc tính và chức năngcủa hệ thống được chia làm hai lớp:
-Những đặc tính chức năng nhìn thấy được có thể sử dụng bởi những người từ bên ngoài tổ chức của hệ thống kho dữ liệu.
Những đặc tính chức năng không nhìn thấy được cụ thể những cần phải cài đật bên trong hệ thống để phát triển được các khả năng của hệ thống
Những nguồn dữ liệu nào có thể hoặc cần phải tích hợp để đưa vào hệ thống kho dữ liệu
Khi nào thì hệ thống kho dữ liệu được đưa vào triển khai ứng dụng.
d. Xác định phạm vi của hệ thống
Trong hầu hết các tổ chức, lí do cần phải phát triển hệ thống kho dữ liệu là nhằm đáp ứng nhu cầu công việc của một nhóm người, một bộ phận nào đó, sau khi đã xác dịnh mục tiêu thì cần xác định phạm vi hoạt động và ứng dụng của kho dữ liệu. Phạm vi của dự án phát triển có thể theo nhiều chiều.
Có thể chia các yếu tố giúp cho việc xác định phạm vi của hệ thống thành hai loại:
Những yếu tố xác định phạm vi về triển vọng của công việc trong hệ thống kho dữ liệu.
Những yếu tố phụ thuộc vào các nền công nghệ
Chúng ta cần trả lời cho các câu hỏi
Ai, phòng ban nào cần sử dụng kho dữ liệu? Trong từng phòng ban cần biết những ai được sử dụng và sử dụng để làm gì ?
Phạm vi những câu hỏi, những vấn đề đặt ra, số lượng báo cáo và số lượng những thông tin cần nhập vào kho
Kích thước của metamodel của kho dữ liệu thế nào? Metamodel là mô hình xử lí cá định nghĩa của kho dữ liệu. Kích thước này sẽ xác định kích cỡ dữ liệu cần phải quản lí trong kho dữ liệu, điều này giúp ta cài đặt hệ thống dễ dàng hơn
Số lượng bên trong kho dữ liệu là bao nhiêu ? kho dữ liệu không chỉ chứa những dữ liệu hiện thời mà còn chứa những dữ liệu mang tính lịch sử được tập hợp lại qua nhiều năm. độ tổng hợp xác định khả năng nén của kho dữ liệu.
Các nguồn dữ liệu là gì số lượng là bao nhiêu ? kho dữ liệu luôn nhập các thông tin từ các CSDL về sản xuất về những hoạt động nghiệp vụ hàng ngày
Khả năng sử dụng dữ liệu từ các nguồn dữ liệu ? Nhiều CSDLđ xây dựng từ trước đến nay thiếu chọn lọc và chưa được làm sạch dữ liệu. Quyết định chọn những nguồn dữ liệu như thế sẽ làm chậm tiến độ cài đặt hệ thống.
Các tài liệu về nguồn dữ liệu có tốt không ? những tài liệu mô tả về tổ chức dữ liệu trong các CSDL di sản cần thiết: chất lượng của các tài liệu đó sẽ ảnh hưởng đến công việc sàng lọc và làm sạch dữ liệu từ các nguồn để đưa vào kho dữ liệu.
Khả năng của các mô hình logic và các công cụ phát triển phần mềm với sự trợ giúp của máy tính như thế nào?
Có tồn tại những kho dữ liệu 6ương tự hay không ? số lượng người có kinh nghiệm và đã sử dụng kho dữ liệu
Kho dữ liệu theo một định nghĩa nào đó là mở rộng thực sự về kiến trúc dữ liệu.
2. Xác định các yêu cầu của hệ thống
Danh sách các yêu cầu đóng vai trò quan trọng trong việc đậc tả các chức năng của hệ thống và nó ảnh hưởng rất lớn đến chất lượng của hệ thống và nó ảnh hửng rất lớn đến khả năng mở rộng và phát triển của kho dữ liệu
Khi phân tích các yêu cầu, chúng ta có thể chia ra làm các loại
Các yêu cầu
định nghĩa yêu cầu của người sử dụng
định nghĩa yêu cầu của người phát triển
định nghĩa yêu cầu của kiến trúc sư
định nghĩa yêu cầu của chủ sở hữu
Yêu cầu của chủ sở hữu
đế xác định được yêu cầu của chủ sở hữu chúng ta phải trả lời những câu hỏi sau:
-Tại sao phải xây dựng kho dữ liệu ?
mục đích của kho dữ liệu
Ai là người chủ đầu tư, tài trợ khách hàng?
Kinh phí bao nhiêu ?
Khi nào thì hệ thống hoàn thành
Những đầu tư về môi trường công nghệ ?
Kinh nghiệm để thực hiện dự án
Những may rủi có thẻ sảy ra
Những yêu cầu của kiến trúc sư
Kiến trúc sư là người chụi trách nhiệm xây dựng những thành phần cơ sở của hệ thống kho dữ liệu nhằm đáp ứng các nhu cầu hiện tại và tương lai của một số tổ chức. Chất lượng xây dựng kết cấu phụ thuộc vào: phạm vi chức năng của hệ thống, sử dụng các chuẩn và giao diện mở, khả năng mở rộng và phát triển của hệ thống
Khi xây dựng các kiến trúc sư lưu ý tới ba loại kiến trúc :
Kiến trúc dữ liệu: mô tả các hạng thức dữ liệu và các quan hệ của chúng
Kiến trúc các trương trình ứng dụng: hệ thống được xem như là tổ hợp các trương trình ứng dụng. Loại kiến trúc này thự chất là catalog các trương trình ứng dụng thực hiện theo các chức năng mà chúng quan tâm. Mỗi trương trình ứng dụng có thể truy nhập chéo tới một hay nhiều phần tử dữ liệu
Kiến trúc công nghệ: loại kiến trúc này mô tả tất cả các thành phần công nghệ. Hệ thống được chia thành những phần dễ dàng sử dụng những công nghệ hiện đại như máy tính chủ, giao diện đồ hoạ.
c. Yêu cầu của những người xây dựng hệ thống
Các kiến trúc sư quan tâm đến những khía cạnh trừu tượng, còn những người xây dựng hệ thống lại quan tâm đến những vấn đề cụ thể của kho dữ liệu. Họ có những yêu cầu về dữ liệu, cacá trương trình ứng dụng và những công nghệ cụ thể để phát triển những ứng dụng máy tính, giao diện và các CSDL, mạng truyền tin....những yêu cầu này sẽ liên quan đến nhiều đặc tả hệ thống
Các yêu cầu về công nghệ
Đối với các khối, các nguồn dữ liệu chúng ta cần biết về các meta dữ liệu, sàng lọc dữ liệu và meta dữ liệu quản trị, meta dữ liệu truyền thông, các bộ phận tác nghiệm xử lí , môi trường tác nghiệp và chuẩn hoá
Đối với các nguồn kho dữ liệu cần thiết quá trình làm mịn và tái tạo lại
*Các yêu cầu về triển khai
Duy trì tính nhất quán, tin cậy và đồng thời của thông tin
Quản lí được meta và metadata của kho dữ liệu
đảm bảo được rằng cơ chế trao đổi tin, CSDL luôn được thông suốt.
Có chính sách, thủ tục đảm bảo được quyền truy nhập được an toàn.
Quản lí được kích cỡ CSDL sử dụng trong các kho dữ liệu kể cả những hệ thống cực lớn.
d. Những yêu cầu của người phát triển và trình độ của họ
Để có thể hệ thống kho dữ liệu thì cần phải có một đội ngũ cán bộ có trình độ phát triển phần mềm, vừa có khả năng nắm bắt các lĩnh vực chuyên môn của nghiệp vụ, có kinh nghiệm về xử lí dữ liệu, kết hợp được vơí nhau để có thể thực hiện dự án đề ra
e. Những yêu cầu của người sử dụng đầu cuối
Những người sử dụng đầu cuối xem kho dữ liệu như là hộp đen khổng lồ chứa nhiều dữ liệu mà họ chỉ có thể xem được thông qua những câu hỏi, những phần mềm và những trương trình ứng dụng để lấy được thông tin cần thiết và quý giá cho các hoạt động của họ. Yêu câu của người sử dụng có thể phân loại như sau:
Theo dòng sử lí công việc là cách sử lí tự động của các dữ liệu thích hợp từ hình ảnh âm thanh và dữ liệu trong nghiệp vụ, để xác định những yêu cầu của câu hỏi này chúng ta phải trả lời được những câu hỏi: hệ thống kho dữ liệu giúp cho họ giải quyết các dòng công việc của họ như thế nào?
Những yêu cầu về các lĩnh vực mà các câu hỏi người sử dụng đề cập đến: đó là những tình huống gồm cả các thuật ngữ như hoá đơn, bán hàng, giao hàng và những đơn vị liên quan như phòng ban xí nghiệp, công ty, khách hàng.
Những yêu cầu làm báo cáo: những hoạt động sự kiệncần tổng kết, đánh giá theo các khoảng thời gian thông thường cần làm báo cáo như ngày, tuần, tháng, quý, năm ... ngoài ra người sử dụng còn có thể xác định được yêu cầu về dữ liệu, kiểu dữ liệu cần thiết để phân tích và thực hiện những công việc tính toán và xử lí sau khi chúng được kết xuất từ hệ thống kho dữ liệu. Người sử dụng nhiều thì cần:
Phân tích dữ liệu theo nhiều chiều khác nhau
Khai thác, tìm hiểu sâu hơn các mẫu dữ liệu còn bị ấu kím
Xây dựng các mô hình tác nghiệp như sử dụng các bảng tính điện tử chẳng hạn
Theo dõi sự biến đổi dữ liệu hay có thể cập nhật cục bộ hoặc cần nhìn vào hệ thống kho dữ liệu
3. Phân tích
Bước phân tích của quá trình xây dựng hệ thống kho dữ liệu cũnh giống như bước phân tích phát triển hệ thống phần mềm nói chung. ở đây chúng ta cần đề cập đến những vấn đề liên quan đến kho dữ liệu khi phân tích để đưa ra mô hình trìu tượng cho kho dữ liệu. Chỉ có ba đặc tính chính cho hệ thống:
Những yêu cầu nhấn mạnh nghiệp ràng buộc về thông tin mà hệ thống cần bao quát.
Những đặc tả về về yêu cầu và truy nhập của hệ thống đối với các nguồn dữ liệu, xác định giới hạn thông tin trong các nguồn cung cấp dữ liệu
Những đặc tả về yêu cầu và truy nhập, xác định bằng cách đó để nhận được các thông tin cần thiết khi sử dụng dữ liệu, ở đây cũng mô tả các loại công cụ và kĩ thuật hỗ trợ cho việc sử dụng kho dữ liệu
4. Thiết kế hệ thống kho dữ liệu
Bid top Theo của quá trình thiết kế hệ thống kho dữ liệu là thiêt kế hệ thống dựa trên kết quả của bước phân tích để chuyển mô hình logic sang mô hình vật lí, để thực hiện công việc này chúng ta phải:
Thiết kế chi tiết kiến trúc dữ liệu
-Xây dựng mô hình dữ liệu vật lí cho kho dữ liệu và cơ sở dữ liệu lưu trữ các data mart
Xác định được ánh xạ từ các mô hình dữ liệu vật lí của các nguồn dữ liệu vào các kho dữ liệu
Thiết kế chi tiết kiến trúc ứng dụng, nghĩa là xác định các quá trình ứng dụng :
Những quá trình xử lí bên trong nguồn dữ liệu và có liên quan đến quá trình sàng lọc hay làm sạch thông tin
Những quá trình kết nối kho dữ liệu với data mart nếu có
Những quá trình bên trong data mart
-Những quá trình kết nối kho dữ liệu với các công cụ của người sử dụng
Những quá trình sử dụng ở các trạm của người sử dụng
-Những quá trình hỗ trợ cho người quản lí việc quản trị kho dữ liệu
Biến đổi trạng thái của kho dữ liệu
Từ những hoạt động trong thực tế, từ những trương trình ứng dụng dữ liệu được tập hợp lại để tạo ra kho dữ liệu, rồi từ kho dữ liệu những thông tin quý giá được lấy ra chuyển tới người sử dụng, những quá trình đó trải qua rất nhiều khâu xử lí và truền dữ liệu làm thay đổi trạng thái của hệ thống , cụ thể trải qua các bước
dữ liệu từ các nguồn (xí nghiệp , nhà máy )
các tập dữ liệu được đưa và các bảng
từ các bảng dữ liệu lại tổ chức thành các thùng
sau đó các thùng dữ liệu lại được tổ chức thành các bảng dữ liệu đi
các bảng dữ liệu đi lại xếp lại để giao cho khách hàng
Gửi dữ liệu vào kho
Tập dữ liệu gửi vào kho được lưu trữ dưới dạng ASCCI. Quá trình chiết suất dữ liệu từ các kho dữ liệu để tạo ra các file ASCCI phụ thuộc vào khả năng truy nhập trong các hệ thống ứng dụng phần mềm. Nói chung các hệ quản trị CSDL quan hệ hay các ngôn ngữ thuộc thế hệ thứ tư đều hỗ trợ để thực hiện nhiệm vụ nói trên
Người gác cổng
Kiểm tra dữ liệu đẩm bảo không dư thừa và tính nhất quán là một nhiệm vụ hóc búa của thiết kế kho dữ liệu. Nếu hệ thống kho dữ liệu được thiết kế theo mô hình quan hệ thì chúng ta có thể sử dụng hệ quản trị CSDL quan hệ như SQL để kiểm soát dữ liệu.
Nhân viên kiểm tra
Mặc dù hầu hết các phép toán thực hiện dưới sự kiểm soát của warehouse những không phải tất cả phếp toán đã được sắp xếp thì đều thực hiện thành công. Do vậy nhiệm vụ của nhân viên kiểm tra(audit clerk) là ghi lại tất cả các phép toán đó vào bảng điều khiển. Trạng thái thực hiện của phép toán đó được lưu hành ở dw-audit
Quản đốc
Quản đốc (foreman) kiểm soát những phép toán đối với các thùng dữ liệu và để quản lí không gian lưu trữ thực hiện nạp hay không nạp dữ liệu
5. Cài đặt
Sau khi đã có thiết kế chi tiết bước tiếp theo là cài đặt vật lí hệ thống kho dữ liệu, xây dựng kho dữ liệu thực chất là xây dựng hệ thống CSDL quan hệ cỡ lớn, nó gồm những công việc chính như sau: những trương trình tạo lập và biến đổi các CSDL của hệ thống kho dữ liệu và data mart.
Những trương trình chiết xuất dữ liệu từ các nguồn dữ liệu quan hệ hay không quan hệ.
Những trương trình thực hiện biến đổi dữ liệu, như: tích hợp, tổng hợp và gộp chung.
Những chương trình thực hiện cập nhật các CSDL quan hệ.
Những chương trình tìm kiếm, xử lí trên các CSDL cực lớn.
6. Bảo trì và triển khai hệ thống
Bước cuối cùng của chu trình phát triển hệ thống kho dữ liệu là triển khai ứng dụng hệ thống. Công việc chính của giai đoạn này là :
thực hiện cài đặt các phương tiện ban đầu để kết nối với các nguồn cung cấp dữ liệu và để cập nhật cũng như đồng bộ thông tin.
Lập kế hoạch và cài đặt hệ thống.
Tiến hành đào tạo và định hướng sử dụng cho các lớp người sử dụng
Thực hiện quản trị hệ thống và những người sử dụng
Tiến hành sao lưu và backup thông tin.
Kiểm soát các dòng truy nhập và đảm bảo an toàn hệ thống.
đảm bảo quá trình có thể xử lí từng bộ phận của hệ thống và các thành phần của nó
Hệ thống kho dữ liệu là một hệ thống phức hợp bao gồm những thành phần bao quát nhiều lĩnh vực khác nhau. Thông thường các nguồn dữ liệu chạy trên các máy mainframe hay ở các superserver, data mart chạy trên các serverr,còn những câu hỏi,yêu cầu người sử dụng và các công cụ xử lí phân tích trực tuyến(OLAP) chạy ở các trạm workstation. Liên kết tất cả các thành phần đó là mạng truyền tin:
*Các nguồn dữ liệu được tổ chức lưu trữ bằng kỹ thuật phi quan hệ như IMS hoặc kỹ thuật quan hệ như DB2.
*Tích luỹ kho dữ liệu trên các máy mainframe hoặc trên các servêr với các quan hệ quản trị CSDL quan hệ, như: DB2, Oracle, Sybase hoặc informix.
*Tích luỹ các công cụ truy nhập trên các máy desktop với các hệ, như: Microsft Access hoặc đói với CSDL nhiều chiều nhưlà RedBrick.
*Hệ điều hành của các máy mainframe thường là: UNIX, OS/2,NT, các workstation thường sử dụng OS/2, NT hoặc Micrsoft Windows.
IV. Thực hành xây dựng mô hình sử dụng kho dữ liệu để nghiên cứu thị trường
Mỗi kho dữ liệu trong từng công ty sẽ phục vụ tốt nhất cho việc ra quyết định nhưng không phải cứ truy nhập vào kho dữ liệu là chúng ta có thể trả lơì được tất cả các câu hỏi trong mọi lĩnh vực, mà mỗi kho dữ liệu sẽ phục vụ tốt nhất cho một lĩnh vực cụ thể ví dúau đây là mô hình sử dụng kho dữ liệu để nghiên cứu thị trường:
Những yêu cầu về các lĩnh vực mà câu hỏi của người sử dụngđề cập đến :đó là những tình huống ông việc gồm cả thuật ngữ như hoá đơn bán hàng, giao hàngvà những đơn vị liên quan ví dụ như phòng ban xí nghiệp, công ty khách hàng…
Những yêu cầu cần báo cáo, những công việc, sự kiện cần tổng kết đánh giá theo những khoảng thời gian thông thường cần làm báo cáo như nngày, tuần, tháng, quý, năm…
Ngoài ra người sử dụng còn có thể xác định các yêu cầu về dữ liệu ,kiều dữ liệu cần thiết để phân tích và thực hiện những công việctính toán xử lí sau khi chúng được kết xuất từ hệ thống kho dữ liệu:
Người sử dụng nhiều khi cần phân tích dữ liệu theo nhiều chiều khác nhau, khai thác dữ liệu còn bị dấu kín, xây dựng các mô hình tác nghiệp như sử dụng các bảng tính điện tử chẳng hạn, theo dõi sự biến đổi dữ liệu hay có thể cập nhật cục bộ hoặc cần nhìn vào hệ thống kho dữ liệu theo
Bảng tính quan hệ, nhiều chiều, bảng biểu và các báo cáo.
Tình hình
Thực tế
Hệ thống quản lý
Cần thêm thông tin
định hướng mục đích
Nhận xét theo kinh nghiệm và cảm nhận
Kinh nghiệmvà tri thức
Tập hợp dữ liệu
Giới thiệu minh hoạ
Người ra quyết định giaodiện giữa người sử dụng người sử dụng
Và công cụ kho dữ liệu
Nhận
Thức
Chọn và xác lập câu hỏi
Phân
tích
Sử dụng kho dữ liệu
Lựa
chọn
điều chỉnh và thực hiện
Tổng hợp và giao diện
Mô hình kho dữ liệu để nghiên cứu thị trường
1. Tình hình thực tế
* Những người cung ứng: là các doanh nhgiệp hay các cá nhân đảm bảo cung ứngcác yếu tố cần thiết cho công ty và các đối thủ cạnh tranh để có thể sản xuất ra hàng hoá và dịch vụ nhất định
* Các trung gian marketing
Đó là các tổ chức nghiệp vụ các doanh nghiệp khác và các cá nhân giúp cho công ty tổ chức tốt việc tiêu thụ hàng hoá, dịch vụ của mình tới người mua cuối cùng
* Khách hàng
là đối tượng mà doanh nghiệp phục vụ, là yếu tố quyết định sự thành công hay thất bại của doanh nghiệp vì khách hàng tạo ra thị trường, quy mô khách hàng tạo nên quy mô thị trường, bao gồm thị trường người tiêu dùng, thị trường khách hàng là các doanh nghiệp, thị trường buôn bán trung gian, thị trường các cơ quan của đảng nhà nước
*Đối thủ cạnh tranh : chúng ta phảI đối đầu với các đối thủ cạnh tranh khác nhau đó là cạnh tranh mong muốn, cạnh tranh giữa các loại sản phẩm khác nhau, cạnh tranh trong cùng loại sản phẩm, cạnhtranh giữa các nhãn hiệu
2. Hệ thống quản lí
*Hệ thống thông tin bán hàng :
Nhân viên bán hàng thực hiện hàng loạt hoạt động bán hàng như xác định khách hàng tiềm năng, tạo mối liên hệ với khách hàng, bán hàng trọn gói và theo dõi bán hàng : hệ thống thông tin khách hàng tương lai, hệ thống thông tin hỏi đáp khiếu lại, hệ thống thông tin tài liệu, hệ thống thông tin bán hàng qua điện thoại , hệ thống thông tin gửi thư trực tiếp
*Hệ thống thông tin phân phối : Một doanh nghiệp có thể lựa chọn để sử dụng cáchệ thống phân phối thông dụng hiện có cho các sản phẩm hoặc dịch vụ của mình hoặc tự xây dựng nên hệ thống phân phối cho khách hàng của riêng mình nhưngười dù sao cũng phải lần theo đường đi của sản phẩm dịch vụ nó đảm bảo cho việc giảm thời gian và sửa chữa những sai sót để đạt được tốc độ phân phối cao đem lại hiệu quả trong việc tiêu thụ hàng hoá kế toán tài chính tác nghiệp hỗ trợ, hệ thống thông tin hàng tồn kho, hệ thống thông tin tín dụng
3. Thêm thông tin
Môi trường kinh tế: ảnh hưởng tới nguồn lực cho cả đầu vào và đầu ra cho tiêu thụ sản phẩm
Môi trường công nghệ kĩ thuật: những nhân tố gây tác động đến công nghệ mới, sáng tạo ra sản phảm và những cơ hội thị trường mới.
Môi trường chính trị: những yếu tố có ảnh hưởng mạnh tới các quyết định, đó là hệ thống pháp luật, hệ thống công cụ chính sách của nhà nước và cơ chế điều hành của chính phủ
Môi trường văn hoá: là hệ thống giá trị,niềm tin và các chuẩn mực hành vi đơn nhất của một tập hợp rộng lớn dân cư đó là những giá trị văn hoá truyền thống căn bản, những giá trị văn hoá thứ phát, các nhánh văn hoá của một nền văn hoá
4. Các quyết định
Quyết định thị trường tiêu thụ sản phẩm: phù hợp với nhu cầu với mặt hàng chúng ta đang có và có thể bán với giá tốt nhất có thể
Quyết định phương thức tiêu thụ: bán rộng khắp hay bán có địa đIúm có chọn lọc, theo đối tượng cụ thể hay tràn lan
Quyết định về giá
Quyết định về kích thích mua hàng như khuyến mại, tặng thêm…
Quyết định sản xuất: tiếp tục mở rộng hay dừng, duy trì
Quyết định khác: liên kết, quảng cáo…
5. Thông tin lấy từ kho dữ liệu trong nghiên cứu thị trường
Các tài liệu thứ cấp:đó là những thông tin được thu nhập trước đây nó có thể còn có ý nghĩa phản ánh điều gì đó bao gồm nguồn tàI liệu bên trong. Báo cáo về lỗ lãi,báo cáo về chào hàng; nguồn tàI liệu bên trong là các ấn phẩm của các cơ quan, sách báo thường kì, sách chuyên nghành,dịch vụ và các tổ chức thương mại
Tài liệu sơ cấp đó là những thông tin được thu thập lần đầu với những thông tin gần và chính xác nhất thông qua các cuộc phỏng vấn : quan sát, thực nghiệm, điều tra, phiếu điều tra hay bảng câu hỏi, chọn mẫu điều tra
Phân tích thông tin thu được để có những thông tin có tính tập trung hơn giúp ra quyết định cuối cùng
Tài liệu tham khảo
Giáo trình “Hệ thống thông tin quản lí”Ts Trần Thị Song Minh; Ts Trương Văn Tú
Giáo trình “Cơ Sở dữ liệu ” Ts Trần Công Uốn
Giáo trình “Cơ Sở lí thuyết và thực hành” Nguyễn Bá Tường
Giáo trình “Marketing căn bản” Ts Trần Minh Đạo
Mạng Internet
C Lời cảm ơn
Em xin chân thành cảm ơn các thầy các cô đã góp ý giúp em hoàn thành đề án này, đặc biệt là cô giáo Trần Thị Song Minh người trực tiếp giao và đồng thời hướng dẫn em tìm tài liệu để nghiên cứu. Nhân đây em gửi lời cảm ơn tới sự nhiệt tình trao đổi của bạn bè,của thư viện trường đại học kinh tế quốc dân và các tác giả của những cuốn giáo trình tham khảo. Sau khi hoàn thành đề án em đã có thêm được thật nhiều hiểu biết về vấn đề, phương thức lưu trữ dữ liệu tầm quan trọng của nó: biến những thông tin cứng nhấc, khô khan thành các thông tin quan trọng có ý nghĩa hơn cho việc ra quyết định; từ một tập hợp dữ liệu hỗn độn lấy từ rất nhiều nguồn khác nhau được xử lí sắp xếp triết xuất thành các thông tin giá trị hơn, chuyên dụng hơn. Chúng ta có thể giảm thiểu thời gian tối đa trong việc tìm kiếm, trích rút dữ liệu bất kì khi nào cần thiết, điều đó đồng nghĩa với việc giảm thiểu số lượng cán bộ quản lí, làm cho bộ máy hành chính gọn nhẹ đi rất nhiều khắc phục được nhược điểm trong cách quản lí tổ chức của nước ta hiện nay.
Một lần nữa em xin chân thành cảm ơn!
Sv: Ngô Ngọc Quân
Các file đính kèm theo tài liệu này:
- 35349.doc