Đề tài Phân tích so sánh quá trình tìm tin trong sơ đồ thuận và sơ đồ đảo
ĐẶT VẤN ĐỀ
Hiện nay khi nền kinh tế càng phát triển, kéo theo đó là sự phát triển của nền khoa học công nghệ và sự nắm bắt thông tin một cách nhanh nhạy.Chỉ khi có được những điều đó chúng ta mới làm chủ được mọi thứ,làm chủ sự thành công .Người ta thường nói người có thông tin là người chiếm lĩnh sự chiến thắng.Trong xã hội ngày nay việc nắm giữ thông tin là một điều hết sức cần thiết và quan trọng,bởi có như thế chúng ta mới làm chủ được sự phát triển nhanh chóng của xã hội thông tin trong thời đại ngày nay
MỤC LỤC
NỘI DUNG VẤN ĐỀ
I. So sánh quá trình tìm tin trong sơ đồ thuận (Linear schema), sơ đồ đảo (Invert schema)
1. Điểm giống nhau
2. Điểm khác nhau
3. Điểm khác nhau
II. Ví dụ minh hoạ
1. Tìm tin theo sơ đồ thuận (Linear schema)
2. Tìm tin trong sơ đồ Đảo (Invert schema)
KẾT THÚC VẤN ĐÊ
19 trang |
Chia sẻ: maiphuongtl | Lượt xem: 1989 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Đề tài Phân tích so sánh quá trình tìm tin trong sơ đồ thuận và sơ đồ đảo, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Đại Học Quốc Gia Hà Nội
Trường Đại Học Khoa Học Xã Hội Và Nhân Văn
Khoa Thông tin thư viện
---------------
Bài kiểm tra giữa kỳ
Môn: Quá trình hệ thống thông tin
Phân tích so sánh quá trình tìm tin trong sơ đồ thuận và sơ đồ đảo
ĐẶT VẤN ĐỀ
Hiện nay khi nền kinh tế càng phát triển, kéo theo đó là sự phát triển của nền khoa học công nghệ và sự nắm bắt thông tin một cách nhanh nhạy.Chỉ khi có được những điều đó chúng ta mới làm chủ được mọi thứ,làm chủ sự thành công .Người ta thường nói người có thông tin là người chiếm lĩnh sự chiến thắng.Trong xã hội ngày nay việc nắm giữ thông tin là một điều hết sức cần thiết và quan trọng,bởi có như thế chúng ta mới làm chủ được sự phát triển nhanh chóng của xã hội thông tin trong thời đại ngày nay
Nội Dung Vấn Đề
Để thực hiện được quá trình tìm tin hình thức hoá cần có 3 tiền đề sau:
* Có một không gian tìm tin
Là cấu trúc có tổ chức lưu giữ các thực thể, đối tượng thông tin được quản trị trong hệ thống như sách, báo, tạp chí, bài trích, luận án, luận văn… Để lưu giữ các đối tượng thông tin này, tổ chức lưu giữ trên các file dữ liệu khác nhau:
+ File thuận
+ File đảo
+ File kép
Để hình thành không gian lưu trữ thông tin cần:
+ Tập hợp các thực thể cần quản trị
+ Tập hợp các thuộc tính
+ Mối quan hệ giữa từng thực thể được quản trị với các thuộc tính trong lĩnh vực đó
+ Xây dựng ma trận tư liệu
+ Hình thành sơ đồ tổ chức thông tin
* Có câu hỏi tìm
Để tìm kiếm thông tin trong hệ thống tìm kiếm đòi hỏi phải có định hướng cuộc tìm, thể hiện qua các câu hỏi tìm.
Câu hỏi tìm của người dùng tin là sự biểu đạt bằng lời hoặc một văn bản đề cập đến những chủ đề mà người dùng tin quan tâm. Đây chính là các điểm truy cập được thực hiện trong quá trình tìm kiếm và so sánh.
Một câu hỏi tìm có thể có một hay nhiều điểm truy cập. Trong trường hợp có một điểm truy cập thì câu trả lời đơn giản. Khi số điểm truy cập có từ hai trở lên thì câu hỏi tìm phức tạp. Trong trường hợp này, các điểm truy cập phải kết nối với nhau thông qua toán tử logic.
* Thủ tục so sánh ngữ nghĩa
Quá trình tìm tin là quá trình thuần tuý mang tính kỹ thuật, so sánh dấu hiệu của thực thể này với thực thể khác hoặc so sánh tập hợp dấu hiệu của thông tin này với tập hợp dấu hiệu của thông tin khác
Qua việc phân tích,so sánh 2 ví dụ sau chúng ta sẽ hiểu rõ vấn đề:
I. So sánh quá trình tìm tin trong sơ đồ thuận (Linear schema), sơ đồ đảo (Invert schema)
2.1. Điểm giống nhau
Như ta đã biết, các đối tượng thông tin được lưu giữ trên các file dữ liệu khác nhau: File Thuận, file Đảo. Tuy nhiên, để hình thành không gian lưu trữ thông tin chúng ta cần thực hiện các bước sau đối với bất kì một file dữ liệu nào, đó là:
* Step 1: Tập hợp các thực thể cần quản trị
* Step 2: Tập hợp các thuộc tính
* Step 3: Mối quan hệ giữa các thực thể được quản trị với các thuộc tính trong lĩnh vực đó.
* Step 4: Xây dựng ma trận tư liệu
* Step 5: Hình thành sơ đồ tổ chức thông tin
Quá trình tìm tin hình thức thực chất là tập hợp các công đoạn kĩ thuật và logic. Vì vậy để phân tích quá trình tìm tin này ở trong sơ đồ Thuận, Đảo chúng ta sẽ lần lượt khảo sát theo 5 phương diện sau:
Xem cuộc tìm đó thực hiện thành bao nhiêu bước? có những bước gì? (Stages - Steps)
Đường tìm tin? (Retrieval path)
Phép tìm đơn vị (kĩ thuật, logic - ROU)? mất bao nhiêu ROU? Và ROU là gì?
Công thức tổng quát để tính cuộc tìm đó như thế nào (Fomulate)? Khảo sát xem tham số gì chi phối cuộc tìm đó?
Đánh giá, kết luận về cuộc tìm (Conclusion or Coment)?
Với 5 bứoc đi và 5 phương diện của quá trình tìm tin chúng ta có thể dễ dàng khảo sát cuộc tìm trên các sơ đồ tìm tin: sơ đồ Thuận (Linear schema), sơ đồ Đảo (Invert schema). Đó là những điểm giống nhau căn bản của các sơ đồ tìm tin mà từ đó giúp hệ thống nhận biết và truy xuất ra các thực thể thoả mãn yêu cầu tin của người dùng.
2.2. Điểm khác nhau
Bên cạnh những điểm giống nhau trong quá trình tìm tin như trên thì cuộc tìm trong 2 file: Thuận, Đảo, cũng có những điểm khác nhau căn bản như sau:
Schema
Aspects
Linear (File Thuận)
Invert (File Đảo)
1. Conceptual
(Bướcý niệm)
Là sơ đồ tổ chức thông tin theo thực thể, tức là sau mỗi thực thể sẽ liệt kê các thuộc tính của thực thể đó. Thực thể ở đây là các tài liệu được phản ánh. Thuộc tính là chủ đề của tài liệu được rút ra trong quá trình Indexing.
Di :: = m
i = ; j = `
Tj :: = n
i = ; j = Là sơ đồ được tổ chức theo thuộc tính, tức là sau mỗi thuộc tính sẽ liệt kê những thực thể chứa thuộc tính đó.
2.3. Điểm khác nhau
Bên cạnh những điểm giống nhau trong quá trình tìm tin như trên thì cuộc tìm trong 2 file: Thuận, Đảo, cũng có những điểm khác nhau căn bản như sau:
Schema
Aspects
Linear (File Thuận)
Invert (File Đảo)
2. Stages
(Bước tìm)
Cuộc tìm này thực hiện một bước tìm duy nhất (Tuần tự so sánh yêu cầu tin với từng tài liệu được quản trị trong hệ thống.)
Cuộc tìm này phải thực hiện 2 bước:
Bước 1: Truy cập vào các điểm truy cập có trong biểu thức tìm (access point) để thu được các tài liệu theo các điểm truy cập.
Bước 2: Thực hiện phép toán logic để tìm ra tập hợp tài liệu được quản trị trong hệ thống phù hợp với yêu cầu tin của biểu thức tìm.
3. ROU/Path
(Bước tìm đơn vị)
Thực hiện ROU kĩ thuật
Thực hiện ROU kĩ thuật và ROU logic.
4. Fomulate
(Công thức tổng quát)
VL = n ROU
VL: Tốc độ cuộc tìm trong file Thuận
n: Số thực thể được quản trị trong hệ thống.
VI = (2TQ – 1) ROU
VI: Tốc độ cuộc tìm trong file Đảo.
TQ: Số thuật ngữ có trong câu hỏi tìm.
5. Document Matrix
(Ma trận tư liệu)
T
D
T1 …………….Tm
D1
:
:
:
:
:
Dm
T: Thuộc tính
D: Thực thể (Tài liệu)
TD: Giá trị ma trận (Value)
T
D
T1
……
Tm
D1
:
:
:
:
:
Dm
T: Thuộc tính
D: Thực thể (Tài liệu)
TD: Giá trị ma trận (Value)
6. Conclusion or Coment
(Kết luận, đánh giá, nhận xét)
- Tốc độ cuộc tìm trong sơ đồ thuận chậm vì cuộc tìm phải quét toàn miền dữ liệu.
- Tính hữu ích của cuộc tìm không cao
- Tốc độ cuộc tìm trong sơ đồ đảo nhanh hơn vì cuộc tìm có định hướng.
- Tính hữu ích của cuộc tìm cao.
Như vậy qua sự so sánh những đặc điểm giống nhau và khác nhau của 2 phương thức tìm tin trong hệ thống thông tin ta thấy rằng: Mỗi phương thức (cuộc tìm được thực hiện trên các sơ đồ: Đảo, Thuận.) đều có những ưu điểm và nhược điểm nhất định. Để có một kết quả cuộc tìm tối ưu, thoả mãn các yêu cầu của bài toán tìm tin đưa ra thì tuỳ vào từng trường hợp cụ thể mà ta nên lựa chọn phương thức tìm tin phù hợp nhất. Như vậy sẽ làm giảm đại lượng nhiễu tin và mất tin của bài toán đưa ra để thoả mãn nhu cầu tin của người sử dụng và hệ thống tìm tin sẽ đạt tới trạng thái lí tưởng.
II. Ví dụ minh hoạ
Cho bài toán tìm tin sau:
Trong hệ thống có tập hợp gồm 06 tài liệu với những nội dung, chủ đề được mô tả như sau:
TQ1 :: =
TQ2 :: =
TQ3 :: =
TQ4 :: =
TQ5 :: =
TQ6 :: =
Yêu cầu tìm: “Hãy tìm các tài liệu về ngôn ngữ và con người”. Anh (chị) hãy thực hiện các trình tự tìm tin theo 2 sơ đồ: Thuận (Linear schema, Đảo (Invert schema)
Bài làm
Theo bài ra ta có không gian tài liệu như sau:
● Step 1: Tập hợp các thực thể cần quản trị
TQ1 :: =
TQ2 :: =
TQ3 :: =
TQ4 :: =
TQ5 :: =
TQ6 :: =
● Step2: Các thuộc tính, chủ để (subjects)
A1 ÷ Việt nam
A2 ÷ Văn hóa
A3 ÷ Đa dạng
A4 ÷ Ngôn ngữ
A5 ÷ Con người
A6 ÷ Đất nước
● Step3: Mối quan hệ giữa các thực thể được quản trị trong hệ thống với các thuộc tính trong lĩnh vực đó
TQ1 :: =
TQ2 :: =
TQ3 :: =
TQ4 :: =
TQ5 :: =
TQ6 :: =
● Step4: Xây dựng ma trận tư liệu (Doccument matrix)
A
TQ
A1
A2
A3
A4
A5
A6
TQ1
1
1
1
1
0
0
TQ2
1
0
0
1
1
0
TQ3
0
1
0
1
1
0
TQ4
1
1
0
1
0
0
TQ5
0
0
1
0
1
1
TQ6
1
0
0
1
0
1
A: Tập hợp các thuộc tính
A :: =
TQ: Tập hợp các thực thể
TQ :: =
Giá trị (Value):
1: Khi thực thể chứa thuộc tính
0: Khi thực thế không chứa thuộc tính
* Step5: Hình thành sơ đồ tổ chức thông tin
Theo đề bài yêu cầu ta có 3 sơ đồ tổ chức thông tin là:
- Sơ đồ Thuận (Linear schema)
- Sơ đồ Đảo (Invert schema)
Quá trình tổ chức tìm tin theo 2 dạng sơ đồ trên được thực hiện theo trình tự sau:
Từ yêu cầu tin của bài toán đưa ra ta có các điểm truy cập là:
Ngôn ngữ
Con người
Từ đó ta xác định được biểu thức tìm tin:
Ngôn ngữ * Con người (hay: A4 * A5)
Với điều kiện bài toán như vậy, ta tiến hành khảo sát trên 5 phương diện, kết quả cuối cùng của cuộc tìm là đưa ra những thực thể được quản trị trong hệ thống mà có kết quả phù hợp với nội dung của yêu cầu tìm. Có nghĩa là hệ thống phải đưa ra những tài liệu mà trong đó bao gồm những chủ đề là: “Ngôn ngữ - Con người”.
1. Tìm tin theo sơ đồ thuận (Linear schema)
Conceptual layer: Cuộc tìm trong sơ đồ thuận là đi từ thực thể đến thuộc tính, nghĩa là sau mỗi thực thế người ta liệt kê ra những thuộc tính có liên quan.
Physical layer:
Yêu cầu tìm
A4 * A5
TQ1 A1, A2, A3, A4
TQ 2, TQ 3
thoả mãn
TQ 2 A1, A4, A5
TQ 3 A2, A4, A5
TQ 4 A1, A2, A4
TQ 5 A3, A5, A6
TQ 6 A1, A4, A6
Trình tự cuộc tìm diễn ra như sau:
● Stages: (Bước tìm):
Để thực hiện cuộc tìm này, trong sơ đồ thuận thực hiện việc tuần tự so sánh nội dung của biểu thức tìm tin với từng tài liệu được quản trị trong sơ đồ thuận của hệ thống. Cuộc tìm như vậy chỉ thực hiện một bước duy nhất để thu được kết quả thoả mãn yêu cầu tìm.
● Path: (Đường tìm tin)
Tuần tự so sánh yêu cầu tìm: A4 *A5 với từng thực thể trong tập hợp TQ: =
Con đường tìm là sự kết nối, sự vận động giữa các dữ liệu được quản trị trong sơ đồ thuận của hệ thống, đưa đến kết quả cuối cùng là những tập hợp thoả mãn yêu cầu đề bài:
TQ 2 :: =
TQ 3 :: =
● ROU: (Phép tìm đơn vị)
Cuộc tìm chỉ thực hiện các phép toán kĩ thuật, không thực hiện các phép toán logic.
Với biểu thức tìm đã cho cuộc tìm mất 6 ROU kĩ thuật và 0 ROU logic.
● Fomulate: (Công thức tổng quát)
VL = n ROU (n: Là số thực thể được quản trị trong hệ thống)
Nhân tố quyết định, chi phối tốc độ tìm trong sơ đồ thuận là số lượng các thực thể được quản trị trong hệ thống. Do vậy với 06 thực thể được quản trị trong hệ thống thì cuộc tìm trong sơ đồ thuận mất 6 ROU kĩ thuật.
● Conclusion or coment: (Nhận xét, đánh giá)
Trình tự tìm tin trong sơ đồ thuận đưa đến kết cục được xảy ra trong toàn bộ không gian dữ liệu được lưu giữ, quản trị trong hệ thống.
Như vậy, rõ ràng nguồn dữ liệu trong khi thực hiện cuộc tìm tin không trực tiếp, không liên quan đến câu hỏi tìm, điều này làm giảm đi hệ số hữu ích trong không gian tìm tin tại sơ đồ thuận. Và hệ quả của nó là làm cho cuộc tìm diễn ra một cách chậm chạp, chi phí cho các ROU cần thiết cho việc tìm cụ thể là rất lớn. Chính vì vậy mà hiệu quả tìm tin trong sơ đồ thuận là rất thấp.
Để cải thiện cuộc tìm tin trong sơ đồ thuận, có các giải pháp sau:
- Tác động vào không gian tìm tin bằng cách phân giã sơ đồ thuận thành các sơ đồ con
- Tác động vào miền áp dụng của cơ quan thông tin. Thông thường thường được áp dụng trong khu vực, lĩnh vưc mà nhu cầu, mức độ, cường độ tìm kiếm thông tin cao.
2. Tìm tin trong sơ đồ Đảo (Invert schema)
Conceptual layer: Sơ đồ đảo là sơ đồ được tổ chức theo thuộc tính, tức là sau mỗi thuộc tính sẽ liệt kê các thực thể của thuộc tính đó.
Physical layer:
Yêu cầu tìm
A4*A5
A1 TQ 1, TQ 2,
TQ 4, TQ 6
Biểu thức tìm:
A4 *A5
TQ1
TQ2
TQ3
TQ4
TQ6
TQ 2
TQ 3
TQ2
TQ3
TQ5
Thoả mãn
A2 TQ 1, TQ 3
TQ 4
A3 TQ 1,TQ 5
A4 TQ 1, TQ 2, TQ3
TQ4, TQ6
A5 TQ 2, TQ 3,
TQ 5
A6 TQ 5, TQ 6
Trình tự cuộc tìm diễn ra như sau:
● Stages: (Bước tìm):
Cuộc tìm trong sơ đồ đảo được thực hiện chia thành 2 bước
Bước 1: Thông qua việc truy cập vào sơ đồ đảo theo các điểm truy cập có trong biểu thức tìm, ta sẽ thu được các tập hợp tài liệu theo yêu cầu.
Bước 2: Tuần tự thực hiện các phép toán logic ta sẽ thu được tập hợp cuối cùng là tập hợp kết quả chứa những tài liệu được quản trị trong hệ thống phù hợp với yêu cầu tìm.
● Path: (Đường tìm tin)
Thực hiện truy cập vào các thuật ngữ (access points) tại không gian tìm trong sơ đồ đảo ta thu được 3 tập hợp sau:
- Tập hợp về Ngôn ngữ:
A4 :: =
- Tập hợp về Con người:
A5 :: =
Thực hiện các phép toán logic trên 2 tập hợp tài liệu thu được ở trên ta được kết quả thoả mãn yêu cầu bài toán là 2 thực thẻ: TQ2, TQ3.
Ta có sơ đồ Venn của quá trình tìm tin trong sơ đồ Đảo:
Ngôn ngữ * con người (A4 * A5)
Con người
Ngôn ngữ
● ROU: (Phép tìm đơn vị)
Để thực hiện cuộc tìm trong sơ đồ đảo cần có 2 phép tìm dơn vị (2 loại ROU). Cụ thể:
Ở bước 1: Cần 2 ROU kĩ thuật
Ở bước 2: Cần 1 ROU logic
Như vậy ta mất 3 ROU cho cuộc tìm này trong sơ đồ đảo.
● Fomulate: (Công thức tổng quảt)
VI = (2TQ - 1)ROU
TQ: Thuật ngữ chủ đề
Cuộc tìm trong sơ đồ Đảo bị chi phối bởi tham số TQ, mà TQ phản ánh số thuật ngữ chủ đề có trong biểu thức tìm tin. Như vậy:
VI =(2*2 – 1) ROU = 3 ROU
● Conclusion or coment: (Đánh giá, nhận xét)
Cuộc tìm trong sơ dồ đảo được thực hiện không phải trên toàn bộ miền dữ liệu của không gian tìm mà hệ thống quản trị. Bằng thủ pháp truy cập có định hướng theo yêu cầu của người dùng tin, không gian thực tế của sơ đồ đảo chỉ xảy ra trên các miền hạn chế mà có nội dung trực tiếp liên đới tới chủ đề người dùng tin quan tâm. Do đó tính hữu ích cuộc tìm rất cao, tốc độ tìm được cải thiện đáng kể so với sơ đồ Thuận.
KẾT THÚC VẤN ĐÊ
Qua việc phân tích, so sánh ví dụ trên ta thấy thông tin (information) đóng một vai trò rất quan trọng và hữu ích trong cuộc sống. Thông tin làm cho con người trở nên nhanh nhạy và xích lại gân nhau hơn.Việc năm bắt thông tin một cách nhanh nhạy sẽ mang đến những thành công tiên phong trong mọi lĩnh vực ,mọi thời đại.Giúp con người luôn nắm bắt được những đổi thay nhanh chóng của thời đại,làm chủ bản thân, làm chủ xã hội. Vì vậy việc phát hiện và thành lập ra bộ môn thông tin đã đánh dấu một bước đột phá rất lớn trong thời đại bùng nổ thông tin ngày nay, mang lại hiệu quả ứng dụng cao trong thực tiễn và cuộc sống
MỤC LỤC
Các file đính kèm theo tài liệu này:
- tv16et.doc