Mục lục
Mục lục 1
Chương 1. Tổng quan về khai phá dữ liệu Web và máy tìm kiếm. 4
1.1. Khai phá dữ liệu Web .4
1.1.1. Tổng quan về khai phá dữ liệu Web. 4
1.1.2 Các bài toán được đặt ra trong khai phá Web 5
1.1.3 Các lĩnh vực của khai phá dữ liệu Web 6
1.1.3.1 Khai phá nội dung Web (Web content mining): .6
1.1.3.2. Khai phá cấu trúc web (web structure mining): 6
1.1.3.3 Khai phá sử dụng web (web usage mining). 7
1.1.4. Khó khăn .7
1.1.4.1 Web dường như quá lớn để tổ chức thành kho dữ liệu phục vụ Dataming 7
1.1.4.2. Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản
truyền thống khác .8
1.1.4.3. Web là một nguồn tài nguyên thông tin có độ thay đổi cao 8
1.1.4.4. Web phục vụ một cộng đồng người dùng rộng lớn và đa dạng 8
1.1.4.5. Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích 9
1.1.5. Thuận lợi .9
1.2 Tổng quan về máy tìm kiếm 9
1.2.1 Nhu cầu: .9
1.2.2 Cơ chế hoạt động của máy tìm kiếm. 10
1.2.3 Cấu trúc điển hình của một máy tìm kiếm .11
Chương 3. Tổng quan về xử lý song song. 34
3.1 Máy tính song song .34
3.1.2 Phân loại máy tính song song 35
3.1.2.1 Phân loại dựa trên cơ chế điều khiển chung. 35
3.1.2.2 Cách phân loại dựa trên sự tương tác giữa các BXL 37
3.2 Mô hình lập trình song song 38
3.2.1 Mô hình nhiệm vụ - kênh liên lạc 38
3.2.1.1 Đặc điểm mô hình nhiệm vụ-kênh liên lạc .38
3.2.1.2 Đặc điểm của mô hình nhiệm vụ - kênh liên lạc. .39
3.2.2 Mô hình chia sẻ bộ nhớ chung .40
3.3. Hiệu năng của xử lý song song 40
3.3.1 Khả năng tăng tốc độ tính toán: .40
3.3.3 Cân bằng tải .43
3.3.4 Sự bế tắc .44
3.4 Môi trường lập trình song song .45
3.4.1 Mô hình MPI (Message Passing Interface). 46
3.4.2 PVM (Parallel Virtual Machine) 46
3.4.3 So sánh giữa MPI và PVM. .46
3.5 Giao thức truyền thông điệp MPI 47
Chương 2: Giới thiệu về module Crawler trong các máy tìm kiếm. 13
2.1 Tổng quan: .13
2.2 Cấu trúc cơ bản của một crawler .15
2.2.1 Frontier .16
2.2.2 History và kho chứa trang web. .17
2.2.3 Tải các trang web (fetching). .18
2.2.4 Duyệt nội dung (parsing). 19
2.2.4.1. Quá trình lấy ra và chuẩn hóa các URL .20
2.2.4.2 Loại bỏ các từ dừng và chuyển các dạng thức của từ sang dạng gốc .21
2.2.4.3 Xây dựng cây các thẻ HTML .21
2.3 Các crawler đa luồng (Multi-threaded crawlers). .22
2.4. Các thuật toán crawling 24
2.4.1 Thuật toán Naïve tốt nhất đầu tiên .24
2.4.2 Thuật toán SharkSearch. 25
2.4.3 Crawler có trọng tâm (focused crawler). .26
2.3.4 Các crawler tập trung theo ngữ cảnh (context focused crawler). 27
2.4. Các tiêu chuẩn đánh giá các crawler 29
2.4.1 Độ quan trọng của trang web. 29
2.4.2 Các phân tích tổng hợp .31
Chương 4. Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song
song hóa. 50
4.1 Giới thiệu chung về máy tìm kiếm ASPseek. .50
4.1.1 Một số tính năng của ASPseek. .50
4.1.2 Các thành phần của ASPseek .51
a. Module đánh chỉ số (indexing). 51
b. Module tìm kiếm (searchd) .52
c. Module tìm kiếm s.cgi. .52
4.2 Cấu trúc cơ sở dữ liệu trong máy tìm kiếm ASPseek. 52
4.2.1 Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek 53
4.2.2 Cấu trúc một số file nhị phân trong cơ sở dữ liệu của ASPseek .56
4.2.2.1 Cấu trúc các file nhị phân trong thư mục xxw: 56
4.3 Tìm hiểu về việc thực thi quá trình crawler trong module index của máy tìm
kiếm VietSeek. 60
4.3.1Quá trình crawler trong ASPseek. 60
4.3.2 Đề xuất giải pháp song song hóa .63
4.3.2.1 Giải pháp song song hóa .63
4.3.2.2 Cơ chế phân công công việc giữa các bộ xử lý. .65
4.3.2.3 Tổng hợp kết quả sau quá trình song song: 65
4.3.2.4 Vấn đề tương tranh giữa các bộ xử lý: .66
4.3.2.5 Đánh giá giải pháp song song hóa. .66
4.3.3.
Tài liệu tham khảo: .68
Phụ lục: Một số hàm bổ sung trong Môđun indexing song song hóa
68 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2072 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Đề tài Khai phá dữ liệu Web và máy tìm kiếm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ị trí khác nhau trong bộ nhớ bởi
nhiều BXL. Có hai cách tiếp cận chủ yếu để xử lý vấn đề truy nhập bộ nhớ là sử dụng
hệ thống chuyển mạch (switching systems) hoặc các BXL truy nhập bộ nhớ thông qua
bus hệ thống.
Đối với các hệ thống truy nhập bộ nhớ thông qua bus chung, việc thiết lập tương
đối đơn giản, song nếu có nhiều BXL cùng truy nhập bộ nhớ thì bus có thể trở thành
nút cổ chai. Bởi vậy số lượng BXL trong các hệ thống này thường tương đối nhỏ và
cao nhất chỉ khoảng vài chục BXL.
Một khó khăn khác của các hệ thống này là thời gian truy nhập bộ nhớ sẽ không
cao và không đồng bộ. Tuy nhiên việc sử dụng kiến trúc này khiến cho việc thiết kế
giải thuật trở nên đơn giản bởi hệ thống được xử lý như là tất cả các BXL đều được
nối trực tiếp với nhau.
b. Truyền thông điệp
Ngược lại với các máy tính chia sẻ bộ nhớ chung là các máy tính song song có bộ
nhớ phân tán, mỗi BXL có bộ nhớ cục bộ riêng. Với kiến trúc này, việc mở rộng các
Bộ xử lý 1 Bộ xử lý 2 Bộ xử lý n .....
BỘ NHỚ CHUNG
Hình 3.4: Máy tính song song chia sẻ bộ nhớ chung
máy tính trong hệ thống là khá dễ dàng, các nhà thiết kế có thể đưa ra các hệ thống với
hàng nghìn BXL mà không phải thay đổi nhiều trong cấu trúc thiết kế. Trong các hệ
máy tính song song có bộ nhớ phân tán, các BXL liên lạc với nhau bằng các thông
điệp (message) qua một mạng liên kết (interconnection network) gồm các liên kết
truyền thông trực tiếp giữa một số cặp BXL.
3.2 Mô hình lập trình song song
3.2.1 Mô hình nhiệm vụ - kênh liên lạc
3.2.1.1 Đặc điểm mô hình nhiệm vụ-kênh liên lạc.
Mô hình nhiệm vụ – kênh liên lạc có thể được tóm tắt như sau:
- Một công việc tính toán song song bao gồm một hoặc nhiều nhiệm vụ. Các
nhiệm vụ có thể được thực hiện đồng thời. Số lượng nhiệm vụ có thể thay đổi trong
thời gian thực thi chương trình.
- Mỗi nhiệm vụ là một chương trình tuần tự và có bộ nhớ cục bộ. Một tập các
cổng vào và cổng ra (inport, outport) được định nghĩa như là giao diện của nó với môi
trường.
- Một nhiệm vụ có thể thực hiện 4 thao tác cơ bản ngoài việc đọc và ghi vào bộ
nhớ cục bộ, đó là: gửi thông điệp tới các cổng ra, nhận thông điệp từ các cổng vào, tạo
ra nhiệm vụ mới và kết thúc việc thực thi chương trình.
- Thao tác gửi dữ liệu là không đồng bộ (nó được hoàn thành ngay lập tức). Thao
tác nhận dữ liệu là đồng bộ theo nghĩa nó bắt việc thực thi nhiệm vụ phải dừng lại cho
tới khi nhận được thông điệp.
Process1
Memory 1
Process1
Memory 1
Process1
Memory1
.....
Hình 3.5: Máy tính song song có bộ nhớ phân tán
- Các cặp cổng vào/ cổng ra có thể được nối bởi một hàng thông điệp được gọi là
một kênh liên lạc. Các kênh liên lạc có thể được tạo ra hoặc xóa đi.
- Các nhiệm vụ được ánh xạ vào các BXL vật lý theo nhiều cơ chế khác nhau, cơ
chế ánh xạ được sử dụng không làm ảnh hưởng tới ngữ nghĩa của chương trình. Có thể
có nhiều nhiệm vụ được ánh xạ lên một BXL.
3.2.1.2 Đặc điểm của mô hình nhiệm vụ - kênh liên lạc.
a. Tốc độ
Các khái niệm về nhiệm vụ và kênh liên lạc có thể được ánh xạ trực tiếp lên mô
hình máy tính song song. Một nhiệm vụ đại diện cho một đoạn mã được thực hiện tuần
tự trên một BXL. Nếu hai nhiệm vụ liên lạc với nhau qua một kênh chung được ánh xạ
lên các BXL khác nhau thì kênh liên lạc giữa chúng được thể hiện như truyền thông
liên BXL, nếu chúng được ánh xạ lên cùng một BXL thì một cơ chế hiệu quả hơn có
thể được sử dụng.
b. Tính độc lập ánh xạ.
Trong mô hình trên, các nhiệm vụ tương tác với nhau sử dụng cùng một cơ chế là
kênh liên lạc không tính đến vị trí của nhiệm vụ. Do đó, kết quả đưa ra bởi chương
trình không phụ thuộc vào vị trí nhiệm vụ thực thi. Bởi vậy, việc thiết kế các giải thuật
song song có thể được thực hiện mà không cần tính đến số lượng BXL trong thực tế.
Thông thường, các thiết kế đều đưa đến số lượng nhiệm vụ tạo ra lớn hơn số lượng
BXL có, khi đó việc mở rộng (scalability) là khá dễ dàng. Việc tạo ra nhiều nhiệm vụ
hơn số BXL cũng cho phép giảm bớt chi phí truyền thông bởi khi một nhiệm vụ đang
truy nhập dữ liệu ở xa thì một nhiệm vụ khác có thể thực hiện công việc tính toán.
c. Tính module
Khi thiết kế chương trình theo hướng module, các thành phần của chương trình
có thể được phát triển như những module độc lập và sau đó được kết hợp lại để tạo
thành chương trình. Các module có thể được thay đổi mà không cần thay đổi các thành
phần khác. Các đặc tính của chương trình có thể được xác định từ đặc tả về các
module và mã lệnh nối các module. Việc áp dụng có hiệu quả các thiết kế module sẽ
giúp giảm bớt độ phức tạp của chương trình cũng như cho phép tái sử dụng mã lệnh.
Khái niệm một nhiệm vụ trong mô hình nhiệm vụ- kênh liên lạc phù hợp một
cách tự nhiên với một module trong quá trình thiết kế. Một nhiệm vụ ở đây bao gồm
cả mã lệnh và dữ liệu cần thao tác, các cổng mà nó gửi và nhận thông điệp tạo nên
giao diện của nó. Bởi vậy các ưu điểm của thiết kế module có thể được áp dụng trực
tiếp trong mô hình này.
d. Tính xác định
Một giải thuật hay một chương trình được coi là xác định nếu như sự thực thi với
một dữ liệu vào riêng biệt luôn đưa ra cùng một kết quả. Nếu giải thuật là không xác
định thì các lần thực thi khác nhau của chương trình sẽ cho ra những kết quả khác
nhau. Trong mô hình nhiệm vụ - kênh liên lạc mỗi kênh có một nhiệm vụ gửi và một
nhiệm vụ nhận, khi có yêu cầu nhận dữ liệu, các xử lý khác ở nhiệm vụ nhận phải
ngừng thực thi cho tới khi nhận được dữ liệu. Điều này đảm bảo cho tính xác định của
chương trình.
3.2.2 Mô hình chia sẻ bộ nhớ chung.
Trong mô hình bộ nhớ chung, các nhiệm vụ cùng chia xẻ một không gian địa chỉ
chung có thể được truy cập đọc ghi theo phương thức không đồng bộ. Các cơ chế khác
nhau như khóa (lock), semaphore được sử dụng để điều khiển việc truy nhập tới bộ
nhớ chung. Xét theo quan điểm của lập trình viên thì mô hình này có ưu điểm là không
có khái niệm sở hữu dữ liệu, nghĩa là không phải chỉ định rõ ràng quá trình truyền dữ
liệu giữa các nhiệm vụ. Tính chất này làm cho việc phát triển chương trình đơn giản
hơn. Tuy nhiên khi đó việc hiểu và đảm bảo tính cục bộ trở nên khó khăn, đây cũng là
vấn đề được chú ý nhiều nhất trong hầu hết các kiến trúc chia xẻ bộ nhớ chung. Điều
này làm cho việc viết các chương trình xác định cũng trở nên khó khăn.
3.3. Hiệu năng của xử lý song song
Phần này đề cập tới một số vấn đề liên quan tới hiệu năng của xử lý song song
bao gồm: khả năng tăng tốc độ tính toán, các chiến lược làm tăng tốc độ tính toán, sự
cân bằng tải và sự bế tắc.
3.3.1 Khả năng tăng tốc độ tính toán:
Việc song song hóa một chương trình nhằm làm cho chương trình đó chạy nhanh
hơn, tuy nhiên chương trình đó sẽ chạy nhanh hơn bao nhiêu lần? Định luật Amdahl’s
[] cho phép ta xác định điều này. Giả sử xét về khía cạnh thời gian chạy chương trình,
một phần p của chương trình có thể song song hóa và phần 1-p còn lại buộc phải chạy
tuần tự. Trong trường hợp lý tưởng, nếu thực thi chương trình sử dụng n bộ xử lý, thời
gian chạy chương trình sẽ là:
1-p + p/n
của thời gian chạy chương trình một cách tuần tự. Đây là hệ quả trực tiếp của
định luật Amdahl áp dụng cho trường hợp thực thi lý tưởng. Ví dụ: nếu 80% chương
trình có thể được song song hóa, và ta có 4 bộ xử lý, thời gian chạy song song sẽ là: 1
- 0.8 + 0.8/4 = 0.4 tức là bằng 40% thời gian chạy tuần tự.
Hình 3.6: Khả năng tăng tốc độ tính toán, trường hợp lý tưởng.
Đối với chương trình trên, thời gian chạy song song sẽ không thể nào nhỏ hơn
20% thời gian chạy tuần tự cho dù ta sử dụng số lượng vô cùng lớn các bộ xử lý. Định
luật Amdahl đã nêu lên tầm quan trọng của việc xác định các thành phần của chương
trình có thể được song song hóa để cực đại chúng. Hình xx thể hiện giới hạn trên của tỉ
lệ tăng tốc độ chương trình (1/(1-p)) với các giá trị khác nhau của p.
Hình 3.7: Giới hạn trên của khả năng tăng tốc độ chạy chương trình.
Tuy nhiên ví dụ trên chỉ là trường hợp lý tưởng hóa. Trên thực tế, khi chạy một
chương trình song song, thường xuất hiện các chi phí truyền thông và việc phân công
công việc không cân bằng giữa các bộ xử lý. Do đó thời gian chạy chương trình sẽ là:
Hình 3.8: Khả năng tăng tốc độ: trường hợp thực tế.
Do vậy để tăng tốc độ của chương trình ta cần:
- Tăng tỉ lệ (thành phần) được song song hóa của chương trình.
- Phân công công việc một cách công bằng cho các bộ xử lý.
- Giảm tới mức tối thiểu thời gian truyền thông.
3.3.3 Cân bằng tải
Giả sử rằng nếu dữ liệu được phân tán trên các bộ nhớ địa phương của các bộ xử
lý trong hệ thống nhiều máy tính, khi đó khối lượng công việc của các bộ xử lý cần
phải được phân phối hợp lý trong suốt quá trình tính toán. Trong nhiều trường hợp, giả
sử này là đúng, tuy nhiên trong thực tế điều này không phải lúc nào cũng thực hiện
được. Giải pháp được đưa ra ở đây là cân bằng tải động nhằm mục đích làm thay đổi
sự phân phối khối lượng công viêc giữa các bộ xử lý trong quá trình thực hiện tính
toán.
Thông thường sau khi phân phối khối lượng công việc cho các bộ xử lý, quá trình
cân bằng tải động thực hiện bốn bước cơ bản sau:
- Giám sát hiệu năng của các bộ xử lý.
- Trao đổi thông tin trạng thái giữa các BXL
- Tính toán và ra quyết định phân phối lại khối lượng công việc
- Thực hiện việc chuyển đổi dữ liệu thực sự.
Để thực hiện được điều này, rất nhiều thuật toán đã được đề xuất. Người ta phân
lớp các thuật toán này theo các chiến lược: tập trung, phân tán hoàn toàn (fully
distributed) và phân tán một nửa (semi distributed).
a. Các thuật toán cân bằng tải tập trung.
Các thuật toán này thường đưa ra quyết định có tính chất tổng thể trong việc phân
phối lại khối lượng công việc cho các bộ xử lý. Một vài thuật toán trong lớp này sử
dụng thông tin hệ thống có tính toàn cục để lưu trạng thái các máy tính riêng lẻ. Thông
tin này sẽ giúp thuật toán phân phối công việc một cách dễ dàng. Tuy nhiên, khối
lượng thông tin tăng theo tỉ lệ thuận với số lượng các BXL, do đó nó đòi hỏi khối
lượng lớn bộ nhớ trên một bộ xử lý để lưu thông tin trạng thái. Vì vậy thuật toán thuộc
lớp này không được tiếp cận một cách rộng rãi.
b. Các thuật toán cân bằng tải phân tán hoàn toàn
Trong các thuật toán dạng này, mỗi bộ xử lý có một bản sao về thông tin trạng
thái của hệ thống. Các bộ xử lý trao đổi thông tin trạng thái với nhau và sử dụng các
thông tin này để làm thay đổi một cách cục bộ việc phân chia công việc. Tuy nhiên các
bộ xử lý chỉ có thông tin trạng thái cục bộ nên việc cân bằng tải không tốt bằng các
thuật toán cân bằng tải tập trung.
c. Các thuật toán cân bằng tải phân tán một nửa.
Các thuật toán thuộc lớp này chia các bộ xử lý thành từng miền. Trong mỗi miền
sử dụng thuật toán cân bằng tải tập trung để phân phối công việc cho các bộ xử lý
thuộc miền đó.
3.3.4 Sự bế tắc.
Các tiến trình xử lý bị rơi vào tình trạng bế tắc nếu mỗi tiến trình đó nắm giữ
tài nguyên mà một vài tiến trình khác đang yêu cầu để xử lý. Lý do tiềm ẩn của sự bế
tắc là do nhiều tiến trình cùng sử dụng nguồn tài nguyên chung mà không có sự kiểm
soát tốt.
Đối với các hệ thống đa máy tính, một trong những sự bế tắc phổ biến nhất là
bế tắc vùng đệm (buffer deadlock) xảy ra khi một tiến trình đợi một thông điệp mà
thông điệp này có thể không bao giờ nhận được do vùng đệm đã đầy.
Ví dụ xét hệ thống đa máy tính với các bộ xử lý không đồng bộ. Bộ xử lý pi gửi
thông điệp cho bộ xử lý khác pj không kết khối cho tới khi có thao tác đọc thông điệp
đó. Mặt khác, khi bộ xử lý pi gửi thông điệp cho bộ xử lý pj, nội dung của thông điệp
được lưu trong vùng đệm của hệ thống cho tới khi pj nhận và đọc thông điệp. Giả sử
rằng trong cùng một thời điểm có nhiều bộ xử lý cùng gửi thông điệp tới pj và làm cho
vùng đệm bị đầy. Việc gửi thông điệp tiếp theo chỉ thực hiện khi bộ xử lý pj đọc một
hay nhiều thông điệp.
Đọc x từ Pk
Pj
Gửi x cho Pj
Pk
x
Hình 3.9: Bộ xử lý Pk kết khối để gửi x cho Pj, nhưng do vùng
đệm Pj đầy, Pj không thể nhận được x. Pj và Pk rơi vào bế tắc.
Giả sử bộ xử lý pk là một trong các bộ xử lý có khả năng gửi thông điệp đến bộ
xử lý pj. Nếu pj cố gắng đọc thông điệp do pk gửi đến, nó sẽ bị kết khối cho tới khi nội
dung thông điệp có trong vùng đệm. Rõ ràng bộ xử lý pk bị kết khối cho tới khi pj loại
bỏ một hay nhiều thông điệp từ vùng đệm, và như vậy pj và pk rơi vào bế tắc.
Theo kết quả nghiên cứu của Coffman và Denning, bốn điều kiện sau là nguyên
nhân gây ra bế tắc.
1. Sự loại trừ lẫn nhau: mỗi tiến trình có sự độc quyền trong việc sử dụng tài
nguyên của nó.
2. Không có sự ưu tiên: Mỗi tiến trình không bao giờ giải phóng tài nguyên mà
nó đang chiếm giữ cho tới tận khi không còn sử dụng chúng nữa.
3. Sự chờ đợi tài nguyên: mỗi tiến trình đang chiếm giữ tài nguyên trong khi lại
chờ đợi các tiến trình khác giải phóng chúng.
4. Sự chờ đợi giữa các tiến trình: tiến trình chờ đợi tài nguyên mà tiến trình kế
tiếp đang chiếm giữ mà tài nguyên đó không được giải phóng.
Một số giải pháp khắc phục sự bế tắc.
Cách tiếp cận thứ nhất là dò tìm sự bế tắc khi chúng xảy ra và cố gắng khôi phục
lại. Một cách khác để tránh bế tắc là sử dụng các thông tin yêu cầu tài nguyên của các
tiến trình để điều khiển sự phân phối để khi tiếp tục phân phối các tài nguyên không là
nguyên nhân để các tiến trình rơi vào bế tắc. Cách tiếp cận thứ ba là ngăn cấm không
để xảy ra điều kiện thứ 4 trong các điều kiện trên.
3.4 Môi trường lập trình song song.
Do yêu cầu ngày càng nhiều ứng dụng đòi hỏi phải xử lý nhanh và tiện lợi đã
thúc đẩy việc xây dựng các mô hình lập trình song song mới. Các môi trường mới này
sử dụng các ngôn ngữ bậc cao như Fortran, C, C++ tạo điều kiện thuận tiện cho người
lập trình điều khiển việc thực hiện các nhiệm vụ trong chương trình, đa dạng hóa cách
thức truyền thông giữa các nhiệm vụ.
Trong luận văn này, tôi xin trình bày một số môi trường lập trình phổ biến dựa
trên việc sử dụng bộ nhớ phân tán. Trong mô hình này, mỗi bộ xử lý có bộ nhớ cục bộ
riêng và không có sự chia sẻ. Kiến trúc này có khả năng mở rộng rất cao.
3.4.1 Mô hình MPI (Message Passing Interface).
MPI là chuẩn truyền thông điệp được phát triển bởi nhóm các nhà nghiên cứu từ
các phòng thí nghiệm, và các trường đại học. MPI sử dụng mô hình truyền thông giữa
các nhiệm vụ với nhau thông qua việc gửi các thông điệp. Mục tiêu của MPI là xây
dựng các môi trường lập trình có tính khả chuyển và hiệu năng cao.
Thư viện các hàm của MPI bao gồm rất nhiều hàm hỗ trợ cho việc truyền thông
giữa các nhiệm vụ trong chương trình song song.
Một chương trình song song viết trên môi trường MPI gồm nhiều nhiệm vu, các
nhiệm vụ này có thể giống hoặc khác nhau trong việc thực thi. Mỗi nhiệm vụ cần khai
báo trong môi trường MPI trước khi sử dụng các hàm thư viện. Khi đã được khai báo
trong môi trường,các nhiệm vụ có thể bắt đầu truyền thông với các nhiệm vụ khác một
cách trực tiếp thông qua mô hình truyền thông điểm–điểm hoặc với các thành viên
trong nhóm sử dụng các hàm hỗ trợ truyền thông.
Ví dụ, thành phần crawler trong ở chương sau ...
3.4.2 PVM (Parallel Virtual Machine)
PVM sử dụng môi trường truyền thông điệp, có khả năng kết hợp một mạng
các máy tính không thuần nhất thành một tài nguyên tính toán, do đó được gọi là môi
trường máy ảo song song.
Môi trường PVM gồm 3 thành phần chính: thứ nhất là chương trình thường trú
chạy trên tất cả các máy trong hệ thống máy ảo song song, thành phần thứ hai là thư
viện PVM, thành phần thứ ba là PVM console cho phép người dùng dễ dàng khởi tạo,
cấu hình hệ thống máy ảo.
Ưu điểm lớn nhất của PVM là tính khả chuyển cao và khả năng tích hợp các hệ
thống không thuần nhất. Không những các chương trình PVM chạy được trên bất cứ
hệ thống nào mà nó hỗ trợ mà các nhiệm vụ trong một chương trình còn có khả năng
chạy trên các hệ thống khác nhau tại cùng một thời điểm.
3.4.3 So sánh giữa MPI và PVM.
Tính năng PVM MPI
Hỗ trợ đa nền – portbility Có Có
Mạng không đồng nhất Có Không
Ngôn ngữ không đồng nhất Có Không
Truyền thông điệp Có Xuất sắc
Điểm – điểm
Nhóm
Ngữ cảnh
Có
Có
Đơn giản
Xuất sắc
Có
Có
Tốc độ truyền thông điệp Tốt Xuất sắc
Topology truyền thông logic Không Có
Phát hiện và phục hồi lỗi Có Kém hơn
Khả năng debug Tốt Kém
Quản trị tài nguyên, điều khiển tiến trình Tốt Trung bình
Message Handler Có Có
Bảng 3.1: so sánh một số tính năng giữa PVM và MPI
3.5 Giao thức truyền thông điệp MPI
Giao thức truyền thông điệp MPI là một thư viện các hàm và macro có thể được
gọi từ các chương trình sử dụng ngôn ngữ C, Fortran, và C++. Như tên gọi của nó MPI
được xây dựng nhằm sử dụng trong các chương trình để khai thác hệ thống các bộ xử
lý bằng cách truyền thông điệp.
MPI được phát triển trong 1993-1994 bởi Message Passing Interface Forum (MPIF).
Nó là tiêu chuẩn đầu tiên cho việc lập trình trên các bộ xử lý song song. Mục đích là
tạo ra một giao thức khả chuyển để viết các chương trình sử dụng truyền thông điệp,
và hướng tới tính thực thi, tính hiệu quả, và tính linh hoạt cùng một lúc. MPIF với sự
tham gia của hơn 40 tổ chức hoạt động trong công nghiệp, các tổ chức chính phủ và
hàn lâm đã cùng làm việc và đưa ra phiên bản đầu tiên vào 1994.
Mục tiêu thiết kế của MPI bao gồm:
- Thiết kế một giao diện lập trình ứng dụng. Mặc dù MPI gần đây được sử
dụng như một chương trình dịch và một thư viện ở thời gian chạy, nhưng thiết kế của
MPI chủ yếu phản ánh nhu cầu nhận thức của những người lập trình ứng dụng.
- Cho phép truyền thông một cách hiệu quả: tránh việc copy dữ liệu từ bộ nhớ
sang bộ nhớ và cho phép gối chồng (overlap) giữa các tính toán và truyền thông và
offload để truyền thông đồng xử lý khi có thể.
- Cho phép thực thi trên một môi trường không đồng nhất.
- Có thể được gắn kết dễ dàng vào trong các chương trình ngôn ngữ C và
Fortran.
- Cung cấp một giao thức truyền thông tin cậy: người dùng không cần phải lo
lắng tới thất bại trong truyền thông. Các thất bại này được xử lý bởi các hệ thống
truyền thông cơ sở phía sau.
- Định nghĩa một giao thức không quá khác biệt so với các môi trường song
song hiện tại như PVM, NX, Express..... và cung cấp các mở rộng cho phép độ linh
hoạt cao hơn.
- Định nghĩa một giao thức có thể được thực thi trên các môi trường (flatform)
của nhiều nhà cung cấp mà không cần thay đổi nào đáng kể trong truyền thông cơ sở
và phần mềm hệ thống.
- Ngữ nghĩa của giao thức là độc lập với ngôn ngữ.
- Giao thức được thiết kế cho phép sử dụng luồng một cách an toàn.
Các tính năng chủ yếu của MPI[2]
- Một lượng lớn các hàm truyền thông điểm – điểm (phong phú hơn rất nhiều
so với các môi trường lập trình song song khác).
- Một lượng lớn các thủ tục truyền thông chọn lọc, được sử dụng để giao tiếp
giữa một nhóm các bộ xử lý trong hệ thống.
- Một ngữ cảnh truyền thông hỗ trợ cho việc thiết kế các thư viện phần mềm
song song.
- Có khả năng xác định các topology truyền thông.
- Có khả năng định nghĩa các kiểu dữ liệu mới để mô tả các thông báo dựa trên
các dữ liệu không liên tục.
Các tiến trình
Một chương trình MPI bao gồm các bộ xử lý độc lập, thực thi các mã lệnh riêng của
chúng trong một mô hình MIMD. Các tập lệnh được thực thi bởi các bộ xử lý không
nhất thiết phải giống nhau, việc truyền thông giữa các bộ xử lý được thực hiện thông
qua việc gọi các hàm truyền thông của MPI.
MPI không định rõ kiểu thực thi cho mỗi bộ xử lý. Bộ xử lý A có thể chạy tuần tự,
hoặc có thể thực thi ở dạng đa luồng với các luồng được kích hoạt đồng thời. Điều này
thực hiện được do tính chất luồng an toàn “thread-safe” của MPI bằng cách tránh sử
dụng các trạng thái tuyệt đối.
Ứng dụng MPI.
Một ứng dụng MPI có thể được thực thi như là một tập các nhiệm vụ truyền
thông đồng thời. Một chương trình bao gồm các đoạn mã của người lập trình được liên
kết với các hàm thư viện được cung cấp bởi phần mềm MPI. Mỗi nhiệm vụ được chỉ
định một thứ hạng (rank) duy nhất trong khoảng 1-> n-1 với các ứng dụng có n nhiệm
vụ. Các hạng này được sử dụng để xác định các nhiệm vụ MPI khác nhau trong việc
gửi và nhận tin cũng như thực hiện các thao tác truyền thông nói chung. Nhiệm vụ
MPI có thể chạy trên cùng bộ xử lý hoặc các bộ xử lý khác nhau một cách đồng thời.
Lợi ích của các rank là làm cho thao tác phối hợp độc lập với vị trí vật lý của các thành
phần.
Bộ xử lý 0
Nhiệm vụ 0
Mã người dùng
Thư viện MPI
Bộ xử lý 1 Bộ xử lý 2
Mã người dùng Mã người dùng Mã người dùng Mã người dùng
Thư viện MPI Thư viện MPI Thư viện MPI Thư viện MPI
Nhiệm vụ 1 Nhiệm vụ 2 Nhiệm vụ 3 Nhiệm vụ 4
Hình 3. : Ví dụ về 5 nhiệm vụ MPI chạy trên 3 bộ xử lý.
Chương 4. Giới thiệu về máy tìm kiếm ASPseek và đề
xuất giải pháp song song hóa
4.1 Giới thiệu chung về máy tìm kiếm ASPseek
Aspseek là một công cụ tìm kiếm mã nguồn mở trên Internet với rất nhiều đặc
tính ưu việt mà người dùng mong đợi ở một công cụ tìm kiếm. Aspseek được viết
bằng ngôn ngữ C++, sử dụng thư viên STL chuẩn, và sử dụng phương pháp lưu trữ
pha trộn giữa các bảng cơ sở dữ liệu SQL và các file nhị phân. Aspseek bao gồm các
thành phần: chương trình đánh chỉ mục index, module tìm kiếm searchd, và module
tìm kiếm front-end s.cgi.
4.1.1 Một số tính năng của ASPseek.
a. Có khả năng đánh chỉ mục và tìm kiếm trong vài triệu tài liệu: Sử dụng
Aspseek, ta có thể xây dựng một cơ sở dữ liệu và tìm kiếm trong rất nhiều site, và kết
quả trả về cho mỗi câu truy vấn là rất nhanh ngay cả khi ta có hàng triệu trang web đã
được đánh chỉ mục.
b. Tối ưu các kết quả trả về: Mục đích của một công cụ tìm kiếm là tìm được
những gì mà người dùng yêu cầu. Các kết quả trả về của Aspseek được sắp xếp theo
mức độ hợp lệ của trang web so với câu truy vấn của người dùng.
c. Khả năng tìm kiếm nâng cao: Hỗ trợ việc tìm kiếm theo cụm từ, để tìm kiếm
một cụm từ, người dùng chỉ việc bao cụm từ bởi các dấu ngoặc kép (“”), chẳng hạn
“many years ago”. Ngoài ra người dùng có thể thực hiện tìm kiếm theo các ký tự đại
diện. Ví dụ nếu chúng ta biết chính xác cụm từ nhưng lại quên một từ ở giữa, chúng ta
có thể thay thế từ đó bởi ký hiệu (*). Do đó, câu truy vấn “many * ago” sẽ trả lại các
trang web có các cụm từ như “many years ago”, “many days ago”.
Hỗ trợ tìm kiếm sử dụng các biểu thức logic. Các biểu thức có thể kết hợp với
nhau sử dụng các toán tử AND và OR. Các biểu thức con có thể được nhóm lại sử
dụng các dấu ngoặc đơn:
Ví dụ: (some OR any) AND (days OR months OR years)
d. Hỗ trợ việc lưu trữ theo định dạng Unicode: Aspseek lưu trữ thông tin các
trang web ở dạng Unicode, do đó ta có thể tìm kiếm và đánh chỉ mục các văn bản
thuộc nhiều ngôn ngữ như tiếng Anh, tiếng Nga, tiếng Trung Quốc... trong cùng một
cơ sở dữ liệu.
e. Hỗ trợ các giao thức HTTP, HTTPS, HTTP proxy và FPT proxy đồng thời có
khả năng nhận dạng các văn bản ở định dạng HTML và plain text. Các định dạng văn
bản khác có thể được hỗ trợ thông qua các chương trình mở rộng chuyển sang định
dạng HTML hoặc plain text.
f. Được thiết kế chạy đa luồng: ASPseek sử dụng đa luồng POSIX, mỗi tiến trình
có rất nhiều luồng chạy song song. Điều này không chỉ giúp cải thiện rất lớn tốc độ
của quá trình đánh chỉ mục, do nếu chỉ chạy một luồng thì phần lớn thời gian là chờ
tiếp nhận dữ liệu từ mạng.
g. Hỗ trợ việc đánh chỉ mục không đồng bộ theo thời gian thực: Một số máy tìm
kiếm yêu cầu việc tìm kiếm phải dừng lại trong suốt thời gian cập nhật cơ sở dữ liệu.
ASPseek không đòi hỏi điều này bằng cách hỗ trợ chế độ thời gian thực cho modul
đánh chỉ mục. Tính năng này sẽ rất có ích khi chúng ta đang xây dựng một máy tìm
kiếm chuyên biệt cho các trang Web có nội dung thay đổi liên tục ví dụ như các trang
tin trực tuyến. Tuy nhiên số lượng tài liệu trong cơ sở dữ liệu thời gian thực bị giới hạn
vào khoảng 1000 tài liệu. Nếu có càng nhiều tài liệu trong cơ sở dữ liệu thời gian thực
thì tốc độ index vào cơ sở dữ liệu chính sẽ càng bị chậm.
h. Xử lý các từ dừng và đoán nhận mã chữ cái: Từ dừng là các từ mà bản thân nó
không có ý nghĩa. Ví dụ các từ dừng trong tiếng Anh: “is, are, at, this”...Việc tìm kiếm
trên các từ dừng là hoàn toàn vô nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi câu truy
vấn. Các từ dừng cũng bị loại bỏ ra khỏi cơ sở dữ liệu trong suốt quá trình đánh chỉ
mục bởi vậy cơ sỡ dữ liệu sẽ nhỏ hơn và nhanh hơn.
Một số server cấu hình không đúng sẽ không cho phía client biết tập mã ký tự của
nội dung mà nó cung cấp. Trong trường hợp này, ASPseek sẽ sử dụng bộ đoán nhận
mã ký tự để xác định tập ký tự đúng của văn bản.
4.1.2 Các thành phần của ASPseek
a. Module đánh chỉ số (indexing).
Index là một thành phần của công cụ tìm kiếm ASPseek có nhiệm vụ thực
hiện việc duyệt Web, tải nội dung các trang Web, phân tích nội dung các trang này và
lưu trữ vào trong cơ sở dữ liệu. Module này cũng được sử dụng để quản lý cơ sở dữ
liệu của ASPseek. Như vậy trong ASPseek, quá trình crawler và quá trình index được
tích hợp trong cùng một module, và được thực hiện kế tiếp nhau.
Trong suốt quá trình crawler, module index duyệt lần lượt các trang Web, tải
và lưu trữ các văn bản tìm được trong một cấu trúc dữ liệu đặc biệt gọi là các file delta,
cũng như lưu vào trong cơ sở dữ liệu.
Khi quá trình duyệt web kết thúc, module này sẽ sắp xếp nội dung các file
delta, và trộn nội dung các file này vào các file nhị phân có cấu trúc tiện lợi cho việc
tìm kiếm (quá trình index ngược), cũng như tính hạng (PageRank)của các trang Web
trong cơ sở dữ liệu.
Các thao tác trong quá trình index đều có thể điều khiển thông qua file cấu
hình aspseek.conf, file này sẽ được đọc trong quá trình khởi động.
b. Module tìm kiếm (searchd).
Module searchd lắng nghe và xử lý các câu truy vấn tìm kiếm được cung cấp bởi
module giao diện tìm kiếm front-end s.cgi. Module front-end sau đó sẽ định dạng lại
các kết quả tìm kiếm được bởi module searchd thành các trang HTML và trả về cho
người dùng.
Aspseek được tối ưu hóa cho cho việc tìm kiếm trên nhiều site với tốc độ tải
trung bình, và có thể được sử dụng để tìm kiếm trên vài triệu trang web (Urls). Người
dùng có thể tìm kiếm theo các từ hoặc cụm từ, sử dụng các ký tự đại diện và thực hiện
các câu tìm kiếm với các mệnh đề điều kiện.
Phạm vi tìm kiếm có thể được hạn chế trong một khoảng thời gian xác định, hạn
chế theo site, hoặc một phần nhỏ của site, hạn chế theo không gian web (một tập các
site) hoặc một phần cụ thể của tập các trang HTML phân loại theo chủ đề, theo body,
theo phần mô tả (description), hoặc theo từ khóa. Kết quả tìm kiếm có thể được sắp
xếp theo thuộc tính phân loại hoặc theo ngày tháng.
c. Module tìm kiếm s.cgi.
Module này có nhiệm vụ nhận các câu truy vấn của người dùng, chuyển chúng
cho module chạy ngầm searchd. Sau đó nhận các kết quả tìm kiếm trả về từ module
searchd và định dạng lại các kết quả này thành các trang HTML và trả về cho người
dùng.
4.2 Cấu trúc cơ sở dữ liệu trong máy tìm kiếm ASPseek.
Nhiệm vụ của các máy tìm kiếm là tải nội dung các trang Web trên Internet sau
đó lưu vào các cơ sở dữ liệu cục bộ để phục vụ các truy vấn của người dùng. Do đó
cách thức biểu diễn trang web cũng như cách tổ chức lưu trữ dữ liệu đóng vai trò rất
quan trọng trong việc nâng cao chất lượng của máy tìm kiếm. Ở đây chúng tôi xin giới
thiệu cách thức tổ chức dữ liệu của máy tìm kiếm ASPseek.
Aspseek lưu trữ các thông tin về các trang web sử dụng phương pháp lưu trữ pha
trộn giữa các bảng cơ sở dữ liệu SQL và các file nhị phân. Mục đích của việc lưu
thông tin trong các file nhị phân là giúp giảm bớt gánh nặng về kích thước cho cơ sở
dữ liệu MySQL (do mỗi bảng trong cơ sở dữ liệu MySQL chỉ có kích thước lớn nhất
là 4GB) đồng thời nó cũng giúp nâng cao tốc độ tìm kiếm các trang web [](Aspseek
manual). Nội dung lưu trong các file nhị phân được sử dụng chủ yếu cho quá trình tìm
kiếm, các file này được lưu trong thư mục /usr/local/aspseek/var/aspseek12/.
4.2.1 Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek.
Bảng urlword: bảng này chứa thông tin tổng quan về tất cả các URL đã hoặc
chưa được đánh chỉ số bởi máy tìm kiếm ASPseek, thỏa mãn một điều kiện đặc biệt
nào đó do người dùng chỉ định. Các thông tin chi tiết hơn sẽ được lưu trữ trong các
bảng urlwordsNN.
Tên trường Miêu tả
url_id Số định danh của URL
site_id Số định danh của site
deleted
=1 nếu máy chủ trả về lỗi 404 hay do file “robots.txt” không cho
phép được đánh chỉ số trang Web này
url Nội dung của chính URL
next_index_time Thời điểm tiếp theo cần index, tính theo giây
status
Trạng thái HTTP trả về bởi máy chủ hoặc 0 nếu trang này chưa
được đánh chỉ số
crc chuỗi đại diện MD5 của tài liệu
last_modified Thời gian thay đổi nội dung gần đây nhất, được trả về từ server.
etag tiêu đề “Etag” được trả về bởi máy chủ
last_index_time thời điểm tiến hành đánh chỉ số cuối cùng
referre Số định danh của URL tham chiếu đầu tiên đến trang Web này
hops độ sâu của URL trong cây siêu liên kết
redir
=URLID mới nếu trang Web này bị chuyển hướng nếu không sẽ
bằng 0
origin
=URLID của trang Web ban đầu nếu trang Web này là một bản sao,
nếu không có giá trị bằng 0.
Bảng UrlwordNN (NN là các số từ 00 – 15): Các bảng này chứa các thông tin
chi tiết về nội dung các Url đã được đánh chỉ số trong cơ sở dữ liệu. Việc một url được
ghi vào bảng nào trong 16 bảng này phụ thuộc vào giá trị url_id mod 16.
Tên trường Miêu tả
url_id Số định danh của URL
deleted Được đặt bằng 1 nếu máy chủ trả về lỗi, hoặc do file “robots.txt”
không cho phép đánh chỉ số trang Web này.
wordcount Số lượng các từ khác nhau trong nội dung đã được index của trang
totalcount Tổng tất cả các từ trong nội dung đã được đánh chỉ số của trang
content-type Tiêu đề “Content-Type” được trả về bởi máy chủ
charset Bộ chữ cái được sử dụng trong nội dung tài liệu, thông tin này được
lấy từ thẻ META
title 128 ký tự đầu tiên trong tiêu đề của trang Web
txt 255 ký tự đầu tiên, không tính các thẻ HTML, trong nội dung của
trang Web.
docsize Kích thước của trang Web.
keywords 255 ký tự đầu tiên từ các từ khóa của trang Web.
description 100 ký tự đầu tiên trong phần mô tả trang Web
words Nội dung đã được nén của các URL
hrefs Danh sách đã sắp xếp các URL liên kết ra (outgoing) từ trang này
Bảng wordurl: chứa thông tin về mỗi từ khóa (không phải từ dừng) xuất hiện
trong các trang Web được tải.
Tên trường Miêu tả
word bản thân các từ khóa, không phải từ dừng
word_id Số định danh của từ( khóa chính)
urls Thông tin về các site và các url mà từ khóa này xuất hiện.Trường
này sẽ rỗng nếu như kích thước của nó lớn hơn 1000 byte, trong
trường hợp này thông tin sẽ được lưu trữ trong các file nhị phân.
urlcount Số lượng các url có chứa từ khóa này
totalcount Tổng số lần xuất hiện của từ khóa này trong tất cả các tài liệu.
Bảng wordurl1: chứa thông tin các từ khóa trong cơ sở dữ liệu thời gian thực
Tên trường Miêu tả
word Nội dung các từ khóa (không phải từ dừng)
word_id Số định danh của từ ( khóa chính)
urls Thông tin về các site và các url mà từ khóa này xuất hiện.Trường
này luôn luôn khác rỗng, bất kể kích thước của nó.
urlcount Số lượng các url có chứa từ khóa này
totalcount Tổng số lần xuất hiện của từ này trong tất cả các tài liệu đã index.
Bảng Stat: chứa thông tin thống kê về các câu truy vấn của người dùng.
Tên trường Miêu tả
addr Địa chỉ IP của máy tính có câu truy vấn tới máy tìm kiếm ASPSeek
proxy Địa chỉ IP của máy chủ proxy
query Nội dung câu truy vấn
ul Giới hạn về URL được sử dụng để áp đặt lên câu truy vấn
sp Không gian Web được áp đặt lên câu truy vấn
site SiteID dùng để hạn chế không gian tìm kiếm
sites Số lượng các site tìm thấy thỏa mãn câu truy vấn
urls Số lượng các Url tìm thấy thỏa mãn câu truy vấn
referer URLID của các trang Web có các yêu cầu truy vấn
4.2.2 Cấu trúc một số file nhị phân trong cơ sở dữ liệu của ASPseek
Cấu trúc các file trong thư mục này như sau:
- 100 thư mục 00w -> 99w:các thư mục chứa nội dung đã được index ngược của
các trang web, phục vụ cho việc ánh xạ từ các từ khóa sang các địa chỉ URL.
- Thư mục citations: chứa các file nhị phân phục vụ cho quá trình tính hạng
(ranking) của các trang web.
- Thư mục deltas: chứa các file nhị phân trung gian trong quá trình index, sau khi
quá trình index kết thúc nộidung các file này sẽ bị xóa bỏ.
4.2.2.1 Cấu trúc các file nhị phân trong thư mục xxw:
Các file nhị phân trong thư mục xxw có nhiệm vụ lưu nội dung đã được index
ngược của các trang web đã được index. Nội dung các file này chính là giá trị của
trường urls trong bảng wordurl trong trường hợp kích thước của trường lớn hơn 1000
bytes. Mục đích của nó là phục vụ cho quá trình tìm kiếm các trang web theo từ khóa
của người dùng. Các file này được cấu trúc theo cách thức có thể dễ dàng tìm ra các
url_id có chứa từ khóa word_id, đồng thời ta cũng có thể dễ dàng tìm được số lượng
cùng vị trí xuất hiện của các word_id đó trong từng url_id.
Aspseek có 2 cơ chế để lưu các file nhị phân, đó là các cơ chế lưu sử dụng
CompactStorage và không sử dụng CompactStorage. Chế độ mặc định là có sử dụng.
Người dùng có thể bật tắt chế độ này bằng việc điều chỉnh tham số trong file cấu hình
hệ thống là aspseek.conf và search.conf. Cơ chế không CompactStorage được giữ lại
để tương thích với các phiên bản cũ của Aspseek, còn các phiên bản mới đều mặc định
sử dụng chế độ CompactStorage do chế độ này ngoài việc làm giảm lượng bộ nhớ cần
để lưu trữ các thông tin, nó còn giúp làm tăng đáng kể tốc độ tìm kiếm các trang web.
Sau đây tôi xin giới thiệu cả hai cơ chế này:
a. Cách lưu các file nhị phân theo cơ chế thông thường.
Thông tin index ngược về mỗi từ khóa trong cơ sở dữ liệu được lưu trong một file
nhị phân riêng biệt có tên trùng với word_id của từ đó. Nội dung file này được trong
thư mục nnw với nn= word_id mod 100. Thông tin về một word_id chỉ được lưu trong
file nhị phân khi nội dung của trường urls trong bảng wordurl lớn hơn 1000 byte.
Cấu trúc của các file này là:
Các thông tin về site, được sắp xếp theo site_id
Offset Độ dài Miêu tả chi tiết
0 4
Giá trị offset bắt đầu thông tin về site thứ nhất nơi từ xuất
hiện
4 4 Mã nhận dạng url_id của site thứ nhất nơi từ xuất hiện
8 4 Giá trị offset bắt đầu thông tin về site thứ hai nơi từ xuất hiện
12 4 Mã nhận dạng của site thứ 2 nơi từ xuất hiện
.........................
(N-1)*8+4 4
Giá trị offset bắt đầu thông tin về site thứ N, N là tổng số các
site mà từ xuất hiện
(N-1)*8+8 4 Mã nhận dạng của site thứ N nơi từ xuất hiện
Thông tin về các URL, được lưu trữ tiếp ngay sau thông tin về site. Giá trị offset
được tính từ 0.
0 4
url_id của trang thứ nhất trong site thứ nhất trong phần thông
tin về các site.
4 2 Tổng số từ trong URL này
6 2 Vị trí thứ nhất
8 2 Vị trí thứ hai
....................
6+(N-1)*2 2 Vị trí thứ N, N là tổng số từ xuất hiện trong URL
Lặp lại với các thông tin cho các URL của cùng site, nhưng có url_id lớn hơn
.....................
Lặp lại với các thông tin về URL của site tiếp theo trong phần thông tin về site
b. Cách lưu các file nhị phân theo cơ chế CompactStorage.
Thay vì lưu thông tin về mỗi từ trong một site như trên, nội dung index ngược
của tất cả các từ có cùng giá word_id mod 100 được lưu chung trong 3 file trong cùng
một thư mục file nhị phân có chỉ số bằng word_id mod 100. Đó là các file: ind, sites,
urls. Nội dung của 3 file như sau:
i. File ind: chứa thông tin về các word có cùng giá trị word_id mod 100. Nội
dung là một dãy liên tiếp các phần tử, mỗi phần tử mô tả thông tin về một word và có
kiểu struct WordInd, kiểu này có dạng:
Struct {
ULONG m_offset;
ULONG m_siteCount;
ULONG m_urlCount;
ULONG m_totalCount;
}WordInd;
Trong đó: m_offset: vị trí kết thúc nội dung về word_id đó trong bảng sites.
m_siteCount: số lượng các site có chứa các url chứa từ khóa đó.
m_urlCount: tổng số các url có chứa từ khóa đó trong tất cả các site.
m_totalCount: tổng số lần xuất hiện của word_id đó trong tất cả các url,
trong tất cả các sites.
ii. File sites:chứa thông tin về các site mà site này có chứa các url chứa một
word nào đó ở file ind ở trên, nội dung là một dãy liên tiếp các phần tử, mỗi phần tử
mô tả thông tin một site và có kiểu SiteInd, kiểu này có dạng:
Struct{
ULONG m_siteID;
ULONG m_offset;
}SiteInd;
Trong đó: m_siteID: site_id của site chứa từ khóa.
m_offset: vị trí kết thúc các thông tin về url trong site đó trong file urls.
iii. File urls: file này chứa nội dung các url thuộc về các site trong file sites nói
trên và có chứa từ được nêu trong bảng ind. Cấu trúc file như sau:
Thông tin về mỗi từ (đã được mô tả trong file ind) trong các url, các url này thuộc
vào các site được mô tả trong file sites ở trên
Vị trí Độ rộng Mô tả
0 4 url_id của url đó
4 4 Count: số lần xuất hiện của từ đó trong url
6 2 Vị trí xuất hiện lần thứ nhất của từ trong url
.....................
N*2+4 2
Vị trí xuất hiện lần thứ N của từ trong url, N là tổng số lần
xuất hiện của từ đó trong url
Lặp lại với các url khác có chứa từ đó trong cùng một site
Lặp lại với các url khác có chứa từ đó thuộc các site khác
Lặp lại với các từ khóa khác trong file ind.
Ba file ind, sites, urls ở trên liên hệ và phụ thuộc chặt chẽ vào nhau. Khi cần lưu
thêm thông tin về từ hoặc lấy ra thông tin ta cần phải truy cập vào cả 3 file cùng một
lúc. Mối liên hệ giữa chúng được thể hiện trong sơ đồ sau:
Site_id Offset OffsetSite_id Site_id Offset OffsetSite_id ..... .....
....
....
SITES
Thông tin về site của word_id=NN Thông tin về site của word_id=NN+100
Url_id Count 1stpos nstpos ....
....
.... .... Url_id Count 1stpos nstpos .... ....
URLS
Offset OffsetSiteCount UrlCount TotalCount SiteCount UrlCount TotalCount
Thông tin về từ word_id=NN Thông tin về từ word_id=NN+100
....
....
IND
Ttin url của site_id n chứa word_id=NN Ttin url của site_id 1 chứa word_id=NN
Thông tin về url của word_id=NN
Hình 4.: Sơ đồ liên hệ giữa các file nhị phân theo cơ chế CompactStorage.
Chẳng hạn cần tìm kiếm các urls có chứa từ khóa word với mã là word_id, ta cần
tìm trong thư mục word_id mod 100. Địa chỉ bắt đầu thông tin về từ word này trong
file ind sẽ là (word_id div 100)*sizeof(WordInd) (do các từ trong file ind được viết kế
tiếp nhau, mỗi từ được viết trong một WordInd và word_id của từ lưu tiếp sau bằng
word_id của từ phía trước cộng 100). Từ đó ta sẽ xác định được giá trị của trường
m_offset tức là địa chỉ offset bắt đầu và kết thúc lưu thông tin về các site trong file
sites. Từ đó ta sẽ xác định được địa chỉ offset trên file urls bắt đầu thông tin về các url
thuộc site này có chứa từ khóa đó. Cứ như vậy với các url thuộc các site khác.
4.3 Tìm hiểu về việc thực thi quá trình crawler trong module
index của máy tìm kiếm VietSeek.
4.3.1 Quá trình crawler trong ASPseek và nhu cầu song song hóa
Aspseek sử dụng một cấu trúc dữ liệu bảng băm để làm hàng đợi lưu các url cần
được index. Các URL trong hàng đợi được nhóm theo site, các url thuộc cùng một site
được nhóm vào một danh sách FIFO gọi là CSiteUrls. Khi có một url thuộc vào một
site cần đưa vào hàng đợi, url đó được thêm vào cuối danh sách url của site nó thuộc
vào. Toàn bộ hàng đợi là một bảng băm các CsiteUrls và có một con trỏ trỏ tới site
hiện tại đang được duyệt. Khi cần lấy ra một url để duyệt tiếp, url ở đỉnh danh sách
của site hiện tại sẽ được trích ra. Cấu trúc của hàng đợi này như sau:
Trong đó: mỗi CsiteUrls là một danh sách một chiều các mảng chứa url thuộc về
cùng một site. Và CurlLinks là một mảng gồm 100 url liên tiếp.
m_current
CSiteUrls CSiteUrls CSiteUrls .....
Hình 4.a:Cấu trúc của hàng đợi frontierCSiteQueue trong ASPseek
m_last m_first
CUrlLinks CUrlLinks CUrlLinks ......
Hình 4.b:Cấu trúc một phần tử CSiteUrls
Sai
Đúng
Có
Không
Sai
Đúng
Có
Không
Có
URL outgoing từ trang
web được tải
URL hạt nhân
Thêm URL vào hàng đợi
Kết thúc?
Duyệt file cấu hình
URL∈Hđoi<n Thêm URL từ CSDL vào Hđợi
Lấy URL tiếp theo để duyệt
Tải và duyệt trang Web
Lưu URL vào CSDL
Cần index
lại?
End
Start
URL ∈CSDL
Lưu thông tin vào CSDL, và
file nhị phân
Hình 1: Cơ chế chọn các trang web để tải và duyệt nội dung trong ASPseek
• ASPseek thực hiện việc duyệt Web theo chiều rộng theo chiến lược mù, nó cố
gắng tải nội dung tất cả url nó gặp trong quá trình duyệt mà không thực hiện việc lựa
chọn hay tính điểm cho các URL cần duyệt.
• Đầu tiên chương trình sẽ tải file cấu hình aspseek.conf, lấy ra các URL bắt đầu
(URL hạt nhân) được chỉ định trong lệnh Server. Sau đó module index sẽ kiểm tra xem
các URL khởi đầu này đã tồn tại trong cơ sở dữ liệu hay chưa, nếu chưa thông tin về
chúng sẽ được lưu vào các bảng site và urlword trong cơ sở dữ liệu MySQL đồng thời
được thêm vào trong hàng đợi. Trong trường hợp URL đã có mặt trong cơ sở dữ liệu,
chương trình sẽ kiểm tra xem nó có cần phải index lại hay không, nếu cần URL đó
cũng được thêm vào trong hàng đợi.
• Trong quá trình duyệt nội dung một url, các địa chỉ url được trỏ tới từ url đó đầu
tiên sẽ được thêm vào trong cơ sở dữ liệu (bảng urlword, sites) nếu nó chưa có trong
đó và được thêm hàng đợi nếu nó thỏa mãn các điều kiện hạn chế do người dùng chỉ
định (không quá sâu so với URL bắt đầu, không vượt khỏi server hiện tại, không nằm
trong các url bị cấm...). Đồng thời trong quá trình duyệt, nội dung url sẽ được lưu vào
trong cơ sở dữ liệu (bảng urlwordNN, wordurl ) cũng như lưu vào các file nhị phân
trung gian.
• Tại một thời điểm, nếu số lượng inactiveSite (số lượng các CsiteUrls có một
hoặc nhiều hơn các url chưa được index) trong hàng đợi nhỏ hơn một số lượng xác
định, aspseek sẽ truy vấn cơ sở dữ liệu và thêm vào trong hàng đợi các url đã tới thời
hạn index lại (các url có giá trị trường next_index_time nhỏ hơn thời điểm hiện tại).
• Kết quả thu được của quá trình crawler trong ASPseek bao gồm:
• Thông tin về các site, url và từ khóa được lưu trong các bảng của cơ sở dữ liệu.
• Thông tin nội dung của các url sau khi đã loại bỏ các từ dừng (stopword) được
lưu trong các file nhị phân có cấu trúc đặc biệt gọi là các file delta.
• Sau khi quá trình crawler kết thúc, nội dung các file delta sẽ được sắp xếp và
trộn với nội dung các file nhị phân cũ trong cơ sở dữ liệu trong một quá trình gọi là
index ngược. Qúa trình này sẽ chuyển cấu trúc các file nhị phân từ dạng định dạng
theo url sang định dạng theo từ khóa để phục vụ cho nhu cầu tìm kiếm url theo từ khóa
của người dùng. Sau khi trộn, nội dung của các file delta bị cắt bỏ.
Nhu cầu song song hóa
4.3.2 Đề xuất giải pháp song song hóa
Công việc tải và duyệt các trang web là công việc tốn rất nhiều thời gian, chiếm
tới hơn 80% thời gian thực hiện của module index. Vì vậy việc song song hóa quá
trình này sẽ có ý nghĩa rất lớn trong việc nâng cao chất lượng của bộ tìm kiếm. Ngoài
việc giúp rút ngắn thời gian thực hiện index, việc song song hóa sẽ cho phép tăng thêm
số lượng các trang web được đánh chỉ số, cũng như tăng mức độ cập nhật của các
trang web đã có trong cơ sở dữ liệu.
4.3.2.1 Giải pháp song song hóa
Giải pháp chúng tôi đưa ra ở đây là sử dụng cơ sở dữ liệu, các bảng trong
MySQL và các file nhị phân, tập trung trên một bộ xử lý chính, và sử dụng cơ sở dữ
liệu MySQL làm kênh giao tiếp trung gian chính giữa các bộ xử lý trong hệ thống. Ở
đây hệ quản trị cơ sở dữ liệu sẽ đóng vai trò chính trong việc phân chia công việc cho
các bộ xử lý. Quá trình tải và chọn các url để index tiếp theo trong cơ chế này như sau:
Trong quá trình duyệt file cấu hình, các địa chỉ url được đặt làm địa chỉ xuất phát
của quá trình index sẽ chỉ được thêm vào các bảng trong cơ sở dữ liệu MySQL mà
không được thêm vào trong hàng đợi của bất kỳ bộ xử lý nào. Tương tự như vậy, trong
quá trình duyệt nội dung một trang Web, các địa chỉ url mà trang này liên kết tới cũng
chỉ được thêm vào cơ sở dữ liệu mà không thêm vào trong hàng đợi của các bộ xử lý.
Các bộ xử lý sẽ lấy ra các url để thêm vào hàng đợi bằng các truy vấn cơ sở dữ liệu.
Như vậy quá các bảng trong cơ sở dữ liệu sẽ là nguồn cung cấp các địa chỉ url để
index duy nhất cho các bộ xử lý.
URL outgoing
url infomation
Next URL
Load configure
Master_queue
Database
Slave queue Slave queue
Binaryfile Binaryfile
Parse
Binaryfile
Parse Parse
Hình 3: Giải pháp song song hóa quá trình crawler trong module index của ASPseek.
Khi đó quá trình crawler trên mỗi bộ xử lý được minh họa như hình 4
Sai
Có
Không
Đúng
Không
URL outgoing từ trang
web được tải
URL hạt nhân
Lấy URL từ CSDL vào
hàng đợi
Kết thúc?
Duyệt file cấu hình
Lấy URL tiếp theo để duyệt
Tải và duyệt trang Web
Lưu URL vào CSDL
End
Start
URL ∈CSDL
Lưu thông tin vào CSDL, và
file nhị phân
Hình 4: Quá trình crawler ở mỗi bộ xử lý sau khi đã tiến hành song song hóa.
- Đầu tiên bộ xử lý chính sẽ tiến hành duyệt file cấu hình, lưu các url bắt đầu
vào trong cơ sở dữ liệu MySQL nếu nó chưa có mặt trong đó. Tiếp theo các bộ xử lý
sẽ thực hiện các vòng lặp crawler như sau:
- Tiến hành truy vấn cơ sở dữ liệu để lấy ra các url để thêm vào hàng đợi nếu
số lượng url trong hàng đợi nhỏ hơn một số lượng xác định.
- Kiểm tra điều kiện kết thúc, nếu đúng dừng lại
- Lấy url tiếp theo từ hàng đợi để tải và duyệt, nếu không lấy thêm được các url
mới, quá trình crawler cũng kết thúc.
- Duyệt nội dung các trang web ứng với các url, lưu thông tin của trang vào
trong các bảng trong cơ sở dữ liệu cũng như các file nhị phân. Các url được trích ra từ
trang web sẽ được lưu vào trong bảng urlword trong cơ sở dữ liệu (nếu chưa tồn tại).
- Lặp lại quá trình trên cho tới khi thỏa mãn điều kiện dừng.
Thi hành cụ thể
4.3.2.2 Cơ chế phân công công việc giữa các bộ xử lý.
Mỗi lần một bộ xử lý truy vấn cơ sở dữ liệu để lấy ra các URL tiếp theo để index,
chương trình sẽ cân đối giữa số lượng các URL đang có mặt trong hàng đợi của bộ xử
lý đó mà chưa được index với số lượng các URL trong cơ sở dữ liệu cần được đánh
chỉ số cũng như số lượng bộ xử lý đang chạy song song để tính toán số lượng URL
được lấy ra. Như vậy ta có thể phân phối tương đối đồng đều công việc cho các BXL
làm việc.
Thi hành cụ thể
4.3.2.3 Tổng hợp kết quả sau quá trình song song:
Sau khi quá trình crawler trên các bộ xử lý kết thúc, bộ xử lý chính sẽ tiến hành
kết hợp các kết quả crawler trên các máy sau đó tiếp tục tiến hành các công việc còn
lại của quá trình index. Việc xử lý ở đây chỉ bao gồm xử lý các file nhị phân delta do
các bộ xử lý tạo ra. Do trong quá trình thực hiện, mỗi bộ xử lý sẽ lưu kết quả vào một
thư mục file nhị phân riêng biệt, ta cần kết hợp nội dung các file này thành một file
chung duy nhất. Các file đã kết hợp này sẽ được sử dụng làm đầu vào cho quá trình
index ngược tiếp theo.
4.3.2.4 Vấn đề tương tranh giữa các bộ xử lý:
Để giải quyết vấn đề tương tranh giữa các bộ xử lý để tránh duyệt lặp lại một
URL nhiều lần, trong bảng urlword (đã được trình bày ở trên) ta thêm vào một trường
index_status để lưu giữ trạng thái index của một url.
Giá trị Ý nghĩa
0 URL tương ứng chưa được index
1
URL tương ứng đã được index, việc có index lại URL
này hay không phụ thuộc vào giá trị của trường
next_index_time.
2
URL đang được index, dù giá trị của trường
next_index_time là gì cũng không được index URL này.
Giải pháp này đảm bảo việc các bộ xử lý sẽ không duyệt lặp lại các url mà các bộ
xử lý khác đã xử lý trong cùng một lần index.
4.3.2.5 Đánh giá giải pháp song song hóa.
Ưu điểm:
Giải pháp tương đối đơn giản, khả năng tận dụng lại mã nguồn cao
- Các bộ xử lý có thể hoạt động tương đối độc lập, nhu cầu truyền thông giữa các
bộ xử lý là rất ít, các bộ xử lý không cần sử dụng các kết quả do bộ xử lý khác tạo ra.
- Hệ thống dễ dàng được mở rộng thêm trên nhiều bộ xử lý.
Nhược điểm:
- Việc phân chia công việc phụ thuộc nhiều vào hệ quản trị cơ sở dữ liệu, do đó
có thể xuất hiện sự phân phối công việc không được cân bằng.
- Giải pháp trên mới chỉ song song hóa được quá trình crawler trong module
index, cần nghiên cứu các giải pháp song song hóa được nhiều công việc hơn nữa.
Tài liệu tham khảo:
[1] Đỗ thị Diệu Ngọc (2003). Một số vấn đề về phân lớp cho .... Luận văn đại học khoa
Công Nghệ Đại học Quốc Gia Hà Nội 2003.
[2] G.A.Geist, J.A.Kolh, P.M.Papadopoulos, PVM and MPI: a comparison of features.
Applied Mathematical Sciences subprogram of the Office of Energy Reaseach,
US Department of Energy. May 30 1996.
[x] Gautam Pant, Padmini Srinivasan, Fillipo Menczer. Crawling the Web. The
University of Iowa, Iowa City IA 52242, USA
[x] Jack Dongarra. MPI: the complete Reference. Cung cấp tại
1995.
[x] Ian Foster. Designing and Building Parallel Programs. Cung cấp tại
unix.mcs.anl.gov/dbpp/ 1995.
[x] Li wang, Edward A.Fox, Crawling on the World Wide Web.Virginia Tech 2001
[x] Kir Kolyshkin. Aspseek Manual. Cung cấp tại 2002.
[x] Osmar R.Zaiane, From Resource Discovery to Knowledge Discovery in the
Internet. School of Computing Science, Simon Fracer University, Burnaby , BC
Canada V5A 1S6.
[x] Sergey Brin and Lawrence Page, The Anatomy of large scale Hypertextual Web
Search Engine. Computer Science Department, Standford University, Standford
CA 94305, USA.
[x] Shian - Hua Lin, Meng Chang Chen, Jan-Ming Ho, ACIRD: Intelligent Internet
Document Organization and Retrival. IEEE transaction on knowledge and data
engineering VOL 14, NO 3 May/June 2002.
[x] Yukiya Aoyama, Jun Nakano. RS/6000 SP: Practical MPI Programming. IBM
International Technical Support Organization 1999.
Các file đính kèm theo tài liệu này:
- K45_Nguyen_thi_Huong_Giang_Thesis.pdf