Mục lục
Danh mục từ viết tắt, thuật ngữ
Danh mục bảng biểu
Danh mục hình vẽ
Mở đầu
1. Giới thiệu chung
2. Nội dung luận văn
Chương 1 Đối sánh lược đồ
1.1 Tổng quan về đối sánh lược đồ
1.1.1 Các khái niệm cơ bản về đối sánh lược đồ
1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ
1.2 Các tiếp cận đối sánh lược đồ
1.2.1 Phân loại các tiếp cận đối sánh lược đồ
1.2.2 Các tiếp cận đối sánh lược đồ
1.2.3 Các phương pháp đối sánh lược đồ
1.3 Các hệ thống đối sánh lược đồ XML
1.3.1 Cupid (trung tâm nghiên cứu Microsoft
1.3.2 Similarity Flooding (Đại học Stanford và đại học Leipzig)
1.3.3 LSD (Đại học Washington
1.3.4 Clio (IBM Almaden và đại học Toronto
1.3.5 Một số hệ thống đối sánh lược đồ khác
1.4 Kết chương
Chương 2 Các định nghĩa hình thức
2.1 Vấn đề đối sánh lược đồ XML
2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp
2.1.2 Thông tin đầu vào của tiến trình đối sánh
2.1.3 Thông tin đầu ra của tiến trình đối sánh
2.1.4 Các định nghĩa hình thức
2.2 Mô hình hóa lược đồ XML
2.2.1 Các nút đồ thị lược đồ
2.2.2 Các cạnh đồ thị lược đồ
2.2.3 Các ràng buộc đồ thị lược đồ
2.2.4 Các định nghĩa hình thức
2.3 Ánh xạ nguồn–đích
2.4 Kết chương
Chương 3 Đối sánh tự động lược đồ XML
3.1 Tổng quan về đối sánh tự động lược đồ XML
3.2 Đo độ tương đồng ngôn ngữ
3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ
3.2.2 Thuật toán của Hirst và St-Onge
3.2.3 Giải pháp của hệ thống Cupid
3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu người thiết kế
3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML
3.3.2 Phân tích phân cấp kiểu người thiết kế
3.4 Đo độ tương đồng cấu trúc
3.4.1 Định nghĩa ngữ cảnh nút
3.4.2 Đo độ tương tự đường dẫn
3.4.3 Đo độ tương đồng ngữ cảnh nút
3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử
3.5.1 Đo độ tương đồng nút
3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh
3.6 Đánh giá tiến trình đối sánh lược đồ XML
3.6.1 Các phương pháp đánh giá
3.6.2 Đánh giá giải pháp
3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc
3.7.1 Tổng quan về tài liệu có cấu trúc
3.7.2 Chuyển đổi tự động tài liệu có cấu trúc
3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML
3.8 Kết chương
Kết luận và hướng phát triển
1. Đóng góp chính của luận văn
2. Hướng phát triển
Danh mục tài liệu tham khảo
Phụ lục
Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML
Phụ lục B: Lược đồ XML
Phụ lục C: Thuật toán của Hirst và St-Onge
114 trang |
Chia sẻ: maiphuongtl | Lượt xem: 1697 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Đối sánh tự động lược đồ XML, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
húng tôi đã kết hợp nhiều phương pháp khác nhau
trong lĩnh vực đối sánh lược đồ nhằm đưa ra một kết quả ánh xạ chính xác
đến mức có thể. Các phương pháp này bao gồm đối sánh ngôn ngữ, xét tính
tương thích kiểu dữ liệu, phân tích phân cấp kiểu người thiết kế và đối sánh
cấu trúc. Ngoài ra chúng tôi cũng đã mô tả tiến trình phát hiện các ánh xạ
phức hợp và các phép toán chuyển đổi. Các phép toán này chủ yếu được phát
hiện bằng cách sử dụng phân cấp kiểu người thiết kế và đối sánh cấu trúc.
Trong luận văn này, để đối sánh cấu trúc chúng tôi dựa trên khái niệm
ngữ cảnh nút. Có ba loại ngữ cảnh cho một nút đã cho: ngữ cảnh tổ tiên, ngữ
cảnh con và ngữ cảnh lá. Từ kết quả đánh giá chất lượng đối sánh có thể thấy
rằng sự kết hợp các ngữ cảnh này đã cải thiện được hiệu quả cho pha đối sánh
cấu trúc. Trong thời gian tới chúng tôi sẽ xem xét kỹ hơn vấn đề kết hợp kết
quả đối sánh tự động với phản hồi người dùng và kiểm thử giải pháp với
CSDL lược đồ lớn hơn. Ngoài ra chúng tôi cũng sẽ thử nghiệm việc thay đổi
các tham số được sử dụng để xem xét ảnh hưởng của chúng trên kết quả ánh
xạ, từ đó chọn được những tham số tốt nhất.
Cũng trong chương này chúng tôi đã áp dụng đối sánh lược đồ vào một
lĩnh vực ứng dụng khá điển hình, đó là vấn đề chuyển đổi tài liệu có cấu trúc.
Chúng tôi đã mô tả các khái niệm cơ bản nhất về tài liệu có cấu trúc cũng như
các nghiên cứu điển hình về vấn đề này. Dựa trên các giải thuật đã được đưa
ra gần đây, chúng tôi tổng hợp một mô hình cho hệ thống chuyển đổi tự động
tài liệu XML. Chúng tôi hy vọng rằng bằng cách áp dụng giải pháp đối sánh
lược đồ đã nêu trên vào mô hình này, vấn đề chuyển đổi tự động tài liệu XML
sẽ được giải quyết triệt để hơn. Việc thực thi mô hình này là một trong những
hướng phát triển tiếp theo của đề tài.
Kết luận và hướng phát triển
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
81
Kết luận và hướng phát triển
1. Đóng góp chính của luận văn
Trong luận văn này chúng tôi đã xem xét một cách khá toàn diện vấn đề
đối sánh lược đồ, tập trung vào vấn đề đối sánh tự động lược đồ XML.
Đối sánh lược đồ là một vấn đề đã thu hút nhiều chú ý và đã có nhiều
nghiên cứu khác nhau quan tâm đến vấn đề tự động hóa tiến trình đối sánh
lược đồ, đặc biệt là lược đồ XML. Mặc dù các nghiên cứu này đã đề cập đến
rất nhiều khía cạnh trong vấn đề đối sánh tự động, vẫn còn nhiều vấn đề cần
được giải quyết thấu đáo hơn, thậm chí vẫn còn một số vấn đề chưa được đề
cập đến. Trong luận văn này, ngoài việc trình bày các khái niệm cơ bản về
vấn đề đối sánh lược đồ, chúng tôi đã cố gắng tổng hợp lại các kết quả nghiên
cứu mới nhất về đối sánh lược đồ, đặc biệt là lược đồ XML. Tiếp theo chúng
tôi đã đưa ra một giải pháp đối sánh toàn diện và hiệu quả hơn. Cuối cùng
chúng tôi đã đưa ra một mô hình cho hệ thống chuyển đổi tự động tài liệu
XML và hy vọng rằng có thể áp dụng giải pháp đã đưa ra cho mô hình này.
Đóng góp đầu tiên của luận văn, được trình bày trong chương 1, là một
khảo sát tương đối toàn diện về vấn đề đối sánh lược đồ. Chúng tôi dựa trên
các khảo sát của Rahm và Berntein, Zamboulis, Đoàn An Hải, Đỗ Hồng Hải,
Shvaiko và Euzenat, Madhavan, Budanisky, v.v.. cũng như một số nghiên cứu
gần đây về lĩnh vực này. Dựa trên các khảo sát, chúng tôi đã mô tả một cách
khá đầy đủ các kết quả nghiên cứu về vấn đề đối sánh tự động lược đồ XML.
Kết luận và hướng phát triển
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
82
Một đóng góp tiếp theo của luận văn, được trình bày trong chương 2, là
việc tổng hợp lại các định nghĩa hình thức về vấn đề đối sánh lược đồ cũng
như sử dụng một số nghiên cứu trong các lĩnh vực khác nhằm đưa ra các định
nghĩa hình thức cho vấn đề đối sánh tự động lược đồ XML một cách đầy đủ
hơn. Đặc biệt chúng tôi cũng đã trình bày các định nghĩa hình thức cho đồ thị
lược đồ, một mô hình khá hiệu quả để biểu diễn lược đồ XML. Đồ thị lược đồ
là một mô hình đã được sử dụng trong rất nhiều hệ thống đối sánh lược đồ.
Các định nghĩa hình thức này cho phép xem xét vấn đề đối sánh lược đồ một
cách có hệ thống hơn và góp phần quan trọng vào việc đánh giá các giải pháp
đối sánh lược đồ đã được đề xuất.
Một đóng góp quan trọng của luận văn, được trình bày trong chương 3,
là việc đưa ra một giải pháp đối sánh tự động lược đồ XML. Như đã trình bày
trong suốt chương 3, giải pháp này dựa trên việc kết hợp một số nghiên cứu
riêng lẻ trong đối sánh lược đồ cũng như một số ý tưởng trong các lĩnh vực
khác (tích hợp dữ liệu, tìm kiếm và so sánh văn bản, xử lý truy vấn…). Giải
pháp này bao gồm các khía cạnh chính sau:
- Đo độ tương đồng thuật ngữ của các nút lược đồ dựa trên tên của
chúng. Phép đo này sử dụng WordNet làm nguồn từ vựng và sử dụng thuật
toán của Hirst và St-Onge để đưa ra các quan hệ ngữ nghĩa thích hợp cho vấn
đề đối sánh lược đồ.
- Đo độ tương đồng ràng buộc của các nút lược đồ dựa trên các ràng
buộc tương ứng của chúng. Ở đây chúng tôi giới hạn trong việc sử dụng kiểu
dữ liệu. Để so sánh các kiểu dữ liệu, chúng tôi đã sử dụng phân cấp kiểu lược
đồ XML trong đó sự tương thích của hai kiểu phụ thuộc vào vị trí tương ứng
của chúng trong phân cấp.
- Đo độ tương đồng cấu trúc của các nút lược đồ dựa trên trên sự tương
đồng của ngữ cảnh cấu trúc mà chúng xuất hiện. Trong luận văn này chúng
Kết luận và hướng phát triển
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
83
tôi đã xem xét các giới hạn của giải pháp hiện hành qua việc nghiên cứu các
hệ thống Cupid, SF và XClust, sau đó đưa ra một phương pháp đối sánh cấu
trúc mà xét đến đầy đủ các ngữ cảnh của nút trong đồ thị lược đồ. Ở đây
chúng tôi đã biểu diễn mỗi ngữ cảnh nút như một đường dẫn và sau đó dựa
trên phép đo độ tương tự đường dẫn để so sánh các ngữ cảnh này. Trong luận
văn này chúng tôi đã nới lỏng khái niệm đối sánh mạnh thường được sử dụng
trong việc giải quyết vấn đề trả lời truy vấn và sử dụng ý tưởng của Carmel về
việc so sánh đường dẫn để áp dụng cho vấn đề đối sánh lược đồ.
- Đưa ra thuật toán kết hợp tất cả các phép đo tương đồng trên và đưa ra
kết quả ánh xạ, các phép toán chuyển đổi và các điều kiện cho việc thực hiện
các ánh xạ. Để tạo kết quả ánh xạ này, chúng tôi đã sử dụng ý tưởng về chiến
lược phân tích trên-xuống trong lĩnh vực tích hợp dữ liệu.
- Khía cạnh cuối cùng là việc đánh giá thực nghiệm cho giải pháp. Chúng
tôi đã sử dụng một tập dữ liệu từ ứng dụng thực tế để đánh giá giải pháp đối
sánh lược đồ đưa ra. Ngoài ra chúng tôi cũng đã so sánh giải pháp này với các
hệ thống Cupid và SF và chỉ ra rằng nó thực hiện tốt hơn các thuật toán này.
Đóng góp cuối cùng của luận văn, được trình bày trong phần cuối
chương 3, là một khảo sát về vấn đề chuyển đổi tài liệu có cấu trúc và một mô
hình cho hệ thống chuyển đổi tự động tài liệu XML mà có khả năng áp dụng
được giải pháp đối sánh tự động lược đồ XML nói trên. Trong phần này
chúng tôi đã trình bày các khái niệm cơ bản về tài liệu có cấu trúc, vấn đề sử
dụng lại cấu trúc cũng như một khái niệm gắn liền với sử dụng lại cấu trúc:
chuyển đổi tài liệu có cấu trúc. Tiếp theo chúng tôi đã trình bày vấn đề
chuyển đổi tự động tài liệu có cấu trúc, bao gồm các nghiên cứu cơ bản trong
lĩnh vực này cũng như vấn đề tạo chương trình XSLT. Dựa trên các nghiên
cứu gần đây về lĩnh vực này, chúng tôi đã tổng hợp một mô hình cho phép
giải quyết hiệu quả vấn đề chuyển đổi tự động tài liệu XML.
Kết luận và hướng phát triển
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
84
2. Hướng phát triển
Cho đến đây, ta đã hoàn thành mục tiêu đặt ra ban đầu, đó là tổng kết lại
các nghiên cứu đã công bố và đưa ra giải pháp tối ưu hơn cho vấn đề đối sánh
lược đồ. Tuy nhiên như đã thấy, vấn đề này vẫn chưa được giải quyết triệt để.
Ta vẫn còn có thể mở rộng kết quả này để thu được một giải pháp đối sánh
toàn diện hơn. Sau đây là một số hướng phát triển cho đề tài này:
* Đối sánh ngôn ngữ và đối sánh dựa trên ràng buộc
Về cơ bản, giải pháp của chúng tôi vẫn chỉ quan tâm nhiều đến đối sánh
cấu trúc. Vấn đề còn lại là đối sánh ngôn ngữ và đối sánh dựa trên ràng buộc.
Trong đối sánh ngôn ngữ, chúng tôi đã sử dụng giải thuật của Hirst và
St-Onge nhằm so sánh tên các phần tử cũng như giải pháp của hệ thống Cupid
nhằm giải quyết các vấn đề như tên phần tử có tồn tại từ viết tắt, từ rút gọn,
các dấu chấm câu, v.v.. Tuy vậy, để khai thác các quan hệ từ đồng nghĩa hoặc
tổng quát nghĩa ta còn cần phải sử dụng các từ điển chuyên đề hoặc các từ
điển như WordNet. Thêm vào đó, đối sánh thuật ngữ có thể phải sử dụng các
từ điển chuyên đề bao gồm tên chung, từ đồng nghĩa, từ viết tắt, v.v.. Có thể
dựa vào các nghiên cứu về từ điển chuyên đề để thực hiện công việc này.
Ngoài ra cũng có thể sử dụng kết hợp các phương pháp đối sánh xâu thích
hợp để bổ sung cho kết quả đối sánh ngôn ngữ.
Trong đối sánh dựa trên ràng buộc, chúng tôi đã giới hạn trong việc phân
tích sự tương thích kiểu dữ liệu. Tuy vậy, ta có thể thêm vào tập ứng viên đối
sánh một số ràng buộc như đơn nhất hay toàn vẹn bằng cách sử dụng các kỹ
thuật như được mô tả trong [13]. Hơn nữa, các phân tích về ràng buộc kiểu dữ
liệu của chúng tôi cũng bị giới hạn ở một số khía cạnh, chẳng hạn như chúng
tôi không xét đối sánh mẫu. Để mở rộng vấn đề này, ta có thể sử dụng các
nghiên cứu về biểu thức chính quy và đối sánh mẫu.
Kết luận và hướng phát triển
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
85
* Tương tác người dùng hiệu quả
Một trong những vấn đề quan trọng nhất của đối sánh lược đồ là tương
tác người dùng hiệu quả. Đầu vào người dùng cần phải được đưa vào tại các
thời điểm then chốt mà ở đó nó là có ích nhất, không nhất thiết phải là trước
và/hay sau đối sánh, điều này làm cho việc hiệu chỉnh sau khi đối sánh dễ
dàng hơn vì các phỏng đoán sai lệch mà không có sự xác nhận của người
dùng sẽ không được xét đến. Hơn nữa, sự phát triển mạnh mẽ của các hệ
thống chia sẻ dữ liệu Web sẽ làm tăng hơn nữa vấn đề tương tác người dùng.
Trong thực tế, ngay cả nếu tồn tại một giải pháp đối sánh gần hoàn hảo, người
dùng vẫn phải xác nhận tính hợp lệ của một số lượng lớn các kết quả đối sánh
được đưa ra. Vấn đề ở đây là làm thế nào để giảm thiểu tương tác người dùng
nhưng vẫn tối đa hóa được ảnh hưởng của phản hồi người dùng.
* Duy trì ánh xạ
Trong các môi trường động như Web, các nguồn dữ liệu có thể thay đổi
không chỉ về dữ liệu mà còn cả về lược đồ và ngữ nghĩa. Các thay đổi này
phải được phản ánh lại trong ánh xạ. Các ánh xạ gây ra sự không nhất quán do
sự thay đổi của lược đồ phải được phát hiện và hiệu chỉnh. Có thể thấy rằng
việc duy trì bằng tay các ánh xạ là không khả thi. Điều này đòi hỏi phải phát
triển các kỹ thuật thích ứng tự động các ánh xạ khi các lược đồ thay đổi.
* Đánh giá hiệu năng
Để đánh giá giải pháp đối sánh lược đồ đã đưa ra một cách chính xác
hơn, ta cần sử dụng một tập rộng các ứng dụng và dữ liệu. Bên cạnh đó, như
[6] đã mô tả, việc định lượng sự giảm bớt can thiệp người dùng trong giải
pháp đối sánh là rất quan trọng, do vậy ta cần các phép đo đánh giá được vấn
đề này. Cuối cùng, ta cần áp dụng nhiều hơn nữa các nghiên cứu thực nghiệm
để chỉ ra ảnh hưởng của các trọng số đã chọn lên tiến trình đối sánh.
Danh mục tài liệu tham khảo
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
86
Danh mục tài liệu tham khảo
[1] S. Amer-Yahia, S. Cho, D. Srivastava. Tree Pattern Relaxation, EDBT, 2002.
[2] A. Budanitsky, G. Hirst. Semantic distance in WordNet: An experimental,
application oriented evaluation of five measures, 2003.
[3] D. Carmel, N. Efraty, G.M. Landau, Y.S. Maarek, Y. Mass. An Extension of
the vector space model for querying XML documents via XML fragments.
Second Edition of the XML and IR Workshop, In SIGIR Forum, Volume 36
Number 2, Fall 2002.
[4] G. Cobena, S. Abiteboul, A. Marian. Detecting changes in XML Documents. In
ICDE, 2002.
[5] H.H. Do, S. Melnik, E. Rahm. Comparison of schema matching evaluations. In
Proceedings of the second International Workshop on Web Databases, 2002.
[6] A.H. Doan. Learning to map between structured representations of data. PhD
thesis, University of Washington, 2002.
[7] Lexical chains as representations of context for the detection and correction of
malapropisms. In: Christiane Fellbaum (editor), WordNet: An electronic
lexical database, Cambridge, MA: The MIT Press, 1998.
[8] ISO, Information Processing- Text and Office systems- Standard
Generalization Markup Language (SGML), (ISO 8879:1986), International
Organisation for Standardisation, Geneva, 1986.
[9] P. Leinonen. Automating XML Document Structure Transformations. In
Proceedings of the ACM Symposium on Document Engineering, France,
2003.
[10] G. Linden. Structured document transformations. Report A-1997-2. CS
Department of University of Helsinki, Finland, 1997.
[11] J. Madhavan, P.A. Bernstein, E. Rahm. Generic schema matching with Cupid.
In Proceedings of the International Conference on Very Large Databases
(VLDB), 2001.
[12] S. Melnik, H. Garcia-Molina, E. Rahm. Similarity Flooding: A versatile Graph
Matching Algorithm and its Application to Schema Matching. In Proceedings
of the 18th International Conference on Data Engineering, 2002.
Danh mục tài liệu tham khảo
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
87
[13] R. Miller. The Clio Project: managing heterogeneity. ACM SIGMOD Record
30(1): 78-83, 2001.
[14] A. G. Miller (1995). WordNet: A lexical Database for English. ACM 38 (11),
pages 39-41, 1995.
[15] Mong Li Lee, Liang Huai Yang, Wynne Hsu, Xia Yang. XClust: Clustering
XML Schemas for Effective Integration, in 11th ACM International Conference
on Information and Knowledge Management, McLean, Virginia, November
2002.
[16] E. Pietriga, J-Y. Vion-Dury, V. Quint. Vxt: a visual approach to XML
transformations. In Proceedings of the ACM Symposium on Document
Engineering, 2001.
[17] E. Rahm, P.A. Bernstein. A survey of approaches to automatic schema
matching. In VLDB Journal, pages 10: 334-350, 2001.
[18] N. Routledge, L. Bird, A. Goodchild. UML and XML Schema, ADC, 2002.
[19] D. Shasha, J. Wang, K. Zhang, F. Shih. Fast algorithms for the unit cost
editing distance between trees. In Journal of Algorithms, pages 581-621, 1990.
[20] L. Xu. Source Discovery and Schema Mapping for Data Integration, PhD
thesis, 2003.
[21] L. Zamboulis. XML Schema Matching & XML Data Migration & Integration:
A Step Towards The Semantic Web Vision. Technical Report, 2003.
[22] A. Boukottaya, C. Vanoirbeek. Schema Matching for Transforming Structured
Documents. In DocEng'05, 2-4, 2005.
[23] A. Vernet. XML transformation languages. Có thể xem tại:
[24] XML Schema, W3C Recommendation, 2004. Có thể xem tại:
[25] XML Schema Part 0: Primer, W3C Recommendation, 2004. Có thể xem tại:
[26] XML Schema Part 1: Structures, W3C Recommendation, 2004. Có thể xem tại:
[27] XML Schema Part 2: Datatypes, W3C Recommendation 2004. Có thể xem tại:
[28] XSL Transformations (XSLT), W3C Recommendation, 2004. Có thể xem tại:
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
88
Phụ lục
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
89
Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML
1. Tổng quan về XML
XML (Extensible Markup Language - ngôn ngữ định dạng mở rộng) [23], là chuẩn
đặc tả dữ liệu được sử dụng rộng rãi nhất hiện nay. Có thể thấy rằng XML có quan hệ rất
gần gũi với HTML - ngôn ngữ định dạng dùng rộng rãi trong các trang Web hiện nay: cả
hai đều dựa trên chuẩn ngôn ngữ định dạng tổng quát SGML (Standard Generalized
Markup Language). Điểm khác biệt lớn nhất là các thẻ HTML đã được định nghĩa trước,
còn các thẻ XML là do người sử dụng định nghĩa và tùy theo mục đích sử dụng mà có
nhiều loại định dạng khác nhau phát sinh từ cách thức chuẩn của XML.
Sau đây ta xét một số đặc trưng của XML:
- Dễ dàng trao đổi dữ liệu: XML lưu ở dạng text và có thể dễ dàng cấu hình cũng như
thay đổi chúng bằng các trình soạn thảo thông thường. XML đã được chuẩn hóa, mọi
người đều có thể hiểu và sử dụng nó. Điều này giải quyết được khó khăn của việc chuyển
đổi qua lại giữa rất nhiều định dạng dữ liệu hiện nay.
- Tùy biến ngôn ngữ định dạng: có thể tạo ra các ngôn ngữ định dạng tùy biến dựa
trên XML. Không chỉ vậy, có thể mở rộng chúng, có thể ghi chú thích trong tài liệu. Đây là
một trong những khả năng mạnh nhất của XML.
- Dữ liệu có cấu trúc và tích hợp: XML không chỉ cho phép lưu dữ liệu vào file XML
dựa trên thẻ mà còn tổ chức dữ liệu theo cấu trúc, theo đó các phần tử thẻ tích hợp với
nhau tạo nên một cấu trúc dữ liệu phân cấp hoàn chỉnh. Điều này cho phép ta định nghĩa
dữ liệu có cấu trúc một cách hết sức thuận lợi.
Nhìn chung XML hoàn toàn thích hợp cho việc liên lạc giữa các môđun, các thành
phần trong bất kì chương trình ứng dụng nào dù nhỏ hay lớn.
1.1 Khuôn dạng tài liệu XML
Các phần của tài liệu XML được gọi là thực thể, nó có thể chứa dữ liệu văn bản hoặc
nhị phân nhưng không được cả hai. Một thực thể có thể tham chiếu đến thực thể khác, có
thể dùng để phân tích hoặc làm dữ liệu thông thường (không dùng cho mục đích phân
tích).
Tài liệu XML được bắt đầu bằng chỉ thị . Nếu toàn bộ tài
liệu là một thực thể duy nhất không tham chiếu đến các thực thể khác thì thêm chỉ thị
standalone = “yes”. Sau đó là các thẻ chứa dữ liệu theo cấu trúc phân cấp.
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
90
- Định dạng và dữ liệu kí tự: tài liệu XML tạo thành từ thành phần định dạng và
thành phần dữ liệu kí tự, còn dữ liệu nhị phân chưa có quy định cách đưa vào mà chỉ được
tham chiếu đến bằng cách biểu diễn thực thể.
Định dạng bao gồm thẻ bắt đầu, thẻ kết thúc, các phần tử thẻ rỗng, các tham chiếu
thực thể, tham chiếu ký tự, lời chú thích, phân đoạn CDATA, khai báo kiểu tài liệu và chỉ
thị xử lý. Tất cả các dữ liệu còn lại trong tài liệu không phải là định dạng đều được xem là
dữ liệu ký tự.
- Phần khởi đầu (prolog): bắt đầu ngay từ những dòng đầu của tài liệu, nhìn chung
bao gồm các khai báo, chú thích, chỉ thị xử lý, khoảng trắng và khai báo kiểu tư liệu
(DTD). Chuẩn XML không yêu cầu khai báo prolog, tuy vậy ta nên dùng nó, ít nhất cũng
nên có dòng khai báo phiên bản sử dụng.
- Các khai báo: khai báo XML sử dụng phần tử . Có 3 kiểu khai báo thuộc
tính: khai báo phiên bản cho biết phiên bản đặc tả XML, khai báo mã hóa cho biết bộ mã
đang sử dụng (mặc định là UTF-8, có thể sử dụng mã Unicode, UCS-2, UCS-4…), khai
báo thực thể độc lập là “yes” nếu tài liệu không tham chiếu đến các thực thể khác bên
ngoài, nếu không là “no”.
- Chú thích: bắt đầu bằng . Chú thích không được đặt trước
khai báo, không thể dùng chuỗi -- trong đoạn chú thích. Chú thích có thể dùng để loại bỏ
một đoạn mã nào đó (trong nội dung chú thích không được chứa chú thích khác).
- Chỉ thị xử lý: bắt đầu bằng , nhằm chỉ dẫn cho bộ phân tích
cách xử lý tài liệu XML. Ví dụ:
- Thẻ và các phần tử (element): thẻ mở có dạng “”, thẻ đóng có dạng “.
Thẻ bắt đầu phải có thẻ kết thúc tương ứng. Tên thẻ có quy định chặt chẽ: bắt đầu bằng kí
tự, gạch chân (_), dấu hai chấm (:), kế tiếp có thể là kí tự, kí số, gạch chân, gạch nối, dấu
chấm, dấu hai chấm (nên tránh dùng) nhưng không được là khoảng trắng. Thẻ phân biệt
chữ hoa và chữ thường.
Phần tử có thể chỉ có duy nhất một thẻ, tức là phần tử rỗng không kèm theo dữ liệu.
Ví dụ: . Phần tử gốc là phần tử chứa tất cả các
phần tử và các cặp thẻ khác trong tài liệu.
- Thuộc tính: tương tự thuộc tính các thẻ trong HTML, có dạng name=value. Ví dụ:
. Nhìn chung nếu có quá nhiều thuộc tính trong
thẻ sẽ làm tài liệu khó đọc. Tên thuộc tính theo đúng quy tắc đặt tên thẻ, còn trị gán cho
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
91
thuộc tính là text, do vậy nếu ta gán cho nó một số thì phải đặt trong dấu nháy kép. Nếu
chuỗi chứa các ký tự định dạng, ta dùng thực thể thay thế (“'”~”‘”, “"”~”“”).
Để mô tả về ngôn ngữ của dữ liệu, ta dùng thuộc tính xml:lang, ví dụ:
Hello
Hi
Một số vấn đề khác cũng quan trọng không kém nhưng do khuôn khổ phần phụ lục
này ta sẽ không nêu ra ở đây như khuôn dạng cấu trúc tài liệu XML, phân đoạn CDATA,
không gian tên của XML, Infoset v.v.. có thể tham khảo trong [23].
1.2 Định nghĩa kiểu tư liệu (DTD) và tính hợp lệ của tài liệu XML
Định nghĩa kiểu tư liệu - DTD (Document Type Definition) là quy định cách thức lưu
giữ dữ liệu của tài liệu XML. Khai báo thường đặt ở phần khởi đầu tài liệu.
Có thể định nghĩa lồng nhau các phần tử DTD. Có thể định nghĩa DTD với nội dung
hỗn hợp, ví dụ: , hoặc định
nghĩa cho các phần tử rỗng, ví dụ: . Ta cũng
nên chú thích cho các phần tử định nghĩa DTD (giống như chú thích XML).
- Định nghĩa DTD ngoại: sử dụng từ khóa SYSTEM trong chỉ thị khai báo
.
- Tham chiếu DTD dùng chung: sử dụng từ khóa PUBLIC thay cho SYSTEM. Thực
tế ta có thể dùng chung hai loại tham chiếu nội và ngoại trong cùng tài liệu XML vào cùng
thời điểm.
Một số vấn đề quan trọng khác như không gian tên và các định nghĩa DTD... có thể
tham khảo trong [23].
1.3 Thực thể và thuộc tính DTD của tài liệu XML
- Có hai loại thực thể: thực thể tổng quát - dạng & … ; và thực thể tham số - dạng %
… ;. Thực thể có thể là nội hoặc ngoại, có thể ở dạng phân tích hoặc không phân tích.
- Thuộc tính: sử dụng chỉ thị khai báo để định nghĩa danh sách các
thuộc tính sẽ kết hợp với phần tử thẻ DTD nào đó.
- Tạo các thực thể tổng quát nội: có thể tạo các định nghĩa tham chiếu cho thực thể
lồng nhau, nhưng không được theo kiểu tham chiếu vòng.
- Tạo các thực thể tổng quát ngoại: tương tự DTD, có thể sử dụng SYSTEM hoặc
PUBLIC cho khai báo thực thể ngoại. Có thể sử dụng định nghĩa FPI. Có thể sử dụng tham
chiếu thực thể ngoại để nhúng dữ liệu từ tài liệu khác vào tài liệu gốc.
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
92
- Tham chiếu thực thể tổng quát được định nghĩa trước: ngoài năm loại đã được định
nghĩa trước, ta có thể đưa vào các ký tự đặc biệt khác sử dụng mã kí tự.
- Tạo các thực thể tham số nội: các tham chiếu thực thể tổng quát không được dùng
cho các định nghĩa DTD, do đó ta sử dụng tham chiếu thực thể tham số dạng % … ;.
Tuy vậy không thể đưa tham chiếu thực thể tham số nội vào các khai báo DTD khác
mà chỉ có thể sử dụng chúng trong phần khai báo DTD chính.
- Tạo các thực thể tham số ngoại: các thực thể tham số ngoại có thể dùng ở bất cứ đâu
trong khai báo DTD, do đó tránh được các khai báo lặp lại.
- Sử dụng INCLUDE và IGNORE: để thêm vào hay bỏ qua các đoạn định nghĩa
DTD. Có thể sử dụng chúng kết hợp với các tham số thực thể để tham số hóa các khai báo
DTD, khi đó có thể bỏ qua hoặc thêm vào một tập các khai báo DTD chỉ bằng cách thay
đổi giá trị của thực thể tham số. Kỹ thuật này giúp tập trung hóa các thực thể cần dùng để
tùy biến. Nó đã được sử dụng trong các định nghĩa XHTML 1.1 DTD.
Một số vấn đề quan trọng khác như các tính chất của thuộc tính, nhúng dữ liệu phi
XML vào tài liệu, nhúng nhiều thực thể phi định dạng vào tài liệu v.v.. có thể tham khảo
trong [23].
2. Xử lý tài liệu XML
Để phân tích tài liệu XML ta có thể dùng rất nhiều thư viện lập trình từ các ngôn ngữ
khác nhau: XML for Java (XML4J), Microsoft XML Parser, Java Standard Extension for
XML, Python XML Parser…
Hiện nay, thay cho bộ mã ký tự một byte ASCII truyền thống người ta đang chuyển
dần sang bộ mã kí tự hợp nhất hai bytes Unicode. Thậm chí một đặc tả mới về tập kí tự 4
bytes đang hình thành đó là UCS (Universal Character System).
2.1 Xử lý bằng Java Script theo mô hình DOM
DOM - mô hình đối tượng tài liệu (Document Object Model) được W3C định nghĩa
dưới dạng cây phân cấp bao gồm các nút chứa phần tử, dữ liệu văn bản, thuộc tính… và
các nút con. Có tất cả 12 loại nút trong mô hình DOM (xem các tài liệu tham khảo liệt kê
cuối bài). W3C cũng định nghĩa nhiều cấp độ cho mô hình DOM, thông dụng nhất hiện
nay là cấp độ 1. Cấp độ này tập trung vào sự kết hợp giữa tài liệu HTML và XML.
- Có hai cách để nạp tài liệu XML vào trình duyệt bằng JavaScript: hoặc sử dụng lớp
đối tượng Microsoft.XMLDOM hoặc dùng phần tử nạp dữ liệu .
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
93
Để lấy về các nút trong tài liệu, trước hết ta lấy về nút gốc bằng phương thức
documentElement, sau đó đi qua các nút con bằng các phương thức fistChild, nextChild,
previousChild, lastChild, các nút cùng cấp bằng firstSibling, nextSibling, previousSibling,
lastSibling, sau đó có thể hiển thị thông tin ra trình duyệt.
Đối với cách thứ hai, ta sử dụng thẻ nạp trực tiếp dữ liệu XML vào trang
HTML để xử lý bằng JavaScript.
Ngoài ra ta có thể dùng trực tiếp tên của các phần tử để lấy ra danh sách các nút bằng
phương thức getElementByTagName(“NODE_NAME”). Bên cạnh đó, ta có thể lấy về
danh sách các thuộc tính của nút bằng phương thức attributes, sau đó gọi phương thức
getNameItem để lấy về tham chiếu đến một nút cụ thể theo tên, cuối cùng ta dùng phương
thức value lấy về giá trị thực tế của thuộc tính.
- Phân tích toàn bộ tài liệu XML: sử dụng thủ tục đệ quy. Phương thức childNodes
dùng để lấy về danh sách các nút con nếu có, sau đó đệ quy duyệt tiếp xuống các phần tử
con.
Mô hình DOM gồm 12 kiểu nút, ta có thể sử dụng giá trị nodeType để xác định kiểu
dữ liệu và thuộc tính nodeValue để trích rút nội dung dữ liệu của nút. Ta cũng có thể dùng
sự kiện onreadstatechange kiểm tra trạng thái nạp và hủy dữ liệu XML của trình duyệt. Sự
kiện ondataavailable cho biết quá trình nạp dữ liệu dã hoàn tất và dữ liệu đang trong trạng
thái sẵn sàng để xử lý.
Ta có thể kiểm tra tính hợp lệ của tài liệu XML bằng JavaScript với mô hình tài liệu
DOM. Dựa vào đối tượng parseError của dữ liệu nguồn để biết được các thông tin về lỗi.
Có thể xem chi tiết hơn trong [23].
- Ngoài khả năng xử lý tài liệu, JavaScript còn có thể thay đổi nội dung cấu trúc tài
liệu (dùng các phương thức createElement(), insertBefore(), createTexxtNode(),
appendChild()…)
2.2 Xử lý bằng Java theo mô hình DOM
Dùng Java có thể xử lý tài liệu XML mà không phụ thuộc vào trình duyệt. Thư viện
xử lý phân tích tài liệu XML mà ta sử dụng ở đây là XML4J. Ta sẽ mô tả một vài phương
thức xử lý trong gói thư viện này.
Giả sử ta đã có một tập tin XML “order.xml” với các thẻ định dạng theo mô hình cây
phân cấp (đã xem xét ở các phần trước). Để xử lý được bằng Java, trước hết ta đưa vào thư
viện xử lý DOM:
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
94
import org.w3c.dom.*;
import org.apache.xerces.parsers.DOMParser;
Sau đó quy trình xử lý tương tự như khi sử dụng JavaScript. Để đếm số phần tử trong
tài liệu XML, ta dùng phương thức getLength(). Để đọc và hiển thị toàn bộ nội dung tài
liệu, ta dùng kĩ thuật đệ quy. Một chương trình như vậy sẽ có các phương thức chính sau:
- Xử lý nút trong tài liệu (nút phần tử, nút thuộc tính…): cài đặt phương thức
display() để kiểm tra và xử lý một nút dữ liệu của cây tài liệu DOM. Đối với mỗi kiểu nút,
ta so khớp kiểu của nút nhận được với hằng được định nghĩa sẵn (có 12 loại nút trong mô
hình DOM).
Với mỗi nút phần tử, để xử lý thuộc tính, ta dùng phương thức getAttributes(), trả về
một mảng danh sách các thuộc tính có trong phần tử. Ta có thể dùng vòng lặp for để duyệt
qua từng phần tử thuộc tính. Mỗi phần tử có thể bao gồm danh sách các phần tử con, ta
gọi phương thức getChildNodes() để lấy ra danh sách các phần tử con nếu có của phần tử
hiện hành. Tiếp đến vòng lặp for được gọi để đi đến từng nút con gọi đệ quy lại phương
thức display().
Cách thức xử lý nút phân đoạn CDATA, nút dữ liệu văn bản, nút chỉ thị xử lý, thẻ
đóng… hoàn toàn tương tự. Bằng cách xử lý này, ta có thể xây dựng được chương trình
tìm kiếm thông tin trong tài liệu XML. Thay vì kết xuất ra màn hình văn bản, ta có thể kết
xuất ra màn hình đồ họa, cũng vậy ta có thể ứng dụng XML cho hiển thị đồ họa.
- Duyệt đến từng nút cụ thể trong tài liệu: tương tự trong JavaScript, ta có thể sử
dụng các phương thức trong Java như getFirstChild(), getNextSibling()… để duyệt đến
từng nút trong tài liệu.
- Thay đổi nội dung tài liệu: ngoài việc đọc và phân tích nội dung tài liệu, ta có thể
thêm hoặc thay đổi cấu trúc dữ liệu đầu vào để tạo ra một cấu trúc tài liệu XML mới.
Tương tự JavaScript, trong Java ta dùng các phương thức createElement(),
createTexxtNode(), appendChild()…
2.3 Xử lý bằng Java theo mô hình SAX
- SAX (Simple API for XML) là mô hình xử lý dữ liệu XML theo hướng sự kiện. Dữ
liệu mà ta mong muốn sẽ tự động gửi đến khi một sự kiện phát sinh thay vì phải lấy dữ liệu
ra bằng cách lần đến từng nút. Trong mô hình DOM, để chọn kiểu nút cần xử lý, ta dùng
các mệnh đề case và so sánh với các hằng đã định nghĩa. Còn trong mô hình SAX, trình
phân tích sẽ chịu trách nhiệm đọc và diễn dịch toàn bộ nội dung tài liệu. Khi phát hiện một
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
95
kiểu nút nào đó, sự kiện tương ứng sẽ phát sinh và hàm xử lý sự kiện dành cho nút sẽ được
gọi đến.
Thư viện XML4J hỗ trợ cả hai mô hình DOM và SAX. Trong chương trình Java sử
dụng các khối thư viện: org.xml.sax.*, org.xml.sax.helpers.DefaultHandler,
org.apache.xerces.parsers.SAXParser. Sau đó quy trình xử lý bao gồm: khởi tạo bộ phân
tích SAX, nạp dữ liệu vào bộ phân tích (tương tự mô hình DOM).
Sử dụng các phương thức startElement(), endDocument(), ta có thể xử lý các thẻ
trong tập tin, chẳng hạn so sánh xem thẻ đọc được có phải có tên là “NAME” không.
startElement() bao gồm một số tham số như địa chỉ nguồn, tên thẻ mở không có tiếp đầu
ngữ của không gian tên, tên thẻ đầy đủ, danh sách thuộc tính có trong phần tử thẻ.
Một số các phương thức khác như startDocument(), startCDATA(), characters(),
processingInstruction() là các phương thức xử lý sự kiện tương ứng với các kiểu nút
DOCUMENT_NODE, ELEMENT_NODE, CDATA_SECTION_NODE, TEXT_NODE
và PROCESSING_INSTRUCTION_NODE. Cách thức sử dụng các phương thức này cũng
tương tự như các phương thức trên.
- Để tìm kiếm và lọc ra một phần tử trong tài liệu XML, ta cài đặt điều kiện lọc trong
phương thức startElement() thông qua cờ printFlag, tức là chỉ có những phần tử thỏa mãn
điều kiện lọc thì cờ printFlag mới được bật (true).
- Trong mô hình SAX, khác với DOM, tài liệu không được xem là cấu trúc cây, ta chỉ
đến được một nút khi có sự kiện nào đó phát sinh, do đó không thể dùng các phương thức
dạng như firstChild()… mà phải tự đánh dấu và tìm ra phần tử dựa vào sự kiện. Khác với
DOM, trong mô hình SAX ta không thể đi đến một mục dữ liệu nào đó trực tiếp, do đó để
thay đổi cấu trúc dữ liệu XML, chẳng hạn chèn một nút mới, phải dựa vào sự kiện
startElement().
3. XML và các vấn đề khác
3.1 Ràng buộc dữ liệu XML trong IE theo mô hình DSO
- Ràng buộc dữ liệu cho phép kết nối dữ liệu trong tài liệu XML vào mô hình ADO
của Microsoft. Bằng cách này, có thể xử lý dữ liệu trong tài liệu đơn giản và dễ dàng tương
tự như đang làm việc trên hệ CSDL thực sự. Kỹ thuật này cũng cho phép chuyển dữ liệu từ
các hệ CSDL vào tài liệu và ngược lại.
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
96
- DSO cung cấp khá đầy đủ các phương thức, thuộc tính và sự kiện để xử lý dữ liệu
trong tập recordset. Do khuôn khổ phần phụ lục này, ta sẽ không trình bày vấn đề này ở
đây. Chi tiết hơn có thể xem trong [23].
3.2 Một số khái niệm XML mới: XPath, XLink, XBase, XPointer
- XPath là một dạng đường dẫn trong tài liệu XML, tương tự như đường dẫn của hệ
thống tập tin. XPath có nhiều ứng dụng quan trọng trong xử lý tài liệu chuyển dịch XSL,
đặc tả XPointer…
- XLink là một dạng mở rộng của HTML Link, nó có nhiều tùy biến và linh hoạt hơn
liên kết HTML như liên kết giản đơn, liên kết mở rộng, định vị, cung liên kết, tài nguyên
liên kết, tiêu đề liên kết, tùy biến…
- XBase là khái niệm định địa chỉ cơ sở cho tài liệu XML, có thể hiểu nó như là cách
định nghĩa địa chỉ gốc giúp thu gọn địa chỉ liên kết.
- XPointer là con trỏ chỉ mục giúp chỉ ra chính xác vị trí nút tài liệu, nó xây dựng dựa
trên khái niệm XPath. XPointer định nghĩa một vị trí dữ liệu dựa trên điểm trỏ (point).
3.3 Hiển thị tài liệu XML: CSS và XSL
- CSS và XSL đều có tác dụng tạo định dạng hiển thị cho trang XML. CSS là một tập
mẫu định dạng kiểu cho XML. XSL là một tài liệu tuân theo đúng quy tắc và cú pháp xây
dựng tài liệu XML. XSL có các quy định chặt chẽ về kiểu nút theo cấu trúc cây, nhìn
chung có cách xử lý tương tự như mô hình DOM hay SAX. Có thể lập trình và biến đổi dữ
liệu XML nhờ các thẻ điều khiển mà XSL cung cấp (xem chi tiết trong [23]).
3.4 Ứng dụng XML: XHTML, CDF, RDF, VML, WML, SOAP, AppML...
Các ứng dụng XML hiện nay đã phát triển rất phong phú: XHTML - HTML mở
rộng, CML - ngôn ngữ định dạng hóa học, MathML - ngôn ngữ định dạng toán học, CDF -
khuôn dạng định nghĩa kênh, RDF – khung định nghĩa tài nguyên, SMIL - ngôn ngữ tích
hợp đa phương tiện đồng bộ, EBRL - ngôn ngữ định dạng báo cáo, XUL - ngôn ngữ cấu
hình giao diện người dùng, VML - ngôn ngữ định dạng vector, WML - ngôn ngữ định
dạng mạng không dây, SOAP - giao thức truy cập đối tượng giản lược, v.v.. Đặc biệt
AppML được Microsoft hứa hẹn là một trong những mô hình ứng dụng trong tương lai. Có
thể tìm hiểu thêm trong [23].
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
97
Phụ lục B: Lược đồ XML
Lược đồ XML được W3C (World Wide Web Consortium) bắt đầu quan tâm từ năm
1998 và phiên bản đầu tiên được công bố chính thức vào 5/2001 [24], [25], [26], với mục
đích tạo ra một ngôn ngữ lược đồ có ý nghĩa hơn DTD. Cấu trúc của một tài liệu XML
được định nghĩa trong một lược đồ XML dưới dạng các quan hệ phân cấp đã định nghĩa
trước giữa các phần tử XML và/hoặc các thuộc tính với các ràng buộc đặc trưng có liên
quan (ví dụ như thứ tự và số yếu tố). Trong mục này, ta sẽ đưa ra các tính năng chính cần
quan tâm của ngôn ngữ lược đồ XML khi định nghĩa vấn đề đối sánh lược đồ XML.
1. Các kiểu dữ liệu lược đồ XML
Một kiểu dữ liệu lược đồ XML (sử dụng thuật ngữ của [26]) là một bộ-3, bao gồm:
- Một tập các giá trị phân biệt, gọi là không gian giá trị (miền),
- Một tập các biểu diễn từ vựng, gọi là không gian từ vựng,
- Một tập các giới hạn kiểu mô tả các thuộc tính của không gian giá trị, các giá trị
riêng lẻ hoặc các mục từ vựng. Kiểu trong lược đồ XML có thể là đơn giản hoặc phức hợp.
Kiểu đơn giản cho phép nội dung dữ liệu là ký tự nhưng không phải là phần tử con hoặc
thuộc tính. Kiểu phức hợp thì cho phép có phần tử con hoặc thuộc tính.
Khuyến nghị lược đồ XML định nghĩa 44 kiểu đơn giản nội tại mô tả các kiểu dữ liệu
được sử dụng chung. Chúng bao gồm kiểu xâu (string), kiểu số (numerical) (ví dụ float,
decimal, integer), kiểu ngày tháng (date) và thời gian (time) (ví dụ date, duration, time).
Lược đồ XML cũng cho phép người dùng dẫn xuất ra các kiểu riêng từ các kiểu nội tại
bằng cách áp dụng một số giới hạn kiểu, ví dụ như hạn chế phạm vi hợp lệ của các giá trị
số bằng cách thiết lập các giá trị lớn nhất/nhỏ nhất và giới hạn chiều dài của giá trị xâu.
Lược đồ XML đề nghị hai cách khác để định nghĩa các kiểu đơn giản dẫn xuất: dẫn
xuất theo danh sách và dẫn xuất theo hợp. Không gian giá trị của một kiểu dữ liệu danh
sách là một tập các dãy chiều dài hữu hạn của các giá trị nguyên tố. Kiểu dữ liệu nguyên tố
trong định nghĩa của một kiểu dữ liệu danh sách được xem là itemType của kiểu dữ liệu
danh sách đó.
2. Khai báo thuộc tính và phần tử
Định nghĩa thuộc tính và định nghĩa phần tử cho phép cả toàn cục hoặc cục bộ. Nếu
là toàn cục, chúng được định nghĩa như là con trực tiếp của phần tử , và sau đó
có thể được tham chiếu từ các phần tử tùy ý. Nếu là cục bộ, chúng được
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
98
định nghĩa trong một phần tử . Định nghĩa thuộc tính được cho bởi các
phần tử chỉ ra tên, kiểu (luôn là kiểu đơn giản), số yếu tố nhỏ nhất (tùy chọn
hoặc yêu cầu) và lớn nhất và có thể là một giá trị mặc định hoặc một giá trị cố định. Khai
báo phần tử kết hợp tên với định nghĩa kiểu (đơn giản hoặc phức hợp), giá trị mặc định
(tùy chọn) và tập các định nghĩa ràng buộc đồng nhất (có thể rỗng). Sự kết hợp có thể là
toàn cục hoặc giới hạn phạm vi trong một định nghĩa kiểu phức hợp.
3. Các kiểu phức hợp
Ngược lại với kiểu đơn giản, kiểu phức hợp cho phép có các phần tử con hoặc các
định nghĩa thuộc tính. Các kiểu dữ liệu này sau đó được sử dụng cho việc định nghĩa kiểu
phần tử. Đây là một trong những khác biệt chính của lược đồ với DTD: các phần tử (tức là
các thẻ được sử dụng trong tài liệu) có thể khác với các kiểu dữ liệu (định nghĩa như là các
kiểu phức hợp). Kiểu dữ liệu phức hợp cũng có thể được dẫn xuất từ các kiểu dữ liệu đã
tồn tại bằng cách hạn chế một kiểu dữ liệu phức hợp khác (trong thành phần của nó hoặc
trong cấu trúc của nó) hoặc mở rộng một kiểu dữ liệu đơn giản hoặc phức hợp.
Định nghĩa kiểu phức hợp bao gồm các thuộc tính sau:
- Tên.
- Kiểu cơ sở và phương pháp dẫn xuất (nếu là kiểu dẫn xuất).
- Khai báo thuộc tính chứa phần tử con như đã mô tả ở trước.
- Kiểu nội dung (elementOnly, empty, mixed hoặc kiểu đơn giản).
- Mô hình nội dung (trong trường hợp elementOnly): chứa phần tử con
(như đã mô tả ở dưới) khai báo cấu trúc của nội dung phần tử. Nội dung phần tử có thể
được lồng thêm vào các phần tử , , và cho phép chỉ ra
các thuộc tính tương đồng như DTD.
4. Khả năng thay thế phần tử và kiểu
Lược đồ XML cung cấp cơ chế nhóm thay thế cho phép các phần tử (kiểu) được thay
thế bởi các phần tử (kiểu) khác. Cụ thể hơn, các phần tử có thể được gán cho một nhóm
phần tử đặc biệt mà được xem là có khả năng thay thế cho một phần tử có tên đặc biệt gọi
là phần tử đầu. Các phần tử trong một nhóm thay thế phải có cùng kiểu như phần tử đầu,
hoặc có thể có kiểu dẫn xuất từ kiểu của phần tử đầu. Tương tự như sự thay thế phần tử,
lược đồ XML đưa ra khả năng thay thế kiểu, tức là khả năng thay thế nội dung phần tử
bằng nội dung khác. Nguyên lý của thay thế kiểu là một kiểu cơ sở có thể được thay thế
bởi bất kỳ một kiểu dẫn xuất nào.
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
99
5. Kiểu trừu tượng và phần tử trừu tượng
Lược đồ XML đưa ra khái niệm kiểu trừu tượng và phần tử trừu tượng. Như thường
thấy trong mô hình hóa hướng đối tượng, kiểu trừu tượng có thể không có thể hiện trực
tiếp nhưng có thể có kiểu con cụ thể. Nếu một phần tử được khai báo là kiểu trừu tượng thì
trong một tài liệu thể hiện XML mô hình nội dung của phần tử đó có thể không phải là của
kiểu trừu tượng nhưng là của một trong các kiểu dẫn xuất của kiểu trừu tượng đó. Khái
niệm trừu tượng cũng áp dụng cho phần tử. Nếu một phần tử được khai báo trừu tượng thì
trong một tài liệu thể hiện XML phần tử đó có thể không xuất hiện nhưng các phần tử
thuộc nhóm thay thế cho phần tử trừu tượng lại có thể xuất hiện tại vị trí của nó.
6. Ràng buộc toàn vẹn
Lược đồ XML hỗ trợ ràng buộc toàn vẹn và ràng buộc toàn vẹn tham chiếu đã biết
trong mô hình quan hệ: duy nhất, khóa và khóa tham chiếu. Duy nhất/khóa chỉ ra một danh
sách thuộc tính phải nhận dạng duy nhất mỗi mục giữa một tập các nút được đánh địa chỉ
bằng một bộ chọn (là một biểu diễn XPath được hạn chế). Cơ chế này mạnh hơn khái niệm
ID/IDREF trong DTD. Lược đồ XML có nhiều ràng buộc tham chiếu và đồng nhất như:
- Nội dung phần tử có thể được định nghĩa là duy nhất.
- Các thuộc tính không chỉ mục (non-ID) có thể được khai báo hoặc là duy nhất hoặc
là khóa.
- Sự kết hợp nội dung phần tử và các thuộc tính có thể được khai báo là duy nhất
hoặc khóa, tức là không chỉ duy nhất mà luôn hiện diện và không rỗng.
- Lược đồ XML phân biệt giữa duy nhất và khóa.
- So sánh giữa các trường khóa tham chiếu và các trường khóa hoặc duy nhất là so
sánh bằng nhau về giá trị mà không phải bằng nhau về xâu.
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
100
Phụ lục C: Thuật toán của Hirst và St-Onge
1. Quan hệ từ
Kỹ thuật đối sánh thuật ngữ đã đề xuất trong chương 3 sử dụng ba loại quan hệ: quan
hệ rất mạnh (extra-strong) giữa một từ và sự nhắc lại nguyên thể của nó, quan hệ mạnh
(strong): gồm một trong ba kịch bản đã giải thích trong mục 3.2.2 của chương 3 và quan
hệ trung bình (medium), xảy ra khi có một đường dẫn được phép kết nối các synset liên kết
với mỗi từ. Các định nghĩa của đường dẫn được phép sử dụng một phân loại các quan hệ
synset WordNet thành các liên kết lên, xuống và ngang.
Bảng C.1 sau đưa ra các ví dụ về các quan hệ synset WordNet và các hướng tương
ứng của chúng. Còn hình C.1 sau các ví dụ về đường dẫn được phép cũng như không được
phép. Dựa trên định nghĩa các đường dẫn được phép và lấy chiều dài lớn nhất của đường
dẫn được phép bằng 4, ta phân biệt bảy trường hợp như minh họa trong hình C.2.
Quan hệ Hướng
Also see Horizontal
Attribute Horizontal
Cause Down
Entailment Down
Holonymy Down
Hypernymy Up
Hyponymy Down
Meronymy Up
Pertinence Horizontal
Similarity Horizontal
Bảng C.1 Phân loại các quan hệ trong WordNet thành các hướng
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
101
Hình C.1 Đường dẫn được phép và không được phép trong thuật toán của Hirst và St-Onge
Hình C.2: Phân loại các quan hệ ngữ nghĩa trong WordNet
0
1
1
1
1
5
5 5
5 5 5
4 4 4
3 3 3 3
7 7 7
2
6 6 6
2
6 6
2
2
6
Các nút trong đồ thị này mô tả các synset của
các từ (word). Các quan hệ ngữ nghĩa giữa các
từ được chai thành bốn loại:
Tương đương (Equivalent): tồn tại một hay
nhiều liên kết ngang giữa các synset của các từ
(trường hợp 3).
Rộng hơn (Broader than): tồn tại một hay
nhiều liên kết lên giữa hai synset (trường hợp
1) hoặc các liên kết lên theo sau là các liên kết
ngang (trường hợp 5).
Liên quan tới (Related-to): tồn tại một liên
kết lên theo sau là một liên kết xuống và có thể
là các liên kết ngang (hai từ có một từ bao
(hypernym) chung) (trường hợp 4).
Hẹp hơn (Narrower than): tồn tại một (hoặc
nhiều) liên kết xuống giữa hai synset (trường
hợp 2) hoặc một liên kết xuống theo sau bởi
các liên kết ngang (trường hợp 6 và 7).
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
102
2. Thuật toán đối sánh thuật ngữ
// Quan hệ rất mạnh
if (word1=word2) return 24;
else
// Quan hệ mạnh
S1=synsetsOf(word1);
S2=synsetsOf(word2);
foreach s1 in S1
H1=horizontalSynsets(word1);
U1=UpwardSynsets(word1);
D1=DownwardSynsets(word1);
foreach s2 in S2
H2=horizontalSynsets(word2);
U2=UpwardSynsets(word2);
D2=DownwardSynsets(word2);
if s1=s2 then return 16;
if (s1 is In(H2) or s2 is In(H1)) return 16;
if (s1 is In(U2) or s1 is In(D2)) return 16;
if (s2 is In(U1) or s2 is In(D1)) return 16;
endif
// Quan hệ trung bình
listOfWeight=medStrong(0,0,0,s1,S2);
return (max(listOfWeight));
MedStrong (state, distance, chdir, from, To)
if ((from is In(To) and (distance > 1))
// tìm thấy đường dẫn
listOfWeigth.add(8-distance-chdir);
return true;
endif
if (distance >= 5)
// đường dẫn quá dài
return false;
endif
if (state = 0)
H=horizontalSynsets(from);
U=UpwardSynsets(from);
D=DownwardSynsets(from);
retU=retD=retH=false;
foreach u in U
retU=retU or medStrong(1,distance+1,0,h, To);
// thử đi lên (state =1)
foreach d in D
retD=retD or medStrong(2,distance+1,0,d, To);
// thử đi xuống (state =2)
foreach h in H
retH=retH or medStrong(3,distance+1,0,d, To);
// thử đi ngang (state =3)
return (retU or retD or retH);
endif
if (state = 1)
// thay đổi hướng đầu tiên là lên, sau đó có thể chuyển sang lên hoặc ngang
H=horizontalSynsets(from);
U=UpwardSynsets(from);
D=DownwardSynsets(from);
retU=retD=retH=false;
foreach u in U
retU=retU or medStrong(1,distance+1,0,h, To);
// thử đi lên (state =1)
foreach d in D
retD=retD or medStrong(4,distance+1,1,d, To);
// thử đi xuống (state =4)
foreach h in H
retH=retH or medStrong(5,distance+1,1,d, To);
// thử đi ngang (state =5)
return (retU or retD or retH);
endif
Phụ lục
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin
103
if (state = 2) // đi xuống
H=horizontalSynsets(from);
D=DownwardSynsets(from);
retD=retH=false;
foreach d in D
retD=retD or medStrong(2,distance+1,0,d, To);
// thử đi xuống (state =2)
foreach h in H
retH=retH or medStrong(6,distance+1,0,d, To);
// thử đi ngang (state =6)
return (retD or retH);
endif
if (state = 3) // đi ngang
H=horizontalSynsets(from);
D=DownwardSynsets(from);
retD=retH=false;
foreach d in D
retD=retD or medStrong(7,distance+1,0,d, To);
// thử đi xuống (state =7)
foreach h in H
retH=retH or medStrong(3,distance+1,0,d, To);
// thử đi ngang (state =3)
return (retD or retH);
endif
if (state = 4) // đi lên hoặc xuống
D=horizontalSynsets(from);
retD=false;
foreach d in D
retD=retD or medStrong(4,distance+1,0,d, To);
// thử đi ngang (state =4)
return (retD);
endif
if (state = 5) // đi lên hoặc ngang
H=horizontalSynsets(from);
D=DownwardSynsets(from);
retD=retH=false;
foreach d in D
retD=retD or medStrong(4,distance+1,2,d, To);
// thử đi xuống (state =4)
foreach h in H
retH=retH or medStrong(5,distance+1,1,d, To);
// thử đi ngang (state =5)
return (retD or retH);
endif
if (state = 6) // đi xuống và ngang
H=horizontalSynsets(from);
retH=false;
foreach h in H
retH=retH or medStrong(6,distance+1,1,d, To);
// thử đi ngang (state =6)
return (retH);
endif
if (state = 7) // đi ngang và xuống
D=horizontalSynsets(from);
retD=false;
foreach d in D
retD=retD or medStrong(7,distance+1,1,d, To);
// thử đi ngang (state =7)
return (retD);
endif
Danh mục tài liệu tham khảo
[1] S. Amer-Yahia, S. Cho, D. Srivastava. Tree Pattern Relaxation, EDBT, 2002.
[2] A. Budanitsky, G. Hirst. Semantic distance in WordNet: An experimental,
application oriented evaluation of five measures, 2003.
[3] D. Carmel, N. Efraty, G.M. Landau, Y.S. Maarek, Y. Mass. An Extension of
the vector space model for querying XML documents via XML fragments.
Second Edition of the XML and IR Workshop, In SIGIR Forum, Volume 36
Number 2, Fall 2002.
[4] G. Cobena, S. Abiteboul, A. Marian. Detecting changes in XML Documents. In
ICDE, 2002.
[5] H.H. Do, S. Melnik, E. Rahm. Comparison of schema matching evaluations. In
Proceedings of the second International Workshop on Web Databases, 2002.
[6] A.H. Doan. Learning to map between structured representations of data. PhD
thesis, University of Washington, 2002.
[7] Lexical chains as representations of context for the detection and correction of
malapropisms. In: Christiane Fellbaum (editor), WordNet: An electronic
lexical database, Cambridge, MA: The MIT Press, 1998.
[8] ISO, Information Processing- Text and Office systems- Standard
Generalization Markup Language (SGML), (ISO 8879:1986), International
Organisation for Standardisation, Geneva, 1986.
[9] P. Leinonen. Automating XML Document Structure Transformations. In
Proceedings of the ACM Symposium on Document Engineering, France,
2003.
[10] G. Linden. Structured document transformations. Report A-1997-2. CS
Department of University of Helsinki, Finland, 1997.
[11] J. Madhavan, P.A. Bernstein, E. Rahm. Generic schema matching with Cupid.
In Proceedings of the International Conference on Very Large Databases
(VLDB), 2001.
[12] S. Melnik, H. Garcia-Molina, E. Rahm. Similarity Flooding: A versatile Graph
Matching Algorithm and its Application to Schema Matching. In Proceedings
of the 18th International Conference on Data Engineering, 2002.
[13] R. Miller. The Clio Project: managing heterogeneity. ACM SIGMOD Record
30(1): 78-83, 2001.
[14] A. G. Miller (1995). WordNet: A lexical Database for English. ACM 38 (11),
pages 39-41, 1995.
[15] Mong Li Lee, Liang Huai Yang, Wynne Hsu, Xia Yang. XClust: Clustering
XML Schemas for Effective Integration, in 11th ACM International Conference
on Information and Knowledge Management, McLean, Virginia, November
2002.
[16] E. Pietriga, J-Y. Vion-Dury, V. Quint. Vxt: a visual approach to XML
transformations. In Proceedings of the ACM Symposium on Document
Engineering, 2001.
[17] E. Rahm and P.A. Bernstein. A survey of approaches to automatic schema
matching. In VLDB Journal, pages 10: 334-350, 2001.
[18] N. Routledge, L. Bird, A. Goodchild. UML and XML Schema, ADC, 2002.
[19] D. Shasha, J. Wang, K. Zhang, and F. Shih. Fast algorithms for the unit cost
editing distance between trees. In Journal of Algorithms, pages 581-621, 1990.
[20] L. Xu. Source Discovery and Schema Mapping for Data Integration, PhD
thesis, 2003.
[21] L. Zamboulis. XML Schema Matching & XML Data Migration & Integration:
A Step Towards The Semantic Web Vision. Technical Report, 2003.
[22] A. Boukottaya. Schema Matching for Transforming Structured Documents. In
DocEng'05, 2-4, 2005.
[23] A. Vernet. XML transformation languages. Có thể xem tại:
[24] XML Schema, W3C Recommendation, 2004. Có thể xem tại:
[25] XML Schema Part 0: Primer, W3C Recommendation, 2004. Có thể xem tại:
[26] XML Schema Part 1: Structures, W3C Recommendation, 2004. Có thể xem tại:
[27] XML Schema Part 2: Datatypes, W3C Recommendation 2004. Có thể xem tại:
[28] XSL Transformations (XSLT), W3C Recommendation, 2004. Có thể xem tại:
Các file đính kèm theo tài liệu này:
- 000000208336R.pdf