MỤC LỤC
Chương 1 GIỚI THIỆU 1
1.1 Động cơ nghiên cứu 1
1.2 Mục tiêu và phạm vi nghiên cứu . 5
1.3 Đóng góp chính của luận án 8
1.4 Cấu trúc của luận án 10
1.5 Các quy ước 13
1.6 Tóm tắt nội dung luận án 13
Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN 14
2.1 Giới thiệu 14
2.2 Các nghiên cứu liên quan trong nước 15
2.3 Các nghiên cứu về ontology 19
2.4 Các nghiên cứu về mở rộng truy vấn . 23
2.5 Khai thác dữ liệu từ WordNet 39
2.6 Tóm lược 44
Chương 3 XÂY DỰNG NỀN TẢNG HỆ THỐNG . 46
3.1 Giới thiệu 46
3.2 Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở rộng truy vấn . 46
3.3 Các mô hình cho bài toán mở rộng truy vấn 60
3.4 Mẫu nhận dạng cụm danh từ 65
3.5 Phương pháp thực nghiệm và ñánh giá 70
3.6 Nguồn dữ liệu thực nghiệm . 74
3.7 Tóm lược 88
Chương 4 XÂY DỰNG ONTOLOGY OOMP . 90
4.1 Giới thiệu 90
4.2 Xây dựng ontology OOMP 90
4.3 Phương pháp huấn luyện dựa trên kho ngữ liệu 95
4.4 Phương pháp huấn luyện dựa trên WordNet . 100
4.5 Cơ chế tự huấn luyện của ontology OOMP . 107
4.6 Các ứng dụng của ontology và quan hệ . 109
4.7 Tóm lược 110
Chương 5 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN . 112
5.1 Giới thiệu 112
5.2 Hoàn chỉnh và rút gọn truy vấn . 113
5.3 Kiểm tra cụm danh từ hoàn chỉnh 114
5.4 Tạo cụm danh từ hoàn chỉnh 121
5.5 Tạo cụm danh từ rút gọn 122
5.6 Hoàn chỉnh cụm danh từ 123
5.7 Giải thuật rút gọn thành phần cụm danh từ 135
5.8 Tóm lược . 140
Chương 6 MỞ RỘNG TRUY VẤN 142
6.1 Mở rộng truy vấn cho ñộng cơ tìm kiếm trên Web . 142
6.2 Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn 153
6.3 Tóm lược . 165
Chương 7 KẾT LUẬN 167
7.1 Các kết quả ñạt ñược 167
7.2 Hướng phát triển 171
7.3 Lời kết 172
223 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2133 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận án Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ence on
Information and Knowledge Management, pp.1903-1906. Hongkong. 2009.
[49] Eduardo Mena, Vipul Kashyap, Arantza Illarramendi, Amit P. Sheth. Imprecise
answers in distributed environments: estimation of information loss for multi-
ontology based query processing. International Journal of Cooperative Information
Systems (IJCIS), Special Issue on Intelligent Integration of Information, Volume 9,
Issue 4. December 2000.
[50] Efthimis N. Efthimiadis. Interactive query expansion and relevance feedback for
document retrieval systems. PhD thesis, City University, London, UK, 1992.
182
[51] Efthimis N. Efthimiadis. Query expansion. In M. E. Williams (Ed.), Annual Review
of Information Science and Technology, volume 31, pp.121-187). 1996. [online]
[52] Eleanor Rosch, Carolyn B. Mervis, Wayne D. Gray, David M. Johnson, Penny B.
Braem. Basic objects in natural categories. Cognitive Psychology, Volume 8 No 3,
pp.382-439, 1976.
[53] Ellen M. Voorhees. Using wordnet to disambiguate word senses for text retrieval.
Annual ACM Conference on Research and Development in Information Retrieval.
Proceedings of the 16th annual international ACM SIGIR conference on Research
and development in information retrieval, pp.171–180. Pennsylvania, United States.
1993. ISBN: 0-89791-605-0
[54] Ellen M. Voorhees. Query expansion using lexical-semantic relations. Annual ACM
Conference on Research and Development in Information Retrieval. Proceedings of
the 17th annual international ACM SIGIR conference on Research and development
in information retrieval, pp.61 - 69. Dublin, Ireland. 1994. ISBN: 0-387-19889-X.
[55] Franc A. Grootjen, Theo P. Van Der Weide. Conceptual query expansion. Data &
Knowledge Engineering, Volume 56, Issue 2 (February 2006), pp.174–193. 2006.
ISSN: 0169-023X.
[56] Gaihua Fu, Christopher B. Jones, Alia I. Abdelmoty. Ontology-Based Spatial Query
Expansion in Information Retrieval. On the Move to Meaningful Internet Systems
2005: CoopIS, DOA, and ODBASE, Volume 3761/2005, pp.1466-1482. Springer
Lecture Notes in Computer Science. ISSN: 0302-9743 (Print) 1611-3349 (Online). .
[57] Gerard Salton, Michael J. McGill. Introduction to modern information retrieval. New
York. Mcgraw Hill, 1983. ISBN: 0070544840
[58] Gondy Leroy, Kristin M Tolle, Hsinchun Chen. Customizable and ontology-
enhanced medical information retrieval interfaces. Proceedings of IMIA WG6
Triennial Conference on Natural language and Medical Concept Representation.
[online]
[59] Guiraude Lame. Using text analysis techniques to identify legal ontologie’s
components. ICAIL 2003 Workshop on Legal Ontologies & Web based legal
information management, 28 June 2003, Edinburgh, Scotland, UK. [online]
[60] Hang Cui, Ji-Rong Wen, Jian-Yun Nie, Wei-Ying Ma. Query expansion by mining
user logs. IEEE Transactions on Knowledge and Data Engineering, volume 15, issue
4, pp.829- 839. July-Aug. 2003. ISSN: 1041-4347.
[61] Helen J. Peat, Peter Willett. The limitations of term co-occurrence data for query
expansion in document retrieval systems. American Society for Information Science
and Technology (JASIST), 42(5), pp.378–383, 1991. ISSN-0002-8231
183
[62] Hideo Joho, Mark Sanderson, Micheline Beaulieu. A Study of User Interaction with
a Concept-Based Interactive Query Expansion Support Tool. Advances in
Information Retrieval, Volume 2997/2004, pp.42-56. ISBN: ISBN: 978-3-540-
21382-6. Springer Lecture Notes in Computer Science .
[63] Hien T Nguyen, Tru H Cao. Named Entity Disambiguation on an Ontology Enriched
by Wikipedia. In Proceedings of the 6th IEEE International Conference on Research,
Innovation and Vision for the Future - in Computing and Communications
Technologies (RIVF'2008), pp.247-254. July 13-17, 2008. HCM City, Vietnam.
[64] Hoang Huu Hanh, Nguyen Van Trung, Nguyen Quang Hung, Hoang Nguyen Tuan
Minh, Nguyen Mau Han, Le Manh Thanh, Hoang Bao Hung. SemaDesk: A Semantic
Desktop Information Management Framework. IEEE International Conference on
Research, Innovation and Vision for the Future, RIVF 2008, July 13-17, 2008. Ho
Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8.
[65] Hsinchun Chen, Kevin J. Lynch, Koushik Basu, Tobun Dorbin Ng. Generating,
integrating and activating thesauri for concept-based document retrieval. IEEE
Expert: Intelligent Systems and Their Applications, Volume 8, Issue 2 (April 1993),
pp.25 - 34. 1993. ISSN: 0885-9000.
[66] In-Ho Kang, GilChang Kim. Query type classification for web document retrieval.
Annual ACM Conference on Research and Development in Information Retrieval.
Proceedings of the 26th Annual International ACM SIGIR Conference on Research
and Development in Informaion Retrieval, pp.64–71. Toronto, Canada. 2003. ISBN:
ISBN: 1-58113-646-3.
[67] Jagdev Bhogal, Andrew Macfarlane. A review of ontology based query expansion.
Information Processing and Management: an International Journal, Volume 43, Issue
4 (July 2007), pp.866-886. 2007. ISSN: 0306-4573
[68] James Callan, Bruce Croft and Stephen Harding. The INQUERY Retrieval System. In
Proceedings of the Third International Conference on Database and Expert Systems
Applications, pp.78–83. 1992.
[69] James Pustejovsky. The core lexical engine: the contextual determination of word
sense. Technical Report, Department of Computer Science, Brandeis University.
1995. [online] .
[70] Jane Morris, Graeme Hirstt. Lexical cohesion computed by thesaural relations as an
indicator of the structure of text. Computational Linguistics, Volume 17, Number 1,
March 1991. [online]
[71] Jesus Vilares, Manuel Vilares, Miguel A. Alonso. Towards the development of
heuristics for automatic query expansion. Proceedings of the 12th International
Conference on Database and Expert Systems Applications, pp.887–896. 2001. ISBN:
ISBN: 3-540-42527-6.
184
[72] Jie Bao, Yu Cao, Wallapak Tavanapong, and Vasant Honavar. Integration of domain-
specific and domain-independent ontologies for colonoscopy video database
annotation. Proceedings of the International Conference on Information and
Knowledge Engineeringl (IKE 04), pp.82-88. Nevada, USA. CSREA Press. 2004.
[73] Jing Bai, Jian-Yun Nie, Guihong Cao. Context-Dependent Term Relations for
Information Retrieval. Proceedings of the 2006 Conference on Empirical Methods in
Natural Language Processing (EMNLP 2006), pp.551–559. Sydney, Australia. July
2006. 2006 Association for Computational Linguistics.
[74] John Bateman. John Bateman’s ontology Portal. 2005 [online].
bremen.de/anglistik/langpro/webspace/jb/info-pages/ontology/ontology-root.htm
[75] John Eastwood. Oxford Guide To English Grammar. Oxford University Press. 1994.
[76] José Saias, Paulo Quaresma. Semantic enrichment of a web legal information
retrieval system. Legal Knowledge and Information Systems. IOS Press, 2002.
[online]
[77] Joseph John Rocchio. Relevance feedback in information retrieval. The SMART
Retrieval System - Experiments in Automatic Document Processing, pp.313-323.
Prentice-Hall. 1971.
[78] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran. Indexing with WordNet
synsets can improve text retrieval. Proceedings of the COLING/ACL'98 Workshop
on Usage of WordNet for NLP, Montreal, 1998. [online]
lg/9808002
[79] Jun Cui. Query Expansion Research and Application in Search Engine Based on
Concepts Lattice. Master Thesis in Computer Science, Thesis no: MCS-2009: 28.
School of Computing, Blekinge Institute of Technology, Soft Center, SE-37225
RONNEBY, SWEDEN. 2009.
[80] Kalervo Järvelin, Jaana Kekäläinen, Timo Niemi. ExpansionTool: concept-based
query expansion and construction. Information Retrieval Journal, Volume 4,
Numbers 3-4/September, pp.231-255. 2001. ISSN: 1386-4564 (Print).
[81] Karen Spärck Jones. An evaluation of query expansion by addition of clustered terms
for a document retrieval system. Information Storage and Retrieval, 9(6), 339, 1973.
[82] Karen Spärck Jones, Stephen G. Walker, Stephen Robertson. A probabilistic model of
information retrieval: development and comparative experiments. Information
Processing and Management: an International Journal, Volume 36, Issue 6
(November 2000), pp.779–808. 2000. ISSN: 0306-4573.
[83] Keiichiro Hoashi, Kazunori Matsumoto, Naomi Inoue, Kazuo Hashimoto. Query
Expansion Based on Predictive Algorithms for Collaborative Filtering. Annual ACM
Conference on Research and Development in Information Retrieval. Proceedings of
the 24th annual international ACM SIGIR conference on Research and development
185
in information retrieval, pp.414–415. Louisiana, United States. 2001. ISBN: ISBN: 1-
58113-331-6.
[84] Kevyn B. Collins-Thompson. Robust model estimation methods for Information
Retrieval. PhD Thesis in Computer Science. Carnegie Mellon University. Dec 4,
2008. [online]
thesis-20081204.pdf
[85] Khanh Tran Dang. Ensuring Correctness, Completeness and Freshness for
Outsourced Tree-Indexed Data. Information Resources Management Journal (IRMJ),
Idea-Group Publisher, ISSN 1040-1628, Vol. 21, Issue 1, pp.59-76. Jan-Mar 2008.
[86] Koji Eguchi. Query expansion experiments using term dependence models. In
proceedings of the 5th NTCIR Workshop meeting on Evaluation of Information
Access Technologies: Information Retrieval, Question Answering and Cross-Lingual
Information Access, 2005.
[87] Kristina Nilsson, Hans Hjelm, Henrik Oxhammar. SUiS–cross-language ontology-
driven information retrieval in a restricted domain. Proceedings of the 15th Nodalida
Conference, pp.139-145. 2005. [online]
[88] Krisztian Balog, Wouter Weerkamp, Maarten de Rijke. A few examples go a long
way: constructing query models from elaborate query formulations. SIGIR’08:
Proceedings of the 31st annual international ACM SIGIR conference on Research
and development in information retrieval, pp.371–378. New York. USA. 2008.
[89] Lan Huang. A survey on web information retrieval technologies. Technical Report.
Computer Science Department; State University of New York at Stony Brook. New
York, 2000.
[90] Latifur Khan, Lei Wan. Automatic ontology derivation using clustering for image
classification. In Proceedings of Eighth International Workshop on Multimedia
Information Systems, pp.56–65. Arizona, USA. October 2002.
[91] Lesk Me. Word–word associations in document retrieval systems. American
Documentation, Volume 20 Issue 1, pp.27–38. 2007.
[92] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi
Wolfman, Eytan Ruppin. Placing search in context: the concept revisited. ACM
Transactions on Information Systems (TOIS), Volume 20, Issue 1 (January 2002),
pp.116–131. 2002. ISSN: 1046-8188.
[93] Marcia J. Bates. After the Dot-Bomb: getting information retrieval right this time.
FirstMonday 7 – Peer Reviewed Journal, 2002. [online]
[94] Maria Ruiz-Casado, Enrique Alfonseca and Pablo Castells. Automatic extraction of
semantic relationships for WordNet by means of pattern learning fromWikipedia.
186
Data & Knowledge Engineering archive, Volume 61, Issue 3 (June 2007), pp.484-
499. 2007. ISSN: 0169-023X
[95] Mark Sanderson. A study of user interaction with a concept based interactive query
expansion support tool (CiQuest) which is integrated into Okapi. Advances in
Information Retrieval: 26th European conference on ir research, ECIR 2004.
Springer Lecture notes in computer science, pp. 42–56. April 5–7, 2004.
[96] Mark Sanderson, Dawn Lawrie. Building, testing and applying concept hierarchies.
Advances in Information Retrieval, Volume 7, pp.235-266. ISBN: ISBN: 978-0-
7923-7812-9 (Print) 978-0-306-47019-6 (Online).
[97] Marti A. Hearst. Automatic acquisition of hyponyms from large text corpora.
International Conference On Computational Linguistics. Proceedings of the 14th
conference on Computational linguistics, Volume 2, pp.539–545.France. 1992.
[98] Merriam-Webster Online dictionary. [online]
w.com/dictionary/context .
[99] Michael Buckland. Translingual information management using domain ontologies.
Research project. 2003. [online]
[100] Micheline Hancock-Beaulieu, Stephen Walker. An evaluation of automatic query
expansion in an online library catalogue. Journal of Documentation, Volume 48,
Issue 4 (December 1992), pp.406–421. 1992. ISSN: 0022-0418.
[101] Ogawa Yasushi, Mano Hiroko, Narita Masumi, Honma Sakiko. Structuring and
expanding queries in the probabilistic model. Proceedings of the Eighth Text
REtrieval Conference (TREC 8), pp.541-548. November 13–16. 2000. [online]
[102] Olga Vechtomova, Stephen Robertson, Susan Jones. Query expansion with long-span
collocates. Information Retrieval Journal, Volume 6, Number 2 / April, 2003,
pp.251-273. ISSN: 1386-4564 (Print) 1573-7659 (Online) .
[103] Peretz Shoval. Principles, procedures and rules in an expert system for information
retrieval. Information Processing and Management: an International Journal, Volume
21, Issue 6 (December 1985), pp.475–487. 1985. ISSN: 0306-4573.
[104] Phuc Do, Hung Xuan Mai. Using SOM based graph clustering for extracting main
ideas from documents. IEEE International Conference on Research, Innovation and
Vision for the Future, RIVF 2008, pp. 209-214. July 13-17, 2008. Ho Chi Minh City,
Vietnam. ISBN: 978-1-4244-2379-8
[105] Phuc Do, Phung Nguyen. Using Naïve Bayes Model and Natural Language
Processing for Classifying Messages on Online Forum. IEEE International
Conference on Research, Innovation and Vision for the Future, pp.247-252. March
5-9, 2007. Hanoi, Vietnam. ISBN: 1-4244-0694-3.
187
[106] Rila Mandala, Takenobu Tokunaga, Hozumi Tanaka. Combining multiple evidence
from different types of thesaurus for query expansion. Annual ACM Conference on
Research and Development in Information Retrieval. Proceedings of the 22nd annual
international ACM SIGIR conference on Research and development in information
retrieval, pp.191 - 197. Berkeley, California, USA. 1999. ISBN: 1-58113-096-1
[107] Rila Mandala, Tokunaga Takenobu, Tanaka Hozumi. The use of WordNet in
information retrieval. Proceedings of Coling-ACL '98 Workshop, pp.191–197. 1998.
[108] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec. Close Integration
of ML and NLP Tools in BioAlvis for Semantic Search in Bacteriology. In Semantic
Web Applications and Tools for Life Sciences, SWAT4LS. 2008. [online]
[109] Robert Krovetz, W. Bruce Croft. Lexical ambiguity and information retrieval. ACM
Transactions on Information Systems (TOIS), Volume 10, Issue 2 (April 1992),
pp.115–141. 1992. ISSN: 1046-8188.
[110] Roberto Navigli, Paola Velardi. An analysis of ontology-based query expansion
strategies. Proceedings of the International Workshop on Adaptive Text Extraction
and Mining held in conjunction with the 14th European Conference on Machine
Learning and the 7th European Conference on Principles and Practice of Knowledge
Discovery in Databases. Dubrovnik, Croatia. 22 September 2003. [online]
[111] Sabrina Tiun, Rosni Abdullah, Tang Enya Kong. Enriching Ontology Using
Wordnet. Pre-Coling 2002 Seminar On Linguistic Meaning Representation And
Their Applications Over The World Wide Web. Penang, Malaysia. August 2002.
[112] Salvador Climent, Horacio Rodríguez, Julio Gonzalo. Definition of the links and
subsets for nouns of the EuroWordNet Project. EuroWordNet Deliverables LE-4003.
WP 3.1 D005. Amsterdam., 1996. [online]
[113] Sam Coates-Stephens. Analysis and acquisition of proper names for robust text
understanding. Ph.D Thesis. Department of Computer Science of City University.
London. 1992.
[114] Sanda M. Harabagiu,. George A. Miller, Dan I. Moldovan. WordNet 2 – A
morphologically and semantically enhanced resource. In Proceedings of SIGLEX-
99, pp.1–8. June 1999.
[115] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar. Using Domain
Ontologies for Efficient Information Retrieval. 13th International Conference on
Management of Data (COMAD 2006), IIT, Delhi, India, 2006. [online]
188
[116] Scott Deerwester, Susan T. Dumais , George W. Furnas , Thomas K. Landauer,
Richard Harshman. Indexing by latent semantic analysis. Journal of the Society for
Information Science, 41(6), 391-407. 1990..
[117] Soumen Chakrabarti , Byron Dom, Rakesh Agrawal, Prabhakar Raghavan. Scalable
feature selection, classification and signature generation for organizing large text
databases into hierarchical topic taxonomies. VLDB Journal, Volume 7, Issue 3,
pp.163–178. 1998.
[118] Stefan Klink. Improving document transformation techniques with collaborative
learned term-based concepts. The book of Reading and learning: adaptive content
recognition, Volume 2956/2004, pp.281–305. 2004. ISSN: 0302-9743 (Print) 1611-
3349 (Online). Springer Lecture Notes in Computer Science.
[119] Stefania Castellani, Aaron Kaplan, Frederic Roulland, Jutta Willamowski, and
Antonietta Grasso. Creation and Maintenance of Query Expansion Rules.
Proceedings of Enterprise Information Systems 11th International Conference,
ICEIS 2009. Milan, Italy. May 6-10, 2009.
[120] Stephen E. Robertson, Karen Sparck Jones. Relevance weighting of search terms.
Taylor Graham Series In Foundations Of Information Science. Document retrieval
systems, pp.143–160. 1988. ISBN: 0-947568-21-2.
[121] Stephen E. Robertson. On relevance weight estimation and query expansion. Journal
of Documentation, Volume 42, Issue 3, pp.182–188. 1986. ISSN: 0022-0418.
[122] Stephen E. Robertson. On term selection for query expansion. Journal of
Documentation, Volume 46, Issue 4, pp.359–364. 1991. ISSN: 0022-0418.
[123] Stephen Walker, Richard M. Jones. Improving subject retrieval in online catalogues:
1. Stemming, automatic spelling correction and cross-reference tables. London:
British Library Research & Development Department. 1987. ISBN: ISBN:
0712331298
[124] Suomela Sari, Kekäläinen Jaana. Ontology as a search-tool: A study of real users’
query formulation with and without conceptual support. Proceedings of the 27th
European Conference on IR Research (ECIR2005), pp.315–329. Berlin, Heidelberg:
Springer-Verlag. 2005.
[125] Susan Jones, Mike Gatford, Steve Robertson, Micheline Hancock-Beaulieu, Judith
Secker, Steve Walker. Interactive thesaurus navigation: intelligence rules OK?
Journal of the American Society for Information Science, Volume 46, Issue 1
(January 1995), pp.53–59. 1995. ISSN: 0002-8231.
[126] Susan Jones. A thesaurus data model for an intelligent retrieval system. Journal of
Information Science, Volume 19, Issue 3, pp.167–178. 1993. ISSN: 0165-5515.
[127] Svitlana Zinger, Christophe Millet, Mathieu Baudet, Gregory Grefenstette, Patrick
Hède, Pierre-Alain Moëllic. Extracting an Ontology of Portrayable Objects from
189
WordNet. Proceedings of the MUSCLE/ImageCLEF Workshop on Image and Video
Retrieval Evaluation, pp.17-23. Vienna, Austria, September 2005.
[128] Thanh Tran, Holger Lewen. Semantic Software Engineering: The Role and Usage of
Ontology in Information Systems. IEEE International Conference on Research,
Innovation and Vision for the Future, pp.14-21. March 5-9, 2007. Hanoi, Vietnam.
ISBN: 1-4244-0694-3.
[129] Tho Thanh Quan, Siu Cheung Hui. Ontology-based Natural Query Retrieval using
Conceptual Graphs. Lecture Notes In Artificial Intelligence; Vol. 5351. The 10th
Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial
Intelligence, pp.309–320. Hanoi, Vietnam. 2008. ISBN: 978-3-540-89196-3.
[130] Thomas R. Gruber. A translation approach to portable ontologies. Knowledge
Acquisition, Volume 5, Issue 2, pp.199 - 220. June 1993. ISSN: 1042-8143.
[131] Tru H. Cao, Khanh C. Le, Vuong M. Ngo. Exploring Combinations of Ontological
Features and Keywords for Text Retrieval. Lecture Notes In Artificial Intelligence;
Vol. 5351. The 10th Pacific Rim International Conference on Artificial Intelligence:
Trends in Artificial Intelligence, pp.603-613. Hanoi, Vietnam. 2008. ISBN: 978-3-
540-89196-3.
[132] Tru H. Cao, Truong D. Cao, Thang L. Tran. A Robust Ontology-Based Method for
Translating Natural Language Queries to Conceptual Graphs. Lecture Notes In
Computer Science; Vol. 5367. The 3rd Asian Semantic Web Conference on The
Semantic Web, pp.479 - 492. Bangkok, Thailand. 2008. ISBN: 978-3-540-89703-3.
[133] Tuoi T Phan, Thanh C Nguyen, Thuy T Huynh. Question semantic analysis in
Vietnamese QA System. Accepted paper. Book of Advances in Intelligent Information
and Database Systems in Springer series Studies in Computational Intelligence. The
2nd Asian Conference on Intelligent Information and Database Systems. March
2010, Hue City, Vietnam.
[134] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong. English-Vietnamese
Cross-Language Information Retrieval: An Experimental Study. IEEE International
Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp.107-
113. July 13-17, 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8.
[135] Veronique Malaise, Laura Hollink, and Luit Gazendam. The Interaction Between
Automatic Annotation and Query Expansion: a retrieval experiment on a large
cultural heritage archive. Semantic Search 2008 Workshop. Located at the 5th
European Semantic Web Conference ESWC2008. Tenerife, Spain. June 2nd, 2008.
[136] Vipul Kashyap. Design and creation of ontologies for environmental information
retrieval. Proceedings of the 12th Workshop on Knowledge Acquisition, Modeling
and Management. 1999. [online] https://eprints.kfupm.edu.sa/34189/1/34189.pdf .
190
[137] Wesley W. Chu, Zhenyu Liu, Wenlei Mao. Textual Document Indexing and Retrieval
via Knowledge Sources and Data Mining. Communication of the Institute of
Information and Computing Machinery (CIICM), Volume 5 Issue 2. Taiwan.
[online] .
[138] William Hersh, Ravi Teja Bhupatiraju, Susan Price. Phrases, Boosting, and Query
Expansion Using External Knowledge Resources for Genomic Information Retrieval.
Proceedings of the Twelfth Text Retrieval Conference (TREC 2003), pp.503–509.
2003. [online]
[139] Wouter Weerkamp, Krisztian Balog, Maarten de Rijke. A Generative Blog Post
Retrieval Model that Uses Query Expansion based on External Collections. The 47th
Annual Meeting of the Association for Computational Linguistics and the 4th
International Joint Conference on Natural Language Processing of the Asian
Federation of Natural Language Processing. Singapore. 2009.
[140] Wouter Weerkamp, Maarten de Rijke. External Query Expansion in the Blogosphere.
The Seventeenth Text REtrieval Conference (TREC 2008) Proceedings. [online]
[141] Xiangji Huang, Yan Rui Huang, Miao Wen. A dual index model for contextual
information retrieval. Annual ACM Conference on Research and Development in
Information Retrieval. Proceedings of the 28th annual international ACM SIGIR
conference on Research and development in information retrieval, pp.613–614.
Salvador, Brazil. 2005. ISBN: ISBN: 1-59593-034-5
[142] Xiaogang Peng, Ben Choi. Document classifications based on word semantic
hierarchies.The IASTED International Conference on Artificial Intelligence and
Applications, pp.362-367. 2005.
[143] Yonggang Qiu, Hans-Peter Frei. Concept base query expansion. Annual ACM
Conference on Research and Development in Information Retrieval. Proceedings of
the 16th annual international ACM SIGIR conference on Research and development
in information retrieval, pp.160-169. Pittsburgh, Pennsylvania, USA. 1993. ISBN:
ISBN: 0-89791-605-0.
[144] Zhenyu Liu, Wesley W. Chu. Knowledge-based query expansion to support
scenario-specific retrieval of medical free text. Symposium on Applied Computing.
Proceedings of the 2005 ACM symposium on Applied computing, pp.1076 - 1083.
Santa Fe, New Mexico. 2005. ISBN: 1-58113-964-0.
Trang Web
[145] Alta Vista,
[146] DTD,
[147] GATE, A General Architecture for Text Engineering,
191
[148] Google,
[149] KEA,
[150] Lemure,
[151] Lucene,
[152] Microsoft Bing,
[153] Microsoft Corporation,
[154] Oracle,
[155] OWL,
[156] Penn Tags,
[157] Penn Treebank,
[158] Protégé,
[159] RDF,
[160] SPARQL, SPARQL Query Language for RDF, Prud'hommeaux, Eric; Seaborne,
Andy; Editors, W3C Recommendation, 15 January 2008.
[161] Support Vector Machines,
[162] TREC,
[163] Wikipedia,
[164] XML,
[165] Yahoo,
[166] WordNet,
a
Phụ lục A. Tóm lược về WordNet
WordNet là một ontology tổng quát và là một hệ cơ sở tri thức cho từ vựng
tiếng Anh. Các từ vựng trong WordNet ñược phân loại và tổ chức thành các tập
ñồng nghĩa gọi là synset. Mỗi tập synset biểu diễn một nghĩa. WordNet tổ chức 25
cấu trúc cây phân cấp riêng biệt tương ứng với các lĩnh vực có ngữ nghĩa khác nhau
cho synset. Ngoài ra, WordNet còn bao gồm một số thành phần chủ yếu như word,
sense, category... và các quan hệ ngữ nghĩa liên kết ñược trình bày chi tiết như sau:
* Quan hệ Synonymy
Quan hệ này ñóng vai trò chính yếu trong tổ chức từ vựng của WordNet vì
biểu diễn tính tương tự về nghĩa giữa các hình thái từ về mặt từ vựng. Chính mối
quan hệ này là cơ sở ñể các nhà xây dựng WordNet tập hợp các hình thái từ có cùng
nghĩa thành các synset.
Synonymy ñược xác ñịnh bởi khái niệm như sau: “Hai biểu thức là tương
ñương về nghĩa trong một ngữ cảnh C nếu sự thay thế giữa chúng trong C không
làm thay ñổi giá trị ñúng.”
* Quan hệ Antonymy
Antonymy xác ñịnh mối quan hệ trái nghĩa của hai từ trong WordNet.
Antonym của một từ x ñôi lúc là not x nhưng không phải luôn ñúng.
Antonymy cung cấp quy tắc tổ chức tính từ trong WordNet và những vấn ñề
phức tạp phát sinh khi antonymy nằm trong mối quan hệ ngữ nghĩa giữa các từ.
* Quan hệ Hyponymy và Hypernymy:
Không giống như synonymy và antonymy, quan hệ hyponymy và
hypernymy cho biết mối quan hệ về ngữ nghĩa giữa các khái niệm, trong ñó nghĩa
của khái niệm này bao hàm nghĩa của khái niệm kia hay ngược lại.
Cặp quan hệ hyponymy và hypernymy còn có thể ñược xem là cặp quan hệ
hạ danh (subordination) và thượng danh (superordination), hay cặp quan hệ tập con
(subset) và tập cha (superset), hoặc cặp quan hệ IS-A và HAS-A.
Một khái niệm ñược biểu diễn bởi synset {x, x’, …} ñược gọi là hyponymy
của khái niệm {y, y’, …} nếu mệnh ñề “x is a (kind of) y” là ñúng.
Theo Lyons (1977), quan hệ hyponymy có tính chất bắt cầu và phản xứng.
Theo quan hệ hyponymy, việc thêm ít nhất một thuộc tính mới vào khái niệm
chi tiết sẽ giúp phân biệt khái niệm ñó với một hoặc những khái niệm tổng quát có
b
các thuộc tính mà nó thừa kế. Quy ñịnh này cung cấp nguyên tắc phân cấp cho việc
xây dựng quan hệ danh từ trong WordNet.
* Quan hệ Meronymy và Holonymy
Quan hệ meronymy và holonymy là mối quan hệ toàn thể–bộ phận giữa hai
synset danh từ. Năm 1998, Winston chia quan hệ meronymy và holonymy thành các
loại như trong bảng sau.
Bảng A.1. Phân loại quan hệ meronymy và holonymy
STT Loại Tên khác Ví dụ
1 Thành phần–Đối tượng Component–Object branch–tree
2 Thành viên–Tập hợp Member–Collection tree–forest
3 Vật liệu–Đối tượng Stuff–Object aluminium–airplane
4 Phần–Khối Portion–Mass slice–cake
5 Đặc ñiểm–Hoạt ñộng Feature–Actitivity paying–shopping
6 Địa ñiểm–Nơi chốn Place–Area Princeton–New Jersey
7 Giai ñoạn–Quá trình Phase–Process addolescence–growing up
c
Phụ lục B. Cấu trúc cụm danh từ tiếng Anh
Theo John Eastwood (1994) [77] và [8], cấu trúc cơ bản của cụm danh từ
tiếng Anh ñược trình bày như trong bảng B.1.
Bảng B.1.Cấu trúc cơ bản của cụm danh từ
Số lượng
(1)
Định tố
(2)
Tính từ làm
bổ ngữ (3)
Danh từ làm
bổ ngữ (4)
Từ trung
tâm (5)
Các bổ ngữ
khác (6)
A bomb
Two people
A meal for two
The door
All these bottles here
a lot of empty bottles
Some nice soup dishes
each of the heavy glass doors of the
building
Một số ví dụ minh họa cho cấu trúc ở bảng B.2 ñược liệt kê như sau.
Bảng B.2. Cấu trúc cơ bản của cụm danh từ
Các thành phần bổ ngữ
trong cụm danh từ
Ví dụ minh họa
Vị trí số (1) trong bảng
3.4.1 có thể có nhiều hơn
một từ
(a) a/DT lot/NN of/IN money/NN
(b) two/CD hundred/CD and/CC fifty/CD
passengers/NN
Số lượng (1) và ñịnh tố (2)
cùng xuất hiện trong cụm
(c) all/PDT that/DT whisky/NN (d) both/PDT the/DT
doors/NNS
Số lượng (1) ñứng sau ñịnh
tố (2)
(e) the/DT many/JJ rooms/NNS of/IN the/DT
house/NN(f) those/DT few/JJ people/NN left/VBN
Dạng sở hữu có chức năng
như ñịnh tố
(g) the/DT man/NN ’s/POS seat/NN
(h) all/PDT the/DT passenger/NN ’s/POS meals/NNS
Có nhiều hơn một tính từ
hoặc danh từ làm bổ ngữ
(i) a/DT lovely/JJ hot/JJ meal/NN
(j) China/JJ soup/NN dishes/NNS
Khi có nhiều hơn một tính từ làm bổ ngữ, chúng sẽ xuất hiện trong một trật
tự nhất ñịnh, tùy thuộc vào loại của tính từ trong cụm danh từ. Các loại tính từ ñược
phân loại theo bảng B.3.
d
Bảng B.3.Phân loại các nhóm tính từ
STT Loại Ví dụ
1 ñánh giá, bình phẩm(opinion) Nice, wonderful, excellent, lovely …
2 kích thước (size) Large, small, long, short, tall, …
3 chất lượng (quality) Clear, busy, famous, important, quiet,..
4 tuổi tác, cũ, mới (age) Old, new
5 hình dáng (shape) Round, square, fat, thin, wide, narrow,…
6 màu sắc (colour) Red, white, blue, green,…
7 dạng phân từ
(participle forms)
Covered, furnished, broken, running,
missing,…
8 nguồn gốc (origin) British, Italian, American,…
9 chất liệu (material) Brick, paper, plastic, wooden,…
10 loại (type) Human, chemical, domestic, money...
11 mục ñích (purpose) Alarm (clock), walking(boots) …
Bảng B.4 là các ví dụ về cụm danh từ có các loại tính từ làm bổ ngữ danh từ:
Bảng B.4.Ví dụ về phân loại các nhóm tính từ
Loại tính từ Ví dụ minh họa
cũ + vật liệu (a) an/DT old/JJ cardboard/NN box/NN
nguồn gốc + loại (b) a/DT German/JJ industrial/JJ company/NN
kích cỡ + hình dạng +
màu sắc
(c) two/CD small/JJ round/JJ green/JJ discs/NNS
kích cỡ + chất lượng +
loại
(d) a/DT large/JJ information/JJ street/NN plan/NN
chất lượng + vật liệu (e) a/DT hard/JJ wooden/NN seat/NN
mới + phân từ (f) a/DT new/JJ improved/VBN formula/NN
phân từ + loại (i) increasing/VBG financial/JJ difficulties/NNS
Đánh giá+loại+mục ñích (j) two/CD excellent/JJ public/JJ tennis/NN
courts/NNS
Vấn ñề về trật tự từ trong cấu trúc cụm danh từ tiếng Anh cũng ñược Vũ
Ngọc Tú ñề xuất (1996) [8] như bảng B.5.
Bảng B.5.Trật tự từ trong cấu trúc cụm danh từ tiếng Anh
Định tố
trước
Định tố
giữa
Định tố sau Bổ ngữ Từ trung tâm Bổ ngữ sau
-4 (a) -3 (b) -2 (c) -1 (d) 0 (e) 1 (f)
All The Three good books on sale
Trong cấu trúc cụm này, các từ theo chức năng ngữ pháp ở những vị trí như:
e
− Vị trí (d) là vị trí của bổ ngữ trước bao gồm các từ có chức năng phân từ,
tính từ, trong trường hợp có nhiều tính từ cùng xuất hiện ở vị trí này chúng
sẽ xuất hiện theo trật tự sau:
Bảng B.6.Phân loại các nhóm tính từ
STT Loại tính từ
1 Số thứ tự
2 Số ñếm
3 tính từ chỉ chất lượng hoặc tính chất, tính từ mang ý nghĩa tổng quát:
happy, beautiful, heavy…
4 tính từ chỉ kích thước (size): tall, big,..
5 tính từ chỉ tuổi tác: old, young,..
6 tính từ chỉ nhiệt ñộ: hot, cold…
7 tính từ chỉ hình dáng: round, square,..
8 tính từ chỉ màu sắc: red, purple, green, yellow,..
9 tính ñộng từ: interesting, broken, …
10 tính từ chỉ nguồn gốc, xuất xứ hay nơi chốn: French, central…
11 Danh từ xuất hiện trước danh từ trung tâm;
trong ñó các trường hợp có thứ tự thấp hơn sẽ gần với với danh từ trung tâm hơn
các trường hợp thứ tự cao.
− Vị trí (c) là vị trí của ñịnh tố sau, gồm các từ chỉ số ñếm, các từ chỉ số thứ tự,
các nhóm chỉ số lượng khác như: many, a few, much, little, a lot of….
− Vị trí (b) là vị trí của ñịnh tố giữa, xuất hiện ở vị trí này là các thành phần
xác ñịnh như mạo từ, tính từ sở hữu, từ chỉ trỏ….
− Vị trí (a) là vị trí ñịnh tố trước. Đây là vị trí ñầu tiên trong cụm danh từ, xuất
hiện ở vị trí này thường là các nhóm từ: half, both, all, double, twice, three
times; các từ chỉ số thập phân như one-third (1/3)….
− Vị trí (f) là vị trí của bổ ngữ sau. Đây là vị trí khá phức tạp về cấu trúc vì
chúng có thể là cụm giới từ, mệnh ñề, phân từ, tính từ.
Như vậy trong tiếng Anh, cụm danh từ có thể có 32 (25 = 32) dạng biến thể,
như ở bảng B.6, khi 5 vị trí phụ có thể có hoặc không (a, b, c, d, f) và ñể lại vị trí
danh từ trung tâm luôn xuất hiện (e). Trong bảng B.7, thứ tự ñược ñánh số theo trật
tự: những thành phần ñứng trước từ trung tâm ñược ñánh số âm từ phải sang trái lấy
gốc (0) là từ trung tâm, thành phần ñứng sau từ trung tâm ñược ñánh số dương từ
trái sang phải lấy gốc (0) là từ trung tâm.
f
Bảng B.7.Các biến thể trong cụm danh từ tiếng Anh
STT Cụm danh từ
Biến
thể
Định tố
trước
Định tố
Định tố
sau
Bổ ngữ
Thành tố
chính
Bổ ngữ
sau
-4 (a) -3 (b) -2 (c) -1 (d) 0 (e) 1 (f)
1 - - - - books -
2 - - - - books on sale
3 - - - good books -
4 - - - good books on sale
5 - - three - books -
6 - - three - books on sale
7 - - three good books -
8 - - three good books on sale
9 - The - - books -
10 - The - - books on sale
11 - The - good books -
12 - The - good books on sale
13 - The three - books -
14 - The three - books on sale
15 - The three good books -
16 - The three good books on sale
17 All - - - books -
18 All - - - books on sale
19 All - - good books -
20 All - - good books on sale
21 All - three - books -
22 All - three - books on sale
23 All - three good books -
24 All - three good books on sale
25 All the - - books -
26 All the - - books on sale
27 All the - good books -
28 All the - good books on sale
29 All the three - books -
30 All the three - books on sale
31 All the three good books -
32 All the three good books on sale
g
Phụ lục C. Danh mục từ loại tiếng Anh
STT Nhãn từ loại Tên ñầy ñủ (tiếng Anh) Ý nghĩa
1 CC Coordinating conjunction Liên từ kết hợp
2 CD Cardinal number Số ñếm
3 DT Determiner Định từ
4 EX Existential there “Có”
5 FW Foreign word Từ tiếng nước ngoài
6 IN Preposition or
subordinating conjunction
Giới từ hoặc liên từ
7 JJ Adjective Tính từ
8 JJR Adjective, comparative Tính từ so sánh hơn
9 JJS Adjective, superlative Tính từ so sánh nhất
10 LS List item marker Dấu liệt kê
11 MD Modal Động từ tình thái
12 NN Noun, singular or mass Danh từ số ít hoặc không ñếm
ñược
13 NNS Noun, plural Danh từ số nhiều
14 NNP Proper noun, singular Danh từ riêng số ít
15 NNPS Proper noun, plural Danh từ riêng số nhiều
16 PDT Predeterminer Tiền chỉ ñịnh từ
17 POS Possessive ending Dấu sở hữu cách
18 PRP Personal pronoun Đại từ nhân xưng
19 PPS Possessive pronoun
(prolog version PRP-S)
Đại từ sở hữu
20 RB Adverb Trạng từ
21 RBR Adverb, comparative Trạng từ so sánh hơn
22 RBS Adverb, superlative Trạng từ so sánh nhất
23 RP Particle Tiểu từ
24 SYM Symbol Ký hiệu
25 TO to “to”
26 UH Interjection Thán từ
27 VB Verb, base form Động từ nguyên mẫu không to
28 VBD Verb, past tense Động từ thì quá khứ
29 VBG Verb, gerund or present
participle
Hiện tại phân từ
30 VBN Verb, past participle Quá khứ phân từ
31 VBP Verb, non-3rd person
singular present
Động từ không phải ngôi thứ 3
số ít
h
32 VBZ Verb, 3rd person singular
present
Động từ ngôi thứ 3 số ít
33 WDT Wh-determiner Định từ bắt ñầu bằng Wh-
34 WP Wh-pronoun Đại từ bắt ñầu bằng Wh-
35 WPZ Possessive wh-pronoun
(prolog version WP-S)
Đại từ sở hữu bắt ñầu bằng
Wh-
36 WRB Wh-adverb Trạng từ bắt ñầu bằng Wh-
37 ADJP Adjective Phrase. Cụm tính từ
38 NP Noun Phrase Cụm danh từ
39 VP Verb Phrase Cụm ñộng từ
40 ADVP Adverb Phrase Cụm trạng từ
41 CONJP Conjunction Phrase Cụm liên từ
42 RRC Reduced Relative Clause Mệnh ñề tương ñối thu giảm
43 UCP Unlike Coordinated Phrase Cụm phối hợp khác
44 WHADJP Wh-adjective Phrase Cụm tính từ bắt ñầu với Wh-
45 WHAVP Wh-adverb Phrase Cụm trạng từ bắt ñầu với Wh-
46 WHNP Wh-noun Phrase Cụm danh từ bắt ñầu với Wh-
47 WHPP Wh-prepositional Phrase Cụm giới từ bắt ñầu với Wh-
48 PP Prepositional Phrase Cụm giới từ
Nguồn tham khảo: [2], [156] và [157]
i
Phụ lục D. Danh mục luật sinh dạng cụm danh từ
của văn phạm tiếng Anh xây dựng dựa trên
TreeBank
(1) STT, (2) Dạng luật sinh, (3) Số thành phần
(1) (2) (3) (1) (2) (3)
1 JJ#JJ#NN# 3 221 NN#CC#NN#NN# 4
2 JJ#JJ#NN#NN# 4 222 NN#CC#NN#NN#NNS# 5
3 JJ#NN# 2 223 NN#CC#NN#NNS# 4
4 JJ#JJ#NN#NN#NN# 5 224 NN#CC#NNS# 3
5 $#CD# 2 225 NN#CD# 2
6 ADJP#ADJP#NNS# 3 226 NN#DT# 2
7 ADJP#JJ#NN# 3 227 NN#JJ#NN# 3
8 ADJP#JJ#NN#NNS# 4 228 NN#NN# 2
9 ADJP#NN# 2 229 NN#NN#CC#NN# 4
10 ADJP#NNP#NNS# 3 230 NN#NN#CC#NN#NN# 5
11 ADJP#NNS# 2 231 NN#NN#CC#NN#NNS# 5
12 CD# 1 232 NN#NN#CD# 3
13 CD#ADJP#JJ#JJ#NNS# 5 233 NN#NN#NN# 3
14 CD#ADJP#NNS# 3 234 NN#NN#NNP#NNP#NNS# 5
15 CD#CC#CD# 3 235 NN#NN#NNS# 3
16 CD#JJ,#JJ#NN# 4 236 NN#NNP#%#NP#%#NP#%#
NP#%#NP#%#NP#%#NP#
14
17 CD#JJ#NN# 3 237 NN#NNS# 2
18 CD#JJ#NN#NNS# 4 238 NN#NNS#CC#NNS# 4
19 CD#JJ#NNP#NNS# 4 239 NN#NNS#NN# 3
20 CD#JJ#NNS# 3 240 NN#NNS#NNP,#NNP#NNP# 5
21 CD#NN# 2 241 NN#NNS#POS# 3
22 CD#NN#NN#NN#NNS# 5 242 NN#POS# 2
23 CD#NN#NN#NNS# 4 243 NN#RB# 2
24 CD#NN#NNS# 3 244 NN#S# 2
25 CD#NNP#NNS# 3 245 NNP# 1
26 CD#NNS# 2 246 NNP,#NN,#NN#CC#
NN#NN#NNS#
7
27 DT# 1 247 NNP,#NNP,#NNP,#
CC#NNP#
5
28 DT#ADJP# 2 248 NNP,#NNP#CC#JJ#
NN#NNS#
6
29 DT#ADJP,#VBN#NN#NN# 5 249 NNP,#NNP#CC#NNP# 4
30 DT#ADJP#NN# 3 250 NNP,#NNP#CC#NNP#
NNP#NNS#
6
31 DT#ADJP#NN#NN# 4 251 NNP#CC#NNP# 3
j
(1) (2) (3) (4) (5) (6)
32 DT#ADJP#NNP# 3 252 NNP#CC#NNP#NNS# 4
33 DT#ADJP#NNP#NNP#NN# 5 253 NNP#CD# 2
34 DT#ADJP#NNS# 3 254 NNP#CD#NNP#CD#CC#
CD#NNS#
7
35 DT#CD# 2 255 NNP#FW# 2
36 DT#CD#CC#CD#NN# 5 256 NNP#NN# 2
37 DT#CD#CC#CD#NNS# 5 257 NNP#NN#CD# 3
38 DT#CD#JJ#NNS# 4 258 NNP#NN#NN# 3
39 DT#CD#NN# 3 259 NNP#NN#NN#NNS# 4
40 DT#CD#NN#NN# 4 260 NNP#NN#NNS# 3
41 DT#CD#NN#NNS# 4 261 NNP#NNP# 2
42 DT#CD#NNP#NN#NN#NN# 6 262 NNP#NNP#CC#NNP#NNP# 5
43 DT#CD#NNP#NN#NNS# 5 263 NNP#NNP#CD# 3
44 DT#CD#NNS# 3 264 NNP#NNP#NN# 3
45 DT#CD#VBN#NN# 4 265 NNP#NNP#NNP# 3
46 DT#JJ# 2 266 NNP#NNP#NNP#NNP# 4
47 DT#JJ,#ADJP#JJ#NN#NN# 6 267 NNP#NNP#NNP#NNP#
NNP#NN#
6
48 DT#JJ,#JJ#JJ#NN# 5 268 NNP#NNP#NNS# 3
49 DT#JJ,#JJ#NN# 4 269 NNP#NNPS# 2
50 DT#JJ,#JJ#NNS#NN# 5 270 NNP#NNS# 2
51 DT#JJ#CC#JJ#NN#NNS# 6 271 NNP#NNS,#NNS,#NNS#
CC#NNS#
6
52 DT#JJ#CC#JJ#NNS# 5 272 NNP#POS# 2
53 DT#JJ#CD#NNS# 4 273 NNP#UCP#NN# 3
54 DT#JJ#JJ#JJ#NN# 5 274 NNS# 1
55 DT#JJ#JJ#NN# 4 275 NNS,#NNS#CC#NNS# 4
56 DT#JJ#JJ#NNP#NN# 5 276 NNS#CC#NN# 3
57 DT#JJ#JJ#NNS# 4 277 NNS#CC#NN#NNS# 4
58 DT#JJ#NN# 3 278 NNS#CC#NNS# 3
59 DT#JJ#NN#CC#JJ#NN#NNS# 7 279 NNS#CC#NNS#NNS# 4
60 DT#JJ#NN#CC#NN# 5 280 NNS#NN# 2
61 DT#JJ#NN#CC#NN#NN# 6 281 NNS#NNS# 2
62 DT#JJ#NN#NN# 4 282 NNS#S# 2
63 DT#JJ#NN#NN#NN# 5 283 NNS#SBAR# 2
64 DT#JJ#NN#NNP# 4 284 NP#%#CC#NP# 4
65 DT#JJ#NN#NNS# 4 285 NP#%#NP# 3
66 DT#JJ#NN#POS# 4 286 NP#%#NP#%# 4
67 DT#JJ#NN#RB# 4 287 NP#%#NP#%#NP#%#
CC#NP#
8
68 DT#JJ#NN#S# 4 288 NP#%#PP#%# 4
69 DT#JJ#NNP# 3 289 NP,# 1
70 DT#JJ#NNP#NN# 4 290 NP,#ADJP# 2
71 DT#JJ#NNP#NN#NN# 5 291 NP,#ADJP,# 2
72 DT#JJ#NNP#NN#NN#JJ# 6 292 NP,#CC#NP# 3
k
(1) (2) (3) (1) (2) (3)
73 DT#JJ#NNP#NN#NNP# 5 293 NP,#CC#NP,# 3
74 DT#JJ#NNP#NNP# 4 294 NP,#CC#NP,#ADVP# 4
75 DT#JJ#NNP#NNP#NN#NN# 6 295 NP,#CONJP#NP# 3
76 DT#JJ#NNP#NNP#NNP# 5 296 NP,#NP# 2
77 DT#JJ#NNP#NNP#NNP#NNP# 6 297 NP,#NP,# 2
78 DT#JJ#NNP#NNS# 4 298 NP,#NP,#CC#NP# 4
79 DT#JJ#NNS# 3 299 NP,#NP,#CC#NP,# 4
80 DT#JJ#NNS#NN# 4 300 NP,#NP,#NP# 3
81 DT#JJ#QP#NNS# 4 301 NP,#NP,#NP,#CC#NP# 5
82 DT#JJR,#JJ#NN#NN# 5 302 NP,#NP,#NP,#NP,#NP#CC#N
P#
7
83 DT#JJR#NN# 3 303 NP,#NP,#NP,#NP#CC#NP# 6
84 DT#JJR#VBN#JJ#NN#NN# 6 304 NP,#NP,#NP#.# 4
85 DT#JJS#NN# 3 305 NP,#NP,#NP#CC#NP# 5
86 DT#JJS#NN#NN# 4 306 NP,#NP#CC#NP# 4
87 DT#JJS#NNS# 3 307 NP,#PP# 2
88 DT#NAC#NN# 3 308 NP,#PP,# 2
89 DT#NN# 2 309 NP,#RB#NP# 3
90 DT#NN#CC#NN# 4 310 NP,#RRC,# 2
91 DT#NN#CC#NN#NN#NN# 6 311 NP,#SBAR# 2
92 DT#NN#CC#NN#NN#NNP# 6 312 NP,#SBAR,# 2
93 DT#NN#CC#NN#NNS# 5 313 NP,#VP# 2
94 DT#NN#CC#NNS# 4 314 NP,#VP,# 2
95 DT#NN#CD# 3 315 NP#ADJP# 2
96 DT#NN#JJ#NN# 4 316 NP#ADJP,#SBAR# 3
97 DT#NN#NN# 3 317 NP#ADJP#NN# 3
98 DT#NN#NN#NN# 4 318 NP#ADJP#NNS# 3
99 DT#NN#NN#NNS# 4 319 NP#ADVP# 2
100 DT#NN#NNP# 3 320 NP#CC#NP# 3
101 DT#NN#NNS# 3 321 NP#CC#NP,# 3
102 DT#NN#POS# 3 322 NP#CC#PRN#NP# 4
103 DT#NN#RB# 3 323 NP#CD#NN# 3
104 DT#NN#S# 3 324 NP#CD#NN#NN#NN# 5
105 DT#NN#S#.# 4 325 NP#CONJP#NP# 3
106 DT#NN#SBAR# 3 326 NP#JJ#JJ# 3
107 DT#NNP# 2 327 NP#JJ#JJ#NN#NN# 5
108 DT#NNP#CC#NNP# 4 328 NP#JJ#NN# 3
109 DT#NNP#CD# 3 329 NP#JJ#NN#NN# 4
110 DT#NNP#CD#NN# 4 330 NP#JJ#NN#NN#NN# 5
111 DT#NNP#CD#NN#NN# 5 331 NP#JJ#NN#NNS# 4
112 DT#NNP#FW#NNP#NNP# 5 332 NP#JJ#NNP#NN# 4
113 DT#NNP#JJ#NN# 4 333 NP#JJ#NNP#NNP#CD# 5
114 DT#NNP#NN# 3 334 NP#JJ#NNP#NNP#
NN#NN#NN#
7
115 DT#NNP#NN#NN# 4 335 NP#JJ#NNS# 3
l
(1) (2) (3) (1) (2) (3)
116 DT#NNP#NN#NN#NN# 5 336 NP#JJ#NNS#NN# 4
117 DT#NNP#NN#NN#NNP#NNP
#
6 337 NP#JJ#VBG#NNS# 4
118 DT#NNP#NN#NNP# 4 338 NP#JJS#NN# 3
119 DT#NNP#NN#NNP#NN# 5 339 NP#NN# 2
120 DT#NNP#NN#NNP#NNP#NN
P#
6 340 NP#NN#CC#NN# 4
121 DT#NNP#NN#NNP#NNP#POS
#
6 341 NP#NN#CD#NNP# 4
122 DT#NNP#NN#NNS# 4 342 NP#NN#NN# 3
123 DT#NNP#NNP# 3 343 NP#NN#NN#NN# 4
124 DT#NNP#NNP#CC#NNP#NN
P#
6 344 NP#NN#NN#NN#CC#NN# 6
125 DT#NNP#NNP#CD# 4 345 NP#NN#NN#NNS# 4
126 DT#NNP#NNP#CD#NNP#NN
#
6 346 NP#NN#NNS# 3
127 DT#NNP#NNP#NN# 4 347 NP#NN#S# 3
128 DT#NNP#NNP#NN#NN# 5 348 NP#NN#SBAR# 3
129 DT#NNP#NNP#NNP# 4 349 NP#NNP# 2
130 DT#NNP#NNP#NNP#
CC#NNP#NNP#NNP#
8 350 NP#NNP#CD# 3
131 DT#NNP#NNP#NNP#NN# 5 351 NP#NNP#CD#JJ#NN# 5
132 DT#NNP#NNP#NNP#NNP# 5 352 NP#NNP#NN# 3
133 DT#NNP#NNP#NNP#NNP#N
NP#
6 353 NP#NNP#NN#NN# 4
134 DT#NNP#NNP#NNP#POS# 5 354 NP#NNP#NN#NN#NNS# 5
135 DT#NNP#NNP#NNPS#
CC#NNPS#NN#NNP#
8 355 NP#NNP#NN#NNS# 4
136 DT#NNP#NNP#NNPS#
NNP#NNP#NNP#
7 356 NP#NNP#NNP# 3
137 DT#NNP#NNPS#NN# 4 357 NP#NNP#NNP#NN#NNP# 5
138 DT#NNP#NNPS#NNP# 4 358 NP#NNP#NNP#NN#POS# 5
139 DT#NNP#NNPS#NNP#NNP#N
NP#
6 359 NP#NNP#NNS# 3
140 DT#NNP#NNS# 3 360 NP#NNP#NNS#NN# 4
141 DT#NNP#POS# 3 361 NP#NNS# 2
142 DT#NNP#VBG#NN# 4 362 NP#NNS#CC#NNS# 4
143 DT#NNPS# 2 363 NP#NNS#NN#NN# 4
144 DT#NNPS#CC#NNP#NNS# 5 364 NP#NNS#S# 3
145 DT#NNS# 2 365 NP#NP# 2
146 DT#NNS#CC#NNS# 4 366 NP#NP#SBAR# 3
147 DT#NNS#NN# 3 367 NP#PP# 2
148 DT#NNS#NNS# 3 368 NP#PP,#PP# 3
149 DT#NP#CC#NP# 4 369 NP#PP,#PP,# 3
150 DT#NX# 2 370 NP#PP,#SBAR# 3
m
(1) (2) (3) (1) (2) (3)
151 DT#QP#NNP#NNS# 4 371 NP#PP#.# 3
152 DT#RBS#JJ# 3 372 NP#PP#ADJP# 3
153 DT#VB# 2 373 NP#PP#NP# 3
154 DT#VB#CC#VB# 4 374 NP#PP#PP# 3
155 DT#VB#NN# 3 375 NP#PP#SBAR# 3
156 DT#VB#NNS# 3 376 NP#PRN# 2
157 DT#VBG#JJ#NN#NN#NN# 6 377 NP#S# 2
158 DT#VBG#NN# 3 378 NP#SBAR# 2
159 DT#VBG#NN#NN# 4 379 NP#UCP# 2
160 DT#VBG#NNS# 3 380 NP#VP# 2
161 DT#VBN#NN# 3 381 PDT#DT#JJ#JJ#NNS# 5
162 DT#VBN#NN#NN# 4 382 PDT#DT#NNS# 3
163 DT#VBN#NNP#NNP#NN# 5 383 PDT#DT#NNS#SBAR# 4
164 DT#VBN#NNS#NN# 4 384 PRP# 1
165 EX# 1 385 PRP$#JJ#NN# 3
166 IN#CD#NNS# 3 386 PRP$#JJ#NN#NN# 4
167 JJ# 1 387 PRP$#JJ#NNP#NN#NNS# 5
168 JJ,#JJ#NN# 3 388 PRP$#JJ#NNS# 3
169 JJ,#JJ#NNS# 3 389 PRP$#JJS# 2
170 JJ#CD# 2 390 PRP$#JJS#NNS# 3
171 JJ#JJ#JJ#NN#NNS# 5 391 PRP$#NN# 2
172 JJ#JJ#JJ#NNS# 4 392 PRP$#NN#CC#NN# 4
173 JJ#JJ#NN# 3 393 PRP$#NN#NNS# 3
174 JJ#JJ#NN#NN# 4 394 PRP$#NN#SBAR# 3
175 JJ#JJ#NN#NNS# 4 395 PRP$#NNP#NN#NN# 4
176 JJ#JJ#NNS# 3 396 PRP$#NNP#NNS# 3
177 JJ#JJ#VBZ# 3 397 PRP$#NNS# 2
178 JJ#NN# 2 398 PRP$#NX# 2
179 JJ#NN#CC#NN# 4 399 PRP$#VB# 2
180 JJ#NN#CC#NN#NN# 5 400 QP# 1
181 JJ#NN#CC#NNS# 4 401 QP#DT# 2
182 JJ#NN#NN# 3 402 QP#JJ#NNS# 3
183 JJ#NN#NN#NNS# 4 403 QP#NN# 2
184 JJ#NN#NNS# 3 404 QP#NN#NN# 3
185 JJ#NN#VBG# 3 405 QP#NNS# 2
186 JJ#NNP#CD#NNS# 4 406 RB# 1
187 JJ#NNP#NNP#NN#NNS# 5 407 RB#CD#NNS# 3
188 JJ#NNP#NNP#NNP#
NN#NNS#
6 408 RB#DT#ADJP#NNS# 4
189 JJ#NNP#NNP#NNS# 4 409 RB#DT#JJ#JJ#NN# 5
190 JJ#NNP#NNS# 3 410 RB#DT#JJ#NN# 4
191 JJ#NNS# 2 411 RB#DT#JJ#VBG#NNS# 5
192 JJ#NNS#CC#NN# 4 412 RB#DT#JJS#NN# 4
193 JJ#NNS#NN# 3 413 RB#JJ#NN#NNS# 4
n
(1) (2) (3) (1) (2) (3)
194 JJ#NNS#NNS# 3 414 RBS#JJ#NN#NNS# 4
195 JJ#NNS#NNS#NNS# 4 415 UCP#NNS# 2
196 JJ#NNS#POS# 3 416 VB# 1
197 JJ#NX# 2 417 VB#CC#VB#NNS# 4
198 JJ#POS# 2 418 VBG#NN# 2
199 JJ#UCP#NNS# 3 419 VBG#NN#NNS# 3
200 JJ#VBN#NNS# 3 420 VBG#NNP#NNS# 3
201 JJR#NN# 2 421 VBG#NNS# 2
202 JJR#NN#NN# 3 422 VBG#NNS#CC#NN# 4
203 JJR#NNS# 2 423 VBN#NN# 2
204 JJS# 1 424 VBN#NN#CC#NNS# 4
205 JJS#JJ#JJ#NNS# 4 425 VBN#NN#NN# 3
206 JJS#JJ#NNS# 3 426 VBN#NN#NNS# 3
207 JJS#NN#NN# 3 427 VBN#NNS# 2
208 JJS#NNS# 2 428 VBN#NNS#CC#NNS# 4
209 NAC#NNP#NNP#NNP# 4 429 NN#IN#NN#NN#NN# 5
210 NN# 1 430 JJ#CC#JJ#NN# 4
211 NN,#NN,#JJ#CC#NN#NNS# 6 431 JJ#NN#NN#NN# 4
212 NN,#NN,#NN# 3 432 VB#NN# 2
213 NN,#NN,#NN,#CC#
NN#NN#NNS#
7 433 NN#IN#NN#NN# 4
214 NN,#NN,#NN,#NN,#CC#NN# 6 434 NN#IN#NN# 3
215 NN,#NN,#NN,#NN,#
NN#CC#NN#
7 219 NN,#NN#CC#NNS# 4
216 NN,#NN,#NNP#NNP#
CC#NNP#NNS#
7 220 NN#CC#NN# 3
217 NN,#NN#CC#NN#NN# 5 435 JJ#NN#IN#NN# 4
218 NN,#NN#CC#NN#NNS# 5
Nguồn tham khảo:
o
Phụ lục E. Tính chất ảnh-tạo ảnh trong toán học
Cho f: X Y là một ánh xạ, x là phần tử của X và y là phần tử của Y, ta nói
y là ảnh của x trong y qua ánh xạ f khi y = f(x).
Nếu A là tập hợp con của X, B là tập hợp con của Y, thì:
f(A) là ảnh của A qua ánh xạ f, khi ñó ta có f(A) = {y = f(x) ∈ Y / x ∈ X}
f -1(B) = {x ∈ X / f(x) ∈ B} là tạo ảnh của B qua ánh xạ f.
Ngoài ra, nếu:
− A1, A2 là 2 tập hợp con của tập hợp X
− B1, B2 là hai tập hợp con của tập hợp Y
thì các biểu thức sau ñây biểu diễn tính chất của ánh xạ ngược:
1. f(A1 ∪ A2) = f(A1) ∪ f(A2) 6. f −1(f(A)) ⊇ A
2. f(A1 ∩ A2) ⊆ f(A1) ∩ f(A2) 7. A1 ⊆ A2 → f(A1) ⊆ f(A2)
3. f −1(B1 ∪ B2) = f −1(B1) ∪ f −1(B2) 8. B1 ⊆ B2 → f −1(B1) ⊆ f −1(B2)
4. f −1(B1 ∩ B2) = f −1(B1) ∩ f −1(B2) 9. f −1(BC) = (f −1(B))C
5. f(f −1(B)) ⊆ B 10. (f |A)−1(B) = A ∩ f −1(B)
Nguồn tham khảo:
p
Phụ lục F. Cấu trúc ñịnh dạng tài liệu TREC
F1. Cấu trúc tổ chức dữ liệu của nguồn dữ liệu FT
<!DOCTYPE FT931 [
<!ELEMENT DOC - - (DOCNO & (DATE* | PROFILE* | HEADLINE* | BYLINE* |
TEXT+ | DATELINE* | XX* | CO* | CN* | IN* | TP* | PE* | PUB* | PAGE* )* )>
" >
]>
F2. Cấu trúc tổ chức dữ liệu của nguồn dữ liệu FR
<!DOCTYPE FR [
q
<!ELEMENT IMPORT - - (FOOTCITE* | FOOTNOTE* | FOOTNAME* | SIGNJOB* |
SIGNER* | BILLING* | TABLE* | FRFILING* | #PCDATA)+ >
<!ELEMENT ACTION - - (TABLE* | SIGNER* | FOOTCITE* | FOOTNAME* |
FOOTNOTE* | #PCDATA)+ >
<!ELEMENT SUMMARY - - (TABLE* | SIGNER* | FOOTCITE* | FOOTNAME* |
FOOTNOTE* | #PCDATA)+ >
<!ELEMENT DATE - - (TABLE* | SIGNER* | FOOTNAME* | FOOTCITE* |
FOOTNOTE* | IMPORT* | #PCDATA)+ >
<!ELEMENT ADDRESS - - (FOOTNOTE* | FOOTCITE* | TABLE* | SIGNER* |
#PCDATA)+ >
<!ELEMENT FURTHER - - (TABLE* | SIGNER* | FOOTNOTE* | FOOTCITE* |
FOOTNAME* | IMPORT* | SIGNJOB* | BILLING* | FRFILING* | #PCDATA)+ >
<!ELEMENT SUPPLEM - - (FOOTNAME* | SIGNJOB* | SIGNER* | BILLING* |
FRFILING* | RINDOCK* | USDEPT* | CFRNO* | FOOTNOTE* | FOOTCITE* | TABLE* |
IMPORT* | #PCDATA)+ >
<!ELEMENT SIGNER - - (FOOTNAME* | FOOTNOTE* | TABLE* | FOOTCITE* |
#PCDATA)+ >
<!ELEMENT SIGNJOB - - (USDEPT* | CFRNO* | IMPORT* | USBUREAU* | RINDOCK* |
TABLE* | SIGNER* | FOOTNAME* | FOOTNOTE* | FOOTCITE* | #PCDATA)+ >
<!ELEMENT FRFILING - - (FOOTNOTE* | FOOTNAME* | FOOTCITE* | USDEPT* |
DOCTITLE* | RINDOCK* | TABLE* | SIGNER* | #PCDATA)+ >
<!ELEMENT TEXT - - (AGENCY* | ACTION* | SUMMARY* | DATE* | FOOTNAME* |
FURTHER* | SIGNER* | SIGNJOB* | FRFILING* | BILLING* | FOOTNOTE* | FOOTCITE* |
TABLE* | ADDRESS* | IMPORT* | SUPPLEM | USDEPT* | USBUREAU* | CFRNO* |
RINDOCK* | DOCTITLE* | #PCDATA)+ >
]>
F3. Cấu trúc tổ chức dữ liệu của nguồn CR
<!DOCTYPE CR93 [
r
<!ELEMENT TEXT - - (H2* | UL* | TTL* | CENTER* | PRE* | SO* | TI* | FLD001* |
FLD002* | #PCDATA)+>
<!ELEMENT DOC - - (DOCNO & (DOCID* | CENTER* | PRE* | DATE* | FLD003* |
TEXT+ | H2* | UL* | TTL* | FLD001* | FLD002*)* )>
" >
]>
s
Phụ lục G. Tổ chức cơ sở dữ liệu của thực
nghiệm trong luận án
G_extG_linkG_tmp
NP_DATA
NP_DATA_DETAIL
Onto_exp_NPC_M
Onto_exp_NPC_MP
Onto_exp_NPC_O
Onto_exp_NPC_OM
Onto_exp_NPC_P
Onto_exp_NPMR_M
Onto_exp_NPMR_MP
Onto_exp_NPMR_O
Onto_exp_NPMR_OM
Onto_exp_NPMR_P
Onto_exp_SNPE_M
Onto_exp_SNPE_MP
Onto_exp_SNPE_O
Onto_exp_SNPE_OM
Onto_exp_SNPE_P
Onto_expAnalyzer
Onto_expM
Onto_expMP
Onto_expO
Onto_expOM
Onto_expP
Onto_expPhrase
Onto_expPhrase_for_HS
Onto_Member
Onto_MP
Onto_Object
Onto_OM
Onto_Property
Onto_trainM
Onto_trainMP
Onto_trainO
Onto_trainOM
Onto_trainP
PAT_Mapping
SEARCH_DATA_RESULT
SEARCH_DATA_RESULT_HS
SEARCH_DATA_RESULT_NPC
SEARCH_DATA_RESULT_NPMR SEARCH_DATA_RESULT_SNPE
si_AttributeDocuments
si_Attributes
si_DataSources
si_Documents
si_Relationshipes
si_TermDoc
si_TermLink
si_Terms
System_Running
TEST_DATA
TEST_DATA_RESULT_DETAIL_NPCTEST_DATA_RESULT_DETAIL_NPMR
TEST_DATA_RESULT_DETAIL_SNPE
TEST_DATA_RESULT_NPCTEST_DATA_RESULT_NPMR
TEST_DATA_RESULT_SNPE
TRAINING_DATA
Word_List
Word_List_Link
Word_Pos
Hình G.1. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án
Các file đính kèm theo tài liệu này:
- LATS_CB_BVNN_NCThanh.pdf