Luận án Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

MỤC LỤC Chương 1 GIỚI THIỆU 1 1.1 Động cơ nghiên cứu 1 1.2 Mục tiêu và phạm vi nghiên cứu . 5 1.3 Đóng góp chính của luận án 8 1.4 Cấu trúc của luận án 10 1.5 Các quy ước 13 1.6 Tóm tắt nội dung luận án 13 Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN 14 2.1 Giới thiệu 14 2.2 Các nghiên cứu liên quan trong nước 15 2.3 Các nghiên cứu về ontology 19 2.4 Các nghiên cứu về mở rộng truy vấn . 23 2.5 Khai thác dữ liệu từ WordNet 39 2.6 Tóm lược 44 Chương 3 XÂY DỰNG NỀN TẢNG HỆ THỐNG . 46 3.1 Giới thiệu 46 3.2 Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở rộng truy vấn . 46 3.3 Các mô hình cho bài toán mở rộng truy vấn 60 3.4 Mẫu nhận dạng cụm danh từ 65 3.5 Phương pháp thực nghiệm và ñánh giá 70 3.6 Nguồn dữ liệu thực nghiệm . 74 3.7 Tóm lược 88 Chương 4 XÂY DỰNG ONTOLOGY OOMP . 90 4.1 Giới thiệu 90 4.2 Xây dựng ontology OOMP 90 4.3 Phương pháp huấn luyện dựa trên kho ngữ liệu 95 4.4 Phương pháp huấn luyện dựa trên WordNet . 100 4.5 Cơ chế tự huấn luyện của ontology OOMP . 107 4.6 Các ứng dụng của ontology và quan hệ . 109 4.7 Tóm lược 110 Chương 5 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN . 112 5.1 Giới thiệu 112 5.2 Hoàn chỉnh và rút gọn truy vấn . 113 5.3 Kiểm tra cụm danh từ hoàn chỉnh 114 5.4 Tạo cụm danh từ hoàn chỉnh 121 5.5 Tạo cụm danh từ rút gọn 122 5.6 Hoàn chỉnh cụm danh từ 123 5.7 Giải thuật rút gọn thành phần cụm danh từ 135 5.8 Tóm lược . 140 Chương 6 MỞ RỘNG TRUY VẤN 142 6.1 Mở rộng truy vấn cho ñộng cơ tìm kiếm trên Web . 142 6.2 Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn 153 6.3 Tóm lược . 165 Chương 7 KẾT LUẬN 167 7.1 Các kết quả ñạt ñược 167 7.2 Hướng phát triển 171 7.3 Lời kết 172

pdf223 trang | Chia sẻ: maiphuongtl | Lượt xem: 2176 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Luận án Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ence on Information and Knowledge Management, pp.1903-1906. Hongkong. 2009. [49] Eduardo Mena, Vipul Kashyap, Arantza Illarramendi, Amit P. Sheth. Imprecise answers in distributed environments: estimation of information loss for multi- ontology based query processing. International Journal of Cooperative Information Systems (IJCIS), Special Issue on Intelligent Integration of Information, Volume 9, Issue 4. December 2000. [50] Efthimis N. Efthimiadis. Interactive query expansion and relevance feedback for document retrieval systems. PhD thesis, City University, London, UK, 1992. 182 [51] Efthimis N. Efthimiadis. Query expansion. In M. E. Williams (Ed.), Annual Review of Information Science and Technology, volume 31, pp.121-187). 1996. [online] [52] Eleanor Rosch, Carolyn B. Mervis, Wayne D. Gray, David M. Johnson, Penny B. Braem. Basic objects in natural categories. Cognitive Psychology, Volume 8 No 3, pp.382-439, 1976. [53] Ellen M. Voorhees. Using wordnet to disambiguate word senses for text retrieval. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, pp.171–180. Pennsylvania, United States. 1993. ISBN: 0-89791-605-0 [54] Ellen M. Voorhees. Query expansion using lexical-semantic relations. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pp.61 - 69. Dublin, Ireland. 1994. ISBN: 0-387-19889-X. [55] Franc A. Grootjen, Theo P. Van Der Weide. Conceptual query expansion. Data & Knowledge Engineering, Volume 56, Issue 2 (February 2006), pp.174–193. 2006. ISSN: 0169-023X. [56] Gaihua Fu, Christopher B. Jones, Alia I. Abdelmoty. Ontology-Based Spatial Query Expansion in Information Retrieval. On the Move to Meaningful Internet Systems 2005: CoopIS, DOA, and ODBASE, Volume 3761/2005, pp.1466-1482. Springer Lecture Notes in Computer Science. ISSN: 0302-9743 (Print) 1611-3349 (Online). . [57] Gerard Salton, Michael J. McGill. Introduction to modern information retrieval. New York. Mcgraw Hill, 1983. ISBN: 0070544840 [58] Gondy Leroy, Kristin M Tolle, Hsinchun Chen. Customizable and ontology- enhanced medical information retrieval interfaces. Proceedings of IMIA WG6 Triennial Conference on Natural language and Medical Concept Representation. [online] [59] Guiraude Lame. Using text analysis techniques to identify legal ontologie’s components. ICAIL 2003 Workshop on Legal Ontologies & Web based legal information management, 28 June 2003, Edinburgh, Scotland, UK. [online] [60] Hang Cui, Ji-Rong Wen, Jian-Yun Nie, Wei-Ying Ma. Query expansion by mining user logs. IEEE Transactions on Knowledge and Data Engineering, volume 15, issue 4, pp.829- 839. July-Aug. 2003. ISSN: 1041-4347. [61] Helen J. Peat, Peter Willett. The limitations of term co-occurrence data for query expansion in document retrieval systems. American Society for Information Science and Technology (JASIST), 42(5), pp.378–383, 1991. ISSN-0002-8231 183 [62] Hideo Joho, Mark Sanderson, Micheline Beaulieu. A Study of User Interaction with a Concept-Based Interactive Query Expansion Support Tool. Advances in Information Retrieval, Volume 2997/2004, pp.42-56. ISBN: ISBN: 978-3-540- 21382-6. Springer Lecture Notes in Computer Science . [63] Hien T Nguyen, Tru H Cao. Named Entity Disambiguation on an Ontology Enriched by Wikipedia. In Proceedings of the 6th IEEE International Conference on Research, Innovation and Vision for the Future - in Computing and Communications Technologies (RIVF'2008), pp.247-254. July 13-17, 2008. HCM City, Vietnam. [64] Hoang Huu Hanh, Nguyen Van Trung, Nguyen Quang Hung, Hoang Nguyen Tuan Minh, Nguyen Mau Han, Le Manh Thanh, Hoang Bao Hung. SemaDesk: A Semantic Desktop Information Management Framework. IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, July 13-17, 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8. [65] Hsinchun Chen, Kevin J. Lynch, Koushik Basu, Tobun Dorbin Ng. Generating, integrating and activating thesauri for concept-based document retrieval. IEEE Expert: Intelligent Systems and Their Applications, Volume 8, Issue 2 (April 1993), pp.25 - 34. 1993. ISSN: 0885-9000. [66] In-Ho Kang, GilChang Kim. Query type classification for web document retrieval. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval, pp.64–71. Toronto, Canada. 2003. ISBN: ISBN: 1-58113-646-3. [67] Jagdev Bhogal, Andrew Macfarlane. A review of ontology based query expansion. Information Processing and Management: an International Journal, Volume 43, Issue 4 (July 2007), pp.866-886. 2007. ISSN: 0306-4573 [68] James Callan, Bruce Croft and Stephen Harding. The INQUERY Retrieval System. In Proceedings of the Third International Conference on Database and Expert Systems Applications, pp.78–83. 1992. [69] James Pustejovsky. The core lexical engine: the contextual determination of word sense. Technical Report, Department of Computer Science, Brandeis University. 1995. [online] . [70] Jane Morris, Graeme Hirstt. Lexical cohesion computed by thesaural relations as an indicator of the structure of text. Computational Linguistics, Volume 17, Number 1, March 1991. [online] [71] Jesus Vilares, Manuel Vilares, Miguel A. Alonso. Towards the development of heuristics for automatic query expansion. Proceedings of the 12th International Conference on Database and Expert Systems Applications, pp.887–896. 2001. ISBN: ISBN: 3-540-42527-6. 184 [72] Jie Bao, Yu Cao, Wallapak Tavanapong, and Vasant Honavar. Integration of domain- specific and domain-independent ontologies for colonoscopy video database annotation. Proceedings of the International Conference on Information and Knowledge Engineeringl (IKE 04), pp.82-88. Nevada, USA. CSREA Press. 2004. [73] Jing Bai, Jian-Yun Nie, Guihong Cao. Context-Dependent Term Relations for Information Retrieval. Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP 2006), pp.551–559. Sydney, Australia. July 2006. 2006 Association for Computational Linguistics. [74] John Bateman. John Bateman’s ontology Portal. 2005 [online]. bremen.de/anglistik/langpro/webspace/jb/info-pages/ontology/ontology-root.htm [75] John Eastwood. Oxford Guide To English Grammar. Oxford University Press. 1994. [76] José Saias, Paulo Quaresma. Semantic enrichment of a web legal information retrieval system. Legal Knowledge and Information Systems. IOS Press, 2002. [online] [77] Joseph John Rocchio. Relevance feedback in information retrieval. The SMART Retrieval System - Experiments in Automatic Document Processing, pp.313-323. Prentice-Hall. 1971. [78] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran. Indexing with WordNet synsets can improve text retrieval. Proceedings of the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal, 1998. [online] lg/9808002 [79] Jun Cui. Query Expansion Research and Application in Search Engine Based on Concepts Lattice. Master Thesis in Computer Science, Thesis no: MCS-2009: 28. School of Computing, Blekinge Institute of Technology, Soft Center, SE-37225 RONNEBY, SWEDEN. 2009. [80] Kalervo Järvelin, Jaana Kekäläinen, Timo Niemi. ExpansionTool: concept-based query expansion and construction. Information Retrieval Journal, Volume 4, Numbers 3-4/September, pp.231-255. 2001. ISSN: 1386-4564 (Print). [81] Karen Spärck Jones. An evaluation of query expansion by addition of clustered terms for a document retrieval system. Information Storage and Retrieval, 9(6), 339, 1973. [82] Karen Spärck Jones, Stephen G. Walker, Stephen Robertson. A probabilistic model of information retrieval: development and comparative experiments. Information Processing and Management: an International Journal, Volume 36, Issue 6 (November 2000), pp.779–808. 2000. ISSN: 0306-4573. [83] Keiichiro Hoashi, Kazunori Matsumoto, Naomi Inoue, Kazuo Hashimoto. Query Expansion Based on Predictive Algorithms for Collaborative Filtering. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 24th annual international ACM SIGIR conference on Research and development 185 in information retrieval, pp.414–415. Louisiana, United States. 2001. ISBN: ISBN: 1- 58113-331-6. [84] Kevyn B. Collins-Thompson. Robust model estimation methods for Information Retrieval. PhD Thesis in Computer Science. Carnegie Mellon University. Dec 4, 2008. [online] thesis-20081204.pdf [85] Khanh Tran Dang. Ensuring Correctness, Completeness and Freshness for Outsourced Tree-Indexed Data. Information Resources Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol. 21, Issue 1, pp.59-76. Jan-Mar 2008. [86] Koji Eguchi. Query expansion experiments using term dependence models. In proceedings of the 5th NTCIR Workshop meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access, 2005. [87] Kristina Nilsson, Hans Hjelm, Henrik Oxhammar. SUiS–cross-language ontology- driven information retrieval in a restricted domain. Proceedings of the 15th Nodalida Conference, pp.139-145. 2005. [online] [88] Krisztian Balog, Wouter Weerkamp, Maarten de Rijke. A few examples go a long way: constructing query models from elaborate query formulations. SIGIR’08: Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval, pp.371–378. New York. USA. 2008. [89] Lan Huang. A survey on web information retrieval technologies. Technical Report. Computer Science Department; State University of New York at Stony Brook. New York, 2000. [90] Latifur Khan, Lei Wan. Automatic ontology derivation using clustering for image classification. In Proceedings of Eighth International Workshop on Multimedia Information Systems, pp.56–65. Arizona, USA. October 2002. [91] Lesk Me. Word–word associations in document retrieval systems. American Documentation, Volume 20 Issue 1, pp.27–38. 2007. [92] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, Eytan Ruppin. Placing search in context: the concept revisited. ACM Transactions on Information Systems (TOIS), Volume 20, Issue 1 (January 2002), pp.116–131. 2002. ISSN: 1046-8188. [93] Marcia J. Bates. After the Dot-Bomb: getting information retrieval right this time. FirstMonday 7 – Peer Reviewed Journal, 2002. [online] [94] Maria Ruiz-Casado, Enrique Alfonseca and Pablo Castells. Automatic extraction of semantic relationships for WordNet by means of pattern learning fromWikipedia. 186 Data & Knowledge Engineering archive, Volume 61, Issue 3 (June 2007), pp.484- 499. 2007. ISSN: 0169-023X [95] Mark Sanderson. A study of user interaction with a concept based interactive query expansion support tool (CiQuest) which is integrated into Okapi. Advances in Information Retrieval: 26th European conference on ir research, ECIR 2004. Springer Lecture notes in computer science, pp. 42–56. April 5–7, 2004. [96] Mark Sanderson, Dawn Lawrie. Building, testing and applying concept hierarchies. Advances in Information Retrieval, Volume 7, pp.235-266. ISBN: ISBN: 978-0- 7923-7812-9 (Print) 978-0-306-47019-6 (Online). [97] Marti A. Hearst. Automatic acquisition of hyponyms from large text corpora. International Conference On Computational Linguistics. Proceedings of the 14th conference on Computational linguistics, Volume 2, pp.539–545.France. 1992. [98] Merriam-Webster Online dictionary. [online] w.com/dictionary/context . [99] Michael Buckland. Translingual information management using domain ontologies. Research project. 2003. [online] [100] Micheline Hancock-Beaulieu, Stephen Walker. An evaluation of automatic query expansion in an online library catalogue. Journal of Documentation, Volume 48, Issue 4 (December 1992), pp.406–421. 1992. ISSN: 0022-0418. [101] Ogawa Yasushi, Mano Hiroko, Narita Masumi, Honma Sakiko. Structuring and expanding queries in the probabilistic model. Proceedings of the Eighth Text REtrieval Conference (TREC 8), pp.541-548. November 13–16. 2000. [online] [102] Olga Vechtomova, Stephen Robertson, Susan Jones. Query expansion with long-span collocates. Information Retrieval Journal, Volume 6, Number 2 / April, 2003, pp.251-273. ISSN: 1386-4564 (Print) 1573-7659 (Online) . [103] Peretz Shoval. Principles, procedures and rules in an expert system for information retrieval. Information Processing and Management: an International Journal, Volume 21, Issue 6 (December 1985), pp.475–487. 1985. ISSN: 0306-4573. [104] Phuc Do, Hung Xuan Mai. Using SOM based graph clustering for extracting main ideas from documents. IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp. 209-214. July 13-17, 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8 [105] Phuc Do, Phung Nguyen. Using Naïve Bayes Model and Natural Language Processing for Classifying Messages on Online Forum. IEEE International Conference on Research, Innovation and Vision for the Future, pp.247-252. March 5-9, 2007. Hanoi, Vietnam. ISBN: 1-4244-0694-3. 187 [106] Rila Mandala, Takenobu Tokunaga, Hozumi Tanaka. Combining multiple evidence from different types of thesaurus for query expansion. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp.191 - 197. Berkeley, California, USA. 1999. ISBN: 1-58113-096-1 [107] Rila Mandala, Tokunaga Takenobu, Tanaka Hozumi. The use of WordNet in information retrieval. Proceedings of Coling-ACL '98 Workshop, pp.191–197. 1998. [108] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec. Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in Bacteriology. In Semantic Web Applications and Tools for Life Sciences, SWAT4LS. 2008. [online] [109] Robert Krovetz, W. Bruce Croft. Lexical ambiguity and information retrieval. ACM Transactions on Information Systems (TOIS), Volume 10, Issue 2 (April 1992), pp.115–141. 1992. ISSN: 1046-8188. [110] Roberto Navigli, Paola Velardi. An analysis of ontology-based query expansion strategies. Proceedings of the International Workshop on Adaptive Text Extraction and Mining held in conjunction with the 14th European Conference on Machine Learning and the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases. Dubrovnik, Croatia. 22 September 2003. [online] [111] Sabrina Tiun, Rosni Abdullah, Tang Enya Kong. Enriching Ontology Using Wordnet. Pre-Coling 2002 Seminar On Linguistic Meaning Representation And Their Applications Over The World Wide Web. Penang, Malaysia. August 2002. [112] Salvador Climent, Horacio Rodríguez, Julio Gonzalo. Definition of the links and subsets for nouns of the EuroWordNet Project. EuroWordNet Deliverables LE-4003. WP 3.1 D005. Amsterdam., 1996. [online] [113] Sam Coates-Stephens. Analysis and acquisition of proper names for robust text understanding. Ph.D Thesis. Department of Computer Science of City University. London. 1992. [114] Sanda M. Harabagiu,. George A. Miller, Dan I. Moldovan. WordNet 2 – A morphologically and semantically enhanced resource. In Proceedings of SIGLEX- 99, pp.1–8. June 1999. [115] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar. Using Domain Ontologies for Efficient Information Retrieval. 13th International Conference on Management of Data (COMAD 2006), IIT, Delhi, India, 2006. [online] 188 [116] Scott Deerwester, Susan T. Dumais , George W. Furnas , Thomas K. Landauer, Richard Harshman. Indexing by latent semantic analysis. Journal of the Society for Information Science, 41(6), 391-407. 1990.. [117] Soumen Chakrabarti , Byron Dom, Rakesh Agrawal, Prabhakar Raghavan. Scalable feature selection, classification and signature generation for organizing large text databases into hierarchical topic taxonomies. VLDB Journal, Volume 7, Issue 3, pp.163–178. 1998. [118] Stefan Klink. Improving document transformation techniques with collaborative learned term-based concepts. The book of Reading and learning: adaptive content recognition, Volume 2956/2004, pp.281–305. 2004. ISSN: 0302-9743 (Print) 1611- 3349 (Online). Springer Lecture Notes in Computer Science. [119] Stefania Castellani, Aaron Kaplan, Frederic Roulland, Jutta Willamowski, and Antonietta Grasso. Creation and Maintenance of Query Expansion Rules. Proceedings of Enterprise Information Systems 11th International Conference, ICEIS 2009. Milan, Italy. May 6-10, 2009. [120] Stephen E. Robertson, Karen Sparck Jones. Relevance weighting of search terms. Taylor Graham Series In Foundations Of Information Science. Document retrieval systems, pp.143–160. 1988. ISBN: 0-947568-21-2. [121] Stephen E. Robertson. On relevance weight estimation and query expansion. Journal of Documentation, Volume 42, Issue 3, pp.182–188. 1986. ISSN: 0022-0418. [122] Stephen E. Robertson. On term selection for query expansion. Journal of Documentation, Volume 46, Issue 4, pp.359–364. 1991. ISSN: 0022-0418. [123] Stephen Walker, Richard M. Jones. Improving subject retrieval in online catalogues: 1. Stemming, automatic spelling correction and cross-reference tables. London: British Library Research & Development Department. 1987. ISBN: ISBN: 0712331298 [124] Suomela Sari, Kekäläinen Jaana. Ontology as a search-tool: A study of real users’ query formulation with and without conceptual support. Proceedings of the 27th European Conference on IR Research (ECIR2005), pp.315–329. Berlin, Heidelberg: Springer-Verlag. 2005. [125] Susan Jones, Mike Gatford, Steve Robertson, Micheline Hancock-Beaulieu, Judith Secker, Steve Walker. Interactive thesaurus navigation: intelligence rules OK? Journal of the American Society for Information Science, Volume 46, Issue 1 (January 1995), pp.53–59. 1995. ISSN: 0002-8231. [126] Susan Jones. A thesaurus data model for an intelligent retrieval system. Journal of Information Science, Volume 19, Issue 3, pp.167–178. 1993. ISSN: 0165-5515. [127] Svitlana Zinger, Christophe Millet, Mathieu Baudet, Gregory Grefenstette, Patrick Hède, Pierre-Alain Moëllic. Extracting an Ontology of Portrayable Objects from 189 WordNet. Proceedings of the MUSCLE/ImageCLEF Workshop on Image and Video Retrieval Evaluation, pp.17-23. Vienna, Austria, September 2005. [128] Thanh Tran, Holger Lewen. Semantic Software Engineering: The Role and Usage of Ontology in Information Systems. IEEE International Conference on Research, Innovation and Vision for the Future, pp.14-21. March 5-9, 2007. Hanoi, Vietnam. ISBN: 1-4244-0694-3. [129] Tho Thanh Quan, Siu Cheung Hui. Ontology-based Natural Query Retrieval using Conceptual Graphs. Lecture Notes In Artificial Intelligence; Vol. 5351. The 10th Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial Intelligence, pp.309–320. Hanoi, Vietnam. 2008. ISBN: 978-3-540-89196-3. [130] Thomas R. Gruber. A translation approach to portable ontologies. Knowledge Acquisition, Volume 5, Issue 2, pp.199 - 220. June 1993. ISSN: 1042-8143. [131] Tru H. Cao, Khanh C. Le, Vuong M. Ngo. Exploring Combinations of Ontological Features and Keywords for Text Retrieval. Lecture Notes In Artificial Intelligence; Vol. 5351. The 10th Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial Intelligence, pp.603-613. Hanoi, Vietnam. 2008. ISBN: 978-3- 540-89196-3. [132] Tru H. Cao, Truong D. Cao, Thang L. Tran. A Robust Ontology-Based Method for Translating Natural Language Queries to Conceptual Graphs. Lecture Notes In Computer Science; Vol. 5367. The 3rd Asian Semantic Web Conference on The Semantic Web, pp.479 - 492. Bangkok, Thailand. 2008. ISBN: 978-3-540-89703-3. [133] Tuoi T Phan, Thanh C Nguyen, Thuy T Huynh. Question semantic analysis in Vietnamese QA System. Accepted paper. Book of Advances in Intelligent Information and Database Systems in Springer series Studies in Computational Intelligence. The 2nd Asian Conference on Intelligent Information and Database Systems. March 2010, Hue City, Vietnam. [134] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong. English-Vietnamese Cross-Language Information Retrieval: An Experimental Study. IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp.107- 113. July 13-17, 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8. [135] Veronique Malaise, Laura Hollink, and Luit Gazendam. The Interaction Between Automatic Annotation and Query Expansion: a retrieval experiment on a large cultural heritage archive. Semantic Search 2008 Workshop. Located at the 5th European Semantic Web Conference ESWC2008. Tenerife, Spain. June 2nd, 2008. [136] Vipul Kashyap. Design and creation of ontologies for environmental information retrieval. Proceedings of the 12th Workshop on Knowledge Acquisition, Modeling and Management. 1999. [online] https://eprints.kfupm.edu.sa/34189/1/34189.pdf . 190 [137] Wesley W. Chu, Zhenyu Liu, Wenlei Mao. Textual Document Indexing and Retrieval via Knowledge Sources and Data Mining. Communication of the Institute of Information and Computing Machinery (CIICM), Volume 5 Issue 2. Taiwan. [online] . [138] William Hersh, Ravi Teja Bhupatiraju, Susan Price. Phrases, Boosting, and Query Expansion Using External Knowledge Resources for Genomic Information Retrieval. Proceedings of the Twelfth Text Retrieval Conference (TREC 2003), pp.503–509. 2003. [online] [139] Wouter Weerkamp, Krisztian Balog, Maarten de Rijke. A Generative Blog Post Retrieval Model that Uses Query Expansion based on External Collections. The 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing. Singapore. 2009. [140] Wouter Weerkamp, Maarten de Rijke. External Query Expansion in the Blogosphere. The Seventeenth Text REtrieval Conference (TREC 2008) Proceedings. [online] [141] Xiangji Huang, Yan Rui Huang, Miao Wen. A dual index model for contextual information retrieval. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, pp.613–614. Salvador, Brazil. 2005. ISBN: ISBN: 1-59593-034-5 [142] Xiaogang Peng, Ben Choi. Document classifications based on word semantic hierarchies.The IASTED International Conference on Artificial Intelligence and Applications, pp.362-367. 2005. [143] Yonggang Qiu, Hans-Peter Frei. Concept base query expansion. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, pp.160-169. Pittsburgh, Pennsylvania, USA. 1993. ISBN: ISBN: 0-89791-605-0. [144] Zhenyu Liu, Wesley W. Chu. Knowledge-based query expansion to support scenario-specific retrieval of medical free text. Symposium on Applied Computing. Proceedings of the 2005 ACM symposium on Applied computing, pp.1076 - 1083. Santa Fe, New Mexico. 2005. ISBN: 1-58113-964-0. Trang Web [145] Alta Vista, [146] DTD, [147] GATE, A General Architecture for Text Engineering, 191 [148] Google, [149] KEA, [150] Lemure, [151] Lucene, [152] Microsoft Bing, [153] Microsoft Corporation, [154] Oracle, [155] OWL, [156] Penn Tags, [157] Penn Treebank, [158] Protégé, [159] RDF, [160] SPARQL, SPARQL Query Language for RDF, Prud'hommeaux, Eric; Seaborne, Andy; Editors, W3C Recommendation, 15 January 2008. [161] Support Vector Machines, [162] TREC, [163] Wikipedia, [164] XML, [165] Yahoo, [166] WordNet, a Phụ lục A. Tóm lược về WordNet WordNet là một ontology tổng quát và là một hệ cơ sở tri thức cho từ vựng tiếng Anh. Các từ vựng trong WordNet ñược phân loại và tổ chức thành các tập ñồng nghĩa gọi là synset. Mỗi tập synset biểu diễn một nghĩa. WordNet tổ chức 25 cấu trúc cây phân cấp riêng biệt tương ứng với các lĩnh vực có ngữ nghĩa khác nhau cho synset. Ngoài ra, WordNet còn bao gồm một số thành phần chủ yếu như word, sense, category... và các quan hệ ngữ nghĩa liên kết ñược trình bày chi tiết như sau: * Quan hệ Synonymy Quan hệ này ñóng vai trò chính yếu trong tổ chức từ vựng của WordNet vì biểu diễn tính tương tự về nghĩa giữa các hình thái từ về mặt từ vựng. Chính mối quan hệ này là cơ sở ñể các nhà xây dựng WordNet tập hợp các hình thái từ có cùng nghĩa thành các synset. Synonymy ñược xác ñịnh bởi khái niệm như sau: “Hai biểu thức là tương ñương về nghĩa trong một ngữ cảnh C nếu sự thay thế giữa chúng trong C không làm thay ñổi giá trị ñúng.” * Quan hệ Antonymy Antonymy xác ñịnh mối quan hệ trái nghĩa của hai từ trong WordNet. Antonym của một từ x ñôi lúc là not x nhưng không phải luôn ñúng. Antonymy cung cấp quy tắc tổ chức tính từ trong WordNet và những vấn ñề phức tạp phát sinh khi antonymy nằm trong mối quan hệ ngữ nghĩa giữa các từ. * Quan hệ Hyponymy và Hypernymy: Không giống như synonymy và antonymy, quan hệ hyponymy và hypernymy cho biết mối quan hệ về ngữ nghĩa giữa các khái niệm, trong ñó nghĩa của khái niệm này bao hàm nghĩa của khái niệm kia hay ngược lại. Cặp quan hệ hyponymy và hypernymy còn có thể ñược xem là cặp quan hệ hạ danh (subordination) và thượng danh (superordination), hay cặp quan hệ tập con (subset) và tập cha (superset), hoặc cặp quan hệ IS-A và HAS-A. Một khái niệm ñược biểu diễn bởi synset {x, x’, …} ñược gọi là hyponymy của khái niệm {y, y’, …} nếu mệnh ñề “x is a (kind of) y” là ñúng. Theo Lyons (1977), quan hệ hyponymy có tính chất bắt cầu và phản xứng. Theo quan hệ hyponymy, việc thêm ít nhất một thuộc tính mới vào khái niệm chi tiết sẽ giúp phân biệt khái niệm ñó với một hoặc những khái niệm tổng quát có b các thuộc tính mà nó thừa kế. Quy ñịnh này cung cấp nguyên tắc phân cấp cho việc xây dựng quan hệ danh từ trong WordNet. * Quan hệ Meronymy và Holonymy Quan hệ meronymy và holonymy là mối quan hệ toàn thể–bộ phận giữa hai synset danh từ. Năm 1998, Winston chia quan hệ meronymy và holonymy thành các loại như trong bảng sau. Bảng A.1. Phân loại quan hệ meronymy và holonymy STT Loại Tên khác Ví dụ 1 Thành phần–Đối tượng Component–Object branch–tree 2 Thành viên–Tập hợp Member–Collection tree–forest 3 Vật liệu–Đối tượng Stuff–Object aluminium–airplane 4 Phần–Khối Portion–Mass slice–cake 5 Đặc ñiểm–Hoạt ñộng Feature–Actitivity paying–shopping 6 Địa ñiểm–Nơi chốn Place–Area Princeton–New Jersey 7 Giai ñoạn–Quá trình Phase–Process addolescence–growing up c Phụ lục B. Cấu trúc cụm danh từ tiếng Anh Theo John Eastwood (1994) [77] và [8], cấu trúc cơ bản của cụm danh từ tiếng Anh ñược trình bày như trong bảng B.1. Bảng B.1.Cấu trúc cơ bản của cụm danh từ Số lượng (1) Định tố (2) Tính từ làm bổ ngữ (3) Danh từ làm bổ ngữ (4) Từ trung tâm (5) Các bổ ngữ khác (6) A bomb Two people A meal for two The door All these bottles here a lot of empty bottles Some nice soup dishes each of the heavy glass doors of the building Một số ví dụ minh họa cho cấu trúc ở bảng B.2 ñược liệt kê như sau. Bảng B.2. Cấu trúc cơ bản của cụm danh từ Các thành phần bổ ngữ trong cụm danh từ Ví dụ minh họa Vị trí số (1) trong bảng 3.4.1 có thể có nhiều hơn một từ (a) a/DT lot/NN of/IN money/NN (b) two/CD hundred/CD and/CC fifty/CD passengers/NN Số lượng (1) và ñịnh tố (2) cùng xuất hiện trong cụm (c) all/PDT that/DT whisky/NN (d) both/PDT the/DT doors/NNS Số lượng (1) ñứng sau ñịnh tố (2) (e) the/DT many/JJ rooms/NNS of/IN the/DT house/NN(f) those/DT few/JJ people/NN left/VBN Dạng sở hữu có chức năng như ñịnh tố (g) the/DT man/NN ’s/POS seat/NN (h) all/PDT the/DT passenger/NN ’s/POS meals/NNS Có nhiều hơn một tính từ hoặc danh từ làm bổ ngữ (i) a/DT lovely/JJ hot/JJ meal/NN (j) China/JJ soup/NN dishes/NNS Khi có nhiều hơn một tính từ làm bổ ngữ, chúng sẽ xuất hiện trong một trật tự nhất ñịnh, tùy thuộc vào loại của tính từ trong cụm danh từ. Các loại tính từ ñược phân loại theo bảng B.3. d Bảng B.3.Phân loại các nhóm tính từ STT Loại Ví dụ 1 ñánh giá, bình phẩm(opinion) Nice, wonderful, excellent, lovely … 2 kích thước (size) Large, small, long, short, tall, … 3 chất lượng (quality) Clear, busy, famous, important, quiet,.. 4 tuổi tác, cũ, mới (age) Old, new 5 hình dáng (shape) Round, square, fat, thin, wide, narrow,… 6 màu sắc (colour) Red, white, blue, green,… 7 dạng phân từ (participle forms) Covered, furnished, broken, running, missing,… 8 nguồn gốc (origin) British, Italian, American,… 9 chất liệu (material) Brick, paper, plastic, wooden,… 10 loại (type) Human, chemical, domestic, money... 11 mục ñích (purpose) Alarm (clock), walking(boots) … Bảng B.4 là các ví dụ về cụm danh từ có các loại tính từ làm bổ ngữ danh từ: Bảng B.4.Ví dụ về phân loại các nhóm tính từ Loại tính từ Ví dụ minh họa cũ + vật liệu (a) an/DT old/JJ cardboard/NN box/NN nguồn gốc + loại (b) a/DT German/JJ industrial/JJ company/NN kích cỡ + hình dạng + màu sắc (c) two/CD small/JJ round/JJ green/JJ discs/NNS kích cỡ + chất lượng + loại (d) a/DT large/JJ information/JJ street/NN plan/NN chất lượng + vật liệu (e) a/DT hard/JJ wooden/NN seat/NN mới + phân từ (f) a/DT new/JJ improved/VBN formula/NN phân từ + loại (i) increasing/VBG financial/JJ difficulties/NNS Đánh giá+loại+mục ñích (j) two/CD excellent/JJ public/JJ tennis/NN courts/NNS Vấn ñề về trật tự từ trong cấu trúc cụm danh từ tiếng Anh cũng ñược Vũ Ngọc Tú ñề xuất (1996) [8] như bảng B.5. Bảng B.5.Trật tự từ trong cấu trúc cụm danh từ tiếng Anh Định tố trước Định tố giữa Định tố sau Bổ ngữ Từ trung tâm Bổ ngữ sau -4 (a) -3 (b) -2 (c) -1 (d) 0 (e) 1 (f) All The Three good books on sale Trong cấu trúc cụm này, các từ theo chức năng ngữ pháp ở những vị trí như: e − Vị trí (d) là vị trí của bổ ngữ trước bao gồm các từ có chức năng phân từ, tính từ, trong trường hợp có nhiều tính từ cùng xuất hiện ở vị trí này chúng sẽ xuất hiện theo trật tự sau: Bảng B.6.Phân loại các nhóm tính từ STT Loại tính từ 1 Số thứ tự 2 Số ñếm 3 tính từ chỉ chất lượng hoặc tính chất, tính từ mang ý nghĩa tổng quát: happy, beautiful, heavy… 4 tính từ chỉ kích thước (size): tall, big,.. 5 tính từ chỉ tuổi tác: old, young,.. 6 tính từ chỉ nhiệt ñộ: hot, cold… 7 tính từ chỉ hình dáng: round, square,.. 8 tính từ chỉ màu sắc: red, purple, green, yellow,.. 9 tính ñộng từ: interesting, broken, … 10 tính từ chỉ nguồn gốc, xuất xứ hay nơi chốn: French, central… 11 Danh từ xuất hiện trước danh từ trung tâm; trong ñó các trường hợp có thứ tự thấp hơn sẽ gần với với danh từ trung tâm hơn các trường hợp thứ tự cao. − Vị trí (c) là vị trí của ñịnh tố sau, gồm các từ chỉ số ñếm, các từ chỉ số thứ tự, các nhóm chỉ số lượng khác như: many, a few, much, little, a lot of…. − Vị trí (b) là vị trí của ñịnh tố giữa, xuất hiện ở vị trí này là các thành phần xác ñịnh như mạo từ, tính từ sở hữu, từ chỉ trỏ…. − Vị trí (a) là vị trí ñịnh tố trước. Đây là vị trí ñầu tiên trong cụm danh từ, xuất hiện ở vị trí này thường là các nhóm từ: half, both, all, double, twice, three times; các từ chỉ số thập phân như one-third (1/3)…. − Vị trí (f) là vị trí của bổ ngữ sau. Đây là vị trí khá phức tạp về cấu trúc vì chúng có thể là cụm giới từ, mệnh ñề, phân từ, tính từ. Như vậy trong tiếng Anh, cụm danh từ có thể có 32 (25 = 32) dạng biến thể, như ở bảng B.6, khi 5 vị trí phụ có thể có hoặc không (a, b, c, d, f) và ñể lại vị trí danh từ trung tâm luôn xuất hiện (e). Trong bảng B.7, thứ tự ñược ñánh số theo trật tự: những thành phần ñứng trước từ trung tâm ñược ñánh số âm từ phải sang trái lấy gốc (0) là từ trung tâm, thành phần ñứng sau từ trung tâm ñược ñánh số dương từ trái sang phải lấy gốc (0) là từ trung tâm. f Bảng B.7.Các biến thể trong cụm danh từ tiếng Anh STT Cụm danh từ Biến thể Định tố trước Định tố Định tố sau Bổ ngữ Thành tố chính Bổ ngữ sau -4 (a) -3 (b) -2 (c) -1 (d) 0 (e) 1 (f) 1 - - - - books - 2 - - - - books on sale 3 - - - good books - 4 - - - good books on sale 5 - - three - books - 6 - - three - books on sale 7 - - three good books - 8 - - three good books on sale 9 - The - - books - 10 - The - - books on sale 11 - The - good books - 12 - The - good books on sale 13 - The three - books - 14 - The three - books on sale 15 - The three good books - 16 - The three good books on sale 17 All - - - books - 18 All - - - books on sale 19 All - - good books - 20 All - - good books on sale 21 All - three - books - 22 All - three - books on sale 23 All - three good books - 24 All - three good books on sale 25 All the - - books - 26 All the - - books on sale 27 All the - good books - 28 All the - good books on sale 29 All the three - books - 30 All the three - books on sale 31 All the three good books - 32 All the three good books on sale g Phụ lục C. Danh mục từ loại tiếng Anh STT Nhãn từ loại Tên ñầy ñủ (tiếng Anh) Ý nghĩa 1 CC Coordinating conjunction Liên từ kết hợp 2 CD Cardinal number Số ñếm 3 DT Determiner Định từ 4 EX Existential there “Có” 5 FW Foreign word Từ tiếng nước ngoài 6 IN Preposition or subordinating conjunction Giới từ hoặc liên từ 7 JJ Adjective Tính từ 8 JJR Adjective, comparative Tính từ so sánh hơn 9 JJS Adjective, superlative Tính từ so sánh nhất 10 LS List item marker Dấu liệt kê 11 MD Modal Động từ tình thái 12 NN Noun, singular or mass Danh từ số ít hoặc không ñếm ñược 13 NNS Noun, plural Danh từ số nhiều 14 NNP Proper noun, singular Danh từ riêng số ít 15 NNPS Proper noun, plural Danh từ riêng số nhiều 16 PDT Predeterminer Tiền chỉ ñịnh từ 17 POS Possessive ending Dấu sở hữu cách 18 PRP Personal pronoun Đại từ nhân xưng 19 PPS Possessive pronoun (prolog version PRP-S) Đại từ sở hữu 20 RB Adverb Trạng từ 21 RBR Adverb, comparative Trạng từ so sánh hơn 22 RBS Adverb, superlative Trạng từ so sánh nhất 23 RP Particle Tiểu từ 24 SYM Symbol Ký hiệu 25 TO to “to” 26 UH Interjection Thán từ 27 VB Verb, base form Động từ nguyên mẫu không to 28 VBD Verb, past tense Động từ thì quá khứ 29 VBG Verb, gerund or present participle Hiện tại phân từ 30 VBN Verb, past participle Quá khứ phân từ 31 VBP Verb, non-3rd person singular present Động từ không phải ngôi thứ 3 số ít h 32 VBZ Verb, 3rd person singular present Động từ ngôi thứ 3 số ít 33 WDT Wh-determiner Định từ bắt ñầu bằng Wh- 34 WP Wh-pronoun Đại từ bắt ñầu bằng Wh- 35 WPZ Possessive wh-pronoun (prolog version WP-S) Đại từ sở hữu bắt ñầu bằng Wh- 36 WRB Wh-adverb Trạng từ bắt ñầu bằng Wh- 37 ADJP Adjective Phrase. Cụm tính từ 38 NP Noun Phrase Cụm danh từ 39 VP Verb Phrase Cụm ñộng từ 40 ADVP Adverb Phrase Cụm trạng từ 41 CONJP Conjunction Phrase Cụm liên từ 42 RRC Reduced Relative Clause Mệnh ñề tương ñối thu giảm 43 UCP Unlike Coordinated Phrase Cụm phối hợp khác 44 WHADJP Wh-adjective Phrase Cụm tính từ bắt ñầu với Wh- 45 WHAVP Wh-adverb Phrase Cụm trạng từ bắt ñầu với Wh- 46 WHNP Wh-noun Phrase Cụm danh từ bắt ñầu với Wh- 47 WHPP Wh-prepositional Phrase Cụm giới từ bắt ñầu với Wh- 48 PP Prepositional Phrase Cụm giới từ Nguồn tham khảo: [2], [156] và [157] i Phụ lục D. Danh mục luật sinh dạng cụm danh từ của văn phạm tiếng Anh xây dựng dựa trên TreeBank (1) STT, (2) Dạng luật sinh, (3) Số thành phần (1) (2) (3) (1) (2) (3) 1 JJ#JJ#NN# 3 221 NN#CC#NN#NN# 4 2 JJ#JJ#NN#NN# 4 222 NN#CC#NN#NN#NNS# 5 3 JJ#NN# 2 223 NN#CC#NN#NNS# 4 4 JJ#JJ#NN#NN#NN# 5 224 NN#CC#NNS# 3 5 $#CD# 2 225 NN#CD# 2 6 ADJP#ADJP#NNS# 3 226 NN#DT# 2 7 ADJP#JJ#NN# 3 227 NN#JJ#NN# 3 8 ADJP#JJ#NN#NNS# 4 228 NN#NN# 2 9 ADJP#NN# 2 229 NN#NN#CC#NN# 4 10 ADJP#NNP#NNS# 3 230 NN#NN#CC#NN#NN# 5 11 ADJP#NNS# 2 231 NN#NN#CC#NN#NNS# 5 12 CD# 1 232 NN#NN#CD# 3 13 CD#ADJP#JJ#JJ#NNS# 5 233 NN#NN#NN# 3 14 CD#ADJP#NNS# 3 234 NN#NN#NNP#NNP#NNS# 5 15 CD#CC#CD# 3 235 NN#NN#NNS# 3 16 CD#JJ,#JJ#NN# 4 236 NN#NNP#%#NP#%#NP#%# NP#%#NP#%#NP#%#NP# 14 17 CD#JJ#NN# 3 237 NN#NNS# 2 18 CD#JJ#NN#NNS# 4 238 NN#NNS#CC#NNS# 4 19 CD#JJ#NNP#NNS# 4 239 NN#NNS#NN# 3 20 CD#JJ#NNS# 3 240 NN#NNS#NNP,#NNP#NNP# 5 21 CD#NN# 2 241 NN#NNS#POS# 3 22 CD#NN#NN#NN#NNS# 5 242 NN#POS# 2 23 CD#NN#NN#NNS# 4 243 NN#RB# 2 24 CD#NN#NNS# 3 244 NN#S# 2 25 CD#NNP#NNS# 3 245 NNP# 1 26 CD#NNS# 2 246 NNP,#NN,#NN#CC# NN#NN#NNS# 7 27 DT# 1 247 NNP,#NNP,#NNP,# CC#NNP# 5 28 DT#ADJP# 2 248 NNP,#NNP#CC#JJ# NN#NNS# 6 29 DT#ADJP,#VBN#NN#NN# 5 249 NNP,#NNP#CC#NNP# 4 30 DT#ADJP#NN# 3 250 NNP,#NNP#CC#NNP# NNP#NNS# 6 31 DT#ADJP#NN#NN# 4 251 NNP#CC#NNP# 3 j (1) (2) (3) (4) (5) (6) 32 DT#ADJP#NNP# 3 252 NNP#CC#NNP#NNS# 4 33 DT#ADJP#NNP#NNP#NN# 5 253 NNP#CD# 2 34 DT#ADJP#NNS# 3 254 NNP#CD#NNP#CD#CC# CD#NNS# 7 35 DT#CD# 2 255 NNP#FW# 2 36 DT#CD#CC#CD#NN# 5 256 NNP#NN# 2 37 DT#CD#CC#CD#NNS# 5 257 NNP#NN#CD# 3 38 DT#CD#JJ#NNS# 4 258 NNP#NN#NN# 3 39 DT#CD#NN# 3 259 NNP#NN#NN#NNS# 4 40 DT#CD#NN#NN# 4 260 NNP#NN#NNS# 3 41 DT#CD#NN#NNS# 4 261 NNP#NNP# 2 42 DT#CD#NNP#NN#NN#NN# 6 262 NNP#NNP#CC#NNP#NNP# 5 43 DT#CD#NNP#NN#NNS# 5 263 NNP#NNP#CD# 3 44 DT#CD#NNS# 3 264 NNP#NNP#NN# 3 45 DT#CD#VBN#NN# 4 265 NNP#NNP#NNP# 3 46 DT#JJ# 2 266 NNP#NNP#NNP#NNP# 4 47 DT#JJ,#ADJP#JJ#NN#NN# 6 267 NNP#NNP#NNP#NNP# NNP#NN# 6 48 DT#JJ,#JJ#JJ#NN# 5 268 NNP#NNP#NNS# 3 49 DT#JJ,#JJ#NN# 4 269 NNP#NNPS# 2 50 DT#JJ,#JJ#NNS#NN# 5 270 NNP#NNS# 2 51 DT#JJ#CC#JJ#NN#NNS# 6 271 NNP#NNS,#NNS,#NNS# CC#NNS# 6 52 DT#JJ#CC#JJ#NNS# 5 272 NNP#POS# 2 53 DT#JJ#CD#NNS# 4 273 NNP#UCP#NN# 3 54 DT#JJ#JJ#JJ#NN# 5 274 NNS# 1 55 DT#JJ#JJ#NN# 4 275 NNS,#NNS#CC#NNS# 4 56 DT#JJ#JJ#NNP#NN# 5 276 NNS#CC#NN# 3 57 DT#JJ#JJ#NNS# 4 277 NNS#CC#NN#NNS# 4 58 DT#JJ#NN# 3 278 NNS#CC#NNS# 3 59 DT#JJ#NN#CC#JJ#NN#NNS# 7 279 NNS#CC#NNS#NNS# 4 60 DT#JJ#NN#CC#NN# 5 280 NNS#NN# 2 61 DT#JJ#NN#CC#NN#NN# 6 281 NNS#NNS# 2 62 DT#JJ#NN#NN# 4 282 NNS#S# 2 63 DT#JJ#NN#NN#NN# 5 283 NNS#SBAR# 2 64 DT#JJ#NN#NNP# 4 284 NP#%#CC#NP# 4 65 DT#JJ#NN#NNS# 4 285 NP#%#NP# 3 66 DT#JJ#NN#POS# 4 286 NP#%#NP#%# 4 67 DT#JJ#NN#RB# 4 287 NP#%#NP#%#NP#%# CC#NP# 8 68 DT#JJ#NN#S# 4 288 NP#%#PP#%# 4 69 DT#JJ#NNP# 3 289 NP,# 1 70 DT#JJ#NNP#NN# 4 290 NP,#ADJP# 2 71 DT#JJ#NNP#NN#NN# 5 291 NP,#ADJP,# 2 72 DT#JJ#NNP#NN#NN#JJ# 6 292 NP,#CC#NP# 3 k (1) (2) (3) (1) (2) (3) 73 DT#JJ#NNP#NN#NNP# 5 293 NP,#CC#NP,# 3 74 DT#JJ#NNP#NNP# 4 294 NP,#CC#NP,#ADVP# 4 75 DT#JJ#NNP#NNP#NN#NN# 6 295 NP,#CONJP#NP# 3 76 DT#JJ#NNP#NNP#NNP# 5 296 NP,#NP# 2 77 DT#JJ#NNP#NNP#NNP#NNP# 6 297 NP,#NP,# 2 78 DT#JJ#NNP#NNS# 4 298 NP,#NP,#CC#NP# 4 79 DT#JJ#NNS# 3 299 NP,#NP,#CC#NP,# 4 80 DT#JJ#NNS#NN# 4 300 NP,#NP,#NP# 3 81 DT#JJ#QP#NNS# 4 301 NP,#NP,#NP,#CC#NP# 5 82 DT#JJR,#JJ#NN#NN# 5 302 NP,#NP,#NP,#NP,#NP#CC#N P# 7 83 DT#JJR#NN# 3 303 NP,#NP,#NP,#NP#CC#NP# 6 84 DT#JJR#VBN#JJ#NN#NN# 6 304 NP,#NP,#NP#.# 4 85 DT#JJS#NN# 3 305 NP,#NP,#NP#CC#NP# 5 86 DT#JJS#NN#NN# 4 306 NP,#NP#CC#NP# 4 87 DT#JJS#NNS# 3 307 NP,#PP# 2 88 DT#NAC#NN# 3 308 NP,#PP,# 2 89 DT#NN# 2 309 NP,#RB#NP# 3 90 DT#NN#CC#NN# 4 310 NP,#RRC,# 2 91 DT#NN#CC#NN#NN#NN# 6 311 NP,#SBAR# 2 92 DT#NN#CC#NN#NN#NNP# 6 312 NP,#SBAR,# 2 93 DT#NN#CC#NN#NNS# 5 313 NP,#VP# 2 94 DT#NN#CC#NNS# 4 314 NP,#VP,# 2 95 DT#NN#CD# 3 315 NP#ADJP# 2 96 DT#NN#JJ#NN# 4 316 NP#ADJP,#SBAR# 3 97 DT#NN#NN# 3 317 NP#ADJP#NN# 3 98 DT#NN#NN#NN# 4 318 NP#ADJP#NNS# 3 99 DT#NN#NN#NNS# 4 319 NP#ADVP# 2 100 DT#NN#NNP# 3 320 NP#CC#NP# 3 101 DT#NN#NNS# 3 321 NP#CC#NP,# 3 102 DT#NN#POS# 3 322 NP#CC#PRN#NP# 4 103 DT#NN#RB# 3 323 NP#CD#NN# 3 104 DT#NN#S# 3 324 NP#CD#NN#NN#NN# 5 105 DT#NN#S#.# 4 325 NP#CONJP#NP# 3 106 DT#NN#SBAR# 3 326 NP#JJ#JJ# 3 107 DT#NNP# 2 327 NP#JJ#JJ#NN#NN# 5 108 DT#NNP#CC#NNP# 4 328 NP#JJ#NN# 3 109 DT#NNP#CD# 3 329 NP#JJ#NN#NN# 4 110 DT#NNP#CD#NN# 4 330 NP#JJ#NN#NN#NN# 5 111 DT#NNP#CD#NN#NN# 5 331 NP#JJ#NN#NNS# 4 112 DT#NNP#FW#NNP#NNP# 5 332 NP#JJ#NNP#NN# 4 113 DT#NNP#JJ#NN# 4 333 NP#JJ#NNP#NNP#CD# 5 114 DT#NNP#NN# 3 334 NP#JJ#NNP#NNP# NN#NN#NN# 7 115 DT#NNP#NN#NN# 4 335 NP#JJ#NNS# 3 l (1) (2) (3) (1) (2) (3) 116 DT#NNP#NN#NN#NN# 5 336 NP#JJ#NNS#NN# 4 117 DT#NNP#NN#NN#NNP#NNP # 6 337 NP#JJ#VBG#NNS# 4 118 DT#NNP#NN#NNP# 4 338 NP#JJS#NN# 3 119 DT#NNP#NN#NNP#NN# 5 339 NP#NN# 2 120 DT#NNP#NN#NNP#NNP#NN P# 6 340 NP#NN#CC#NN# 4 121 DT#NNP#NN#NNP#NNP#POS # 6 341 NP#NN#CD#NNP# 4 122 DT#NNP#NN#NNS# 4 342 NP#NN#NN# 3 123 DT#NNP#NNP# 3 343 NP#NN#NN#NN# 4 124 DT#NNP#NNP#CC#NNP#NN P# 6 344 NP#NN#NN#NN#CC#NN# 6 125 DT#NNP#NNP#CD# 4 345 NP#NN#NN#NNS# 4 126 DT#NNP#NNP#CD#NNP#NN # 6 346 NP#NN#NNS# 3 127 DT#NNP#NNP#NN# 4 347 NP#NN#S# 3 128 DT#NNP#NNP#NN#NN# 5 348 NP#NN#SBAR# 3 129 DT#NNP#NNP#NNP# 4 349 NP#NNP# 2 130 DT#NNP#NNP#NNP# CC#NNP#NNP#NNP# 8 350 NP#NNP#CD# 3 131 DT#NNP#NNP#NNP#NN# 5 351 NP#NNP#CD#JJ#NN# 5 132 DT#NNP#NNP#NNP#NNP# 5 352 NP#NNP#NN# 3 133 DT#NNP#NNP#NNP#NNP#N NP# 6 353 NP#NNP#NN#NN# 4 134 DT#NNP#NNP#NNP#POS# 5 354 NP#NNP#NN#NN#NNS# 5 135 DT#NNP#NNP#NNPS# CC#NNPS#NN#NNP# 8 355 NP#NNP#NN#NNS# 4 136 DT#NNP#NNP#NNPS# NNP#NNP#NNP# 7 356 NP#NNP#NNP# 3 137 DT#NNP#NNPS#NN# 4 357 NP#NNP#NNP#NN#NNP# 5 138 DT#NNP#NNPS#NNP# 4 358 NP#NNP#NNP#NN#POS# 5 139 DT#NNP#NNPS#NNP#NNP#N NP# 6 359 NP#NNP#NNS# 3 140 DT#NNP#NNS# 3 360 NP#NNP#NNS#NN# 4 141 DT#NNP#POS# 3 361 NP#NNS# 2 142 DT#NNP#VBG#NN# 4 362 NP#NNS#CC#NNS# 4 143 DT#NNPS# 2 363 NP#NNS#NN#NN# 4 144 DT#NNPS#CC#NNP#NNS# 5 364 NP#NNS#S# 3 145 DT#NNS# 2 365 NP#NP# 2 146 DT#NNS#CC#NNS# 4 366 NP#NP#SBAR# 3 147 DT#NNS#NN# 3 367 NP#PP# 2 148 DT#NNS#NNS# 3 368 NP#PP,#PP# 3 149 DT#NP#CC#NP# 4 369 NP#PP,#PP,# 3 150 DT#NX# 2 370 NP#PP,#SBAR# 3 m (1) (2) (3) (1) (2) (3) 151 DT#QP#NNP#NNS# 4 371 NP#PP#.# 3 152 DT#RBS#JJ# 3 372 NP#PP#ADJP# 3 153 DT#VB# 2 373 NP#PP#NP# 3 154 DT#VB#CC#VB# 4 374 NP#PP#PP# 3 155 DT#VB#NN# 3 375 NP#PP#SBAR# 3 156 DT#VB#NNS# 3 376 NP#PRN# 2 157 DT#VBG#JJ#NN#NN#NN# 6 377 NP#S# 2 158 DT#VBG#NN# 3 378 NP#SBAR# 2 159 DT#VBG#NN#NN# 4 379 NP#UCP# 2 160 DT#VBG#NNS# 3 380 NP#VP# 2 161 DT#VBN#NN# 3 381 PDT#DT#JJ#JJ#NNS# 5 162 DT#VBN#NN#NN# 4 382 PDT#DT#NNS# 3 163 DT#VBN#NNP#NNP#NN# 5 383 PDT#DT#NNS#SBAR# 4 164 DT#VBN#NNS#NN# 4 384 PRP# 1 165 EX# 1 385 PRP$#JJ#NN# 3 166 IN#CD#NNS# 3 386 PRP$#JJ#NN#NN# 4 167 JJ# 1 387 PRP$#JJ#NNP#NN#NNS# 5 168 JJ,#JJ#NN# 3 388 PRP$#JJ#NNS# 3 169 JJ,#JJ#NNS# 3 389 PRP$#JJS# 2 170 JJ#CD# 2 390 PRP$#JJS#NNS# 3 171 JJ#JJ#JJ#NN#NNS# 5 391 PRP$#NN# 2 172 JJ#JJ#JJ#NNS# 4 392 PRP$#NN#CC#NN# 4 173 JJ#JJ#NN# 3 393 PRP$#NN#NNS# 3 174 JJ#JJ#NN#NN# 4 394 PRP$#NN#SBAR# 3 175 JJ#JJ#NN#NNS# 4 395 PRP$#NNP#NN#NN# 4 176 JJ#JJ#NNS# 3 396 PRP$#NNP#NNS# 3 177 JJ#JJ#VBZ# 3 397 PRP$#NNS# 2 178 JJ#NN# 2 398 PRP$#NX# 2 179 JJ#NN#CC#NN# 4 399 PRP$#VB# 2 180 JJ#NN#CC#NN#NN# 5 400 QP# 1 181 JJ#NN#CC#NNS# 4 401 QP#DT# 2 182 JJ#NN#NN# 3 402 QP#JJ#NNS# 3 183 JJ#NN#NN#NNS# 4 403 QP#NN# 2 184 JJ#NN#NNS# 3 404 QP#NN#NN# 3 185 JJ#NN#VBG# 3 405 QP#NNS# 2 186 JJ#NNP#CD#NNS# 4 406 RB# 1 187 JJ#NNP#NNP#NN#NNS# 5 407 RB#CD#NNS# 3 188 JJ#NNP#NNP#NNP# NN#NNS# 6 408 RB#DT#ADJP#NNS# 4 189 JJ#NNP#NNP#NNS# 4 409 RB#DT#JJ#JJ#NN# 5 190 JJ#NNP#NNS# 3 410 RB#DT#JJ#NN# 4 191 JJ#NNS# 2 411 RB#DT#JJ#VBG#NNS# 5 192 JJ#NNS#CC#NN# 4 412 RB#DT#JJS#NN# 4 193 JJ#NNS#NN# 3 413 RB#JJ#NN#NNS# 4 n (1) (2) (3) (1) (2) (3) 194 JJ#NNS#NNS# 3 414 RBS#JJ#NN#NNS# 4 195 JJ#NNS#NNS#NNS# 4 415 UCP#NNS# 2 196 JJ#NNS#POS# 3 416 VB# 1 197 JJ#NX# 2 417 VB#CC#VB#NNS# 4 198 JJ#POS# 2 418 VBG#NN# 2 199 JJ#UCP#NNS# 3 419 VBG#NN#NNS# 3 200 JJ#VBN#NNS# 3 420 VBG#NNP#NNS# 3 201 JJR#NN# 2 421 VBG#NNS# 2 202 JJR#NN#NN# 3 422 VBG#NNS#CC#NN# 4 203 JJR#NNS# 2 423 VBN#NN# 2 204 JJS# 1 424 VBN#NN#CC#NNS# 4 205 JJS#JJ#JJ#NNS# 4 425 VBN#NN#NN# 3 206 JJS#JJ#NNS# 3 426 VBN#NN#NNS# 3 207 JJS#NN#NN# 3 427 VBN#NNS# 2 208 JJS#NNS# 2 428 VBN#NNS#CC#NNS# 4 209 NAC#NNP#NNP#NNP# 4 429 NN#IN#NN#NN#NN# 5 210 NN# 1 430 JJ#CC#JJ#NN# 4 211 NN,#NN,#JJ#CC#NN#NNS# 6 431 JJ#NN#NN#NN# 4 212 NN,#NN,#NN# 3 432 VB#NN# 2 213 NN,#NN,#NN,#CC# NN#NN#NNS# 7 433 NN#IN#NN#NN# 4 214 NN,#NN,#NN,#NN,#CC#NN# 6 434 NN#IN#NN# 3 215 NN,#NN,#NN,#NN,# NN#CC#NN# 7 219 NN,#NN#CC#NNS# 4 216 NN,#NN,#NNP#NNP# CC#NNP#NNS# 7 220 NN#CC#NN# 3 217 NN,#NN#CC#NN#NN# 5 435 JJ#NN#IN#NN# 4 218 NN,#NN#CC#NN#NNS# 5 Nguồn tham khảo: o Phụ lục E. Tính chất ảnh-tạo ảnh trong toán học Cho f: X  Y là một ánh xạ, x là phần tử của X và y là phần tử của Y, ta nói y là ảnh của x trong y qua ánh xạ f khi y = f(x). Nếu A là tập hợp con của X, B là tập hợp con của Y, thì: f(A) là ảnh của A qua ánh xạ f, khi ñó ta có f(A) = {y = f(x) ∈ Y / x ∈ X} f -1(B) = {x ∈ X / f(x) ∈ B} là tạo ảnh của B qua ánh xạ f. Ngoài ra, nếu: − A1, A2 là 2 tập hợp con của tập hợp X − B1, B2 là hai tập hợp con của tập hợp Y thì các biểu thức sau ñây biểu diễn tính chất của ánh xạ ngược: 1. f(A1 ∪ A2) = f(A1) ∪ f(A2) 6. f −1(f(A)) ⊇ A 2. f(A1 ∩ A2) ⊆ f(A1) ∩ f(A2) 7. A1 ⊆ A2 → f(A1) ⊆ f(A2) 3. f −1(B1 ∪ B2) = f −1(B1) ∪ f −1(B2) 8. B1 ⊆ B2 → f −1(B1) ⊆ f −1(B2) 4. f −1(B1 ∩ B2) = f −1(B1) ∩ f −1(B2) 9. f −1(BC) = (f −1(B))C 5. f(f −1(B)) ⊆ B 10. (f |A)−1(B) = A ∩ f −1(B) Nguồn tham khảo: p Phụ lục F. Cấu trúc ñịnh dạng tài liệu TREC F1. Cấu trúc tổ chức dữ liệu của nguồn dữ liệu FT <!DOCTYPE FT931 [ <!ELEMENT DOC - - (DOCNO & (DATE* | PROFILE* | HEADLINE* | BYLINE* | TEXT+ | DATELINE* | XX* | CO* | CN* | IN* | TP* | PE* | PUB* | PAGE* )* )> " > ]> F2. Cấu trúc tổ chức dữ liệu của nguồn dữ liệu FR <!DOCTYPE FR [ q <!ELEMENT IMPORT - - (FOOTCITE* | FOOTNOTE* | FOOTNAME* | SIGNJOB* | SIGNER* | BILLING* | TABLE* | FRFILING* | #PCDATA)+ > <!ELEMENT ACTION - - (TABLE* | SIGNER* | FOOTCITE* | FOOTNAME* | FOOTNOTE* | #PCDATA)+ > <!ELEMENT SUMMARY - - (TABLE* | SIGNER* | FOOTCITE* | FOOTNAME* | FOOTNOTE* | #PCDATA)+ > <!ELEMENT DATE - - (TABLE* | SIGNER* | FOOTNAME* | FOOTCITE* | FOOTNOTE* | IMPORT* | #PCDATA)+ > <!ELEMENT ADDRESS - - (FOOTNOTE* | FOOTCITE* | TABLE* | SIGNER* | #PCDATA)+ > <!ELEMENT FURTHER - - (TABLE* | SIGNER* | FOOTNOTE* | FOOTCITE* | FOOTNAME* | IMPORT* | SIGNJOB* | BILLING* | FRFILING* | #PCDATA)+ > <!ELEMENT SUPPLEM - - (FOOTNAME* | SIGNJOB* | SIGNER* | BILLING* | FRFILING* | RINDOCK* | USDEPT* | CFRNO* | FOOTNOTE* | FOOTCITE* | TABLE* | IMPORT* | #PCDATA)+ > <!ELEMENT SIGNER - - (FOOTNAME* | FOOTNOTE* | TABLE* | FOOTCITE* | #PCDATA)+ > <!ELEMENT SIGNJOB - - (USDEPT* | CFRNO* | IMPORT* | USBUREAU* | RINDOCK* | TABLE* | SIGNER* | FOOTNAME* | FOOTNOTE* | FOOTCITE* | #PCDATA)+ > <!ELEMENT FRFILING - - (FOOTNOTE* | FOOTNAME* | FOOTCITE* | USDEPT* | DOCTITLE* | RINDOCK* | TABLE* | SIGNER* | #PCDATA)+ > <!ELEMENT TEXT - - (AGENCY* | ACTION* | SUMMARY* | DATE* | FOOTNAME* | FURTHER* | SIGNER* | SIGNJOB* | FRFILING* | BILLING* | FOOTNOTE* | FOOTCITE* | TABLE* | ADDRESS* | IMPORT* | SUPPLEM | USDEPT* | USBUREAU* | CFRNO* | RINDOCK* | DOCTITLE* | #PCDATA)+ > ]> F3. Cấu trúc tổ chức dữ liệu của nguồn CR <!DOCTYPE CR93 [ r <!ELEMENT TEXT - - (H2* | UL* | TTL* | CENTER* | PRE* | SO* | TI* | FLD001* | FLD002* | #PCDATA)+> <!ELEMENT DOC - - (DOCNO & (DOCID* | CENTER* | PRE* | DATE* | FLD003* | TEXT+ | H2* | UL* | TTL* | FLD001* | FLD002*)* )> " > ]> s Phụ lục G. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án G_extG_linkG_tmp NP_DATA NP_DATA_DETAIL Onto_exp_NPC_M Onto_exp_NPC_MP Onto_exp_NPC_O Onto_exp_NPC_OM Onto_exp_NPC_P Onto_exp_NPMR_M Onto_exp_NPMR_MP Onto_exp_NPMR_O Onto_exp_NPMR_OM Onto_exp_NPMR_P Onto_exp_SNPE_M Onto_exp_SNPE_MP Onto_exp_SNPE_O Onto_exp_SNPE_OM Onto_exp_SNPE_P Onto_expAnalyzer Onto_expM Onto_expMP Onto_expO Onto_expOM Onto_expP Onto_expPhrase Onto_expPhrase_for_HS Onto_Member Onto_MP Onto_Object Onto_OM Onto_Property Onto_trainM Onto_trainMP Onto_trainO Onto_trainOM Onto_trainP PAT_Mapping SEARCH_DATA_RESULT SEARCH_DATA_RESULT_HS SEARCH_DATA_RESULT_NPC SEARCH_DATA_RESULT_NPMR SEARCH_DATA_RESULT_SNPE si_AttributeDocuments si_Attributes si_DataSources si_Documents si_Relationshipes si_TermDoc si_TermLink si_Terms System_Running TEST_DATA TEST_DATA_RESULT_DETAIL_NPCTEST_DATA_RESULT_DETAIL_NPMR TEST_DATA_RESULT_DETAIL_SNPE TEST_DATA_RESULT_NPCTEST_DATA_RESULT_NPMR TEST_DATA_RESULT_SNPE TRAINING_DATA Word_List Word_List_Link Word_Pos Hình G.1. Tổ chức cơ sở dữ liệu của thực nghiệm trong luận án

Các file đính kèm theo tài liệu này:

  • pdfLATS_CB_BVNN_NCThanh.pdf
Tài liệu liên quan