Khóa luận Xây dựng cơ sở dữ liệu hai gene HSP-70 và Reverse transcripte-Maseh ở một số loài virus thực vật

TÓM TẮT KHOÁ LUẬN “XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 VÀ REVERSE TRANSCRIPTASE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT” Với sự phát triển của kỹ thuật giải trình tự, một số lượng lớn các gene hsp-70 và RT- RNaseH đã được giải trình tự. Những trình tự gene này được lưu trữ trong CSDL sinh học lớn như NCBI, EMBL, DDBj, Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, mục tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse transcriptase-RNaseH ở một số loài virus thực vật. Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau: Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ trang CSDL GenBank (NCBI cơ sở dữ liệu nucleotide). Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH (RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus. Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu trữ dữ liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này. Dùng Perl script để chuyển tự động các dữ liệu vào CSDL. Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang web CSDL về hai gene hsp-70 và RT-RNaseH ở trên hai họ virus Closteroviridae và Caulimoviridae. Sau khi thực hiện các nội dung trên chúng tôi đạt được những kết quả như sau: Chúng tôi đã tải được 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ liệu NCBI. Thông qua việc tìm hiểu về hai họ virus, trình tự gene tương đồng, trình tự protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định được vị trí gene hsp-70 và RT-RNaseH trong ORF hay nằm trong genome của chúng. CSDL có 325 trình tự được tích hợp với Web. Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra, từ những trang web chính này còn có thể kết nối đến những trang phụ khác để cung cấp những tiện ích cho người dùng. Từ các trang web này, người sử dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc tính của loài, MỤC LỤC Nội dung Trang Trang bìa .i Trang trong ii Lời Cảm Tạ iii Tóm Tắt Luận Văn .iv Mục Lục vi Danh Sách Các Bảng ix Danh Sách Các Hình .x Danh Sách Các Chử Viết Tắt xii Phần 1. LỜI MỞ ĐẦU 1 Phần 2. TỔNG QUAN TÀI LIỆU 4 2.1. SƠ LưỢC VỀ CƠ SỞ DỮ LIỆU 4 2.1.1. Định nghĩa 4 2.1.2. Hệ quản trị CSDL .4 2.1.3. Các mô hình dữ liệu 5 2.1.3.1. Định nghĩa 5 2.1.3.2. So sánh các mô hình dữ liệu 5 2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB 6 2.2.1. Perl 6 2.2.1.1. Tóm tắt lịch sử phát triển 6 2.2.1.2. Ứng dụng 7 2.2.1.3. Một số module của Perl thường được sử dụng .7 2.2.2. Giới thiệu về mạng Internet .8 2.2.2.1. Tóm lược lịch sử phát triển .8 2.2.2.2. Một số khái niệm 9 2.2.3. Web .9 2.2.3.1. Tóm lượt lịch sử phát triển .9 2.2.3.2. Tích hợp CSDL với web dùng CGI 10 2.3. CƠ SỞ DỮ LIỆU SINH HỌC .11 2.3.1. NCBI .11 2.3.1.1. Vài nét về NCBI .11 2.3.1.2. Một số cơ sở dữ liệu trong NCBI 11 2.3.1.3. Một số công cụ trong NCBI 12 2.3.2. EBI 13 2.3.2.1. Vài nét về EBI .13 2.3.2.2. Một số cơ sở dữ liệu trong EBI .13 2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học 14 2.3.3. SIB .15 2.3.4. DDJB và PDBj 15 2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE .18 2.4.1. CAULIMOVIRIDAE .19 2.4.1.1. Khái quát 19 2.4.1.2. Cấu tạo .20 2.4.1.3. Đặc tính sinh học .20 2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ 20 2.4.2. CLOSTEROVIRIDAE .21 2.4.2.1. Khái quát 21 2.4.2.2. Cấu tạo .21 2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ 22 2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH 23 2.5.1. Gene Reverse transciptase-RNaseH .23 2.5.2.1. Vị trí gene RT-RNaseH nằm trong genome 23 2.5.2.2. Chức năng của protein .23 2.5.2. Gene hsp-70 24 2.5.1.1. Vị trí gene hsp-70 nằm trong genome .24 2.5.1.2. Chức năng 24 PHẦN 3. PHưƠNG PHÁP VÀ CHưƠNG TRÌNH SỬ DỤNG .25 3.1. Các chương trình và ngôn ngữ lập trình được sử dụng 25 3.1.1. Hệ điều hành .25 3.1.2. Các chương trình phân tích trình tự .25 3.1.2.1. Chương trình so sánh trình tự ClustalW 25 3.1.2.2. Chương trình tìm kiếm các trình tự tương đồng – BLAST .25 3.1.2.3. Hệ quả trị CSDL quan hệ MySQL 26 3.1.2.4. Apache web Server 27 3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng 27 3.2. Phương pháp .28 3.2.1. Thu nhận trình tự 28 3.2.2. Xác định gene và protein trong bộ gene virus 29 3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH 32 3.2.3.1. Phân tích dữ liệu 32 3.2.3.2. Thiết kế CSDL dạng bảng .34 3.2.3.3. Lưu trữ các thông tin vào CSDL .35 3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web 37 Phần 4. KẾT QUẢ VÀ THẢO LUẬN .39 4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae 39 4.2. Kết quả thu nhận trình tự hai gene hsp-70 vàReverse transcriptase-RNaseH .41 4.3. CSDL trình tự gene hsp-70 và RT-RNaseH 42 4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH .46 4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH 47 4.4.2. Trang tìm kiếm 47 4.4.3. Trang công cụ 49 4.4.4. Trang cây phân loài .52 4.4.4.1. Trang Caulimoviridae .52 4.4.4.2. Trang Closteroviridae .54 4.4.5. Trang liên kết .54 4.4.6. Trang thông tin về bộ môn công nghệ sinh học 54 PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ .55 4.1. KẾT LUẬN 55 4.2. ĐỀ NGHỊ .55 PHẦN 6. TÀI LIỆU THAM KHẢO 57 PHỤ LỤC .59 . XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT

pdf72 trang | Chia sẻ: maiphuongtl | Lượt xem: 2169 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Khóa luận Xây dựng cơ sở dữ liệu hai gene HSP-70 và Reverse transcripte-Maseh ở một số loài virus thực vật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
tein [31] Đối với các loài virus có tổ chức genome là dsDNA trong quá trình sao mã trong tế bào ký chủ, chúng sử dụng enzyme Reverse transcriptase-RNaseH để hoàn thành chu kỳ sao mã của chúng. Protein Reverse transcriptase-RNaseH có hai chức năng:  DNA polymerase: Trong chu kỳ sống của virus reverse transcriptase chỉ sao chép RNA. Nó sẽ sao mã cả khuân mẫu RNA và DNA sợi đơn. Trong cả hai trƣờng hợp này nó điều cần những primer RNA hoặc DNA để khởi đầu cho sự tổng hợp của nó. Hình 2.11 Vị trí gene RT-RNaseH nằm trong cấu trúc genome Cauliflower mosaic virus (CMV) 24 Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus (BYV) Hình 2.12 Protein Reverse transcriptase  RNase H: là một ribonuclease, enzyme này có chức năng phân tách RNA từ những RNA-DNA lai, RNA-DNA lai này đƣợc hình thành trong quá trình sao mã ngƣợc của đoạn khuôn mẫu RNA. RNase H hoạt động có hai tính năng endonuclease và exonuclease trong quá trình phân tách RNA-DNA lai. 2.5.2. Gene hsp-70 2.5.2.1. Vị trí gene hsp-70 nằm trong genome [13, 17] Gene hsp-70 mã hóa cho enzyme HSP-70 thuộc ORF2 trong tổ chức genome (gồm có 9 ORF nằm trong 2 RNA là RNA1 và RNA2) và gene này thuộc RNA2 của họ Closteroviridae. Đây là gene bảo tồn trong họ và nhiều nghiên cứu tiến hành xây dựng cây phát sinh loài dựa trên gene này. 2.5.2.2. Chức năng [10] Protein HSP-70 (hình 2.14), trọng lƣợng phân tử 70 kD đƣợc mã hóa từ gene hsp-70 có vai trò quan trọng trong quá trình tồn tại của sinh vật trong môi trƣờng có sự thay đổi đột ngột về nhiệt độ. Ngoài ra, protein HSP-70 còn tham gia vào một số quá trình điều hòa quan trọng khác nhƣ: giúp sự hình thành cấu của protein, giúp di chuyển của virus qua các tế bào ký chủ,…Đây là protein bảo tồn trong họ. Hình 2.14 Protein HSP-70 25 PHẦN 3 PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG 3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng 3.1.1. Hệ điều hành: Windows XP (Microsoft). Xây dựng CSDL trình tự nucleotide, protein ở Caulimoviridae và Closteroviridae trên hệ điều hành này. 3.1.2. Các chƣơng trình phân tích trình tự 3.1.2.1. Chƣơng trình so sánh trình tự ClustalW [26] ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tƣơng đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trƣng trong những đoạn tƣơng đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tƣơng đồng giữa những đoạn gene (hoặc protein) vừa đƣợc giải trình tự với những gene (hoặc protein) đã tồn tại. ClustalW tiến hành so sánh tƣơng đồng nhiều trình tự sinh học qua ba giai đoạn: Đầu tiên chƣơng trình sử dụng thuật toán alignment xấp xỉ của Wilbur và Lipman năm 1983 để tính hệ số tƣơng đồng giữa mỗi cặp trình tự. Những hệ số tƣơng đồng tính đƣợc sẽ đƣợc sử dụng để thành lập cây phả hệ (“Guide tree” hay dendrogram) bằng phƣơng pháp UPGMA (Unwieghted Pair – Group Method) của Sneath và Sokal năm 1973. Cuối cùng các trình tự đƣợc so sánh với những nhóm trình tự lớn hơn và cứ thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers và Miller (1998) nhằm tối ƣu kết quả. ClustalW 1.83 đƣợc sử dụng trong khóa luận này, đƣợc tải về từ trang web ( 3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST [27] BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc nhiều ngƣời dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tƣởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới 26 nhƣ GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ tƣơng đồng và nguồn gốc các trình tự. Chiến lƣợc tìm kiếm trình tự tƣơng đồng trong BLAST đƣợc thực hiện qua ba bƣớc chính: Đầu tiên BLAST tìm kiếm những đoạn tƣơng đồng HSPs (High Scoring Pair) giữa một trình tự đƣa vào và mỗi trình tự trong CSDL. Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự tƣơng đồng nào đƣợc tìm thấy. Sau cùng BLAST đƣa ra một báo cáo kết quả giống nhau thỏa mãn ngƣỡng giá trị mà ngƣời dùng mong muốn. Stand-alone BLAST version 2.28 là phiên bản đƣợc sử dụng trong khóa luận này, có thể dễ dàng tải về từ địa chỉ web của trang CSDL NCBI (ftp://ftp.ncbi.nih.gov.blast/executables/). 3.1.2.3. Hệ quả trị CSDL quan hệ MySQL[33] MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dƣới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thƣơng mại). Phần SQL của MySQL đƣợc viết tắt từ chữ ”Structured Query Language''. SQL là một ngôn ngữ chuẩn đƣợc dùng phổ biến để xây dựng CSDL và đƣợc công nhận bởi cơ quan tiêu chuẩn SQL là ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ năm 1986 và cho đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ƣu điểm so với các phiên bản trƣớc đó). Xuất xứ của tên MySQL không rõ. Tiền tố My của MySQL chỉ xuất hiện cách đây khoảng 10 năm nay, có lẽ nó đƣợc lấy từ tên con gái của Monty Widenius (ngƣời đặt nền móng cho sự phát triển của MySQL). MySQL đƣợc viết dựa trên ngôn ngữ C và C++, hoạt động trên nhiều hệ điều hành khác nhau. Phiên bản mới nhất của MySQL là MySQL 5.0. Ƣu điểm.  Dể sử dụng.  Mã nguồn mở. 27  Thích hợp cho việc xây dựng CSDL vừa và nhỏ. Nhƣợc điểm:  Không thích hợp cho việc xây dựng CSDL lớn. Phiên bản MySQL 4.0.15 đƣợc sử dụng trong khóa luận này. 3.1.2.4. Apache web Server [28] Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong số đó là Apache web Server. Apache web Server là một trình chủ web đƣợc nhiều ngƣời dùng nhất hiện nay trên Internet. Theo số liệu thăm dò của NetCraft, có trên 60% trình chủ web đang đƣợc sử dụng trên Internet hiện nay là sử dụng Apache web Server. Sở dĩ Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là một chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp Apache đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới. Hơn thế, Apache hoạt động ổn định, an toàn và đáng tin cậy. Chỉ trong thời gian 5 năm qua, Apache đã trở thành một trình chủ web có chức năng tƣơng đƣơng, thậm chí còn vƣợt trội so với nhiều trình chủ web thƣơng mại khác. Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web thông qua các module. Có 2 loại module trong Apache đó là external module và internal module. Cả hai loại module này điều có thể đƣợc sửa chữa, thay thế hoặc nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách đƣợc gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho ngƣời dùng. Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache cho phép ngƣời dùng thêm mới những module cần thiết vào bất kỳ giai đoạn nào của quá trình xử lý. Apache 1.3.24 là phiên bản đƣợc sử dụng trong khóa luận này, có thể tải phiên bản này từ địa chỉ ( 3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng Trình dịch phiên bản Perl phiên bản 5.6 DBI, DBD::MySQL, CGI.pm DBI: version 1.37 DBD::MySQL version 2.9002 28 Dùng Perl script tải về lấy tất cả các trình tự có ACCESSION NUMBER của hai gene RT-RNaseH và hsp-70 Từ khóa Tách lấy ACCESSION NUMBER NCBI Toàn bộ thông tin về trình tự gene hsp-70 và RT-RNaseH Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự CGI.pm version 2.752 Các gói này đƣợc cài đặt thông qua ppm trong Perl. 3.2. Phƣơng pháp 3.2.1 Thu nhận trình tự Trình tự nucleotide và protein của hai gene hsp-70 (heat sock protein 70) và RT-RNaseH (Reverse transcriptase-RNaseH), dùng để tạo CSDL đƣợc thu nhận từ trang CSDL NCBI. Sơ đồ tóm tắt quá trình thu nhận nhƣ sau: Các bƣớc thực hiện tuần tự theo sơ đồ sau: Từ khóa sử dụng là: “Caulimovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Badnavius[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Soymovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Cavemovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” 29 Tách lấy tất cả các trình tự Thực hiện sắp gióng cột từng cặp trình tự gene (trên cùng loài) tƣơng ứng Sau đó ta xác định vị trí của gene trong ORF hay genome thông qua trình tự gene đã biết Hình 3.2 Sơ đồ xác định gene trong ORF hay genome virus Lƣu trữ các trình tự trên vào CSDL Trình tự của gene RT- RNaseH trong ORF hay genome từ NCBI Trình tự gene RT-RNaseH đã biết đƣợc thu nhận từ NCBI Viết chƣơng trình Perl script để tách lấy các gene đã đƣợc xác định vị trí ở trên “Tungrovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Petuvirus[ORGANISM]reverse transcripte-RNaseH[GENE]” “Ampelovirus[ORGANISM]hsp-70[GENE]” “Closterovirus[ORGANISM]hsp-70[GENE]” “Crinivirus [ORGANISM]hsp-70[GENE]” 3.2.2. Xác định gene và protein trong bộ gene virus Sau khi khảo sát các mẫu tin về trình tự gene hsp-70 và RT-RNaseH trên hai họ virus chúng tôi nhận thấy toàn bộ mẫu tin gene hsp-70 và chỉ có một số mẫu tin của gene RT-RNaseH đƣợc xác định vị trí rõ trong ORF hay genome, nên chúng tôi chỉ cần viết chƣơng trình perl script để tách chúng (thông qua vị trí đã biết). Còn đối với có một số mẫu tin chứa gene RT-RNaseH chƣa biết vị trí chúng tôi tiến hành thu nhận gene này theo sơ đồ sau: 30 Các bƣớc thực hiện Bƣớc 1: thu nhận trình tự gene về gene RT-RNaseH đã biết và chƣa biết (các mẫu tin chứa toàn bộ genome hay ORF). Để xác định đƣợc vị trí của một gene trong các gene khác trong ORF hay genome của virus, phải thông qua các trình gene đã biết thu nhận đƣợc. Từ đó, thông qua trình tự gene đã biết này ta xác định vị trí của gene RT- RNasH nằm trong genome hay nằm cùng với các gene trong ORF của virus. Bƣớc 2: tách các trình tự gene trong các file text tải về từ NCBI có chứa gene mong muốn, nằm cùng với các gene khác trong ORF hay genome. Các trình tự sau khi rút trích đƣợc lƣu vào file dƣới dạng FASTA (Hình 3.3), đây là một trong những dạng file mà ClustalW có thể nhận dạng đƣợc. Bƣớc 3: thực hiện sắp gióng cột trình tự gene đã biết ở trên với trình tự nuleotide trong ORF hay genome của virus, bằng công cụ ClustalW. Thông qua kết quả của sắp gióng cột (Hình 3.4), ta có thể xác định vị trí của gene trong genome của virus, do tính bảo tồn cao nên kết quả của sắp gióng cột có độ tƣơng đồng rất cao. >AY186615 agccatattt caaagaaaaa tggactcggt attcaaaggg tgtgaaaaat tcctcgctgt ttatattgat gatattctgg tattttctaa caatgaggaa gatcatgcaa aacacctgac tatcatgcta caactgtgta aagaacatgg tcttgttctt tcacccacca agatgaatat tgcagtcaaa gaagttaatt ttctcggagc tactattggc agcagaaaag taaagctcca ggaaaatatt attaagaaga tccttgactt caatgaagaa aatcttcaat caaagaaggg tcttcggtca ttcttgggaa ttctcaacta tgcccgaaat catattccta atctcgggaa aatagctggt cctctttatt ctaagacttc cgtctatggt gatatcaggt tttcagcatc tgattggaag cttattaaag agatcaaggc tattgtggag aagctcccac cgcttgatta tccaccagag caagcataca tcattattga atctgatggc tgtatggat >NC_007002 tggtgctgaa aagaaaggca aagaacgtct tgtcttcaat tataaaaggc ttaatgacaa tactgaaaag gatcagtatt ccttacctgg gataaacaca atcatagcta gaatcagcca ttcaaaaata tattctaaat ttgacttgaa gagcggtttt catcaagtag ctatggagga ggaatctatc ccatggacgg ccttttgggc tattaacggg ttatacgaat ggctcgtaat gccgtttggt ctgaagaacg cacctgccat atttcaacga aagatggaca actgcttccg aggtacagaa aaatttatag ctgtttacat agatgatatt ctaatctttt cagatagcaa ggaagcccat cgaacccatc tcagacaatt catcaccata tgtgaagaaa atgggctggt actaagccca acgaagatga agataggagt ccaacaagtg gatttcttgg gtgcaaccat tggcgattct aaagtaaggc ttcagcctca catagtcaaa aaagtgctag aaacaaagga agaaagcctg tctgaaacga aggccttaag aagatggtta ggcatactca attatgccag agcatatatt cctgatcttg gaaaaatcct aggtccctta tactcaaaaa cctcaggaaa aggggagcga aaactcaatc accaagacat gaagataatt caccagatca aggaaaaggt aaaaaatctc cctgaattag aggttcctcc accagagtcc atcatactaa ttgaaacaga cggatgtatg gatggttggg gtggcatttg caaatggaag ttaaacaaag gggaaccccg atccgctgaa aagatctgtg cttatgcaag tggacgtttc aaccccatca aaggagctat tgacgctgaa atacaggctg ttatctacag tctagaaaaa tttaagatct actatcttga caaaagggag cttattttaa gaactgacag caaggcaatt gtcaggttct acgaaaaatg (…) ttcagaacac aaaccctctc gtgtccgatg gatgactcta actgactaca tctcgggatg cggagtcaag gtatattttg aacacatcga tggaaaagat aatacacttg cagacgaact atcacgactt gttcaagcaa ttctcatcaa caaagaagaa tctcctataa tactatctct aatcaaagca acaacggagg tattacaaaa ggaaaatcct atttccagga gtagattagc tctatgcatt tccagagcac tgg taacaa atatcaagtc aatttcatga cttgggaaca accccagctg aagtgtgcct gtggagaaaa tgccgtactc cttacttcac ataccagccg aaatccag a cggag ttct atagatgtgg taccaaca t tgtcatgta ggtactgg c tgatctaatc gaagattata ttgcgcaact tagcaatctt cagaatcttg actcaggaca (…) agcagatgat gaaggatggg cctatcaaac agaagatctg atcaacccag aagatctggc caactccgac atagacgacc ctccagaaga ctcaggacta ttccaccgac atgatgacta aggcggacgt ggtggaccca gcaataatta aggaatccaa ttccttactt caccaggttc attattaaag agcctttaca gctcataccc ttattaataa tgttggtgct tgtactattg (…) Hình 3.3 Định dạng FASTA để thự hiện sắp gióng cột h i trình tự 31 Từ các thông số hiển thị trong bản kết quả của ClustalW ta có thể xác định vị trí của gene thông qua các vị trí đƣợc biết này ta viết chƣơng trình Perl script để tách lấy trình tự gene mong muốn. Sau đó các trình tự này đƣợc đƣa vào CSDL Khi thu nhận mẫu tin trình tự gene thì chúng đồng thời chứa luôn trình tự protein của gene đó. Nên chúng tôi tiến hành thu nhận trình tự protein với các bƣớc đã đƣợc thực hiện để thu nhận đƣợc một trình tự gene. (…) NC_007002 GCCGTTTGGTCTGAAGAACGCACCTGCCATATTTCAACGAAAGATGGACAACTGCTTCCG AY186615 ------------------------AGCCATATTTCAAAGAAAAATGGACTCGGTATTCAA ************ **** ****** *** NC_007002 AGGTACAGAAAAATTTATAGCTGTTTACATAGATGATATTCTAATCTTTTCAGATAGCAA AY186615 AGGGTGTGAAAAATTCCTCGCTGTTTATATTGATGATATTCTGGTATTTTCTAACAATGA *** ******** * ******** ** *********** * ***** * * * NC_007002 GGAAGCCCATCGAACCCATCTCAG-ACAATTCATCACCATATGTGAAGAAAATGGGCTGG AY186615 GGAAGATCATGCAAAACACCTGACTATCATGCTACAAC-TGTGTAAAGAACATGGTCTTG ***** *** ** ** ** * * ** * ** * * *** ***** **** ** * NC_007002 TACTAAGCCCAACGAAGATGAAGATAGGAGTCCAACAAGTGGATTTCTTGGGTGCAACCA AY186615 TTCTTTCACCCACCAAGATGAATATTGCAGTCAAAGAAGTTAATTTTCTCGGAGCTACTA * ** ** ** ******** ** * **** ** **** **** * ** ** ** * NC_007002 TTGGCGATTCTAAAGTAAGGCTTCAGCCTCACATAGTCAAAAAAGTGCTAGAAACAAAGG AY186615 TTGGCAGCAGAAAAGTAAAGCTCCAGGAAAATATTATTAAGAAGATCCTTGACTTCAATG ***** ******* *** *** * ** * ** ** * ** ** ** * NC_007002 AAGAAAGCCTGTCTGAAACGAAGGCCTTAAGAAGATGGTTAGGCATACTCAATTATGCCA AY186615 AAGAAAATCTTCAATCAAAGAAGGGTCTTCGGTCATTCTTGGGAATTCTCAACTATGCCC ****** ** ** ***** * * ** ** ** ** ***** ****** NC_007002 GAGCATATATTCCTGATCTTGGAAAAATCCTAGGTCCCTTATACTCAAAAACCTCAGGAA AY186615 GAAATCATATTCCTAATCTCGGGAAAATAGCTGGTCCTCTTTATTCTAAGACTTCCGTCT ** ******** **** ** ***** ***** * ** ** ** ** ** * NC_007002 AAGGGGA-GCGAAAACTCAATCACCAAGACATGAAGATAATTCACCAGATCAAGGAAAAG AY186615 ATGGTGATATCAGGTTTTCAGCATCT-GATTGGAAGCTTATTAAAGAGATCAAGGCTATT * ** ** * * * ** * ** **** * *** * ********* * NC_007002 GTAAAAAATCTCCCTGAATTAGAGGTTCCTCCACCAGAGTCCATCATACTAATTGAAACA AY186615 GTGGAGAAGCTCCCACCGCTTGATTATCCACCAGAGCAAGCATACATCATTATTGAATCT ** * ** ***** * ** *** *** * * *** * ****** * NC_007002 GACGGATGTATGGATGGTTGGGGTGGCATTTGCAAATGGAAGTTAAACAAAGGGGAACCC AY186615 GATGGCTGTATGGAT--------------------------------------------- ** ** ********* (…) Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT- RNaseH trong ORF hay genome của virus 32 3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH 3.2.3.1. phân tích dữ liệu Các yêu cầu của dữ liệu Dữ liệu về trình tự nucleotide của gene hsp-70 và RT-RNaseH gồm có hai thực thể chính cần quan tâm: là Trình tự (Sequence) và Sinh vật (Organism). Nhƣ vậy, ta có thể xác định đƣợc sơ đồ đối tƣợng nhƣ sau: Đối tƣợng sinh vật cung cấp các thông tin về:  Tên sinh vật trong hai họ virus là Caulimoviridae và Closteroviridae.  Ký chủ nhạy cảm.  Ký chủ không nhạy cảm  Ký chủ trung gian.  Hình thể.  Đặc tính hóa lý và vật lý.  Vùng phân bố địa lý  Nucleic acid  Protein  Phƣơng pháp chẩn đoán. CSDL tham khảo của sinh vật nhƣ accession number, họ,… Đối tƣợng trình tự cung cấp các thông tin về:  Trình tự các gene hsp-70 và RT-RNaseH.  Trình tự các protein HSP-70 và RT-RNaseH tƣơng ứng với các trình tự nucleotide nói trên.  Tên của các trình tự nucleotide và protein trên.  Chiều dài của gene hsp-70 và RT-RNaseH. CSDL tham khảo của trình tự tác giả, bài báo,… Sinh vật Trình tự có Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH 33 Xác định các đối tƣợng phụ  Đối tƣợng Sinh vật (Organism): Các đối tƣợng phụ dựa trên thực thể Sinh vật đƣợc liệt kê trong bảng 3.1. Mối quan hệ của các đối tƣợng này là: một sinh vật có thể có nhiều gene, protein (mỗi trình tự thì chỉ có một số accession number) và một sinh vật có những đặc điểm (sinh lý sinh hóa, vùng phân bố,…) riêng biệt. Bảng 3.1 Các đối tƣợng phụ dựa trên đối tƣợng chính Sinh vật (Organism) Tên đối tƣợng Ý nghĩa của đối tƣợng Thuộc tính Ý nghĩa của thuộc tính Organism Chứa các đặc điểm về các loài trong họ Organism_name Chứa tên của các loài trong họ Morphology Hình thể của virus Physicochemical_and_ph ysical properties Chứa các đặc tính hóa lý và vật lý Nucleic acid Mô tả về trạng thái DNA và kích thƣớc genome Protein Chứa sự mã hóa của virus cho các protein Symptom_and_host Chứa các triệu chứng virus gây ra cho ký chủ Susceptible_host Ký chủ nhạy cảm Insusceptible_host Ký chủ không nhạy cảm Transmission Ký chủ trung gian Geographic_distribution Chứa vùng phân bố của virus Diagnostic_and_method Phƣơng pháp chuẩn đoán Char Chứa các thông tin về quan hệ họ hàng Family Chứa họ virus genus Giống species Loài RNA_stage Trạng thái RNA Acc Chứa số truy cập trên NCBI Acc_no Các số truy cập 34  Đối tƣợng trình tự (Sequence) Các đối tƣợng dựa trên thực thể Sequence đƣợc liệt kê trong bảng 3.2 Mối quan hệ của các đối tƣợng này là một trình tự của đối tƣợng Sequence chỉ có một số accession number, một thông tin chung về trình tự đó. Nhƣng một trình tự có một hay nhiều tác giả cũng nhƣ một hay nhiều bài báo về trình tự đó. Bảng 3.2 Các đối tƣợng phụ dựa trên đối tƣợng chính Trình tự (Sequence) 3.2.3.2. Thiết kế CSDL dạng bảng Theo các mô tả trong mô hình đối tƣợng, ta chuyển từ mô hình đối tƣợng sang mô hình quan hệ nhƣ sau:  Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình quan hệ.  Mỗi thuộc tính trong mô hình đối tƣợng là thuộc tính trên quan hệ tƣơng ứng.  Khóa của đối tƣợng là khóa của quan hệ tƣơng ứng. Tên đối tƣợng Ý nghĩa của đối tƣợng Thuộc tính Ý nghĩa của thuộc tính Gen_seq Chứa trình tự nucleotide Gen_name Chứa tên trình tự nucleotide Gen_seq Chứa trình tự nucleotide Length Chứa chiều dài của gene Pro_seq Chứa trình tự protein Pro_name Chứa tên protein Pro_seq Chứa trình tự protein Accession number Chứa số truy cập của các trình tự trong CSDL Acc_no Là các số truy cập NCBI Các thông tin chung cho trình tự Definition Định nghĩa của trình tự Locus Locus của trình tự Pubday Ngày công bố trình tự Author Các thông tin về tác giả giải trình tự và những bài báo của tác giả về các trình tự đó Author Tác giả của trình tự Paper Bài báo của tác giả về trình tự 35  Tạo các quan hệ nhƣ sau:  1:1 đặt khóa chính của quan hệ thứ nhất thành khóa ngoại của quan hệ thứ hai và ngƣợc lại.  1: n đặt khóa chính của quan hệ ở đầu một thành khóa ngoại của quan hệ ở đầu n. Ta có các bảng quan hệ và sơ đồ chi tiết của các bảng quan hệ (hình 3.7) này nhƣ sau:  organism_table(organism_id, organism_name, morphology, physicochemical, nucleic_acid, protein, symptom_and_host_range, susceptible_host, insusceptible_host, transmission, geographic_distribution, diagnostic_and_method).  char_table (char_id, family, genus, species, RNA_stage, organism_id)  acc_table (acc_id, acc_no, organism_id)  gen_seq (gen_id, gen_name, gen_seq, length, acc_id)  pro_table (pro_id, pro_name, pro_seq, acc_id)  ncbi_table (ncbi_id, definition, pubday, locus, acc_id)  author_table (author_id, author_name, paper, ncbi_id) Sau khi có các bảng quan hệ, ta thực hiện thiết kế các bảng này ở mức vật lý, nghĩa là đƣa vào hệ quản trị CSDL quan hệ MySQL bằng các ngôn ngữ truy vấn SQL nhƣ tạo CSDL, tạo bảng,… 3.2.3.3. Lƣu trữ các thông tin vào CSDL Sau khi CSDL đƣợc thiết kế ở mức vật lý, ta thực hiện việc đƣa các dữ liệu vào CSDL. Công việc này đƣợc thực hiện tự động cùng một lúc tất cả các quan hệ bằng Perl script và thông qua hai gói DBI, DBD::MySQL để kết nối với CSDL. Tuy nhiên, để việc trình bày này đƣợc mạch lạc rõ ràng, chúng tôi chia ra thành từng phần nhƣ sau: o Lƣu trữ các trình tự (chỉ có chứa trình tự gene và protein hsp-70 và RT- RNaseH), thông tin chung, tác giả, bài báo, definition, locus, tên sinh vật,…(các thành phần này đã có trong mẫu tin của NCBI). o Lƣu trữ các đoạn gene và protein RT-RNaseH, mà chúng nằm trong bộ genome hay các gene khác trong ORF (dữ liệu của phần này cần đƣợc xác định qua nhiều bƣớc và đã đƣợc trình bày ở phần 3.2.2) và các thông 36 tin khác (ký chủ, vùng phân bố, triệu chứng,…) đƣợc tham khảo và thu nhận từ các trang web trên Internet [21, 22]. Lƣu trữ các trình tự, thông tin chung, tác giả và bài báo,… Một mẫu tin về trình tự gene hsp-70 hay RT-RNaseH đƣợc trình bày nhƣ hình 4.2 ta có thể rút trích các thông tin để đƣa vào CSDL.  Trong phần LOCUS: ta lấy phần đầu “SPO010920“ cho vào trƣờng locus trong bảng ncbi_table, phần ngày tháng “02-MAR-2000 “ ta cho vào trƣờng pubday cũng trong bảng ncbi_table.  Trong phần DEFINITION: lấy toàn bộ phần này cho vào trƣờng definition trong bảng ncbi_table.  Phần ACCESSION: lấy số truy cập này cho vào trƣờng acc_no của bảng acc_table.  Phần ORGANISM: tách lấy các phần tên loài, họ, giống và RNA_stage.  Phần AUTHOR, TITLE: lần lƣợt cho vào trƣờng author, paper của bảng author_table  Phần gene:lấy độ dài của đoạn gene.  Phần note: lấy tên của gene.  Phần product: lấy tên protein.  Phần translation: cho vào trƣờng pro_seq của bảng pro_table.  Phần ORIGIN: cho vào trƣờng gen_seq của bảng gen_table. Lƣu trữ các thông tin gen, protein, morphylogy,… Tất cả các trình tự gene, protein đƣợc xác định trong mục 3.2.2 đƣợc đƣa tự động vào CSDL gen_seq và pro_seq bằng Perl script. Đồng thời các dữ liệu về morphology, triệu chứng,… cũng đƣợc đƣa vào CSDL tự động bằng Perl script hay bằng các thao tác bằng tay. Gồm có các thông tin sau:  Trình tự gene và protein của virus có số ACCESSION tƣơng ứng.  Độ dài của gene.  Các đặc điểm sinh lý, sinh hóa, hình thể, vùng phân bố,… Do quan hệ của các bảng đƣợc xác định ngay từ đầu, nên việc đƣa dữ liệu vào phải đƣợc thực hiện tuần tự nhƣ sau:  Đầu tiên là đƣa vào bảng organism_table  Rồi lần lƣợt đến acc_table, gen_table, pro_table, char_table.  Cuối cùng vào các bảng ncbi_table, author_table. 37 3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web Nhằm mục đích cung cấp giao diện cho ngƣời sử dụng truy xuất thông tin, chia sẽ CSDL trực tuyến, CSDL gene và protein hsp-70 và RT-RNaseH đƣợc tích hợp với Web bằng giao thức CGI. Bên cạnh đó, việc tích hợp với web cũng nhằm cung cấp một vài công cụ phân tích trình tự sinh học để hổ trợ cho việc truy xuất thông tin tốt hơn. Tiến trình ngƣời sử dụng lấy thông tin từ CSDL về hai gene trên đƣợc thực hiện ở hình 3.6, gồm các bƣớc nhƣ sau:  Thông qua giao thức truyền siêu văn bản HTTP, trình chủ web Apache nhận thông tin từ yêu cầu trình duyệt, sau đó sử lý và chuyển đến script CGI.  Từ yêu cầu đƣa vào, sử dụng ngôn ngữ truy vấn SQL và các hàm trong module DBI, DBD::MySQL để lấy kết quả trong CSDL của hai gene trên.  Kết quả đƣợc script CGI chuyển đến trình chủ Apache. Sau đó Apache chuyển thông tin kết quả lên trình duyệt của ngƣời sử dụng. CSDL hai GEN Trình chủ web Apache * Nhận và xử lý yêu cầu * Tƣơng tác CSDL * Trả kết quả PERL DBI, CGI DBD::MySQ L Kết quả Yêu cầu Trình duyệt client Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus 38 gen_table gen_id gen_name gen_seq length acc_id acc_table acc_id acc_no organism_id organism_table organism_id organism_name morphology physicochemical nucleic_acid protein symptom_and_host susceptible_host insusceptible_host transmission geographic_distribution diagnostic_and_method ncbi_table ncbi_id definition pubday locus acc_id pro_table pro_id pro_name pro_seq acc_id author_table author_id author paper ncbi_id char_table char_id family genus species RNA_stage organism_id 1 Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae pk: primary key fk: foreign key 1 1 1 n 1 1 1 AY 99 55 66 Ci tr us tr is te za vi ru s is ol at e 46 4- 2 p6 , Hs p7 0h , p6 1, CP m, CP , p1 8, p1 3, p2 0, an d p2 3 ge ns , co mp le te cd 1 1 1 1 39 PHẦN 4 KẾT QUẢ VÀ THẢO LUẬN 4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae Khi sử dụng các từ khóa và phƣơng pháp nhƣ ở mục 3.2 (phần phƣơng pháp và chƣơng trình sử dụng). Chúng tôi đã thu nhận đƣợc 7 file gồm: Thu 3 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene hsp-70 tƣơng ứng cho 3 giống trong họ Closteroviridae. Thu 4 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene Reverse transcriptase-RNaseH tƣơng ứng cho 4 giống trong họ Caulimoviridae. Ví dụ, một file của giống Crinivirus chứa bảng danh sách các ACCESSION NUMBER và dòng định nghĩa về loài và gene hsp-70 trong giống nhƣ sau: Sau khi thu đƣợc các file chứa số ACCESSION NUMBER cùng với dòng định nghĩa ngắn ngọn nhƣ trên, chúng tôi tiến hành chạy chƣơng trình perl script (đƣợc viết dựa trên ngôn ngữ lập trình perl để phục vụ cho việc tải mẫu tin chứa ACCESSION NUMBER có trong file) trên mạng Internet để tải thông tin, kết quả chúng tôi thu đƣợc hơn 300 các mẫu tin có số ACCESION NUMBER và dòng định nghĩa chứa trong 7 file trên. Ví dụ, một mẫu tin có số ACCESSION NUMBER AJ010920 sau khi chạy chƣơng trình perl script thu đƣợc mẫu tin trên NCBI có dạng nhƣ sau: Hình 4.1 File chứa ACCESSION NUMBER và dòng định nghĩa của giống Crinivirus 1: AJ344213 Tomato infectious chlorosis virus partial HSP70 gene for heat shock protein 70, genomic RNA, isolate Gr/P1 gi|17976838|emb|AJ344213.1|TIN344213[17976838] 2: AJ010920 Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S1EA-19a, partial gi|3560042|emb|AJ010920.1|SPO010920[3560042] 3: AY048854 Tomato chlorosis virus Sicily heat shock protein 70 gene, partial cds gi|15292654|gb|AY048854.1|[15292654] (…) 4: AJ010921 Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S2EA-4a, partial gi|3560044|emb|AJ010921.1|SPO010921[3560044] (…) 20: AY048855 Tomato infectious chlorosis virus Liguria heat shock protein 70 gene, partial cds gi|15292656|gb|AY048855.1|[15292656] (…) 40 LOCUS SPO010920 486 bp mRNA linear VRL 02-MAR-2000 DEFINITION Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S1EA-19a, partial. ACCESSION AJ010920 VERSION AJ010920.1 GI:3560042 KEYWORDS heat shock protein 70; hsp70 gene; HSP70 protein. SOURCE Sweet potato chlorotic stunt virus ORGANISM Sweet potato chlorotic stunt virus Viruses; ssRNA positive-strand viruses, no DNA stage; Closteroviridae; Crinivirus. REFERENCE 1 AUTHORS Alicai,T., Fenby,N.S., Gibson,R.W., Adipala,E., Vetten,J.H., Foster,G.D. and Seal,S. TITLE Occurence of two serotypes of sweet potato chlorotic stunt virus in East Africa and their associated differences in coat protein and HSP70 homologue gene sequences JOURNAL Plant Pathol. 48, 718-726 (1999) REFERENCE 2 (bases 1 to 486) AUTHORS Fenby,N.S. TITLE Direct Submission JOURNAL Submitted (28-AUG-1998) Fenby N.S., Department of Biology, Bristol University, Woodland Road, Bristol, BS8 1UG, U.K FEATURES Location/Qualifiers source 1..486 /organism="Sweet potato chlorotic stunt virus" /mol_type="mRNA" /isolate="S1EA-19a" /db_xref="taxon:81931" gene 1..486 /gene="hsp70" CDS 486 /gene="hsp70" /codon_start=2 /product="heat shock protein 70 (HSP70)" /protein_id="CAA09397.1" /db_xref="GI:3560043" /db_xref="GOA:Q9YIR1" /db_xref="UniProt/TrEMBL:Q9YIR1" /translation="SAYVGGTMKVLRINGSEFIPTCLSVTATGDVVVGGAAQVLDSSQ PHCYFYDLKRWVGVDRLSFEEIKRKISPQYTVRLEGNDVLITGISKGFSCTYTVK QLYVDTLVRLFSNVEKLKILSLNVSVPADYKTKQRMFMKSVCESLGFPLRRIINE PSAA" ORIGIN 1 atcggcgtat gttggtggta cgatgaaggt ccttagaata aacgggtcgg agtttattcc 61 cacctgttta tctgtcacgg ctacaggcga cgtggttgtt ggtggggctg cccaggtttt 121 ggattcttcg cagttacccc attgctattt ctatgactta aaacgttggg ttggcgttga 181 taggttgtcc tttgaagaaa taaaacgtaa gatatcccca cagtatacgg tcagattgga 241 aggtaatgat gtgctaataa caggaatctc gaaggggttc tcttgtacat atactgtgaa 301 acagctcatt cttctctatg ttgacacctt ggtcagacta ttctcaaatg ttgaaaagct 361 gaagattctg agtttaaatg tgtcagttcc cgcagattac aaaaccaagc aacggatgtt 421 tatgaaatca gtttgtgagt cgctcggttt tccattgaga aggatcataa acgagccttc 481 tgctgc // Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên NCBI 41 Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và nhƣ phƣơng pháp phần 3.2.1, ở các giống thuộc họ Caulimoviridae chúng tôi chỉ nhận đƣợc 4 giống (Caulimovirus, Soymovirus, Badnavirus và Petuvirus) có trình tự gene RT-RNaseH đƣợc đăng tải trên NCBI. Còn hai giống còn lại (Tungrovirus và Cavemovirus) thì không thu nhận đƣợc mẫu tin về gene RT-RnasH của hai giống này đăng tải. Trong 4 giống (Caulimovirus, Soymovirus, Badnavirus và Petuvirus) ở Caulimoviridae và 3 giống (Ampelovirus, Crinivirus và Closterovirus) ở Closteroviridae khi sử dụng các từ khóa và phƣơng pháp này, chúng tôi nhận đƣợc hầu hết các loài trong giống có chứa hai gene này. Vì trong quá trình tìm kiếm chúng tôi tiến hành kiểm tra các mẫu tin thu nhận đƣợc bằng cách lấy trình tự gene trên để thức hiện BLAST với tất cả các sinh vật trong CSDL nucleotide của NCBI, kết quả BLAST không hoặc rất ít xuất hiện loài nào thuộc hai họ mà chúng tôi chƣa thu nhận. Tuy nhiên, cũng thông qua BLAST thì chúng tôi nhận thấy các từ khóa đƣợc sử dụng vẫn chƣa hoàn toàn đầy đủ, để có thể nhận đƣợc hoàn toàn gene hsp-70 và RT-RNaseH trong hai họ, nên cần có sự kiểm tra lại bằng cách lấy một đoạn gene hsp-70 hay RT- RNaseH rồi thực hiện BLAST trên NCBI. 4.2. Kết quả thu nhận trình tƣ hai gene hsp-70 và RT-RNaseH Sau khi tải trên Internet chúng tôi thu nhận đƣợc:  125 gene hsp-70 của Closteroviridae đã biết.  215 gene RT-RNaseH của Caulimoviridae Trong đó: o Gene RT-RNaseH chỉ có 180 gene đã biết còn 35 gene lại nằm chung với các gene khác trong ORF hay trong genome. Vì có các gene RT-RNaseH nằm trong ORF hay genome nên chúng tôi tiến hành thu nhận gene này bằng phƣơng pháp đƣợc mô tả nhƣ ở phần 3.2.2. Kết quả chúng tôi thu nhận đƣợc 35 gene RT-RNaseH còn lại. Ví dụ: mô hình xác định gene RT-RNaseH ở Caulimoviridae theo sơ đồ sau: Alignment Thu nhận đƣợc vị trí gene RT- RNaseH trong ORF5, rồi dùng perl script tách ra. Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV Gene RT-RNaseH Gene RT-RNaseH nằm trong ORF5 42 Khi tiến hành khảo sát thu nhận trình tự trên NCBI, chúng tôi nhận đƣợc chiều dài của hai gene có sự giao động lớn, do các phƣơng pháp và mục tiêu giải trình tự khác nhau nên kết quả đăng tải trình tự về hai gene này có sự giao động khoảng từ 409 đến 2200 bp. Nhƣ phƣơng pháp thu nhận trình tự ở phần 3.2.2, chúng tôi chỉ tiến hành sắp gióng cột dựa vào một trình tự gene RT-RNaseH đã biết chiều dài để tách lấy trình tự gene RT-RNaseH nằm cùng với các gene khác hay genome của virus nên chỉ thu đƣợc một đoạn nhất định của gene này. Tuy nhiên, với mụch đích xây dựng CSDL phục vụ cho việc thiết kế primer để phân biệt giữa các loài nên có thể chấp nhận đƣợc. Việc dựa vào sự bảo tồn của gene RT-RNaseH để thực hiện sắp gióng cột nên độ chính xác của phƣơng pháp này không cao. Chỉ rất ít loài trong họ Caulimoviridae gene Reverse transcriptase đƣợc xác định chính xác, còn lại hầu hết nó nằm chung với gene RNaseH, nên chúng tôi chƣa có đủ các thông tin để tách riêng chúng ra đƣợc nên trong CSDL chứa cả gene RT và RNaseH. 4.3. CSDL trình tự gene hsp-70 và RT-RNaseH Nhờ sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh học lớn nhƣ NCBI, EMBL, DDBj, … Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, chúng tôi đã tập hợp các trình tự gene hsp-70 (của Closteroviridae) và RT-RNaseH (của Caulimoviridae). Để xây dựng CSDL riêng cho hai gene này. Đồng thời xác định các loài trong họ có chứa hai gene trên. Về sinh vật CSDL lƣu trữ hai họ, 7 giống, 56 loài. Số lƣợng trình tự thu nhận ở bảng 4.1. Về trình tự CSDL gene hsp-70 và RT-RNaseH gồm 325 trình tự (hsp-70 và RT-RNaseH), kết quả chi tiết ở bảng III.3.2. và III.3.3. CSDL gene này đƣợc phân chia thành hai nhóm trình tự hsp-70 thuộc Closteroviridae và RT-RNaseH thuộc Caulimoviridae, tƣơng ứng với mỗi gene có thông tin về protein tƣơng ứng. 43 Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70 và RT-RNaseH Họ Số trình tự gene Số trình tự protein Closteroviridae 125 125 Caulimoviridae 200 200 Bảng 4.2 Số trình tự gene hsp-70 Họ Genus Species Số trình tự Closteroviridae Ampelovirus Grapevine leafroll-associated virus 1 45 Grapevine leafroll-associated virus 3 16 Grapevine leafroll-associated virus 9 2 Closterovirus Beet yellows virus 3 Apricot stem pitting asso 3 Mint virus 1 4 Citrus tristeza virus 6 Little cherry virus 1 2 Grapevine leafroll-associated virus 2 2 Crinivirus Sweet potato chlorotic stunt virus 16 Cucurbit yellow stunting disorder virus 3 Tomato infectious chlorosis virus 9 Potato yellow vein virus 7 Tomato chlorosis virus 4 Beet pseudo-yellows virus 3 Tổng số trinh tự 125 Tƣơng tự, số trình tự về protein của họ Closteroviridae cũng thu nhận đƣợc với số lƣợng tƣơng ứng với gene hsp-70 (mỗi trình tự điều có một trình tự protein tƣơng ứng trong CSDL). Bảng 4.3 Số trình tự gene RT-RNaseH Họ Genus Species Số trình tự Caulimoviridae Badnavirus Banana streak Obino l'Ewai virus 13 Banana streak Goldfinger virus 10 Banana streak Imove virus 8 44 Banana streak Uganda A virus 11 Banana streak Uganda B virus 2 Banana streak Uganda C virus 1 Banana streak Uganda D virus 2 Banana streak Uganda E virus 3 Banana streak Uganda F virus 2 Banana streak Uganda G virus 2 Banana streak Uganda H virus 2 Banana streak Uganda I virus 26 Banana streak Uganda J virus 4 Banana streak Uganda K virus 4 Banana streak Uganda L virus 20 Banana streak Uganda M virus 32 Banana streak virus 1 Rubus yellow net virus 2 Stilbocarpa mosaic bacilliform virus 1 Banana streak OL virus 2 Taro bacilliform virus 9 Citrus yellow mosaic virus 2 Bougainvillea spectabilis chlorotic vein-banding virus 1 Pineapple bacilliform virus 1 Sugarcane bacilliform virus 1 Cacao swollen shoot virus 5 Kalanchoe top-spotting virus 1 Banana streak GF virus 1 45 Banana streak virus strain Acuminata Vietnam 1 Banana streak Mys virus 1 Caulimovirus Cauliflower mosaic virus 8 Blueberry red ringspot virus 2 Dahlia mosaic virus 2 Carnation etched ring virus 2 Horseradish latent virus 1 Peanut chlorotic streak virus 2 Cassava vein mosaic virus 2 Figwort mosaic virus 2 Petuvirus Petunia vein clearing virus 4 Soymovirus Peanut chlorotic streak virus 2 Soybean chlorotic mottle virus 2 Tổng số trình tự 200 Trong CSDL chứa hai đối tƣợng chính thì còn chứa đối tƣợng phụ nhằm cung cấp các thông tin khác để bổ sung cho hai đối tƣợng chính nhƣ: tên tác giả, tên bài báo, cây phân loài,… CSDL về hai gene hsp-70 và RT-RNaseH, rất tiện ích cho việc truy xuất, nghiên cứu các thông tin liên quan đến trình tự DNA, protein, loài, các đặc trƣng của từng loài chứa hai gene này, tiết kiệm thời gian tìm hiểu, nắm bắt thông tin nhanh. CSDL này đƣợc xây dựng trên hai gene khá bảo tồn ở hai loài nên chúng ta có thể dựa vào các thông tin trong CSDL để nghiên cứu các hiện tƣợng biến chủng trong họ, giúp đƣa ra các kết luận chính xác về các biến chủng xảy ra ở trên hai gene này. Nhƣng CSDL nhỏ, chỉ có 325 trình tự gene hsp-70 và RT-RNaseH ở hai họ virus, chứa lƣợng thông tin ít và chƣa có chế độ bảo mật. Ở cấp độ phòng thí nghiệm, cơ quan nghiên cứu hay trƣờng đại học thì việc xây dựng CSDL cho từng đối tƣợng (về một gene, một sinh vật,…) thì rất tiện ích để phục vụ cho các nghiên cứu về một đối tƣợng nhất định. 46 4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH Cấu trúc của các trang web CSDL gene hsp-70 và RT-RNaseH thể hiện ở hình (4.4) Hsp-70 and RT-RNaseH gene DATABASE WEB PAGE HOME PAGE SEARCH PAGE TOOL PAGE TAXONOMY PAGE ABOUT PAGE LINK PAGE ACCESSION NUMBER(s) ORGANISM ALIGNMENT CAULIMOVIRDAE CLOSTEROVIRIDAE BIOTECH. Dep. BLAST Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH 46 47 4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH (HOME PAGE)  Nội dung trang web: cung cấp thông tin về các giống, loài trong họ, trình tự của từng loài, kiểm tra độ tƣơng đồng về trình tự (nucleotide và protein) giữa các loài trong họ thông qua công cụ Alignment.  Hình thức thể hiện: Hình 4.5 4.4.2. Trang tìm kiếm (SEARCH PAGE)  Nội dung của trang web: cho phép ngƣời dùng tìm kiếm trình tự gene hay protein có trong CSDL gene hsp-70 và RT-RNaseH. Trong trang này gồm có hai thanh công cụ tìm kiếm. Tìm kiếm khi biết ACCESSION NUMBER, hai là khi biết tên của loài trong họ. Hình 4.5 Trang HOME PAGE 48  Hình thức thể hiện:  Với trang tìm kiếm khi biết ACCESSION NUMBER(s) o Khi biết ACCESSION NUMBER (số truy cập của CDSL GenBank), ngƣời ta dùng có thể nhập một hoặc nhiều mã số này, để tìm các trình tự nucleotide, protein,… có mã số tƣơng ứng (Hình 4.6). o Ngƣời dùng có thể tùy chọn các phần sẽ hiện thị trong kết quả tìm kiếm, ví dụ ngƣời dùng có thể tùy chọn các phần cần thông tin cần tìm và kết quả sẽ hiển thị sau khi thực hiện lệnh SEARCH là trình tự protein, gene và cả phần định nghĩa, tác giả, ngày xuất bản, tựa đề của bài báo,… của trình tự gene hsp-70 và RT-RNaseH (Hình 4.7). Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER 49  Với trang tìm kiếm khi biết tên của loài. o Khi biết tên của sinh vật, chúng ta có thể nhập tên của nó vào trong thanh ORGANISM(s). để tìm sinh vật đó trong CSDL (phụ lục). o Ngƣời dùng có thể tùy chọn các phần sẽ hiển thị trong kết quả tìm kiếm, ví dụ ngƣời dùng có thể tùy chọn phần hiển thị nhƣ là loài, giống, vùng phân bố, đặc tính sinh lý,… của sinh vật đó (phụ lục). 4.4.3. Trang công cụ (TOOL PAGE) Sắp gióng cột (alignment) hai hay nhiều trình tự là một công cụ khá thông dụng để khảo sát sự tƣơng đồng, đột biến, nghiên cứu chức năng của gene. Mặc khác để tìm trình tự tƣơng đồng với một trình tự quan tâm, các nhà sinh học thƣờng sử dụng Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUMBER 50 công cụ BLAST. Do nhu cầu đó, chúng tôi đã tích hợp hai công cụ này vào trang web CSDL gene hsp-70 và RT-RNaseH.  Nội dung trang web: trang này cung cấp hai công cụ chủ yếu để phân tích trình tự sinh học, đó là sắp gióng cột (alignment) và tìm kiếm trình tự tƣơng đồng (BLAST).  Hình thức thể hiện:  Với công cụ Alignment: ngƣời sử dụng có thể nhập vào một hay nhiều trình tự (có thể là DNA hay protein) thông qua ô nhập văn bản hay một tập tin dƣới định dạng FASTA. Rồi chọn một hay nhiều trình tự trong CSDL gene hsp-70 và RT-RNaseH để thực hiện sắp gióng cột (có thể thực hiện Alignment giữa các gene, protein trong CSDL) (Hình 4.8).  Với công cụ BLAST: ngƣời dùng có thể nhập vào một trình tự (có thể là DNA hay protein). Trình tự này sẽ đƣợc so sánh tƣơng đồng cục bộ với CSDL của trình tự gene hsp-70 và RT-RNaseH. Các tham số của BLAST: giá trị mong đợi E_value, ma trận sử dụng có thể thay đổi (Hình 4.10). Hình 4.8 Trang web tìm kiếm trình tự tƣơng đồng bằng Alignment 51 Hình 4.9 Trang kết quả Alignment giữa các trình tự Hình 4.10 Trang web tìm kiếm trình tự tƣơng đồng bằng BLAST 52 4.4.4. Trang cây phân loài (Taxonomy)  Nội dung trang web: trang gồm có hai trang về hai họ Caulimoviridae và Closteroviridae.  Hình thức thể hiện: Hình 4.11 4.4.4.1. Trang Caulimoviridae: cung cấp thông tin chung cho các đặc trƣng cho họ nhƣ thông tin về các giống, loài trong hai họ, đồng thời, kích thƣớc genome, hình thể, các đặc tính sinh hóa, dãy kí chủ trong tự nhiên, triệu chứng, vùng phân bố, các loài trong họ,… Hình 4.11 Trang web cây phân loài của hai họ 53  Nội dung trang web: đƣợc thể hiện qua các mục điển hình sau: o Đặc tính Virion: cung cấp các thông tin về hình thể, đặc tính vật lý và hóa lý, acid nucleic, protein, tổ chức genome,… o Đặc tính sinh học: cung cấp các thông tin về dãy kí chủ tự nhiên, kí chủ trung gian, triệu chứng, vùng phân bố địa lý, phƣơng pháp chuẩn đoán,… o Cấu trúc phân loài: chứa các thông tin về các thành viên trong loài.  Hình thức thể hiện: Hình 4.12 Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ 54 4.4.4.2. Trang Closteroviridae: cung cấp các thông tin về họ Closteroviridae tƣơng tự nhƣ trang caulimoviridae (phụ lục). 4.4.5. Trang liên kết (LINK PAGE) Trang này thực hiện việc liên kết đến một vài CSDL lớn trên thế giới nhƣ NCBI, EMBL,… (phụ lục). 4.4.6. Trang thông tin về bộ môn công nghệ sinh học (ABOUT PAGE) Trang này cung cấp các thông tin về cấu trúc tổ chức, các hoạt động giáo dục - đào tạo và nghiên cứu khoa học,… của khoa công nghệ sinh học (phụ lục). Dùng giao diện web để truy xuất thông tin và chia sẽ nguồn thông đó. Trang web đƣợc viết dựa trên mụch đích tiện ích cho ngƣời sử dụng. Các thông tin cần truy xuất hầu hết điều hiển thị trên giao diện web. Nên ngƣời sử dụng chỉ check vào các ô chọn lựa để truy xuất các thông tin mong muốn. Web chứa trang công cụ Alignment và BLAST giúp ngƣời sử dụng tìm kiếm các trình tự tƣơng đồng thông qua công cụ này chúng ta có thể biết đƣợc mức độ tƣơng đồng của về trình tự giữa các loài. Ngoài ra, trên web này còn liên kết với các CSDL lớn nhƣ NCBI, EBI, DDBj, SIB thông qua trang liên kết. Mục đích của trang web chỉ phục vụ cho việc truy xuất thông tin trong nội bộ ở cấp độ phòng thí nghiệm, trƣờng đại học,… nên chúng tôi không xây dựng chế độ bảo mật cho web. Tuy nhiên, trang web còn tồn tại một số vấn đề nhƣ số lƣợng trang trên web ít (6 trang chính), các thông tin cung cấp không chƣa đáp ứng thỏa mãn cho các nghiên cứu lớn và các công cụ đƣợc tích hợp vào ít cần đƣợc bổ sung vào thêm. 55 PHẦN 5 KẾT LUẬN VÀ ĐỀ NGHỊ 5.1. KẾT LUẬN  Chúng tôi đã tải đƣợc 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ liệu NCBI.  Thông qua việc tìm hiểu về hai họ virus, trình tự gene tƣơng đồng, trình tự protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định đƣợc vị trí gene hsp-70 và RT-RNaseH nằm trong ORF hay trong genome của chúng.  CSDL có 325 trình tự đƣợc tích hợp với Web  Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra, từ những trang web chính này còn có thể kết nối đến những trang phụ khác để cung cấp những tiện ích cho ngƣời dùng. Từ các trang web này, ngƣời sử dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc tính của loài,… 5.2. ĐỀ NGHỊ  Dùng từ khóa chính xác hơn để khảo sát đƣợc toàn bộ các loài chứa hai gene này ở hai họ và khảo sát về hai hai giống còn lại trong họ Caulimoviriae trên NCBI.  Tiến hành khảo sát chính xác vị trí gene hsp-70 và RT-RNaseH trong ORF hay genome của hai loài virus thông qua các thông tin cung cấp trên mạng hay sử dụng trình tự nucleotide đã biết để thiết kế một primer, primer còn lại đƣợc thiết kế ngẩu nhiên, thông qua các kỹ thuật sinh học phân tử để thu nhận đƣợc chính xác vị trí và chiều dài của gen.  Mở rộng CSDL gene khác của loài (nhƣ gene mã hóa cho protein vỏ,…) của hai họ hay các họ khác, đồng thời bổ sung các thông tin về trình tự gene, trình tự và cấu trúc protein, đặc tính của họ, … Thông qua việc thu nhận các thông tin liên quan đƣợc đăng tải trên Internet hay các thông tin từ nghiên cứu của phòng thí nghiệm. 56  Xây dựng nhiều trang web chứa các thông tin và công cụ (thiết kế primer, enzyme cắt giới hạn, xây dựng mô hình cấu trúc,…) phục vụ cho việc khai thác thông tin và các ứng dụng khác.  Tiến hành thiết kế primer phục vụ cho phản ứng PCR phân biệt các loài trong họ và giữa các họ thông qua các trang web thiết kế primer trực tuyến trên Internet nhƣ GeneFisher, Primer3,… Hay xây dựng trang web chứa công cụ phục vụ cho thiết kế primer nhƣ GPRIME, Primer3,…kết hợp với ngôn ngữ lập trình Perl. 57 PHẦN 6 TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT 1. Đƣờng Hồng Dật, Khoa học bệnh cây. Nhà xuất bản nông nghiệp. trang 104-106. 2. Lƣu Phúc Lợi. 2004. Xây dựng cơ sở dữ liệu gene pbp (PENICILLIN- BINDING PROTEIN) ở Vi khuẩn Streptococcus pneumoniae. Luận văn tốt nghiệp cử nhân CNSH. Đại học Khoa Học Tự Nhiên – Đại học Quốc Gia thành phố Hồ Chí Minh. 3. Cao Ngọc Phƣợng, 2003. Tài liệu cơ sở dữ liệu. Đại học Khoa Học Tự Nhiên – Đại học Quốc Gia thành phố Hồ Chí Minh. 4. Võ Cẩm Quy, 2003. Tài liệu soạn thảo web. Đại học Khoa Học Tự Nhiên – Đại học Quốc Gia thành phố Hồ Chí Minh. 5. Lê Thành Sách và Nguyễn Cao Đạt, 2001. Tài liệu lập trình mạng (phần 1, 2, 4) . Đại học Bách Khoa – Đại học Quốc Gia thành phố Hồ Chí Minh. 6. Trần Hiếu Thuận, 2003. Tài liệu lập trình Perl. Đại học Khoa Học Tự Nhiên – Đại học Quốc Gia thành phố Hồ Chí Minh. 7. Trần Linh Thƣớc, 2002. Thực tập Bioinformatics (Công nghệ sinh học). Đại học Khoa Học Tự Nhiên – Đại học Quốc Gia thành phố Hồ Chí Minh. 8. Trần Thành Trai, 1996. Nhập môn cơ sở dữ liệu. Nhà xuất bản trẻ. TÀI LIỆU NƢỚC NGOÀI 9. Alkowni R., Rowhani A., DauBert S. and Golino D., 2004. Partial characterization of new ampelovirus associated with grapevine leafroll diease. Journal of Plant Pathology 86(2): 123-133. 10. Dina V.Alzhanova, Alberto J.Napuli, Rebecca Creamer and Valerian V.Dolja., 2001. Cell-to-cell movement and assembly of plant closterovirus: roles for the capsid proteins and Hsp70 homolog. The EMBO Journal 20: 6997-7007. 11. James Tisdall, 2001. Beginning Perl for bioinformatics. 1 st edition, O’Reilly & Associates, Inc. 468 pages. 12. James Tisdall, 2001. Mastering Perl for bioinformatics. 1 st edition, O’Reilly & Associates, Inc. 369 pages. 58 13. Kreuze J. F., Savenkov E. I., and Valkonen J. P. T., 2002. Complete genome sequence and analyses of the subgenomic RNAs of sweet potato chlorotic stunt virus reveal several new features for the genus crinivirus. Journal of Virology 76: 9260-9270. 14. Levy Jay A., Heinz Fraenkel-Conrat, Owens Robert A., 1994. Virology. 3 rd edition, Prentice-Hall, Inc. 147-152 pages. 15. Livia Stavolone, Antonio Ragozzino and Thomas Hohn., 2003. Characterization of cestrum yellow leaf curling virus: a new member of the family Caulimoviridae. Journal of General Virology 84: 3459-3464. 16. Qi Huang and John Hartung S., 2001. Cloning and sequence analysis of an infectious clone of citrus yellow mosaic virus that can infect sweet orange via agrobacterium-mediated inoculation. Journal of General Virology 82: 2549-2558. 17. Sedyo Hartono, Tomohide Natsuaki, Yoshikatsu Genda and Seiichi Okuda., 2003. Nucleotide sequence and genome organization of Cucumber yellows virus, a member of the genus Crinivirus. Journal of General Virology 84: 1007–1012. 18. Wise D. J. and Carter G.R., 2005. Viral Replication and Genetics. A Concise Review of Veterinary Virology A3253.0205. TÀI LIỆU TỪ CÁC TRANG WEB: 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 59 PHỤ LỤC MỘT SỐ HÌNH ẢNH TRANG WEB TRONG CSDL GENE hsp-70 VÀ RT-RNaseH. Trang tìm thông tin khi biết tên sinh vật Trang kết quả tìm kiếm thông tin bằng tên sinh vật 60 Trang Link Trang About

Các file đính kèm theo tài liệu này:

  • pdfkhoa luan tot nghiep - Thai CNSH27.pdf
Tài liệu liên quan