Luận văn Xây dựng cơ sở dữ liệu SSRs (simple sequencen repeats) từ ESTe (expressed sequence tags) của cây dứa (ananas comosus)

TÓM TẮT KHOÁ LUẬN “XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE REPEATS) TỪ ESTs (EXPRESSED SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)” Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2006 đến 8/2006. Trong những năm qua sinh học không ngừng phát triển, đã tạo ra những kho dữ liệu rất lớn về trình tự gene, protein, . của thực vật, động vật, Và với các thành tựu vốn có của công nghệ thông tin, những trình tự gene này đã và đang được lưu trữ trong cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj, Vì các cơ sở dữ liệu này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt, trong đó có phương pháp microsatellite. Do vậy, mục tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa Ananas comosus được lấy ở cơ sở dữ liệu sinh học NCBI. Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau: Dùng Perl script để thu nhận trình tự các nucleotide của gene từ trang cơ sở dữ liệu GenBank NCBI. Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen. Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu trữ dữ liệu các trình tự nucleotide và trình tự SSRs của Ananas comosus, và tạo cơ sở dữ liệu chứa những trình tự này. Sau đó chuyển các dữ liệu này vào cơ sở dữ liệu chính. Kết hợp các phần mềm quản lý cơ sở dữ liệu và phần mềm tạo web, thiết kế trang web chia sẻ thông tin với người dùng. MỤC LỤC Nội dung Trang LỜI CẢM ƠN .iv TÓM TẮT KHOÁ LUẬN .v DANH SÁCH CÁC HÌNH x DANH SÁCH CÁC BẢNG xi DANH SÁCH CÁC TỪ VIẾT TẮT xii Phần 1. Mở đầu 1 1.1. Đặt vấn đề 1 1.1.1. Sơ lược về sinh – tin học .1 1.1.2. Sơ lược về cây dứa .2 1.1.3. Sơ lược về phương pháp Microsatellite .2 1.2. Mục tiêu của khóa luận . 3 Phần 2. Tổng quan tài liệu 4 2.1. Giới thiệu về cây dứa . 4 2.1.1. Vị trí phân loại 4 2.1.2. Nguồn gốc và phân bố .4 2.1.3. Đặc điểm hình thái .5 2.1.3.1. Rễ . 5 2.1.3.2. Thân . 5 2.1.3.3. Lá . 5 2.1.3.4. Hoa . 5 2.1.3.5. Quả . 6 2.3.1.6. Hạt 6 2.1.4. Đặc điểm trồng trọt 6 2.1.4.1. Yếu tố khí hậu 6 2.1.4.2. Yếu tố đất đai . 6 2.1.4.3. Yếu tố sinh vật . 7 2.1.5. Giá trị kinh tế và sử dụng 7 2.1.6. Các giống trồng 8 2.1.6.1. Nhóm Cayenne . 8 2.1.6.2. Nhóm Queen 9 2.1.6.3. Nhóm Spanish 9 2.1.6.4. Nhóm Abacaxi . 10 2.1.6.5. Các giống trồng trong nước . 11 2.1.7. Tình hình phát triển của cây dứa trong và ngoài nước 11 2.2. Các Marker phân tử 12 2.2.1. Isozymes 12 2.2.2. ALP 12 2.2.3. AFLP 12 2.2.4. RAPD .13 2.2.5. SSCP 14 2.2.6. SNP 14 2.2.7. SSR .15 2.2.8. Kỹ thuật STS và SCARP 15 2.2.9. RFLP 15 2.3. Chi tiết về microsatellite . 16 2.3.1. Định nghĩa .16 2.3.2. Các phương pháp phát hiện microsatellite 16 2.3.2.1. Phương pháp lai . 17 2.3.2.2. Phương pháp PCR 17 2.3.3. Vai trò của microsatellite 18 2.3.4. Ứng dụng .19 2.4. EST 19 2.4.1. Sơ lược về EST .19 2.4.2. Nguồn gốc của EST .20 2.5. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu . 20 2.5.1. Nguyên nhân ra đời của mô hình quan hệ .20 2.5.2. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệ 21 2.5.2.1. Định nghĩa cơ sở dữ liệu 21 2.5.2.2. Hệ quản trị cơ sở dữ liệu 21 2.5.3. Các mô hình dữ liệu .23 2.5.3.1. Định nghĩa 23 2.5.3.2. So sánh các mô hình dữ liệu 23 2.5.4. Người dùng .24 2.5.5. Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ 25 2.5.5.1. Vấn đề 1: Cấu trúc logic và cấu trúc vật lý 25 2.5.5.2. Vấn đề 2: Dư thừa dữ liệu 25 2.5.5.3. Vấn đề 3: Sự khai thác dữ liệu của người sử dụng 25 2.6. Internet và Web . 26 2.6.1. Sơ lược về Internet .26 2.6.1.1. Tóm lược lịch sử phát triển 26 2.6.1.2. Tổng quát về Internet . 26 2.6.2. Các dịch vụ được cung cấp trên Internet .28 2.6.2.1. Phân loại khối thông tin . 28 2.6.2.2. Các dịch vụ cơ bản . 28 2.6.3. Tích hợp cơ sở dự liệu với web 28 2.7. Ngôn ngữ lập trình Perl và Javascript 28 2.7.1. Ngôn ngữ Perl .28 2.7.1.1. Tóm tắt lịch sử phát triển . 28 2.7.1.2. Ứng dụng 29 2.7.1.3. Một số module của Perl thường được sử dụng 29 2.7.2. Ngôn ngữ Javascript .30 2.7.2.1. Định nghĩa Javascript . 31 2.7.2.2. Javascript có thể làm gì? 31 2.7.2.3. Ưu và nhược điểm của Javascript 31 2.8. Cơ sở dữ liệu sinh học . 32 2.8.1. NCBI 32 2.8.1.1. Vài nét về NCBI . 32 2.8.1.2. Một số cơ sở dữ liệu trong NCBI . 33 2.8.1.3. Một số công cụ trong NCBI . 33 Phần 3. Phương pháp và chương trình sử dụng .35 3.1. Các chương trình và ngôn ngữ lập trình được sử dụng 35 3.1.1. Hệ điều hành .35 3.1.2. Các chương trình phân tích trình tự .35 3.1.2.1. Chương trình so sánh trình tự ClustalW 35 3.1.2.2. Chương trình tìm kiếm các trình tự tương đồng – BLAST . 36 3.1.2.3. Hệ quả trị CSDL quan hệ MySQL . 36 3.1.2.4. Apache web Server 37 3.2. Thu nhận trình tự SSRs 38 3.2.1. Thu thập và chọn lọc dữ liệu .40 3.2.2. Thu nhận trình tự SSR .41 3.3. Xây dựng CSDL, công cụ để giúp người dùng có thể khai thác tốt dữ liệu . 44 3.3.1. Xây dựng cơ sở dữ liệu 44 3.3.1.1. Tạo bảng chứa dữ liệu 44 3.3.1.2. Xây dựng mối quan hệ . 46 3.3.1.3. Nhập dữ liệu vào bảng . 47 3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu 47 3.5. Tích hợp các công cụ sinh học vào trang web . 48 Phần 4. Kết quả và thảo luận .49 4.1. Kết quả thu nhận trình tự microsatellite 49 4.1.1. Kết quả thu nhận trình tự của Ananas comosus 49 4.1.2. Kết quả thu nhận trình tự SSRs 50 4.2. Xây dựng CSDL, công cụ để giúp người dùng có thể khai thác tốt dữ liệu . 51 4.2.1. Cơ sở dữ liệu trình tự Ananas comosus .51 4.2.2. Kết quả sau khi lập CSDL của trình tự microsatellite .52 4.2.3. Mô hình quan hệ .57 4.3. Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus . 59 4.3.1. Trang chủ (HOME PAGE) .60 4.3.2. Trang thông tin về microsatellite (ABOUT SSRs PAGE) 60 4.3.3. Trang thông tin về Ananas comosus (Ananas comosus PAGE) .60 4.3.4. Trang cơ sở dữ liệu ESTs (ESTs PAGE) 61 4.3.5. Trang cơ sở dữ liệu SSRs (SSRs PAGE) 62 4.3.6. Trang công cụ .64 4.3.6.1. Trang tích hợp công cụ để tìm kiếm SSR 64 Phần 5. Kết luận và đề nghị 65 5.1. Kết luận 65 5.2. Đề nghị 65 Phần 6. Tài liệu tham khảo .66 . Xây dựng cơ sở dữ liệu ssrs (simple sequencen repeats) từ este (expressed sequence tags) của cây dứa (ananas comosus)

83 trang | Chia sẻ: maiphuongtl | Lượt xem: 2063 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu SSRs (simple sequencen repeats) từ ESTe (expressed sequence tags) của cây dứa (ananas comosus), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Có nhiều kỹ thuật được dùng để tích hợp cơ sở dữ liệu với web để tạo ra trang web động như CGI, PHP, ASP, JSP, Coldfusion. 2.7. Ngôn ngữ lập trình Perl và Javascript 2.7.1. Ngôn ngữ Perl [7] 2.7.1.1. Tóm tắt lịch sử phát triển Perl là chữ viết tắt của “Practical Extraction and Report Language”. Larry Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các mạng máy tính lớn. Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị ảnh hưởng bởi ngôn ngữ khác như BASIC, awk, sed và UNIX shell. Năm 1987, Perl 1.0 ra đời. 29 Năm 1988, Perl 2.0 phát hành và được các nhà quản trị UNIX sử dụng rộng rãi. Năm 1989, Perl 3.0 ra đời, nhưng phiên bản này được phát hành dưới bản quyền được bảo vệ của GNU. Với phiên bản này Perl nhanh chóng trở thành tiêu chuẩn để viết CGI script dùng cho việc xử lý dữ liệu được gửi trên Internet. Năm 1991, phiên bản 4.0 được đưa ra vào tháng 3. Đến thời điểm này, Perl đã trở thành ngôn ngữ khá hoàn chỉnh mặc dù vẫn còn một số khuyết điểm nhỏ. Năm 1994, phiên bản Perl 5.0 ra đời cùng với sự ra đời của DBI (Database Interface) và DBD (Datadbase Driver) cho hệ quản trị cơ sở dữ liệu Oracle của Tim Bunce. Từ đó, các DBD của các hệ quản trị cơ sở dữ liệu khác cũng dần xuất hiện. Năm 2000, phiên bản 5.6 xuất hiện vào tháng 3. Phiên bản này đã chuyển sang định dạng tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8. Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới được bổ sung. 2.7.1.2. Ứng dụng Perl được dùng để xử lý tập tin, truy cập dữ liệu và được dùng cho giao diện cổng chung (Common Gateway Interface – CGI), tiến hành tạo script của Microsoft Windows, tạo giao diện người dùng đồ họa (graphical user interface – GUI). Ưu điểm: là ngôn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn bản thuần túy, được sự hổ trợ của nhiều hệ điều hành. Vì vậy, Perl là ngôn ngữ lập trình thích hợp cho các nhà tin – sinh học vì nó có thể giúp cho việc thao tác trên các chuỗi trình tự sinh học, tạo cơ sở dữ liệu sinh học dễ dàng hơn. Ngoài ra, Perl còn được sự hỗ trợ module (tập các hàm) giúp kết nối, truy xuất cơ sở dữ liệu với trang Web, tạo ra trang web động. Nhược điểm: chỉ có thể dùng để viết các chương trình, script nhỏ. 2.7.1.3. Một số module của Perl thƣờng đƣợc sử dụng Mudule CGI (Common Gateway Interface – CGI) của Perl: do Lincoln D. Stein viết. Module này gồm các hàm giúp viết kịch bản Perl 30 theo giao thức CGI. Các script này giúp lấy thông tin từ trình diệt khách gởi đến máy chủ, đưa vào chương trình sử lý và đưa lại thông tin kết quả đến máy khách. Module DBI (Database Interface) của Perl: là tập các hàm, biến và những qui ước cần thiết cho việc tương tác với một cơ sở dữ liệu nhất định thông qua Perl script, hoàn toàn độc lập với hệ quản trị cơ sở dữ liệu (do tác giả của DBI, Tim Bunce, định nghĩa). Những tương tác có thể nhập, nâng cấp, xử lý, rút trích,…dữ liệu vào hay ra khỏi cơ sở dữ liệu. Module DBD (Datadbase Driver) của Perl: là một module phụ thuộc loại hệ quản trị cơ sở dữ liệu và liên kết với module BDI để truy cập vào một loại hệ quản trị cơ sở dữ liệu nhất định. Như vậy tương ứng với một hệ quản trị cơ sở dữ liệu có một loại DBD. Ví dụ như hệ quản trị MySQL có Database Driver là DBD::MySQL. Hình 2. 4. Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS 2.7.2. Ngôn ngữ Javascript [6] Javascript đã và đang phát triển một cách vững chắc về mặt phổ cập lẫn khả năng kể từ khi nó ra đời và hiện giờ đã trở thành ngôn ngữ số một dành cho trình duyệt. Công nghệ này có hai thế mạnh chính: hỗ trợ nhiều trình duyệt khác nhau và có thể lập trình dễ dàng. Công nghệ này thành công đến nỗi nó không chỉ là ngôn ngữ lập trình cho các trình duyệt mà còn được dùng để lập trình cho các tập tin PDF và lập trình cho máy chủ web. P E R L S C R I P T D B I S w i t c h DBD DBD DBD RDBMS RDBMS RDBMS 31 2.7.2.1. Định nghĩa Javascript Javascript ra đời với tên gọi là LiveScript, tuy nhiên Netscape đã thay đổi tên gọi thành Javascript. Tuy nhiên, tên gọi này đã gây ra lúng túng cho một số người khi cho rằng có một mối quan hệ gần gũi giữa Java và Javascript. Trong thực tế, giữa hai ngôn ngữ này có rất ít các điểm chung, dù rằng cú pháp của chúng có thể giống nhau. Năm 1996, ngôn ngữ Javascript được tạo ra bởi Netscape và được đưa vào trong trình duyệt Netscape Navigator 2.0 của họ thông qua một trình biên dịch để đọc và thực hiện các mã lệnh Javascript được kèm theo trong các trang .HTML. Ngôn ngữ này ngày càng trở nên phổ cập và hiện giờ đã được hỗ trợ bởi phần lớn các trình duyệt trên Internet: các trình duyệt được tạo bởi ra bởi Netscape và Microsoft, cũng như các trình duyệt ít phổ biến hơn như Opera. 2.7.2.2. Javascript có thể làm gì? Các hiệu ứng rollover (thay đổi hình ảnh khi di chuyển chuột lên phía trên hình ảnh) và các thủ thuật HTML đều có gắn liền với Javascript. Kiểm tra tính hợp lệ về dữ liệu người dùng, kiểm tra xem dữ liệu được nhập vào có phù hợp không trước khi chúng được gửi lên máy chủ. Khi Javascript được phát triển theo đúng chức năng của mình, các nhà phát triển và các nhà thiết kế có thể tạo ra nhiều hiệu ứng và tương tác trực quan có ấn tượng hơn cho người dùng. 2.7.2.3. Ƣu và nhƣợc điểm của Javascript  Ưu điểm: Khả năng chạy trên nhiều trình duyệt. Kiểm tra tính hợp lệ của dữ liệu trên máy khách. Khả năng tạo ra các giao diện người dùng tinh tế và phức tạp. Các hiệu ứng tạo ra bởi Javascript còn có thể được tải xuống nhanh hơn rất nhiều so với một số công nghệ khác như Flash và Java applets. Các ưu điểm khác bao gồm: không cần phải có các công cụ riêng biệt để viết Javascript, có thể sử dụng bất kỳ trình soạn thảo văn bản 32 hoặc HTML nào để thực hiện việc đó, không phải tốn chi phí để mua các sản phẩm phần mềm vốn thường là không rẻ. Javascript cũng là một ngôn ngữ dễ học, trên Internet có rất nhiều nguồn thông tin và nhiều cộng đồng các nhà phát triển có tính hỗ trợ nhau trong việc phát triển ứng dụng Javascript để tham khảo.  Nhược điểm: Phụ thuộc vào tính tương thích của trình duyệt 2.8. Cơ sở dữ liệu sinh học Dữ liệu sinh học ngày càng tăng theo cấp số mũ qua các dự án giải trình tự bộ gene, do sự phát triển của kỹ thuật và thiết bị thí nghiệm như kỹ thuật DNA micro array, kỹ thuật giải trình tự tự động cho phép tạo ra hàng ngàn dữ liệu sinh học trong chốc lát. Như vậy vấn đề đặt ra là cần phải có biện pháp lưu trữ, quản lý, sử dụng và chia sẽ nguồn dữ liệu này. Do đó cần xây dựng các dữ liệu này thành một cơ sở dữ liệu hoàn chỉnh để có thể thực hiện được mục đích trên. Hơn thế nữa, với việc hệ thống hóa toàn bộ dữ liệu trên, chúng ta dễ dàng thực hiện việc chia sẽ những thông tin ấy qua mạng Internet hay kết nối thêm vào những tập dữ liệu ở nơi khác. Một số cơ sở dữ liệu lớn, trực tuyến đã được xây dựng để cung cấp thông tin cho các nhà nghiên cứu sinh học như NCBI, EBI, SIB, DDBJ,… 2.8.1. NCBI 2.8.1.1. Vài nét về NCBI Hình 2. 5. Tƣơng quan giữa NCBI, NLM (National Library of Medicine và NIH) NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa kỳ (NIH – National Insitute of Health). NCBI chính thức được NLM NCBI NIH 33 thành lập vào ngày 4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự DNA và từ đó NCBI còn được gọi là GenBank. NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông qua những cơ sở dữ liệu trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ gene, protein,… 2.8.1.2. Một số cơ sở dữ liệu trong NCBI  Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide.  Protein: là cơ sở dữ liệu về trình tự amino acid.  Genome: trình tự toàn bộ genome của một số sinh vật.  Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi nucleotide.  Ngoài ra, NCBI còn một số cơ sở dữ liệu khác. Chúng là các cơ sở dữ liệu trung gian, được tạo thành từ sự kết hợp của hai hay nhiều cơ sở dữ liệu trên, hay do liên kết đến các cơ sở dữ liệu khác. 2.8.1.3. Một số công cụ trong NCBI  Công cụ khai thác dữ liệu: Tìm kiếm thông tin sinh học dựa trên từ khóa có dạng văn bản: Entrez: chứa các phương thức tìm kiếm như tìm kiếm dựa trên accession number, hay dựa theo tên sinh vật, tên gene, tên protein,… trên tất cả các cơ sở dữ liệu. Tìm kiếm trình tự tương đồng: có phần mềm điển hình như: BLAST (Basic Local Alignment Search Tool): có BLAST Homepage là nơi cung cấp thông tin hướng dẫn về BLAST, chương trình BLAST,… Blink: nơi hiển thị kết quả bằng BLAST trên mọi protein có trong mọi cơ sở dữ liệu protein Entrez. Network-client BLAST: client BLAST (blastcl3) có thể thâm nhập vào bộ máy BLAST của NCBI. Blastcl3 này có thể tìm kiếm tất cả các trình tự dưới dạng file FASTA và tạo sự gióng cột một- 34 nhiều trình tự, sau đó lưu dưới dạng file text hay HTML. Ngoài ra, blastcl3 còn có thể thực hiện việc tìm kiếm trên nhiều cơ sở dữ liệu. Stand-alone BLAST: là phần mềm có thể tải về từ NCBI. Phần mềm này thực hiện việc tìm kiếm các trình tự tương tự trên cơ sở dữ liệu trình tự cục bộ.  Phân loại sinh vật: Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên cơ sở dữ liệu Taxonomy. Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tương đồng khi thực hiện BLAST, tùy thuộc vào sự phân loại của chúng trong cơ sở dữ liệu Taxonomy. TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với cơ sở dữ liệu Taxonomy và hiển thị mối quan hệ giữa sinh vật này với sinh vật khác bằng các biểu đồ màu.  Công cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS,… lên NCBI Sequin: phần mềm này có thể tải về từ NCBI, hổ trợ cho việc tạo ra những file văn bản (chứa trình tự, tên tác giả, bài báo,…) có cấu trúc theo khuôn mẫu. Trong phần mềm này còn kèm theo một số công cụ nhỏ như công cụ tìm khung đọc mở, công cụ gióng cột trình tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một lúc.  NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích trình tự DNA, protein như: BanklIt, ORF Finder, Electronic-PCR (e-PCR), VecScreen, Homologene, COGs, COGnitor, GEO, MGC, Clone Registry, CDD, LocusLink,… 35 Phần 3 PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG  CÁC PHẦN MỀM ĐƢỢC SỬ DỤNG 3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng [7] 3.1.1. Hệ điều hành Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs của cây dứa Ananas comosus trên hệ điều hành này. 3.1.2. Các chƣơng trình phân tích trình tự 3.1.2.1. Chƣơng trình so sánh trình tự ClustalW ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tương đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trưng trong những đoạn tương đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tương đồng giữa những đoạn gene (hoặc protein) vừa được giải trình tự với những gene (hoặc protein) đã tồn tại. ClustalW tiến hành so sánh tương đồng nhiều trình tự sinh học qua ba giai đoạn: Đầu tiên chương trình sử dụng thuật toán alignment xấp xỉ của Wilbur và Lipman năm 1983 để tính hệ số tương đồng giữa mỗi cặp trình tự. Những hệ số tương đồng tính được sẽ được sử dụng để thành lập cây phả hệ (“Guide tree” hay dendrogram) bằng phương pháp UPGMA (Unwieghted Pair – Group Method) của Sneath và Sokal năm 1973. 36 Cuối cùng các trình tự được so sánh với những nhóm trình tự lớn hơn và cứ thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers và Miller (1998) nhằm tối ưu kết quả. ClustalW được tải về từ trang web: ( 3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST BLAST là một chương trình tìm kiếm và so sánh trình tự tương đồng được nhiều người dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tưởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới như GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ tương đồng và nguồn gốc các trình tự. Chiến lược tìm kiếm trình tự tương đồng trong BLAST được thực hiện qua ba bước chính: Đầu tiên BLAST tìm kiếm những đoạn tương đồng HSPs (High Scoring Pair) giữa một trình tự đưa vào và mỗi trình tự trong CSDL. Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự tương đồng nào được tìm thấy. Sau cùng BLAST đưa ra một báo cáo kết quả giống nhau thỏa mãn ngưỡng giá trị mà người dùng mong muốn. Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa chỉ của trang CSDL NCBI: (ftp://ftp.ncbi.nih.gov.blast/executables/). 3.1.2.3. Hệ quả trị CSDL quan hệ MySQL MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dưới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thương mại). Phần SQL của MySQL được viết tắt từ chữ “Structured Query Language”. SQL là một ngôn ngữ chuẩn được dùng phổ biến để xây dựng CSDL và được công nhận bởi cơ quan tiêu chuẩn SQL là ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ năm 1986 và cho 37 đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ưu điểm so với các phiên bản trước đó). Ưu điểm. Dể sử dụng. Mã nguồn mở. Thích hợp cho việc xây dựng CSDL vừa và nhỏ. Nhược điểm: Không thích hợp cho việc xây dựng CSDL lớn. 3.1.2.4. Apache web Server Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong số đó là Apache web Server. Apache web Server là một trình chủ web được nhiều người dùng nhất hiện nay trên Internet. Apache có được một vị trí đáng nể như thế là nhờ vào việc nó là một chương trình mã nguồn mở và hoàn toàn miễn phí. Hai ưu điểm này đã giúp Apache được yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới. Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web thông qua các module. Có 2 loại module trong Apache đó là external module và internal module. Cả hai loại module này điều có thể được sửa chữa, thay thế hoặc nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách được gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho người dùng. Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache cho phép người dùng thêm mới những module cần thiết vào bất kỳ giai đoạn nào của quá trình xử lý. Apache có thể được tải về từ địa chỉ : ( 38  PHƢƠNG PHÁP 3.2. Thu nhận trình tự SSRs [22] Công cụ được tìm kiếm trình tự SSR được tham khảo và tải về từ địa chỉ của tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR và những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu về sau. Hình 3. 1. Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder Nội dung được nhập vào Nội dung được xuất ra Các bước thực hiện của tác giả: Bước 1: Tìm kiếm SSRs trong trình tự chính sau đó phân biệt đoạn SSR và các vùng phụ cận. Bước 2: Thiết kế mồi khuếch đại vùng có chứa trình tự SSR. labdbouttxt new_ids.txt ssrout.txt 1_ssr_repeat_finder 3_ssr_primer_rep_check 2_ssr_primer_designer 4_ssr_primer_blast 5_ssr_order_filter 6_ssr_order_formatter Sequence.txt primer_results.txt filter.txt fullblastoutput.txt blastout.txt rescreened.txt order.txt AllPrimer.nt 39 Bước 3: Thực hiện chọn lọc lại, loại bỏ những mồi có độ phức tạp thấp và các đoạn mồi có chứa trình tự lặp lại nhiều lần. Bước 4: BLAST những đoạn SSR đã được thiết kế mồi với CSDL chính. Tập tin chứa CSDL là “AllPrimer.nt”. Bước 5: Chọn lọc lại những trình tự SSR mà chỉ có một mồi duy nhất. Bước 6: Sắp xếp lại các primer được tạo ra. Hình 3. 2. Kết quả thiết kế mồi cuối cùng của Steven Schroeder Trong đề tài này chúng tôi chỉ thiết kế CSDL của cây dứa Ananas comosus, các bước còn lại sẽ được tích hợp vào trang web, tùy vào mục đích của người dùng để có thể sử dụng hợp lý nhất. 40 3.2.1. Thu thập và chọn lọc dữ liệu [25] Quá trình thu nhận trình tự nucleotide được tóm tắt thành sơ đồ sau Hình 3. 3. Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI Từ khóa sử dụng là: Ananas comosus Định dạng FASTA: là định dạng theo quy định của NCBI, FASTA là một giải thuật bắt cặp trình tự được David J. Lipman và William R. Pearson miêu tả lần đầu tiên vào năm 1985 (Rapid and sensitive protein similarity searches), nó có một hàng chú thích bắt đầu bằng ký tự “>” ở cột đầu tiên. Ví dụ một định dạng FASTA: >gi|77390573|gb|DV190744.1|DV190744 JBC034F11 Pineapple week TTCTTTCGTGGAACTGTTTGTTTGCATGGTGGTAGTGGTTGGTGGAAATATGAAGTTTGTT ACGGAAAAACGGTAATGCAATACCACTCTGAACTGAGCAAAAAGCGCGAAAATATTTTGTT GGGAGTTTTTGATAAGGCTGTACATATGGCATGGACCATAGAGCATCCAGAGAAGGTTATT GAGCGCAACGAAGATGGAAGAGTTATGAGTGCAACAAATCTTTACACACAAGGCGATATCT GTAAGGAGAATGGTGCTCACAGGTCTTGTGAAGTGCGGATTCGCTGTAGAGATGATATTGT TTCTCAGAAG Truy cập trang web NCBI Nhập từ khóa Chọn lọc theo giống Chọn cơ sở dữ liệu EST Chọn dạng FASTA Thu nhận tất cả trình tự nucleotide theo từng giống Chọn dạng Summary Thu nhận các thông tin liên quan 41 Trong đó: gi là mã số do NCBI quy định. gb là mã số của cơ sở dữ liệu gen (Genbank) của từng loài. Hiện nay trên cơ sở dữ liệu của trang NCBI chỉ mới có một giống là Smooth Cayenne (4102 trình tự, từ khóa của giống là “txid4615[orgn] AND strain Smooth Cayenne[tw]”) của Ananas comosus. 3.2.2. Thu nhận trình tự SSR [22]  Các bước thực hiện: Hình 3. 4. Sơ đồ tóm tắt quá trình thu nhận trình tự microsatellite Trình tự nucleotide thu nhận từ NCBI về được lưu thành tập tin với tên là “sequence31052006.txt”. Trình tự chính được tải về từ NCBI Lưu lại với tên “sequence31052006.txt” ssrout31052006.txt labdbout31052006.txt new_ids31052006.txt Chạy tập tin “SSRRepeatFinder.pl” Chép vào cùng địa chỉ “31052006” Tập tin “SSRRepeatFinder.pl” 42 Hình 3. 5. Nội dung tập tin “sequence31052006.txt” để thu nhận SSR Thực thi đoạn mã Perl “SSRRepeatFinder.pl”, khi đó chương trình sẽ tạo ra 3 tập tin khác với tên lần lượt là “ssrout31052006.txt”, “labdbout31052006.txt”, “new_ids31052006.txt”. Hình 3. 6. Nội dung tập tin “ssrout31052006.txt” DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCTCTCT ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC AGAGCGAGACGGCGTTGTCG DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGAG GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT TTGTATGGAT >gi|73689682|gb|DT339790.1|DT339790 JBW102H10.b_066.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H10 similar to actin capping protein beta-2 -related, mRNA sequence ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAA CGTCTCCCCCAAAAATCTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCC CAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAG ACGGCGTTGTCGGCGCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGAC CAACCCCTCCAGGTTTGTATGGATGAGGAGTCGATGAAGGAGTTCATACTTTGTGAATACAATAGG GATGCTGATTCCTATAGATCGCCATGGACGAACAAATATTACCCGCCTTTAGAGGATGGGCCACTC CCTTCTATTGAGTTGAGGAAACTCGAAGTTGAAGCAAATGAAGTTTTTGCTGTTTATCTTGACCAG TATTATGAAGGAGGTGTCTCGTCGGTGTACTTGTGGGAAGATGTTAACCAGGGCTTTGTGGCATGC TTCTTAATAAAGAAAGATGGGTCGAAGACGGGGGCATGGCAGAAGAGGATACTTGCAAGAGGGTTC GTGGGATGCTATTCATGTAATTGAGGTTGGACCAGAGGAAGAAGGAACAGCTCGTTACTGCTTAAC CAGTACCATCATGCTATCATTGACAACGGAAAACAAGCCATCGGGAACTTTTAATCTCTCGGGATC GATCAGGAGACAGATGAATCTTAATCTTTCAGTGGCAGAGGGTCATCTGTGTA >gi|73689681|gb|DT339789.1|DT339789 JBW102H08.b_050.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H08 similar to thioredoxin -like protein, mRNA sequence ATCAGGGAGAGAGGAAGGGTTTGGAAGGGACGAGGGAGCTCTCCCTCCCCGCAAATCGCCATTGCC ACATCCGCAGCGCCTCTAGCGATCAACAACTCAAGGAGATCCTCGACGAGGTCAAAACATCCAAAA CCCCCGTGGTTATCAACTATGGCGCCTCATGGTGCCGTGTTTGTAGCCAGATCCTTCCTTCCTTCT GCGAGCTGAGCAATAAATTCAAAAAGCTTTCTTTCGTCTATGCGGACATTGACGAATGCCCTGAAA CAACTCAGCATATACGATACACCCCGACTTTCCAATTCTTTCGGGATGGAGAAAAGGTCGATGAGA TGTTTGGCGGCGGGGAGCAGAGGCTGCACGATCGCTTATGGTTGCATTCGTAGTAAAAACTCGACT GTCATTATATATAAGGAAATTCCTCTCATGCATCTGATGCGCAACCATCTTATAGGTCTCCCAATG AAATTTTGTTTGGGTTTTCATTACTTGGGTAAATGGCACATCAGTTGGTAATTGCTTGTTTGCACC CAAGGTTGGTATTGCTGCAGATTACTAACTGAGGGTATCTTTCTTGCGTTTTCCATATGGATTGGC ATACCATCATGTAGCAAATTGAGAAGCTATTTTCTTG 43 Trong tập tin này nó sẽ gồm các nội dung theo thứ tự là: Mã của đoạn SSR (SSR Version) (DT339790.1a) dựa vào mã số genbank (DT339790.1) để tạo ra mã quy định cho mỗi đoạn SSR, khi một trình tự có 2 hay nhiều đoạn SSR thì nó sẽ quy định là “a”, “b”, “c”,… (DT339790.1a và DT339790.1b) Trình tự đoạn SSR: CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT Đoạn SSR (Motif): CTCTCTCT Đoạn SSR trong trình tự chính được rút gọn, nó được phân biệt trong dấu “[]” ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGA ACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTC TCT]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAG AGAGAGAGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATC TCGCCGAAGCAGAGCGAGACGGCGTTGTCG Hình 3. 7. Nội dung tập tin “labdbout31052006.txt” Nội dung tập tin này gần giống với tập tin “ssrout31052006.txt”, nó chỉ bổ sung thêm phần mã genbank (DT339790.1) và vị trí bắt đầu (94) và chiều dài đoạn SSR (32). DT339790.1 DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCTCTCT 94,32 ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC AGAGCGAGACGGCGTTGTCG DT339790.1 DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGAG 172,32 GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT TTGTATGGAT 44 Hình 3. 8. Nội dung tập tin “new_ids31052006.txt” Tập tin “new_ids31052006.txt” bổ sung thêm phần định nghĩa (definition). 3.3. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu. 3.3.1. Xây dựng cơ sở dữ liệu 3.3.1.1. Tạo bảng chứa dữ liệu  Theo các mô tả trong mô hình đối tượng, ta chuyển từ mô hình đối tượng sang mô hình quan hệ như sau: Mỗi đối tượng trong mô hình đối tượng là một quan hệ trong mô hình quan hệ. Mỗi thuộc tính trong mô hình đối tượng là thuộc tính trên quan hệ tương ứng. Khóa của đối tượng là khóa của quan hệ tương ứng. Tạo các quan hệ 1: , được trình bày hình 4.2  tblStrain: chứa thông tin về các giống Ananas comosus, được trình bày ở bảng 3.1. Bảng 3. 1. Nội dung tblStrain Tên trƣờng Kiểu dữ liệu Chú thích StrainID Text Mã số quy định giống. StrainName Text Tên của giống. DT339790.1 DT339790 JBW102H10.b_066.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H10 similar to actin capping protein beta-2 -related, mRNA sequence DT339789.1 DT339789 JBW102H08.b_050.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H08 similar to thioredoxin -like protein, mRNA sequence 45  tblMotifLengthGroup: chứa nội dung quy định mã các đoạn SSR Bảng 3. 2. Nội dung tblMotifLengthGroup Tên trƣờng Kiểu dữ liệu Chú thích MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR MotifLengthGroup Text Chiều dài đoạn SSR. MotifDescription Text Chú thích.  tblEST, tblGenBank: nội dung chính của trình tự do NCBI quy định. Bảng 3. 3. Nội dung tblEST Tên trƣờng Kiểu dữ liệu Chú thích dbESTID Text Mã số EST do NCBI quy định. ESTName Text Tên của EST. GenbankAcc Text Chứa số truy cập trên NCBI. Genbank_gi Number Mã số gi do NCBI quy định. StrainID Text Mã số quy định giống. Address Hyperlink Liên kết đến NCBI cho người dùng biết thêm thông tin. SequenceLength Text Chiều dài của đoạn nucleotide. Sequence Text Trình tự. Bảng 3. 4. Nội dung tblGenBank Tên trƣờng Kiểu dữ liệu Chú thích GenbankAcc Text Chứa số truy cập trên NCBI. Version Text Phiên bản của đoạn trình tự Date Text Ngày cập nhật mới nhất Definition Number Thông tin về đoạn trình tự. 46  tblSSR: chứa thông tin về đoạn Microsatellite Bảng 3. 5. Nội dung tblSSR Tên trƣờng Kiểu dữ liệu Chú thích SSRID Text Mã số của đoạn SSR. GenbankACC Text Chứa số truy cập trên NCBI. SSRVersion Text Phiên bản của đoạn SSR dựa vào. MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR Motif Text Đoạn SSR. NoOfRepeat Number Số lần lập lại. SSRSequence Text Trình tự đoạn SSR SSRStart Number Vị trí bắt đầu. SSREnd Number Vị trí kết thúc. ShortSequence Text Đoạn trình tự ngắn dựa vào đoạn trình tự chính để người xem có thể dễ nhận ra vị trí đoạn SSR. 3.3.1.2. Xây dựng mối quan hệ (khóa chính và khóa ngoại)  tblStrain Khóa chính: StrainID  tblMotifLengthGroup Khóa chính: MotifLengthGroupID  tblGenBank Khóa chính: GenbankAcc  tblEST Khóa chính: dbESTID Khóa ngoại: StrainID, GenbankAcc Vì để giảm dung lượng của bảng tblEST nên đã tách ra thêm bảng tblGenBank do đó ngoài quan hệ khóa ngoại, thuộc tính GenbankAcc còn có thêm một đặc điểm là duy nhất (Unique).  tblSSR Khóa chính: SSRID Khóa ngoại: GenbankAcc, MotifLengthGroupID 47 3.3.1.3. Nhập dữ liệu vào bảng Do các quan hệ ràng buộc giữa khóa chính và khóa ngoại nên việc nhập cơ sở dữ liệu vào các bảng phải được thực hiện một cách tuần tự, nếu không sẽ phát sinh lỗi và không thể nhập được. Nhập dữ liệu vào các bảng chỉ có khóa chính (không có khóa ngoại) để nó có thể quản lý các thông tin một cách chính xác và không trùng lắp. Các bảng đó là: tblStrain tblMotifLengthGroup tblGenBank Nhập dữ liệu vào các bảng còn lại tblEST tblSSR Hình 3. 9. Sơ đồ trình tự nhập dữ liệu vào bảng 3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu [26] Nhằm tạo giao diện thân mật, dễ sử dụng cho người dùng cuối, trang web đã được tạo ra để đưa cơ sở dữ liệu đến người dùng. Sau đó dựa vào cơ sở dữ liệu Microsatelite, người dùng có thể phục vụ cho việc nghiên cứu riêng của mình. Việc thiết kế trang web CSDL microsatellites của cây dứa Ananas comosus được tham khảo với trang web mẫu về phương pháp micorsatellite khác đã phổ biến trên intermet trước đó như ở hình 4.6. Nhập liệu vào bảng tblGenBank tblMotifLengthGroup tblStrain 1. Nhập bảng chỉ chứa khóa chính tblSSR tblEST 2. Nhập bảng có chứa khóa ngoại 48 Hình 3. 10. Trang web mẫu về trình tự microsatellite (Nguồn: Các bước thực hiện: Xác định những nội dung cần thực hiện: ngoài phần chính là cơ sở dữ liệu Microsatelite, còn có những phần thông tin thêm vào để người sử dụng có thể hiểu rõ hơn về cây dứa Ananas comosus và phương pháp Microsatelite. Thiết kế giao diện để người dùng có thể sử dụng một cách dễ dàng nhất. Tích hợp cơ sở dữ liệu vào trang web. 3.5. Tích hợp các công cụ sinh học vào trang web Công cụ để dò tìm trình tự SSR: đây là công cụ cần thiết để người dùng có thể dò tìm các trình microsatellite trong một đoạn gen bất kỳ, các đoạn SSR được tạo ra đã có phân biệt trong dấu [] nên khi thiết kế primer sẽ loại bỏ những vùng trong dấu []. 49 Phần 4 KẾT QUẢ VÀ THẢO LUẬN 4.1. Kết quả thu nhận trình tự microsatellite 4.1.1. Kết quả thu nhận trình tự của Ananas comosus Khi sử dụng các từ khóa (Ananas comosus - chưa chọn lọc theo giống) và phương pháp như ở phần 3 (phần phương pháp và chương trình sử dụng) có 5656 trình tự, được phân loại như ở bảng 4.1. Bảng 4. 1. Phân loại giống Ananas comosus tại NCBI Strain Smooth Cayenne [4102] Cultivar Cayenne [1 1] N67-10 [4 4] Smooth cayenne [1555 8] Isolate 136 [1 1] H136 [2 2 1] Specimen-voucher R. Horres & K. Schulte 220601-1 (FR) [1 1 1] Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và như phương pháp phần 3.1.1, các giống dứa Ananas comosus chúng tôi chỉ nhận được 1 giống Smooth cayenne từ ESTs được đăng tải trên CSDL NCBI. Còn các trường hợp còn lại là riêng biệt, không thuộc các giống dứa chung nên không dùng để thu thập trình tự microsatellite. 50 Hình 4. 1. Nội dung mẫu tin về Ananas comosus trên NCBI Ngoài ra để có thể thu nhận được trình tự SSRs cần phải tải trình tự có định dạng FASTA, cách thức tiến hành như trên. Kết quả chúng tôi thu được 4102 trình tự theo định dạng FASTA được lưu vào tập tin “sequence01012006.txt” (hình 3.2). 4.1.2. Kết quả thu nhận trình tự SSRs Sau khi thực thi tập tin “SSRRepeatFinder.pl”, chúng tôi thu được 986 trình tự microsatellite trong đó có: dimer .................................. 127 trình tự trimer .................................. 461 trình tự tetramer .............................. 151 trình tự pentamer ............................... 19 trình tự LOCUS DV190760 168 bp mRNA linear EST 07-OCT-2005 DEFINITION JBC034H12 Pineapple week 1-4 nematode-infected gall cDNA library Ananas comosus cDNA clone JBC034H12 similar to undiscovered sequence, mRNA sequence. ACCESSION DV190760 VERSION DV190760.1 GI:77390589 KEYWORDS EST. SOURCE Ananas comosus (pineapple) ORGANISM Ananas comosus Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Bromeliaceae; Ananas. REFERENCE 1 (bases 1 to 168) AUTHORS Moyle,R.L., Crowe,M.L., Ripi-Koia,J., Fairbairn,D.J. and Botella,J.R. TITLE PineappleDB: An online pineapple bioinformatics resource JOURNAL BMC Plant Biol. 5 (1), 21 (2005) PUBMED 16202174 COMMENT Contact: Botella J.R. School of Integrative Biology The University of Queensland Brisbane, Queensland 4072, Australia Email: j.botella@uq.edu.au Insert Length: 168 Std Error: 0.00. FEATURES Location/Qualifiers source 1..168 /organism="Ananas comosus" /mol_type="mRNA" /strain="Smooth Cayenne" /db_xref="taxon:4615" /clone="JBC034H12" /tissue_type="Week 1-4 nematode infected root/gall vascular cylinder" /dev_stage="Week 1-4 post nematode egg innoculation" /clone_lib="Pineapple week 1-4 nematode-infected gall cDNA library" ORIGIN 1 aataggattg gcaatggtag ggtttcttca cctctcatcc tatatgtaat agagtccaac 61 attaaagaag aacaaaaaat gtttcttttt aatacatggg gctatgatac tgtaaattac 121 tcaataaatt tttctgtttc ttttccaata aaggggatta gtttgtat // 51 hexamer .............................. 147 trình tự heptamer ............................... 10 trình tự octamer ................................. 47 trình tự nonamer .................................. 5 trình tự decamer ................................ 17 trình tự dodecamer .............................. 2 trình tự Việc thu nhận trình tự SSR cho kết quả rất đa dạng. Mặc dù chỉ có một giống nhưng rất đa dạng về các loại microsatellite. Các trình tự SSR được tìm thấy đã được chọn lọc và phải có chiều dài lớn hơn 10Nu, những trình tự SSR quá ngắn hoặc không có ý nghĩa nhiều sẽ bị loại bỏ. 4.2. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu 4.2.1. Cơ sở dữ liệu trình tự Ananas comosus Nhờ sự phát triển của kỹ thuật giải trình tự, một số lượng lớn các gene đã được giải trình tự. Những trình tự gene này được lưu trữ trong cơ sở dữ liệu sinh học lớn ở NCBI. Vì các cơ sở dữ liệu này quá lớn và chứa rất nhiều thông tin khác nhau nên ngoài việc xây dựng cơ sở dữ liệu cho microsatellite chúng tôi còn xây dựng thêm cơ sở dữ liệu ESTs để tiện cho việc tham khảo. Bảng 4. 2. Số trình tự trong cơ sở dữ liệu Tên Giống Loại cơ sở dữ liệu Số trình tự Ananas comosus Smooth Cayenne ESTs 4102 SSRs 986 CSDL SSR chứa thông tin liên quan đến trình tự microsatellite như số lần lặp lại, loại microsatellite. Còn CSDL ESTs chứa thông tin liên quan đến trình tự như mã số EST, tên EST, địa chỉ truy cập trực tuyến đến trang thông tin chứa trình tự đó ở CSDL NCBI. Số trình tự và thông tin trong CSDL tuy nhiều nhưng chưa đa dạng về giống, nên những nghiên cứu về đa dạng di truyền hay chọn lọc giống còn nhiều hạn chế. 52 4.2.2. Kết quả sau khi lập CSDL của trình tự microsatellite Trong CSDL có rất nhiều loại motif của trình tự micorsatellite được thống kê qua bảng 4.2. Bảng 4. 3. Các trình tự SSRs trên cây dứa Ananas comosus có trong CSDL Loại microsatellite Motif Số lƣợng Tỉ lệ Dimer AC 2 2/986 AG 31 31/986 AT 15 15/986 CT 21 21/986 GA 10 10/986 GT 3 3/986 TA 7 7/986 TC 35 35/986 TG 3 3/986 Tổng số dimer: 127 127/986 Trimer AAC 1 1/986 AAG 22 22/986 AAT 11 11/986 ACA 3 3/986 ACC 1 1/986 ACG 5 5/986 ACT 3 3/986 AGA 8 8/986 AGC 6 6/986 AGG 3 3/986 AGT 1 1/986 ATA 3 3/986 ATC 2 2/986 ATG 7 7/986 ATT 9 9/986 CAA 5 5/986 CAC 1 1/986 CAG 16 16/986 CCG 7 7/986 CCT 32 32/986 CGA 11 11/986 CGC 5 5/986 53 Loại microsatellite Motif Số lƣợng Tỉ lệ CGG 2 2/986 CGT 4 4/986 CTC 17 17/986 CTG 13 13/986 CTT 7 7/986 GAA 25 25/986 GAC 7 7/986 GAG 14 14/986 GAT 21 21/986 GCA 15 15/986 GCC 2 2/986 GCG 5 5/986 GCT 11 11/986 GGA 14 14/986 GGC 7 7/986 GGT 3 3/986 GTA 2 2/986 GTC 6 6/986 GTG 2 2/986 GTT 1 1/986 TAA 3 3/986 TAC 2 2/986 TAT 15 15/986 TCA 2 2/986 TCC 11 11/986 TCG 17 17/986 TCT 14 14/986 TGA 10 10/986 TGC 10 10/986 TGG 13 13/986 TGT 5 5/986 TTA 9 9/986 TTC 3 3/986 TTG 7 7/986 Tổng số trimer 461 461/986 Tetramer AAAC 1 1/986 AAAT 1 1/986 54 Loại microsatellite Motif Số lƣợng Tỉ lệ AATC 1 1/986 ACAC 2 2/986 ACGC 4 4/986 AGAA 2 2/986 AGAG 21 21/986 AGAT 1 1/986 ATAT 8 8/986 CATG 1 1/986 CGGT 1 1/986 CTCT 21 21/986 CTTT 1 1/986 GAGA 14 14/986 GCTC 1 1/986 GGAT 8 8/986 GTGT 1 1/986 TATA 7 7/986 TCCG 1 1/986 TCTC 44 44/986 TCTT 3 3/986 TGAT 1 1/986 TGGA 1 1/986 TGTG 2 2/986 TTCT 1 1/986 TTTA 2 2/986 Tổng số tetramer: 151 151/986 Pentamer AAAAT 1 1/986 AAGAA 2 2/986 ACCAT 1 1/986 AGAAA 1 1/986 AGAAG 1 1/986 AGCTT 1 1/986 ATAAA 1 1/986 ATGGT 2 2/986 CACAA 1 1/986 CCACG 1 1/986 TAGAT 1 1/986 TCTTT 2 2/986 55 Loại microsatellite Motif Số lƣợng Tỉ lệ TTATT 2 2/986 TTTTA 1 1/986 TTTTC 1 1/986 Tổng số pentamer: 19 19/986 Hexamer AAAAGA 1 1/986 AACAAC 3 3/986 AACCCT 1 1/986 AAGAAG 1 1/986 AAGGAG 2 2/986 ACCACA 1 1/986 ACGACG 1 1/986 AGAAAA 1 1/986 AGAAGA 1 1/986 AGAGAG 25 25/986 AGAGGA 2 2/986 AGCAGC 1 1/986 AGGAGA 3 3/986 ATTATT 3 3/986 CACCAC 1 1/986 CAGCAG 3 3/986 CCACCA 1 1/986 CCGCCG 1 1/986 CCGCGT 1 1/986 CGCCGC 1 1/986 CGTTTC 1 1/986 CTCTCT 16 16/986 CTGCTG 3 3/986 CTTCCG 3 3/986 CTTCTT 2 2/986 CTTTTT 1 1/986 GAAGAA 1 1/986 GAAGAG 1 1/986 GAAGCC 1 1/986 GAAGCT 1 1/986 GACGAC 1 1/986 GAGAAG 2 2/986 GAGAGA 16 16/986 56 Loại microsatellite Motif Số lƣợng Tỉ lệ GAGGAA 1 1/986 GCAGCA 2 2/986 GCAGGA 1 1/986 GGAGGA 1 1/986 TCCTCC 1 1/986 TCCTCT 1 1/986 TCGCAG 1 1/986 TCGTCG 6 6/986 TCTCGA 1 1/986 TCTCTC 12 12/986 TCTTCT 5 5/986 TGATGT 1 1/986 TGCTGC 1 1/986 TGTGTG 2 2/986 TTATTA 1 1/986 TTCGGC 1 1/986 TTCTTC 1 1/986 TTGTTG 5 5/986 Tổng số hexamer: 147 147/986 Heptamer AAATTTC 1 1/986 AATTTCA 3 3/986 ATTTTAA 1 1/986 TATGAAC 1 1/986 TTTAAAT 1 1/986 TTTAATT 1 1/986 TTTCAAA 2 2/986 Tổng số heptamer: 10 10/986 Octamer ACACACAC 2 2/986 AGAGAGAG 11 11/986 CCATCCAT 4 4/986 CTCTCTCT 7 7/986 GAGAGAGA 7 7/986 TATTTATT 1 1/986 TCTCTCTC 14 14/986 TGTGTGTG 1 1/986 Tổng số octamer: 47 47/986 Nonamer AACAACAAC 1 1/986 AAGAAGAAG 1 1/986 57 Loại microsatellite Motif Số lƣợng Tỉ lệ CTACTACTA 2 2/986 CTGCTGCTG 1 1/986 Tổng số nonamer: 5 5/986 Decamer ACACACACAC 1 1/986 AGAGAGAGAG 1 1/986 CTCTCTCTCT 6 6/986 GAGAGAGAGA 1 1/986 TCTCTCTCTC 8 8/986 Tổng số decamer: 17 17/986 Dodecamer CTCATTGTTGTT 1 1/986 CTCTCTCTCTCT 1 1/986 Tổng số dodecamer: 2 2/986 Qua kết quả các đoạn microsatellite tìm được chúng tôi nhận thấy trong các trình tự của cây dứa có rất nhiều trình tự microsatellite và rất đa dạng. Trong một trình tự chính có thể có 2 hay nhiều trình tự microsatellite thuộc 2 loại motif khác nhau. Ví dụ trong một Accession Number DT335775 có 2 trình tự microsatellite. Bảng 4. 4. Ví dụ nhiều đoạn microsatellite trong một trình tự chính Mã đoạn SSR Phiên bản SSR Nhóm lặp lại Motif Số lần lặp lại Trình tự SSR SSR0980 DT335775.1a Trimer GGA 5 GGAGGAGGAGGAGGA SSR0981 DT335775.1b Dimer TA 6 TATATATATATA Qua bảng 4.2, có 2 loại microsatellites trong một trình tự nên có thể phục vụ nhiều công tác nghiên cứu khác nhau trong một trình tự đó. 4.2.3. Mô hình quan hệ (Relationships) Hình 4. 2. Mô hình quan hệ giữa các bảng 58 1: đặt khóa chính của quan hệ ở đầu một thành khóa ngoại của quan hệ ở đầu , được hiểu theo quan hệ một nhiều. Các quan hệ giữa các bảng đã đáp ứng được tính chặt chẽ của một cơ sở dữ liệu, quan hệ một – nhiều bảo đảm cho tính tồn tại của dữ liệu. Nếu khóa chính không có chứa thông tin thì sẽ không thể có thông tin trên khóa ngoại, tránh được trường hợp dữ liệu bị nhập sai sót trên khóa ngoại. Như trường hợp nếu không có mã số truy cập GenbankACC (là khóa chính) trong bảng tblGenbank thì sẽ không có trình tự micorsatellite của mã số đó (là khóa ngoại) trong bảng tblSSR và một mã GenbankACC sẽ có nhiều trình tự SSRs (được trình bày ở bảng 4.2). Tương tự đối với các trường hợp khác cũng vậy sẽ tạo nên sự thống nhất trong cơ sở dữ liệu, tránh việc dư thừa và trùng lắp dữ liệu. Tuy nhiên khi nhập liệu CSDL sinh học khác với những cơ sở dữ liệu bình thường (khác mã số nhân viên nhưng có thể trùng tên, các đặc điểm riêng), CSDL sinh học không nên có những trường hợp trùng lắp như vậy, nên cần thiết lập các bẫy lỗi để hạn chế việc này. Thí dụ như 2 bảng: Bảng dữ liệu tblSSR, trường hợp trùng lắp mã SSR là không xảy ra vì nó là khóa chính, nhưng có thể có trường hợp khác đã mã SSR nhưng trùng mã truy cập, loại motif,… và đặc biệt là vị trí bắt đầu (không thể có trường hợp trùng vị trí bắt đầu của trình tự microsatellite trong cùng một mã số truy cập genbank mặc dù đã khác mã số SSR). Bảng tblStrain khi đã khác mã giống nhưng cần hạn chế trường hợp trùng tên giống. Để giảm bớt sự trùng lắp này chúng tôi đã thêm vào thuộc tính duy nhất (Unique) trong một số trường hợp để hạn chế việc dư thừa dữ liệu khi nhập bằng tay. 59 4.3. Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus Cấu trúc của các trang web thể hiện ở hình 4.3 Hình 4. 3. Sơ đồ cấu trúc của trang web SSRs DATABASE WEB PAGE HOME PAGE ABOUT SSRs PAGE Ananas comosus PAGE ESTs PAGE TOOLS PAGE SSRs PAGE ABOUT US MOTIF LENGTH GROUP ALL SEARCH FIND SSR 60 4.3.1. Trang chủ (HOME PAGE)  Nội dung trang web: Gồm các lựa chọn để liên kết đến các trang web chứa thông tin và cơ sở dữ liệu khác. 4.3.2. Trang thông tin về microsatellite (ABOUT SSRs PAGE)  Nội dung của trang web: Giới thiệu chung về phương pháp microsatellite.  Hình thức thể hiện: Hình 4. 4. Nội dung trang thông tin về microsatellite 4.3.3. Trang thông tin về Ananas comosus (Ananas comosus PAGE)  Nội dung của trang web: Giới thiệu một cách tổng quát về cây dứa Ananas comosus, trong đó gồm: Hoa. Trái. Thân và cành. Lá. Điều kiện trồng trọt.  Hình thức thể hiện: như hình 4.5. 61 Hình 4. 5. Nội dung trang thông tin về Ananas comosus 4.3.4. Trang cơ sở dữ liệu ESTs (ESTs PAGE)  Nội dung của trang web: Chứa cơ sở dữ liệu thông tin chi tiết về trình tự của cây dứa Ananas comosus được lấy trên cơ sở dữ liệu NCBI.  Hình thức thể hiện: Hình 4. 6. Trang cơ sở dữ liệu ESTs 62 4.3.5. Trang cơ sở dữ liệu SSRs (SSRs PAGE)  Nội dung của trang web: Chứa cơ sở dữ liệu trình tự microsatellite của cây dứa Ananas comosus gồm có: Thể hiện tất cả cơ sở dữ liệu SSRs (All): các loại SSRs sẽ được thể hiện, không được phân loại. Hình thức thể hiện: Hình 4. 7. Trang cơ sở dữ liệu SSRs (All) Tìm kiếm các trình tự cần thiết: Tìm kiếm theo “MotifLengthGroup”: Khi người dùng quan tâm đến nhóm microsatellite nào, khi chọn sẽ các motif, các đoạn trình tự SSR cần thiết liên quan đến nhóm đó, và mã số truy nhập của nó cùng các thông tin của nó trên CSDL NCBI. Bảng 4. 5. Các nhóm Motif trong cơ sở dữ liệu Motif Length Group ID Motif Length Group Description MO02 Dimer Dinucleotide SSR MO03 Trimer Trinucleotide SSR MO04 Tetramer Tetranucleotide SSR MO05 Pentamer Pentanucleotide SSR MO06 Hexamer Hexanucleotide SSR MO07 Heptamer Heptanucleotide SSR 63 MO08 Octamer Octanucleotide SSR MO09 Nonamer Nonanucleotide SSR MO10 Decamer Decanucleotide SSR MO12 Dodecamer Dodecamer SSR Hình thức thể hiện: Hình 4. 8. Trang cơ sở dữ liệu SSRs chọn lọc theo “Motif Length Group ID” là MO04  Các trang web có giao diện thân thiện, dễ sử dụng, có đầy đủ các thông tin về cây dứa Ananas comosus, phương pháp microsatellite (SSR - Simple Sequence Repeats) và là CSDL chứa đầy đủ thông tin về trình tự nên rất dễ tìm kiếm theo từng loại SSR, mã số truy cập nên việc chia sẻ thông tin với người dùng được thực thi rất nhanh. 64 4.3.6. Trang công cụ 4.3.6.1. Trang tích hợp công cụ để tìm kiếm SSR Dùng để tìm trình tự microsatellite từ một trình tự bất kỳ hay upload file ở định dạng FASTA, kết quả sẽ hiển thị kết quả đoạn SSR tìm được. Hình 4. 9. Trang web tìm kiếm trình tự microsatellite 65 Phần 5 KẾT LUẬN VÀ ĐỀ NGHỊ 5.1. Kết luận Chúng tôi đã tải được 5656 trình tự của Ananas comosus trong đó có 4102 trình tự của giống Smooth Cayenne từ ESTs của NCBI. Sau khi chạy dò microsatellite thu được 986 trình tự SSRs. Cơ sở dữ liệu có 4102 trình tự ESTs và 986 trình tự SSRs được tích hợp vào trang web. Trang Web cơ sở dữ liệu gồm có 8 trang chính, đó là HOME, Ananas comosus, ABOUT SSRs, ESTs, SSRs, TOOLS, ABOUT US, Other Links. Ngoài ra, từ những trang web chính này còn có thể kết nối đến những trang phụ khác để cung cấp những tiện ích cho người dùng. Từ các trang web này, người sử dụng có thể truy xuất thông tin. 5.2. Đề nghị  Thu thập cơ sở dữ liệu nhiều giống Ananas comosus hơn vì trong cơ sở dữ liệu của NCBI chỉ có một giống chính là Smooth Cayenne làm cho cơ sở dữ liệu thêm phong phú hơn.  Cần thiết lập thêm các bẫy lỗi được trình bày ở phần 4.1.4 để đảm bảo hơn việc hạn chế trùng lắp dữ liệu không cần thiết khi nhập.  Xây dựng nhiều trang web chứa các thông tin tìm kiếm và công cụ (thiết kế primer, enzyme cắt giới hạn, xây dựng mô hình cấu trúc,…) phục vụ cho việc khai thác thông tin và các ứng dụng khác.  Tiến hành thiết kế mồi chung phục vụ cho phản ứng PCR phân biệt các loài trong họ và giữa các họ thông qua các trang web thiết kế primer trực tuyến trên Internet như GeneFisher, Primer3,… Hay xây dựng trang web chứa công cụ phục vụ cho thiết kế primer như GPRIME, Primer3,…kết hợp với ngôn ngữ lập trình Perl. 66 Phần 6 TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT 1. Giáo trình CƠ SỞ DỮ LIỆU. Bộ môn cơ sở dữ liệu Trường cao đẳng Công Nghiệp 4. 2. Nguyễn Thị Phương Dung, 2005. Xây dựng phương pháp nhận diện và phân tích tính đa dạng di truyền của 21 dòng cacao (theobroma cacao l.) bằng kỹ thuật Microsatellite. Khóa luận tốt ngiệp Ngành Công nghệ sinh học, Đại học Nông lâm TP Hồ Chí Minh. 3. Nguyễn Minh Đạo, 2002. MS-Access 2000. Trường đại học Sư Phạm Kỹ Thuật, khoa Công Nghệ Thông Tin. 4. Nguyễn Thị Lang – Bùi Chí Bửu, 2005. Sinh học phân tử. Giới thiệu phương pháp và ứng dụng. Nhà xuất bản nông nghiệp TP. HCM. 5. Bùi Huy Quỳnh, 2002. Front Page 2000. Trường đại học Sư Phạm Kỹ Thuật, khoa Công Nghệ Thông Tin. 6. Nguyễn Trường Sinh – Lê Minh Hoàng – Hoàng Đức Hải, 2003. Thực hành JavaScript (cho web). Nhà xuất bản Thống Kê. 7. Nguyễn Văn Thái, 2005. Xây dựng cơ sở dữ liệu hai gene Hsp-70 và Reverse Transcripte-Rnaseh ở một số loài virus thực vật. Khóa luận tốt ngiệp Ngành Công nghệ sinh học, Đại học Nông lâm TP Hồ Chí Minh. 8. Nguyễn Kỳ Trung – Lê Thành Trung, 2005. Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền. Khóa luận tốt ngiệp Ngành Công nghệ sinh học, Đại học Nông lâm TP Hồ Chí Minh. 9. Trần Thế Tục – Vũ Mạnh Hải, 2001. Kỹ thuật trồng dứa. Nhà xuất bản nông nghiệp Hà Nội. TÀI LIỆU NƢỚC NGOÀI 10. Acquadro A., Lee D., Donini P., Portis E., Comino C., Saba E., Lanteri S., 2003. Microsatellite Amplified Library (MAL): an alternative approach for STMS isolation. Bologna – Italy. 11. Edward F. Gilman, 1999. Ananas comosus. University of Florida. 67 12. K.D. Scott, Microsatellites Derived from ESTs and their Comparison with those Derived by Other Methods. Centre for Plant Conservation Genetics, Southern Cross University, Lismore, Australia. 13. Ramesh V. Kantety, Mauricio La Rota, David E. Matthews and Mark E. Sorrells, 2002. Data mining for simple sequence repeats in expressed sequence tags from barley, maize, rice, sorghum and wheat. Kluwer Academic Publishers. 14. Win Hide, Rob Miller, Andrey Ptitsyn, Janet Kelso, Chellapa Gopallakrishnan and Alan Christoffels, 1999. EST Clustering Tutorial. TÀI LIỆU TỪ CÁC TRANG WEB: 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 68 PHỤ LỤC  Một số hình ảnh trong trang web trong CSDL microsatellite của Ananas comosus Trang About Us. Trang Other Link. 69 Ví dụ một đoạn SSR dùng để thiết kế mồi: Lấy một đoạn SSR ở trường “Short Sequence” trong CSDL SSR. >DV190753 CACTTGGAGGAGCTAGGGTTAGCTGGGTGCAGTAACATAACTGATTCTGGCCTCTCTGTGCTTGCGGACGG GTGCCGCCACATCAGATTCCTGGATCTCAGTAAATGCTCCAAGATTGGTGATATTGGGGTCTCTAAAATTG CGGAAGCC[TCTTCTTCTTCT]TTAACTTCACTTAAAATTTTAGATTGCTTCAATGCCGGTGACACATCCA TCTTCTCTTTGGCCAAGTCCTGCCCTAACCTGGAAACCCTAGTAATCGGCGGCTGCCGTGATATCACCGAC GAGTCCATAGAAACCCTGTCGGTCGCTTGT Vào trang web 70 Sau đó thiết kế primer chúng tôi được kết quả: Primer3 Output PRIMER DV190753 No mispriming library specified Using 1-based sequence positions OLIGO start len tm gc% any 3' seq LEFT PRIMER 77 20 59.89 50.00 5.00 3.00 GCCACATCAGATTCCTGGAT RIGHT PRIMER 228 20 59.81 50.00 8.00 0.00 CTTGGCCAAAGAGAAGATGG SEQUENCE SIZE: 312 INCLUDED REGION SIZE: 312 PRODUCT SIZE: 152, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 0.00 TARGETS (start, len)*: 151,12 1 CACTTGGAGGAGCTAGGGTTAGCTGGGTGCAGTAACATAACTGATTCTGGCCTCTCTGTG 61 CTTGCGGACGGGTGCCGCCACATCAGATTCCTGGATCTCAGTAAATGCTCCAAGATTGGT >>>>>>>>>>>>>>>>>>>> 121 GATATTGGGGTCTCTAAAATTGCGGAAGCCTCTTCTTCTTCTTTAACTTCACTTAAAATT ************ 181 TTAGATTGCTTCAATGCCGGTGACACATCCATCTTCTCTTTGGCCAAGTCCTGCCCTAAC <<<<<<<<<<<<<<<<<<<< 241 CTGGAAACCCTAGTAATCGGCGGCTGCCGTGATATCACCGACGAGTCCATAGAAACCCTG 301 TCGGTCGCTTGT KEYS (in order of precedence): ****** target >>>>>> left primer <<<<<< right primer ADDITIONAL OLIGOS start len tm gc% any 3' seq 1 LEFT PRIMER 13 20 59.89 60.00 4.00 2.00 CTAGGGTTAGCTGGGTGCAG RIGHT PRIMER 228 20 59.81 50.00 8.00 0.00 CTTGGCCAAAGAGAAGATGG PRODUCT SIZE: 216, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00 2 LEFT PRIMER 14 20 59.76 55.00 4.00 1.00 TAGGGTTAGCTGGGTGCAGT RIGHT PRIMER 228 20 59.81 50.00 8.00 0.00 CTTGGCCAAAGAGAAGATGG 71 PRODUCT SIZE: 215, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00 3 LEFT PRIMER 15 20 59.76 55.00 4.00 2.00 AGGGTTAGCTGGGTGCAGTA RIGHT PRIMER 228 20 59.81 50.00 8.00 0.00 CTTGGCCAAAGAGAAGATGG PRODUCT SIZE: 214, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00 4 LEFT PRIMER 77 20 59.89 50.00 5.00 3.00 GCCACATCAGATTCCTGGAT RIGHT PRIMER 233 20 60.37 50.00 8.00 0.00 CAGGACTTGGCCAAAGAGAA PRODUCT SIZE: 157, PAIR ANY COMPL: 5.00, PAIR 3' COMPL: 1.00 Statistics con too in in no tm tm high high high sid many tar excl bad GC too too any 3' poly end ered Ns get reg GC% clamp low high compl compl X stab ok Left 1128 0 0 0 1 0 327 468 0 1 0 24 307 Right 1063 0 0 0 43 0 220 565 0 1 0 28 206 Pair Stats: considered 6, ok 6 primer3 release 1.0

Các file đính kèm theo tài liệu này:

TRAN NGUYEN MINH DANG - 02126145.pdf