TÓM TẮT KHOÁ LUẬN
“XÂY DỰNG CƠ SỞ DỮ LIỆU SSRs (SIMPLE SEQUENCE REPEATS) TỪ ESTs (EXPRESSED SEQUENCE TAGS) CỦA CÂY DỨA (Ananas comosus)”
Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học, trường đại học
Nông Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2006 đến 8/2006.
Trong những năm qua sinh học không ngừng phát triển, đã tạo ra những kho dữ
liệu rất lớn về trình tự gene, protein, . của thực vật, động vật, Và với các thành tựu
vốn có của công nghệ thông tin, những trình tự gene này đã và đang được lưu trữ trong
cơ sở dữ liệu sinh học lớn như NCBI, EMBL, DDBj, Vì các cơ sở dữ liệu này quá
lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên
khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu
chuyên biệt, trong đó có phương pháp microsatellite. Do vậy, mục tiêu của chúng tôi
là tiến hành xây dựng cơ sở dữ liệu SSRs từ ESTs của cây dứa Ananas comosus được
lấy ở cơ sở dữ liệu sinh học NCBI.
Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau:
Dùng Perl script để thu nhận trình tự các nucleotide của gene từ trang cơ
sở dữ liệu GenBank NCBI.
Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu
trữ dữ liệu các trình tự nucleotide và trình tự SSRs của Ananas comosus, và tạo
cơ sở dữ liệu chứa những trình tự này. Sau đó chuyển các dữ liệu này vào cơ sở
dữ liệu chính.
Kết hợp các phần mềm quản lý cơ sở dữ liệu và phần mềm tạo web, thiết
kế trang web chia sẻ thông tin với người dùng.
MỤC LỤC
Nội dung Trang
LỜI CẢM ƠN .iv
TÓM TẮT KHOÁ LUẬN .v
DANH SÁCH CÁC HÌNH x
DANH SÁCH CÁC BẢNG xi
DANH SÁCH CÁC TỪ VIẾT TẮT xii
Phần 1. Mở đầu 1
1.1. Đặt vấn đề 1
1.1.1. Sơ lược về sinh – tin học .1
1.1.2. Sơ lược về cây dứa .2
1.1.3. Sơ lược về phương pháp Microsatellite .2
1.2. Mục tiêu của khóa luận . 3
Phần 2. Tổng quan tài liệu 4
2.1. Giới thiệu về cây dứa . 4
2.1.1. Vị trí phân loại 4
2.1.2. Nguồn gốc và phân bố .4
2.1.3. Đặc điểm hình thái .5
2.1.3.1. Rễ . 5
2.1.3.2. Thân . 5
2.1.3.3. Lá . 5
2.1.3.4. Hoa . 5
2.1.3.5. Quả . 6
2.3.1.6. Hạt 6
2.1.4. Đặc điểm trồng trọt 6
2.1.4.1. Yếu tố khí hậu 6
2.1.4.2. Yếu tố đất đai . 6
2.1.4.3. Yếu tố sinh vật . 7
2.1.5. Giá trị kinh tế và sử dụng 7
2.1.6. Các giống trồng 8
2.1.6.1. Nhóm Cayenne . 8
2.1.6.2. Nhóm Queen 9
2.1.6.3. Nhóm Spanish 9
2.1.6.4. Nhóm Abacaxi . 10
2.1.6.5. Các giống trồng trong nước . 11
2.1.7. Tình hình phát triển của cây dứa trong và ngoài nước 11
2.2. Các Marker phân tử 12
2.2.1. Isozymes 12
2.2.2. ALP 12
2.2.3. AFLP 12
2.2.4. RAPD .13
2.2.5. SSCP 14
2.2.6. SNP 14
2.2.7. SSR .15
2.2.8. Kỹ thuật STS và SCARP 15
2.2.9. RFLP 15
2.3. Chi tiết về microsatellite . 16
2.3.1. Định nghĩa .16
2.3.2. Các phương pháp phát hiện microsatellite 16
2.3.2.1. Phương pháp lai . 17
2.3.2.2. Phương pháp PCR 17
2.3.3. Vai trò của microsatellite 18
2.3.4. Ứng dụng .19
2.4. EST 19
2.4.1. Sơ lược về EST .19
2.4.2. Nguồn gốc của EST .20
2.5. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu . 20
2.5.1. Nguyên nhân ra đời của mô hình quan hệ .20
2.5.2. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệ 21
2.5.2.1. Định nghĩa cơ sở dữ liệu 21
2.5.2.2. Hệ quản trị cơ sở dữ liệu 21
2.5.3. Các mô hình dữ liệu .23
2.5.3.1. Định nghĩa 23
2.5.3.2. So sánh các mô hình dữ liệu 23
2.5.4. Người dùng .24
2.5.5. Cơ sở dữ liệu quan hệ và hệ tập tin theo lối cũ 25
2.5.5.1. Vấn đề 1: Cấu trúc logic và cấu trúc vật lý 25
2.5.5.2. Vấn đề 2: Dư thừa dữ liệu 25
2.5.5.3. Vấn đề 3: Sự khai thác dữ liệu của người sử dụng 25
2.6. Internet và Web . 26
2.6.1. Sơ lược về Internet .26
2.6.1.1. Tóm lược lịch sử phát triển 26
2.6.1.2. Tổng quát về Internet . 26
2.6.2. Các dịch vụ được cung cấp trên Internet .28
2.6.2.1. Phân loại khối thông tin . 28
2.6.2.2. Các dịch vụ cơ bản . 28
2.6.3. Tích hợp cơ sở dự liệu với web 28
2.7. Ngôn ngữ lập trình Perl và Javascript 28
2.7.1. Ngôn ngữ Perl .28
2.7.1.1. Tóm tắt lịch sử phát triển . 28
2.7.1.2. Ứng dụng 29
2.7.1.3. Một số module của Perl thường được sử dụng 29
2.7.2. Ngôn ngữ Javascript .30
2.7.2.1. Định nghĩa Javascript . 31
2.7.2.2. Javascript có thể làm gì? 31
2.7.2.3. Ưu và nhược điểm của Javascript 31
2.8. Cơ sở dữ liệu sinh học . 32
2.8.1. NCBI 32
2.8.1.1. Vài nét về NCBI . 32
2.8.1.2. Một số cơ sở dữ liệu trong NCBI . 33
2.8.1.3. Một số công cụ trong NCBI . 33
Phần 3. Phương pháp và chương trình sử dụng .35
3.1. Các chương trình và ngôn ngữ lập trình được sử dụng 35
3.1.1. Hệ điều hành .35
3.1.2. Các chương trình phân tích trình tự .35
3.1.2.1. Chương trình so sánh trình tự ClustalW 35
3.1.2.2. Chương trình tìm kiếm các trình tự tương đồng – BLAST . 36
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL . 36
3.1.2.4. Apache web Server 37
3.2. Thu nhận trình tự SSRs 38
3.2.1. Thu thập và chọn lọc dữ liệu .40
3.2.2. Thu nhận trình tự SSR .41
3.3. Xây dựng CSDL, công cụ để giúp người dùng có thể khai thác tốt dữ liệu . 44
3.3.1. Xây dựng cơ sở dữ liệu 44
3.3.1.1. Tạo bảng chứa dữ liệu 44
3.3.1.2. Xây dựng mối quan hệ . 46
3.3.1.3. Nhập dữ liệu vào bảng . 47
3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu 47
3.5. Tích hợp các công cụ sinh học vào trang web . 48
Phần 4. Kết quả và thảo luận .49
4.1. Kết quả thu nhận trình tự microsatellite 49
4.1.1. Kết quả thu nhận trình tự của Ananas comosus 49
4.1.2. Kết quả thu nhận trình tự SSRs 50
4.2. Xây dựng CSDL, công cụ để giúp người dùng có thể khai thác tốt dữ liệu . 51
4.2.1. Cơ sở dữ liệu trình tự Ananas comosus .51
4.2.2. Kết quả sau khi lập CSDL của trình tự microsatellite .52
4.2.3. Mô hình quan hệ .57
4.3. Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus . 59
4.3.1. Trang chủ (HOME PAGE) .60
4.3.2. Trang thông tin về microsatellite (ABOUT SSRs PAGE) 60
4.3.3. Trang thông tin về Ananas comosus (Ananas comosus PAGE) .60
4.3.4. Trang cơ sở dữ liệu ESTs (ESTs PAGE) 61
4.3.5. Trang cơ sở dữ liệu SSRs (SSRs PAGE) 62
4.3.6. Trang công cụ .64
4.3.6.1. Trang tích hợp công cụ để tìm kiếm SSR 64
Phần 5. Kết luận và đề nghị 65
5.1. Kết luận 65
5.2. Đề nghị 65
Phần 6. Tài liệu tham khảo .66 .
Xây dựng cơ sở dữ liệu ssrs (simple sequencen repeats) từ este (expressed sequence tags) của cây dứa (ananas comosus)
83 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2140 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng cơ sở dữ liệu SSRs (simple sequencen repeats) từ ESTe (expressed sequence tags) của cây dứa (ananas comosus), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Có nhiều kỹ thuật được dùng để tích hợp cơ sở dữ liệu với web để tạo ra
trang web động như CGI, PHP, ASP, JSP, Coldfusion.
2.7. Ngôn ngữ lập trình Perl và Javascript
2.7.1. Ngôn ngữ Perl [7]
2.7.1.1. Tóm tắt lịch sử phát triển
Perl là chữ viết tắt của “Practical Extraction and Report Language”.
Larry Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các
mạng máy tính lớn. Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị
ảnh hưởng bởi ngôn ngữ khác như BASIC, awk, sed và UNIX shell.
Năm 1987, Perl 1.0 ra đời.
29
Năm 1988, Perl 2.0 phát hành và được các nhà quản trị UNIX sử
dụng rộng rãi.
Năm 1989, Perl 3.0 ra đời, nhưng phiên bản này được phát hành dưới
bản quyền được bảo vệ của GNU. Với phiên bản này Perl nhanh chóng trở
thành tiêu chuẩn để viết CGI script dùng cho việc xử lý dữ liệu được gửi
trên Internet.
Năm 1991, phiên bản 4.0 được đưa ra vào tháng 3. Đến thời điểm
này, Perl đã trở thành ngôn ngữ khá hoàn chỉnh mặc dù vẫn còn một số
khuyết điểm nhỏ.
Năm 1994, phiên bản Perl 5.0 ra đời cùng với sự ra đời của DBI
(Database Interface) và DBD (Datadbase Driver) cho hệ quản trị cơ sở dữ
liệu Oracle của Tim Bunce. Từ đó, các DBD của các hệ quản trị cơ sở dữ
liệu khác cũng dần xuất hiện.
Năm 2000, phiên bản 5.6 xuất hiện vào tháng 3. Phiên bản này đã
chuyển sang định dạng tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8.
Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới được
bổ sung.
2.7.1.2. Ứng dụng
Perl được dùng để xử lý tập tin, truy cập dữ liệu và được dùng cho
giao diện cổng chung (Common Gateway Interface – CGI), tiến hành tạo
script của Microsoft Windows, tạo giao diện người dùng đồ họa (graphical
user interface – GUI).
Ưu điểm: là ngôn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn
bản thuần túy, được sự hổ trợ của nhiều hệ điều hành. Vì vậy, Perl là ngôn
ngữ lập trình thích hợp cho các nhà tin – sinh học vì nó có thể giúp cho
việc thao tác trên các chuỗi trình tự sinh học, tạo cơ sở dữ liệu sinh học dễ
dàng hơn. Ngoài ra, Perl còn được sự hỗ trợ module (tập các hàm) giúp kết
nối, truy xuất cơ sở dữ liệu với trang Web, tạo ra trang web động.
Nhược điểm: chỉ có thể dùng để viết các chương trình, script nhỏ.
2.7.1.3. Một số module của Perl thƣờng đƣợc sử dụng
Mudule CGI (Common Gateway Interface – CGI) của Perl: do
Lincoln D. Stein viết. Module này gồm các hàm giúp viết kịch bản Perl
30
theo giao thức CGI. Các script này giúp lấy thông tin từ trình diệt khách
gởi đến máy chủ, đưa vào chương trình sử lý và đưa lại thông tin kết quả
đến máy khách.
Module DBI (Database Interface) của Perl: là tập các hàm, biến và
những qui ước cần thiết cho việc tương tác với một cơ sở dữ liệu nhất định
thông qua Perl script, hoàn toàn độc lập với hệ quản trị cơ sở dữ liệu (do
tác giả của DBI, Tim Bunce, định nghĩa). Những tương tác có thể nhập,
nâng cấp, xử lý, rút trích,…dữ liệu vào hay ra khỏi cơ sở dữ liệu.
Module DBD (Datadbase Driver) của Perl: là một module phụ thuộc
loại hệ quản trị cơ sở dữ liệu và liên kết với module BDI để truy cập vào
một loại hệ quản trị cơ sở dữ liệu nhất định. Như vậy tương ứng với một hệ
quản trị cơ sở dữ liệu có một loại DBD. Ví dụ như hệ quản trị MySQL có
Database Driver là DBD::MySQL.
Hình 2. 4. Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS
2.7.2. Ngôn ngữ Javascript [6]
Javascript đã và đang phát triển một cách vững chắc về mặt phổ cập lẫn
khả năng kể từ khi nó ra đời và hiện giờ đã trở thành ngôn ngữ số một dành
cho trình duyệt. Công nghệ này có hai thế mạnh chính: hỗ trợ nhiều trình duyệt
khác nhau và có thể lập trình dễ dàng. Công nghệ này thành công đến nỗi nó
không chỉ là ngôn ngữ lập trình cho các trình duyệt mà còn được dùng để lập
trình cho các tập tin PDF và lập trình cho máy chủ web.
P
E
R
L
S
C
R
I
P
T
D
B
I
S
w
i
t
c
h
DBD
DBD
DBD
RDBMS
RDBMS
RDBMS
31
2.7.2.1. Định nghĩa Javascript
Javascript ra đời với tên gọi là LiveScript, tuy nhiên Netscape đã thay
đổi tên gọi thành Javascript. Tuy nhiên, tên gọi này đã gây ra lúng túng cho
một số người khi cho rằng có một mối quan hệ gần gũi giữa Java và
Javascript. Trong thực tế, giữa hai ngôn ngữ này có rất ít các điểm chung,
dù rằng cú pháp của chúng có thể giống nhau.
Năm 1996, ngôn ngữ Javascript được tạo ra bởi Netscape và được đưa
vào trong trình duyệt Netscape Navigator 2.0 của họ thông qua một trình
biên dịch để đọc và thực hiện các mã lệnh Javascript được kèm theo trong
các trang .HTML. Ngôn ngữ này ngày càng trở nên phổ cập và hiện giờ đã
được hỗ trợ bởi phần lớn các trình duyệt trên Internet: các trình duyệt được
tạo bởi ra bởi Netscape và Microsoft, cũng như các trình duyệt ít phổ biến
hơn như Opera.
2.7.2.2. Javascript có thể làm gì?
Các hiệu ứng rollover (thay đổi hình ảnh khi di chuyển chuột lên phía
trên hình ảnh) và các thủ thuật HTML đều có gắn liền với Javascript.
Kiểm tra tính hợp lệ về dữ liệu người dùng, kiểm tra xem dữ liệu
được nhập vào có phù hợp không trước khi chúng được gửi lên máy chủ.
Khi Javascript được phát triển theo đúng chức năng của mình, các nhà
phát triển và các nhà thiết kế có thể tạo ra nhiều hiệu ứng và tương tác trực
quan có ấn tượng hơn cho người dùng.
2.7.2.3. Ƣu và nhƣợc điểm của Javascript
Ưu điểm:
Khả năng chạy trên nhiều trình duyệt.
Kiểm tra tính hợp lệ của dữ liệu trên máy khách.
Khả năng tạo ra các giao diện người dùng tinh tế và phức tạp.
Các hiệu ứng tạo ra bởi Javascript còn có thể được tải xuống
nhanh hơn rất nhiều so với một số công nghệ khác như Flash và Java
applets.
Các ưu điểm khác bao gồm: không cần phải có các công cụ riêng
biệt để viết Javascript, có thể sử dụng bất kỳ trình soạn thảo văn bản
32
hoặc HTML nào để thực hiện việc đó, không phải tốn chi phí để mua
các sản phẩm phần mềm vốn thường là không rẻ. Javascript cũng là
một ngôn ngữ dễ học, trên Internet có rất nhiều nguồn thông tin và
nhiều cộng đồng các nhà phát triển có tính hỗ trợ nhau trong việc phát
triển ứng dụng Javascript để tham khảo.
Nhược điểm:
Phụ thuộc vào tính tương thích của trình duyệt
2.8. Cơ sở dữ liệu sinh học
Dữ liệu sinh học ngày càng tăng theo cấp số mũ qua các dự án giải trình tự
bộ gene, do sự phát triển của kỹ thuật và thiết bị thí nghiệm như kỹ thuật DNA
micro array, kỹ thuật giải trình tự tự động cho phép tạo ra hàng ngàn dữ liệu sinh
học trong chốc lát. Như vậy vấn đề đặt ra là cần phải có biện pháp lưu trữ, quản
lý, sử dụng và chia sẽ nguồn dữ liệu này. Do đó cần xây dựng các dữ liệu này
thành một cơ sở dữ liệu hoàn chỉnh để có thể thực hiện được mục đích trên. Hơn
thế nữa, với việc hệ thống hóa toàn bộ dữ liệu trên, chúng ta dễ dàng thực hiện
việc chia sẽ những thông tin ấy qua mạng Internet hay kết nối thêm vào những tập
dữ liệu ở nơi khác.
Một số cơ sở dữ liệu lớn, trực tuyến đã được xây dựng để cung cấp thông tin
cho các nhà nghiên cứu sinh học như NCBI, EBI, SIB, DDBJ,…
2.8.1. NCBI
2.8.1.1. Vài nét về NCBI
Hình 2. 5. Tƣơng quan giữa NCBI, NLM (National Library of
Medicine và NIH)
NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây
là trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia
của Hoa kỳ (NIH – National Insitute of Health). NCBI chính thức được
NLM
NCBI
NIH
33
thành lập vào ngày 4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản
lý cơ sở dữ liệu trình tự DNA và từ đó NCBI còn được gọi là GenBank.
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ,
thông qua những cơ sở dữ liệu trực tuyến. Ngoài ra, NCBI còn tham gia
những nghiên cứu về “sinh học tính toán” (computation biology), phát triển
những công cụ phân tích dữ liệu bộ gene, protein,…
2.8.1.2. Một số cơ sở dữ liệu trong NCBI
Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide.
Protein: là cơ sở dữ liệu về trình tự amino acid.
Genome: trình tự toàn bộ genome của một số sinh vật.
Structure: hay còn có tên gọi là MMDB (Molecular Modeling
Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả
protein lẫn những chuỗi nucleotide.
Ngoài ra, NCBI còn một số cơ sở dữ liệu khác. Chúng là các cơ sở dữ
liệu trung gian, được tạo thành từ sự kết hợp của hai hay nhiều cơ sở dữ
liệu trên, hay do liên kết đến các cơ sở dữ liệu khác.
2.8.1.3. Một số công cụ trong NCBI
Công cụ khai thác dữ liệu:
Tìm kiếm thông tin sinh học dựa trên từ khóa có dạng văn bản:
Entrez: chứa các phương thức tìm kiếm như tìm kiếm dựa trên
accession number, hay dựa theo tên sinh vật, tên gene, tên
protein,… trên tất cả các cơ sở dữ liệu.
Tìm kiếm trình tự tương đồng: có phần mềm điển hình như:
BLAST (Basic Local Alignment Search Tool): có BLAST
Homepage là nơi cung cấp thông tin hướng dẫn về BLAST,
chương trình BLAST,…
Blink: nơi hiển thị kết quả bằng BLAST trên mọi protein có
trong mọi cơ sở dữ liệu protein Entrez.
Network-client BLAST: client BLAST (blastcl3) có thể thâm
nhập vào bộ máy BLAST của NCBI. Blastcl3 này có thể tìm kiếm
tất cả các trình tự dưới dạng file FASTA và tạo sự gióng cột một-
34
nhiều trình tự, sau đó lưu dưới dạng file text hay HTML. Ngoài
ra, blastcl3 còn có thể thực hiện việc tìm kiếm trên nhiều cơ sở dữ
liệu.
Stand-alone BLAST: là phần mềm có thể tải về từ NCBI.
Phần mềm này thực hiện việc tìm kiếm các trình tự tương tự trên
cơ sở dữ liệu trình tự cục bộ.
Phân loại sinh vật:
Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên cơ sở
dữ liệu Taxonomy.
Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tương đồng
khi thực hiện BLAST, tùy thuộc vào sự phân loại của chúng trong cơ
sở dữ liệu Taxonomy.
TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với cơ sở dữ
liệu Taxonomy và hiển thị mối quan hệ giữa sinh vật này với sinh vật
khác bằng các biểu đồ màu.
Công cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS,…
lên NCBI
Sequin: phần mềm này có thể tải về từ NCBI, hổ trợ cho việc tạo
ra những file văn bản (chứa trình tự, tên tác giả, bài báo,…) có cấu
trúc theo khuôn mẫu. Trong phần mềm này còn kèm theo một số
công cụ nhỏ như công cụ tìm khung đọc mở, công cụ gióng cột trình
tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một
lúc.
NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích
trình tự DNA, protein như: BanklIt, ORF Finder, Electronic-PCR (e-PCR),
VecScreen, Homologene, COGs, COGnitor, GEO, MGC, Clone Registry,
CDD, LocusLink,…
35
Phần 3
PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG
CÁC PHẦN MỀM ĐƢỢC SỬ DỤNG
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng [7]
3.1.1. Hệ điều hành
Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs
của cây dứa Ananas comosus trên hệ điều hành này.
3.1.2. Các chƣơng trình phân tích trình tự
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW
ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự
tương đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple
alignment). ClustalW mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc
những nét đặc trưng trong những đoạn tương đồng. ClustalW ngày càng trở
nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo
tồn trên những trình tự DNA hoặc protein. Sự hiểu biết về mutiple
alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu
trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tương đồng giữa
những đoạn gene (hoặc protein) vừa được giải trình tự với những gene
(hoặc protein) đã tồn tại.
ClustalW tiến hành so sánh tương đồng nhiều trình tự sinh học qua ba
giai đoạn:
Đầu tiên chương trình sử dụng thuật toán alignment xấp xỉ của
Wilbur và Lipman năm 1983 để tính hệ số tương đồng giữa mỗi cặp
trình tự.
Những hệ số tương đồng tính được sẽ được sử dụng để thành lập
cây phả hệ (“Guide tree” hay dendrogram) bằng phương pháp
UPGMA (Unwieghted Pair – Group Method) của Sneath và Sokal
năm 1973.
36
Cuối cùng các trình tự được so sánh với những nhóm trình tự lớn
hơn và cứ thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử
dụng thuật toán của Myers và Miller (1998) nhằm tối ưu kết quả.
ClustalW được tải về từ trang web:
(
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST
BLAST là một chương trình tìm kiếm và so sánh trình tự tương đồng
được nhiều người dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ
ý tưởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những
CSDL lớn trên thế giới như GenBank, EMBL,…) có trình tự nào giống
hoặc gần giống với trình tự đang quan tâm”. BLAST thực hiện so sánh
trình tự nhập vào (có thể DNA hay protein) với những trình tự trong
CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ
tương đồng và nguồn gốc các trình tự.
Chiến lược tìm kiếm trình tự tương đồng trong BLAST được thực
hiện qua ba bước chính:
Đầu tiên BLAST tìm kiếm những đoạn tương đồng HSPs (High
Scoring Pair) giữa một trình tự đưa vào và mỗi trình tự trong CSDL.
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa
trên bất cứ sự tương đồng nào được tìm thấy.
Sau cùng BLAST đưa ra một báo cáo kết quả giống nhau thỏa
mãn ngưỡng giá trị mà người dùng mong muốn.
Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa
chỉ của trang CSDL NCBI:
(ftp://ftp.ncbi.nih.gov.blast/executables/).
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL
MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất,
dưới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là
một công ty thương mại). Phần SQL của MySQL được viết tắt từ chữ
“Structured Query Language”. SQL là một ngôn ngữ chuẩn được dùng phổ
biến để xây dựng CSDL và được công nhận bởi cơ quan tiêu chuẩn SQL là
ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ năm 1986 và cho
37
đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản
chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ưu điểm so với
các phiên bản trước đó).
Ưu điểm.
Dể sử dụng.
Mã nguồn mở.
Thích hợp cho việc xây dựng CSDL vừa và nhỏ.
Nhược điểm:
Không thích hợp cho việc xây dựng CSDL lớn.
3.1.2.4. Apache web Server
Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một
trong số đó là Apache web Server. Apache web Server là một trình chủ
web được nhiều người dùng nhất hiện nay trên Internet. Apache có được
một vị trí đáng nể như thế là nhờ vào việc nó là một chương trình mã
nguồn mở và hoàn toàn miễn phí. Hai ưu điểm này đã giúp Apache được
yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế
giới.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình
chủ web thông qua các module. Có 2 loại module trong Apache đó là
external module và internal module. Cả hai loại module này điều có thể
được sửa chữa, thay thế hoặc nâng cấp vì chúng có kèm theo mã nguồn
mở. Khi một yêu cầu từ trình tự khách được gởi đến Apache phải trải qua
một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho người dùng.
Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của
Apache cho phép người dùng thêm mới những module cần thiết vào bất kỳ
giai đoạn nào của quá trình xử lý.
Apache có thể được tải về từ địa chỉ :
(
38
PHƢƠNG PHÁP
3.2. Thu nhận trình tự SSRs [22]
Công cụ được tìm kiếm trình tự SSR được tham khảo và tải về từ địa chỉ
của tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR
và những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu
về sau.
Hình 3. 1. Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder
Nội dung được nhập vào
Nội dung được xuất ra
Các bước thực hiện của tác giả:
Bước 1: Tìm kiếm SSRs trong trình tự chính sau đó phân biệt đoạn
SSR và các vùng phụ cận.
Bước 2: Thiết kế mồi khuếch đại vùng có chứa trình tự SSR.
labdbouttxt
new_ids.txt
ssrout.txt
1_ssr_repeat_finder
3_ssr_primer_rep_check
2_ssr_primer_designer
4_ssr_primer_blast
5_ssr_order_filter
6_ssr_order_formatter
Sequence.txt
primer_results.txt
filter.txt
fullblastoutput.txt
blastout.txt
rescreened.txt
order.txt
AllPrimer.nt
39
Bước 3: Thực hiện chọn lọc lại, loại bỏ những mồi có độ phức tạp thấp
và các đoạn mồi có chứa trình tự lặp lại nhiều lần.
Bước 4: BLAST những đoạn SSR đã được thiết kế mồi với CSDL
chính. Tập tin chứa CSDL là “AllPrimer.nt”.
Bước 5: Chọn lọc lại những trình tự SSR mà chỉ có một mồi duy nhất.
Bước 6: Sắp xếp lại các primer được tạo ra.
Hình 3. 2. Kết quả thiết kế mồi cuối cùng của Steven Schroeder
Trong đề tài này chúng tôi chỉ thiết kế CSDL của cây dứa Ananas comosus,
các bước còn lại sẽ được tích hợp vào trang web, tùy vào mục đích của người
dùng để có thể sử dụng hợp lý nhất.
40
3.2.1. Thu thập và chọn lọc dữ liệu [25]
Quá trình thu nhận trình tự nucleotide được tóm tắt thành sơ đồ sau
Hình 3. 3. Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI
Từ khóa sử dụng là: Ananas comosus
Định dạng FASTA: là định dạng theo quy định của NCBI, FASTA là một
giải thuật bắt cặp trình tự được David J. Lipman và William R. Pearson miêu
tả lần đầu tiên vào năm 1985 (Rapid and sensitive protein similarity searches),
nó có một hàng chú thích bắt đầu bằng ký tự “>” ở cột đầu tiên. Ví dụ một
định dạng FASTA:
>gi|77390573|gb|DV190744.1|DV190744 JBC034F11 Pineapple week
TTCTTTCGTGGAACTGTTTGTTTGCATGGTGGTAGTGGTTGGTGGAAATATGAAGTTTGTT
ACGGAAAAACGGTAATGCAATACCACTCTGAACTGAGCAAAAAGCGCGAAAATATTTTGTT
GGGAGTTTTTGATAAGGCTGTACATATGGCATGGACCATAGAGCATCCAGAGAAGGTTATT
GAGCGCAACGAAGATGGAAGAGTTATGAGTGCAACAAATCTTTACACACAAGGCGATATCT
GTAAGGAGAATGGTGCTCACAGGTCTTGTGAAGTGCGGATTCGCTGTAGAGATGATATTGT
TTCTCAGAAG
Truy cập trang web NCBI
Nhập từ khóa
Chọn lọc theo giống
Chọn cơ sở dữ liệu EST
Chọn dạng FASTA
Thu nhận tất cả trình tự
nucleotide theo từng giống
Chọn dạng Summary
Thu nhận các thông tin liên
quan
41
Trong đó:
gi là mã số do NCBI quy định.
gb là mã số của cơ sở dữ liệu gen (Genbank) của từng loài.
Hiện nay trên cơ sở dữ liệu của trang NCBI chỉ mới có một giống là
Smooth Cayenne (4102 trình tự, từ khóa của giống là “txid4615[orgn] AND
strain Smooth Cayenne[tw]”) của Ananas comosus.
3.2.2. Thu nhận trình tự SSR [22]
Các bước thực hiện:
Hình 3. 4. Sơ đồ tóm tắt quá trình thu nhận trình tự microsatellite
Trình tự nucleotide thu nhận từ NCBI về được lưu thành tập tin với
tên là “sequence31052006.txt”.
Trình tự chính được tải về từ NCBI
Lưu lại với tên “sequence31052006.txt”
ssrout31052006.txt labdbout31052006.txt new_ids31052006.txt
Chạy tập tin “SSRRepeatFinder.pl”
Chép vào cùng địa chỉ “31052006”
Tập tin “SSRRepeatFinder.pl”
42
Hình 3. 5. Nội dung tập tin “sequence31052006.txt” để thu nhận SSR
Thực thi đoạn mã Perl “SSRRepeatFinder.pl”, khi đó chương trình sẽ
tạo ra 3 tập tin khác với tên lần lượt là “ssrout31052006.txt”,
“labdbout31052006.txt”, “new_ids31052006.txt”.
Hình 3. 6. Nội dung tập tin “ssrout31052006.txt”
DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCTCTCT
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC
GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC
T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG
AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC
AGAGCGAGACGGCGTTGTCG
DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGAG
GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT
CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC
GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA
GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC
GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT
TTGTATGGAT
>gi|73689682|gb|DT339790.1|DT339790 JBW102H10.b_066.abi Pineapple
root tip cDNA library Ananas comosus cDNA clone JBW102H10 similar
to actin capping protein beta-2 -related, mRNA sequence
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAA
CGTCTCCCCCAAAAATCTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCC
CAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAGAGAGAGAG
AGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAG
ACGGCGTTGTCGGCGCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGAC
CAACCCCTCCAGGTTTGTATGGATGAGGAGTCGATGAAGGAGTTCATACTTTGTGAATACAATAGG
GATGCTGATTCCTATAGATCGCCATGGACGAACAAATATTACCCGCCTTTAGAGGATGGGCCACTC
CCTTCTATTGAGTTGAGGAAACTCGAAGTTGAAGCAAATGAAGTTTTTGCTGTTTATCTTGACCAG
TATTATGAAGGAGGTGTCTCGTCGGTGTACTTGTGGGAAGATGTTAACCAGGGCTTTGTGGCATGC
TTCTTAATAAAGAAAGATGGGTCGAAGACGGGGGCATGGCAGAAGAGGATACTTGCAAGAGGGTTC
GTGGGATGCTATTCATGTAATTGAGGTTGGACCAGAGGAAGAAGGAACAGCTCGTTACTGCTTAAC
CAGTACCATCATGCTATCATTGACAACGGAAAACAAGCCATCGGGAACTTTTAATCTCTCGGGATC
GATCAGGAGACAGATGAATCTTAATCTTTCAGTGGCAGAGGGTCATCTGTGTA
>gi|73689681|gb|DT339789.1|DT339789 JBW102H08.b_050.abi Pineapple
root tip cDNA library Ananas comosus cDNA clone JBW102H08 similar
to thioredoxin -like protein, mRNA sequence
ATCAGGGAGAGAGGAAGGGTTTGGAAGGGACGAGGGAGCTCTCCCTCCCCGCAAATCGCCATTGCC
ACATCCGCAGCGCCTCTAGCGATCAACAACTCAAGGAGATCCTCGACGAGGTCAAAACATCCAAAA
CCCCCGTGGTTATCAACTATGGCGCCTCATGGTGCCGTGTTTGTAGCCAGATCCTTCCTTCCTTCT
GCGAGCTGAGCAATAAATTCAAAAAGCTTTCTTTCGTCTATGCGGACATTGACGAATGCCCTGAAA
CAACTCAGCATATACGATACACCCCGACTTTCCAATTCTTTCGGGATGGAGAAAAGGTCGATGAGA
TGTTTGGCGGCGGGGAGCAGAGGCTGCACGATCGCTTATGGTTGCATTCGTAGTAAAAACTCGACT
GTCATTATATATAAGGAAATTCCTCTCATGCATCTGATGCGCAACCATCTTATAGGTCTCCCAATG
AAATTTTGTTTGGGTTTTCATTACTTGGGTAAATGGCACATCAGTTGGTAATTGCTTGTTTGCACC
CAAGGTTGGTATTGCTGCAGATTACTAACTGAGGGTATCTTTCTTGCGTTTTCCATATGGATTGGC
ATACCATCATGTAGCAAATTGAGAAGCTATTTTCTTG
43
Trong tập tin này nó sẽ gồm các nội dung theo thứ tự là:
Mã của đoạn SSR (SSR Version) (DT339790.1a) dựa vào mã số
genbank (DT339790.1) để tạo ra mã quy định cho mỗi đoạn SSR, khi một
trình tự có 2 hay nhiều đoạn SSR thì nó sẽ quy định là “a”, “b”, “c”,…
(DT339790.1a và DT339790.1b)
Trình tự đoạn SSR:
CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT
Đoạn SSR (Motif):
CTCTCTCT
Đoạn SSR trong trình tự chính được rút gọn, nó được phân biệt trong
dấu “[]”
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGA
ACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTC
TCT]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAG
AGAGAGAGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATC
TCGCCGAAGCAGAGCGAGACGGCGTTGTCG
Hình 3. 7. Nội dung tập tin “labdbout31052006.txt”
Nội dung tập tin này gần giống với tập tin “ssrout31052006.txt”, nó chỉ bổ
sung thêm phần mã genbank (DT339790.1) và vị trí bắt đầu (94) và chiều dài
đoạn SSR (32).
DT339790.1 DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT
CTCTCTCT 94,32
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC
GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC
T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG
AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC
AGAGCGAGACGGCGTTGTCG
DT339790.1 DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG
AGAGAGAG 172,32
GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT
CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC
GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA
GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC
GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT
TTGTATGGAT
44
Hình 3. 8. Nội dung tập tin “new_ids31052006.txt”
Tập tin “new_ids31052006.txt” bổ sung thêm phần định nghĩa (definition).
3.3. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu.
3.3.1. Xây dựng cơ sở dữ liệu
3.3.1.1. Tạo bảng chứa dữ liệu
Theo các mô tả trong mô hình đối tượng, ta chuyển từ mô hình đối
tượng sang mô hình quan hệ như sau:
Mỗi đối tượng trong mô hình đối tượng là một quan hệ trong mô
hình quan hệ.
Mỗi thuộc tính trong mô hình đối tượng là thuộc tính trên quan
hệ tương ứng.
Khóa của đối tượng là khóa của quan hệ tương ứng.
Tạo các quan hệ 1: , được trình bày hình 4.2
tblStrain: chứa thông tin về các giống Ananas comosus, được trình
bày ở bảng 3.1.
Bảng 3. 1. Nội dung tblStrain
Tên trƣờng Kiểu dữ
liệu
Chú thích
StrainID Text Mã số quy định giống.
StrainName Text Tên của giống.
DT339790.1 DT339790 JBW102H10.b_066.abi Pineapple root tip cDNA
library Ananas comosus cDNA clone JBW102H10 similar to actin
capping protein beta-2 -related, mRNA sequence
DT339789.1 DT339789 JBW102H08.b_050.abi Pineapple root tip cDNA
library Ananas comosus cDNA clone JBW102H08 similar to thioredoxin
-like protein, mRNA sequence
45
tblMotifLengthGroup: chứa nội dung quy định mã các đoạn SSR
Bảng 3. 2. Nội dung tblMotifLengthGroup
Tên trƣờng Kiểu dữ
liệu
Chú thích
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR
MotifLengthGroup Text Chiều dài đoạn SSR.
MotifDescription Text Chú thích.
tblEST, tblGenBank: nội dung chính của trình tự do NCBI quy định.
Bảng 3. 3. Nội dung tblEST
Tên trƣờng Kiểu dữ
liệu
Chú thích
dbESTID Text Mã số EST do NCBI quy định.
ESTName Text Tên của EST.
GenbankAcc Text Chứa số truy cập trên NCBI.
Genbank_gi Number Mã số gi do NCBI quy định.
StrainID Text Mã số quy định giống.
Address Hyperlink Liên kết đến NCBI cho người dùng
biết thêm thông tin.
SequenceLength Text Chiều dài của đoạn nucleotide.
Sequence Text Trình tự.
Bảng 3. 4. Nội dung tblGenBank
Tên trƣờng Kiểu dữ
liệu
Chú thích
GenbankAcc Text Chứa số truy cập trên NCBI.
Version Text Phiên bản của đoạn trình tự
Date Text Ngày cập nhật mới nhất
Definition Number Thông tin về đoạn trình tự.
46
tblSSR: chứa thông tin về đoạn Microsatellite
Bảng 3. 5. Nội dung tblSSR
Tên trƣờng Kiểu dữ
liệu
Chú thích
SSRID Text Mã số của đoạn SSR.
GenbankACC Text Chứa số truy cập trên NCBI.
SSRVersion Text Phiên bản của đoạn SSR dựa vào.
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR
Motif Text Đoạn SSR.
NoOfRepeat Number Số lần lập lại.
SSRSequence Text Trình tự đoạn SSR
SSRStart Number Vị trí bắt đầu.
SSREnd Number Vị trí kết thúc.
ShortSequence Text Đoạn trình tự ngắn dựa vào đoạn
trình tự chính để người xem có thể
dễ nhận ra vị trí đoạn SSR.
3.3.1.2. Xây dựng mối quan hệ (khóa chính và khóa ngoại)
tblStrain
Khóa chính: StrainID
tblMotifLengthGroup
Khóa chính: MotifLengthGroupID
tblGenBank
Khóa chính: GenbankAcc
tblEST
Khóa chính: dbESTID
Khóa ngoại: StrainID, GenbankAcc
Vì để giảm dung lượng của bảng tblEST nên đã tách ra thêm bảng
tblGenBank do đó ngoài quan hệ khóa ngoại, thuộc tính GenbankAcc
còn có thêm một đặc điểm là duy nhất (Unique).
tblSSR
Khóa chính: SSRID
Khóa ngoại: GenbankAcc, MotifLengthGroupID
47
3.3.1.3. Nhập dữ liệu vào bảng
Do các quan hệ ràng buộc giữa khóa chính và khóa ngoại nên việc
nhập cơ sở dữ liệu vào các bảng phải được thực hiện một cách tuần tự, nếu
không sẽ phát sinh lỗi và không thể nhập được.
Nhập dữ liệu vào các bảng chỉ có khóa chính (không có khóa
ngoại) để nó có thể quản lý các thông tin một cách chính xác và
không trùng lắp. Các bảng đó là:
tblStrain
tblMotifLengthGroup
tblGenBank
Nhập dữ liệu vào các bảng còn lại
tblEST
tblSSR
Hình 3. 9. Sơ đồ trình tự nhập dữ liệu vào bảng
3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu [26]
Nhằm tạo giao diện thân mật, dễ sử dụng cho người dùng cuối, trang web đã
được tạo ra để đưa cơ sở dữ liệu đến người dùng. Sau đó dựa vào cơ sở dữ liệu
Microsatelite, người dùng có thể phục vụ cho việc nghiên cứu riêng của mình.
Việc thiết kế trang web CSDL microsatellites của cây dứa Ananas comosus được
tham khảo với trang web mẫu về phương pháp micorsatellite khác đã phổ biến
trên intermet trước đó như ở hình 4.6.
Nhập liệu vào bảng
tblGenBank
tblMotifLengthGroup
tblStrain
1. Nhập bảng chỉ chứa khóa chính
tblSSR
tblEST
2. Nhập bảng có chứa khóa ngoại
48
Hình 3. 10. Trang web mẫu về trình tự microsatellite
(Nguồn:
Các bước thực hiện:
Xác định những nội dung cần thực hiện: ngoài phần chính là cơ sở dữ
liệu Microsatelite, còn có những phần thông tin thêm vào để người sử dụng
có thể hiểu rõ hơn về cây dứa Ananas comosus và phương pháp
Microsatelite.
Thiết kế giao diện để người dùng có thể sử dụng một cách dễ dàng nhất.
Tích hợp cơ sở dữ liệu vào trang web.
3.5. Tích hợp các công cụ sinh học vào trang web
Công cụ để dò tìm trình tự SSR: đây là công cụ cần thiết để người dùng có
thể dò tìm các trình microsatellite trong một đoạn gen bất kỳ, các đoạn SSR được
tạo ra đã có phân biệt trong dấu [] nên khi thiết kế primer sẽ loại bỏ những vùng
trong dấu [].
49
Phần 4
KẾT QUẢ VÀ THẢO LUẬN
4.1. Kết quả thu nhận trình tự microsatellite
4.1.1. Kết quả thu nhận trình tự của Ananas comosus
Khi sử dụng các từ khóa (Ananas comosus - chưa chọn lọc theo giống) và
phương pháp như ở phần 3 (phần phương pháp và chương trình sử dụng) có
5656 trình tự, được phân loại như ở bảng 4.1.
Bảng 4. 1. Phân loại giống Ananas comosus tại NCBI
Strain Smooth Cayenne [4102]
Cultivar Cayenne [1 1]
N67-10 [4 4]
Smooth cayenne [1555 8]
Isolate 136 [1 1]
H136 [2 2 1]
Specimen-voucher R. Horres & K. Schulte 220601-1 (FR) [1 1 1]
Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và như phương
pháp phần 3.1.1, các giống dứa Ananas comosus chúng tôi chỉ nhận được 1
giống Smooth cayenne từ ESTs được đăng tải trên CSDL NCBI. Còn các
trường hợp còn lại là riêng biệt, không thuộc các giống dứa chung nên không
dùng để thu thập trình tự microsatellite.
50
Hình 4. 1. Nội dung mẫu tin về Ananas comosus trên NCBI
Ngoài ra để có thể thu nhận được trình tự SSRs cần phải tải trình tự có
định dạng FASTA, cách thức tiến hành như trên. Kết quả chúng tôi thu được
4102 trình tự theo định dạng FASTA được lưu vào tập tin
“sequence01012006.txt” (hình 3.2).
4.1.2. Kết quả thu nhận trình tự SSRs
Sau khi thực thi tập tin “SSRRepeatFinder.pl”, chúng tôi thu được 986
trình tự microsatellite trong đó có:
dimer .................................. 127 trình tự
trimer .................................. 461 trình tự
tetramer .............................. 151 trình tự
pentamer ............................... 19 trình tự
LOCUS DV190760 168 bp mRNA linear EST 07-OCT-2005
DEFINITION JBC034H12 Pineapple week 1-4 nematode-infected gall cDNA library
Ananas comosus cDNA clone JBC034H12 similar to undiscovered
sequence, mRNA sequence.
ACCESSION DV190760
VERSION DV190760.1 GI:77390589
KEYWORDS EST.
SOURCE Ananas comosus (pineapple)
ORGANISM Ananas comosus
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; Liliopsida; Poales; Bromeliaceae;
Ananas.
REFERENCE 1 (bases 1 to 168)
AUTHORS Moyle,R.L., Crowe,M.L., Ripi-Koia,J., Fairbairn,D.J. and
Botella,J.R.
TITLE PineappleDB: An online pineapple bioinformatics resource
JOURNAL BMC Plant Biol. 5 (1), 21 (2005)
PUBMED 16202174
COMMENT Contact: Botella J.R.
School of Integrative Biology
The University of Queensland
Brisbane, Queensland 4072, Australia
Email: j.botella@uq.edu.au
Insert Length: 168 Std Error: 0.00.
FEATURES Location/Qualifiers
source 1..168
/organism="Ananas comosus"
/mol_type="mRNA"
/strain="Smooth Cayenne"
/db_xref="taxon:4615"
/clone="JBC034H12"
/tissue_type="Week 1-4 nematode infected root/gall
vascular cylinder"
/dev_stage="Week 1-4 post nematode egg innoculation"
/clone_lib="Pineapple week 1-4 nematode-infected gall cDNA
library"
ORIGIN
1 aataggattg gcaatggtag ggtttcttca cctctcatcc tatatgtaat agagtccaac
61 attaaagaag aacaaaaaat gtttcttttt aatacatggg gctatgatac tgtaaattac
121 tcaataaatt tttctgtttc ttttccaata aaggggatta gtttgtat
//
51
hexamer .............................. 147 trình tự
heptamer ............................... 10 trình tự
octamer ................................. 47 trình tự
nonamer .................................. 5 trình tự
decamer ................................ 17 trình tự
dodecamer .............................. 2 trình tự
Việc thu nhận trình tự SSR cho kết quả rất đa dạng. Mặc dù chỉ có một
giống nhưng rất đa dạng về các loại microsatellite. Các trình tự SSR được tìm
thấy đã được chọn lọc và phải có chiều dài lớn hơn 10Nu, những trình tự SSR
quá ngắn hoặc không có ý nghĩa nhiều sẽ bị loại bỏ.
4.2. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu
4.2.1. Cơ sở dữ liệu trình tự Ananas comosus
Nhờ sự phát triển của kỹ thuật giải trình tự, một số lượng lớn các gene đã
được giải trình tự. Những trình tự gene này được lưu trữ trong cơ sở dữ liệu
sinh học lớn ở NCBI. Vì các cơ sở dữ liệu này quá lớn và chứa rất nhiều thông
tin khác nhau nên ngoài việc xây dựng cơ sở dữ liệu cho microsatellite chúng
tôi còn xây dựng thêm cơ sở dữ liệu ESTs để tiện cho việc tham khảo.
Bảng 4. 2. Số trình tự trong cơ sở dữ liệu
Tên Giống Loại cơ sở dữ
liệu
Số trình tự
Ananas comosus Smooth Cayenne ESTs 4102
SSRs 986
CSDL SSR chứa thông tin liên quan đến trình tự microsatellite như số lần
lặp lại, loại microsatellite. Còn CSDL ESTs chứa thông tin liên quan đến trình
tự như mã số EST, tên EST, địa chỉ truy cập trực tuyến đến trang thông tin
chứa trình tự đó ở CSDL NCBI.
Số trình tự và thông tin trong CSDL tuy nhiều nhưng chưa đa dạng về
giống, nên những nghiên cứu về đa dạng di truyền hay chọn lọc giống còn
nhiều hạn chế.
52
4.2.2. Kết quả sau khi lập CSDL của trình tự microsatellite
Trong CSDL có rất nhiều loại motif của trình tự micorsatellite được thống
kê qua bảng 4.2.
Bảng 4. 3. Các trình tự SSRs trên cây dứa Ananas comosus có trong CSDL
Loại microsatellite Motif Số lƣợng Tỉ lệ
Dimer AC 2 2/986
AG 31 31/986
AT 15 15/986
CT 21 21/986
GA 10 10/986
GT 3 3/986
TA 7 7/986
TC 35 35/986
TG 3 3/986
Tổng số dimer: 127 127/986
Trimer AAC 1 1/986
AAG 22 22/986
AAT 11 11/986
ACA 3 3/986
ACC 1 1/986
ACG 5 5/986
ACT 3 3/986
AGA 8 8/986
AGC 6 6/986
AGG 3 3/986
AGT 1 1/986
ATA 3 3/986
ATC 2 2/986
ATG 7 7/986
ATT 9 9/986
CAA 5 5/986
CAC 1 1/986
CAG 16 16/986
CCG 7 7/986
CCT 32 32/986
CGA 11 11/986
CGC 5 5/986
53
Loại microsatellite Motif Số lƣợng Tỉ lệ
CGG 2 2/986
CGT 4 4/986
CTC 17 17/986
CTG 13 13/986
CTT 7 7/986
GAA 25 25/986
GAC 7 7/986
GAG 14 14/986
GAT 21 21/986
GCA 15 15/986
GCC 2 2/986
GCG 5 5/986
GCT 11 11/986
GGA 14 14/986
GGC 7 7/986
GGT 3 3/986
GTA 2 2/986
GTC 6 6/986
GTG 2 2/986
GTT 1 1/986
TAA 3 3/986
TAC 2 2/986
TAT 15 15/986
TCA 2 2/986
TCC 11 11/986
TCG 17 17/986
TCT 14 14/986
TGA 10 10/986
TGC 10 10/986
TGG 13 13/986
TGT 5 5/986
TTA 9 9/986
TTC 3 3/986
TTG 7 7/986
Tổng số trimer 461 461/986
Tetramer AAAC 1 1/986
AAAT 1 1/986
54
Loại microsatellite Motif Số lƣợng Tỉ lệ
AATC 1 1/986
ACAC 2 2/986
ACGC 4 4/986
AGAA 2 2/986
AGAG 21 21/986
AGAT 1 1/986
ATAT 8 8/986
CATG 1 1/986
CGGT 1 1/986
CTCT 21 21/986
CTTT 1 1/986
GAGA 14 14/986
GCTC 1 1/986
GGAT 8 8/986
GTGT 1 1/986
TATA 7 7/986
TCCG 1 1/986
TCTC 44 44/986
TCTT 3 3/986
TGAT 1 1/986
TGGA 1 1/986
TGTG 2 2/986
TTCT 1 1/986
TTTA 2 2/986
Tổng số tetramer: 151 151/986
Pentamer AAAAT 1 1/986
AAGAA 2 2/986
ACCAT 1 1/986
AGAAA 1 1/986
AGAAG 1 1/986
AGCTT 1 1/986
ATAAA 1 1/986
ATGGT 2 2/986
CACAA 1 1/986
CCACG 1 1/986
TAGAT 1 1/986
TCTTT 2 2/986
55
Loại microsatellite Motif Số lƣợng Tỉ lệ
TTATT 2 2/986
TTTTA 1 1/986
TTTTC 1 1/986
Tổng số pentamer: 19 19/986
Hexamer AAAAGA 1 1/986
AACAAC 3 3/986
AACCCT 1 1/986
AAGAAG 1 1/986
AAGGAG 2 2/986
ACCACA 1 1/986
ACGACG 1 1/986
AGAAAA 1 1/986
AGAAGA 1 1/986
AGAGAG 25 25/986
AGAGGA 2 2/986
AGCAGC 1 1/986
AGGAGA 3 3/986
ATTATT 3 3/986
CACCAC 1 1/986
CAGCAG 3 3/986
CCACCA 1 1/986
CCGCCG 1 1/986
CCGCGT 1 1/986
CGCCGC 1 1/986
CGTTTC 1 1/986
CTCTCT 16 16/986
CTGCTG 3 3/986
CTTCCG 3 3/986
CTTCTT 2 2/986
CTTTTT 1 1/986
GAAGAA 1 1/986
GAAGAG 1 1/986
GAAGCC 1 1/986
GAAGCT 1 1/986
GACGAC 1 1/986
GAGAAG 2 2/986
GAGAGA 16 16/986
56
Loại microsatellite Motif Số lƣợng Tỉ lệ
GAGGAA 1 1/986
GCAGCA 2 2/986
GCAGGA 1 1/986
GGAGGA 1 1/986
TCCTCC 1 1/986
TCCTCT 1 1/986
TCGCAG 1 1/986
TCGTCG 6 6/986
TCTCGA 1 1/986
TCTCTC 12 12/986
TCTTCT 5 5/986
TGATGT 1 1/986
TGCTGC 1 1/986
TGTGTG 2 2/986
TTATTA 1 1/986
TTCGGC 1 1/986
TTCTTC 1 1/986
TTGTTG 5 5/986
Tổng số hexamer: 147 147/986
Heptamer AAATTTC 1 1/986
AATTTCA 3 3/986
ATTTTAA 1 1/986
TATGAAC 1 1/986
TTTAAAT 1 1/986
TTTAATT 1 1/986
TTTCAAA 2 2/986
Tổng số heptamer: 10 10/986
Octamer ACACACAC 2 2/986
AGAGAGAG 11 11/986
CCATCCAT 4 4/986
CTCTCTCT 7 7/986
GAGAGAGA 7 7/986
TATTTATT 1 1/986
TCTCTCTC 14 14/986
TGTGTGTG 1 1/986
Tổng số octamer: 47 47/986
Nonamer AACAACAAC 1 1/986
AAGAAGAAG 1 1/986
57
Loại microsatellite Motif Số lƣợng Tỉ lệ
CTACTACTA 2 2/986
CTGCTGCTG 1 1/986
Tổng số nonamer: 5 5/986
Decamer ACACACACAC 1 1/986
AGAGAGAGAG 1 1/986
CTCTCTCTCT 6 6/986
GAGAGAGAGA 1 1/986
TCTCTCTCTC 8 8/986
Tổng số decamer: 17 17/986
Dodecamer CTCATTGTTGTT 1 1/986
CTCTCTCTCTCT 1 1/986
Tổng số dodecamer: 2 2/986
Qua kết quả các đoạn microsatellite tìm được chúng tôi nhận thấy trong
các trình tự của cây dứa có rất nhiều trình tự microsatellite và rất đa dạng.
Trong một trình tự chính có thể có 2 hay nhiều trình tự microsatellite thuộc 2
loại motif khác nhau.
Ví dụ trong một Accession Number DT335775 có 2 trình tự
microsatellite.
Bảng 4. 4. Ví dụ nhiều đoạn microsatellite trong một trình tự chính
Mã đoạn
SSR
Phiên bản
SSR
Nhóm lặp
lại
Motif Số lần
lặp lại
Trình tự SSR
SSR0980 DT335775.1a Trimer GGA 5 GGAGGAGGAGGAGGA
SSR0981 DT335775.1b Dimer TA 6 TATATATATATA
Qua bảng 4.2, có 2 loại microsatellites trong một trình tự nên có thể phục
vụ nhiều công tác nghiên cứu khác nhau trong một trình tự đó.
4.2.3. Mô hình quan hệ (Relationships)
Hình 4. 2. Mô hình quan hệ giữa các bảng
58
1: đặt khóa chính của quan hệ ở đầu một thành khóa ngoại của quan hệ
ở đầu , được hiểu theo quan hệ một nhiều.
Các quan hệ giữa các bảng đã đáp ứng được tính chặt chẽ của một cơ sở
dữ liệu, quan hệ một – nhiều bảo đảm cho tính tồn tại của dữ liệu. Nếu khóa
chính không có chứa thông tin thì sẽ không thể có thông tin trên khóa ngoại,
tránh được trường hợp dữ liệu bị nhập sai sót trên khóa ngoại.
Như trường hợp nếu không có mã số truy cập GenbankACC (là khóa
chính) trong bảng tblGenbank thì sẽ không có trình tự micorsatellite của mã số
đó (là khóa ngoại) trong bảng tblSSR và một mã GenbankACC sẽ có nhiều
trình tự SSRs (được trình bày ở bảng 4.2). Tương tự đối với các trường hợp
khác cũng vậy sẽ tạo nên sự thống nhất trong cơ sở dữ liệu, tránh việc dư thừa
và trùng lắp dữ liệu.
Tuy nhiên khi nhập liệu CSDL sinh học khác với những cơ sở dữ liệu
bình thường (khác mã số nhân viên nhưng có thể trùng tên, các đặc điểm
riêng), CSDL sinh học không nên có những trường hợp trùng lắp như vậy, nên
cần thiết lập các bẫy lỗi để hạn chế việc này. Thí dụ như 2 bảng:
Bảng dữ liệu tblSSR, trường hợp trùng lắp mã SSR là không xảy ra
vì nó là khóa chính, nhưng có thể có trường hợp khác đã mã SSR nhưng
trùng mã truy cập, loại motif,… và đặc biệt là vị trí bắt đầu (không thể có
trường hợp trùng vị trí bắt đầu của trình tự microsatellite trong cùng một
mã số truy cập genbank mặc dù đã khác mã số SSR).
Bảng tblStrain khi đã khác mã giống nhưng cần hạn chế trường hợp
trùng tên giống.
Để giảm bớt sự trùng lắp này chúng tôi đã thêm vào thuộc tính duy nhất
(Unique) trong một số trường hợp để hạn chế việc dư thừa dữ liệu khi nhập
bằng tay.
59
4.3. Trang web thể hiện thông tin cơ sở dữ liệu SSRs của Ananas comosus
Cấu trúc của các trang web thể hiện ở hình 4.3
Hình 4. 3. Sơ đồ cấu trúc của trang web
SSRs DATABASE WEB PAGE
HOME PAGE ABOUT SSRs
PAGE
Ananas comosus
PAGE
ESTs PAGE TOOLS PAGE SSRs PAGE ABOUT US
MOTIF LENGTH GROUP
ALL
SEARCH
FIND SSR
60
4.3.1. Trang chủ (HOME PAGE)
Nội dung trang web: Gồm các lựa chọn để liên kết đến các trang web chứa
thông tin và cơ sở dữ liệu khác.
4.3.2. Trang thông tin về microsatellite (ABOUT SSRs PAGE)
Nội dung của trang web: Giới thiệu chung về phương pháp microsatellite.
Hình thức thể hiện:
Hình 4. 4. Nội dung trang thông tin về microsatellite
4.3.3. Trang thông tin về Ananas comosus (Ananas comosus PAGE)
Nội dung của trang web: Giới thiệu một cách tổng quát về cây dứa Ananas
comosus, trong đó gồm:
Hoa.
Trái.
Thân và cành.
Lá.
Điều kiện trồng trọt.
Hình thức thể hiện: như hình 4.5.
61
Hình 4. 5. Nội dung trang thông tin về Ananas comosus
4.3.4. Trang cơ sở dữ liệu ESTs (ESTs PAGE)
Nội dung của trang web: Chứa cơ sở dữ liệu thông tin chi tiết về trình tự
của cây dứa Ananas comosus được lấy trên cơ sở dữ liệu NCBI.
Hình thức thể hiện:
Hình 4. 6. Trang cơ sở dữ liệu ESTs
62
4.3.5. Trang cơ sở dữ liệu SSRs (SSRs PAGE)
Nội dung của trang web: Chứa cơ sở dữ liệu trình tự microsatellite của cây
dứa Ananas comosus gồm có:
Thể hiện tất cả cơ sở dữ liệu SSRs (All): các loại SSRs sẽ được thể hiện,
không được phân loại. Hình thức thể hiện:
Hình 4. 7. Trang cơ sở dữ liệu SSRs (All)
Tìm kiếm các trình tự cần thiết:
Tìm kiếm theo “MotifLengthGroup”: Khi người dùng quan tâm
đến nhóm microsatellite nào, khi chọn sẽ các motif, các đoạn trình tự
SSR cần thiết liên quan đến nhóm đó, và mã số truy nhập của nó cùng
các thông tin của nó trên CSDL NCBI.
Bảng 4. 5. Các nhóm Motif trong cơ sở dữ liệu
Motif Length
Group ID
Motif Length
Group
Description
MO02 Dimer Dinucleotide SSR
MO03 Trimer Trinucleotide SSR
MO04 Tetramer Tetranucleotide SSR
MO05 Pentamer Pentanucleotide SSR
MO06 Hexamer Hexanucleotide SSR
MO07 Heptamer Heptanucleotide SSR
63
MO08 Octamer Octanucleotide SSR
MO09 Nonamer Nonanucleotide SSR
MO10 Decamer Decanucleotide SSR
MO12 Dodecamer Dodecamer SSR
Hình thức thể hiện:
Hình 4. 8. Trang cơ sở dữ liệu SSRs chọn lọc theo “Motif Length Group ID” là
MO04
Các trang web có giao diện thân thiện, dễ sử dụng, có đầy đủ các thông tin về cây
dứa Ananas comosus, phương pháp microsatellite (SSR - Simple Sequence Repeats) và là
CSDL chứa đầy đủ thông tin về trình tự nên rất dễ tìm kiếm theo từng loại SSR, mã số
truy cập nên việc chia sẻ thông tin với người dùng được thực thi rất nhanh.
64
4.3.6. Trang công cụ
4.3.6.1. Trang tích hợp công cụ để tìm kiếm SSR
Dùng để tìm trình tự microsatellite từ một trình tự bất kỳ hay upload file
ở định dạng FASTA, kết quả sẽ hiển thị kết quả đoạn SSR tìm được.
Hình 4. 9. Trang web tìm kiếm trình tự microsatellite
65
Phần 5
KẾT LUẬN VÀ ĐỀ NGHỊ
5.1. Kết luận
Chúng tôi đã tải được 5656 trình tự của Ananas comosus trong đó có 4102
trình tự của giống Smooth Cayenne từ ESTs của NCBI.
Sau khi chạy dò microsatellite thu được 986 trình tự SSRs.
Cơ sở dữ liệu có 4102 trình tự ESTs và 986 trình tự SSRs được tích hợp vào
trang web.
Trang Web cơ sở dữ liệu gồm có 8 trang chính, đó là HOME, Ananas comosus,
ABOUT SSRs, ESTs, SSRs, TOOLS, ABOUT US, Other Links. Ngoài ra, từ những
trang web chính này còn có thể kết nối đến những trang phụ khác để cung cấp những
tiện ích cho người dùng. Từ các trang web này, người sử dụng có thể truy xuất thông
tin.
5.2. Đề nghị
Thu thập cơ sở dữ liệu nhiều giống Ananas comosus hơn vì trong cơ sở dữ liệu
của NCBI chỉ có một giống chính là Smooth Cayenne làm cho cơ sở dữ liệu thêm
phong phú hơn.
Cần thiết lập thêm các bẫy lỗi được trình bày ở phần 4.1.4 để đảm bảo hơn việc
hạn chế trùng lắp dữ liệu không cần thiết khi nhập.
Xây dựng nhiều trang web chứa các thông tin tìm kiếm và công cụ (thiết kế
primer, enzyme cắt giới hạn, xây dựng mô hình cấu trúc,…) phục vụ cho việc khai
thác thông tin và các ứng dụng khác.
Tiến hành thiết kế mồi chung phục vụ cho phản ứng PCR phân biệt các loài
trong họ và giữa các họ thông qua các trang web thiết kế primer trực tuyến trên
Internet như GeneFisher, Primer3,… Hay xây dựng trang web chứa công cụ phục vụ
cho thiết kế primer như GPRIME, Primer3,…kết hợp với ngôn ngữ lập trình Perl.
66
Phần 6
TÀI LIỆU THAM KHẢO
TÀI LIỆU TIẾNG VIỆT
1. Giáo trình CƠ SỞ DỮ LIỆU. Bộ môn cơ sở dữ liệu Trường cao đẳng Công Nghiệp 4.
2. Nguyễn Thị Phương Dung, 2005. Xây dựng phương pháp nhận diện và phân tích tính
đa dạng di truyền của 21 dòng cacao (theobroma cacao l.) bằng kỹ thuật
Microsatellite. Khóa luận tốt ngiệp Ngành Công nghệ sinh học, Đại học Nông lâm TP
Hồ Chí Minh.
3. Nguyễn Minh Đạo, 2002. MS-Access 2000. Trường đại học Sư Phạm Kỹ Thuật, khoa
Công Nghệ Thông Tin.
4. Nguyễn Thị Lang – Bùi Chí Bửu, 2005. Sinh học phân tử. Giới thiệu phương pháp và
ứng dụng. Nhà xuất bản nông nghiệp TP. HCM.
5. Bùi Huy Quỳnh, 2002. Front Page 2000. Trường đại học Sư Phạm Kỹ Thuật, khoa
Công Nghệ Thông Tin.
6. Nguyễn Trường Sinh – Lê Minh Hoàng – Hoàng Đức Hải, 2003. Thực hành
JavaScript (cho web). Nhà xuất bản Thống Kê.
7. Nguyễn Văn Thái, 2005. Xây dựng cơ sở dữ liệu hai gene Hsp-70 và Reverse
Transcripte-Rnaseh ở một số loài virus thực vật. Khóa luận tốt ngiệp Ngành Công
nghệ sinh học, Đại học Nông lâm TP Hồ Chí Minh.
8. Nguyễn Kỳ Trung – Lê Thành Trung, 2005. Thu thập và tổ chức dữ liệu gene phục vụ
nghiên cứu cây trồng biến đổi di truyền. Khóa luận tốt ngiệp Ngành Công nghệ sinh
học, Đại học Nông lâm TP Hồ Chí Minh.
9. Trần Thế Tục – Vũ Mạnh Hải, 2001. Kỹ thuật trồng dứa. Nhà xuất bản nông nghiệp
Hà Nội.
TÀI LIỆU NƢỚC NGOÀI
10. Acquadro A., Lee D., Donini P., Portis E., Comino C., Saba E., Lanteri S., 2003.
Microsatellite Amplified Library (MAL): an alternative approach for STMS isolation.
Bologna – Italy.
11. Edward F. Gilman, 1999. Ananas comosus. University of Florida.
67
12. K.D. Scott, Microsatellites Derived from ESTs and their Comparison with those
Derived by Other Methods. Centre for Plant Conservation Genetics, Southern Cross
University, Lismore, Australia.
13. Ramesh V. Kantety, Mauricio La Rota, David E. Matthews and Mark E. Sorrells,
2002. Data mining for simple sequence repeats in expressed sequence tags from
barley, maize, rice, sorghum and wheat. Kluwer Academic Publishers.
14. Win Hide, Rob Miller, Andrey Ptitsyn, Janet Kelso, Chellapa Gopallakrishnan and
Alan Christoffels, 1999. EST Clustering Tutorial.
TÀI LIỆU TỪ CÁC TRANG WEB:
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
68
PHỤ LỤC
Một số hình ảnh trong trang web trong CSDL microsatellite của Ananas
comosus
Trang About Us.
Trang Other Link.
69
Ví dụ một đoạn SSR dùng để thiết kế mồi:
Lấy một đoạn SSR ở trường “Short Sequence” trong CSDL SSR.
>DV190753
CACTTGGAGGAGCTAGGGTTAGCTGGGTGCAGTAACATAACTGATTCTGGCCTCTCTGTGCTTGCGGACGG
GTGCCGCCACATCAGATTCCTGGATCTCAGTAAATGCTCCAAGATTGGTGATATTGGGGTCTCTAAAATTG
CGGAAGCC[TCTTCTTCTTCT]TTAACTTCACTTAAAATTTTAGATTGCTTCAATGCCGGTGACACATCCA
TCTTCTCTTTGGCCAAGTCCTGCCCTAACCTGGAAACCCTAGTAATCGGCGGCTGCCGTGATATCACCGAC
GAGTCCATAGAAACCCTGTCGGTCGCTTGT
Vào trang web
70
Sau đó thiết kế primer chúng tôi được kết quả:
Primer3 Output
PRIMER DV190753
No mispriming library specified
Using 1-based sequence positions
OLIGO start len tm gc% any 3' seq
LEFT PRIMER 77 20 59.89 50.00 5.00 3.00 GCCACATCAGATTCCTGGAT
RIGHT PRIMER 228 20 59.81 50.00 8.00 0.00 CTTGGCCAAAGAGAAGATGG
SEQUENCE SIZE: 312
INCLUDED REGION SIZE: 312
PRODUCT SIZE: 152, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 0.00
TARGETS (start, len)*: 151,12
1 CACTTGGAGGAGCTAGGGTTAGCTGGGTGCAGTAACATAACTGATTCTGGCCTCTCTGTG
61 CTTGCGGACGGGTGCCGCCACATCAGATTCCTGGATCTCAGTAAATGCTCCAAGATTGGT
>>>>>>>>>>>>>>>>>>>>
121 GATATTGGGGTCTCTAAAATTGCGGAAGCCTCTTCTTCTTCTTTAACTTCACTTAAAATT
************
181 TTAGATTGCTTCAATGCCGGTGACACATCCATCTTCTCTTTGGCCAAGTCCTGCCCTAAC
<<<<<<<<<<<<<<<<<<<<
241 CTGGAAACCCTAGTAATCGGCGGCTGCCGTGATATCACCGACGAGTCCATAGAAACCCTG
301 TCGGTCGCTTGT
KEYS (in order of precedence):
****** target
>>>>>> left primer
<<<<<< right primer
ADDITIONAL OLIGOS
start len tm gc% any 3' seq
1 LEFT PRIMER 13 20 59.89 60.00 4.00 2.00 CTAGGGTTAGCTGGGTGCAG
RIGHT PRIMER 228 20 59.81 50.00 8.00 0.00 CTTGGCCAAAGAGAAGATGG
PRODUCT SIZE: 216, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00
2 LEFT PRIMER 14 20 59.76 55.00 4.00 1.00 TAGGGTTAGCTGGGTGCAGT
RIGHT PRIMER 228 20 59.81 50.00 8.00 0.00 CTTGGCCAAAGAGAAGATGG
71
PRODUCT SIZE: 215, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00
3 LEFT PRIMER 15 20 59.76 55.00 4.00 2.00 AGGGTTAGCTGGGTGCAGTA
RIGHT PRIMER 228 20 59.81 50.00 8.00 0.00 CTTGGCCAAAGAGAAGATGG
PRODUCT SIZE: 214, PAIR ANY COMPL: 3.00, PAIR 3' COMPL: 0.00
4 LEFT PRIMER 77 20 59.89 50.00 5.00 3.00 GCCACATCAGATTCCTGGAT
RIGHT PRIMER 233 20 60.37 50.00 8.00 0.00 CAGGACTTGGCCAAAGAGAA
PRODUCT SIZE: 157, PAIR ANY COMPL: 5.00, PAIR 3' COMPL: 1.00
Statistics
con too in in no tm tm high high high
sid many tar excl bad GC too too any 3' poly end
ered Ns get reg GC% clamp low high compl compl X stab ok
Left 1128 0 0 0 1 0 327 468 0 1 0 24 307
Right 1063 0 0 0 43 0 220 565 0 1 0 28 206
Pair Stats:
considered 6, ok 6
primer3 release 1.0
Các file đính kèm theo tài liệu này:
- TRAN NGUYEN MINH DANG - 02126145.pdf