Khai thác dữ liệu ests (expressed sequence tags) ở chi cam chanh (citrus) cho việc phát triển marker phân tử ssr (simple sequence repeats)
vii
Mục Lục
LỜI CẢM ƠN iii
TÓM TẮT KHOÁ LUẬN .iv
ABSTRACT vi
DANH SÁCH CÁC TỪ VIẾT TẮT xi
Chương 1 1
MỞ ĐẦU . 1
1.1 Đặt vấn đề
1.2.Mục tiêu của khóa luận
Chương 2 3
TỔNG QUAN TÀI LIỆU .3
2.1 Giớ thiệu về chi cam chanh .3
2.1.1 Vị trí phân lọai .3
2.1.2 Đặc điểm 4
2.1.3 Sâu hại và bệnh tật 6
2.2 EST .7
2.3.1 Sơ lược về EST 7
2.3.2 Nguồn gốc của EST .7
2.3.Sơ lược về phương pháp Microsatellite (SSR) .8
2.3.1Những khái niệm về kỹ thuật microsatellite .8
2.3.2 Giới thiệu chung .9
2.3.2.1 Tính chất 9
2.3.2.2 Khuếch đại của microsatellites . 10
2.3.2.3 Những giới hạn của microsatellite 11
2.3.3 Các loại microsatellite . 12
2.3.4 Cơ chế hình thành microsatellite . 12
viii
2.3.5 Vai trò của microsatellite . 13
2.4 Phương pháp xác định microsatellite truyền thống . 15
2.5 Phương pháp phát hiện microsatellite sử dụng . 16
2.6 Ứng dụng . 18
2.7 Cơ sở dữ liệu sinh học . 18
2.7.1 NCBI 19
2.7.1.1 Vài nét về NCBI 19
3.1.1.2 Một số cơ sở dữ liệu trong NCBI 19
Chương 3 . 20
VẬT LIỆU VÀ PHưƠNG PHÁP 20
3.1 Các chương trình và ngôn ngữ lập trình được sử dụng . 20
3.1.1 Hệ điều hành 20
3.1.2 Các chương trình phân tích trình tự .20
3.1.2.1 Chương trình Perl ssrfinder_1 20
3.1.2.2 Chương trình tìm kiếm các trình tự tương đồng – BLAST 22
3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS .23
3.1.2.4 Egassembler 23
3.1.3 Apache web Server 24
3.4 CÁC BưỚC TIẾN HÀNH .25
Chương 4 37
KẾT QUẢ VÀ THẢO LUẬN 37
4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST .37
4.2 Loại các dữ liệu nhiễu và dư bằng công cụ EGassembler bao gồm các bước sau:
.38
4.2.1 Làm sạch trình tự .38
4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors .39
4.2.3 Dấu những vùng trình tự nhiễu của các bào quan 39
ix
4.3 Assembling 41
4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder 42
4.4.1 BLASTn: .43
4.5.Thiết kế và kiểm tra primer .45
4.6 tBLASTx .48
4.7. Đưa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ dàng
truy xuất thông tin. 49
4.8 Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia sẽ
thông tin qua mạng. 49
4.8.1 Trang chủ (HOME PAGE) 49
4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) .50
Chương5 .52
KẾT LUẬN VÀ ĐỀ NGHỊ .52
5.1. Kết luận 52
5.2. Đề nghị .53
TÀI LIỆU THAM KHẢO .54
Phụ Lục .57
xi
DANH SÁCH CÁC BẢNG
Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI 26
Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI 26
Bảng 3.3 Nội dung tblStrain .34
Bảng 3. 4 Nội dung tblMotifLengthGroup .34
Bảng 3.5 Nội dung tblSSR 34
Bảng 4.1 số lượng ESTs của từng loài thu nhận được từ NCBI .37
Bảng 4.2 Số trình tự bị lọai bỏ ở bước 2.1 .38
Bảng 4.3 số trình tự bị lọai bỏ ở bước 2.3 .39
Bảng 4.4 số trình tự bị lọai bỏ ở bước 2.4 .39
Bảng 4.5 số lượng Contigs thu được ở mỗi lòai sau khi assembling 41
Bảng 4.6 Tổng số lượng SSRs thu nhận được 42
Bảng 4.7 Lượng trình tự ESTs và số primer mới được tạo thành .43
Bảng 4.8 Tổng số primer thiết kế được .45
Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra 45
Bảng 4.10 Các trình tự tương đồng với gene kháng virus tristeza 48
Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu .50
Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu 51
xii
DANH SÁCH CÁC HÌNH
Hình 2.1. CTV dưới KHV điện tử . 6
Hình 2.2: Nguồn gốc của EST 8
Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân . 12
Hình 2.4 Cơ chế trượt lỗi trong quá trình sao mã . 13
Hình 2.5: Phương pháp phân lập microsatellite truyền thống 16
Hình 2.6 Tương quan giữa NCBI (National Library of Medicine và NIH) 19
Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI (nguồn
http://www.NCBI.nlm.nih.gov/genomes/.tlist.html#est) 27
Hình 3.2 : Các bước thực hiện của Egassembler 29
Hình 3.3 phân biệt giữa Contig và Singleton 30
Hình 3.4 nội dung tập tin “ssrout20030101.txt” .31
Hình 3.5 nội dung tập tin “labdbout20030101.txt” .31
Hình 3.6 Nội dung tập tin “new_ids20030101.txt” .32
Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn: http://www.ncl-
india.org/ssr/ssr.htm) .36
Hình 4.1: Sơ đồ so sánh lượng ESTs của từng loài 37
Hình 4.2: Bảng so sánh dữ liệu ESTs trước và sau khi lọai nhiễu .40
Hình 4.3: Bảng so sánh lượng Contigs và ESTs .41
Hình 4.4: Biểu đồ so sánh lượng SSRs phân lập và lượng ESTs ban đầu .42-43
Hình 4.5: Biểu đồ so sánh lượng noneprimers và ESTs, Primers mới 44
Hình 4.6: Bảng so sánh lượng Primers trước và sau khi kiểm tra 46
Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế được 47
Hình 4.8 : Mối quan hệ giữa các bảng 49
Hình 4.9: Tổng quan về Website 49
Hình 4.10 Trang cơ sở dữ liệu SSRs (All) 50
Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và “Motif
Length Group ID” là 3 51 .
Khai thác dữ liệu ests (expressed sequence tags) ở chi cam chanh (citrus) cho việc phát triển marker phân tử ssr (simple sequence repeats)
71 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2057 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Khóa luận Khai thác dữ liệu ESTs (expressed sequence tags) ở chi cam chanh (citrus) cho việc phát triển marker phân tử SSR (simple sequence repeats), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
)4
ACTCACTCACTCACTC
Trinucleotide SSR xuất hiện ít hơn dinucleotide SSR khoảng 10 lần, và
tetranucleotide SSR còn hiếm hơn nữa (Ma và ctv., 1996).
2.3.4 Cơ chế hình thành microsatellite
Cơ chế đột biến hình thành microsatellite vẫn chƣa đƣợc hiểu biết một cách
đầy đủ. Tuy nhiên di truyền học và các nghiên cứu khác cho rằng cơ chế xuất hiện
và hình thành microsatellite là do 2 quá trình sau:
Quá trình bắt chéo lỗi trong quá trình giảm phân (unequal crossing- over
during meiosis)
.
Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân
13
Quá trình trƣợt lỗi trong sao mã (replication slippage)
Đây đƣợc coi là nguyên nhân chủ yếu và nó xảy ra trên mạch chậm (lagging
strand). Quá trình này liên quan đến quá trình trƣợt lỗi của enzyme polymerase trên
phân tử DNA mới tổng hợp. Sự trƣợt lỗi này tạo ra một chỗ phình nhất thời có thể
bị loại bỏ trong quá trình sửa lỗi hoặc là có thể kéo dài thêm ở mạch đối diện tạo
thành một đoạn lặp lại dài hơn.
Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã
2.3.5 Vai trò của microsatellite
Rất nhiều microsatellite đã đƣợc tìm thấy ở vùng phía trên của các vùng khởi
đầu sao mã của vùng mang mã. Chức năng rõ rệt của những vùng nhƣ vậy vẫn còn
chƣa rõ ràng, mặc dù ngƣời ta tìm thấy chúng tồn tại giữa các vùng exon và có liên
quan tới các bệnh di truyền.
Microsatellite đƣợc dùng nhƣ một marker di truyền để nghiên cứu về di
truyền quần thể, quan hệ tiến hóa, lập bản đồ gen. Tuy nhiên có rất nhiều chứng cứ
14
cho rằng trình tự microsatellite cũng đóng vai trò là yếu tố mang mã hoặc nhân tố
điều hòa. Microsatellite đƣợc tìm thấy khắp nơi ở phần trƣớc vùng khởi đầu sao mã
của vùng mang mã, và một số đã đƣợc tìm thấy có quan hệ với vùng mã hoá. Số
lƣợng khác nhau của các đoạn lặp lại của microsatellite ở vùng mã hoá có quan hệ
với sự biểu hiện của gene và chức năng của gene.
Ở một số trƣờng hợp, sự thay đổi (mất hoặc thêm) các đơn vị lặp lại của
microsatellite cũng làm thay đổi chức năng hoạt động của promotor. Vị trí của
microsatellite gần hay xa promotor cũng làm hoạt động của promotor thay đổi.
Vùng điều khiển có chứa microsatellite hoạt động nhƣ một nhân tố thúc đẩy quá
trình phiên mã và những đột biến mất đoạn microsatellite đã làm giảm chức năng
của gen.
Microsatellite cũng liên kết với các protein bám mà các protein này có chức
năng bám dính vào các trình tự khởi động của gene, khi trình tự này đƣợc giải
phóng thì gen đƣợc khởi động và sao mã. Điều này chỉ ra rằng microsatellite hoạt
động nhƣ một yếu tố điều hòa trong quá trình sao mã, ảnh hƣởng đến quá trình sao
mã thông qua ảnh hƣởng đến protein bám. Rất nhiều nghiên cứu chỉ ra rằng ảnh
hƣởng thúc đẩy của microsatellite và protein bám dính của nó là một chức năng của
các đoạn lặp lại trong một vùng microsatellite đặc biệt nào đó. Nhƣ một trình tự
mang mã, microsatellite đã đƣợc tìm thấy biểu hiện ở rất nhiều protein và sự khác
nhau về số lần lặp lại của các trình tự trong microsatellite có thể dẫn đến sự khác
nhau về chức năng của protein và hoạt động của gen, do đó có thể ảnh hƣởng đến
chức năng sinh lý cũng nhƣ sự phát triển của cơ thể.
Một số nghiên cứu gần đây đã chỉ ra rằng có sự ảnh hƣởng của chiều dài
khác nhau của microsatellite đến hình thái và sự phát triển ở mức độ cơ quan đƣợc
tổng kết lại nhƣ một yếu tố chức năng của hệ gen. Những tính chất đặc biệt của
microsatellite nhƣ sự đột biến điểm dẫn đến những giả thiết cho rằng microsatellite
có thể là một nguồn chủ yếu tạo nên sự đa dạng về di truyền số lƣợng và quá trình
tiến hóa thích nghi (Kashi và ctv.,1990,1997). Nó cho phép một quần thể có thể
khôi phục lại nguồn đa dạng di truyền đã bị mất trong quá trình chọn lọc, nó hoạt
15
động nhƣ một “núm điều chỉnh” mà qua đó những gen đặc biệt có thể điều chỉnh
nhanh chóng các phản ứng thay đổi ít hay nhiều trong quá trình đòi hỏi của tiến hóa
(King và ctv., 1997, 1998). Do vậy microsatellite là một nguồn rất quan trọng trong
việc nghiên cứu đa dạng di truyền và làm cơ sở cho sự thay đổi của tiến hóa
2.4 Phƣơng pháp phân lập microsatellite truyền thống
Primer của microsatellite đƣợc phát triển bởi việc tạo dòng ngẫu nhiên một
đoạn DNA từ những giống loài trọng tâm. Những đoạn này đƣợc chèn vào plasmid
hoặc phage vector, và đƣợc chuyển tiếp vào vi khuẩn Escheria coli. Khuẩn lạc sau
đó phát triển và đƣợc chụp lên phim với những trình tự nucleotide đƣợc đánh dấu
huỳnh quang đƣợc lai với trình tự lặp lại của microsatellite, nếu nó có hiện diện trên
đoạn DNA. Nếu dòng dƣơng tính có thể thu đƣợc từ quy trình này, đoạn DNA đƣợc
đọc trình tự và primers PCR sẽ đƣợc chọn từ vùng trình tự liên kết nhƣ vùng để xác
định vị trí đặc trƣng. Quy trình này liên quan đến những thử nghiệm thành công, khi
trình tự lặp lại của microsatellites phải đƣợc dự đoán trƣớc và primers đƣợc thu
nhận ngẩu nhiên có thể không biểu hiện tính đa hình có ý nghĩa.Vị trí microsatellite
đƣợc trải xuyên suốt genome và có thể đƣợc thu nhận từ sự thoái hoá DNA chung
của những mẫu cũ hơn, khi đó là tất cả những chất nền cần thiết và hợp lí để khuếch
đại thông qua PCR.
Primer microsatellite đặc trƣng cho một loài sẽ giúp phát hiện sự đa hình ở
những vị trí tƣơng đồng (cùng locus trên mỗi alleles) đối với từng cá thể trong loài.
Điều này có thể thực hiện đƣợc là nhờ trình tự microsatellite và trình tự của vùng
flanking- vùng nằm ở 2 bên trình tự microsatellite để thiết kế primer- đƣợc bảo tồn
trong quá trình di truyền của loài. Vùng flanking rất quan trọng vì nó giúp phát hiện
trình tự microsatellite đặc trƣng ở mỗi locus trên nhiễm sắc thể.
Một qui trình phân lập 1 SSR mất khoảng 3 tuần trong đó giai đọan thiết kế
mồi và kiểm tra mòi vừa thiết kế cho SSR mất khỏang hơn 2 tuần. Đồng thời phải
tốn một chi phí khá lớn để mua các hóa chất và máy móc cần thiết để tiến hành thí
nghiệm ( cần khoảng 200 USD tiền hóa chất để xác định đƣợc 1SSR) nhƣng rủi ro
thu đƣợc SSR là khá lớn
16
Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống
2.5 Phƣơng pháp phân lập microsatellite sử dụng
SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay
thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mò mẫm.
17
Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có
chi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs luôn sẵn có.
Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ nhƣ:
1.MIcroSAtellite (MISA) []
2.Sputnik [ /sputnik/index.html]
3.CUGIssr []
4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl]
5.SSRFinder [
SSRFINDER/ssrfinder_1_0.tar.gz]
Công cụ đƣợc tìm kiếm trình tự SSR đƣợc tham khảo và tải về từ địa chỉ
của
tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR và
những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu về
sau.
So sánh hiệu quả của 2 phƣơng pháp phân lập
Phƣơng pháp truyền thống Phƣơng pháp sử dụng
Chỉ xác định đƣợc 1 hoặc vài SSR
trong 1 lần thí nghiệm
Tiền hóa chất, nhân công và thiết bị
khá nhiều
Thời gian để tiến hành 1 qui trình
phân lập , thiết kế mồi cho1 SSR khá
lâu (khoảng 3 tuần)
Không xác định đƣợc chính xác các
SSRs có thể có trong gene
Độ chính xác không cao do có thể bị
nhiễm trong quá trình làm
Có thể xác định đƣợc nhiều SSR 1 lúc
Chi phí cho quá trình phân lập khá
thấp vì không phải tốn tiền hóa chất và
máy móc thiết bị nhiều
Thời gian tiến hành phân lập và thiết
kế mồi nhanh (1 phút)
Xác định chính xác các SSRs có thể
có trong 1 gen
Độ chính xác cao do cơ sở dữ liệu đã
đƣợc phân tích và công bố rộng rãi
18
2.6 Ứng dụng
Thiết kế bản đồ gen trong di truyền
Đa dạng hóa vật liệu di truyền
Nghiên cứu quần thể
Chẩn đoán và xác định các bệnh ở ngƣời
Sử dụng cho việc bảo tồn hệ sinh vật trong thiên nhiên
2.7 Cơ sở dữ liệu sinh học
Dữ liệu sinh học đang đƣợc thu nhận với tốc độ rất nhanh. Đến tháng 8 năm
2000, ngân hàng dữ liệu GENEBANK đã có 8.214.000 mục liên quan đến các trình
tự sinh học DNA và cơ sở dữ liệu SWISS-PROT có 88.166 mục liên quan đến các
trình tự protein. Trung bình những sơ sở dữ liệu đang tăng gấp đôi kích thƣớc sau
mỗi chu kỳ 15 tháng. Ngoài ra sự ra đời của vô số dự án nghiên cứu gen, xác định
cấu trúc protein đƣợc mã hóa trong bộ gen... đã tạo ra một lƣợng lớn thông tin sinh
học và thông tin này ngày càng đa dạng và phong phú.
Do dữ liệu sinh học tăng trƣởng mạnh mẽ nên công cụ tin học đã trở thành
một phƣơng tiện không thể thiếu trong phân tích xử lý dữ liệu sinh học. Công nghệ
thông tin có thể quản lý nguồn dữ liệu khổng lồ, phân tích các dữ liệu đa dạng và
luôn biến đổi trong thế giới tự nhiên. Ngành Sinh Tin học đƣợc xem là lĩnh vực
nghiên cứu liên ngành nhằm kết hợp các kỹ thuật xử lý, tính toán và tổ chức thông
tin bằng thiết bị tin học với các kỹ thuật, công cụ phổ biến trong ngành sinh học
phân tử.
Sinh tin học hiện đang là ngành nghiên cứu khoa học khá mới tại Việt Nam ,
ra đời với mục tiêu xây dựng các công cụ để tính toán , mô phỏng và đƣa ra những
chƣơng trình máy tính phục vụ nghiên cứu sinh học .
Có thể tiến hành phân lập SSR từ bất
cứ đọan gen mong muốn nào
trên NCBI và các cơ sở dữ liệu sinh
học lớn khác
Nếu không có cơ sở dữ liệu EST thì
không thể tiến hành phân lập SSR
19
Một số cơ sở dữ liệu lớn, trực tuyến đã đƣợc xây dựng để cung cấp thông tin
cho các nhà nghiên cứu sinh học nhƣ NCBI, EBI, SIB, DDBJ,…
2.7.1 NCBI
2.7.1.1 Vài nét về NCBI
Hình 2.6 Tƣơng quan giữa NCBI (National Library of Medicine và NIH)
NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là
trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa
kỳ (NIH – National Insitute of Health). NCBI chính thức đƣợc thành lập vào ngày
4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự
DNA và từ đó NCBI còn đƣợc gọi là GenBank.
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông
qua những cơ sở dữ liệu trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu
về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích
dữ liệu bộ gene, protein,…
3.1.1.2 Một số cơ sở dữ liệu trong NCBI
Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide.
Protein: là cơ sở dữ liệu về trình tự amino acid.
Genome: trình tự toàn bộ genome của một số sinh vật.
Structure: hay còn có tên gọi là MMDB (Molecular Modeling
Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn
những chuỗi nucleotide.. DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của
Hoa Kỳ là ba cơ sở dữ liệu về trình tự nucleotide lớn, mang tính toàn cầu và ba cơ
sở dữ liệu này có hợp tác, trao đổi qua lại dữ liệu lẫn nhau. Từ đó, càng làm cho cơ
sở dữ liệu về các trình tự nucleotide ngày càng trở nên phong phú
NLM
NCBI
NIH
20
Chƣơng 3
VẬT LIỆU VÀ PHƢƠNG PHÁP
3.1 Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng
3.1.1 Hệ điều hành
Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs của
chi cam chanh (Citrus) trên hệ điều hành này.
3.1.2 Các chƣơng trình phân tích trình tự
3.1.2.1 Chƣơng trình Perl ssrfinder_1_0
Đây là một chƣơng trình của tác giả Steven Schroeder thuộc trƣờng
Đại học Missouri – Michigan. Chƣơng trình gồm 6 Perl scripts có chức năng
xác định SSR và thiết kế primer thích hợp cho mỗi SSR tìm đƣợc
- 1_ssr_repeat_finder.pl: tìm SSR, lấy ra trình tự SSR và vùng
flanking cho những phân tích sau.
- 2_ssr_primer_designer.pl: thiết kế primer mà mục tiêu là khuếch đại
vùng trình tự chứa SSR.
- 3_ssr_primer_rep_check.pl: sàng lọc lại các primer đã thiết kế để
loại bỏ những primer có chứa trình tự lặp lại
- 4_ssr_primer_blast.pl: so sánh các primer đã thiết kế với cơ sở dữ
liệu primer
- 5_ssr_order_filter.pl: tạo 1 file chỉ chứa SSR mà có primer duy nhất
- 6_ssr_primer_formatter.pl: tạo 1 file chỉ chứa SSR có primer duy
nhất – file này đƣợc tạo đơn giản chỉ chứa những thông tin cần thiết cho việc
chọn lựa primer.
21
Yêu cầu: vì chƣơng trình này đƣợc viết cho hệ điều hành Unix hay
Linux nên cần phải thực hiện sửa đổi một số lệnh lập trình cơ bản để có thể
chạy trên môi trƣờng Window.
Chƣơng trình cần sự kết hợp với 3 phần mềm khác là Primer3, blastall
và formatdb để thực thi. Ba phần mềm này có thể tải hoàn toàn miễn phí (có
phiên bản dành cho Window) từ trang Primer3
và trang Blast của NCBI
Các thông số của chƣơng trình thiết kế primer đều đƣợc mặc định nhƣ
sau
TARGET= m, n với m là vị trí bắt đầu có microsatllite và n là chiều
dài microsatellite (mục tiêu)
PRIMER_PRODUCT_SIZE_RANGE=80-160 80-240 80-300 (kích
thƣớc sản phẩm)
PRIMER_OPT_SIZE=24 (kích thƣớc tối ƣu của primer)
PRIMER_MIN_SIZE=20 (kích thƣớc tối thiểu của primer)
PRIMER_MAX_SIZE=28 (kích thƣớc tối đa của primer)
PRIMER_OPT_TM=63 (nhiệt độ nóng chảy tối ƣu của primer)
PRIMER_MIN_TM=60 (nhiệt độ nóng chảy tối thiểu của primer)
PRIMER_MAX_TM=65 (nhiệt độ nóng chảy tối đa của primer)
PRIMER_MAX_DIFF_TM=1 (độ chênh lệch nhiệt độ nóng chảy tối
đa)
Với các thông số mặc định trên chƣơng trình hoàn toàn có thể sử dụng cho
mục tiêu của đề tài.
Hiện nay, có rất nhiều phần mềm để phân lập SSR từ ESTs, ví dụ nhƣ:
1.MIcroSAtellite (MISA) [],
2.Sputnik [ /sputnik/index.html],
3.CUGIssr []
4.SSRSEARCH [ftp://ftp.gramene.org/pub/gramene/software/scripts/ssr.pl]
22
5.SSRFinder [
SSRFINDER/ssrfinder_1_0.tar.gz]
Các công cụ này hầu nhƣ dựa trên cùng một thuật toán tìm SSR, tuy nhiên
mỗi phần mềm đƣợc viết bằng các ngôn ngữ lập trình khác nhau. Một điểm nổi bật
của công cụ SSRFinder (đƣợc viết bằng Perl, có tích hợp Primer3 và ncbi-BLAST)
là có tích hợp thêm những Perlscript giúp hỗ trợ việc thiết kế primer cũng nhƣ kiểm
tra lại primer, tuy nhiên các Perlscript này đƣợc lập trình dƣới hệ điều hành UNIX
nên cần đƣợc chỉnh sữa để có thể sử dụng trên hệ điều hành Windows. Ngoài ra,
còn có rất nhiều trang web hỗ trợ việc tìm SSR trên trình tự nhƣ:
1.SSR Server []
2. SSR Primer Discovery [
binpub/ssrprimer/indexssr.pl]
3. SSRIT []
3.1.2.2 Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST
BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc
nhiều ngƣời dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tƣởng “liệu
trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế
giới nhƣ GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự
đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay
protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống
kê chính xác về tỉ lệ tƣơng đồng và nguồn gốc các trình tự.
Chiến lƣợc tìm kiếm trình tự tƣơng đồng trong BLAST đƣợc thực hiện qua
ba bƣớc chính:
Đầu tiên BLAST tìm kiếm những đoạn tƣơng đồng HSPs (High Scoring
Pair) giữa một trình tự đƣa vào và mỗi trình tự trong CSDL.
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự
tƣơng đồng nào đƣợc tìm thấy.
Sau cùng BLAST đƣa ra một báo cáo kết quả giống nhau thỏa mãn ngƣỡng
giá trị mà ngƣời dùng mong muốn.
23
Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa chỉ của
trang CSDL NCBI: blast-2.2.14-ia32-win32.exe
(ftp://ftp.ncbi.nih.gov.blast/executables/).
3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS
Microsoft Access là một phần mềm ứng dụng thuộc bộ phần mềm Microsoft
Office, đƣợc sử dụng để quản lý dữ liệu (quản lý nhân sự, khách hàng, vật tƣ, kế
toán…).Phần mềm này đƣợc bảo vệ và phân phân phối bởi hãng Microsoft
Phiên bản Access tùy thuộc vào phiên bản của bộ phần mềm Microsoft
Office
Để sử dụng phần mềm này chúng ta phải mua bản quyền của Microsoft
Mỗi tập tin ACCESS gọi là một cơ sở dữ liệu.
Một cơ sở dữ liệu chứa đựng nhiều dữ liệu nằm trong một thành phần
chính của một tập tin ACCESS gọi là bảng (TABLE).
Các bảng này có mối quan hệ với nhau theo một quy luật nào đó do
ngƣời thiết kế tạo nên.
3.1.2.4 Egassembler
Là 1 công cụ trực tuyến cung cấp những công cụ sinh học tự động mà ngƣời
dùng có thề sử dụng để phân tích làm sạch trình tự, dấu những vùng lập lại, dấu
những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu
của các bào quan, sắp gióng cột và assembly các đọan ESTs và đọan genomic. Hệ
thống máy chủ chấp nhận nhiều dạng trình tự DNA ở dạng FASTA nhƣ EST, ,
cDNA, gDNA, GSS
Hệ thống gồm 5 công cụ chính:
Làm sạch trình tự
Dấu những vùng lặp lại
Dấu những vùng trình tự nhiễu của vector và adaptors
Dấu những vùng trình tự nhiễu của các bào quan
Assembling: sắp gióng cột vá chồng các trình tự lại với nhau
tạo thành các Contigs và Singletons
24
Egassembler web có 3 tùy chọn chính, mỗi tùy chọn dành cho những ngƣời
dùng khác nhau
One-Click Assembly : cho ngƣời dùng mới bắt đầu với sinh tin học, các
bƣớc sẽ đƣợc thực hiện lần lƣợt theo mặc định đã cài sẵn, ngƣời dùng có
thể lựa chọn thƣ viện dữ liệu để dấu những vùng lặp lại, dấu những vùng
trình tự nhiễu của vector và adaptors, dấu những vùng trình tự nhiễu của
các bào quan.Các quá trình xử lý đƣợc thực hiện lần lƣợt.
Step-by-Step Assembly: Ngƣời dùng có thể sử dụng mọi công cụ trong
web, và có thể chạy từng mục một với các tùy chọn nâng cao. Kết quả
đầu ra ở bƣớc trƣớc sẽ đƣợc sử dụng làm dữ liệu đầu vào cho bƣớc tiếp
theo một cách tự động. Ngƣời dùng có thể đi đến bất kỳ bƣớc nào vào bất
cứ thời điểm nào với kết quả đã đƣợc lƣu lại từ trƣớc
Stand-Alone Processing : Tùy chọn này giống với Step-by-Step
Assembly chỉ khác ở chỗ ngƣời dùng không thể sử dụng kết quả đầu ra ở
bƣớc trƣớc để làm dữ liệu đầu vào cho các quá trình sử lý khác
3.1.3 Apache web Server
. Apache web Server là một trình chủ web đƣợc nhiều ngƣời dùng nhất hiện
nay trên Internet. Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là
một chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp
Apache đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên
thế giới.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web
thông qua các module. Khi một yêu cầu từ trình tự khách đƣợc gởi đến Apache phải
trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho ngƣời dùng.
Apache có thể đƣợc tải về từ địa chỉ : (
25
3.4 CÁC BƢỚC TIẾN HÀNH
1 Thu nhập trình tự
2 Lọai các dữ liệu nhiễu và dƣ
3. Aseembling
4 Tìm SSR 4.1Blastn 4 Tìm SSR
5 Thiết kế và kiểm tra Primer
6. tBLASTx trên cơ
sở dữ liệu UniGene
7. 7.Đƣa vào
Sơ đồ qui trình phân lập và xác định 8 Tích hợp
chức năng SSR của cây cam quýt
CSDL dbEST và CoreNucleotide của NCBI
ESTs - Citrus
ESTs Citrus không
thừa, không nhiễu
Contigs
Singletons
ESTs, SSR Citrus
CSDL EST-SSr
Primer Citrus
Cơ sở dữ liệu quan hệ
WebSite
Cơ sở dữ liệu EST-SSR-
Primer Citrus liên quan đến
gene kháng bệnh
EST-SSR none
primer citrus
26
Bƣớc 1. Thu thập trình tự ESTs Citrus từ CSDL dbEST
Quá trình thu nhận trình tự nucleotide đƣợc tóm tắt thành sơ đồ sau
Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI
Từ khóa sử dụng cho tung lòai là
Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI
Citrus aurantium "txid43166"[Organism] AND gbdiv_EST[PROP]
Citrus clementina "txid85681"[Organism]ANDgbdiv_EST[PROP]
Citrus jambhiri "txid64884"[Organism]ANDgbdiv_EST[PROP]
Citrus macrophylla (colo) "txid307630"[Organism]ANDgbdiv_EST[PROP]
Citrus reticulata x Citrus
temple
“xid322160"[Organism]ANDgbdiv_EST[PROP]
Truy cập trang web NCBI
Nhập từ khóa
Chọn lọc theo giống
Chọn cơ sở dữ liệu EST
Chọn dạng FASTA
Thu nhận tất cả trình tự
nucleotide theo từng giống
Chọn dạng Summary
Thu nhận các thông tin liên
quan
27
Citrus reticulata "txid85571"[Organism] AND gbdiv_EST[PROP]
Citrus sinensis “xid2711"[Organism] AND gbdiv_EST[PROP]
Citrus unshiu “xid55188"[Organism] AND gbdiv_EST[PROP]
Citrus x paradisi ( “xid37656"[Organism] AND gbdiv_EST[PROP]
Citrus sinensis x Poncirus
trifoliata
“xid105581"[Organism]AND gbdiv_EST[PROP]
Citrus x paradisi x
Pondcirus trifoliata
“"txid309804"[Organism]ANDgbdiv_EST[PROP]
Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI
(www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est)
28
Định dạng FASTA: là định dạng theo quy định của NCBI, FASTA là một giải thuật
bắt cặp trình tự đƣợc David J. Lipman và William R. Pearson miêu tả lần đầu tiên
vào năm 1985 (Rapid and sensitive protein similarity searches), nó có một hàng chú
thích bắt đầu bằng ký tự “>” ở cột đầu tiên.
Ví dụ một định dạng FASTA:
>gi|146351219|gb|EG026743.1|EG026743 KN0AAA2CF05ZM1 AbsAOv1
(Citrus) clementina cDNA 5', mRNA sequence
GGCTCAAGTACTTATTTTTTAATATAGTGCACTCGAAGCTAGCAAATATC
TTTTCTGACTTGAAGAATATGAAAACTCTTCCTGGCGCAGGTATGAGCG
ATCCGTCAGAAGGTTACTTACTCCCCCCTTCCAGTATTGCTGATGATGAT
GTTGGGAATGACAATCTTGATCTTATCGTTATTCCTCAATATGGGAGAA
ATCCTGATTATTATGGGTAAGTGTCTGCAATCTGGATGATGATATATATA
Trong đó:
gi là mã số do NCBI quy định.
gb là mã số của cơ sở dữ liệu gen (Genbank) của từng loài.
Chúng tôi thu nhận đƣợc tổng cộng 189385 trình tự ESTs, thuộc 11 lòai khác
nhau.
29
Bƣớc 2.Loại các dữ liệu nhiễu và dƣ bằng công cụ EGassembler bao gồm các
bƣớc sau:
Hình 3.2 : Các bƣớc thực hiện của EGassembler
30
2.1 Làm sạch trình tự: loại các đuôi PolyA/PolyT, những vùng trình tự
phức tạp thấp, những vùng trình tự kém chất lƣợng (N), những trình tự ESTs <
100N.
2.2 Dấu những vùng lặp lại: nhƣ LINEs (long interspersed elements),
SINEs (short interspersed elements), LTR (Long Tandem Repeat), DNA
transposon, RNA pseudogenes dựa trên CSDL RepBase, TIGR và TREP.
2.3 Dấu những vùng trình tự nhiễu của vector và adaptors: dựa trên
CSDL NCBI-UniVec hay EMBL-emvec.
2.4 Dấu những vùng trình tự nhiễu của các bào quan: nhƣ Plastids,
Plasmids, ti thể và Nucleomorph dựa trên CSDL của NCBI-organelle.
Bƣớc 3. Assembling: bằng EGassembler với hai hoặc nhiều trình tự chồng lên nhau
có độ tƣơng đồng tối thiểu là 80% và chiều dài của đoạn chồng lên nhau tồi thiểu là
40N.
Các trình tự có độ tƣơng đồng cao đƣợc gom lại thành một gọi là
Contigs.Các đọan trình tự không có đọan tƣơng đồng với các trình tự khác đƣợc gọi
là Singleton.
Hình 3.3 phân biệt giữa Contig và Singleton
Bƣớc 4.Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder
Thu nhận trình tự SSR
Các bƣớc thực hiện:
Trình tự nucleotide thu nhận từ NCBI về đƣợc lƣu thành tập tin với tên là
“sequence20030101.txt”.
31
Thực thi đoạn mã Perl “SSRRepeatFinder.pl”, khi đó chƣơng trình sẽ tạo ra 3
tập tin khác với tên lần lƣợt là “ssrout20030101.txt”, “labdbout20030101.txt”,
“new_ids20030101.txt”.
Hình 3.4 nội dung tập tin “ssrout20030101.txt”
Trong tập tin này nó sẽ gồm các nội dung theo thứ tự là:
Mã của đoạn SSR (SSR Version) (EG026717.1a) dựa vào mã số genbank
(EG026717.1) để tạo ra mã quy định cho mỗi đoạn SSR, khi một trình tự có 2 hay
nhiều đoạn SSR thì nó sẽ quy định là “a”, “b”, “c”,… (EG026717.1a và
EG026717.1b)
Trình tự đoạn SSR: TATATATATATA
Đoạn SSR (Motif): TA
Đoạn SSR trong trình tự chính đƣợc rút gọn, nó đƣợc phân biệt trong dấu
“[]”
TTGTTACAGTAGCAATTTTGACTCACTCTTAAGTCTTTGCTGTTGTATTG
ATATCAACTGTTATTGACGACTTTTAATAGTGCATTTCCATGATTTTGTC
TATTAACTTGTCAATAAAAGTAAAGAATTCCTGTATTGCAAAATTACTTT
[TATATATATATA]GAGGGGTTATGCGGTCTGGGATCCCAGACTGTAATT
AAAGTCCAGGAT
Hình 3.5 nội dung tập tin “labdbout20030101.txt”
EG026717.1 EG026717.1a TATATATATATA TA 369,12
TTGTTACAGTAGCAATTTTGACTCACTCTTAAGTCTTTGCTGTTGTATTGATAT
CAACTGTTATTGACGACTTTTAATAGTGCATTTCCATGATTTTGTCTATTAACTTGTCAA
TAAAAGTAAAGAATTCCTGTATTGCAAAATTACTTT[TATATATATATA]GAGGGGTTA
TGCGGTCTGGGATCCCAGACTGTAATTAAAGTCCAGGATTGGGACCATGTGTAGCAGA
TTAATAAATAAATAAATAAATCCAACGGCCTCAGTCCGGATACTAGTTTGGAT
EG026717.1a TATATATATATA TA
TTGTTACAGTAGCAATTTTGACTCACTCTTAAGTCTTTGCTGTTGTATTGATATCAACTG
TTATTGACGACTTTTAATAGTGCATTTCCATGATTTTGTCTATTAACTTGTCAATAAAAGTAAAGA
ATTCCTGTATTGCAAAATTACTTT[TATATATATATA]GAGGGGTTATGCGGTCTGGGATCCCAGA
CTGTAATTAAAGTCCAGGATTGGGACCATGTGTAGCAGATTAATAAATAAATAAATAAATCCAACG
GCCTCAGTCCGGATACTAGTTTGGAT
32
Nội dung tập tin này gần giống với tập tin “ssrout20030101.txt”, nó chỉ bổ
sung thêm phần mã genbank (EG026717.1) và vị trí bắt đầu (369) và chiều dài đoạn
SSR (12).
Hình 3.6 Nội dung tập tin “new_ids20030101.txt”
Tập tin “new_ids06062007.txt” bổ sung thêm phần định nghĩa
Nguyên tắc thu nhận trình tự
Thu nhận các trình tự SSR bằng cách đếm các trình tự nu lập lại trong gene
theo nguyên tắc: dimer 6 repeats, trimer 4 repeats, tetramer 4 repeats. Phải chắc
rằng các SSR thu nhận phải có nhiều trình tự hơn giới hạn đã đặt ra ở trên và không
thu nhận những trình tự có 1 trình tự lập lại nhiều lần nhƣ
AAAAAAAAAAAAAAA, TTTTTTTTTTTTTTT
Bƣớc 4.1 BLASTn:
Dùng Perl script thực hiện việc tìm kiếm những trình tự EST-SSR không thể
thiết kế primer do vùng flanking quá ngắn trên các contigs bảo tồn, với mục đích
kéo dài các EST-SSR. Chúng tôi đã thiết kế Perl script “Blast on Contig” để thực
hiện qui trình này vì trong phần mềm SSRFinder khong hỗ trợ chức năng này
Các trình tự EST-SSR không thể thiết kế primer do vùng flanking quá ngắn
đƣớc lƣu vào tập tin none_primer20030101.txt. Chúng tôi thiết kế perl script “blast
on contigs” để thực hiện quá trình tBlastx trên các contigs bảo tồn nhằm kéo dài
các EST-SSR không thiết kế đƣợc primer. Thực thi đoạn mã Perl “Blast on
contigs.pl”, khi đó chƣơng trình sẽ tạo ra 3 tập tin khác với tên lần lƣợt là
“blastout120030101.txt”, “fullblastout120030101.txt” và “contigs20030101.txt”.
Các Ests mới thu nhận đƣợc sẽ đƣợc lƣu trong thƣ mục contigs20030101.txt
EG026743.1 EG026743 KN0AAA2CF05ZM1 AbsAOv1 Citrus clementina
cDNA 5', mRNA sequence
EG026742.1 EG026742 KN0AAA2CD10ZM1 AbsAOv1 Citrus clementina
cDNA 5', mRNA sequence
33
Bƣớc 5.Thiết kế và kiểm tra primer:
Thiết kế primer: trong vùng bảo tồn hai bên vùng SSR vừa tìm đƣợc ở trên
bằng phần mềm Primer3 với nhiệt độ bắt cặp trong khoảng từ 63 đến 650C và sự
chênh lệch giữa primer xuôi và primer ngƣợc không quá 10C, sản phẩm PCR có độ
dài trong khoảng từ 80-300bp.
Kiểm tra primer: bằng SSRFinder. Trƣớc tiên, kiểm tra các base lặp lại trong
primer, nếu có 1 loại base lặp lại lớn hơn 3 lần thì loại bỏ primer đó. Sau đó, tiếp
tục kiểm tra tính bắt cặp đặc hiệu của các primer đó bằng công cụ BLAST, nếu có ít
hay nhiều hơn một primer xuôi và một primer ngƣợc bắt cặp lên một trình tự EST
thì loại cặp primer đó.
Bƣớc 6 tBLASTx: trên CSDL gen kháng virus tristeza của Poncitrus Trifoliata:
nhằm mục đích xác định các EST-SSR có liên quan đến khả năng kháng bệnh dựa
trên tìm kiếm tƣơng đồng ở các loài lân cận: chức năng của gene chứa các SSR và
vai trò của các SSR trong chức năng của gene ở thực vật chƣa đƣợc biết rõ và ghi
nhận nhiều. Một ví dụ khá hiếm và điển hình về loại chức năng này là ở gene waxy,
khi đầu 5‟-UTR của gene này có số lần lặp lại của GA/CT thay đổi sẽ ảnh hƣởng
đến hàm lƣợng amylose chứa trong gạo (Ayers et al., 1997). Ngoài ra, còn một số ví
dụ khác về các gene có chứa SSR liên quan đến bệnh di truyền thần kinh ở ngƣời.
Trong nghiên cứu này, chúng tôi đặc biệt quan tâm đến SSR trong các gene kháng ở
thực vật, vì những thay đổi về số lần lặp lại của SSR có ảnh hƣởng rất lớn về khả
năng kháng lại tác nhân gây bệnh ở thực vật
Cơ sở dữ liệu gene kháng virus tristeza đƣợc lấy từ cỏ sở dữ liệu NCBI với
từ khóa là ”tristeza virus resistance gene”
Bƣớc 7. Đƣa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ
dàng truy xuất thông tin.
Tạo bảng chứa dữ liệu
Theo các mô tả trong mô hình đối tƣợng, ta chuyển từ mô hình đối tƣợng sang mô
hình quan hệ nhƣ sau:
34
Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình
quan hệ.
Mỗi thuộc tính trong mô hình đối tƣợng là thuộc tính trên quan hệ
tƣơng ứng.
Khóa của đối tƣợng là khóa của quan hệ tƣơng ứng.
Tạo các quan hệ 1:
Bảng tblStrain
Bảng 3.3 Nội dung tblStrain
Tên trƣờng Kiểu dữ
liệu
Chú thích
StrainID Text Mã số quy định giống.
StrainName Text Tên của giống.
Bảng tblMotifLengthGroup:chứa nội dung quy định mã các đoạn SSR
Bảng 3. 4 Nội dung tblMotifLengthGroup
Tên trƣờng Kiểu dữ
liệu
Chú thích
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR
MotifLengthGroup Text Chiều dài đoạn SSR.
MotifDescription Text Chú thích.
Bảng tblSSR: chứa thông tin về đoạn Microsatellite
Bảng 3.5 Nội dung tblSSR
Tên trƣờng Kiểu dữ
liệu
Chú thích
SSRID Text Mã số của đoạn SSR.
GenbankACC Text Chứa số truy cập trên NCBI.
35
StrainID Text Mã số quy định giống.
SSRVersion Text Phiên bản của đoạn SSR dựa vào.
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR
Motif Text Đoạn SSR.
SSRSequence Text Trình tự đoạn SSR
SSRStart Number Vị trí bắt đầu.
Length Number Chiều dài đọan SSR
ShortSequence Text Đoạn trình tự ngắn dựa vào đoạn
trình tự chính để ngƣời xem có thể
dễ nhận ra vị trí đoạn SSR.
Xây dựng mối quan hệ (khóa chính và khóa ngoại)
tblStrain
Khóa chính: StrainID
tblMotifLengthGroup
Khóa chính: MotifLengthGroupID
tblSSR
Khóa chính: SSRID
Khóa ngoại: StrainID, MotifLengthGroupID
Nhập dữ liệu vào bảng
Do các quan hệ ràng buộc giữa khóa chính và khóa ngoại nên việc nhập cơ
sở dữ liệu vào các bảng phải đƣợc thực hiện một cách tuần tự, nếu không sẽ phát
sinh lỗi và không thể nhập đƣợc.
Nhập dữ liệu vào các bảng chỉ có khóa chính (không có khóa ngoại) để nó có
thể quản lý các thông tin một cách chính xác và không trùng lắp.
Bƣớc 8. Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia
sẽ thông tin qua mạng.
36
Nhằm tạo giao diện thân mật, dễ sử dụng cho ngƣời dùng cuối, trang web đã
đƣợc tạo ra để đƣa cơ sở dữ liệu đến ngƣời dùng. Sau đó dựa vào cơ sở dữ liệu
Microsatelite, ngƣời dùng có thể phục vụ cho việc nghiên cứu riêng của mình. Việc
thiết kế trang web CSDL microsatellites của chi cam chanh (Citrus) đƣợc tham
khảo với trang web mẫu về phƣơng pháp micorsatellite khác đã phổ biến trên
intermet trƣớc đó.
Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn:
Các bƣớc thực hiện thiết kế Website
Xác định những nội dung cần thực hiện: ngoài phần chính là cơ sở dữ liệu
Microsatelite, còn có những phần thông tin thêm vào để ngƣời sử dụng có thể hiểu
rõ hơn về Chi cam chanh (Citrus) và phƣơng pháp Microsatelite.
Thiết kế mối liên kết tố các cơ sở dữ liệu sinh học lớn khác nhƣ NCBI,
Egassembler, DDBJ ....
Thiết kế giao diện để ngƣời dùng có thể sử dụng một cách dễ dàng nhất.
Tích hợp cơ sở dữ liệu vào trang web.
37
Chƣơng 4
KẾT QUẢ VÀ THẢO LUẬN
4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST của NCBI
Bảng 4.1 số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI
Citrus aurantium (Seville orange) 5060 ESTs
Citrus clementina 62250 ESTs
Citrus jambhiri (jambhiri orange) 989 ESTs
Citrus macrophylla (colo) 1076 ESTs
Citrus reticulata x Citrus temple 1823 ESTs
Citrus reticulata (tangerine) 3640 ESTs
Citrus sinensis (apfelsine/navel orange) 94738 ESTs
Citrus unshiu (Satsuma orange) 4489 ESTs
Citrus x paradisi (grapefruit) 8039 ESTs
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 1052 ESTs
Citrus x paradisi x Pondcirus trifoliata 7954 ESTs
Hình 4.1: Sơ đồ so sánh lƣợng ESTs của từng loài
38
Chúng tôi thu nhận đƣợc 11 lòai khác nhau thuôc chi cam chanh, trong đó
Citrus Clementina và Citrus Sinensis có số trình tự ESTs đƣợc giải mã và công bố
nhiều nhất, Citrus jambhiri có lƣợng ESTs ít nhất.
4.2 Loại các dữ liệu nhiễu và dƣ bằng công cụ EGassembler
4.2.1 Làm sạch trình tự
Bảng 4.2 Số trình tự bị lọai bỏ ở bƣớc 2.1
Citrus aurantium (Seville orange) by 'short': 2
by 'shortq': 8
Citrus clementina by 'dust': 1
by 'shortq': 18
Citrus jambhiri (jambhiri orange) 0
Citrus macrophylla (colo) by 'short': 22
by 'shortq': 4
Citrus reticulata x Citrus temple 0
Citrus reticulata (tangerine) by 'dust': 1
by 'shortq': 18
Citrus sinensis (apfelsine/navel orange) by 'dust': 10
by 'short': 71
by 'shortq': 330
by 'low_qual': 78
Citrus unshiu (Satsuma orange) by 'dust': 1
by 'short': 5
by 'shortq': 28
by 'low_qual': 5
Citrus x paradisi (grapefruit) by 'dust': 1
by 'short': 18
by 'shortq': 13
by 'low_qual': 25
Citrus sinensis x Poncirus trifoliata (Carrizo
citrange)
by 'shortq': 14
by 'low_qual': 1
Citrus x paradisi x Pondcirus trifoliata by 'short': 20
by 'shortq': 4
Chú thích:
By „dust‟: những vùng trình tự phức tạp thấp
by 'shortq': loại các đuôi PolyA/PolyT
by 'short': những trình tự ESTs < 100N.
by 'low_qual': những vùng trình tự kém chất lƣợng (N)
39
4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors
Bảng 4.3 số trình tự bị lọai bỏ ở bƣớc 2.3
Citrus aurantium (Seville orange) 0
Citrus clementina 37
Citrus jambhiri (jambhiri orange) 1
Citrus macrophylla (colo) 0
Citrus reticulata x Citrus temple 0
Citrus reticulata (tangerine) 0
Citrus sinensis (apfelsine/navel orange) 72
Citrus unshiu (Satsuma orange) 11
Citrus x paradisi (grapefruit) 10
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 6
Citrus x paradisi x Pondcirus trifoliata 1
4.2.3 Dấu những vùng trình tự nhiễu của các bào quan
Bảng 4.4 số trình tự bị lọai bỏ ở bƣớc 2.4
Citrus aurantium (Seville orange) 1
Citrus clementina 50
Citrus jambhiri (jambhiri orange) 5
Citrus macrophylla (colo) 0
Citrus reticulata x Citrus temple 1
Citrus reticulata (tangerine) 7
Citrus sinensis (apfelsine/navel orange) 679
Citrus unshiu (Satsuma orange) 15
Citrus x paradisi (grapefruit) 128
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 3
Citrus x paradisi x Pondcirus trifoliata 0
40
Hình 4.2: Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu
Sau quá trình lọai nhiễu chúng tôi đã bớt đi một lƣợng khá lớn ESTs không
đủ tiêu chuẩn (1725 ESTs). Điều này giúp việc tìm kiếm SSRs và thiết kế Primers
tiến hành dễ dàng và chính xác hơn.
41
4.3 Assembling
Bảng 4.5 số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling
Citrus aurantium (Seville orange) 875 Contigs
Citrus clementina 7667 Contigs
Citrus jambhiri (jambhiri orange) 75 Contigs
Citrus macrophylla (colo) 77 Contigs
Citrus reticulata x Citrus temple 257 Contigs
Citrus reticulata (tangerine) 750 Contigs
Citrus sinensis (apfelsine/navel orange) 10804 Contigs
Citrus unshiu (Satsuma orange) 479 Contigs
Citrus x paradisi (grapefruit) 1176 Contigs
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 125 Contigs
Citrus x paradisi x Pondcirus trifoliata 1993 Contigs
Hình 4.3: Bảng so sánh lƣợng Contigs và ESTs
42
Từ cơ sở dữ liệu ESTs ban đầu chúng tôi xác định đƣợc một số lƣợng lớn các
Contigs có độ tƣơng đồng cao so với các trình tự EST này, từ đó chúng tôi tiến hành
phân lập và thiết kế primer cho các contigs nhằm xác định thêm các trình tự SSR có
thể có trong các contigs đó
4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder
Bảng 4.6 Tổng số lƣợng SSRs thu nhận đƣợc
Citrus aurantium (Seville orange) 511 SSRs
Citrus clementina 10937 SSRs
Citrus jambhiri (jambhiri orange) 81 SSRs
Citrus macrophylla (colo) 72 SSRs
Citrus reticulata x Citrus temple 116 SSRs
Citrus reticulata (tangerine) 432 SSRs
Citrus sinensis (apfelsine/navel orange) 10145 SSRs
Citrus unshiu (Satsuma orange) 225 SSRs
Citrus x paradisi (grapefruit) 2685 SSRs
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 109 SSRs
Citrus x paradisi x Pondcirus trifoliata 2928 SSRs
43
Hình 4.4: Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu
Khả năng phân lập SSR từ EST khá cao. 28241 SSR đã đƣợc phân lập từ cơ
sở dữ liệu EST ban đầu.
4.4.1 BLASTn:
Bảng 4.7 Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành
None Primers ESTs mới Primer tạo thành
Citrus aurantium 191 41 20
Citrus clementina 4876 3510 456
Citrus jambhiri 25 0 0
Citrus macrophylla 2 0 0
Citrus reticulata x Citrus temple 45 9 3
Citrus reticulata 297 50 14
Citrus sinensis 5004 3532 489
Citrus unshiu 70 30 8
Citrus x paradisi 752 199 35
Citrus sinensis x Poncirus trifoliata 59 13 2
Citrus x paradisi x Pondcirus trifoliata 419 251 44
44
Hình 4.5: Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới
45
Chúng tôi phân lập thêm đƣợc một lƣợng lớn các trình tự EST từ các trình tự
EST không thể thiết kế mồi ban đầu từ đó phân lập và thiết kế thêm đƣợc 1071
primer SSR mới.
4.5.Thiết kế và kiểm tra primer
Thiết kế primer
Bảng 4.8 Tổng số primer thiết kế đƣợc
Citrus aurantium (Seville orange) 413 Primers
Citrus clementina 9608 Primers
Citrus jambhiri (jambhiri orange) 69 Primers
Citrus macrophylla (colo) 70 Primers
Citrus reticulata x Citrus temple 97 Primers
Citrus reticulata (tangerine) 352 Primers
Citrus sinensis (apfelsine/navel orange) 8463 Primers
Citrus unshiu (Satsuma orange) 171 Primers
Citrus x paradisi (grapefruit) 1420 Primers
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 94 Primers
Citrus x paradisi x Pondcirus trifoliata 834 Primers
Kiểm tra primer
Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra
Citrus aurantium (Seville orange) 391 Primers
Citrus clementina 9181 Primers
Citrus jambhiri (jambhiri orange) 67 Primers
Citrus macrophylla (colo) 70 Primers
Citrus reticulata x Citrus temple 94 Primers
Citrus reticulata (tangerine) 348 Primers
Citrus sinensis (apfelsine/navel orange) 8242 Primers
Citrus unshiu (Satsuma orange) 168 Primers
Citrus x paradisi (grapefruit) 1396 Primers
Citrus sinensis x Poncirus trifoliata (Carrizo citrange) 86 Primers
Citrus x paradisi x Pondcirus trifoliata 783 Primers
Sau khi thiết kế và kiểm tra primer chúng tôi đã xác định đƣợc 19,755 cặp
mồi đạt yêu cầu đặt ra.So với tỉ lệ các SSR ban đầu thì tỉ lệ các trình tự có thể thiết
kế mồi khá là cao
46
Hình 4.6: Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra
47
Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc
48
Chúng tôi xác định đƣợc 1 lƣợng lớn các cặp mồi đủ điều kiện đã đặt ra. Đa
số các SSR tìm đƣợc đều có thể thiết kế mồi.
4.6 tBLASTx
Chúng tôi xác định đƣợc 33 EST-SSRs tƣơng đồng gene kháng virus
Tristeza bằng công cụ BLAST với ngƣỡng e-value = 10-10.
Bảng 4.10 Các trình tự tƣơng đồng với gene kháng virus tristeza
Mã số Lòai SSR Motif
CX052406.1a
CN182797.1a
Citrus sinensis
Citrus sinensis
ACACACACACAC AC
DN799259.1a
CV718404.1a
Contig1678a
CX290096.1a
Citrus reticulata x
Citrus sinensis
Citrus sinensis
Citrus clementina
AGAGAGAGAGAG AG
DR908292.1a
DN620117.1a
Citrus sinensis
Citrus sinensis
AGAAGAAGAAGA AGA
CX053145.1a Citrus sinensis AGCAGCAGCAGC AGC
V715355.1a Citrus sinensis ATAATAATAATA ATA
DY302690.1a
DY293832.1a
DY284674.1
DY269563.1a
Contig1685a
Citrus clementina ACCACCACCACC ACC
DY304067.1a
DY301664.1a
DY294592.1a
DY267783.1a
DY265810.1a
DY263066.1a
Citrus clementina ATCATCATCATCATC ATC
CX078270.1a Citrus sinensis TATATATATATA TA
CX052405.1a Citrus sinensis TGTGTGTGTGTG TG
CX070771.1a
CN182794.1a
Citrus sinensis TCATCATCATCA TCA
CV719546.1a Citrus sinensis TGGTGGTGGTGG TGG
DY276141.1b Citrus clementina TCGTCGTCGTCG TCG
CV719898.1a
DN958924.1a
Citrus sinensis
Citrus x paradisi
CCTCCTCCTCCT CCT
CV714983.1 Citrus sinensis CCACCACCACCA CCA
BQ624932.1a Citrus sinensis CGACGACGACGA CGA
DY279874.1 Citrus clementina CGACGACGACGA CGA
49
CX296075.1a
Citrus sinensis x
Poncirus trifoliata
TCTCTCTCTCTCTCTC TCTC
Các ESTs-SSRs tƣơng đồng gene kháng virus Tristeza chủ yếu đƣợc phát
hiện ở hai loài Citrus Clementina và Citrus Sinensis do lƣợng trình tự EST-SSRs
khá lớn (hình 4.1). Ở những lòai khác do số lƣợng các ESTs đƣợc giải mã không
nhiều nên chƣa tìm đƣợc các ESTs-SSRs tƣơng đồng gene kháng virus Tristeza.
4.7. Đƣa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ
dàng truy xuất thông tin.
Hình 4.8 : Mối quan hệ giữa các bảng
4.8 Tích hợp CSDL vừa xây dựng vào web
4.8.1 Trang chủ (HOME PAGE)
Hình 4.9: Tổng quan về Website
50
Nội dung trang web: Gồm các lựa chọn để liên kết đến các trang web chứa
thông tin và cơ sở dữ liệu khác.
4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE)
Nội dung của trang web: Chứa cơ sở dữ liệu trình tự microsatellite của chi
cam chanh (citrus) gồm có:
Thể hiện tất cả cơ sở dữ liệu SSRs (All): các loại SSRs sẽ đƣợc thể hiện,
không đƣợc phân loại. Hình thức thể hiện:
Hình 4.10 Trang cơ sở dữ liệu SSRs (All)
Tìm kiếm các trình tự cần thiết:
Tìm kiếm theo “StrainId” và “MotifLengthGroup”: Khi ngƣời dùng quan
tâm đến từng nhóm microsatellite.
Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu
StrainID Name
ST01 Citrus clementina
ST02 Citrus sinensis
ST03 Citrus jambhiri
ST04 Citrus aurantium
ST05 Citrus macrophylla
ST06 Citrus reticulata
51
ST07 Citrus sinensis x Poncirus trifoliata
ST08 Citrus unshiu
ST09 Citrus x paradisi
ST10 Citrus reticulata x Citrus temple
ST11 Citrus x paradisi x Pondcirus trifoliata
Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu
Motif Length
Group ID
Motif Length
Group
Description
2 Dimer Dinucleotide SSR
3 Trimer Trinucleotide SSR
4 Tetramer Tetranucleotide SSR
5 Pentamer Pentanucleotide SSR
6 Hexamer Hexanucleotide SSR
7 Heptamer Heptanucleotide SSR
8 Octamer Octanucleotide SSR
9 Nonamer Nonanucleotide SSR
10 Decamer Decanucleotide SSR
72 Dodecamer Dodecamer SSR
Hình thức thể hiện:
Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và
“Motif Length Group ID” là 3
52
Chƣơng 5
KẾT LUẬN VÀ ĐỀ NGHỊ
5.1. Kết luận
Đề tài gồm 7 bƣớc đƣợc thực hiện lần lƣợt nhằm mục đích xác định 1 cách
chính xác các SSRs và thiết kế mồi cho SSR đó
Chúng tôi đã tải đƣợc 191,110 trình tự ESTs của chi Citrus bao gồm 11 loài
khác nhau, tiến hành loại nhiễu bằng Egassembler lọai bỏ đƣợc 1725 trình tự ESTs
không phù hợp yêu cầu.
Tiến hành Assembly Các trình tự ESTs vừa thu nhận đƣợc bằng Egassembler
chúng tôi thu nhận đƣợc 24278 Contigs.
Blast các trình tự ESTs không thể thiết kế mồi trên các Contigs phân lập
đƣợc thêm 7635 ESTs mới
28241 trình tự SSRs đƣợc phân lập nhờ Perl script từ cơ sở dữ liệu ESTs ban
đầu
Kiểm tra thiết kế mồi cho các SSRs mới tìm đƣợc, chúng tôi xác định đƣợc
19,755 cặp mồi
Tiến hành Blast trên cơ sở dữ liệu gen kháng virus tristeza xác định đƣợc 33
ESTs-SSRs có các motif tƣơng đồng với motif của gen kháng virus
Tích hợp tất cả các cơ sở dữ liệu thu nhận đƣợc vào website SSRs Database
of Citrus
Trang Web cơ sở dữ liệu gồm có 7 trang chính, đó là HOME, Citrus,
ABOUT SSRs, SSRs, TOOLS, ABOUT US, Other Links. Ngoài ra, từ những trang
web chính này còn có thể kết nối đến những trang phụ khác để cung cấp những tiện
ích cho ngƣời dùng. Từ các trang web này, ngƣời sử dụng có thể truy xuất thông
tin.
53
Về cơ bản chúng tôi đã tìm, thu nhập và phân lập hầu hết các ESTs-SSRs của
chi cam chanh đã đƣợc công bố trên NCBI
5.2. Đề nghị
Nên cập nhật cơ sở dữ liệu theo định kỳ vì lƣợng trình tự đƣợc giải mã và
công bố ngày càng nhiều để đảm bào tính cấp bách và phong phú của Website
Mở rộng cơ sở dữ liệu sang các chi, các lòai khác nhằm phục vụ cho nhu cầu
nghiên cứu và tìm hiểu
Cần thiết lập thêm các bẫy lỗi đƣợc trình bày ở bƣớc 7 để đảm bảo hơn việc
hạn chế trùng lắp dữ liệu không cần thiết khi nhập.
Xây dựng nhiều trang web chứa các thông tin tìm kiếm và công cụ
(assembly, thiết kế primer, enzyme cắt giới hạn, xây dựng mô hình cấu trúc,…)
phục vụ cho việc khai thác thông tin và các ứng dụng khác.
Tiến hành thiết kế mồi chung phục vụ cho phản ứng PCR phân biệt các loài
trong họ và giữa các họ thông qua các trang web thiết kế primer trực tuyến trên
Internet nhƣ GeneFisher, Primer3,… hay xây dựng trang web chứa công cụ phục vụ
cho thiết kế primer nhƣ GPRIME, Primer3,…kết hợp với ngôn ngữ lập trình Perl.
54
Chƣơng 6
TÀI LIỆU THAM KHẢO
TÀI LIỆU TIẾNG VIỆT
1. Trần Nguyễn Minh Đăng, 2005. XÂY DỰNG CƠ SỞ DỮ LIỆU SSRS (SIMPLE
SEQUENCE REPEATS) TỪ ESTS (EXPRESSED SEQUENCE TAGS) CỦA
CÂY DỨA (Ananas comosus). Khóa luận tốt ngiệp Ngành Công nghệ sinh học,
Đại học Nông lâm TP Hồ Chí Minh.
2. Nguyễn Minh Đạo, 2002. MS-Access 2000. Trƣờng đại học Sƣ Phạm Kỹ Thuật,
khoa Công Nghệ Thông Tin.
3. Nguyễn Thị Lang – Bùi Chí Bửu, 2005. Sinh học phân tử. Giới thiệu phương
pháp và ứng dụng. Nhà xuất bản nông nghiệp TP. HCM.
4. Bùi Huy Quỳnh, 2002. Front Page 2000. Trƣờng đại học Sƣ Phạm Kỹ Thuật,
khoa Công Nghệ Thông Tin.
5. Nguyễn Trƣờng Sinh – Lê Minh Hoàng – Hoàng Đức Hải, 2003. Thực hành
JavaScript (cho web). Nhà xuất bản Thống Kê.
6. Nguyễn Văn Thái, 2005. Xây dựng cơ sở dữ liệu hai gene Hsp-70 và Reverse
Transcripte-Rnaseh ở một số loài virus thực vật. Khóa luận tốt ngiệp Ngành
Công nghệ sinh học, Đại học Nông lâm TP Hồ Chí Minh.
7. Nguyễn Kỳ Trung – Lê Thành Trung, 2005. Thu thập và tổ chức dữ liệu gene
phục vụ nghiên cứu cây trồng biến đổi di truyền. Khóa luận tốt ngiệp Ngành
Công nghệ sinh học, Đại học Nông lâm TP Hồ Chí Minh.
TÀI LIỆU NƢỚC NGOÀI
8.Acquadro A., Lee D., Donini P., Portis E., Comino C., Saba E., Lanteri S., 2003.
Microsatellite Amplified Library (MAL): an alternative approach for STMS
isolation. Bologna – Italy.
9.Ali Masoudi-Nejad, Ruy Jauregui, Shuichi Kawashima, Susumu Goto, Minoru
Kanehisa, Takashi R. Endo, 1999.The kingdom of Plantae EST Indices: a
resource for plant genomics community
10.Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang,
Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and
PSI-BLAST: a new generation of protein database search programs", Nucleic
Acids Res. 25:3389-3402.
55
11.Andrew J. Robinson , Christopher G. Love , Jacqueline Batley ,Gary Barker and
David Edwards, 2004. Simple sequence repeat marker loci discovery using SSR
primer.
12.Andrew Salywon, Matthew Barber, Nathan Herling, and William Stewart. 2005.
Data mining for microsatellites in expressed sequence tags (ESTs) from
arabidopsis thaliana and brassica species (brassicaceae).
13.A Story Book Future for Lesquerella? Agricultural Research Magazine. (1999)
November. Benson, G, 1999. Tandem repeats finder: a program to analyze DNA
sequences. Nucleic Acids Res. 27, 573–580.
14.Castelo, A.T. et al., 2002. Troll – Tandem Repeat Occurrence Locator.
Bioinformatics 18, 634–636. Huang, X. and Madan, A., 1999. CAP3: A DNA
sequence assembly program. Genome Research, 6: 829–845.
15.Edward F. Gilman, 1999. Ananas comosus. University of Florida. Jorge A. Da
Silva , Nora Solis-Gracia, 2003.Tagging resistance genes with sugarcane est-
derived microsatellites.
16.Huang, X. and Madan, A., 1999. CAP3: A DNA sequence assembly program.
Genome Research, 6: 829–845.
17.Kantety, R.V., M.L. Rota, D.E. Mathews, and M.E. Sorrells, 2002. Data mining
for simple sequence repeats in expressed sequence tags from barley, maize, rice,
sorghum and wheat. Plant. Mol. Biol. Rep. 48:501-510.
18.K.D. Scott, Microsatellites Derived from ESTs and their Comparison with those
Derived by Other Methods. Centre for Plant Conservation Genetics, Southern
Cross University, Lismore, Australia.
19.Morgante M., Hanafey M., and Powell W, 2002. Microsatellites are
preferentially associated with non repetitive DNA in plant genomes. Nature
Genetics . 30:194-200.
20.Morgante, M. and Olivieri, A.M., 1993. PCR-amplified microsatellites as
markers in plant genetics. Plant J. 3, 175–182.
21.Morgante, M. et al., 2002 Microsatellites are preferentially present with non-
repetitive DNA in plant genomes. Nat. Genet. 30, 194–200.
22.P. K. Gupta, H. S. Balyan, P. C. Sharma and B. Ramesh, 2000.Microsatellites in
plants: A new class of molecular markers.
56
23.Rozen, S., Skaletsky, H. "Primer3 on the WWW for general users and for
biologist programmers." In S. Krawetz and S. Misener, eds. Bioinformatics
Methods and Protocols in the series Methods in Molecular Biology. Humana
Press, Totowa, NJ, 2000, pages 365-386. Code available at
24.Ramesh V. Kantety, Mauricio La Rota, David E. Matthews and Mark E.
Sorrells, 2002. Data mining for simple sequence repeats in expressed sequence
tags from barley, maize, rice, sorghum and wheat. Kluwer Academic Publishers.
25.Win Hide, Rob Miller, Andrey Ptitsyn, Janet Kelso, Chellapa Gopallakrishnan
and Alan Christoffels, 1999. EST Clustering Tutorial.
TÀI LIỆU TỪ CÁC TRANG WEB:
26.
27. <
28.
29.
30.<
31.
32.
33.
34.
35.
36.
37.
38.
39.
57
Phụ Lục
Trang thông tin về Citrus (Citrus PAGE)
Nội dung của trang web: Giới thiệu một cách tổng quát về chi cam chanh citrus
.
Tổng quan về Citrus
Trang thông tin về microsatellite (ABOUT SSRs PAGE)
Nội dung của trang web: Giới thiệu chung về phƣơng pháp microsatellite
Trang Microsatellites
Trang tích hợp công cụ để tìm kiếm SSR
58
Dùng để tìm trình tự microsatellite trong cơ sở dữ liệu của website, kết quả sẽ
hiển thị kết quả đoạn SSR tìm đƣợc
Trang web tìm kiếm trình tự microsatellite bằng mã số truy cập
Trang web tìm kiếm trình tự microsatellite bằng Motif
59
Trang công cụ
Trang tích hợp công cụ để tìm kiếm SSR
Dùng để tìm trình tự microsatellite từ một trình tự bất kỳ hay upload file ở định
dạng FASTA, kết quả sẽ hiển thị kết quả đoạn SSR tìm đƣợc.
Trang web tìm kiếm trình tự microsatellite
Tuy nhiên, Website đang dần đƣợc hoàn thiện để có thể chính thức đƣa vào
sử dụng trực tuyến.
Các file đính kèm theo tài liệu này:
- LUU TRAN CONG HUY.pdf