TÓM TẮT
Hiện nay với sự phát triển của khoa học kỹ thuật cùng với sự kết hợp liên thông
giữa các ngành khoa học đã mở ra những thuận lợi to lớn cho việc nghiên cứu và phát
triển. Tin sinh học – một ngành khoa học mới ra đời với mục đích hỗ trợ, cung cấp
thông tin dữ liệu sẽ là một công cụ hữu ích giúp giải quyết những vấn đề khó khăn
trong nghiên cứu sinh học trên thực tế.
Cây xoài là loại cây ăn quả nhiệt đới quan trọng ở Việt Nam có giá trị kinh tế
cao. Chính vì thế việc xác định các giống xoài, phân tích sự đa dạng di truyền, lập bản
đồ các gen trong bộ gen là mục tiêu hiện nay. Với các ưu điểm của một marker rất hữu
dụng trong nghiên cứu di truyền, chúng tôi đã tiến hành xây dựng phương pháp phát
hiện marker microsatellite từ nguồn cơ sở dữ liệu EST hiện có.
Phương pháp: chúng tôi đã sử dụng các chương trình Perl est_trimmer.pl,
misa.pl, phần mềm BioEdit với công cụ CAP contig assembly program, phần mềm
Primer3 và gói công cụ ssrfinder_1_0.
Kết quả đạt được:
Tải được các trình tự EST của cây xoài có trong nguồn cơ sở dữ liệu của
NCBI
Xác định được 267 microsatellite bao gồm các dạng dinucleotide
(4.12%), trinucleotide (95.51%) và tetranucleotide (0.37%)
Xác định vùng bảo tồn và thiết kế primer cho 6 loại microsatellite là các
loại microsatellite sau CAA, CCA, CAT, TCA, TCT, TGA
MỤC LỤC
CHưƠNG TRANG
Trang tựa
Lời cảm tạ iii
Tóm tắt iv
Summary .v
Mục lục vi
Danh sách các chữ viết tắt x
Danh sách các bảng xi
Danh sách các hình .xii
1. MỞ ĐẦU 1
1.1. Đặt vấn đề 1
1.2. Mục đích và yêu cầu 1
1.2.1. Mục đích 1
1.2.2. Yêu cầu 2
1.3. Giới hạn .2
2. TỔNG QUAN TÀI LIỆU .3
2.1. Giới thiệu về tin sinh học 3
2.1.1. Định nghĩa .3
2.1.2. Mối quan hệ giữa sinh học và tin học 3
2.1.3. Tầm quan trọng của tin sinh học .4
2.1.4. Mục tiêu của tin sinh học 5
2.1.5. Vai trò của tin sinh học 5
2.1.6. Một số bài toán lớn trong tin sinh học .6
2.2. Khái quát về dữ liệu trình tự 7
2.2.1. Lịch sử .7
2.2.2. Một số cơ sở dữ liệu trên thế giới 8
2.2.2.1. NCBI .8
2.2.2.2. EBI .8
2.2.2.3. DDBJ và PDBj 9
2.3. Ngôn ngữ lập trình Perl .9
2.3.1. Giới thiệu về Perl và lịch sử phát triển 9
2.3.2. Ứng dụng .10
2.3.3. Perl và tin sinh học 10
2.3.4. Các thành phần cơ bản trong Perl 11
2.3.4.1. Dữ liệu vô hướng .11
2.3.4.2. Các cấu trúc điều khiển .13
2.3.4.3. Mảng 14
2.3.4.4. Bảng băm .17
2.3.4.5. Thao tác với tập tin 17
2.3.4.6. Chương trình con .19
2.3.4.7. Regular expression 21
2.4. Giới thiệu về cây xoài 21
2.4.1. Vị trí phân loại .21
2.4.2. Nguồn gốc .22
2.4.3. Giá trị dinh dưỡng và lợi ích .22
2.4.4. Đặc điểm hình thái 23
2.4.4.1. Rễ .23
2.4.4.2. Thân và tán cây 23
2.4.4.3. Lá .23
2.4.4.4. Hoa . 23
2.4.4.5. Quả 24
2.4.4.6. Hạt .24
2.4.4.7. Phôi 25
2.4.5. Yêu cầu sinh thái .25
2.4.5.1. Nhiệt độ .25
2.4.5.2. Đất .25
2.4.5.3. Lượng mưa 26
2.4.6. Một số giống xoài trồng phổ biến ở Việt Nam 26
2.4.6.1. Xoài cát Hòa Lộc .26
2.4.6.2. Xoài cát Cần Thơ .26
2.4.6.3. Xoài thơm 26
2.4.6.4. Xoài bưởi .26
2.4.6.5. Xoài tượng .27
2.4.6.6. Xoài Thanh Ca .27
2.5. Khái quát về EST .27
2.5.1. Định nghĩa .27
2.5.2. Nguyên nhân hình thành và ứng dụng của EST 27
2.5.3. Sự hình thành EST 29
2.6. Giới thiệu về microsatellite 30
2.6.1. Khái niệm 30
2.6.2. Đặc điểm 30
2.6.3. Cơ chế hình thành microsatellite .31
2.6.3.1. Sự trượt lỗi của polymerase .31
2.6.3.2. Sự bắt cặp không đồng đều trong giảm phân 32
2.6.4. Mô hình sự đột biến của microsatellite .32
2.6.4.1. Mô hình đột biến bậc thang .32
2.6.4.2. Mô hình “K” alen 33
2.6.4.3. Mô hình alen vô hạn 34
2.6.5. Nguyên nhân tồn tại của microsatellite .34
2.6.6. Các cách phân lập microsatellite .35
2.6.6.1. Microsatellite có nguồn gốc từ thư viện 35
2.6.6.2. Microsatellite từ thư viện BAC/YAC 35
2.6.6.3. Microsatellite từ thư viện cDNA .36
2.6.6.4. Microsatellite có nguồn gốc từ dữ liệu 36
2.6.6.5. Kiểm tra microsatellite từ một loài có liên quan .38
2.6.7. ưu điểm và hạn chế .38
2.6.7.1. ưu điểm .38
2.6.7.2. Hạn chế 39
3. PHưƠNG TIỆN VÀ PHưƠNG PHÁP TIẾN HÀNH .40
3.1. Thời gian và địa điểm 40
3.2. Phương tiện 40
3.3. Phương pháp 40
3.3.1. Thu nhận trình tự EST của cây xoài 41
3.3.1.1. NCBI và EST .41
3.3.1.2. Truy cập cơ sở dữ liệu và thu nhận trình tự 41
3.3.2. Sắp xếp các trình tự EST .42
3.3.3. Tìm kiếm microsatellite .44
3.3.3.1. Công cụ SSRIT 44
3.3.3.2. Công cụ MISA .45
3.3.4. Xác định vùng bảo tồn .46
3.3.5. Thiết kế primer 47
3.3.5.1. Primer3 49
3.3.5.2. Chương trình Perl ssrfinder_1_0 .50
4. KẾT QUẢ VÀ THẢO LUẬN 53
4.1. Thu nhận trình tự EST của cây xoài 53
4.2. Sắp xếp các trình tự .54
4.3. Kết quả tìm kiếm microsatellite 54
4.3.1. Công cụ SSRIT 54
4.3.2. Công cụ MISA .55
4.4. Xác định vùng bảo tồn .58
4.5. Thiết kế primer đối với 6 microsatellite 59
4.5.1. Chương trình Primer3 59
4.5.2. Chương trình Perl script ssrfinder_1_0 .60
5. KẾT LUẬN VÀ ĐỀ NGHỊ 62
5.1. Kết luận .62
5.2. Đề nghị 63
6. TÀI LIỆU THAM KHẢO 64
7. PHỤ LỤC .66 .
Phát hiện marker microsatellite từ cơ sở dữ liệu trình tự est (Expressed Sequence Tags) của cây xoài (Mangifera indica)
95 trang |
Chia sẻ: maiphuongtl | Lượt xem: 2057 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Khóa luận Phát hiện marker microsatellite từ cơ sở dữ liệu trình tự EST (Expressed Sequence Tags) của cây xoài (Mangifera indica), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
0 trình
tự) trong một lần chạy chƣơng trình và không có sự thống kê kết quả tìm kiếm
3.3.3.2. Công cụ MISA (Microsatellite Identification Tool)
Công cụ này cho phép sự xác định và định vị microsatellite cũng nhƣ các
microsatellite ghép (compound microsatellite) mà bị ngắt quãng bởi một số
base nhất định. Công cụ này đƣợc viết từ ngôn ngữ lập trình Perl và có thể tải
về máy sử dụng từ địa chỉ internet sau
gatersleben.de/misa/misa.html
Cú pháp
misa.pl với là file chứa trình tự ở
định dạng FASTA
Công cụ này cần thêm một file chứa các thông số cho quá trình xác định
microsatellite, file này có định dạng “misa.ini”.
46
File misa.ini có cấu trúc nhƣ sau
Hình 3.8. File misa.ini
Trong đó hàng đầu tiên xác định dạng và số lần lặp lại tối thiểu của
microsatellite. Hàng thứ hai là số nucleotide tối đa chèn vào giữa hai
microsatellite.
Kết quả của việc tìm kiếm microsatellite sẽ đƣợc lƣu trong hai file
File “.misa” lƣu các giá trị sự định vị và sự xác định
các microsatellite
File “.statistics” thống kê kết quả của quá trình tìm
kiếm
3.3.4. Xác định vùng bảo tồn
Vùng bảo tồn là vùng ở hai bên trình tự microsatellite, những trình tự này
thƣờng giống nhau đối với mỗi một dạng microsatellite. Vùng bảo tồn rất quan trọng
trong phân tích microsatellite bởi đây chính là cơ sở cho việc thiết kế primer.
Để xác định đƣợc vùng bảo tồn, chúng tôi tiến hành việc sắp gióng cột
(alignment) các trình tự.
Sắp gióng cột dựa vào microsatellite, chúng tôi lấy trình tự microsatellite làm
điểm tập trung, sau đó tạo trình tự bảo tồn (consensus sequence) đối với mỗi dạng
microsatellite bằng công cụ “CAP Contig Assembly Program” có trong phần mềm
BioEdit.
47
Hình 3.9. Sắp gióng cột trình tự
3.3.5. Thiết kế primer
Primer là những đoạn nucleotide ngắn, bắt cặp bổ sung với đầu 5‟ hay đầu 3‟
của mạch DNA khuôn mẫu. Primer đƣợc thiết kế dựa vào vùng trình tự đã đƣợc biết,
nằm ở hai đầu của đoạn gen cần khuếch đại.
Thông số quyết định sự thành công của phản ứng PCR là việc thiết kế primer.
Một primer đƣợc thiết kế không tốt có thể sẽ cho kết quả ít hay không có sản phẩm do
sự khuếch đại không chuyên biệt và/hay sự hình thành cấu trúc thứ cấp, các cấu trúc
này sẽ cạnh tranh và ngăn chặn sự tạo thành sản phẩm mong muốn.
Việc thiết kế và chọn lựa primer phải thỏa mãn một số yêu cầu sau
- Chiều dài primer: chiều dài tốt là 18 đến 24 base. Chiều dài này đủ
dài để đảm ảo tính chuyên biệt và đủ ngắn để primer bám vào mạch
mẫu dễ dàng ở nhiệt độ bắt cặp.
- Nhiệt độ nóng chảy (Tm) là nhiệt độ mà một nửa sợi đôi DNA tách ra
trở thành sợi đơn và cho biết tính ổn định của sợi đôi. Thành phần
(G+C) trong DNA cao sẽ dẫn tới nhiệt độ Tm cao vì liên kết H trong
DNA cao hơn. Có nhiều công thức tính T, hai trong những công thức
đƣợc nhiều ngƣời sử dụng là
Tm = 59.9 + 0.41 * (%GC) – 675 / chiều dài
48
Tm = 2 (A+C) + 4 (G+C) (công thức Wallace)
Primer với nhiệt độ nóng chảy trong phạm vi 55 oC đến 72 oC
thƣờng cho kết quả tốt nhất.
- Tính chuyên biệt: primer phải đƣợc lựa chọn sao cho chỉ có một trình
tự duy nhất trong DNA mẫu đƣợc khuếch đại. Vì Taq polymerase có
hoạt tính trong một phạm vi nhiệt độ rộng, sự kéo dài primer sẽ xảy
ra ở nhiệt độ thấp hơn nhiệt độ bắt cặp. Nếu sự thay đổi nhiệt độ quá
chậm sự không chuyên biệt sẽ xảy ra và enzyme sẽ xúc tác sự kéo dài
nếu có một sự tƣơng đồng ngắn ở đầu 3‟.
- Thành phần base: ảnh hƣởng đến độ đặc hiệu của quá trình bắt cặp,
nhiệt độ nóng chảy, nhiệt độ bắt cặp và sự ổn định của cấu trúc phân
tử. Các base đƣợc sắp xếp ngẫu nhiên thì thích hợp hơn là những
vùng (A+T) dài hay là những vùng giàu (G+C). Thành phần (G+C)
trung bình khoảng từ 50% đến 60% sẽ cho nhiệt độ nóng chảy, nhiệt
độ bắt cặp thích hợp trong một phản ứng PCR bình thƣờng.
- Trình tự primer đầu 3‟ quyết định tính chuyên biệt và tính tƣơng
thích của phản ứng PCR. Các trình tự đầu 3‟ không nên có
+ G hay C không có nhiều hơn 3 tại vị trí này vì sẽ làm cho
primer bắt cặp không chuyên biệt.
+ 3‟ thymidine, nó làm cho sự bắt cặp sai dễ xảy ra hơn so với
những nucleotide khác.
Các cặp primer nên đƣợc kiểm tra sự bổ sung ở đầu 3‟ vì nó
thƣờng dẫn đến sự hình thành cấu trúc thứ cấp.
- Trình tự primer đầu 5‟: các base ở đầu 5‟ ít quyết định đến sự bắt cặp
của primer. Do đó có thể thêm các yếu tố trình tự nhƣ vị trí giới hạn
(restriction site) - những vị trí này có thể giống nhau hoặc có cùng
đầu dính (đầu bằng) với enzyme giới hạn trong MCS (Multiple
Cloning Site) của vector chọn để dòng hóa gen quan tâm. NcoI
(CCATGG) hay NdeI (CATATG) thƣờng đƣợc sử dụng vì có thể tạo
ra codon mở đầu ATG.
- Cấu trúc thứ cấp: nếu sự bắt cặp giữa forward primer với reverse
primer (hình thành dimer, hetero-dimer), forward primer với forward
49
primer hay reverse primer với reverse primer (self-dimer, homo-
dimer), hay primer tự tạo thành cấu trúc hairpin (kẹp tóc) xảy ra
nhiều hơn so với sự bắt cặp của primer với DNA mẫu thì hiệu quả
nhân bản của phản ứng PCR sẽ giảm một cách rõ rệt. Nhƣ vậy, nên
tránh những trƣờng hợp này.
3.3.5.1. Primer3
Chƣơng trình Primer3 là một trong những chƣơng trình thiết kế primer
miễn phí đƣợc biết đến nhiều nhất. Chƣơng trình này đƣợc tạo ra bởi các nhà
khoa học thuộc Viện Nghiên cứu Sinh Y học Whitehead và Trung Tâm Nghiên
cứu Genome của MIT (Whitehead Institute for Biomedical Research and MIT
Center for Genome Research). Chƣơng trình này có thể đƣợc sử dụng hoàn toàn
miễn phí tại địa chỉ internet
bin/primer/primer3_www.cgi
Chƣơng trình Primer3 thiết kế primer cho một trình tự DNA đƣa vào,
thỏa mãn nhiều tùy chọn khác nhau, chủ yếu là các điều kiện về %GC, về nhiệt
độ bắt cặp của primer, kích thƣớc sản phẩm… Đây là chƣơng trình lớn với gần
100 tùy chọn khác nhau tƣơng ứng với các điều kiện mà primer đƣợc tạo ra
phải thỏa mãn. Có một thuận lợi là hầu hết các tùy chọn này đều có giá trị mặc
định của nó, và ngƣời dùng có thể không thay đổi các thông số này nếu họ
không có nhu cầu đặc biệt.
Khi muốn thiết kế primer cho một gen hay một đoạn trình tự nào đó,
trƣớc tiên ngƣời sử dụng phải đƣa đoạn trình tự DNA của mình vào chƣơng
trình và xác định các thông số về trình tự primer, nhiệt độ nóng chảy cua primer,
kích thƣớc sản phẩm cần… Các thông số chi tiết khác có thể giữ mặc định.
50
Hình 3.10. Chƣơng trình Primer3
Dựa trên những yêu cầu cho việc thiết kế primer đã xác định nhƣ trên
chúng tôi thiết lập các thông số cho chƣơng trình Primer3 nhƣ sau
+ Targets(mục tiêu): m, n với m là vị trí bắt đầu có microsatllite
và n là chiều dài microsatellite
+Primer size (kích thƣớc primer)
Min: 18; Max: 24
+ Primer Tm (nhiệt độ nóng chảy của pimer)
Min: 55.0; Max: 72.0; Max Tm difference: 2.0
+ Primer %GC
Min: 50.0; Max: 60%
+ Các thông số khác vẫn giữ mặc định.
3.3.5.2. Chƣơng trình Perl ssrfinder_1_0
Đây là một chƣơng trình của tác giả Steven Schroeder thuộc trƣờng Đại
học Missouri – Michigan. Chƣơng trình gồm 6 Perl scripts có chức năng xác
định SSR và thiết kế primer thích hợp cho mỗi SSR tìm đƣợc
51
- 1_ssr_repeat_finder.pl: tìm SSR, lấy ra trình tự SSR và vùng flanking
cho những phân tích sau.
- 2_ssr_primer_designer.pl: thiết kế primer mà mục tiêu là khuếch đại
vùng trình tự chứa SSR.
- 3_ssr_primer_rep_check.pl: sàng lọc lại các primer đã thiết kế để loại
bỏ những primer có chứa trình tự lặp lại
- 4_ssr_primer_blast.pl: so sánh các primer đã thiết kế với cơ sở dữ liệu
primer
- 5_ssr_order_filter.pl: tạo 1 file chỉ chứa SSR mà có primer duy nhất
- 6_ssr_primer_formatter.pl: tạo 1 file chỉ chứa SSR có primer duy nhất
– file này đƣợc tạo đơn giản chỉ chứa những thông tin cần thiết cho việc chọn
lựa primer.
Yêu cầu: vì chƣơng trình này đƣợc viết cho hệ điều hành Unix hay
Linux nên cần phải thực hiện sửa đổi một số lệnh lập trình cơ bản để có thể
chạy trên môi trƣờng Window.
Chƣơng trình cần sự kết hợp với 3 phần mềm khác là Primer3, blastall
và formatdb để thực thi. Ba phần mềm này có thể tải hoàn toàn miễn phí (có
phiên bản dành cho Window) từ trang Primer3
và trang Blast của NCBI
Các thông số của chƣơng trình thiết kế primer đều đƣợc mặc định nhƣ
sau
TARGET= m, n với m là vị trí bắt đầu có microsatllite và n là chiều dài
microsatellite (mục tiêu)
PRIMER_PRODUCT_SIZE_RANGE=80-160 80-240 80-300 (kích
thƣớc sản phẩm)
PRIMER_OPT_SIZE=24 (kích thƣớc tối ƣu của primer)
PRIMER_MIN_SIZE=20 (kích thƣớc tối thiểu của primer)
PRIMER_MAX_SIZE=28 (kích thƣớc tối đa của primer)
PRIMER_OPT_TM=63 (nhiệt độ nóng chảy tối ƣu của primer)
PRIMER_MIN_TM=60 (nhiệt độ nóng chảy tối thiểu của primer)
PRIMER_MAX_TM=65 (nhiệt độ nóng chảy tối đa của primer)
52
PRIMER_MAX_DIFF_TM=1 (độ chênh lệch nhiệt độ nóng chảy tối đa)
Với các thông số mặc định trên chƣơng trình hoàn toàn có thể sử dụng
cho mục tiêu của đề tài.
53
Phần 4
KẾT QUẢ VÀ THẢO LUẬN
4.1. Thu nhận trình tự EST của cây xoài
Khi sử dụng từ khóa và phƣơng pháp nhƣ mục 3.3.1.2 chúng tôi đã tải đƣợc
toàn bộ 15966 trình tự EST của cây xoài. Các trình tự này ở định dạng FASTA, mỗi
trình tự có cấu trúc nhƣ hình 4.1
Hình 4.1 Trình tự EST ở định dạng FASTA
Đây là kiểu định dạng phổ biến trong cơ sở dữ liệu của GenBank gồm 2 phần
chủ yếu. Phần 1 bắt đầu bằng một dấu “>”, theo sau là các thông tin về trình tự đó nhƣ
tên trình tự, số gi, accession number…Phần 2 là các nucleotide của trình tự. Định dạng
FASTA có ƣu điểm là chỉ chứa trình tự và những thông tin thiết yếu về trình tự đó.
Hơn nữa trong một file trình tự ở định dạng FASTA có thể có nhiều trình tự so với
dạng Plain format chỉ chứa một trình tự.
Mặc khác việc lựa chọn kiểu định dạng trình tự để tải về ở dạng FASTA là sự
thuận lợi cho các nghiên cứu sau vì phần lớn các chƣơng trình, phần mềm của tin sinh
học đều sử dụng định dạng FASTA.
54
Do mục tiêu của đề tài là tìm kiếm tất cả các microsatellite có trong toàn bộ
nguồn dữ liệu EST của cây xoài nên việc tải tất cả 15966 trình tự thuộc cùng một file
là điều hợp lý, dễ dàng cho các công việc phân tích sau này.
4.2. Sắp xếp các trình tự
Sau khi chạy chƣơng trình est_trimmer.pl với các thông số nhƣ mục 3.3.2 đã
trình bày, kết quả đã đƣợc lƣu trong 2 file
mango.results: chứa tất cả các trình tự thỏa mãn các thông số của bƣớc
kiểm tra với est_trimmer.pl
mango.txt: file này ghi nhận tất cả các tiến trình thực thi trên mỗi trình tự
không đạt yêu cầu đề ra nhƣ loại bỏ trình tự có kích thƣớc bé hơn 100 bp, loại
bỏ đuôi poly A, poly T…
Hình 4.2. Tiến trình thực thi của est_trimmer.pl
4.3. Kết quả tìm kiếm microsatellite
4.3.1. Công cụ SSRIT
SSRIT cho phép tìm kiếm một lần là 500 trình tự và tốn khoảng 5 phút. Chính
vì công cụ SSRIT không có khả năng tìm kiếm SSR với một số lƣợng quá lớn trình tự
55
(15966) nên phải chạy chƣơng trình nhiều lần, tốn nhiều thời gian và phải lặp lại tiến
trình. Hơn nữa bảng kết quả của SSRIT không lƣu thành file để truy cập, phải xem kết
quả trực tuyến, không có sự thống kê về các dạng microsatellite. Do đó chúng tôi xác
định rằng công cụ này không phù hợp với mục đích nghiên cứu của đề tài.
4.3.2. Công cụ MISA
Thực thi chƣơng trình MISA cho kết quả rất nhanh và có 2 file đƣợc tạo thành
mango.fasta.misa: chứa các thông tin về tên trình tự, dạng SSR, kích
thƣớc, vị trí bắt đầu và kết thúc của SSR…
Hình 4.3 Nội dung file mango.fasta.misa
mango.fasta.stastistics: là file thống kê kết quả tìm kiếm microsatellite
Dựa vào file mango.fasta.statistics này chúng tôi xác định đƣợc số lƣợng trình
tự không đáp ứng yêu cầu mà khi chạy với est_trimmer.pl đã chƣa thống kê đƣợc: ban
đầu chúng tôi có 15966 trình tự, sau khi chạy est_trimmer thì có 231 trình tự không
thỏa mãn yêu cầu do đó tổng số trình tự đƣợc kiểm tra là 15735.
Kết quả của việc tìm kiếm microsatellite đƣợc liệt kê ở bảng 4.1, số lƣợng SSR
đƣợc xác định chiếm tỷ lệ 1.7% tổng số trình tự EST đƣợc kiểm tra, phân bố tƣơng đối
nhiều trong bộ gen. Với nghiên cứu trên đối tƣợng là cây nho (Scott và ctv, 2000),
56
SSR chiếm 2.5% và trên cây bông vải (Qureshi, 2004) SSR chiếm 1.34% tổng số trình
tự EST.
Bảng 4.1. Kết quả tìm kiếm microsatellite
Kết quả Số lƣợng
Tổng số trình tự kiểm tra 15735
Tổng kích thƣớc của trình tự đã kiểm tra (bp) 7400551
Tổng số SSR đƣợc xác định 267
Tổng số trình tự có SSR 265
Số trình tự có nhiều hơn 1 SSR 2
Số SSR hiện diện ở dạng SSR ghép 1
Sự phân bố các dạng lặp lại có số lƣợng khác nhau theo bảng 4.2.
Bảng 4.2. Sự phân bố các dạng lặp lại của SSR
Đơn vị lặp lại Số SSR Tỷ lệ %
2 (dinucleotide) 11 4.12
3 (trinucleotide) 255 95.51
4 (tetranucleotide) 1 0.37
Bảng trên cho thấy phần lớn các microsatellite của cây xoài là dạng
trinucleotide (95.51%). Các dạng khác xuất hiện rất ít, điều này tƣơng tự đối với
microsatllite ghép (compound microsatellite). Trong các nghiên cứu khác trên đối
tƣợng cây nho dạng trinucleotide là chỷ yếu chiếm tỷ lệ là 62.90%. Trên cây mía dạng
dinucleotide có tỷ lệ 38.19%, trong khi dạng trinucleotide có tỷ lệ 31.49%. Sự phân bố
các dạng lặp lại của microsatellite có sự khác biệt giữa các đối tƣợng nghiên cứu khác
nhau.
Ƣu điểm của MISA so với các phƣơng pháp khác là kết quả tìm kiếm của
MISA đƣợc lƣu thành file, có sự thống kê các dạng microsatellite, chƣơng trình thực
thi nhanh, máy tính không cần nối mạng internet chỉ cần tải mã (code) của chƣơng
trình về máy tính sau đó có thể áp dụng đơn giản và hiệu quả.
57
Nhƣợc điểm của chƣơng trình này là không có chức năng phân loại các trình tự
theo dạng microsatellite đã tìm kiếm. Do đó chúng tôi phải tiến hành phân nhóm trình
tự bằng cách thủ công dựa theo các dạng microsatellite đã xác định đƣợc
Kết quả đạt đƣợc cho thấy
Có tất cả 31 loại SSR trong đó dạng dinucleotide có 5 loại, dạng
trinucleotide có 25 loại và tetranucleotide có 1 loại.
Bảng 4.3. Các loại SSR
Dạng
dinucleotide
Dạng trinucleotide Dạng
tetranucleotide
AT; CA;
CT; TC;
GA
AAC; AAG; ACC;
AGA; AGC; AGT;
ATC; ATT; CAA;
CAG; CAT; CCA;
CGA; CTT; GAA;
GCC; GCT; GGA;
GGT; GTG; TCA;
TCT; TGA; TGG; TTC
TAAT
Hình 4.4 Các file trình tự sau khi phân nhóm
58
Vì các dạng dinucleotide và tetranucleotide chiếm tỷ lệ và tần suất xuất hiện
thấp nên chúng tôi chỉ tiếp tục nghiên cứu đối với dạng trinucleotide.
4.4. Xác định vùng bảo tồn
Để kết quả align (sắp gióng cột) và xác định vùng bảo tồn đƣợc chính xác,
chúng tôi loại bỏ các loại microsatellite có tần suất xuất hiện thấp (<2.5%)
Sau quá trình sàng lọc chúng tôi còn lại 7 loại microsatellite
Bảng 4.4. Các loại microsatellite nghiên cứu
Số thự tự Loại microsatellite Số trình tự Tần suất xuất hiện
1 AGA 31 11.61%
2 CAA 14 5.24%
3 CAT 24 8.99%
4 CCA 73 27.34%
5 TCA 7 2.62%
6 TCT 32 11.99%
7 TGA 16 5.99%
Thực hiện việc sắp gióng cột và tạo trình tự bảo tồn dựa trên công cụ CAP
contig assembly program chúng tôi có đƣợc 6 loại microsatellite, microsatellite AGA
sau khi thực hiện 2 tiến trình nói trên cho thấy sự khác biệt về trình tự ở vùng flanking
nên không thể thiết kế đƣợc primer chung cho tất cả 31 trình tự.
59
Hình 4.5. Xác định vùng bảo tồn của microsatellite CAA
4.5. Thiết kế primer đối với 6 microsatellite
4.5.1. Primer3
Việc thiết kế primer và chọn lựa các thông số phải thỏa các yêu cầu đã nêu
trong mục 3.3.5.1.
Kết quả của chƣơng trình Primer3 của 6 microsatellite
Hình 4.6. Kết quả thiết kế primer của microsatellite TCA
Chúng tôi đã thiết kế đƣợc 6 cặp primer cho 6 loại microsatellite. Theo bảng 4.5,
chúng tôi liệt kê loại SSR, forward primer, reverve primer và nhiệt độ nóng chảy (Tm)
Bảng 4.5 Kết quả thiết kế primer từ chƣơng trình Primer3
Loại SSR Forward primer (5’ - 3’) Reverse primer (5’ - 3’)
CAA GTCTCAAACCCCAAATCC TGTCCACCAGAACCAGAG
CAT ACCGCCAGTCTATGGAACAC TACTTAGCGGCCATCAAACC
CCA TTCCAAGAAGCACTGTGTGG TTGTGGTTGAGGTTGCTCAG
TCA GCATATGCAACTCCACCAG GTTGTTGTGGTGGTCCAA
TCT TGCTGCAATCGAACCAAG GCAGGAGGCACAAATAGTAGTC
60
TGA AGCAGTGAATCCGGTGATCT GGTTTCAGCGCCTTATCAAC
4.5.2. Chƣơng trình Perl script ssrfinder_1_0
Lần lƣợt thực thi từng file từ 1 đến 6 của gói công cụ này, chúng tôi có đƣợc kết
quả sau
1_ssr_repeat_finder.pl có 3 file kết quả
new_id20060715.txt: liệt kê các số truy cập, tên trình tự có SSR
labdout20060715.txt: liệt kê dạng SSR, vị trí và chiều dài SSR, trình tự
ssrout20060715.txt: liệt kê SSR, trình tự có chứa SSR và vùng flanking
2_ssr_primer_designer.pl có 3 file kết quả
primerin.txt: liệt kê các thông số mặc định cho quy trình thiết kế primer
(xem mục 3.3.5.3)
raw_primer20060715.out: liệt kê các kết quả tính toán cho mỗi primer
đƣợc thiết kế
primer_result20060715.txt: liệt kê SSR, trình tự, cặp primer đã thiết kế,
nhiệt độ nóng chảy và chiều dài sản phẩm của primer.
Hình 4.7 Nội dung file primer_result20060715.txt
3_ssr_primer_check.pl tạo file rescreened20060715.txt có nội dung giống file
primer_result20060715.txt vì không có primer đƣợc thiết kế có nhiều trình tự
lặp lại nên bƣớc kiểm tra này vẫn giữ nguyên giá trị cũ.
4_ssr_primer_blast20060715.pl cũng cho kết quả giống
primer_result20060715.txt vì cơ sở dữ liệu primer hiện tại không có.
5_ssr_order_filter.pl: chƣơng trình này tạo file filter20060715.txt có chứa dạng
SSR, trình tự primer, và các thông số của primer khác
6_ssr_order_formatter tạo file cuối cùng là order20060715.txt, file này chỉ chứa
các thông tin cần thiết cho việc thiết kế mồi nhƣ dạng microsatellite, forward
primer và reverse primer.
61
* Kết quả của chƣơng trình thiết kế primer
Hình 4.8. Kết quả thiết kế primer
Trong hình 4.8 cột A là loại SSR, cột B là forward primer, cột C và E là nhiệt
độ nóng chảy, cột D là reverse primer, cột F là chiều dài sản phẩm tạo thành.
Từ kết quả thiết kế primer thu đƣợc từ 2 chƣơng trình khác nhau, chúng tôi
nhận thấy các primer trên đều thích hợp cho phản ứng PCR tùy vào yêu cầu, mục đích
thực nghiệm. Primer ở 2 chƣơng trình có kết quả khác nhau là do việc lựa chọn các
thông số cho tiến trình thiết kế mồi khác nhau.
62
Phần 5
KẾT LUẬN VÀ ĐỀ NGHỊ
5.1. Kết luận
Từ quá trình thực hiện đề tài chúng tôi rút ra kết luận nhƣ sau
Xây dựng phƣơng pháp phát hiện microsatellite đối với cây xoài từ nguồn cơ sở
dữ liệu EST hiện có, đó là sử dụng các chƣơng trình và công cụ est_trimmer.pl,
misa.pl, CAP contig assembly program, Primer3 hay gói công cụ ssrfinder_1_0.
Cơ sở dữ liệu EST của
NCBI
Sử dụng công cụ tải dữ liệu Truy cập
của NCBI Thu nhận
Xử lý với chƣơng trình est_trimmer.pl Sắp xếp các trình tự EST
Xử lý với chƣơng trình misa.pl Xác định microsatellite
Xử lý với phần mềm BioEdit Align, xác định vùng bảo tồn
Xử lý với chƣơng trình Primer3, Thiết kế primer
gói công cụ ssrfinder_1_0
Hình 5.1. Sơ đồ phƣơng pháp thực hiện
Trình tự EST của
cây xoài
Các trình tự EST
đã đƣợc sắp xếp
Các trình tự EST có
chứa microsatellite
Align và xác định
vùng bảo tồn
Primer đã thiết kế
63
Kết quả đạt đƣợc
Đã tải đƣợc 15966 trình tự EST của cây xoài
Xác định và định vị đƣợc 267 microsatellite trong đó dạng trinucleotide chiếm
tỉ lệ cao nhất (95.51%)
Xác định đƣợc vùng bảo tồn của 6 loại microsatellite và thiết kế đƣợc primer
cho 6 loại microsatellite bao gồm các loại sau: CAA, CAT, CCA, TCA, TCT và TGA.
5.2 Đề nghị
Đề tài nên đƣợc tiếp tục phân tích bằng thực nghiệm để kiểm tra hiệu quả của
việc thiết kế primer.
Viết và sử dụng chƣơng trình hay phần mềm có khả năng phân loại các trình tự
đã xác định SSR.
Áp dụng quy trình xác định microsatellite cho các đối tƣợng thí nghiệm khác
nếu đối tƣợng thí nghiệm đó có sẵn nguồn dữ liệu từ các cơ sở dữ liệu.
Xây dựng cơ sở dữ liệu trình tự, microsatellite và các primer đã thiết kế.
Tăng cƣờng việc đào tạo, phát triển ngành tin sinh học vì đó là một ngành hỗ
trợ đắc lực cho công tác nghiên cứu.
64
Phần 6
TÀI LIỆU THAM KHẢO
TIẾNG VIỆT
1. Phạm Văn Duệ, 2005. Giáo trình kỹ thuật trồng cây ăn quả. Nhà xuất bản Hà
Nội. Trang 105.
2. Phạm Thị Hƣơng, Trần Thế Tục, Nguyễn Quang Thạch, 2003. Cây xoài và
những điều cần biết. Nhà xuất bản Nông Nghiệp Hà Nội. 95 trang.
3. Trần Thế Tục, 1994. Kỹ thuật trồng và chăm sóc Xoài Na Hồng Xiêm. Nhà xuất
bản Nông Nghiệp Hà Nội. Trang 25.
4. Lê Minh Trung, Quốc Bình, 2002. Ngôn ngữ lập trình Perl cho người mới học.
Nhà xuất bản Thống kê. 426 trang.
5. Trần Văn Lăng, 2003. Một số tổng quan về sinh tin học. Phân viện Công nghệ
Thông tin tại TP Hồ Chí Minh.
6. Trần Linh Thƣớc, 2004. Thực tập bioinformatics. Đại học Khoa học Tự nhiên
TP Hồ Chí Minh.
7. Lƣu Phúc Lợi, 2005. Giáo trình sinh tin học ứng dụng. Bộ môn Công nghệ Sinh
học – Đại học Nông Lâm TP Hồ Chí Minh.
TIẾNG NƢỚC NGOÀI
8. Andreas D. Baxevanis, B. F. Francis Ouellette, 2005. Bioinformatics a practical
guide to the analysis of genes and proteins. 3
rd
edition, A John Wiley & Sons,
Inc., Publication.
9. James Tisdall, 2001. Beginning Perl for Bioinformatics. 1st edition, O‟Reilly,
Publication.
10. Lorenzo Cerutti, 2002. EST clustering. Swiss Institute of Bioinformatics
11. Scott K. D., 2001. Microsatellites derived from ESTs, and their comparison
with those derived by other methods. Centre for plant conservation genetics,
Southern Cross University, Lismore, Australia.
12. Scott K. D., P. Eggler, G. Seaton, M. Rossetto, E. M. Ablett, L. S. Lee, R. J.
Henry, 2000. Analysis of SSRs derived from grape ESTs.
65
13. Samina N. Qureshi, Sukumar Saha, Ramesh V. Kantety, and J. N. Jenkins, 2004.
EST-SSR: A New Class of Genetic Markers in Cotton. The journal of cotton
science 8:112 – 123. The cotton foundation.
TÀI LIỆU TỪ CÁC TRANG WEB
14. Julian P. Robinson, Stephen A. Harris, 1999. Amplified Fragment Length
Polymorphisms and Microsatellites: A phylogenetic perspective. Department of
Plant Sciences, University of Oxford, South Parks Road, Oxford OX1 3RB,
Great Britain
15. Vincent R. Prezioso. General notes on Primer Design in PCR. Biosystems
Laboratory, Brinkmann Instruments Inc., Westbury, New York.
16.
17.
18.
19.
20.
21.
22.
23.
66
PHỤ LỤC
1. Mã chƣơng trình est_trimmer.pl
#!/usr/bin/perl –w
# Check for arguments. If none display syntax #
if (@ARGV == 0)
{open (IN,"<$0");
while () {if (/^\#\# (.*)/) {$message .= "$1\n"}};
close (IN);
die $message;}
# Check if help is required #
if ($ARGV[0] =~ /-help/i)
{open (IN,"<$0");
while () {if (/^\#\#\#(.*)/) {$message .= "$1\n"}};
close (IN);
die $message;}
# Open FASTA file #
open (IN,"<$ARGV[0]") || die ("\nError: File doesn't exist !\n\n");
# Checking arguments #
$arg = @ARGV;
$arg > 1 || die ("\nError: No arguments determined !\n\n");
for ($i = 1; $i < $arg; $i++)
{if (($amb_n,$amb_win) = ($ARGV[$i] =~ /-amb=(\d+),(\d+)/i))
{$message .= "$i. Check for ambiguous bases (search for $amb_n
ambiguous bases in a $amb_win bp window).\n";}
elsif (($tr3_b,$tr3_n,$tr3_win) = ($ARGV[$i] =~ /-
tr3=([ACGT]),(\d+),(\d+)/i))
{$message .= "$i. Trim 3' end: Remove \"$tr3_b\" tails.";
if ($tr3_win > 0) {$message .= " Check for $tr3_n x $tr3_b in a
$tr3_win bp window.\n"} else {$message .= "\n"};}
elsif (($tr5_b,$tr5_n,$tr5_win) = ($ARGV[$i] =~ /-
tr5=([ACGT]),(\d+),(\d+)/i))
{$message .= "$i. Trim 5' end: Remove \"$tr5_b\" tails.";
if ($tr5_win > 0) {$message .= " Check for $tr5_n x $tr5_b in a
$tr5_win bp window.\n"} else {$message .= "\n"};}
elsif (($cut_min,$cut_max) = ($ARGV[$i] =~ /-cut=(\d+),(\d+)/i))
{$message .= "$i. Size restrictions: Size cutoff is $cut_min bp.
Restrict sequence size to $cut_max bp.\n";}
elsif (($file) = ($ARGV[$i] =~ /-id=(.*)/i))
{}
67
else {die ("\nError: Argument nr. ",++$i," is invalid !\n\n")}};
# Open results & log file#
if ($file) {open (OUT,">$file.results") || die ("\nError: Output file
name not valid !\n\n");open (LOG,">$file.log")}
else {open (OUT,">$ARGV[0].results");open (LOG,">$ARGV[0].log")};
print "\nEST TRIMMER\n===========\n\nPerforming following steps:\n\n";
print LOG "\nLOG FILE OF ALL PERFORMED MODIFICATIONS\n";
print LOG "=======================================\n\n";
print LOG "\nPerforming following steps:\n---------------------------
\n\n";
print $message;
print LOG $message;
print LOG "\n\nProcessing steps for each sequence:\n--------------------
---------------\n";
# core #
$/ = ">";
while ()
{next unless (($seqname,$seq) = /(.*?)\n(.*)/s);
$seq =~ s/[\d\s>]//g;
$seq =~ s/[^ACGTN]/N/gi; # only "acgtn" characters allowed
$message = '';
$discard = 'nö';
for ($i = 1; $i < $arg; $i++)
{if (($amb_n,$amb_win) = ($ARGV[$i] =~ /-amb=(\d+),(\d+)/i))
{&Trim_5_n;
&Trim_3_n;}
elsif (($tr3_b,$tr3_n,$tr3_win) = ($ARGV[$i] =~ /-
tr3=([ACGT]),(\d+),(\d+)/i))
{ &Trim_3_oligoN }
elsif (($tr5_b,$tr5_n,$tr5_win) = ($ARGV[$i] =~ /-
tr5=([ACGT]),(\d+),(\d+)/i))
{&Trim_5_oligoN }
elsif (($cut_min,$cut_max) = ($ARGV[$i] =~ /-cut=(\d+),(\d+)/i))
{if ($cut_max < length $seq)
{$seq = substr $seq,0,$cut_max;
$message .= "Restrict sequence size to $cut_max bp.\n"};
if ($cut_min and (length $seq < $cut_min))
{$message .= "Discard sequence (below $cut_min bp cutoff).\n";
$discard = "yo;}
if ($discard eq 'nö')
{$seq = join ("\n",grep($_,split(/(.{70})/,$seq)));
print OUT ">$seqname\n$seq\n"};
68
if ($message ne '') {print LOG "\n>$seqname\n$message"} };
print "\nDONE\n";
close (IN);
close (OUT);
close (LOG);
# subroutines #
sub Trim_5_n
# trim 5' end until specified window contains less than n ambiguous
bases
{$check = '0';
while ((length $seq > $amb_win) and !($check eq '1'))
{$window = substr $seq,0,$amb_win;
if ($window =~ /^(([^N]*N){$amb_n})/i)
{$seq =~ s/^($1N*)//i;
$message .= "Ambiguous sequence at 5' side: $1.\n" }
else {$check = '1'};};
sub Trim_3_n
# trim 3' end until specified window contains less than n ambiguous
bases
{$check = '0';
while ((length $seq > $amb_win) and !($check eq '1'))
{$window = substr $seq,-$amb_win;
if ($window =~ /.*((N[^N]*){$amb_n})/i)
{ $seq =~ s/(N*$1)$//i;
$message .= "Ambiguous sequence at 3' side: $1.\n" }
else {$check = '1'}; };
sub Trim_5_oligoN
# remove oligoN stretches from 5' side
{$check = '0';
if ($seq =~ s/^($tr5_b+)//i) {$message .= "Remove \"$tr5_b\" tail at
5' side: $1.\n"};
while (!($check eq '1'))
{ if (length $seq > $tr5_win) {$window = substr $seq,0,$tr5_win}
else {$window = $seq};
if ($window =~ /^(.*?($tr5_b){$tr5_n})/i)
{ $seq =~ s/^($1$tr5_b*)//i;
$message .= "Remove \"$tr5_b\" stretch at 5' side: $1.\n" }
else {$check = '1'}; };
sub Trim_3_oligoN
# remove oligoN stretches from 3'side
{$check = '0';
69
if ($seq =~ s/($tr3_b+)$//i) {$message .= "Remove \"$tr3_b\" tail at
3' side: $1.\n"};
while (!($check eq '1'))
{if (length $seq > $tr3_win) {$window = substr $seq,-$tr3_win} else
{$window = $seq};
if ($window =~ /.*(($tr3_b){$tr3_n}.*)/i)
{ $seq =~ s/($tr3_b*$1)$//i;
$message .= "Remove \"$tr3_b\" stretch at 3' side: $1.\n"}
else {$check = '1'};}
};
2. Mã chƣơng trình misa.pl
#!/usr/bin/perl –w
#§§§§§ DECLARATION §§§§§#
# Check for arguments. If none display syntax #
if (@ARGV == 0)
{open (IN,"<$0");
while () {if (/^\#\# (.*)/) {$message .= "$1\n"}};
close (IN);
die $message;};
# Check if help is required #
if ($ARGV[0] =~ /-help/i)
{open (IN,"<$0");
while () {if (/^\#\#\#(.*)/) {$message .= "$1\n"}};
close (IN);
die $message;};
# Open FASTA file #
open (IN,"<$ARGV[0]") || die ("\nError: FASTA file doesn't exist !\n\n");
open (OUT,">$ARGV[0].misa");
print OUT "ID\tSSR nr.\tSSR type\tSSR\tsize\tstart\tend\n";
# Reading arguments #
open (SPECS,"misa.ini") || die ("\nError: Specifications file doesn't
exist !\n\n");
my %typrep;
my $amb = 0;
while ()
{ %typrep = $1 =~ /(\d+)/gi if (/^def\S*\s+(.*)/i);
if (/^int\S*\s+(\d+)/i) {$amb = $1}};
my @typ = sort { $a $b } keys %typrep;
#§§§§§ CORE §§§§§#
$/ = ">";
my $max_repeats = 1; #count repeats
70
my $min_repeats = 1000; #count repeats
my (%count_motif,%count_class); #count
my ($number_sequences,$size_sequences,%ssr_containing_seqs); #stores number
and size of all sequences examined
my $ssr_in_compound = 0;
my ($id,$seq);
while ()
{next unless (($id,$seq) = /(.*?)\n(.*)/s);
my ($nr,%start,@order,%end,%motif,%repeats); # store info of all SSRs
from each sequence
$seq =~ s/[\d\s>]//g; #remove digits, spaces, line breaks,...
$id =~ s/^\s*//g; $id =~ s/\s*$//g;$id =~ s/\s/_/g; #replace whitespace
with "_"
$number_sequences++;
$size_sequences += length $seq;
for ($i=0; $i < scalar(@typ); $i++) #check each motif class
{ my $motiflen = $typ[$i];
my $minreps = $typrep{$typ[$i]} - 1;
if ($min_repeats > $typrep{$typ[$i]}) {$min_repeats =
$typrep{$typ[$i]}}; #count repeats
my $search = "(([acgt]{$motiflen})\\2{$minreps,})";
while ( $seq =~ /$search/ig ) #scan whole sequence for that class
{ my $motif = uc $2;
my $redundant; #reject false type motifs [e.g. (TT)6 or (ACAC)5]
for ($j = $motiflen - 1; $j > 0; $j--)
{ my $redmotif = "([ACGT]{$j})\\1{".($motiflen/$j-1)."}";
$redundant = 1 if ( $motif =~ /$redmotif/ )};
next if $redundant;
$motif{++$nr} = $motif;
my $ssr = uc $1;
$repeats{$nr} = length($ssr) / $motiflen;
$end{$nr} = pos($seq);
$start{$nr} = $end{$nr} - length($ssr) + 1;
# count repeats
$count_motifs{$motif{$nr}}++; #counts occurrence of individual motifs
$motif{$nr}->{$repeats{$nr}}++; #counts occurrence of specific SSR in
its appearing repeat
$count_class{$typ[$i]}++; #counts occurrence in each motif class
if ($max_repeats < $repeats{$nr}) {$max_repeats = $repeats{$nr}};};
};
next if (!$nr); #no SSRs
$ssr_containing_seqs{$nr}++;
71
@order = sort { $start{$a} $start{$b} } keys %start; #put SSRs in
right order
$i = 0;
my $count_seq; #counts
my ($start,$end,$ssrseq,$ssrtype,$size);
while ($i < $nr)
{ my $space = $amb + 1;
if (!$order[$i+1]) #last or only SSR
{$count_seq++;
my $motiflen = length ($motif{$order[$i]});
$ssrtype = "p".$motiflen;
$ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";
$start = $start{$order[$i]}; $end = $end{$order[$i++]};
next};
if (($start{$order[$i+1]} - $end{$order[$i]}) > $space)
{ $count_seq++;
my $motiflen = length ($motif{$order[$i]});
$ssrtype = "p".$motiflen;
$ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";
$start = $start{$order[$i]}; $end = $end{$order[$i++]};
next };
my ($interssr);
if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)
{ $count_seq++; $ssr_in_compound++;
$ssrtype = 'c*';
$ssrseq =
"($motif{$order[$i]})$repeats{$order[$i]}($motif{$order[$i+1]})$repeats{$or
der[$i+1]}*";
$start = $start{$order[$i]}; $end = $end{$order[$i+1]} }
else
{$count_seq++; $ssr_in_compound++;
$interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} -
$end{$order[$i]}) - 1);
$ssrtype = 'c';
$ssrseq =
"($motif{$order[$i]})$repeats{$order[$i]}$interssr($motif{$order[$i+1]})$re
peats{$order[$i+1]}";
$start = $start{$order[$i]}; $end = $end{$order[$i+1]};
#$space -= length $interssr };
while ($order[++$i + 1] and (($start{$order[$i+1]} - $end{$order[$i]})
<= $space))
{ if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)
72
{ $ssr_in_compound++;
$ssrseq .= "($motif{$order[$i+1]})$repeats{$order[$i+1]}*";
$ssrtype = 'c*';
$end = $end{$order[$i+1]}}
else
{ $ssr_in_compound++;
$interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} -
$end{$order[$i]}) - 1);
$ssrseq .= "$interssr($motif{$order[$i+1]})$repeats{$order[$i+1]}";
$end = $end{$order[$i+1]};
#$space -= length $interssr}};
$i++;}
continue
{print OUT "$id\t$count_seq\t$ssrtype\t$ssrseq\t",($end - $start +
1),"\t$start\t$end\n"};};
close (OUT);
open (OUT,">$ARGV[0].statistics");
#§§§§§ INFO §§§§§#
#§§§ Specifications §§§#
print OUT "Specifications\n==============\n\nSequence source file:
\"$ARGV[0]\"\n\nDefinement of microsatellites (unit size / minimum number
of repeats):\n";
for ($i = 0; $i < scalar (@typ); $i++) {print OUT
"($typ[$i]/$typrep{$typ[$i]}) "};print OUT "\n";
if ($amb > 0) {print OUT "\nMaximal number of bases interrupting 2 SSRs in
a compound microsatellite: $amb\n"};
print OUT "\n\n\n";
#§§§ OCCURRENCE OF SSRs §§§#
#small calculations
my @ssr_containing_seqs = values %ssr_containing_seqs;
my $ssr_containing_seqs = 0;
for ($i = 0; $i < scalar (@ssr_containing_seqs); $i++)
{$ssr_containing_seqs += $ssr_containing_seqs[$i]};
my @count_motifs = sort {length ($a) length ($b) || $a cmp $b }
keys %count_motifs;
my @count_class = sort { $a $b } keys %count_class;
for ($i = 0; $i < scalar (@count_class); $i++) {$total +=
$count_class{$count_class[$i]}};
#§§§ Overview §§§#
print OUT "RESULTS OF MICROSATELLITE
SEARCH\n================================\n\n";
73
print OUT "Total number of sequences examined:
$number_sequences\n";
print OUT "Total size of examined sequences (bp):
$size_sequences\n";
print OUT "Total number of identified SSRs: $total\n";
print OUT "Number of SSR containing sequences:
$ssr_containing_seqs\n";
print OUT "Number of sequences containing more than 1 SSR:
",$ssr_containing_seqs - ($ssr_containing_seqs{1} || 0),"\n";
print OUT "Number of SSRs present in compound formation:
$ssr_in_compound\n\n\n";
#§§§ Frequency of SSR classes §§§#
print OUT "Distribution to different repeat type classes\n-----------------
----------------------------\n\n";
print OUT "Unit size\tNumber of SSRs\n";
my $total = undef;
for ($i = 0; $i < scalar (@count_class); $i++) {print OUT
"$count_class[$i]\t$count_class{$count_class[$i]}\n"};
print OUT "\n";
#§§§ Frequency of SSRs: per motif and number of repeats §§§#
print OUT "Frequency of identified SSR motifs\n----------------------------
------\n\nRepeats";
for ($i = $min_repeats;$i <= $max_repeats; $i++) {print OUT "\t$i"};
print OUT "\ttotal\n";
for ($i = 0; $i < scalar (@count_motifs); $i++)
{my $typ = length ($count_motifs[$i]);
print OUT $count_motifs[$i];
for ($j = $min_repeats; $j <= $max_repeats; $j++)
{if ($j < $typrep{$typ}) {print OUT "\t-";next};
if ($count_motifs[$i]->{$j}) {print OUT "\t$count_motifs[$i]->{$j}"}
else {print OUT "\t"}; };
print OUT "\t$count_motifs{$count_motifs[$i]}\n";};
print OUT "\n";
#§§§ Frequency of SSRs: summarizing redundant and reverse motifs §§§#
# Eliminates %count_motifs !
print OUT "Frequency of classified repeat types (considering sequence
complementary)\n-----------------------------------------------------------
--------------\n\nRepeats";
my (%red_rev,@red_rev); # groups
for ($i = 0; $i < scalar (@count_motifs); $i++)
{ next if ($count_motifs{$count_motifs[$i]} eq 'X');
my (%group,@group,$red_rev); # store redundant/reverse motifs
74
my $reverse_motif = $actual_motif = $actual_motif_a = $count_motifs[$i];
$reverse_motif =~ tr/ACGT/TGCA/;
my $reverse_motif_a = $reverse_motif;
for ($j = 0; $j < length ($count_motifs[$i]); $j++)
{if ($count_motifs{$actual_motif}) {$group{$actual_motif} = "1";
$count_motifs{$actual_motif}='X'};
if ($count_motifs{$reverse_motif}) {$group{$reverse_motif} = "1";
$count_motifs{$reverse_motif}='X'};
$actual_motif =~ s/(.)(.*)/$2$1/;
$reverse_motif =~ s/(.)(.*)/$2$1/;
$actual_motif_a = $actual_motif if ($actual_motif lt $actual_motif_a);
$reverse_motif_a = $reverse_motif if ($reverse_motif lt
$reverse_motif_a) };
if ($actual_motif_a lt $reverse_motif_a) {$red_rev =
"$actual_motif_a/$reverse_motif_a"}
else {$red_rev = "$reverse_motif_a/$actual_motif_a"}; # group name
$red_rev{$red_rev}++;
@group = keys %group;
for ($j = 0; $j < scalar (@group); $j++)
{for ($k = $min_repeats; $k <= $max_repeats; $k++)
{ if ($group[$j]->{$k}) {$red_rev->{"total"} += $group[$j]-
>{$k};$red_rev->{$k} += $group[$j]->{$k}} } };
for ($i = $min_repeats; $i <= $max_repeats; $i++) {print OUT "\t$i"};
print OUT "\ttotal\n";
@red_rev = sort {length ($a) length ($b) || $a cmp $b } keys %red_rev;
for ($i = 0; $i < scalar (@red_rev); $i++)
{my $typ = (length ($red_rev[$i])-1)/2;
print OUT $red_rev[$i];
for ($j = $min_repeats; $j <= $max_repeats; $j++)
{if ($j < $typrep{$typ}) {print OUT "\t-";next};
if ($red_rev[$i]->{$j}) {print OUT "\t",$red_rev[$i]->{$j}}
else {print OUT "\t"}};
print OUT "\t",$red_rev[$i]->{"total"},"\n"; };
3. Mã chƣơng trình ssrfinder_1_0
1_ssr_repeat_finder.pl
#!/usr/bin/perl –w
# change these parameters for each run!!!!!!!!
$datename = '20060715'; # date for directory name and datafile info
$runtype = 1; # 1 = genbank fasta, 0 = local (fasta header differences)
75
# no need to change anything below this point
$seqcount = 0;
$ssr_count = 0;
@ssr_label = qw(a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab
ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az);
# set the flanking length here ( in bases )
$flank_length = 150; # i.e. 150 bp
# set the minimum length of the repeat
$min_pattern_length = 12; # i.e. 12 bp
# open the input sequence file - fasta format 3rd field of header is the
accession number
open (SEQFILE, "../$datename/sequence$datename.txt") || die "file not found:
$!";
# open the output file for the sequence ids
open (IDFILE, ">>../$datename/new_ids$datename.txt") || die "couldn't
create file";
# open the ouput file for the ssr results
open (SSROUTFILE, ">>../$datename/ssrout$datename.txt") || die "couldn't
create file";
#open the output file for the overall output for loading into labdb
open (LABDBTXT, ">>../$datename/labdbout$datename.txt") || die "couldn't
create file";
# read in file of previously checked IDs
$CheckedIDs = `cat ../$datename/CheckedIDs.txt`;
# parse the sequence file and process
if ($runtype == 1) {
while (defined ($line = )) {
chomp $line;
if ($line =~ /^>/) {
if (defined ($Seq)) {
# check if genbank id has been done before
if ($CheckedIDs !~ /$SeqHead[3]/) {
&SSRSearch;
print "new seq\n";
} else {
print "old seq\n";} }
$seqcount++;
print $seqcount;
$HeadLine = $line;
undef $Seq;
@SeqHead = split(/\|/,$HeadLine);
print IDFILE "$SeqHead[3]\t$SeqHead[4]\n";
76
} else {
$Seq = "$Seq" . "$line"; }
if (defined ($Seq)) {
# check if genbank id has been done before
if ($CheckedIDs !~ /$SeqHead[3]/) {
&SSRSearch;
print "new seq\n";
} else {
print "old seq\n"; } }
} elsif ($runtype == 2) {
while (defined ($line = )) {
chomp ($line);
@LineIn = split(/\t/, $line);
$SeqHead[3] = $LineIn[0];
print $SeqHead[3];
$Seq = $LineIn[1];
if (defined ($Seq)) {
&SSRSearch;}
$seqcount++;
print $seqcount;
if ( ($seqcount%5) == 0 ) {
print "\n";
} else {
print "\t"; }
undef $Seq;
@SeqHead = split(/\|/,$HeadLine) }
} elsif ($runtype == 3) {
while (defined ($line = )) {
chomp ($line);
if ($line =~ /^>/) {
if (defined ($Seq)) {
&SSRSearch;
} $seqcount++;
print $seqcount;
if ( ($seqcount%5) == 0 ) {
print "\n";
} else {
print "\t";}
undef $Seq;
$HeadLine = $line;
@templine1 = split(/>/,$HeadLine);
@templine2 = split(/\./, $templine1[1]);
77
$SeqHead[3] = $templine2[0]."_".$templine2[3];
print IDFILE "$SeqHead[3]\n";
} else {
$Seq = "$Seq" . "$line"; }
if (defined ($Seq)) {
&SSRSearch; }
close (SEQFILE);
close (IDFILE);
close (SSROUTFILE);
close (LABDBTXT);
print "Number of sequences in input file = $seqcount \n";
print "Number of Repeats found = $ssr_count \n";
exit 0;
# subroutines
sub SSRSearch() {
print "*";
$suffix = -1;
while ( $Seq =~ /(([ATGC]{2,})\2{3,})/gi ) {
print "+";
$fullmatch = $1;
$minmatch = $2;
# minimum matches: di-nt 6 repeats, tri-nt 4 repeats, tetra-nt 4 repeats
# check that repeat is greater than minimum total length of match
# and that it is not a single nt repeat - AAAAAAA, TTTTTTTT, etc.
if ( (( $length_sub = length($fullmatch)) >= $min_pattern_length )
&& !( $fullmatch =~ /([ATGC])\1{8,}/ ) ) {
print "-";
$ssr_count++;
$suffix++;
$Accession = "$SeqHead[3]" . "$ssr_label[$suffix]";
print SSROUTFILE "$Accession\t$fullmatch\t$minmatch\t";
print LABDBTXT "$SeqHead[3]\t$Accession\t$fullmatch\t$minmatch\t";
$pos2 = index($Seq,$fullmatch);
$pos3 = $pos2 + $length_sub;
if ($pos2 < $flank_length) {
$pos1 = 0;
} else {
$pos1 = $pos2 - $flank_length; }
if ( ( ( $max = length($Seq)) - $pos3 ) < $flank_length ) {
$pos4 = $max;
} else {
$pos4 = $pos3 + $flank_length; }
78
$seqleft = substr($Seq,$pos1,$pos2-$pos1);
$seqcenter = substr($Seq,$pos2,$pos3-$pos2);
$seqright = substr($Seq,$pos3,$pos4-$pos3);
print SSROUTFILE $seqleft, "[", $seqcenter,"]",$seqright,"\n";
print LABDBTXT $pos2,",",$length_sub,"\t",$seqleft, "[",
$seqcenter,"]",$seqright,"\n"; }
print "\n";}
2_ssr_primer_designer.pl
#!/usr/bin/perl –w
# change these parameters for each run!!!!!!!!
$datename = '20060715'; # date for directory name and datafile info
$primer3app = 'd:\\detai\\ssrfinder_1_0\\primer3'; # full path to the
primer3 command
# no need to change anything below this point
# open the ouput file with the ssr results
open (SSRINFILE, "../$datename/ssrout$datename.txt") || die "couldn't open
file";
open (RAWPRIMER, ">../$datename/raw_primer3$datename.out") || die "couldn't
open file: $!";
open (PRIMEROUT, ">../$datename/primer_results$datename.txt") || die
"couldn't open file: $!";
$counter = 0;
while (defined($line = )) {
chomp ($line);
@columns = split(/\t/,$line);
@seq = split(/\[|\]/,$columns[3]);
$length_left = length($seq[0]);
$length_mask = length($seq[1]);
$length_right = length($seq[2]);
$t1 = $length_left+1;
$t2 = $length_mask;
open (PRIMERIN, ">../$datename/primerin.txt") || die "couldn't open file:
$!";
print PRIMERIN "PRIMER_SEQUENCE_ID=",$columns[1],"\n";
print PRIMERIN "SEQUENCE=",$seq[0],$seq[1],$seq[2],"\n";
print PRIMERIN "TARGET=", $t1, ",", $t2, "\n";
print PRIMERIN "PRIMER_PRODUCT_SIZE_RANGE=80-160 80-240 80-300\n";
print PRIMERIN "PRIMER_OPT_SIZE=24\n";
print PRIMERIN "PRIMER_MIN_SIZE=20\n";
print PRIMERIN "PRIMER_MAX_SIZE=28\n";
print PRIMERIN "PRIMER_OPT_TM=63\n";
79
print PRIMERIN "PRIMER_MIN_TM=60\n";
print PRIMERIN "PRIMER_MAX_TM=65\n";
print PRIMERIN "PRIMER_MAX_DIFF_TM=1\n";
print PRIMERIN "=\n";
close (PRIMERIN);
# $primer3 = `../devel/primer/primer3_0_9_test/src/primer3_core
< ../$datename/primerin.txt`;
$primer3 = `$primer3app < ../$datename/primerin.txt`;
print RAWPRIMER "######## $columns[1] #########\n";
print RAWPRIMER $primer3, "\n";
@prime_out = split(/\n/, $primer3);
foreach $i (0..$#prime_out) {
($varname,$varvalue) = split(/=/, $prime_out[$i]);
$primehash{$varname} = $varvalue;}
if ($primehash{'PRIMER_LEFT_SEQUENCE'}) {
$counter++;
print PRIMEROUT "$columns[0]\t$columns[1]\t$columns[2]";
print PRIMEROUT "\t$seq[0]$seq[1]$seq[2]";
print PRIMEROUT "\t", $primehash{'PRIMER_LEFT_SEQUENCE'};
print PRIMEROUT "\t", $primehash{'PRIMER_LEFT_TM'};
print PRIMEROUT "\t", $primehash{'PRIMER_RIGHT_SEQUENCE'};
print PRIMEROUT "\t", $primehash{'PRIMER_RIGHT_TM'};
print PRIMEROUT "\t", $primehash{'PRIMER_PRODUCT_SIZE'};
print PRIMEROUT "\n"; }
undef %primehash;}
close (PRIMEROUT);
close (SSRINFILE);
close (RAWPRIMER);
print "repeats primed: ", $counter, "\n";
exit 0;
3_ssr_primer_rep_check.pl
#!/usr/bin/perl –w
# change these parameters for each run!!!!!!!!
$datename = '20060715'; # date for directory name and datafile info
# no need to change anything below this point
open (OUTFILE, ">rescreened$datename.txt");
$good = 0;
$bad = 0;
$temp = `type primer_results$datename.txt`;
@temp1 = split(/\n/, $temp);
foreach $i (0..$#temp1) {
80
@temp2 = split(/\t/, $temp1[$i]);
print $temp2[0],"\t",$temp2[1],"\t",$temp2[2],"\t",$temp2[3];
print
"\t",$temp2[4],"\t",$temp2[5],"\t",$temp2[6],"\t",$temp2[7],"\t",$temp2[8],
"\t";
if (( $temp2[4] =~ /(([ATGC]{2,3})\2{3,})/gi ) || ( $temp2[6] =~
/(([ATGC]{2,3})\2{3,})/gi )) {
print "bad\n";
$bad++;
} else {
print "good\n";
$good++;
print OUTFILE
$temp2[0],"\t",$temp2[1],"\t",$temp2[2],"\t",$temp2[3],"\t";
print OUTFILE
$temp2[4],"\t",$temp2[5],"\t",$temp2[6],"\t",$temp2[7],"\t",$temp2[8],"\n" }
print "good: $good\nbad: $bad\n";
close (OUTFILE);
exit(0);
4_ssr_primer_blast.pl
#!/usr/bin/perl –w
# change these parameters for each run!!!!!!!!
$datename = '20060715'; # date for directory name and datafile info
$blastapp = 'd:\\detai\\ssrfinder_1_0\\blastall'; # full path to the
blastall command
$blastdbdir = 'd:\\detai\\ssrfinder_1_0\\db'; #full path to the blast
database directory
$blastdbname = 'AllPrimers.nt'; # name of the blast database to use
$formatdbapp = 'd:\\detai\\ssrfinder_1_0\\formatdb'; # full path to the
formatdb command
# no need to change anything below this point
open (PRIMERSIN, "../$datename/rescreened$datename.txt") || die;
open (BLASTOUTFILE, ">../$datename/blastout$datename.txt") || die;
open (FULLBLASTOUT, ">../$datename/fullblastoutput$datename.txt") || die;
$counter = 0;
$b0hit = 0;
while (defined($line=)) {
chomp ($line);
@columns = split(/\t/,$line);
$Accession = $columns[0];
$sequence = $columns[3];
81
$forward = $columns[4];
$reverse = $columns[6];
$counter++;
print $counter, "\n";
print BLASTOUTFILE $Accession, "\t", $columns[1], "\t", $columns[2];
print BLASTOUTFILE "\t", $sequence, "\t", $forward, "\t", $columns[5],
"\t";
print BLASTOUTFILE $reverse, "\t", $columns[7], "\t", $columns[8], "\t";
&BlastIt;
print "Blasted Sequences= ",$counter,"\n";
print "Blast NON-Hits= ",$b0hit,"\n";
close (PRIMERSIN);
close (BLASTOUTFILE);
close (FULLBLASTOUT);
exit 0;
sub BlastIt() {
open (TMPSEQFILE, ">../$datename/repeats/$Accession.fasta");
print TMPSEQFILE "> ",$Accession,"\n",$sequence,"\n";
close (TMPSEQFILE);
# $blastout = `blastall -p blastn -d db/AllPrimers.nt -e 0.01 -
i ../$datename/repeats/$Accession.fasta`;
$blastout = `$blastapp -p blastn -d $blastdbdir/$blastdbname -e 0.01
-i ../$datename/repeats/$Accession.fasta`;
print FULLBLASTOUT
"XXXXX\t",$Accession,"\tXXXXXXXXXXXXXXXXXXXXXXXXX\n\n";
print FULLBLASTOUT $blastout;
&ParseBlast;
sub DBup() {
# open (BLASTDBFASTA, ">>../blast/db/AllPrimers.nt");
open (BLASTDBFASTA, ">>$blastdbdir/$blastdbname");
print BLASTDBFASTA "> ",$Accession,"_f\n",$forward,"\n";
print BLASTDBFASTA "> ",$Accession,"_r\n",$reverse,"\n";
close (BLASTDBFASTA);
# $formatdbstatus = system("formatdb -i db/AllPrimers.nt -p F -o T");
$formatdbstatus = system("$formatdbapp -i $blastdbdir/$blastdbname -p
F -o T");}
sub ParseBlast() {
# split the blast output into records (splits at blank lines)
@blastrecs = split(/\n\n/, $blastout);
# the record that contains the hit results SHOULD be in record 6 - WATCH
OUT
if ($blastrecs[5] =~ /Sequence/) {
82
@blastmatch = split(/\n/, $blastrecs[6]);
print BLASTOUTFILE $#blastmatch-1, "\t";
for $entry (0 .. $#blastmatch) {
($name,$score, $E) = split(/[ ]+ /, $blastmatch[$entry]);
print $name,"\t",$score,"\t",$E,"\n";
print BLASTOUTFILE "\t",$name,"\t",$score,"\t",$E;}
} else {
print BLASTOUTFILE "0\t";
$b0hit++;
print "No Hits found\n";
print BLASTOUTFILE "\tnone\tnull\tnull";
&DBup; }
print BLASTOUTFILE "\n";}
5_ssr_order_filter.pl
#!/usr/bin/perl –w
# change these parameters for each run!!!!!!!!
$datename = '20060715'; # date for directory name and datafile info
# no need to change anything below this point
open (OUTFILE, ">filter$datename.txt");
$infile = `cat blastout$datename.txt`;
$count = 0;
@temp1 = split(/\n/, $infile);
foreach $f (0..$#temp1) {
@temp2 = split(/\t/, $temp1[$f]);
if ($temp2[11] eq 'none') {
print OUTFILE $temp2[0],"\t",$temp2[1],"\t";
print OUTFILE $temp2[2],"\t",$temp2[3],"\t";
print OUTFILE $temp2[4],"\t",$temp2[5],"\t";
print OUTFILE $temp2[6],"\t",$temp2[7],"\t";
print OUTFILE $temp2[8],"\n";
print $temp2[0],"\t",$temp2[10],"\t",$temp2[11],"\n";
$count++;}
print "non-hits: ",$count,"\n";
close (OUTFILE);
exit (0);
6_ssr_order_formatter.pl
#!/usr/bin/perl –w
# change these parameters for each run!!!!!!!!
$datename = '20060715'; # date for directory name and datafile info
83
# no need to change anything below this point
open (OUTFILE, ">order$datename.txt");
$infile = `cat blastout$datename.txt`;
$count = 0;
@temp1 = split(/\n/, $infile);
foreach $f (0..$#temp1) {
@temp2 = split(/\t/, $temp1[$f]);
if ($temp2[11] eq 'none') {
print OUTFILE $temp2[0],"\t";
print OUTFILE $temp2[4],"\t",$temp2[5],"\t";
print OUTFILE $temp2[6],"\t",$temp2[7],"\t";
print OUTFILE $temp2[8],"\n";
print $temp2[0],"\t",$temp2[10],"\t",$temp2[11],"\n";
$count++; }}
print "non-hits: ",$count,"\n";
close (OUTFILE);
exit (0);
Các file đính kèm theo tài liệu này:
- NGUYEN MINH HIEN - 02126139.pdf