Khóa luận Khai thác dữ liệu est (Expressed sequence tags ) nhằm phát hiện microsattellte phục vụ cho công tac phân tích và so sánh đặc điểm di truyền của ong mật

TÓM TẮT Thời gian nghiên cứu: từ tháng 2 đến tháng 7 năm 2006 Địa điểm nghiên cứu: Trung tâm Phân tích Thí Nghiệm - trường Đại học Nông Lâm TP. Hồ Chí Minh Ở Việt Nam, nghề nuôi ong mật đã hình thành rất lâu và hiện nay các sản phẩm của ong mật hầu hết là được xuất khẩu. Hiệu quả kinh tế mang về từ nghề nuôi là khá cao. Tuy nhiên, việc nuôi ong chỉ tập trung chủ yếu ở một số vùng nhất định như Tây Nguyên (Đak Lak), miền Đông Nam Bộ, chưa tận dụng được hết nguồn tài nguyên có sẵn. Sự hạn chế này là do chưa xác định được loài ong cho mật nào phù hợp với từng vùng địa lý cụ thể tại Việt Nam. Chính vì thế chúng tôi tiến hành nghiên cứu về việc thiết lập nên primer chạy phản ứng PCR dựa vào chỉ thị microsatellite của các loài ong cho mật để làm cơ sở cho những bước nghiên cứu định danh và xác định đặc điểm di truyền của ong mật phục vụ cho việc mở rộng nghề nuôi ong mật ở các vùng ở Việt Nam. Những kết quả đã đạt được: ۰Chúng tôi đã chọn được một nguồn dữ liệu (EST) tốt cho nghiên cứu ۰Thiết lập được phương pháp để tìm kiếm microsatellite từ nguồn EST ۰ Thiết kế được những cặp primer dựa vào vùng bảo tồn hai bên những loại microsatellite tìm được Kết luận: Sự thành công của việc thiết kế primer đã làm cơ sở cho những bước nghiên cứu xa hơn về đặc điểm di truyền của các loài ong cho mật. Thành công này mở ra một triển vọng cho việc ứng dụng lĩnh vực Bioinformatic hỗ trợ cho nghiên cứu thực nghiệm, làm giảm đáng kể chi phí và đẩy nhanh tốc độ nghiên cứu thực nghiệm tại Trung Tâm. MỤC LỤC CHưƠNG TRANG Trang tựa Lời cảm tạ iii Tóm tắt iv Mục lục .v Danh sách các chữ viết tắt viii Danh sách các bảng .ix Danh sách các hình .x 1. MỞ ĐẦU 1 1.1. Đặt vấn đề .1 1.2. Mục đích và yêu cầu nghiên cứu 2 1.2.1. Mục đích nghiên cứu .2 1.2.2. Yêu cầu nghiên cứu .2 1.3. Giới hạn .2 2. TỔNG QUAN TÀI LIỆU .3 2.1. Giới thiệu chung về ong mật .3 2.1.1. Cấu tạo cơ thể của ong mật 3 2.1.1.1. Hình thái cơ thể 3 2.1.1.2. Các cơ quan bên trong 6 2.1.2. Tổ chức của đàn ong 6 2.1.3. Yêu cầu dinh dưỡng của ong .7 2.1.4. Các sản phẩm của ong .7 2.1.4.1. Mật ong .7 2.1.4.2. Phấn hoa .7 2.1.4.3. Sữa ong chúa 7 2.1.4.4. Sáp ong 8 2.2. Nguồn gốc EST (Expressed Sequence Tags) 8 2.2.1. EST là gì? 8 2.2.2. Phương pháp tạo EST 8 2.3. Microsatellite là gì? .10 2.3.1. Các dạng microsatellite .10 2.3.2. Cơ chế hình thành microsatellite .11 2.3.3. Ứng dụng của microsatellite 12 2.3.4. Marker phân tử (molecular markers) .13 2.3.5. Vì sao chọn marker microsatellite? .14 2.4. Ngôn ngữ lập trình Perl (Practical Extraction and Reporting Language) .15 2.4.1. Nguồn gốc của Perl 15 2.4.2. Cấu trúc của Perl 16 2.4.2.1. Dữ liệu vô hướng (scala data) 16 2.4.2.2. Cấu trúc điều khiển .16 2.4.2.3. Các List, Array và Hash .19 2.4.2.4. Dòng chương trình và các thường trình con .19 2.4.2.5. Package và Module 20 2.5. Giới thiệu về mồi (primer) 21 2.5.1. Khái quát về mồi 21 2.5.2. Đặc điểm của mồi .21 2.5.2.1. Tính chuyên biệt .21 2.5.2.2. Tính ổn định .22 2.5.2.3. Tính tương thích .23 2.6. Tin sinh học .24 2.6.1. Khái niệm tin sinh học 24 2.6.2. Các lĩnh vực nghiên cứu chính của tin sinh học .24 2.6.2.1. Genomics - Hệ gen học 24 2.6.2.2. Sinh học tiến hóa 26 2.6.2.3. Phân tích chức năng gen .26 3. PHưƠNG TIỆN VÀ PHưƠNG PHÁP NGHIÊN CỨU .29 3.1. Thời gian và địa điểm tiến hành nghiên cứu .29 3.1.1. Thời gian nghiên cứu .29 3.1.2. Địa điểm nghiên cứu .29 3.2. Vật liệu và công cụ nghiên cứu .29 3.2.1. Vật liệu nghiên cứu .29 3.2.2. Công cụ nghiên cứu .29 3.3. Phương pháp tiến hành nghiên cứu .30 3.3.1. Quy trình nghiên cứu tổng quát .30 3.3.2. Phương pháp nghiên cứu .31 3.3.2.1. Sơ đồ các bước tiến hành nghiên cứu .31 3.3.2.2. Các bước tiến hành nghiên cứu chi tiết 32 4. KẾT QUẢ VÀ THẢO LUẬN 42 4.1. Kết quả tìm kiếm và tải trình tự EST về máy tính cá nhân .42 4.1.1. Kết quả tìm kiếm EST .42 4.1.2. Kết quả tải trình tự EST về máy tính cá nhân .43 4.2. Kết quả tìm và phân loại microsatellite .44 4.2.1. Kết quả tìm microsatellite qua xử lý của EST_TRIMMER 44 4.2.2 Kết quả xử lý qua MISA 45 4.3. Kết quả thiết kế primer 49 4.3.1. Kết quả thiết kế primer qua 6 Script Perl 49 4.3.2. Kết quả so sánh và chọn lọc primer được thiết kế .56 5. KẾT LUẬN VÀ ĐỀ NGHỊ 59 5.1. Kết luận .59 5.1.1. Sơ đồ phương pháp thực hiện 59 5.1.2. Kết quả đạt được .60 5.2. Đề nghị 60 6. TÀI LIỆU THAM KHẢO 61 7. PHỤ LỤC .64 . Khai thác dữ liệu est (Expressed sequence tags ) nhằm phát hiện microsattellte phục vụ cho công tac phân tích và so sánh đặc điểm di truyền của ong mật

pdf94 trang | Chia sẻ: maiphuongtl | Lượt xem: 1869 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Khóa luận Khai thác dữ liệu est (Expressed sequence tags ) nhằm phát hiện microsattellte phục vụ cho công tac phân tích và so sánh đặc điểm di truyền của ong mật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
t.results) chứa trình tự đƣợc chọn. File chứa kết quả đƣợc định dạng lại để tiến hành nghiên cứu xa hơn. Hình 4.4: File chứa kết quả trình tự EST đƣợc chọn 4.2.2. Kết quả xử lý qua MISA Hình 4.5: File định dạng FASTA 46 Một điều bất tiện ở EST_TRIMMER là kết quả không cho biết số lƣợng EST đƣợc chọn và bị loại bỏ là bao nhiêu. Nhƣng điều này đã có MISA giải quyết, tốt hơn thế nữa MISA còn cho ta thay đổi thêm vài thông số cần thiết mà với EST_TRIMMER chƣa thực hiện đuợc. Những tác vụ thực thi của MISA: Chọn lọc lại kích thƣớc chiều dài của EST Điều chỉnh mức độ đa hình của microsatellite. Điều chỉnh mức độ độ dài gián đoạn tối đa giữa hai microsatllite trong 1 EST Cho biết số lƣợng EST đã xử lý Cho biết số lƣợng base đã xem xét Cho biết số lƣợng microsatellite đã tìm đƣợc Cho biết số lƣợng trình tự chứa hơn 1 microsatellite Hình 4.6. Thể hiện kết quả thực thi của MISA Bảng 4.1: Kết quả xử lý của MISA KẾT QUẢ XỬ LÝ QUA MISA Tổng EST kiểm tra Tổng số base đã kiểm tra Số SSR tìm đƣợc Số EST chứa SSR Số EST chứa hơn 1 SSR Số EST chứa SSR cách nhau 100 base (interruptions) 24289 11170594 4737 3345 964 970 47 Qua bảng kết quả trên cho thấy, số lƣợng microsatellite tìm thấy là rất nhiều và cũng rất đa dạng. Không thể sử dụng hết số lƣợng microsatellite này làm móc (anchor) để thiết kế primer đƣợc. Vì nhƣ vậy sẽ không khả thi trong quá trình chọn lựa primer và mục đích nghiên cứu sẽ bị phân tán về hiệu quả. Do vậy, cần phải thực hiện thanh lọc lại trƣớc khi tiến hành thiết kế primer. Công việc thanh lọc ở đây cần làm là: ► Tính tỉ lệ phần trăm từng dạng microsatellite ► Tính tỉ lệ phân trăm 5‟EST và 3‟EST ► Chọn ra EST chứa microsatellite có tính đại diện cao Bảng 4.2 sau đây bƣớc đầu sẽ trình bày kết quả liệt kê tất cả thành phần của các dạng microstellite. Bảng 4.2: Thành phần các dạng microsatellite Các dạng microsatellite tìm đƣợc Di - Nucleotide Tri - nucleotide Tetra - nucleotide Penta - nucleotide Hexa - nucleotide AT; TA; GA; AG; CA; TC; TG; AC TAT; TTG; TCG; GAG; GAA; ATT; TCT; CTT; ATA; ATG; GGA; AGA; TTC; CTA; TGA; TGT; CTA; AGC; ACA; TCC; CAA; AAT; AGG; TTA; TAC; GAC; ACG; GAT; CGC; GCA; AAC; ACT; TAA; GGT; AAG; TAA; GCG; TCA ATAA; CCTT; GAAG; GTTC; CGAT; AAAG; TTCT; CTTT; GTAT; AAGA; TAAA; TCGT; AAAT; TGTA; AATA; ACAT; TTAA; TTTC; TACA; AGAT; GGGA; TCTTT; ATCG; TCGA; TTTA; AGCG; ATCC; CTCA; AAGG; AATA; TATT AGAAA; GAAGA; TTTTC; TCAAA; AAATA; AAATA; CTCTT; ATAAT; AAGAA; ATGAA; TATAT; TTTCT; TCGTGA; AGAGAC 48 Kiểm tra file kết quả cho thấy các dạng microsatellite chiếm tỷ lệ lớn là: dinucleotide SSR, trinucleotide SSR và tetranucleotide. Hại dạng còn lại chiếm tỉ lệ rất thấp. Cụ thể bảng kết quả 4.3 sẽ cho ta thấy rõ. Bảng 4.3. Phần trăm các dạng microsatellite Tỷ lệ phần trăm các dạng microsatellite Dinucleotide Trinucleotide Tetranucleotide Penta/hexanucleotide 36% (1705 SSR) 48% (2274 SSR) 15.6% (739 SSR) 0.4% (19 SSR) Qua bảng kết quả này nói lên một điều là sự đa hình của microsatellite hầu hết là thuộc vào ba loại di/tri/tetra-nucleotide SSR. Vì vậy vấn đề bây giờ là xác định tỷ lệ của từng loại microsatellite trong từng dạng microsatellite này. Bảng 4.4. Phần trăm các loại microsatellite chiếm tỉ lệ cao Tỷ lệ % các loại microsatellite trong 3 dạng di/tri/tetra-nucleotide SSR Dạng dinucleotide SSR Dạng trinucleotide Dạng tetranucleotide AG AT TG TA GA ATA ATT TTC AAAG TTTC 15% (256 SSR) 29% (495 SSR) 8% (136 SSR) 25% (426 SSR) 17% (290 SSR) 26% (591 SSR) 37% (841 SSR) 30% (682 SSR) 48% (355 SSR) 45% (333 SSR) Bảng thống kế cho thấy tỷ lệ phần trăm các loại microsatellite tập trung chủ yếu vào một số loại nhất định. Các loại microsatellite chiếm tỷ lệ rất nhỏ trong các dạng trên không cần thiết phải liệt kê ra và cũng dễ dàng tính đƣợc là bao nhiêu theo quy tắc tam suất. Tuy nhiên việc tính những tỷ lệ này có lẽ sẽ không ảnh hƣởng gì đến kết quả của việc thiết kế primer. Khả năng chỉ thị của chúng là không khả thi vì không mang tính đặc trƣng (số lƣợng quá ít). Các loại microsatellite đƣợc liệt kê ở bảng trên sẽ đƣợc chuyển vào từng file riêng biệt chuẩn bị cho việc thiết kế primer. Về kết quả tính tỉ lệ phần trăm 5‟EST và 3‟EST, tỉ lệ tính ra là rất chênh lệch, hầu hết là 5‟EST (97% hay 3245 5‟EST). Chính vì sự chênh lệch quá lớn giữa hai 49 dạng EST hay đúng hơn là số lƣợng 3‟EST quá ít, mà việc thực hiện công việc này không đóng góp gì vào những bƣớc tiếp theo. 4.3. Kết quả thiết kế primer 4.3.1. Kết quả thiết kế primer qua 6 Script Perl Những script này đƣợc thiết kế làm việc liên tục từ script thứ 1 đến script thứ 6. Mỗi script thực hiện một chức năng riêng biêt, script thực hiện tác vụ phía trƣớc là tiền đề cho script kế tiếp thực thi tác vụ của mình. Hay output của script thứ 1 là input cho script thứ 2 và tƣơng tự nhƣ vậy đến sript thứ 6. Dữ liệu đƣợc xử lý lôgic qua từng script, các script này đƣợc thiết kế nhƣ một phần mềm tìm kiếm microsatellite, thiết kế primer, sàng lọc primer, cho ra kết quả primer cuối cùng. Việc thiết kế primer của chƣơng trình này nhờ vào Primer3, Blastall và Formatdb. Sau đây là kết quả thực thi tác vụ của từng script. ● 1_ssr_repeat_finder Script thứ nhất thực thi cho ra 3 file kết quả ► new_ids170404: liệt kê id của các trình tự có microsatellite ► ssrout170404: thể hiện mã số truy cập, trình tự EST và trình tự microsatellite ► labdbout170404: liệt kê tất cả microsatellite trong một EST, vị trí khởi đầu của microsatellite, số base của từng microsatellite và trình tự EST. Hình 4.7. Kết quả của file new_ids170404 50 Hình 4.8: Kết quả của ssrout170404 Hình 4.9. Kết quả trình diễn của labdbout170404 Trong đó ssrout170404 là input của 2_ssr_primer_designer. Ssrout170404 là một file chứa dữ liệu ở dạng text. Trong file này có 4393 EST chứa microsatellite. Số EST này là nguồn input cho script thứ hai thực thi tác vụ thiết kế primer. ● 2_ssr_primer_designer Script thứ hai thực thi tác vụ của nó cho ra 2 file kết quả. ► raw_primer3170404: in ra kết quả các thông số mặc định đƣợc thiết lập từ Primer3 và từ script thiết lập. 51 Hình 4.10. Xuất kết quả các thông số thiết lập từ script ► primer_results170404 Hình 4.11: Trình bày primer đƣợc thiết kế Số lƣợng primer đƣợc thiết kế còn khá nhiều (3417 cặp primer). Chắc chắn là không thể nào sử dụng tất cả số primer để chạy phản ứng PCR đƣợc. Tuy nhiên, vấn đề này sẽ đƣợc giải quyết qua bƣớc sàng lọc và chọn lại những cặp primer có chất lƣợng hơn qua 3_ssr_primer_rep_check. ● 3_ssr_primer_rep_check Script này lấy primer_results170404 làm input và cho ra output là rescreened170404. Script thứ 3 thực thi tác vụ chọn lọc lại primer đã đƣợc thiết kế từ 52 script thứ 2. Việc chọn lọc này sẽ cho ra những cặp mồi có chất lƣợng cao hơn (đảm bảo các thông số kỹ thuật đã thiết lập). Kết quả thực thi của 3_ssr_primer_rep_check chọn lọc ra đƣợc 175 cặp primer. Số primer này tiếp tục đƣợc xử lý qua script thứ 4 và thứ 5 để chọn ra những cặp primer cuối cùng. Hình 4.12: Trình diễn của rescreened170404 ● 4_ssr_primer_blast Script thứ tƣ này sẽ đƣợc nhúng vào Blastall nhờ chƣơng trình này gióng hàng các trình tự EST có microsatellite đƣợc chọn thiết kế primer ở script thứ 3 để tiếp tục chọn lại những trình tự có primer tốt nhất. Script này sẽ sử dụng rescreened170404 làm input và cho ra output là blastout170404. Hình 4.13: Kết quả màn hình xử lý qua 4_ssr_blast 53 ● 5_ssr_order_filter Đây là script cuối cùng thực thi tác vụ tinh lọc primer và các EST đƣợc thiết kế primer. Thành công của bƣớc này là cơ bản công đoạn thiết kế primer đã hoàn thành. Từ intput blastout170404, 5_ssr_order_filter thực thi tác vụ của mình cho ra output filter170404. Filter170404 sẽ chứa trình tự EST và primer đƣợc thiết kế từ nó. Đây là kết quả primer cuối cùng đã đƣợc chọn. Hình 4.14. Thể hiện EST và primer sau cùng ● 6_ssr_order_formatter Kết quả thể hiện những primer cuối cùng đƣợc thiết kế nhƣ đƣợc thấy phần nào ở Hình 4.14 thì chƣa thật rõ ràng. Vì vậy, script cuối cùng script thứ 6 làm nhiệm vụ định dạng lại và tách riêng một file chỉ chứa những cặp primer đƣợc chọn cùng với mã số truy cập của từng EST tƣơng ứng với primer đƣợc thiết kế, nhiệt độ Tm và kích thƣớc sản phẩm. Hình 4.15. Trình bày primer đạt đƣợc sau cùng 54 Bảng 4.5: Kết quả primer của dạng dinucleotide SSR Kết quả primer của dạng dinucleotide SSR AG MX AATATTTAAGACGACCTGGCACGA CATACGTGAGGCACTTTCTCTTTC AAATTTGATGAACGGGAGAATGAA MN CGTGTCTCATCTCCTCCATTCTTT ACGAATTAATTTTTAACCATAGCGATT ATTACCAATATCGGTGCATTTGCT GA MX ACGTTGAAAATCGTAGCTCGAAAG GTTTTTGTCCTCCAGTTTCGGAT CACCTTATAATTCCACCTTCCTCG MN AAGTTTCCGTTCTCCTCGAGTTCT ACAAAACTTGTTGACTCACCCGAT TTACTCTCTCGTTCCTCTTCTCGC TC MX GAGGAAACGAGGTGTATCGGTTTA GCAACGATCTTGTCAATATACGCA TTAAACGAAGGATGATCCAAAACG AAAATCACATCAATTCCGTTATCTTTTT TCGATGCCAGTTTCGTTATTTCTT MN GGAGAGAATGAAAGAAAGTGCGAA ATAGAGGGAGAGCGTGAGGAAGAG GAGGACCTCAAGTGAACTGGGATA GGGATTACCGGTTAGCTCGATTAC TATGCGTATATCTCAGCGTACGGA AT MX CGGCTTTCGAGAACAAAATAAAAA TTTCTGAAAGAAGAAATCGGTTTGAG GGAACCAATCGTTGTTTCTCGTAT GGAACCAATCGTTGTTTCTCGTAT CGACAGCTAGGTGATTTCTATCCG ACCTTTCCTCTCGCTATCCAATTC MN GCTCGACCCATTACTTTCTTCCTT CATCAAAGAGGGCAAGAAATGGTA ACAAGATCAATGCCACGTCTTTTT ACAAGATCAATGCCACGTCTTTTT CTAAGTAATAAATCGTCGAGCCGC GCTCAGGCGATTGAGATTTAAGTG TA MX AGCTTAGCCAGCGAATTAATTTAAGA TGAACGAACAAATATGAGAAAGCG MN TAACGAACGTCGACGGTTAAAAA GGGTGGTCACTCCGATGTAGTAAT 55 Bảng 4.6: Kết quả primer của dạng trinuclotide SSR Kết quả primer của dạng trinucleotide SSR ATA MX TTCTCTTCGTTTCTTTCTTGCGTT TTCTTAGACGAATACAAAGAGGACAAAA TCGTTGATTCAAGAGAAAGAGAGGA ACCGTGAACATATCAAGGCGTATT MN CTTCAAGTGGGATAAGGTACGTCG CTTGAACTCTGAAATAACGCCGA GGCCTTCCAATCAACTCGAATAA AATCTTTTACTCGTCGTTGCTTCG TTC MX AGGTTCGATGAATTTTTCCAAAGG TTTTACGTCATCCGGTACATCAAG GTGTCGCAAGACCGTTCTTTTT ACGTGGCGAATAATTGCCTTACT AATTGGTCAATTGGTGTGTTGAAA MN TTCGAATCGAGGAATCAATAAAACA TTCTCGTTTGTTTCATTGTTTTCG CCAGAAGCACGTGTAAAACATCAA GATAAATTGCCATTGCCACGAT CCCCCTTCCCCTAATTGTAATTTT ATT MX TTCTCTTCGTTTCTTTCTTGCGTT TTCTTAGACGAATACAAAGAGGACAAAA TCGTTGATTCAAGAGAAAGAGAGGA ACCGTGAACATATCAAGGCGTATT MN CTTCAAGTGGGATAAGGTACGTCG CTTGAACTCTGAAATAACGCCGA GGCCTTCCAATCAACTCGAATAA AATCTTTTACTCGTCGTTGCTTCG 56 Bảng 4.7: Primer của dạng tetranucleotide SSR Trong đó MX:mồi xuôi, MN: mồi ngƣợc; chiều primer 5‟-3‟ 4.3.2. Kết quả so sánh và chọn lọc primer đƣợc thiết kế Kết quả cuối cùng đƣợc chọn này đƣợc chọn lọc lại sau khi tiến hành đƣa những trình tự EST của primer đã đƣợc thiết kế ở phần 4.3.1vào thiết kế lại ở các phần mềm thiết kế primer Primer3, PrimerQuest, PDA, DNAClub và dựa trên kích thƣớc sản phẩm, nhiệt độ chênh lệch giữa mồi xuôi và mồi ngƣợc. Bảng 4.8 và bảng 4.9 là kết quả các cặp primer (9 cặp) của dạng dinucleotide và tri/tetra-nucleotide đƣợc chọn sau cùng khi sử dụng các phần mềm thiết kế primer đã đƣợc giới thiệu ở trên, cùng với đó là việc phân tích căn cứ trên các thông số nhƣ chiều dài sản phẩm, tỷ lệ GC%, nhiệt độ Tm của primer… Kết quả thiết kế primer của các phần mềm là khác nhau, chỉ có Primer3 là có tỉ lệ giống nhau cao nhất. Điều này cũng dễ hiểu, bởi vì mỗi chƣơng trình có các thông số kỹ thuật đƣợc thiết lập dựa trên các tiêu chuẩn khác nhau, đối tƣợng khác nhau. Vì vậy khi đƣa các trình tự EST chứa các SSR đã đƣợc thiết kế primer bằng bằng 6 Script Perl vào thiết kế primer trên các phần mềm thiết kế này thì cho ra các kết quả khác nhau. Kết quả primer của dạng tetranucleotide SSR AAAG MX TTCTCTTCGTTTCTTTCTTGCGTT TTCTTAGACGAATACAAAGAGGACAAAA TCGTTGATTCAAGAGAAAGAGAGGA MN CTTCAAGTGGGATAAGGTACGTCG CTTGAACTCTGAAATAACGCCGA GGCCTTCCAATCAACTCGAATAA TTTC MX ACTCGCCTTGTAAATTGGACGATA TGGCAAATGGAAAGAGAAGAAAGA CGTTCCTTCTTTCCTTCCTTTTTC TGGAGAGAAGAAAAGATCCCAATG MN GCGAAACGAAAAGTAGGAAACAAA GAAAAAGGAAGGAAAGAAGGAACG TGCTTCACGACACGCAATACTAAT CGGTAAAAATTGTGCGTCGTTAAT 57 Bảng 4.8: Kết quả primer sau cùng của dạng dinucleotide SSR Kết quả primer chọn lọc từ dạng dinucleotide SSR AG MX CATACGTGAGGCACTTTCTCTTTC MN ACGAATTAATTTTTAACCATAGCGATT GA MX ACGTTGAAAATCGTAGCTCGAAAG AAGTTTCCGTTCTCCTCGAGTTCT TC MN GCAACGATCTTGTCAATATACGCA ATAGAGGGAGAGCGTGAGGAAGAG AT MX ACCTTTCCTCTCGCTATCCAATTC GCTCAGGCGATTGAGATTTAAGTG TA MN TGAACGAACAAATATGAGAAAGCG GGGTGGTCACTCCGATGTAGTAAT Bảng 4.9: Kết quả primer đƣợc chọn của dang tri/tetra-nucleotide SSR Kết quả primer chọn lọc của dạng trinucletotide SSR ATA MX GATTCATGTGTTGGTCGCTGAATA MN CCCTCTCCCTGTTCCTCTCTTTTA TTC MX AGGTTCGATGAATTTTTCCAAAGG MN TTCGAATCGAGGAATCAATAAAACA Kết quả primer chọn lọc của dạng tetranucleotide SSR AAAG MX ACCGTGAACATATCAAGGCGTATT MN AATCTTTTACTCGTCGTTGCTTCG TTTC MX ACTCGCCTTGTAAATTGGACGATA MN GCGAAACGAAAAGTAGGAAACAAA Do đó, việc chọn lọc lại primer đƣợc căn cứ chủ yếu dựa vào Primer3 và kết quả cuối cùng của 6 Script Perl. Kết quả này cho thấy tính độc lập và ý đồ riêng trong nghiên cứu với từng đối tƣợng cụ thể. Và việc chọn lựa kết quả sau cùng tùy vào chủ ý của ngƣời nghiên cứu. 58 Bảng 4.10: Trình bày loại và mã số truy cập EST Loại microsatellite và mã số truy cập EST của các primer đã chọn Loại microsatellite Mã số truy cập AG CK631623 GA BP874879 TC BI502843 AT BP538128 TA BI517251 ATA BP874541 TTC BP875475 AAAG BI510009 TTTC BI514563 Để dễ dàng trong việc tìm và kiểm tra lại tính chính xác những cặp primer đã đƣợc thiết kế, tôi thiết lập nên bảng 4.10. Bảng 4.10 cho thấy những loại microsatellite và mã số truy cập của các EST tƣơng ứng chứa các loại microsatellite này. 59 Phần 5 KẾT LUẬN VÀ ĐỀ NGHỊ 5.1. Kết luận 5.1.1. Sơ đồ phƣơng pháp thực hiện Từ quá trình thực hiện tôi xin đề xuất sơ đồ phƣơng pháp thực hiện cụ thể cho việc khai thác dữ liệu, xử lý và thiết kế primer đối với các SSR tìm đƣợc nhƣ sau EST từ NCBI Script Perl (Bƣớc 1 mục 3.2) Download sử dụng công cụ hỗ trợ từ NCBI Sử dụng phần mềm Phân loại EST lần 1 EST_TRIMMER EST đã đƣợc phân loại lần I Sử dụng phần mềm Phân loại EST lần 2 MISA Sử dụng 6 script Perl Chọn lọc primer lần 1 Primer chƣa chọn lọc Sử dụng DNA Club, Primer3, PrimerQuest Chọn lọc primer lần 2 Hình 5.1. Qui trình nghiên cứu thiết kế primer Trình tự EST EST chứa microsatellite Primer tốt nhất 60 5.1.2. Kết quả đạt đƣợc Đã tải đƣợc 24648 trình tự EST (mất khoảng 30 phút) Qua quá trình tìm và phân loại bƣớc đầu microsatellite, kết quả đã xác định ۰ 4737 microsatllite ۰ 3345 EST chứa microsatellite ۰ 964 EST chứa hơn 1 microsatellite ۰ 100 dạng interruptions Xác định đƣợc tỉ lệ các dạng microsatellite chiếm tỷ lệ cao ۰Dạng dinucleotide SSR: 36% (1705 SSR) ۰Dạng trinucleotide SSR: 48% (2274 SSR) ۰Dạng tetranucleotide SSR: 15,6% (739 SSR) Từ các dạng microsatellite chiếm tỷ lệ cao đã xác định đƣợc các loại microsatellite tin cậy cho việc thiết kế primer: ۰Dạng dinucleotide có các loại: AG, GA, TC, AT, TA ۰Dạng trinucleotide có các loại: ATA, ATT, TTC ۰Dạng tetranucleotide có các loại: AAAG, TTTC Kết quả thiết kế và chọn lọc primer đã chọn ra đƣợc 9 cặp primer đảm bảo các yêu cầu về các thông số cho primer khi thực hiện phản ứng PCR. 5.2. Đề nghị Cần tiến hành kiểm tra các cặp mồi này bằng thực nghiệm để kiểm tra hiệu quả cao nhất của đề tài Kết quả thành công nên mở rộng đối tƣợng nghiên cứu Nên tăng cƣờng đầu tƣ và xây dựng một chuyên ngành về lĩnh vực Bioinformatic tại Trung Tâm, việc này sẽ đóng góp rất lớn đến hiệu quả nghiên cứu của Trung Tâm. 61 Phần 6 TÀI LIỆU THAM KHẢO TIẾNG VIỆT 1.Bùi Chí Bửu - Nguyễn Thị Lang-1999. Di truyền phân tử - Những nguyên tắc căn dbản trong chọn giống cây trồng – Nhà xuất bản Nông Nghiệp thành phố Hồ Chí Minh, 278 trang 2. CN. Lƣu Phúc Lợi, 2006. Bài giảng tin - sinh học ứng dụng, 37 trang 3. Nguyễn Thị Phƣơng Dung, 2005. Xây dựng phƣơng pháp nhận diện và phân tích tính đa dạng di truyền của 21 dòng cacao ( themobroma cacaoL.) bằng kỹ thuật microsatellite. Khóa luận tốt nghiệp kỹ sƣ công nghệ sinh học, trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh, 83 trang 4. Trần Hiếu Thuận,2003. Tài liệu lập trình Perl- Bộ môn Sinh Tin trƣờng Đại Học Khoa Học Tự Nhiên thành phố Hồ Chí Minh,34 trang 5. Lê Minh Trung - Quốc Bình, 2002. Ngôn ngữ lập trình Perl cho ngƣời mới học. NXB Thống kê 2002, 426 trang TIẾNG NƢỚC NGOÀI 5. R. B. Hodgetts . M. A. Aleksiuk . A. Brown . C. Clarke. E.Macdonald S.Nadeem . D. Khasa, 2000. Development of Microsatellite Markers for White Spruce ( Picea glauca) anh related species – © Springer-Verlag 2001 6. T. A. Holton, 1999. Plant Genotyping by Analysis of Microsatellites – Centre for Plant Conservation Genetics. Southern Cross University, Lisomore, Australia 7. Michel Solignac, Dominique Vautrin, Emmanuelle Baudry, Florence Mougel, Anne Loiseau and Jean-Marie Cornuet. A Microsatellite-Based Linkage Map of the Honeybee, Apis mellifera L.- Laboratoire Populations, Génétique et Evolution, Center National de la Recherche Scientifique, F91198 Gif-sur-Yvette Cedex, France and Center de Biologie et de Gestion des Populations, F34988 Saint-Gely-Du-Fesc Cedex, France 8. Pilar De La Rúaa*, Jusé Galiána, José Serranoa, Robin F.A. Moritzb. Genetic Structure of Balearic Honeybee Polymorphism. Depatarmento de Biología Animal, 62 Facultad de Veterinaria, Apdo.4021, Universidad de Murcia, 30071 Murcia, Spain b Institute of Zoology, Martin-Luther-University Halle-Wittenberg, Kroll Witzer Str. 44, 06099 Hawall/Sale, Germany 9. James P. Connell, Sujata Pammi 1 , Muhammad J. Iqbal, Tim Huizinga and Avutu S. Reddy*. A High Through-put Procedure for Capturing Microsatelles from Complex Plant Genomes. Crop Biotechnology Center and Dept. of Soil and Crop Sciences, 1 Crop Biotechnology and Dept. of Biochemistry and Biophysics, Texas A&M University, College Station, Texas 77843- 2123, USA 10. Jean Michel Claverie, Cedric Notredame, 2003. Bioinformatics for Dummies Wiley Publishing, Inc. 11. Ouellette, 2005. Bioinformatics a practical guide to the analysis of genes and proteins.3 rd edition, A John Wily And Sons, Inc. Pulication 13. David C, Gilley, David R. Tarpy, Benamin B. Land. Effect of queen quality on interactions between workers and dueling queens in honeybee ( Apismellifera L.) colonies. Publlised ooline 30 Otober 2003 © Spriger Verlag 2003 14. Francis L.W. Ratnieks, Laurent Keller. Queen control of egg fertilization the honey bee. © Springer-Verlag 1998 15. John G.K. Williams, Anne R.Kubelik, Kenneth J.Lavak, J.Atoni Rafal Ski and Scott V. Tingey. DNA polymorphisms amplified by arbitrary primers are useful as genetic markers. Central Research and Development Department 1 Agricultural Products Department, E.L.du Pont de Nemours & Co., Inc., Experimental Station, Wilmington, de 198800, USA 16. Windels, Pieter., Taverniers, Isabel., Van Bockstaele, Erik Ann Depicker., De Loose, Marc., 2001. Characterisation of the Roundup Ready soybean insert. Eur Food Res Technol 213:107–112, p:109. 17. Zhen Tao, Xing-Feng Cai, Sheng-Li Yang and Yi Gong. Detection of Exogenous Genes in Genetically Modified Plants With Multiplex Polymerase Chain Reaction. Plant Molecular Biology Reporter 19: p. 293. TRANG WEB 18. 19. 63 20. www.cirrisingmage.com/bee_honey.html 21. 22. 23. 24. 25. 26. www.ch.embnet.org/CourEMBnet/CHIP02/ppt/embnet_hofmann2.ppt 27. 28. 29. 30. 31. 32. l 33. ftp://ftp.ncbi.nih.gov/blast/executables/ 64 PHỤ LỤC Mà (Code) CỦA MỘT SỐ ĐOẠN CHƢƠNG TRÌNH Đà ĐƢỢC VIẾT` TRONG QUÁ TRÌNH XỬ LÝ DỮ LIỆU 1. Script của EST_TRIMMER: thực thi tác vụ phân loại một số dạng mocrosatellite #!/usr/bin/perl -w ###Program name: est_trimmer.pl ###Author: Thomas Thiel ###Release date: 25/01/01 ###Version: 04/09/02 # Check for arguments. If none display syntax # if (@ARGV == 0) { open (IN,"<$0"); while () {if (/^\#\# (.*)/) {$message .= "$1\n"}}; close (IN); die $message; }; # Check if help is required # if ($ARGV[0] =~ /-help/i) { open (IN,"<$0"); while () {if (/^\#\#\#(.*)/) {$message .= "$1\n"}}; close (IN); die $message; }; # Open FASTA file # open (IN,"<$ARGV[0]") || die ("\nError: File doesn't exist !\n\n"); # Checking arguments # $arg = @ARGV; $arg > 1 || die ("\nError: No arguments determined !\n\n"); for ($i = 1; $i < $arg; $i++) { if (($amb_n,$amb_win) = ($ARGV[$i] =~ /-amb=(\d+),(\d+)/i)) { $message .= "$i. Check for ambiguous bases (search for $amb_n ambiguous bases in a $amb_win bp window).\n"; } elsif (($tr3_b,$tr3_n,$tr3_win) = ($ARGV[$i] =~ /- tr3=([ACGT]),(\d+),(\d+)/i)) { $message .= "$i. Trim 3' end: Remove \"$tr3_b\" tails."; if ($tr3_win > 0) {$message .= " Check for $tr3_n x $tr3_b in a $tr3_win bp window.\n"} else {$message .= "\n"}; } elsif (($tr5_b,$tr5_n,$tr5_win) = ($ARGV[$i] =~ /- tr5=([ACGT]),(\d+),(\d+)/i)) { 65 $message .= "$i. Trim 5' end: Remove \"$tr5_b\" tails."; if ($tr5_win > 0) {$message .= " Check for $tr5_n x $tr5_b in a $tr5_win bp window.\n"} else {$message .= "\n"}; } elsif (($cut_min,$cut_max) = ($ARGV[$i] =~ /-cut=(\d+),(\d+)/i){ $message .= "$i. Size restrictions: Size cutoff is $cut_min bp. Restrict sequence size to $cut_max bp.\n"; } elsif (($file) = ($ARGV[$i] =~ /-id=(.*)/i)) { } else {die ("\nError: Argument nr. ",++$i," is invalid !\n\n")} }; # Open results & log file# if ($file) {open (OUT,">$file.results") || die ("\nError: Output file name not valid !\n\n");open (LOG,">$file.log")} else {open (OUT,">$ARGV[0].results");open (LOG,">$ARGV[0].log")}; print "\nEST TRIMMER\n===========\n\nPerforming following steps:\n\n"; print LOG "\nLOG FILE OF ALL PERFORMED MODIFICATIONS\n"; print LOG "=======================================\n\n"; print LOG "\nPerforming following steps:\n-----------------------\n\n"; print $message; print LOG $message; print LOG "\n\nProcessing steps for each sequence:\n--------------\n"; # core # $/ = ">"; while () { next unless (($seqname,$seq) = /(.*?)\n(.*)/s); $seq =~ s/[\d\s>]//g; $seq =~ s/[^ACGTN]/N/gi; # only "acgtn" characters allowed $message = ''; $discard = 'nö'; for ($i = 1; $i < $arg; $i++){ if (($amb_n,$amb_win) = ($ARGV[$i] =~ /-amb=(\d+),(\d+)/i)){ &Trim_5_n; &Trim_3_n; } elsif (($tr3_b,$tr3_n,$tr3_win) = ($ARGV[$i] =~ /- tr3=([ACGT]),(\d+),(\d+)/i)){&Trim_3_oligoN } elsif (($tr5_b,$tr5_n,$tr5_win) = ($ARGV[$i] =~ /- tr5=([ACGT]),(\d+),(\d+)/i)) {&Trim_5_oligoN } elsif (($cut_min,$cut_max)=($ARGV[$i]=~/-cut=(\d+),(\d+)/i)){ if ($cut_max < length $seq) { $seq = substr $seq,0,$cut_max; $message .= "Restrict sequence size to $cut_max bp.\n" }; if ($cut_min and (length $seq < $cut_min)) { $message .= "Discard sequence (below $cut_min bp cutoff).\n"; $discard = "yo"; } } }; 66 if ($discard eq 'nö') { $seq = join ("\n",grep($_,split(/(.{70})/,$seq))); print OUT ">$seqname\n$seq\n" }; if ($message ne '') {print LOG "\n>$seqname\n$message"};}; print "\nDONE\n"; close (IN); close (OUT); close (LOG); # subroutines # sub Trim_5_n # trim 5' end until specified window contains less than n ambiguous bases {$check = '0'; while ((length $seq > $amb_win) and !($check eq '1')) { $window = substr $seq,0,$amb_win; if ($window =~ /^(([^N]*N){$amb_n})/i) { $seq =~ s/^($1N*)//i; $message .= "Ambiguous sequence at 5' side: $1.\n" } else {$check = '1'}; };}; sub Trim_3_n # trim 3' end until specified window contains less than n ambiguous bases { $check = '0'; while ((length $seq > $amb_win) and !($check eq '1')) { $window = substr $seq,-$amb_win; if ($window =~ /.*((N[^N]*){$amb_n})/i) { $seq =~ s/(N*$1)$//i; $message .= "Ambiguous sequence at 3' side: $1.\n" } else {$check = '1'};};}; sub Trim_5_oligoN # remove oligoN stretches from 5' side { $check = '0'; if ($seq =~ s/^($tr5_b+)//i) {$message .= "Remove \"$tr5_b\" tail at 5' side: $1.\n"}; while (!($check eq '1')) { if (length $seq > $tr5_win) {$window = substr $seq,0,$tr5_win} else {$window = $seq}; if ($window =~ /^(.*?($tr5_b){$tr5_n})/i) { $seq =~ s/^($1$tr5_b*)//i; $message .= "Remove \"$tr5_b\" stretch at 5' side: $1.\n" } else {$check = '1'}; }; }; sub Trim_3_oligoN # remove oligoN stretches from 3'side { 67 $check = '0'; if ($seq =~ s/($tr3_b+)$//i) {$message .= "Remove \"$tr3_b\" tail at 3' side: $1.\n"}; while (!($check eq '1')) { if (length $seq > $tr3_win) {$window = substr $seq,-$tr3_win} else {$window = $seq}; if ($window =~ /.*(($tr3_b){$tr3_n}.*)/i) { $seq =~ s/($tr3_b*$1)$//i; $message .= "Remove \"$tr3_b\" stretch at 3' side: $1.\n" } else {$check = '1'}; } }; 2. Script của MISA: thực thi các tác vụ phân loại chọn lọc nguồn EST chứa SSR có chất lƣợng cho việc thiết kế primer. Script có cú pháp nhƣ sau: !/usr/bin/perl -w # Author: Thomas Thiel # Program name: misa.pl ###Author: Thomas Thiel ###Release date: 14/12/01 (version 1.0) #§§§§§ DECLARATION §§§§§# # Check for arguments. If none display syntax # if (@ARGV == 0) { open (IN,"<$0"); while () {if (/^\#\# (.*)/) {$message .= "$1\n"}}; close (IN); die $message; }; # Check if help is required # if ($ARGV[0] =~ /-help/i) { open (IN,"<$0"); while () {if (/^\#\#\#(.*)/) {$message .= "$1\n"}}; close (IN); die $message; }; # Open FASTA file # open (IN,"<$ARGV[0]") || die ("\nError: FASTA file doesn't exist !\n\n"); open (OUT,">$ARGV[0].misa"); print OUT "ID\tSSR nr.\tSSR type\tSSR\tsize\tstart\tend\n"; # Reading arguments # open (SPECS,"misa.ini") || die ("\nError: Specifications file doesn't exist !\n\n"); my %typrep; my $amb = 0; while (){ %typrep = $1 =~ /(\d+)/gi if (/^def\S*\s+(.*)/i); 68 if (/^int\S*\s+(\d+)/i) {$amb = $1}}; my @typ = sort { $a $b } keys %typrep; #§§§§§ CORE §§§§§# $/ = ">"; my $max_repeats = 1; #count repeats my $min_repeats = 1000; #count repeats my (%count_motif,%count_class); #count my ($number_sequences,$size_sequences,%ssr_containing_seqs); #stores number and size of all sequences examined my $ssr_in_compound = 0; my ($id,$seq); while () { next unless (($id,$seq) = /(.*?)\n(.*)/s); my ($nr,%start,@order,%end,%motif,%repeats); # store info of all SSRs from each sequence $seq =~ s/[\d\s>]//g; #remove digits, spaces, line breaks,... $id =~ s/^\s*//g; $id =~ s/\s*$//g;$id =~ s/\s/_/g; #replace whitespace with "_" $number_sequences++; $size_sequences += length $seq; for ($i=0; $i < scalar(@typ); $i++) #check each motif class { my $motiflen = $typ[$i]; my $minreps = $typrep{$typ[$i]} - 1; if ($min_repeats > $typrep{$typ[$i]}) {$min_repeats = $typrep{$typ[$i]}}; #count repeats my $search = "(([acgt]{$motiflen})\\2{$minreps,})"; while ( $seq =~ /$search/ig ) #scan whole sequence for that class { my $motif = uc $2; my $redundant; #reject false type motifs [e.g. (TT)6 or (ACAC)5] for ($j = $motiflen - 1; $j > 0; $j--) { my $redmotif = "([ACGT]{$j})\\1{".($motiflen/$j-1)."}"; $redundant = 1 if ( $motif =~ /$redmotif/ ) }; next if $redundant; $motif{++$nr} = $motif; my $ssr = uc $1; $repeats{$nr} = length($ssr) / $motiflen; $end{$nr} = pos($seq); $start{$nr} = $end{$nr} - length($ssr) + 1; # count repeats $count_motifs{$motif{$nr}}++; #counts occurrence of individual motifs $motif{$nr}->{$repeats{$nr}}++; #counts occurrence of specific SSR in its appearing repeat 69 $count_class{$typ[$i]}++; #counts occurrence in each motif class if($max_repeats<$repeats{$nr}){$max_repeats=$repeats{$nr}};};}; next if (!$nr); #no SSRs $ssr_containing_seqs{$nr}++; @order = sort { $start{$a} $start{$b} } keys %start; #put SSRs in right order $i = 0; my $count_seq; #counts my ($start,$end,$ssrseq,$ssrtype,$size); while ($i < $nr) { my $space = $amb + 1; if (!$order[$i+1]) #last or only SSR{ $count_seq++; my $motiflen = length ($motif{$order[$i]}); $ssrtype = "p".$motiflen; $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}"; $start = $start{$order[$i]}; $end = $end{$order[$i++]}; next }; if (($start{$order[$i+1]} - $end{$order[$i]}) > $space) { $count_seq++; my $motiflen = length ($motif{$order[$i]}); $ssrtype = "p".$motiflen; $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}"; $start = $start{$order[$i]}; $end = $end{$order[$i++]}; next}; my ($interssr); if (($start{$order[$i+1]} - $end{$order[$i]}) < 1) { $count_seq++; $ssr_in_compound++; $ssrtype = 'c*'; $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}($motif{$order[$i+1]})$repeats{$or der[$i+1]}*"; $start = $start{$order[$i]}; $end = $end{$order[$i+1]} } else { $count_seq++; $ssr_in_compound++; $interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} - $end{$order[$i]}) - 1); $ssrtype = 'c'; $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}$interssr($motif{$order[$i+1]})$re peats{$order[$i+1]}"; $start = $start{$order[$i]}; $end = $end{$order[$i+1]}; 70 #$space -= length $interssr }; while ($order[++$i + 1] and (($start{$order[$i+1]} - $end{$order[$i]}) <= $space)) { if (($start{$order[$i+1]} - $end{$order[$i]}) < 1){ $ssr_in_compound++; $ssrseq .= "($motif{$order[$i+1]})$repeats{$order[$i+1]}*"; $ssrtype = 'c*'; $end = $end{$order[$i+1]} } else{ $ssr_in_compound++; $interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} - $end{$order[$i]}) - 1); $ssrseq .= "$interssr($motif{$order[$i+1]})$repeats{$order[$i+1]}"; $end = $end{$order[$i+1]}; #$space -= length $interssr } }; $i++; } continue { print OUT "$id\t$count_seq\t$ssrtype\t$ssrseq\t",($end - $start + 1),"\t$start\t$end\n" }; }; close (OUT); open (OUT,">$ARGV[0].statistics"); #§§§§§ INFO §§§§§# #§§§ Specifications §§§# print OUT "Specifications\n==============\n\nSequence source file: \"$ARGV[0]\"\n\nDefinement of microsatellites (unit size / minimum number of repeats):\n"; for ($i = 0; $i < scalar (@typ); $i++) {print OUT "($typ[$i]/$typrep{$typ[$i]}) "};print OUT "\n"; if ($amb > 0) {print OUT "\nMaximal number of bases interrupting 2 SSRs in a compound microsatellite: $amb\n"}; print OUT "\n\n\n"; #§§§ OCCURRENCE OF SSRs §§§# #small calculations my @ssr_containing_seqs = values %ssr_containing_seqs; my $ssr_containing_seqs = 0; for ($i = 0; $i < scalar (@ssr_containing_seqs); $i++) {$ssr_containing_seqs += $ssr_containing_seqs[$i]}; my @count_motifs = sort {length ($a) length ($b) || $a cmp $b } keys %count_motifs; my @count_class = sort { $a $b } keys %count_class; for ($i = 0; $i < scalar (@count_class); $i++) {$total += $count_class{$count_class[$i]}}; 71 #§§§ Overview §§§# print OUT "RESULTS OF MICROSATELLITE SEARCH\n================================\n\n"; print OUT "Total number of sequences examined: $number_sequences\n"; print OUT "Total size of examined sequences (bp): $size_sequences\n"; print OUT "Total number of identified SSRs: $total\n"; print OUT "Number of SSR containing sequences: $ssr_containing_seqs\n"; print OUT "Number of sequences containing more than 1 SSR: ",$ssr_containing_seqs - ($ssr_containing_seqs{1} || 0),"\n"; print OUT "Number of SSRs present in compound formation: $ssr_in_compound\n\n\n"; #§§§ Frequency of SSR classes §§§# print OUT "Distribution to different repeat type classes\n----------------- ----------------------------\n\n"; print OUT "Unit size\tNumber of SSRs\n"; my $total = undef; for ($i = 0; $i < scalar (@count_class); $i++) {print OUT "$count_class[$i]\t$count_class{$count_class[$i]}\n"}; print OUT "\n"; #§§§ Frequency of SSRs: per motif and number of repeats §§§# print OUT "Frequency of identified SSR motifs\n---------------------------- ------\n\nRepeats"; for ($i = $min_repeats;$i <= $max_repeats; $i++) {print OUT "\t$i"}; print OUT "\ttotal\n"; for ($i = 0; $i < scalar (@count_motifs); $i++) { my $typ = length ($count_motifs[$i]); print OUT $count_motifs[$i]; for ($j = $min_repeats; $j <= $max_repeats; $j++) { if ($j < $typrep{$typ}) {print OUT "\t-";next}; if ($count_motifs[$i]->{$j}) {print OUT "\t$count_motifs[$i]->{$j}"} else {print OUT "\t"}; }; print OUT "\t$count_motifs{$count_motifs[$i]}\n"; }; print OUT "\n"; #§§§ Frequency of SSRs: summarizing redundant and reverse motifs §§§# # Eliminates %count_motifs ! print OUT "Frequency of classified repeat types (considering sequence complementary)\n----------------------------------------------------------- --------------\n\nRepeats"; my (%red_rev,@red_rev); # groups 72 for ($i = 0; $i < scalar (@count_motifs); $i++) { next if ($count_motifs{$count_motifs[$i]} eq 'X'); my (%group,@group,$red_rev); # store redundant/reverse motifs my $reverse_motif = $actual_motif = $actual_motif_a = $count_motifs[$i]; $reverse_motif =~ tr/ACGT/TGCA/; my $reverse_motif_a = $reverse_motif; for ($j = 0; $j < length ($count_motifs[$i]); $j++){ if ($count_motifs{$actual_motif}) {$group{$actual_motif} = "1"; $count_motifs{$actual_motif}='X'}; if ($count_motifs{$reverse_motif}) {$group{$reverse_motif} = "1"; $count_motifs{$reverse_motif}='X'}; $actual_motif =~ s/(.)(.*)/$2$1/; $reverse_motif =~ s/(.)(.*)/$2$1/; $actual_motif_a = $actual_motif if ($actual_motif lt $actual_motif_a); $reverse_motif_a = $reverse_motif if ($reverse_motif lt $reverse_motif_a) }; if ($actual_motif_a lt $reverse_motif_a) {$red_rev = "$actual_motif_a/$reverse_motif_a"} else {$red_rev = "$reverse_motif_a/$actual_motif_a"}; # group name $red_rev{$red_rev}++; @group = keys %group; for ($j = 0; $j < scalar (@group); $j++) { for ($k = $min_repeats; $k <= $max_repeats; $k++) { if ($group[$j]->{$k}) {$red_rev->{"total"} += $group[$j]- >{$k};$red_rev->{$k} += $group[$j]->{$k}} } }}; for ($i = $min_repeats; $i <= $max_repeats; $i++) {print OUT "\t$i"}; print OUT "\ttotal\n"; @red_rev = sort {length ($a) length ($b) || $a cmp $b } keys %red_rev; for ($i = 0; $i < scalar (@red_rev); $i++) { my $typ = (length ($red_rev[$i])-1)/2; print OUT $red_rev[$i]; for ($j = $min_repeats; $j <= $max_repeats; $j++) { if ($j < $typrep{$typ}) {print OUT "\t-";next}; if ($red_rev[$i]->{$j}) {print OUT "\t",$red_rev[$i]->{$j}} else {print OUT "\t"} }; print OUT "\t",$red_rev[$i]->{"total"},"\n";}; 3 Các script trong việc thực thi tác vụ thiết kế primer ● 1_ssr_repeat_finder: #!/usr/bin/perl -w 73 # tim kiem SSR trong EST, tach trinh tu SSR ra va trinh tu bao ton de phan tich xa hon # Input: sequence.txt # CheckedIDs.txt # Output: new_ids.txt # ssrout.txt # labdbout.txt ############################################### # thay doi nhung thong so nay khi thuc thi!!!!!!!! ############################################### $datename = '170404'; # ten thu muc phai o dang ngay va cho tat ca cac file du lieu khac $runtype = 1; # 1 = genbank fasta, 0 = local (fasta header differences) ############################################## # khong thay doi bat ky dieu gi o phan nay ############################################## $seqcount = 0; $ssr_count = 0; @ssr_label = qw(a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az); # thiet lap vung bao ton o day $flank_length = 150; # i.e. 150 bp # thiet lap chieu dai toi thieu của SSR $min_pattern_length = 12; # 12 bp # mo file chua trinh tu input – dinh dang fasta ma so truy cap open (SEQFILE, "../$datename/sequence$datename.txt") || die "file not found: $!"; # mo file out put cho trinh tu ids open (IDFILE, ">>../$datename/new_ids$datename.txt") || die "couldn't create file"; # mo file output ket qua SSR open (SSROUTFILE, ">>../$datename/ssrout$datename.txt") || die "couldn't create file"; #mo file output cho toan bo output dua vao labdb open (LABDBTXT, ">>../$datename/labdbout$datename.txt") || die "couldn't create file"; # doc file da chua Ids truoc $CheckedIDs = `cat ../$datename/CheckedIDs.txt`; # phan tich file trinh tu va tien trinh if ($runtype == 1) { while (defined ($line = )) { chomp $line; 74 if ($line =~ /^>/) { if (defined ($Seq)) { #kiem tra genbank neu id co truoc if ($CheckedIDs !~ /$SeqHead[3]/) { &SSRSearch; print "new seq\n"; } else { print "old seq\n";} } $seqcount++; print $seqcount; $HeadLine = $line; undef $Seq; @SeqHead = split(/\|/,$HeadLine); print IDFILE "$SeqHead[3]\t$SeqHead[4]\n"; } else { $Seq = "$Seq" . "$line"; } } if (defined ($Seq)) { # kiem tra genbank neu id co da co if ($CheckedIDs !~ /$SeqHead[3]/) { &SSRSearch; print "new seq\n"; } else { print "old seq\n";} }} elsif ($runtype == 2) { while (defined ($line = )) { chomp ($line); @LineIn = split(/\t/, $line); $SeqHead[3] = $LineIn[0]; print $SeqHead[3]; $Seq = $LineIn[1]; if (defined ($Seq)) { &SSRSearch; } $seqcount++; print $seqcount; if ( ($seqcount%5) == 0 ) { print "\n"; } else { print "\t"; } undef $Seq; @SeqHead = split(/\|/,$HeadLine) }} elsif ($runtype == 3) { while (defined ($line = )) { chomp ($line); if ($line =~ /^>/) { if (defined ($Seq)) { 75 &SSRSearch; } $seqcount++; print $seqcount; if ( ($seqcount%5) == 0 ) { print "\n"; } else { print "\t";} undef $Seq; $HeadLine = $line; @templine1 = split(/>/,$HeadLine); @templine2 = split(/\./, $templine1[1]); $SeqHead[3] = $templine2[0]."_".$templine2[3]; print IDFILE "$SeqHead[3]\n"; } else { $Seq = "$Seq" . "$line";} } if (defined ($Seq)) { &SSRSearch; }} close (SEQFILE); close (IDFILE); close (SSROUTFILE); close (LABDBTXT); print "Number of sequences in input file = $seqcount \n"; print "Number of Repeats found = $ssr_count \n"; exit 0; ############################################# # thuongtrinhcon sub SSRSearch() {print "*"; $suffix = -1; while ( $Seq =~ /(([ATGC]{2,})\2{3,})/gi ) { print "+"; $fullmatch = $1; $minmatch = $2; # kiem tra tuong hop toi thieu cua SSR: di-nt 6 repeats, tri-nt 4 repeats, tetra-nt 4 # kiem tra chieu dai SSR lon hon tong chieu dai toi thieu dang tuong hop # loai bo duoi poly - AAAAAAA, TTTTTTTT, ... if ( (( $length_sub = length($fullmatch)) >= $min_pattern_length ) && !( $fullmatch =~ /([ATGC])\1{8,}/ ) ) { print "-"; $ssr_count++; $suffix++; $Accession = "$SeqHead[3]" . "$ssr_label[$suffix]"; 76 print SSROUTFILE "$Accession\t$fullmatch\t$minmatch\t"; print LABDBTXT "$SeqHead[3]\t$Accession\t$fullmatch\t$minmatch\t"; $pos2 = index($Seq,$fullmatch); $pos3 = $pos2 + $length_sub; if ($pos2 < $flank_length) { $pos1 = 0; } else { $pos1 = $pos2 - $flank_length; } if ( ( ( $max = length($Seq)) - $pos3 ) < $flank_length ) { $pos4 = $max; } else { $pos4 = $pos3 + $flank_length;} $seqleft = substr($Seq,$pos1,$pos2-$pos1); $seqcenter = substr($Seq,$pos2,$pos3-$pos2); $seqright = substr($Seq,$pos3,$pos4-$pos3); print SSROUTFILE $seqleft, "[", $seqcenter,"]",$seqright,"\n"; print LABDBTXT $pos2,",",$length_sub,"\t",$seqleft, "[", $seqcenter,"]",$seqright,"\n"; } } print "\n";} ● 2_ssr_primer_designer #!/usr/bin/perl -w # thiet ke primer khuech dai doan dich SSR # Input: ssrout.txt # Output: raw_primer3.out # primer_results.txt ############################################ # thay doi nhung thong so nay khi chay!!!!!!!! ############################################ $datename = '170404'; ten thu muc la dang so va nhu the voi cac file khac $primer3app = 'D:\\170404\\primer3'; # duong dan den cau lenh primer3 ############################################# #khong thay doi nhung nhung gi duoi day ############################################# # mo file output ssr results open (SSRINFILE, "../$datename/ssrout$datename.txt") || die "couldn't open file"; open (RAWPRIMER, ">../$datename/raw_primer3$datename.out") || die "couldn't open file: $!"; open (PRIMEROUT, ">../$datename/primer_results$datename.txt") || die "couldn't open file: $!"; $counter = 0; 77 while (defined($line = )) { chomp ($line); @columns = split(/\t/,$line); @seq = split(/\[|\]/,$columns[3]); $length_left = length($seq[0]); $length_mask = length($seq[1]); $length_right = length($seq[2]); $t1 = $length_left+1; $t2 = $length_mask; open (PRIMERIN, ">../$datename/primerin.txt") || die "couldn't open file: $!"; print PRIMERIN "PRIMER_SEQUENCE_ID=",$columns[1],"\n"; print PRIMERIN "SEQUENCE=",$seq[0],$seq[1],$seq[2],"\n"; print PRIMERIN "TARGET=", $t1, ",", $t2, "\n"; print PRIMERIN "PRIMER_PRODUCT_SIZE_RANGE=80-160 80-240 80-300\n"; print PRIMERIN "PRIMER_OPT_SIZE=24\n"; print PRIMERIN "PRIMER_MIN_SIZE=20\n"; print PRIMERIN "PRIMER_MAX_SIZE=28\n"; print PRIMERIN "PRIMER_OPT_TM=63\n"; print PRIMERIN "PRIMER_MIN_TM=60\n"; print PRIMERIN "PRIMER_MAX_TM=65\n"; print PRIMERIN "PRIMER_MAX_DIFF_TM=1\n"; print PRIMERIN "=\n"; close (PRIMERIN); # $primer3 = `../devel/primer/primer3_0_9_test/src/primer3_core < ../$datename/primerin.txt`; $primer3 = `$primer3app < ../$datename/primerin.txt`; print RAWPRIMER "######## $columns[1] #########\n"; print RAWPRIMER $primer3, "\n"; @prime_out = split(/\n/, $primer3); foreach $i (0..$#prime_out) { ($varname,$varvalue) = split(/=/, $prime_out[$i]); $primehash{$varname} = $varvalue; } if ($primehash{'PRIMER_LEFT_SEQUENCE'}) { $counter++; print PRIMEROUT "$columns[0]\t$columns[1]\t$columns[2]"; print PRIMEROUT "\t$seq[0]$seq[1]$seq[2]"; print PRIMEROUT "\t", $primehash{'PRIMER_LEFT_SEQUENCE'}; print PRIMEROUT "\t", $primehash{'PRIMER_LEFT_TM'}; print PRIMEROUT "\t", $primehash{'PRIMER_RIGHT_SEQUENCE'}; print PRIMEROUT "\t", $primehash{'PRIMER_RIGHT_TM'}; print PRIMEROUT "\t", $primehash{'PRIMER_PRODUCT_SIZE'}; 78 print PRIMEROUT "\n"; } undef %primehash;} close (PRIMEROUT); close (SSRINFILE); close (RAWPRIMER); print "repeats primed: ", $counter, "\n"; exit 0; ● 3_ssr_primer_rep_check #!/usr/bin/perl -w # chon loc va loai bo nhung primer co do phuc tap thap # Input: primer_results.txt # Output: rescreened.txt ############################################ # thay doi cac tho so nay khi chay!!!!!!!! ############################################ $datename = '170404'; # thu muc chinh phai o dang so va cac file khac ############################################ #khong thay doi nhung gi duoi day ############################################ open (OUTFILE, ">rescreened$datename.txt"); $good = 0; $bad = 0; $temp = `bin primer_results$datename.txt`; @temp1 = split(/\n/, $temp); foreach $i (0..$#temp1) { @temp2 = split(/\t/, $temp1[$i]); print $temp2[0],"\t",$temp2[1],"\t",$temp2[2],"\t",$temp2[3]; print "\t",$temp2[4],"\t",$temp2[5],"\t",$temp2[6],"\t",$temp2[7],"\t",$temp2[8], "\t"; if (( $temp2[4] =~ /(([ATGC]{2,3})\2{3,})/gi ) || ( $temp2[6] =~ /(([ATGC]{2,3})\2{3,})/gi )) { print "bad\n"; $bad++; } else { print "good\n"; $good++; print OUTFILE $temp2[0],"\t",$temp2[1],"\t",$temp2[2],"\t",$temp2[3],"\t"; 79 print OUTFILE $temp2[4],"\t",$temp2[5],"\t",$temp2[6],"\t",$temp2[7],"\t",$temp2[8],"\n"; }} print "good: $good\nbad: $bad\n"; close (OUTFILE); exit(0); ● 4_ssr_primer_blast #!/usr/bin/perl -w # so sanh nhung trinh tu SSR da thiet ke primer # Input: rescreened.txt # Output: blastout.txt # fullblastoutput.txt ############################################# #thay doi nhung thong so khi thuc thi!!!!!!!! ############################################# $datename = '170404'; # ten thu muc va phan sau cung cua cac file $blastapp = 'D:\\170404\\blastall'; # duong dan den nhung cau lenh blastall $blastdbdir = 'D:\\170404\\db'; #duong dan den thu muc chua du lieu blast $blastdbname = 'AllPrimers.nt'; # ten nhung du lieu blast su dung $formatdbapp = 'D:\\170404\\formatdb'; #duong dan den cau lenh formatdb ############################################ # khong thay doi nhung gi ben duoi ########################################### open (PRIMERSIN, "../$datename/rescreened$datename.txt") || die; open (BLASTOUTFILE, ">../$datename/blastout$datename.txt") || die; open (FULLBLASTOUT, ">../$datename/fullblastoutput$datename.txt") || die; $counter = 0; $b0hit = 0; while (defined($line=)) { chomp ($line); @columns = split(/\t/,$line); $Accession = $columns[0]; $sequence = $columns[3]; $forward = $columns[4]; $reverse = $columns[6]; $counter++; print $counter, "\n"; print BLASTOUTFILE $Accession, "\t", $columns[1], "\t", $columns[2]; print BLASTOUTFILE "\t", $sequence, "\t", $forward, "\t", $columns[5], "\t"; print BLASTOUTFILE $reverse, "\t", $columns[7], "\t", $columns[8], "\t"; &BlastIt;} 80 print "Blasted Sequences= ",$counter,"\n"; print "Blast NON-Hits= ",$b0hit,"\n"; close (PRIMERSIN); close (BLASTOUTFILE); close (FULLBLASTOUT); exit 0; sub BlastIt() { open (TMPSEQFILE, ">../$datename/repeats/$Accession.fasta"); print TMPSEQFILE "> ",$Accession,"\n",$sequence,"\n"; close (TMPSEQFILE); # $blastout = `blastall -p blastn -d db/AllPrimers.nt -e 0.01 - i ../$datename/repeats/$Accession.fasta`; $blastout = `$blastapp -p blastn -d $blastdbdir/$blastdbname -e 0.01 -i ../$datename/repeats/$Accession.fasta`; print FULLBLASTOUT "XXXXX\t",$Accession,"\tXXXXXXXXXXXXXXXXXXXXXXXXX\n\n"; print FULLBLASTOUT $blastout; &ParseBlast;} sub DBup() { # open (BLASTDBFASTA, ">>../blast/db/AllPrimers.nt"); open (BLASTDBFASTA, ">>$blastdbdir/$blastdbname"); print BLASTDBFASTA "> ",$Accession,"_f\n",$forward,"\n"; print BLASTDBFASTA "> ",$Accession,"_r\n",$reverse,"\n"; close (BLASTDBFASTA); # $formatdbstatus = system("formatdb -i db/AllPrimers.nt -p F -o T"); $formatdbstatus = system("$formatdbapp -i $blastdbdir/$blastdbname -p F -o T");} sub ParseBlast() { # tach nhung output blast output vao mot danh sach @blastrecs = split(/\n\n/, $blastout); if ($blastrecs[5] =~ /Sequence/) { @blastmatch = split(/\n/, $blastrecs[6]); print BLASTOUTFILE $#blastmatch-1, "\t"; for $entry (0 .. $#blastmatch) { ($name,$score, $E) = split(/[ ]+ /, $blastmatch[$entry]); print $name,"\t",$score,"\t",$E,"\n"; print BLASTOUTFILE "\t",$name,"\t",$score,"\t",$E; } } else { print BLASTOUTFILE "0\t"; $b0hit++; print "No Hits found\n"; print BLASTOUTFILE "\tnone\tnull\tnull"; 81 &DBup; } print BLASTOUTFILE "\n";} ● 5_ssr_order_filter #!/usr/bin/perl -w # tao file chua chi nhung SSR co primer duy nhat # Input: blastout.txt # Output: filter.txt ################################################ #thay doi cac thong so duoi day khi chay!!!!!!!! ################################################ $datename='170404';# ten thu mục chinh dang so va phan cuoi cua cac file ################################################ # khong thay doi nhung gi ben duoi ################################################ open (OUTFILE, ">filter$datename.txt"); $infile = `ten blastout$datename.txt`; $count = 0; @temp1 = split(/\n/, $infile); foreach $f (0..$#temp1) { @temp2 = split(/\t/, $temp1[$f]); if ($temp2[11] eq 'none') { print OUTFILE $temp2[0],"\t",$temp2[1],"\t"; print OUTFILE $temp2[2],"\t",$temp2[3],"\t"; print OUTFILE $temp2[4],"\t",$temp2[5],"\t"; print OUTFILE $temp2[6],"\t",$temp2[7],"\t"; print OUTFILE $temp2[8],"\n"; print $temp2[0],"\t",$temp2[10],"\t",$temp2[11],"\n"; $count++;}} print "non-hits: ",$count,"\n"; close (OUTFILE); exit (0); ● 6_ssr_order_formatter #!/usr/bin/perl -w # tao mot file chi chua nhung SSR co primer duy nhat-co thong tin can thiet cho phan cap primer # Input: blastout.txt # Output: order.txt ################################################### # thay doi cac thong so ben duoi khi chay!!!!!!!! 82 ################################################### $datename = '170404'; # ten thu muc chin va phan cuoi cac file ################################################### # khong thay doi nhung gi duoi day ################################################### open (OUTFILE, ">order$datename.txt"); $infile = `nin blastout$datename.txt`; $count = 0; @temp1 = split(/\n/, $infile); foreach $f (0..$#temp1) { @temp2 = split(/\t/, $temp1[$f]); if ($temp2[11] eq 'none') { print OUTFILE $temp2[0],"\t"; print OUTFILE $temp2[4],"\t",$temp2[5],"\t"; print OUTFILE $temp2[6],"\t",$temp2[7],"\t"; print OUTFILE $temp2[8],"\n"; print $temp2[0],"\t",$temp2[10],"\t",$temp2[11],"\n"; $count++;}} print "non-hits: ",$count,"\n"; close (OUTFILE); exit (0); 83

Các file đính kèm theo tài liệu này:

  • pdfTRAN NGOC VIET - 02126159.pdf
Tài liệu liên quan