Bản đồ bộ gen
Việc lập bản đồ là một bước quan trọng
trong nghiên cứu giải trình tự bộ gen. Trình tự
và bản đồ bộ gen đều mang lại một cái nhìn
tổng quát về bộ gen, nhưng bản đồ bộ gen thì ít
chi tiết hơn trình tự bộ gen. Trình tự bộ gen sẽ
cho biết vị trí chính xác từng nucleotide trong
DNA, trong khi đó bản đồ gen chỉ thể hiện vị trí
các mốc trong bộ gen (Craig, 2003). Trong bản
đồ bộ gen thì các vị trí GCA, CCC, CATTT,
GAA được xem là một vị trí, trong khi đó mỗi
vị trí nucleotide trong trình tự bộ gen được xem
là một vị trí. Từ đó cho thấy bản đồ bộ gen là sự
thể hiện tóm tắt lại toàn bộ trình tự bộ gen. Việc
lập bản đồ bộ gen cho thấy thông tin các gen
trên bản đồ giúp các nhà khoa học dễ hình dung
trực quan ở mức độ tổng quát về toàn bộ bộ
gen, giúp các nhà khoa học phát hiện ra các gen
mới hay đặc điểm mới của bộ gen.
Hiện tại, dữ liệu genome lục lạp này đang
được tiếp tục phân tích để tìm kiếm các thông
tin hữu ích như đánh giá độ đa dạng của các
vùng trình tự tiềm năng làm mã vạch DNA,
phân tích các vùng trình tự lặp lại (repeat) và
các vùng vệ tinh (microsatellite) hiện diện trong
genome phục vụ đánh giá đa dạng di truyền và
nhận diện phân tử, đồng thời phân tích phát sinh
chủng loài từ bộ genome lục lạp.
16 trang |
Chia sẻ: hachi492 | Lượt xem: 4 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Xây dựng bản đồ bộ gen lục lạp hoàn chỉnh của loài lan hài hồng (paphiopedilum delenatii guillaumin 1924) đặc hữu Việt Nam, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tạp chí Công nghệ Sinh học 18(1): 87-102, 2020
87
XÂY DỰNG BẢN ĐỒ BỘ GEN LỤC LẠP HOÀN CHỈNH CỦA LOÀI LAN HÀI
HỒNG (Paphiopedilum delenatii Guillaumin 1924) ĐẶC HỮU VIỆT NAM
Nguyễn Thanh Điềm1, Lê Thị Lý2, Nguyễn Hữu Thuần Anh1, Nguyễn Thành Công1, Vũ Thị
Huyền Trang1,2,*
1Trường Đại học Nguyễn Tất Thành, thành phố Hồ Chí Minh
2Trường Đại học Quốc tế, Đại học Quốc gia thành phố Hồ Chí Minh
*Người chịu trách nhiệm liên lạc. E-mail: vthtrang@ntt.edu.vn
Ngày nhận bài: 22.4.2019
Ngày nhận đăng: 09.7.2019
TÓM TẮT
Lục lạp (chloroplasts) và ty thể (mitochondria) là những bào quan có bộ gen riêng so với bộ gen
trong nhân tế bào. Bộ gen lục lạp cung cấp thông tin nghiên cứu về mối quan hệ tiến hóa của các
loài, xác định một loài một cách chính xác, cung cấp chỉ thị ứng dụng trong chuyển gen, nhân
giống Nhờ công nghệ giải trình tự thế hệ mới mà việc giải trình tự bộ gen lục lạp dễ dàng hơn.
Tuy nhiên quy trình lắp ráp bộ gen lục lạp hiện nay còn khá phức tạp do yêu cầu cần sử dụng nhiều
công cụ tin sinh học khác nhau, yêu cầu máy có cấu hình cao, tốn nhiều thời gian. Trong bài viết
này, chúng tôi mô tả chi tiết quy trình lắp ráp bộ gen lục lạp hoàn chỉnh của mẫu lan Hài hồng
(Paphiopedilum delenatii) đồng thời đưa ra một số khảo sát giúp cho việc lắp ráp dễ dàng và độ tin
cậy cao. Bộ gen lục lạp loài lan Hài hồng sau khi được lắp ráp có chiều dài 160.955 bp, gồm một
vùng sao chép lớn (large single copy region, LSC), một vùng sao chép nhỏ (small single copy
region, SSC) được phân tách bởi hai vùng lặp lại đảo ngược. Tổng số gen là 130 gen, GC content là
35,6%. Dữ liệu trình tự đã được đăng kí vào Ngân hàng gen (GenBank) với mã số MK463585.
Nghiên cứu này còn đưa ra những thông số tối ưu để lắp ráp bộ gen. Kết quả nghiên cứu không chỉ
đóng góp thông tin bộ gen lục lạp hỗ trợ công tác bảo tồn loài lan Hài đặc hữu của Việt Nam mà
còn có ý nghĩa trong việc hỗ trợ hướng nghiên cứu lắp ráp bộ gen lục lạp, có thể áp dụng trên nhiều
đối tượng khác.
Từ khóa: Paphiopedilum delenatii, lắp ráp bộ gen, chú thích bộ gen, bản đồ bộ gen, bộ gen lục lạp
GIỚI THIỆU
Bộ gen lục lạp đã được nghiên cứu rộng rãi
trên thực vật. Thông tin bộ gen lục lạp không
chỉ được sử dụng trong nghiên cứu nhận diện
loài, xác định mối quan hệ giữa các loài, tìm
hiểu tiến hóa phân tử mà còn phục vụ việc
chuyển gen, nhân giống và thuần hóa cây trồng
(Daniell et al., 2016; Xiang et al., 2016; Yeisoo
et al., 2017). Việc giải trình tự bộ gen lục lạp
gặp nhiều khó khăn khi áp dụng kỹ thuật giải
trình tự Sanger (Sanger sequencing), do chỉ thu
được các đoạn trình tự ngắn. Tuy nhiên nhờ sự
ra đời của công nghệ giải trình tự thế hệ mới
(Next Generation Sequencing – NGS) với khả
năng xử lí khối lượng dữ liệu khổng lồ với tốc
độ nhanh và chi phí giải trình tự ngày càng giảm
(Shendure, Ji, 2008) mà việc giải trình tự toàn
bộ hệ gen của một loài sinh vật ngày càng phổ
biến. Từ đó càng có nhiều công trình nghiên
cứu về bộ gen lục lạp được công bố. Tian và
đồng tác giả (2018) đã giải và phân tích bộ gen
lục lạp của loài Epipremum aureum. Các thông
tin từ bộ gen lục lạp đã góp phần đáng kể (hoặc
không nhỏ) vào việc nhân giống và hỗ trợ
chuyển gen của loại cây thuốc này (Tian et al.,
Nguyễn Thanh Điềm et al.
88
2018). Guo và đồng tác giả (2017) đã giải thành
công bộ gen lục lạp của loài Paeonia ostii giúp
tăng năng suất của loại dược liệu này (Guo et
al., 2018). Đối tượng Sâm Ngọc Linh, loài nhân
sâm quý đặc trưng của Việt Nam cũng đã được
giải mã trình tự bộ gen lục lạp dựa trên 4 mẫu
loài (02 Panax vietnamensis, 01 P.
bipinnatifidus, 01 P. stipuleanatus vào năm
2018 và từ đó phân tích được sự phát sinh
chủng loài và xác định được 4 chỉ thị tiềm năng
làm mã vạch phân tử cho phân loại nhóm đối
tượng này (Manzanilla et al., 2018).
Mặc dù công nghệ NGS đã cải thiện công
việc giải trình tự bộ gen lục lạp, các quy trình lắp
ráp bộ gen lục lạp còn khá phức tạp và những
công trình mô tả một cách chi tiết quy trình này
còn hạn chế. Công trình về quy trình lắp ráp bộ
gen lục lạp điển hình trên thế giới như: Dự án lắp
ráp bộ gen lục lạp từ trình tự DNA tổng số dựa
trên tần số K-mer (Izan et al., 2017) của Izan
(2017). Dự án này đã đưa ra một quy trình được
mô tả chi tiết để lắp ráp bộ gen lục lạp. Riêng ở
Việt Nam thì những công bố về giải trình bộ gen
lục lạp còn hạn chế. Năm 2015, Huỳnh Phước
Hải và công sự đã đưa ra quy trình lắp ráp bộ gen
lục lạp theo phương pháp không sử dụng bộ gen
tham chiếu và thực nghiệm thành công một số
tập dữ liệu như Arabidopsis thaliana,
Oryzasativa indica, Sorghum bicolor từ cơ sở dữ
liệu ENA LECA (Huỳnh Phước Hải, Nguyễn
Văn Hòa, 2015).
Hiện nay, dữ liệu bộ gen lục lạp được công
bố trên GenBank ngày càng nhiều nên có thể
dựa trên những trình tự này để lắp ráp bộ gen
một cách nhanh chóng, dễ dàng và có độ tin cậy
cao. Đây là phương pháp lắp ráp dựa theo trình
tự mẫu (homologus modeling). NOVOPlasty là
một trong các chương trình chính để thực hiện
công việc này. So với các chương trình CLC,
SOAPdenovo2, MIRA, MITObim,
NOVOPlasty đã được công nhận là có độ chính
xác cao, tiết kiệm dung lượng máy và thời gian
(Nicolas et al., 2017). Chương trình này đã
được áp dụng trong nhiều nghiên cứu như
nghiên cứu giải trình tự bộ gen lục lạp Fagus
crenata của Worth và Liu (2019) (Worth, Liu,
2019), nghiên cứu giải trình tự bộ gen lục lạp
Ailanthus altissima của Saina và đồng tác giả
(2018) (Saina et al., 2018) Tuy nhiên, những
nghiên cứu này không chú trọng việc mô tả cụ
thể quy trình. Vì vậy trong nghiên cứu này
chúng tôi mô tả chi tiết quy trình lắp ráp và chú
thích bộ gen lục lạp hoàn chỉnh đơn giản có thể
thực hiện trên máy tính cá nhân với thời gian
ngắn và cho kết quả chính xác. Đối tượng thực
hiện là loài lan Hài hồng (Paphiopedilum
delenatii) đặc hữu của Việt Nam được xếp vào
loại Cực kỳ nguy cấp (Critically Endangerd –
CR) (IUCN, 2018).
VẬT LIỆU VÀ PHƯƠNG PHÁP
Vật liệu
Mẫu lá lan Hài hồng Paphiopedilum
delenatii được cung cấp và định danh hình thái
dựa trên cây có hoa bởi Viện Nghiên cứu Khoa
học Tây Nguyên (Đà Lạt).
Tách DNA tổng số
Mẫu lá được thu và rửa sạch bằng cồn 70o.
DNA tổng số được tách bằng phương pháp SDS.
Thành phần đệm chiết cho tách thủ công gồm
100 mM Tris-HCl, 100 mM EDTA, 250 mM
NaCl) với 20% SDS (Ahmed et al., 2009). Mẫu
lá được nghiền với 5 µL proteinase K và 3 mL
hỗn hợp gồm (9 µL beta-mercaptoethanol và 3
mL dung dịch đệm chiết) ở 65oC, sau đó mẫu
được ủ thêm 30 phút ở 65oC để phá vỡ màng tế
bào và màng nhân. Protein được biến tính và loại
bỏ bằng cách thêm 600 µL hỗn hợp dung dịch
phenol: chloroform: isoamine (25:24:1) rồi ly
tâm 10000 rpm trong10 phút để thu pha chứa
DNA (Ahmed et al., 2009). Ngoài ra tăng độ tinh
sạch mẫu, 5 µL RNAse được thêm vào sau đó rồi
ủ ở 37oC để loại bỏ RNA đồng thời biến tính
protein lần 2 bằng 600 µL hỗn hợp dung dịch
chloroform:isoaminetỉ lệ 24:1. DNA được kết tủa
bằng dung dịch isopropanol, ủ qua đêm ở –20oC.
Ly tâm để thu tủa rồi rửa tủa lần lượt bằng
ethanol 70%, 80%, 90%. DNA được bảo quản ở
–20oC trong dung dịch TE.
Kiểm tra chất lượng DNA
Chất lượng DNA tổng số cho giải trình tự
Tạp chí Công nghệ Sinh học 18(1): 87-102, 2020
89
NGS cần đạt độ tinh sạch cao tương ứng với
OD260/280 từ 1,8 - 2,2, không bị nhiễm RNA,
DNA ít bị đứt gãy và nồng độ cần trên 20
ng/µL, lượng mẫu ≥300 ng, thể tích mẫu DNA
trong EB buffer ≥10µL theo yêu cầu của Công
ty GENEWIZ (South Plainfield, NJ, USA).
Độ tinh sạch được kiểm tra bằng máy đo
quang phổ NanoDrop 2000 ở các bước sóng
260 và 280. Tính nguyên vẹn và nồng độ của
DNA được kiểm tra bằng phương pháp điện di
trên gel agarose 0.8% trong dung dịch 50 mL
TBE 0,5X rồi soi dưới đèn huỳnh quang, nếu
băng sáng đậm, dày, gọn, không bị vệt dài, nằm
ở vị trí trên 10 kb thì thể hiện DNA tổng số có
nồng độ cao và ít bị đứt gãy. Nồng độ DNA
cũng được kiểm tra bằng cả máy đo quang phổ
Nanodrop 2000 (Thermo Fisher Scientific Inc.)
ở các bước sóng 260 và 280 và máy Quantus
E6150 (Promega Inc.). Mẫu DNA tổng số đạt
yêu cầu được gửi giải trình tự tại công ty
GENEWIZ (South Plainfield, NJ, USA) bằng
kỹ thuật Illumina HiSeq.
Kiểm tra chất lượng trình tự thô và lọc bỏ
các đoạn trình tự có chất lượng thấp
Chất lượng tín hiệu của dữ liệu trình tự thô
được kiểm tra bằng chương trình FastQC
version 0.11.8 (Andrews, 2010). Ngưỡng chất
lượng cho độ tin cậy cao khi lắp ráp genome
được khảo sát dựa theo nhiều chỉ tiêu đánh giá
gồm “Per sequence quality scores” (điểm chất
lượng trên số lượng trình tự), “Per base
sequence quality” (điểm chất lượng trên từng vị
trí nucleotide), “Per base N content” (tỉ lệ trình
tự chứa base N) và “Adapter content” (tỉ lệ trình
tự còn chứa Adapter). Những trình tự có điểm
chất lượng dưới ngưỡng mong muốn, những
trình tự có tỉ lệ N trên 10% và những trình tự
còn Adapter được loại bỏ khỏi dữ liệu bằng
phần mềm Prinseq (Schmieder, Edwards, 2011).
Lắp ráp trình tự bộ gen
Chương trình NOVOPlasty 2.7.2 (Nicolas et
al., 2017) được vận hành trên nền hệ điều hành
Ubuntu 18.04 thuê trên máy chủ Google Cloud
Platform 16 GB RAM để lắp ráp các đoạn trình
tự thô (read) thành các contig, đến lượt các
contig lại tiếp tục được lắp ráp để thành trình tự
bộ gen hoàn chỉnh. Genome range (khoảng ước
lượng chiều dài của bộ gen) được thiết lập là
150000 – 170000 bp (căn cứ theo chiều dài các
genome tham khảo - Bảng 1). Read length
(chiều dài của các trình tự thô) được thiết lập là
150 bp dựa vào kết quả thống kê chiều dài các
trình tự thô (read) (Hình 2B).
Bảng 1. Chiều dài bộ gen lục lạp hoàn chỉnh của một
số loài lan Hài tham khảo từ NCBI
(https://www.ncbi.nlm.nih.gov/nucleotide).
P. armeniacum (KT388109.1) 162,682 bp
P. niveum (NC_026776.1) 159,108 bp
P. dianthum (NC_036958.1) 154,699 bp
Các thông số cần được thiết lập khác bao
gồm ngưỡng trình tự đạt chất lượng (Phred
quality score), Insert size (chiều dài đoạn nằm
giữa 2 adapter ở 2 đầu đoạn trình tự thô), K-mer
(chuỗi con K-mer), trình tự genome mẫu
(Reference sequence, viết tắt là Refseq), một
đoạn trình tự đặc thù (seed). Để kiểm tra thông
số tối ưu cho kết quả trình tự genome có độ
chính xác và tin cậy cao, từng thông số này lần
lượt được khảo sát. Trong mỗi trường hợp các
thông số còn lại được thiết lập ở chế độ mặc
định (default /auto) (Bảng 2).
Phần mềm Prinseq (Schmieder, Edwards,
2011) được sử dụng để loại bỏ các dữ liệu
không nằm trong khung giá trị khảo sát.
Chú thích bộ gen
Chương trình Geseq (https://chlorobox.
mpimp-golm.mpg.de/geseq.html) được sử dụng
để chú thích tên, vị trí, cấu trúc của các gen
trong bộ gen. Thuộc tính DNA được thiết lập là
“dạng vòng”. Nguồn gốc trình tự (source
sequence) được thiết lập là “plastid”. Chiều dài,
chiều trình tự, trật tự gen được kiểm tra tính
chính xác bằng cách so sánh với dữ liệu chú
thích bộ gen lục lạp hoàn chỉnh của một số
genome tham khảo trên ngân hàng GenBank, đó
là P. armeniacum (KT388109.1), P. dianthum
(NC_036958.1) và P. Niveum (NC_026776.1).
Công cụ BLAST (https://blast.ncbi.nlm.nih.gov/
Blast.cgi) được sử dụng để thực hiện việc kiểm
Nguyễn Thanh Điềm et al.
90
tra này đồng thời để xuất file dữ liệu chú thích
dưới định dạng GenBank.
Vẽ bản đồ bộ gen
Dữ liệu trình tự đã chú thích gen dưới định
dạng GenBank được đưa vào chương trình
OGDraw (https://chlorobox.mpimpgolm.mpg
.de/OGDraw.html) để vẽ và xuất bản đồ bộ gen
ở định dạng ảnh, thể hiện màu sắc và tên gọi các
gen khác nhau trong bộ gen.
Bảng 2. Khảo sát các thông số được thiết lập cho quá trình lắp ráp trình tự bộ gen.
Khảo sát Phred quality score K-mer
Inser
t size Seed Refseq
Quality
≥ 39
39 (default) Auto rbcL- P. armeniacum P. armeniacum ≥ 30
≥ 20
Insert size ≥ 20 39 (default)
290
rbcL- P. armeniacum P. armeniacum
295
300
350
Auto
K-mer ≥ 20
39
Auto rbcL- P. armeniacum P. armeniacum
35
30
25
20
Refseq,
seed ≥ 20 39 (default) Auto
rbcL- P. armeniacum P. armeniacum
rbcL - P.niveum P. niveum
rbcL - P.dianthum P. dianthum
matK - P. armeniacum P. armeniacum
Complete chloroplast
genome Dendrobium nobile -
rbcL- Dendrobium nobile -
KẾT QUẢ
Tách DNA tổng số
Kết quả đo độ tinh sạch của cả 2 mẫu tách
đều đạt yêu cầu trong khoảng 1.8 -2.2 (Bảng 3).
Băng DNA điện di cho vạch sáng đậm rõ nét, ít
bị vệt dài (Hình 1) thể hiện nồng độ và độ
nguyên vẹn rất cao. Các mẫu đều đạt đủ chất
lượng để gửi giải trình tự.
Điều đáng chú ý là nồng độ DNA đo bằng
Nanodrop thể hiện cao hơn đo bằng Quantus
hơn 2 lần. Nanodrop là máy đo quang phổ phổ
biến khi khuếch đại các đoạn trình tự DNA
ngắn, hoặc để giải trình tự Sanger. Quantus thì
chi phí hóa chất cao hơn nên ít phổ biến. Tuy
nhiên, đây là máy đo tín hiệu huỳnh quang với
độ nhạy cao khi định lượng axit nucleic sẽ giúp
kiểm soát nồng độ DNA ban đầu, được đề nghị
sử dụng cho kiểm tra nồng độ DNA cho các
phản ứng giải trình tự NGS (Lienhard, Schäffer,
2019).
Tạp chí Công nghệ Sinh học 18(1): 87-102, 2020
91
Bảng 3. Kết quả đo OD và nồng độ bằng máy đo Nanodrop và Quantus.
Quy trình
tách chiết
Mẫu
DNA A260/280
Nồng độ DNA (ng/µL) Thể tích
(µL)
Hàm lượng
mẫu (ng) Đo bằng máy
Nanodrop
Đo bằng máy
Quantus
SDS
1 1.85 250 110 25 2750 - 6250
2 2.12 359 125 25 3125 - 8975
Hình 1. Kết quả điện di trên gel agarose 0.8% của 2
mẫu DNA tổng số và thang DNA
Kiểm tra chất lượng trình tự thô
Bộ dữ liệu trình tự thô thu được gồm cả 2
chiều là chiều xuôi (forward) và chiều ngược
(reverse). Việc kiểm tra chất lượng trình tự thô
được thực hiện trên trình tự cả 2 chiều để tăng
độ tin cậy khi liên ứng (consensus) trình tự 2
chiều thành một trình tự thống nhất. Kết quả
kiểm tra chất lượng bằng phần mềm FastQC
được thể hiện ở Hình 2.
Tổng số trình tự thô (read) thu được ở mỗi
chiều là 11.635.039 đoạn, tỉ lệ GC 35%. Chiều
dài của các đoạn trình tự nằm trong khoảng
149-151 bp, trong đó các đoạn trình tự có chiều
dài 150 bp chiếm đa số (Hình 2B). Tỉ lệ
nucleotide N của cả 2 file trình tự trên tổng số
base đều có giá trị 0% (Hình 2A). Tỉ lệ phần
trăm adapter ở cả 2 file trình tự chiếm 1-3%,
xuất hiện chủ yếu ở vị trí base 110-136 (Hình
2C). Chất lượng trình tự xét theo từng vị trí base
của các trình tự hầu hết đều nằm trong ngưỡng
màu xanh với điểm chất lượng từ 32 trở lên,
ngoại trừ một đoạn ngắn ở cuối trình tựchiều
ngược có giá trị rơi vào khu vực màu cam.
Đường giá trị trung bình (màu xanh) đều trên 38
điểm (Hình 2D). Điểm chất lượng trình tự
(Phred score) của phần lớn trình tự đều đạt từ
38-40 và ở cả 2 dữ liệu không có trình tự nào
chất lượng thấp hơn 19 (Hình 2E). Mức độ lặp
lại trình tự trong cả bộ chiều xuôi và chiều
ngược ở mức 1-2 và phần trăm trình tự còn lại
sau khi đã loại bỏ các đoạn lặp lại chiếm
92,17% (Hình 2F).
Lắp ráp bộ gen
Ở giá trị K-mer 20 (với Phred quality score:
39, Insert zise: auto, Seed: gen rbcL của
Paphiopedilum armeniacum, Refseq: bộ gen lục
lạp của Paphiopedilum armeniacum), chương
trình xuất ra 5 đoạn contig với đoạn lớn nhất dài
90.573 bp, kết quả chiều dài genome lắp ráp
được là 160.924 bp, độ bao phủ trình tự 923 lần
(Bảng 4). Ngoại trừ trường hợp này, các kết quả
khảo sát còn lại đều cho ra 3 contig gồm 1
contig dài và 2 contig ngắn. Mặc dù chiều dài
các contig trong các trường hợp không giống
nhau hoàn toàn, kết quả chiều dài genome đều
thu được là 160.955 bp, độ bao phủ trình tự đạt
từ 612-871 lần (Bảng 4). Độ bao phủ tuy thấp
hơn so với trường hợp K-mer 20, chiều dài
genome thu được lại dài hơn 32 nucleotide.
Kiểm tra tính chính xác cấu trúc bộ gen
Thành công của việc lắp ráp tạo ra được 2
kết quả bộ gen vòng hoàn chỉnh trong đó một
vòng gen do sự kết hợp sắp gióng cột từ Contig
1+2 và vòng gen kia do Contig 1+3 tạo ra. Cấu
trúc bộ gen gồm vùng sao chép lớn (LSC, dài
90.365 bp) và vùng sao chép nhỏ (SSC, dài
2.550 bp) được phân tách bằng một cặp vùng
lặp lại đảo ngược (IR, dài 34.020 bp cho mỗi
Nguyễn Thanh Điềm et al.
92
vùng). Hai vòng gen DNA lục lạp này khi được
BLAST với nhau thì có độ tương đồng 100% và
có chiều dài bộ gen cũng bằng nhau 160.955 bp,
tuy nhiên vùng SSC ngược chiều nhau.
Tạp chí Công nghệ Sinh học 18(1): 87-102, 2020
93
Hình 2. Kết quả kiểm tra chất lượng trình tự thô từ FastQC (A: Phần trăm N, B: Chiều dài trình tự, C: Phần
trăm adapter, D: Chất lượng Base, E: Chất lượng trình tự, F: Mức độ lặp lại của trình tự).
Hình 3. Kết quả BLAST 2 trình tự DNA với trình tự bộ gen refseq P. armeniacum (KT388109.1). Ghi chú: các
đoạn dài ngắn màu xám thể hiện sự tương đồng (match) nucleotide, giữa các đoạn xám này có các sọc nhỏ
màu đỏ thể hiện các vị trí nucleotide biến dị di truyền (variation).
Bằng cách truy cập Ngân hàng gen sử dụng
BLAST mỗi bộ gen với trình tự mẫu P.
armeniacum (KT388109.1) trên NCBI, chúng
tôi xác định được chiều của 2 vùng SSC và LSC
ở vòng gen do Contig 1+3 tạo ra ngược chiều
nhau, còn chiều của vùng SSC ở vòng gen do
Contig 1+2 tạo ra cùng chiều với vùng LSC của
chính nó đồng thời cũng cùng chiều với vùng
SSC của bộ gen refseq P. armeniacum (Hình 3).
Cấu trúc hai vùng single copy cùng chiều với
nhau cũng đã được báo cáo trong các nghiên
cứu trước đây (Li et al., 2018). Từ đó chúng tôi
chọn trình tự tạo từ Contig 1+2 làm dữ liệu để
thực hiện chú thích bộ gen.
Nguyễn Thanh Điềm et al.
94
Bảng 4. Kết quả lắp ráp bộ gen.
Tạp chí Công nghệ Sinh học 18(1): 87-102, 2020
95
Chú thích bộ gen
Chương trình Geseq được sử dụng để thực
hiện chú thích tên, vị trí và cấu trúc các gen
trong bộ gen, với trình tự mẫu được thiết lập là
P. armeniacum (KT388109.1). Bộ gen lục lạp
hoàn chỉnh của P. delenatii sau khi được lắp ráp
có chiều dài 160.955 bp và có tỉ lệ GC 35,6%.
Tỉ lệ GC cũng có sự thay đổi giữa vùng LSC,
SSC và IRs. Trong đó vùng IRs có tỉ lệ GC cao
hơn hẳn (40%)so với vùng SSC (29%), LSC
(33%).
Bộ gen lục lạp của P. delenatii có tổng cộng
130 gen gồm 77 gen mã hóa protein, 39 gen mã
hóa tRNA, 8 gen mã hóa rRNA (Bảng 5).
Bảng 5. Danh sách các gen trong bộ gen lục lạp P. delenatii.
Classification of Genes Name of Gennes Number
RNA genes
Ribosomal RNAs rrn4.5(x2), rrn5(x2), rrn16(x2), rrn23(x2) 8
Transfer RNAs
trnA_UGC(x2), trnC_GCA, trnD_GUC,
trnE_UUC, trnF_GAA, trnfM_CAU,
trnG_GCC, trnG_UCC, trnH_GUG(x2),
trnI_CAU(x2), trnI_GAU(x2), trnK_UUU,
trnL_CAA(x2), trnL_UAA, trnL_UAG(x2),
trnM_CAU, trnN_GUU(x2), trnP_UGG,
trnQ_UUG, trnR_ACG(x2), trnR_UCU,
trnS_GCU, trnS_GGA, trnS_UGA, trnT_GGU,
trnT_UGU, trnV_GAC(x2), trnV_UAC,
trnW_CCA, trnY_GUA
39
Protein-
coding genes
Photosystem I psaA, psaB, psaC, psaI, psaJ 5
Photosystem II
psbA, psbB, psbC, psbD, psbE, psbF, psbH,
psbI, psbJ, psbK, psbL, psbM, psbN, psbT,
psbZ
15
Cytochrome petA, petB, petD, petG, petL, petN 6
ATP synthase atpA, atpB, atpE, atpF, atpH, atpI 6
Rubisco rbcL 1
NADH dehydrogenease -
like complex ndhB(x2), ndhC, ndhD, ndhJ, ndhK 6
Ribosomal proteins - small
units
rps11, rps12(x2), rps14, rps15(x2), rps16,
rps18, rps19(x2), rps2, rps3, rps4, rps7(x2),
rps8
16
Ribosomal proteins - large
units
rpl14, rpl16, rpl2(x2), rpl20, rpl22, rpl23(x2),
rpl32(x2), rpl33, rpl36 12
RNA polymerase rpoA, rpoB, rpoC1, rpoC2 4
Miscellaneous accD, ccsA, cemA, clpP, infA, matK 6
Hypothetical chloroplast
reading frames (ycf) ycf1(x2), ycf2(x2), ycf3, ycf4 6
Total
130
Vẽ bản đồ gen
Dữ liệu chú thích bộ gen được đưa vào
chương trình OGDraw để vẽ bản đồ bộ gen.
Hình ảnh trực quan thể hiện bộ gen lục lạp dạng
vòng khép kín, vòng tròn trong ghi chú các
vùng SSC, LSC, IR. Vòng tròn ngoài thể hiện
rõ vị trí, thứ tự, độ dài các đoạn gen. Màu sắc
gen khác nhau theo nhóm gen được chú thích ở
góc trái bên dưới Hình 4. Các gen nằm bên
ngoài vòng tròn được phiên mã theo chiều kim
đồng hồ, trong khi các gen nằm bên trong vòng
Nguyễn Thanh Điềm et al.
96
tròn được phiên mã ngược chiều kim đồng hồ.
Màu xám đậm tương ứng với tỉ lệ phần trăm
GC, màu xám nhạt tương ứng với tỉ lệ phần
trăm AT.
Hình 4. Bản đồ bộ gen lục lạp hoàn chỉnh của loài lan Hài hồng Paphiopedilum delenatii.
THẢO LUẬN
Kiểm tra chất lượng trình tự thô
Nucleotide N là những nucleotide mơ hồ
không xác định được (James, 2001) trong quá
trình giải trình tự tự động từ đó sẽ làm ảnh
hưởng đến kết quả lắp ráp bộ gen nên cần được
loại bỏ nếu có. Trong nghiên cứu này, dữ liệu
thu được có tỉ lệ Nucleotide N là 0%, nghĩa các
nucleotide đều được xác định rõ ràng. Trong
quá trình giải trình tự bằng kỹ thuật Illumina,
các đoạn DNA được cắt nhỏ từ DNA tổng số
cần được gắn với các chuỗi tiếp hợp (adapter) là
một đoạn trình tự ngắn vào đầu của DNA nhằm
hỗ trợ cho việc bắt cặp mồi để thực hiện phản
ứng PCR khuếch đại trình tự. Sau đó các
adapter sẽ được cắt rời khỏi các đoạn DNA
(Levy E, Myers M, 2016). Nếu adapter còn sót
lại trên 10% trong dữ liệu trình tự (Andrews,
2010) thì sẽ ảnh hưởng đến chất lượng giải trình
tự và kết quả lắp ráp bộ gen. Trong dữ liệu
nghiên cứu, tỉ lệ phần trăm adapter ở cả 2 file
trình tự vào khoảng 1-3% (Hình 2C), việc này
không ảnh hưởng đáng kể đến chất lượng trình
tự. Các kết quả cho thấy chất lượng trình tự thô
rất tốt và đạt độ tin cậy cao khi lắp ráp genome.
Tạp chí Công nghệ Sinh học 18(1): 87-102, 2020
97
Giá trị chất lượng các base trong kết quả
đánh giá được bố trí thành các ngưỡng màu
xanh, màu cam và màu hồng. Màu xanh là các
giá trị rất tốt, màu cam là các giá trị chấp nhận
được, và màu hồng các các giá trị không tốt.
Sau khi kiểm tra các trình tự đều có giá trị nằm
trong ngưỡng màu xanh (Hình 2D) thể hiện chất
lượng trình tự rất cao ở các vị trí base xuyên
suốt chiều dài trình tự. Phred score là thông số
thể hiện chất lượng trung bình của việc nhận
diện nucleotide qua quá trình giải trình tự DNA
. Kết quả cho thấy chất lượng trung bình các
trình tự thô thu được (Quality score distribution
all sequences) rất cao khi đối chiếu tương ứng
với tỉ lệ chính xác đạt 99,99% (Bảng 6).
Một thư viện trình tự chất lượng và có độ
bao phủ cao khi mức độ lặp lại của mỗi trình tự
thấp và trình tự đa dạng. Hiện tượng các trình tự
lặp lại với số lượng lớn là do quá trình khuếch
đại quá mức trong giai đoạn tạo thư viện
(Andrews, 2010). Dựa vào 2 đường trong biểu
đồ Duplicate Sequence, đường màu xanh thể
hiện phần trăm trình tự lặp lại trong tổng số
trình tự ban đầu, đường màu đỏ thể hiện phần
trăm trình tự lặp lại sau khi đã loại bỏ các đoạn
lặp), một file có giá trị tốt nếu cả 2 đường càng
nằm về phía bên trái của biểu đồ chứng tỏ là
mức độ lặp lại càng thấp. Kết quả đánh giá mức
độ lặp lại của 2 file trình tự cho thấy mức độ lặp
lại của trình tự thấp khi cả 2 đường đều nằm về
phía góc trái của biểu đồ với mức độ lặp lại ở
mức 1-2 và phần trăm trình tự còn lại sau khi đã
loại bỏ các đoạn lặp lại chiếm 92,17% (Hình
2F). Do cả 2 file trình tự đều có chất lượng tốt
nên chúng tôi không thực hiện tiếp bước lọc bỏ
bớt trình tự. Toàn bộ thông tin trình tự sau khi
được kiểm tra đạt chất lượng được tiếp tục sử
dụng để lắp ráp bộ gen.
Bảng 6. Đánh giá sự tương quan giữa điểm chất lượng và tỉ lệ chính xác (Kwon et al., 2013)
Điểm chất lượng
(Phred Quality Score)
Tỉ lệ số nucleotide bị sai
(Probability of incorrect base call)
Tỉ lệ chính xác
(Base call accuracy)
10 1/10 90%
20 1/100 99%
30 1/1000 99.9%
40 1/10000 99.99%
50 1/100000 99.999%
Ngưỡng chất lượng trình tự làm dữ liệu đầu
vào cho việc lắp ráp
Theo lý thuyết, các trình tự không đủ độ
chính xác cần được loại bỏ trước khi lắp ráp bộ
gen để tránh bị nhiễu thông tin, dẫn đến việc lắp
ráp không thành công hoặc thiếu chính xác. Do
điểm chất lượng trình tự thô qua kiểm tra đều
nằm trong khoảng từ 19 tới 40 (Hình 2E) nên
chúng tôi chia 3 mức giá trị khảo sát là >=39,
>=30, >=20 (Bảng 4). Kết quả chiều dài bộ gen
đều giống nhau có thể giải thích là do số lượng
trình tự có điểm chất lượng dưới 19 và dưới 30
chiếm số lượng không đáng kể (Hình 2E) nên
không ảnh hưởng nhiều đến việc lắp ráp contig.
Tuy nhiên, điểm chất lượng càng cao thì có độ
bao phủ trình tự sau khi lắp ráp càng thấp do số
lượng trình tự đầu vào (input sequence) ít hơn
(Bảng 4). Độ bao phủ là số lần lặp lại của trình
tự toàn bộ gen, cũng là một thông số đo lường
chất lượng của việc lắp ráp, số lượng này càng
lớn độ tin cậy càng cao. Do đó, trong nghiên
cứu này những trình tự có chất lượng đạt từ 20
trở lên đều được sử dụng làm dữ liệu cho quá
trình lắp ráp genome để đạt được mức bao phủ
cao nhất, dù trong trường hợp cụ thể này, cả 3
trình tự genome thu được đều đồng nhất 100%.
Chiều dài chuỗi con K-mer
Một trong những nguyên tắc của lắp ráp bộ
gen là xác định đoạn trình tự chồng lắp
(overlap) tương đồng để ghép nối với nhau
thành các đoạn dài hơn. Cơ sở của việc này là
thuật toán sắp gióng cột (alignment). Tuy nhiên,
trình tự DNA thường là quá dài để thực hiện
Nguyễn Thanh Điềm et al.
98
việc sắp gióng cột hiệu quả. Do đó các thuật
toán sắp gióng cột thường sẽ chia trình tự ban
đầu thành từng đoạn ngắn để dễ bắt cặp tương
đồng rồi từ điểm bắt cặp đó so sánh tiếp tương
đồng nucleotide về 2 phía. Những đoạn ngắn
này được gọi là chuỗi con K-mer (Sohn và
Nam, 2018) Chuỗi con trong giải trình tự NGS
này được khuyến cáo là dài không quá 39 bp.
Chuỗi con quá dài sẽ khó tìm đoạn tương đồng,
chuỗi con quá ngắn sẽ dẫn đến đoạn tương đồng
quá nhiều mà độ tin cậy thấp. Do đó các giá trị
K-mer được chọn để khảo sát hiệu quả lắp ráp
là 20, 25, 30, 35 và 39 (Bảng 4).
Quá trình lắp ráp bộ gen gồm 2 giai đoạn là
lắp ráp các đoạn trình tự thô ngắn thành các
đoạn dài gọi là contig, sau đó contig được lắp
ráp lần nữa để tạo thành genome hoàn chỉnh.Số
lượng contig nên từ 2-3 là tốt nhất (Nicolas et
al., 2017). Trường hợp K-mer 20 tạo ra đến 5
contig, nhưng trong trình tự bộ gen hoàn chỉnh
chúng tôi phát hiện có một vài khoảng trống
(gap) là các nucleotide không xác định được sau
khi lắp ráp hoàn thành. Chiều dài hoàn chỉnh
của genome trong trường hợp này ngắn hơn 32
bp so với kết quả ở các trường hợp có 3 contig.
Trình tự bộ gen mẫu (refseq) và trình tự hạt
giống (seed)
Để thực hiện lắp ráp một bộ gen mới dựa
trên một bộ gen mẫu đã biết (phương pháp
homologus modeling), chương trình
NOVOPlasty cần có một trình tự genome hoàn
chỉnh và để làm bộ gen mẫu (refseq) và một
trình tự hạt giống (seed) cũng để làm mẫu vị trí
bắt đầu cho việc đối chiếu trình tự.
Bộ gen mẫu (refseq) có độ tương đồng với
loài nghiên cứu càng cao thì kết quả lắp ráp
càng chính xác và độ tin cậy cao. Hiện nay chỉ
mới có trình tự bộ gen hoàn chỉnh của 3 loài
cùng chi lan Hài được công bố trên Ngân hàng
gen là P. armeniacum, P. niveum và P.
dianthum. Cả ba loài đều có quan hệ rất gần với
loài nghiên cứu, trong đó P. armeniacum là loài
gần nhất do được phân loại cùng tổ (section) với
loài nghiên cứu P. delenatii dựa theo hình thái.
Trình tự hạt giống (seed) thường là một
đoạn trình tự ngắn, được chương trình sử dụng
làm xuất phát điểm cho toàn bộ quá trình lắp
ráp bộ gen. Do đó, seed thường phải có độ bảo
tồn cao để đảm bảo độ tương đồng ổn định với
loài mới. Seed có thể thuộc bộ gen bào quan của
chính loài đó hay loài khác trong chi. Ngoài ra,
trong trường hợp không tìm được trình tự của
loài có mối quan hệ gần với loài được lắp ráp bộ
gen, seed cũng có thể là trình tự bộ gen bào
quan của một loài xa hơn. Chương trình
NOVOPlasty đề nghị sử dụng hạt giống là trình
tự gen rbcL (Nicolas et al., 2017). Đây là gen
mã hóa cho protein RUBP (Ribulose 1,5-
bisphosphate), được xác định là trình tự có độ
bảo tồn cao ở cấp độ trên chi (Bafeel et al.,
2012), phù hợp với yêu cầu của NOVOPlasty.
Mặc dù vậy, gen matK cũng vẫn cho kết quả tin
cậy cao và hoàn toàn có thể thay thế rbcL.
Không những vậy, phép thử không dùng Refseq
cũng cho kết quả tối ưu, ngay cả với trình tự hạt
giống (bộ gen lục lạp của Dendrobium nobile)
khác chi và khác xa hơn về mặt di truyền. Thậm
chí trình tự hạt giống (gen rbcL của
Dendrobium nobile) chỉ cần là một đoạn gen rất
ngắn của chi khác vẫn có thể áp dụng. Kết quả
khảo sát này có ý nghĩa khẳng định tính khả thi
của việc lắp ráp bộ gen ngay cả ở các cá thể mà
chưa có trình tự tương đồng gần để tham khảo.
Chú thích bộ gen
Độ tương đồng trình tự giữa loài nghiên cứu
P. delenatii và loài tham khảo P. armeniacum là
97,84%. Tỉ lệ GC của bộ gen lục lạp P.
denlenatii và P. armeniacum có giá trị khá
giống nhau là 35,6% và 35,4% (Bảng 8) nằm
trong khoảng tỉ lệ GC% trung bình ở thực vật là
33,6-47,5% (Smarda et al., 2012). Hiện tượng
này được hình thành do quá trình sao chép và
xảy ra lỗi trong sửa chữa DNA (Talat, Wang,
2015), DNA polymerase ở lục lạp có xu hướng
kết hợp sai A, T thay vì G và C (Howe et al.,
2003). Tỉ lệ GC vùng IRs (40%) cao hơn so với
vùng SSC (29%), LSC (33%) là do vùng IR
chứa các gen rRNA (rrn4.5, rrn5, rrn23, rrn16)
và một số vùng mã hóa (Talat, Wang, 2015).
Dựa vào tỉ lệ GC có thể biết được sự đa dạng
của bộ gen từ đó phân tích được mối quan hệ
tiến hóa của các loài (Smarda et al., 2014).
Tạp chí Công nghệ Sinh học 18(1): 87-102, 2020
99
Trong cấu trúc của bộ gen lục lạp thì các vùng
sao chép đơn có khả năng đột biến điểm cao gấp
2,3 lần so với vùng IR (Shaw et al., 2007). Do
đó vùng sao chép đơn thường được nghiên cứu
nhiều hơn (Shaw et al., 2007). Tuy nhiên vùng
IR chứa các gen lặp lại (gen mã hóa ribosome,
một số gen tRNA, gen mã hóa protein) có vai
trò quan trọng trong việc duy trì sự sắp xếp các
gen của DNA lục lạp (Václav et al., 2018).
Trong bộ gen lục lạp của thực vật trên cạn
và tảo lục có thể phân các gen thành 2 nhóm
chính: những gen liên quan đến biểu hiện gen
và những gen liên quan đến quá trình quang hợp
(Sugiura, 1995). Trong nhóm gen liên quan đến
quá trình quang hợp các gen psa, psb, pet, atp
mã hóa lần lượt hệ thống quang hóa I
(Photosytem I - PSI), hệ thống quang hóa II
(Photosytem II - PSII), cytochrome, ATP
sythase đều có vai trò quan trọng trong quá trình
quang hợp. Trong đó PSI giúp tạo ra ATP, PSII
tạo ra NADH, ATP, O2 cho cây (Nelson,
Yocum, 2006). NADH dehydrogenase là loại
enzyme có vai trò quan trọng trong chuỗi vận
chuyển điện tử trong quá trình hô hấp của ty
thể. Tuy nhiên, trong lục lạp thì có các gen ndh
mã hóa cho NADH dehydrogenase-like
complexcó vai trò tương tự NADH
dehydrogenase. NDH có vai trò vận chuyển
điện tử của lục lạp (Ifuku et al., 2011; Nelson,
Yocum, 2006). Ngoài ra còn có một số gen khác
rps, rpl mã hóa cho protein của ribosome, rpo
mã hóa RNA polymerase. Như vậy, việc chú
thích bộ gen lục lạp mang lại những thông tin
quan trọng về các gen, cấu trúc, trình tự, vị trí
của chúng nhờ đó góp phần cho những công tác
nghiên cứu sau này.
Bảng 6. So sánh bộ gen P. delenatii và P. armeniacum.
P. delenatii
(MK463585)
P. armeniacum
(KT388109.1)
Chiều dài bộ gen (bp) 160.955 bp 162.682 bp
Chiều dài IR (bp) 34.020 bp 67.072 bp
Chiều dài LSC (bp) 90.365 bp 91.942 bp
Chiều dài SSC (bp) 2.550 bp 3.668 bp
GC content (%) 35,6% 35,4%
GC content của IR (%) 40% 39%
GC content của LSC (%) 33% 32,6%
GC content của SSC (%) 29% 31%
Tổng số gen (bao gồm các gen lặp) 130(23) 131(24)
Số CDS (bao gồm các gen lặp) 77(9) 79(11)
Số gen rRNA (bao gồm các gen lặp) 8(4) 8(4)
Số gen tRNA (bao gồm các gen lặp) 39(9) 38(8)
Bản đồ bộ gen
Việc lập bản đồ là một bước quan trọng
trong nghiên cứu giải trình tự bộ gen. Trình tự
và bản đồ bộ gen đều mang lại một cái nhìn
tổng quát về bộ gen, nhưng bản đồ bộ gen thì ít
chi tiết hơn trình tự bộ gen. Trình tự bộ gen sẽ
cho biết vị trí chính xác từng nucleotide trong
DNA, trong khi đó bản đồ gen chỉ thể hiện vị trí
các mốc trong bộ gen (Craig, 2003). Trong bản
đồ bộ gen thì các vị trí GCA, CCC, CATTT,
GAA được xem là một vị trí, trong khi đó mỗi
vị trí nucleotide trong trình tự bộ gen được xem
là một vị trí. Từ đó cho thấy bản đồ bộ gen là sự
thể hiện tóm tắt lại toàn bộ trình tự bộ gen. Việc
lập bản đồ bộ gen cho thấy thông tin các gen
trên bản đồ giúp các nhà khoa học dễ hình dung
trực quan ở mức độ tổng quát về toàn bộ bộ
gen, giúp các nhà khoa học phát hiện ra các gen
mới hay đặc điểm mới của bộ gen.
Nguyễn Thanh Điềm et al.
100
Hiện tại, dữ liệu genome lục lạp này đang
được tiếp tục phân tích để tìm kiếm các thông
tin hữu ích như đánh giá độ đa dạng của các
vùng trình tự tiềm năng làm mã vạch DNA,
phân tích các vùng trình tự lặp lại (repeat) và
các vùng vệ tinh (microsatellite) hiện diện trong
genome phục vụ đánh giá đa dạng di truyền và
nhận diện phân tử, đồng thời phân tích phát sinh
chủng loài từ bộ genome lục lạp.
KẾT LUẬN
Nghiên cứu đã mô tả chi tiết quy trình lắp
ráp và chú thích bộ gen lục lạp hoàn chỉnh của
loài lan Hài hồng (Paphiopedilum delenatii) đặc
hữu của Việt Nam. Kết quả genome là cơ sở để
phân tích các dữ liệu khác phục vụ nghiên cứu
và ứng dụng trên đối tượng này. Đồng thời quy
trình được đề xuất trong nghiên cứu có thể dễ
dàng thực hiện trên máy tính cá nhân với thời
gian ngắn, cho kết quả chính xác và có thể được
áp dụng rộng rãi cho nhiều đối tượng thực vật
khác.
Lời cảm ơn: Các tác giả xin chân thành cảm
ơn Quỹ Phát triển Khoa học và Công nghệ Đại
học Nguyễn Tất Thành thông qua đề tài mã số
2019.01.27/HĐ-KHCN cho nghiên cứu này.
TÀI LIỆU THAM KHẢO
Ahmed I, Islam M, Arshad W, Mannan A, Ahmad
W, Mirza B (2009) High-quality plant DNA
extraction for PCR: an easy approach. J Appl Genet
50(2): 105-7.
Andrews S (2010) FastQC: a quality control tool for
high throughput sequence data. Available online at:
astqc.
Bafeel S, Alaklabi A, Arif I, Khan H, Alfarhan A,
Ahamed A, Thomas J, Bakir M (2012) Ribulose-1,5-
biphosphate carboxylase (rbcL) gene sequence and
random amplification of polymorphic DNA (RAPD)
profile of regionally endangered tree species
Coptosperma graveolens subsp. arabicum (S. Moore)
Degreef. Plant OMICS 5: 285-290.
Craig J V (2003) Genome Map. Retrieved from
s_a_genome/Chp3_1.shtml?fbclid=IwAR0wwaneD
HuQLOVSNuafB9rLrrfCzvflRw_tnNUi0yYb5vsh8
veTi_yYviY
Daniell H, Lin C S, Yu M, Chang W J (2016)
Chloroplast genomes: diversity, evolution, and
applications in genetic engineering. Genome Biol
17(1): 134.
Guo S, Guo L, Zhao W, Xu J, Li Y, Zhang X, Shen
X, Wu M, Hou X (2018) Complete chloroplast
genome sequence and phylogenetic analysis of
Paeonia ostii. Molecules 23(2).
Howe C J, Barbrook A C, Koumandou V L, Nisbet
R E R, Symington H A, Wightman T F (2003)
Evolution of the chloroplast genome. Philos Trans R
Soc Lond B Biol Sci 358(1429): 99-107.
Huỳnh Phước Hải, Nguyễn Văn Hòa (2015) Quy
trình lắp ráp bộ gien Chloroplast. Tạp chí Khoa học
Trường Đại học Cần Thơ: 9-16.
Ifuku K, Endo T, Shikanai T, Aro E M (2011)
Structure of the chloroplast NADH dehydrogenase-
like complex: nomenclature for nuclear-encoded
subunits. Plant Cell Physiol 52(9): 1560-8.
Izan S, Esselink D, Visser R G F, Smulders M J M,
Borm T (2017) De Novo assembly of complete
chloroplast genomes from non-model species based
on a K-mer frequency-based selection of chloroplast
reads from total DNA sequences. Front Plant Sci 8:
1271.
James T (2001) Beginning Perl for Bioinformatics.
O'Reilly & Associates, Inc., Sebastopol, California,
USA.
Sohn J I, Nam J W (2018) The present and future of
de novo whole-genome assembly. Brief Bioinform
19(1): 23-40.
Kwon S, Park S, Lee B, Yoon S (2013) In-depth
analysis of interrelation between quality scores and
real errors in Illumina reads. Conf Proc IEEE Eng
Med Biol Soc 2013: 635-8.
Levy E S, Myers M R (2016) Advancements in
Next-Generation Sequencing. Annual review of
genomics and human genetics 17.
Li Y, Zhang J, Li L, Gao L, Xu J, Yang M (2018)
Structural and comparative analysis of the complete
chloroplast genome of Pyrus hopeiensis-"Wild plants
with a tiny population"-and three other Pyrus
species. Int J Mol Sci 19(10): 3262.
Tạp chí Công nghệ Sinh học 18(1): 87-102, 2020
101
Lienhard A, Schäffer S (2019) Extracting the
invisible: obtaining high quality DNA is a
challenging task in small arthropods. PeerJ 7:
e6753-e6753.
Manzanilla V, Kool A, Nguyen Nhat L, Nong Van
H, Le Thi Thu H, de Boer H J (2018) Phylogenomics
and barcoding of Panax: toward the identification of
ginseng species. BMC Evolutionary Biology 18(1):
44.
Nelson N, Yocum F C (2006) Structure and function
of photosystem Ι and II. Annu Rev Plant Biol 57:
521-65.
Nicolas D, Patrick M, Guillaume S (2017)
NOVOPlasty: de novo assembly of organelle
genomes from whole genome data. Nucleic Acids
Res 45(4): e18.
Saina J K, Li Z Z, Gichira A W, Liao Y Y (2018)
The complete chloroplast genome sequence of tree
of Heaven (Ailanthus altissima (Mill.) (Sapindales:
Simaroubaceae), an important pantropical tree. Int J
Mol Sci 19(4).
Schmieder R, Edwards R (2011) Quality control and
preprocessing of metagenomic datasets.
Bioinformatics 27(6): 863-864.
Shaw J, Lickey E B, Schilling E E, Small R L (2007)
Comparison of whole chloroplast genome sequences
to choose noncoding regions for phylogenetic studies
in angiosperms: the tortoise and the hare III. Am J
Bot 94(3): 275-88.
Shendure J, Ji H (2008) Next-generation DNA
sequencing. Nat Biotechnol 26(10): 1135-45.
Smarda P, Bures P, Horová L, Leitch I J, Mucina L,
Pacini E, Tichý L, Grulich V, Rotreklová O (2014)
Ecological and evolutionary significance of genomic
GC content diversity in monocots. Proc Natl Acad
Sci U S A 111(39): E4096.
Smarda P, Bures P, Smerda J, Horova L (2012)
Measurements of genomic GC content in plant
genomes with flow cytometry: a test for reliability.
New Phytol 193(2): 513-21.
Sugiura M (1995) The chloroplast genome. Essays
Biochem 30: 49-57.
Talat F, Wang K (2015) Comparative Bioinformatics
analysis of the chloroplast genomes of a wild diploid
Gossypium and two cultivated Allotetraploid
Species. Iran J Biotechnol 13(3): 47-56.
Tian N, Han L, Chen C, Wang Z (2018) The
complete chloroplast genome sequence of
Epipremnum aureum and its comparative analysis
among eight Araceae species. PLOS ONE 13:
e0192956.
Václav B, Jiří L, Bartas M, Fojta M (2018) Complex
analyses of short Inverted Repeats in all sequenced
chloroplast DNAs. Biomed Res Int 2018: 10.
Worth J R P, Liu L (2019) The complete chloroplast
genome of Fagus crenata (subgenus Fagus) and
comparison with F. engleriana (subgenus
Engleriana). PeerJ 7: e7026.
Xiang l, Su Y, Li X, Xue G, Wang Q, Shi J, Wang L,
Chen S (2016) Identification of Fritillariae bulbus
from adulterants using ITS2 regions. Plant Gene 7.
Yeisoo Y, Hyun Oh L, Joong Hyoun C, Han Yong P,
Soo-Cheul Y (2017) The complete chloroplast
genome sequence of Oryza sativa aus-type variety
Nagina-22 (Poaceae). Mitochondrial DNA Part B
2(2): 819-820.
CONSTRUCTION OF COMPLETE CHLOROPLAST GENOME OF THE
ENDEMIC SPECIES PAPHIOPEDILUM DELENATII GUILLAUMIN (1924) OF
VIETNAM
Nguyen Thanh Diem1, Ly Le2, Nguyen Huu Thuan Anh1, Nguyen Thanh Cong1, Vu Thi
Huyen Trang1,2,*
1Nguyen Tat Thanh University, Ho Chi Minh City
2International University, Ho Chi Minh National University
SUMMARY
Chloroplasts and mitochondria are organelles that have their own genome in a cell. The
chloroplast genome provides information on the evolutionary relationship and species identification,
Nguyễn Thanh Điềm et al.
102
valuable markers for transgenic plants, and cloning plants, etc. The application of Next Generation
Sequencing has improved the chloroplast genome sequencing. However, the assembly process of
chloroplast genome is quite complicated due to the need of different complex bioinformatics tools,
high configuration computer and laborous. Here we configured the process of assembling the
chloroplast genome of Paphiopedilum delenatii. The assembled chloroplast genome was 160,955 bp
in length, including a large and a small single copy region (LSC, SSC) separated by a pair of
inverted repeats (IR). Total genes were 130 genes, GC content is 35.6%. Genome data was mapped
and registered in GenBank under accession number MK463585. The optimal parameters for
genome assembling were recommended. This study not only provided information for conservation
of the Vietnam endemic Paphiopedilum delenatii species but also supported the genome assemble
researches which could be applied on other subjects.
Keywords: Paphiopedilum delenatii, genome assembling, genome annotation, gen map, chloroplast
genome
Các file đính kèm theo tài liệu này:
xay_dung_ban_do_bo_gen_luc_lap_hoan_chinh_cua_loai_lan_hai_h.pdf