Mô hình ANN-I(17)-HL(44)-O(1) có R2 train = 0.991, R2validation = 0.959, R2test = 0.945;
mô hình PCA-ANN- I(8)-HL(23)-O(1) cho R2 train = 0.990, R2validation = 0.987, R2test = 0.980.
Kếtquả quá trình luyện củ h i mô hình tr n ợc biểu diễn ở Hình 6. Các giá tr pGI50 tính
toán từ mô hình ANN và PCA-ANN ợc trình bày trong Bảng 1.
Các kết quả dự oán từ ba mô hình PCR, ANN và PCA-ANN có sự trùng kh p nhau,
iều n y ợc chứng minh khi thực hiện phân tí h ph ơng s i m t yếu tố ANOVA (F = 0.068
< Fcrit = 3,885) T ơng tự b ng phép phân tích ANOVA m t yếu tố, các giá tr dự oán hoạt
tính kháng ung th ổ t cung nhận ợc từ các mô hình PCR, ANN và PCA-ANN không có
sự khác biệt so v i giá tr thực nghiệm, sự s i khá không áng kể, trong vùng sai số cho phép
o ủa thực nghiệm (F = 0,073 < Fcrit = 3,239)
7 trang |
Chia sẻ: honghp95 | Lượt xem: 526 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Dự đoán hoạt tính kháng ung thư của các dẫn xuất flavone và isoflavone bằng kỹ thuật hồi quy tuyến tính và mạng thần kinh nhân tạo - Bùi Thị Phương Thuý, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
KHOA HỌC CÔNG NGHỆ
TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 20
DỰ ĐOÁN HOẠT TÍNH KHÁNG UNG THƢ CỦA CÁC DẪN XUẤT FLAVONE VÀ
ISOFLAVONE BẰNG KỸ THUẬT HỒI QUY TUYẾN TÍNH VÀ MẠNG THẦN KINH
NHÂN TẠO
Bùi Thị Phƣơng Thúy1, Phạm Lê Nhân2, Tán Văn Hậu3
1
Khoa H a Trường Đại học Khoa Học – Đại học Huế
2Khoa H a Trường Đại học Đà Lạt
3
Khoa Công Nghệ Hóa học, Trường Đại học Công Nghiệp Thực Phẩm, TP. Hồ Chí Minh
TÓM TẮT
Xá nh hoạt tính kháng ung th ủa flavonoid là m t phần không thể tách rời củ d ợc học. Nhiều kĩ
thuật thực nghiệm hính xá ợc phát triển ể xá nh hoạt tính kháng ung th Tuy nhi n, kĩ thuật thực
nghiệm thì tốn kém nhiều thời gian và kinh tế. Vì vậy, xây dựng mô hình quan hệ c u trúc hoạt tính (QSAR)
áng tin ậy ể xá nh hoạt tính kháng ung th ủ fl vonoid trong tr ờng hợp không có dữ liệu thực nghiệm
l iều cần thiết[1] Trong ông trình n y, á mô hình QSAR dự oán th nh ông hoạt tính pGI50: c tố tế
bào (ức chế sự tăng tr ởng tế o) ợc thành lập b ng cách s dụng kỹ thuật hồi quy tuyến tính kết hợp phân
tích thành phần chính (PCA) và mạng thần kinh nhân tạo l p (ANN).Mô hình tuyến tính PCR pGI50 =5.578–
1.217PC1 + 0.402PC2+ 2.864PC3 –2.514PC4 – 9.642PC5R2v i 0.919; R2adj =0,899; R
2
prediction = 0.787.Mô hình
phi tuyến ANN: I(17)-HL(44)-O(1) v i R2train = 0.991; R
2
test = 0.945. Mô hình phi tuyến PCA-ANN: I(8)-
HL(23)-O(1) R
2
train = 0.990; R
2
test = 0.980. Kết quả dự oán ho pGI50 th y giá tr pGI50 thực nghiệm, pGI50pred
từ mô hình PCR, ANN và PCA-ANN không khác nhau, (Fcal= 0.073< F0.05= 3,239).
Keywords: Phân tích thành phần chính, mạng thần kinh, flavonoid, hoạt tính kháng ung th
PREDICTING THE FLAVONE AND ISOFLAVONE ANTICANCER ACTIVITY BY
LINEAR REGRESSION TECHNIQUE AND ARTIFICIAL NEURAL NETWORKS
ABSTRACT
Anticancer activityinvestigationsof flavonoid are an integral part of the pharmacology. Several accurate
experimental techniques have been developed for the purpose of anticancer activity detection.
However,experimental techniques are time-consuming and costly.Hence, constructing reliable quantitative
structure–activity relationship (QSAR) modelswith the capability of priori predicting the anticancer activity of
flavonoid in the absence of experimental data is considerably essential [1].Normally, quantitative structure–
activity relationship (QSAR) models have the potential to provide reliable activity estimates based on detailed
information of chemicalstructure.In this work, QSAR models have been successful in providing reliable
structure-based PGI50 predictions.pGI50 (growth inhibitory activity) were determined by using the principal
component linear regression (PCR) technique and artificial neural networks (ANN).The PCR modelestablishedis
pGI50 =5.578 - 1.217PC1 + 0.402PC2+ 2.864PC3 –2.514PC4 – 9.642PC5with R
2
=0.919; R
2
adj =0.899; R
2
prediction
= 0.787.The ANN modelisI(17)-HL(44)-O(1) withR
2
train = 0.991; R
2
test = 0.945.Additionally, thePCA-ANN
model were also constructed with an architecture I(8)-HL(23)-O(1) with R
2
train = 0.990; R
2
test = 0.980. The
results showed that values pGI50,pred from PCR, ANN and PCA-ANN models are not different from experimental
values pGI50, (Fcal = 0.073 < F0.05 = 3.239).
Keywords:Principal component analysis, neural network, flavonoid, anticancer activity.
1. GIỚI THIỆU
Hợp ch t có hoạt tính chống oxi hóa là m t trong những hợp ch t quan trọng, ng ợc
quan tâm nghiên cứu tác dụng kháng ung th [2,10] Trong , nh m d n xu t flavonoid là
nhóm d n xu t có hoạt tính khá o, c tính th p có m t trong nhiều loại thực vật nh nho,
ậu nành, ậu xanh, hoàng cầm, r u má, m ề, Đ nhiều nghiên cứu về d ợc tính, hoạt
tính kháng oxi hóa của nhóm d n xu t flavononid, các nghiên cứu cho th y nh m d ợc ch t
này r t tốt cho n i tiết tố nữ Đ m t số công trình nghiên cứu về tổng hợp, chiết xu t
flavonoid hay th khả năng kháng ung th v , ung th ổ t cung,ung th phổi, ung th
KHOA HỌC CÔNG NGHỆ
TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 21
gan,kháng HIV M t sốcông trình nghiên cứu hoạt tính của các d n xu t flavonoid b ng
nhiều ph ơng pháp khác nhau. Trong , á ph ơng pháp h họ l ợng t ợc ứng dụng
r ng rãi vào thiết kế và tìm kiếm d ợc liệu.
Trong công trình này, chúng tôi nghiên cứu xây dựng mô hình quan hệ c u trúc và hoạt
tính (QSAR) kháng ung th ổ t cung pGI50 (logarith nồng ch t gây ức chế 50% sự phát
triển của tế o ung th ) của nhóm d n xu t flavone và isoflavoneb ng ph ơng pháp hồi quy
thành phần chính [3,4,9], mạng thần kinh nhân tạo và mạng thần kinh nhân tạo kết hợp phân
tích thành phần chính [5,7,8].Các thông sô c u tr ( iện tích) của nhóm d n xu t flavone và
isoflavone ợc tính toán b ng ph ơng pháp h l ợng t bán thực nghiệm PM3 SCF.
2. PHƢƠNG PHÁP TÍNH TOÁN
2.1. Tính toán thông tin cấu trúc
Khung c u trúc d n xu t flavone và isoflavone nghiên cứu ợc mô tả trong Hình 1:
a) b)
Hình 1.Khung cấu trúc flavonoid: a) flavone và b) isoflavone
Dữ liệu thực nghiệm hoạt tính kháng ung th ổ t cung pGI50 và dữ liệu c u trúc 32
flavonoid tham khảo từ tài liệu [10]cho ở Hình 2.Các d n xu t ợ ánh số thứ tự các
nguyên t trên khung phân t trong Hình 1.Lựa chọn ng u nhiên trên Excel các d n xu t
flavonoid thành tập luyện, tập kiểm tra, tập ngoạitrong Hình 2.Dữ liệu c u tr iện t của
các nguyên tố carbon và oxygen ợc tính toán b ng ph ơng pháp h l ợng t PM3 trong
Hyperchem [6].
fla-A1 (5.699) fla-A2 (5.921)
fla-A3 (5.699) isofla-A4 (5.009)
fla-A5 (5.699) isofla-A8 (5.071) (*)
Fla-A9 (5.745)
Fla-A10 (5.678)
O
O
1
3
4
11
10
5
6
7
8
9 '2 1
2'
3'
4 '
5'
6'
O
O
1
2
3
4
11
10
5
6
7
8
9
1
2 4
5
3
6
'
'
'
'
'
'
KHOA HỌC CÔNG NGHỆ
TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 22
Fla-A11 (5.699) (**)
Fla-A12 (6.097) Fla-A13 (5.796)
Fla-A14 (6.000)
Fla-A15 (5.699) (**) isofla-A18 (5.046) (**)
isofla-A19 (5.108)
Fla-A21 (5.796)
Fla-A23 (5.699) (**)
Fla-A24 (5.620)
Fla-A26 (5.699) (*)
Fla-A27 (5.181)
Fla-A28 (5.569) (*)
isofla-A30 (5.086)
isofla-A31 (5.194) (**)
isofla-A32 (5.137)
Fla-A6 (6.046)
Fla-A7 (5.658)
Fla-A16 (5.699)
Fla-A17 (5.699)
isofla-A20 (5.119)
Fla-A22 (5.699) (*)
FlaA25 (5.638)
Fla-A29 (5.602) (*)
Hình 2. Cấu trúc và hoạt tính pGI50expcủa 32 dẫn xuất flavone và isoflavone [10]
2.2. Xây dựng mô hình PCR và PCA – ANN
Phân tích thành phần chính (PCA) là m t thuật toán s dụng m t chuyển ổi trực giao
ể chuyển ổi m t tập hợp các biến t ơng qu n v o m t tập hợp các giá tr của các biến
không t ơng qu n ợc gọi là thành phần chủ yếu [9] Ph ơng pháp phân tí h th nh phần
hính ợc s dụng ể tính toán á ại l ợng nh qu ng phổ, nồng , các thông số nhiệt
ng lực học của các hợp ch t hóa học. Số l ợng các thành phần chủ yếu thông th ờng luôn
nhỏ hơn ho c b ng số l ợng của các biến n ầu. B ng ph ơng pháp PCA, á dữ liệu ợc
KHOA HỌC CÔNG NGHỆ
TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 23
phân tách ra thành sản phẩm của m t ma trận mục tiêu và m t ma trận chiếu v i các c t và
các hàng trự gi o, t ơng ứng.
q
'
i i
i 1
A t p TP (1)
Trong : A l m trận mục tiêu; ti và pi’ l giá tr mục tiêu và vector chiếu của m t mục
tiêu; q là số l ợng vector chiếu t ơng ứng v i giá tr mục tiêu ti.Dựa trên giá tr biến c lập,
biến mục tiêu, m t mụ ti u ợc xây dựng từ dữ liệu của ma trận 3 chiều.Quá trình tính toán
dựa trên nguyên tắc tìm cực tr toàn cục trên bề m t thế Điểm cực tiểu trên bề m t thế là giá
tr mục tiêu cần xá nh.
Trong phân tích thành phần chính có thể s dụng nhiều biến ể thiết lập mô hình QSAR
[1].Ở ây, h ng tôis dụng dữ liệu c u tr iện t l iện tích 17 nguyên t O1, C2, C3, C4,
C5, C6, C7, C8, C9, C10, O11, C1’, C2’, C3’, C4’, C5’, C6’(Hình 1) và thành phần chính PC1, PC2,
PC3, PCn ể thiết lập mô hình QSAR.
Mô hình hồi tuyến tính PCR ợc xây dựng từ ma trận thành phần hính v kĩ thuật hồi
qui trên hệ thống Regress [3] và MS-EXCEL [4].Mạng thần minh nhân tạo [5,7,8] có m t l p ẩn
là m t trong những kiểu mạng phổ dụng vì vậy trong bài báo này chúng tôi xây dựng các mô hình
mạng có 3 l p, gồm m t l p input, m t l p ẩn và m t output Để ợc mô hình mạng tối u, số
nơron ẩn trong hai mô hình mạng sẽ ợc khảo sát từ 1 ến 50. Giá tr MSE từ 50 mô hình ANN và 50
mô hình PCA-ANN sẽ ợ so sánh ể rút ra mạng tối u nh t ứng v i MSE nhỏ nh t.Mô hình
ANNvà PCA – ANN ợc xây dựng từ các ch t trong tập luyện ể dự oán hoạt tính của ch t trong
tập kiểm tra.Việc phân tích PCA và xây dựng các mô hình mạng thần kinh ợc thực hiện trên
MATLAB.Kết quả từ á mô hình ợc so sánh v i dữ liệu thực nghiệm b ng á phân tí h ph ơng
s i (ANOVA) ơn yếu tố. Tính toán giá tr R2 và sai số t ơng ối ARE% phần trăm ng g p trung
bình MARE%theo công thức (2), (3) và (4).
8
n 1
N
2
i i
50exp cal2 i 1
N
2 50exp
i
i 1
1
MARE,% ARE%
n
ˆ(Y Y )
pGI pGI
R 1 100 (2) ARE,% 100 (3) (4)
pGI
(Y Y)
V i Y, Y và Yˆ là giá tr thực nghiệm, giá tr trung bình và giá tr tính toán, n là số hợp ch t
trong tập kiểm tra.
3. KẾT QUẢ VÀ THẢO LUẬN
3.1Xây dựng mô hình PCR
Giá tr score của các thành phần chính rút ra từ phép phân tích PCA cho ma trận iện
tí h ợ ánh giá thông qu giá tr ph ơng s i ng g p ủa mỗi thành phần. Mứ ng
g p v ph ơng s i tí h lũy ủa 17 thành phần hính ợc biểu diễn trên Hình 3.Đối v i tám
thành phần hính ầu tiên từ PC1 ến PC8 ph ơng s i tí h lũy hơn 99.99%, các thành
phần còn lại từ PC9 ến PC18 có mứ ng g p nhỏ không áng kể (< 0.005%), do tám
thành phần hính ầu tiên sẽ ợc s dụng ể xây dựng mô hình PCR.
KHOA HỌC CÔNG NGHỆ
TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 24
Hình 3.Hệ số tích lũy, phương sai của các thành phần chính
Từ kết quả chọn lựa các thành phần chính, chúng tôi thiết lập ợc mô hình hồi quy
tuyến tính thể hiện mối quan hệ giữa PGI50 và các thành phần chính: pGI50 =5.578 -
1.217*PC1 + 0.402*PC2+ 2.864*PC3 – 2.514*PC4 - 9.642*PC5. V i R2 = 0.919; R2adj
=0.899; R
2
prediction = 0.787 và giá tr Pvalue< 0.05. Các giá tr PGI50 tính từ mô hình PCR cho
tập ngoại và các giá tr thống kê từ mô hình PCR trình bày trên Bảng 1.
3.2 PHÁT TRIỂN MÔ HÌNH ANN VÀ PCA – ANN
Từ kết quả quá trình luyện, giá tr MSE cho các mô hình ANN và PCA-ANN ợc biểu
diễn tr n hình 4 Đối v i mô hình ANN, kết quả kiến trúc mạng thần kinh I(17)-HL(44)-O(1)
ứng v i 17 nơron ầu v o ( iện tích nguyên t từ O1 ến C17 trên khung phân t ), 1 nơron ầu
ra pGI50, l p ẩn gồm 44 nơron (số l p ẩn ợc chọn lựa ứng v i sai số MSE nhỏ nh t, Hình 4)
tối u nh t. T ơng tự, từ kết quả MSE, số nơron ẩn (23 nơron) ho kiểu mạng PCA-ANN
ũng ợc chọn theo giá tr MSE nhỏ nh t (0 00217) Do kiến trúc mạng thần kinh cho mô
hình PCA-ANN là I(8)-HL(23)-O(1), trong 8 nơron ầu v o (PC1 ến PC8), 1 nơron ầu
ra pGI50. Cả hai mô hình mạng ều s dụng hàm truyền sigmoid, thuật toán lan truyền ng ợc
ợ dùng ể luyện mạng, tố học 0.01; moment 0.7, vòng l p 1000.
Hình 4.Biến thiên MSE theo số nơron trong lớp ẩn
0
10
20
30
40
50
60
70
80
0 5 10 15 20
p
h
ơ
n
g
s
i
Th nh phần hính
70
75
80
85
90
95
100
0 5 10 15 20
H
ệ
số
t
í
h
l
ũ
y
Th nh phần hính
0
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0.008
0.009
0 10 20 30 40 50
M
S
E
Số nơron ẩn
ANN
PCA-ANN
KHOA HỌC CÔNG NGHỆ
TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 25
Hình 5. Giá trị thực nghiệm và giá trị dự đoán từ quá trình luyện của hai mô hình:
(a) mô hình ANN-I(17)-HL(44)-O(1), (b) PCA-ANN- I(8)-HL(23)-O(1)
Mô hình ANN-I(17)-HL(44)-O(1) có R
2
train = 0.991, R
2
validation = 0.959, R
2
test = 0.945;
mô hình PCA-ANN- I(8)-HL(23)-O(1) cho R
2
train = 0.990, R
2
validation = 0.987, R
2
test = 0.980.
Kếtquả quá trình luyện củ h i mô hình tr n ợc biểu diễn ở Hình 6. Các giá tr pGI50 tính
toán từ mô hình ANN và PCA-ANN ợc trình bày trong Bảng 1.
Các kết quả dự oán từ ba mô hình PCR, ANN và PCA-ANN có sự trùng kh p nhau,
iều n y ợc chứng minh khi thực hiện phân tí h ph ơng s i m t yếu tố ANOVA (F = 0.068
< Fcrit = 3,885) T ơng tự b ng phép phân tích ANOVA m t yếu tố, các giá tr dự oán hoạt
tính kháng ung th ổ t cung nhận ợc từ các mô hình PCR, ANN và PCA-ANN không có
sự khác biệt so v i giá tr thực nghiệm, sự s i khá không áng kể, trong vùng sai số cho phép
o ủa thực nghiệm (F = 0,073 < Fcrit = 3,239).
Bảng 1.Dự đoán pGI50expt từ ba mô hình PCR, ANN và PCA-ANN
TẬP KIỂM TRA
Hợp ch t pGI50expt
PCR ANN PCA-ANN
pGI50PCR ARE% pGI50ANN ARE% pGI50PCA ARE%
isofla-A8 5.071 5.073 0.039 5.000 1.400 5.003 1.341
fla-A22 5.699 5.709 0.175 5.731 0.562 5.773 1.298
fla-A26 5.699 5.838 2.439 5.618 1.421 5.828 2.264
fla-A28 5.569 5.701 2.370 5.662 1.670 5.673 1.867
fla-A29 5.602 5.696 1.678 5.646 0.785 5.599 0.054
MARE%
1.340 1.168
1.365
Giá tr tuyệt ối của sai số t ơng ối ợ ánh giá ng công thức (4). B ng việ ánh
giá giá tr sai số trung bình MAME%, ba mô hình PCR, ANN và PCA-ANN có khả năng dự
oán hoạt tính kháng ung th ổ t ung t ơng ơng nh u
4. KẾT LUẬN
Xá nh hoạt tính kháng ung th ủ á d n xu t fl vonoid nghĩ qu n trọng
trong d ợ họ Mô hình QSAR tuyến tính v phi tuyến ợ thiết lập ng phân tích thành
phần hính v tính toán h l ợng t Kết quả dự oán hoạt tính kháng ung th ổ t ung ủ
á d n xu t fl vone v isofl vone nhận ợ từ á mô hình PCR, ANN, PCA-ANN và từ
4.9
5.1
5.3
5.5
5.7
5.9
6.1
6.3
4.9 5.1 5.3 5.5 5.7 5.9 6.1
p
G
I5
0
d
ự
o
án
pGI50 thự nghiệm
(b)
4.9
5.1
5.3
5.5
5.7
5.9
6.1
6.3
4.9 5.1 5.3 5.5 5.7 5.9 6.1
p
G
I5
0
d
ự
o
án
pGI50 thự nghiệm
(a)
KHOA HỌC CÔNG NGHỆ
TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 26
thực nghiệm là giống nhau, sự s i khá không áng kể, trong vùng sai số ho ph p o ủa
thực nghiệm.
TÀI LIỆU THAM KHẢO
[1]. Phạm Văn T t (2009), Mô hình QSAR của nhóm 6-aminoquilon: những tác nhân kháng
HIV-1, Tạp chí Hóa học và ứng dụng, 15(99), 30-34.
[2]. Pham Van Tat (2009), Prediction of thermodynamic properties of similar organic
compounds using artificial neural netword, Vietnamese Journal of Chemistry, P. 611-666,
No.4A.
[3]. D. Steppan, J. Werner, P. R. Yeater (2006), Essemtial Regression and Design for
Chemists and Engineers
[4]. E. J. Billo., (2007), Excel For Scientists And Engineers-Numerical Methods, Wiley.
[5]. J. Devillers (1996), Strengths and Weaknesses of the Backpropagation Neural Network in
QSAR and QSPR Studies, in: J. Devillers (Ed.) Neural Networks in QSAR and Drug Design,
Academic Press, London, pp.1-46.
[6]. HyperChem Release 8.03 (2008), Hypercube, Inc., USA.
[7]. K. Hornik (1991), AppSroximation capabilities of multilayer feedforward networks,
Neural Networks, 4 251-257.
[8]. M. Jalali-Heravi (2009), Neural Networks in Analytical Chemistry, in: D. Livingstone
(Ed.) Artificial Neural Networks, Humana Press, pp. 78-118.
[9]. S. Wold, P. Geladi, K. Esbensen, et al., (1987) Multi-way principal components-and PLS-
analysis, Journal of Chemometrics, (1), 41-56.
[10]. T. C. Wang, I. L. Chen, P. J. Lu, C. H. Wong, C. H. Liao, K. C. Tsiao, K. M. Chang, Y.
L. Chen, C. C. Tzeng (2005), Synthesis, antiproliferative, and antiplatelet activities of oxime-
and methyloxime-containing flavone and isoflavone derivatives, Bioorganic & Medicinal
Chemistry, (13), 6045–6053.
Phản biện khoa học: PGS.TS. Võ Thị Bạch Huệ
Đơn vị công tác: Đại học Y Dƣợc TP.HCM
SĐT:0908420240 - Email: vothibachhue@gmail.com
Các file đính kèm theo tài liệu này:
- so_3_20_26_1339_2070759.pdf