Dự đoán hoạt tính kháng ung thư của các dẫn xuất flavone và isoflavone bằng kỹ thuật hồi quy tuyến tính và mạng thần kinh nhân tạo - Bùi Thị Phương Thuý

Mô hình ANN-I(17)-HL(44)-O(1) có R2 train = 0.991, R2validation = 0.959, R2test = 0.945; mô hình PCA-ANN- I(8)-HL(23)-O(1) cho R2 train = 0.990, R2validation = 0.987, R2test = 0.980. Kếtquả quá trình luyện củ h i mô hình tr n ợc biểu diễn ở Hình 6. Các giá tr pGI50 tính toán từ mô hình ANN và PCA-ANN ợc trình bày trong Bảng 1. Các kết quả dự oán từ ba mô hình PCR, ANN và PCA-ANN có sự trùng kh p nhau, iều n y ợc chứng minh khi thực hiện phân tí h ph ơng s i m t yếu tố ANOVA (F = 0.068 < Fcrit = 3,885) T ơng tự b ng phép phân tích ANOVA m t yếu tố, các giá tr dự oán hoạt tính kháng ung th ổ t cung nhận ợc từ các mô hình PCR, ANN và PCA-ANN không có sự khác biệt so v i giá tr thực nghiệm, sự s i khá không áng kể, trong vùng sai số cho phép o ủa thực nghiệm (F = 0,073 < Fcrit = 3,239)

7 trang | Chia sẻ: honghp95 | Lượt xem: 417 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Dự đoán hoạt tính kháng ung thư của các dẫn xuất flavone và isoflavone bằng kỹ thuật hồi quy tuyến tính và mạng thần kinh nhân tạo - Bùi Thị Phương Thuý, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

KHOA HỌC CÔNG NGHỆ TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 20 DỰ ĐOÁN HOẠT TÍNH KHÁNG UNG THƢ CỦA CÁC DẪN XUẤT FLAVONE VÀ ISOFLAVONE BẰNG KỸ THUẬT HỒI QUY TUYẾN TÍNH VÀ MẠNG THẦN KINH NHÂN TẠO Bùi Thị Phƣơng Thúy1, Phạm Lê Nhân2, Tán Văn Hậu3 1 Khoa H a Trường Đại học Khoa Học – Đại học Huế 2Khoa H a Trường Đại học Đà Lạt 3 Khoa Công Nghệ Hóa học, Trường Đại học Công Nghiệp Thực Phẩm, TP. Hồ Chí Minh TÓM TẮT Xá nh hoạt tính kháng ung th ủa flavonoid là m t phần không thể tách rời củ d ợc học. Nhiều kĩ thuật thực nghiệm hính xá ợc phát triển ể xá nh hoạt tính kháng ung th Tuy nhi n, kĩ thuật thực nghiệm thì tốn kém nhiều thời gian và kinh tế. Vì vậy, xây dựng mô hình quan hệ c u trúc hoạt tính (QSAR) áng tin ậy ể xá nh hoạt tính kháng ung th ủ fl vonoid trong tr ờng hợp không có dữ liệu thực nghiệm l iều cần thiết[1] Trong ông trình n y, á mô hình QSAR dự oán th nh ông hoạt tính pGI50: c tố tế bào (ức chế sự tăng tr ởng tế o) ợc thành lập b ng cách s dụng kỹ thuật hồi quy tuyến tính kết hợp phân tích thành phần chính (PCA) và mạng thần kinh nhân tạo l p (ANN).Mô hình tuyến tính PCR pGI50 =5.578– 1.217PC1 + 0.402PC2+ 2.864PC3 –2.514PC4 – 9.642PC5R2v i 0.919; R2adj =0,899; R 2 prediction = 0.787.Mô hình phi tuyến ANN: I(17)-HL(44)-O(1) v i R2train = 0.991; R 2 test = 0.945. Mô hình phi tuyến PCA-ANN: I(8)- HL(23)-O(1) R 2 train = 0.990; R 2 test = 0.980. Kết quả dự oán ho pGI50 th y giá tr pGI50 thực nghiệm, pGI50pred từ mô hình PCR, ANN và PCA-ANN không khác nhau, (Fcal= 0.073< F0.05= 3,239). Keywords: Phân tích thành phần chính, mạng thần kinh, flavonoid, hoạt tính kháng ung th PREDICTING THE FLAVONE AND ISOFLAVONE ANTICANCER ACTIVITY BY LINEAR REGRESSION TECHNIQUE AND ARTIFICIAL NEURAL NETWORKS ABSTRACT Anticancer activityinvestigationsof flavonoid are an integral part of the pharmacology. Several accurate experimental techniques have been developed for the purpose of anticancer activity detection. However,experimental techniques are time-consuming and costly.Hence, constructing reliable quantitative structure–activity relationship (QSAR) modelswith the capability of priori predicting the anticancer activity of flavonoid in the absence of experimental data is considerably essential [1].Normally, quantitative structure– activity relationship (QSAR) models have the potential to provide reliable activity estimates based on detailed information of chemicalstructure.In this work, QSAR models have been successful in providing reliable structure-based PGI50 predictions.pGI50 (growth inhibitory activity) were determined by using the principal component linear regression (PCR) technique and artificial neural networks (ANN).The PCR modelestablishedis pGI50 =5.578 - 1.217PC1 + 0.402PC2+ 2.864PC3 –2.514PC4 – 9.642PC5with R 2 =0.919; R 2 adj =0.899; R 2 prediction = 0.787.The ANN modelisI(17)-HL(44)-O(1) withR 2 train = 0.991; R 2 test = 0.945.Additionally, thePCA-ANN model were also constructed with an architecture I(8)-HL(23)-O(1) with R 2 train = 0.990; R 2 test = 0.980. The results showed that values pGI50,pred from PCR, ANN and PCA-ANN models are not different from experimental values pGI50, (Fcal = 0.073 < F0.05 = 3.239). Keywords:Principal component analysis, neural network, flavonoid, anticancer activity. 1. GIỚI THIỆU Hợp ch t có hoạt tính chống oxi hóa là m t trong những hợp ch t quan trọng, ng ợc quan tâm nghiên cứu tác dụng kháng ung th [2,10] Trong , nh m d n xu t flavonoid là nhóm d n xu t có hoạt tính khá o, c tính th p có m t trong nhiều loại thực vật nh nho, ậu nành, ậu xanh, hoàng cầm, r u má, m ề, Đ nhiều nghiên cứu về d ợc tính, hoạt tính kháng oxi hóa của nhóm d n xu t flavononid, các nghiên cứu cho th y nh m d ợc ch t này r t tốt cho n i tiết tố nữ Đ m t số công trình nghiên cứu về tổng hợp, chiết xu t flavonoid hay th khả năng kháng ung th v , ung th ổ t cung,ung th phổi, ung th KHOA HỌC CÔNG NGHỆ TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 21 gan,kháng HIV M t sốcông trình nghiên cứu hoạt tính của các d n xu t flavonoid b ng nhiều ph ơng pháp khác nhau. Trong , á ph ơng pháp h họ l ợng t ợc ứng dụng r ng rãi vào thiết kế và tìm kiếm d ợc liệu. Trong công trình này, chúng tôi nghiên cứu xây dựng mô hình quan hệ c u trúc và hoạt tính (QSAR) kháng ung th ổ t cung pGI50 (logarith nồng ch t gây ức chế 50% sự phát triển của tế o ung th ) của nhóm d n xu t flavone và isoflavoneb ng ph ơng pháp hồi quy thành phần chính [3,4,9], mạng thần kinh nhân tạo và mạng thần kinh nhân tạo kết hợp phân tích thành phần chính [5,7,8].Các thông sô c u tr ( iện tích) của nhóm d n xu t flavone và isoflavone ợc tính toán b ng ph ơng pháp h l ợng t bán thực nghiệm PM3 SCF. 2. PHƢƠNG PHÁP TÍNH TOÁN 2.1. Tính toán thông tin cấu trúc Khung c u trúc d n xu t flavone và isoflavone nghiên cứu ợc mô tả trong Hình 1: a) b) Hình 1.Khung cấu trúc flavonoid: a) flavone và b) isoflavone Dữ liệu thực nghiệm hoạt tính kháng ung th ổ t cung pGI50 và dữ liệu c u trúc 32 flavonoid tham khảo từ tài liệu [10]cho ở Hình 2.Các d n xu t ợ ánh số thứ tự các nguyên t trên khung phân t trong Hình 1.Lựa chọn ng u nhiên trên Excel các d n xu t flavonoid thành tập luyện, tập kiểm tra, tập ngoạitrong Hình 2.Dữ liệu c u tr iện t của các nguyên tố carbon và oxygen ợc tính toán b ng ph ơng pháp h l ợng t PM3 trong Hyperchem [6]. fla-A1 (5.699) fla-A2 (5.921) fla-A3 (5.699) isofla-A4 (5.009) fla-A5 (5.699) isofla-A8 (5.071) (*) Fla-A9 (5.745) Fla-A10 (5.678) O O 1 3 4 11 10 5 6 7 8 9 '2 1 2' 3' 4 ' 5' 6' O O 1 2 3 4 11 10 5 6 7 8 9 1 2 4 5 3 6 ' ' ' ' ' ' KHOA HỌC CÔNG NGHỆ TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 22 Fla-A11 (5.699) (**) Fla-A12 (6.097) Fla-A13 (5.796) Fla-A14 (6.000) Fla-A15 (5.699) (**) isofla-A18 (5.046) (**) isofla-A19 (5.108) Fla-A21 (5.796) Fla-A23 (5.699) (**) Fla-A24 (5.620) Fla-A26 (5.699) (*) Fla-A27 (5.181) Fla-A28 (5.569) (*) isofla-A30 (5.086) isofla-A31 (5.194) (**) isofla-A32 (5.137) Fla-A6 (6.046) Fla-A7 (5.658) Fla-A16 (5.699) Fla-A17 (5.699) isofla-A20 (5.119) Fla-A22 (5.699) (*) FlaA25 (5.638) Fla-A29 (5.602) (*) Hình 2. Cấu trúc và hoạt tính pGI50expcủa 32 dẫn xuất flavone và isoflavone [10] 2.2. Xây dựng mô hình PCR và PCA – ANN Phân tích thành phần chính (PCA) là m t thuật toán s dụng m t chuyển ổi trực giao ể chuyển ổi m t tập hợp các biến t ơng qu n v o m t tập hợp các giá tr của các biến không t ơng qu n ợc gọi là thành phần chủ yếu [9] Ph ơng pháp phân tí h th nh phần hính ợc s dụng ể tính toán á ại l ợng nh qu ng phổ, nồng , các thông số nhiệt ng lực học của các hợp ch t hóa học. Số l ợng các thành phần chủ yếu thông th ờng luôn nhỏ hơn ho c b ng số l ợng của các biến n ầu. B ng ph ơng pháp PCA, á dữ liệu ợc KHOA HỌC CÔNG NGHỆ TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 23 phân tách ra thành sản phẩm của m t ma trận mục tiêu và m t ma trận chiếu v i các c t và các hàng trự gi o, t ơng ứng. q ' i i i 1 A t p TP (1)    Trong : A l m trận mục tiêu; ti và pi’ l giá tr mục tiêu và vector chiếu của m t mục tiêu; q là số l ợng vector chiếu t ơng ứng v i giá tr mục tiêu ti.Dựa trên giá tr biến c lập, biến mục tiêu, m t mụ ti u ợc xây dựng từ dữ liệu của ma trận 3 chiều.Quá trình tính toán dựa trên nguyên tắc tìm cực tr toàn cục trên bề m t thế Điểm cực tiểu trên bề m t thế là giá tr mục tiêu cần xá nh. Trong phân tích thành phần chính có thể s dụng nhiều biến ể thiết lập mô hình QSAR [1].Ở ây, h ng tôis dụng dữ liệu c u tr iện t l iện tích 17 nguyên t O1, C2, C3, C4, C5, C6, C7, C8, C9, C10, O11, C1’, C2’, C3’, C4’, C5’, C6’(Hình 1) và thành phần chính PC1, PC2, PC3, PCn ể thiết lập mô hình QSAR. Mô hình hồi tuyến tính PCR ợc xây dựng từ ma trận thành phần hính v kĩ thuật hồi qui trên hệ thống Regress [3] và MS-EXCEL [4].Mạng thần minh nhân tạo [5,7,8] có m t l p ẩn là m t trong những kiểu mạng phổ dụng vì vậy trong bài báo này chúng tôi xây dựng các mô hình mạng có 3 l p, gồm m t l p input, m t l p ẩn và m t output Để ợc mô hình mạng tối u, số nơron ẩn trong hai mô hình mạng sẽ ợc khảo sát từ 1 ến 50. Giá tr MSE từ 50 mô hình ANN và 50 mô hình PCA-ANN sẽ ợ so sánh ể rút ra mạng tối u nh t ứng v i MSE nhỏ nh t.Mô hình ANNvà PCA – ANN ợc xây dựng từ các ch t trong tập luyện ể dự oán hoạt tính của ch t trong tập kiểm tra.Việc phân tích PCA và xây dựng các mô hình mạng thần kinh ợc thực hiện trên MATLAB.Kết quả từ á mô hình ợc so sánh v i dữ liệu thực nghiệm b ng á phân tí h ph ơng s i (ANOVA) ơn yếu tố. Tính toán giá tr R2 và sai số t ơng ối ARE% phần trăm ng g p trung bình MARE%theo công thức (2), (3) và (4). 8 n 1 N 2 i i 50exp cal2 i 1 N 2 50exp i i 1 1 MARE,% ARE% n ˆ(Y Y ) pGI pGI R 1 100 (2) ARE,% 100 (3) (4) pGI (Y Y)                       V i Y, Y và Yˆ là giá tr thực nghiệm, giá tr trung bình và giá tr tính toán, n là số hợp ch t trong tập kiểm tra. 3. KẾT QUẢ VÀ THẢO LUẬN 3.1Xây dựng mô hình PCR Giá tr score của các thành phần chính rút ra từ phép phân tích PCA cho ma trận iện tí h ợ ánh giá thông qu giá tr ph ơng s i ng g p ủa mỗi thành phần. Mứ ng g p v ph ơng s i tí h lũy ủa 17 thành phần hính ợc biểu diễn trên Hình 3.Đối v i tám thành phần hính ầu tiên từ PC1 ến PC8 ph ơng s i tí h lũy hơn 99.99%, các thành phần còn lại từ PC9 ến PC18 có mứ ng g p nhỏ không áng kể (< 0.005%), do tám thành phần hính ầu tiên sẽ ợc s dụng ể xây dựng mô hình PCR. KHOA HỌC CÔNG NGHỆ TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 24 Hình 3.Hệ số tích lũy, phương sai của các thành phần chính Từ kết quả chọn lựa các thành phần chính, chúng tôi thiết lập ợc mô hình hồi quy tuyến tính thể hiện mối quan hệ giữa PGI50 và các thành phần chính: pGI50 =5.578 - 1.217*PC1 + 0.402*PC2+ 2.864*PC3 – 2.514*PC4 - 9.642*PC5. V i R2 = 0.919; R2adj =0.899; R 2 prediction = 0.787 và giá tr Pvalue< 0.05. Các giá tr PGI50 tính từ mô hình PCR cho tập ngoại và các giá tr thống kê từ mô hình PCR trình bày trên Bảng 1. 3.2 PHÁT TRIỂN MÔ HÌNH ANN VÀ PCA – ANN Từ kết quả quá trình luyện, giá tr MSE cho các mô hình ANN và PCA-ANN ợc biểu diễn tr n hình 4 Đối v i mô hình ANN, kết quả kiến trúc mạng thần kinh I(17)-HL(44)-O(1) ứng v i 17 nơron ầu v o ( iện tích nguyên t từ O1 ến C17 trên khung phân t ), 1 nơron ầu ra pGI50, l p ẩn gồm 44 nơron (số l p ẩn ợc chọn lựa ứng v i sai số MSE nhỏ nh t, Hình 4) tối u nh t. T ơng tự, từ kết quả MSE, số nơron ẩn (23 nơron) ho kiểu mạng PCA-ANN ũng ợc chọn theo giá tr MSE nhỏ nh t (0 00217) Do kiến trúc mạng thần kinh cho mô hình PCA-ANN là I(8)-HL(23)-O(1), trong 8 nơron ầu v o (PC1 ến PC8), 1 nơron ầu ra pGI50. Cả hai mô hình mạng ều s dụng hàm truyền sigmoid, thuật toán lan truyền ng ợc ợ dùng ể luyện mạng, tố học 0.01; moment 0.7, vòng l p 1000. Hình 4.Biến thiên MSE theo số nơron trong lớp ẩn 0 10 20 30 40 50 60 70 80 0 5 10 15 20 p h ơ n g s i Th nh phần hính 70 75 80 85 90 95 100 0 5 10 15 20 H ệ số t í h l ũ y Th nh phần hính 0 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0 10 20 30 40 50 M S E Số nơron ẩn ANN PCA-ANN KHOA HỌC CÔNG NGHỆ TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 25 Hình 5. Giá trị thực nghiệm và giá trị dự đoán từ quá trình luyện của hai mô hình: (a) mô hình ANN-I(17)-HL(44)-O(1), (b) PCA-ANN- I(8)-HL(23)-O(1) Mô hình ANN-I(17)-HL(44)-O(1) có R 2 train = 0.991, R 2 validation = 0.959, R 2 test = 0.945; mô hình PCA-ANN- I(8)-HL(23)-O(1) cho R 2 train = 0.990, R 2 validation = 0.987, R 2 test = 0.980. Kếtquả quá trình luyện củ h i mô hình tr n ợc biểu diễn ở Hình 6. Các giá tr pGI50 tính toán từ mô hình ANN và PCA-ANN ợc trình bày trong Bảng 1. Các kết quả dự oán từ ba mô hình PCR, ANN và PCA-ANN có sự trùng kh p nhau, iều n y ợc chứng minh khi thực hiện phân tí h ph ơng s i m t yếu tố ANOVA (F = 0.068 < Fcrit = 3,885) T ơng tự b ng phép phân tích ANOVA m t yếu tố, các giá tr dự oán hoạt tính kháng ung th ổ t cung nhận ợc từ các mô hình PCR, ANN và PCA-ANN không có sự khác biệt so v i giá tr thực nghiệm, sự s i khá không áng kể, trong vùng sai số cho phép o ủa thực nghiệm (F = 0,073 < Fcrit = 3,239). Bảng 1.Dự đoán pGI50expt từ ba mô hình PCR, ANN và PCA-ANN TẬP KIỂM TRA Hợp ch t pGI50expt PCR ANN PCA-ANN pGI50PCR ARE% pGI50ANN ARE% pGI50PCA ARE% isofla-A8 5.071 5.073 0.039 5.000 1.400 5.003 1.341 fla-A22 5.699 5.709 0.175 5.731 0.562 5.773 1.298 fla-A26 5.699 5.838 2.439 5.618 1.421 5.828 2.264 fla-A28 5.569 5.701 2.370 5.662 1.670 5.673 1.867 fla-A29 5.602 5.696 1.678 5.646 0.785 5.599 0.054 MARE% 1.340 1.168 1.365 Giá tr tuyệt ối của sai số t ơng ối ợ ánh giá ng công thức (4). B ng việ ánh giá giá tr sai số trung bình MAME%, ba mô hình PCR, ANN và PCA-ANN có khả năng dự oán hoạt tính kháng ung th ổ t ung t ơng ơng nh u 4. KẾT LUẬN Xá nh hoạt tính kháng ung th ủ á d n xu t fl vonoid nghĩ qu n trọng trong d ợ họ Mô hình QSAR tuyến tính v phi tuyến ợ thiết lập ng phân tích thành phần hính v tính toán h l ợng t Kết quả dự oán hoạt tính kháng ung th ổ t ung ủ á d n xu t fl vone v isofl vone nhận ợ từ á mô hình PCR, ANN, PCA-ANN và từ 4.9 5.1 5.3 5.5 5.7 5.9 6.1 6.3 4.9 5.1 5.3 5.5 5.7 5.9 6.1 p G I5 0 d ự o án pGI50 thự nghiệm (b) 4.9 5.1 5.3 5.5 5.7 5.9 6.1 6.3 4.9 5.1 5.3 5.5 5.7 5.9 6.1 p G I5 0 d ự o án pGI50 thự nghiệm (a) KHOA HỌC CÔNG NGHỆ TẠP CHÍ KHOA HỌC CÔNG NGHỆ & THỰC PHẨM – SỐ 03/2014 26 thực nghiệm là giống nhau, sự s i khá không áng kể, trong vùng sai số ho ph p o ủa thực nghiệm. TÀI LIỆU THAM KHẢO [1]. Phạm Văn T t (2009), Mô hình QSAR của nhóm 6-aminoquilon: những tác nhân kháng HIV-1, Tạp chí Hóa học và ứng dụng, 15(99), 30-34. [2]. Pham Van Tat (2009), Prediction of thermodynamic properties of similar organic compounds using artificial neural netword, Vietnamese Journal of Chemistry, P. 611-666, No.4A. [3]. D. Steppan, J. Werner, P. R. Yeater (2006), Essemtial Regression and Design for Chemists and Engineers [4]. E. J. Billo., (2007), Excel For Scientists And Engineers-Numerical Methods, Wiley. [5]. J. Devillers (1996), Strengths and Weaknesses of the Backpropagation Neural Network in QSAR and QSPR Studies, in: J. Devillers (Ed.) Neural Networks in QSAR and Drug Design, Academic Press, London, pp.1-46. [6]. HyperChem Release 8.03 (2008), Hypercube, Inc., USA. [7]. K. Hornik (1991), AppSroximation capabilities of multilayer feedforward networks, Neural Networks, 4 251-257. [8]. M. Jalali-Heravi (2009), Neural Networks in Analytical Chemistry, in: D. Livingstone (Ed.) Artificial Neural Networks, Humana Press, pp. 78-118. [9]. S. Wold, P. Geladi, K. Esbensen, et al., (1987) Multi-way principal components-and PLS- analysis, Journal of Chemometrics, (1), 41-56. [10]. T. C. Wang, I. L. Chen, P. J. Lu, C. H. Wong, C. H. Liao, K. C. Tsiao, K. M. Chang, Y. L. Chen, C. C. Tzeng (2005), Synthesis, antiproliferative, and antiplatelet activities of oxime- and methyloxime-containing flavone and isoflavone derivatives, Bioorganic & Medicinal Chemistry, (13), 6045–6053. Phản biện khoa học: PGS.TS. Võ Thị Bạch Huệ Đơn vị công tác: Đại học Y Dƣợc TP.HCM SĐT:0908420240 - Email: vothibachhue@gmail.com

Các file đính kèm theo tài liệu này:

so_3_20_26_1339_2070759.pdf