Phục hồi dữ liệu sóng biển bằng mạng Neuron nhân tạo
This study aims at developing an artificial neural network OceanANN in
MATLAB to recover missing wave data. The program OceanANN was designed friendly to the
user for their convenient and useful interfaces. Based on the Levenberg-Marquardt algorithm,
OceanANN was established with 1 input - layer, 2 hidden - layers and 1 output - layer. Each
hidden layer consisting of 30 neurons was used to learn the nature of data series. For the
application of OceanANN, the wave data recorded offshore of the Tweed Heads (Australia) in
February 1996 was employed. The data set was divided into 3 segments: 70% of the data for
learning, 15% for verification and the rest 15% of the data deliberately removed for
OceanANN to recover. Artificial neural networks are suitable tools for the application on
wave data of high non-linearity and fluctuations. The regression coefficients showing the
relationship between the computed data and recorded data with hourly observations for the
learning process, verification and testing process are always higher than 98%.
9 trang |
Chia sẻ: honghp95 | Lượt xem: 586 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Phục hồi dữ liệu sóng biển bằng mạng Neuron nhân tạo, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
17
Tạp chí Khoa học và Công nghệ biển T10 (2010). Số 1. Tr 17 - 25
PHỤC HỒI DỮ LIỆU SÓNG BIỂN BẰNG MẠNG NEURON NHÂN TẠO
ðẶNG VĂN TỎ
Trường ðại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh
Tóm tắt: Nghiên cứu này xây dựng mạng neuron nhân tạo OceanANN trên nền
MATLAB ñể phục hồi dữ liệu sóng biển. Chương trình OceanANN ñược thiết kế thân thiện
với người sử dụng nhờ các giao diện tiện ích. Dựa trên thuật toán Levenberg-Marquardt,
OceanANN ñược thiết kế với 1 lớp nhập, 2 lớp ẩn và 1 lớp xuất. Tổng cộng 30 neuron cho
từng lớp ẩn ñược sử dụng ñể học bản chất của chuỗi dữ liệu. ðể áp dụng OceanANN, tập số
liệu sóng biển thực ño ngoài khơi ở Tweed Heads (Australia) vào tháng 2 năm 1996 ñã
ñược sử dụng. Tập số liệu này ñược chia thành 3 phần: 70% số liệu dùng ñể học, 15% số
liệu dùng ñể kiểm ñịnh và 15% số liệu còn lại ñược cố ý làm thất thoát ñể phục hồi. Mạng
neuron nhân tạo rất thích hợp ñể sử dụng cho các số liệu sóng biển với ñộ phi tuyến cao và
nhiễu ñộng lớn. Các hệ số tương quan giữa số liệu tính toán và số liệu thực ño có thời
khoảng quan trắc 1 giờ cho các trường hợp huấn luyện mạng, kiểm ñịnh mạng và mô phỏng
mạng ñều có kết quả trên 98%.
I. GIỚI THIỆU
Kết quả tính toán của nhiều mô hình số không phải lúc nào cũng ñáng tin cậy vì các
số liệu thực ño không ñầy ñủ và có ñộ bất ñịnh. Vì thế, các ứng dụng thực tiễn của các mô
hình số gặp nhiều hạn chế. Tuy nhiên, việc có ñược các số liệu thực ño, ñầy ñủ và ñáng tin
cậy không phải lúc nào cũng dễ dàng thực hiện ñược. Các số liệu sóng hay dòng chảy ño
ñạc ngoài khơi thường hay bị thất thoát, thiếu hụt vì nhiều lý do, trong ñó ñiều kiện tự
nhiên thay ñổi ñột ngột (như sóng to, gió lớn) hoặc các nguyên nhân từ con người (như
cắt phao, lấy cắp thiết bị) thường hay xảy ra. Tất cả các bất ñịnh trên thường nằm ngoài
dự kiến của người thực hiện nghiên cứu. Vì vậy, một chuỗi số liệu ño ñạc không phải
không có những chỗ gián ñoạn thay vì liên tục như mong ñợi. Trong khi ñó, các mô hình
số thường yêu cầu các số liệu ñầu vào liên tục nhằm thoả mãn các ñiều kiện biên và ñiều
kiện ban ñầu của mô hình. ðiều này cũng quan trọng trong việc sử dụng số liệu liên tục
thực ño ñể cân chỉnh và kiểm ñịnh kết quả mô hình tính toán. Vì thế, việc phục hồi dữ liệu
thất thoát trong chuỗi số liệu ño ñạc gián ñoạn có ý nghĩa thực tiễn quan trọng.
Bài báo này có mục ñích xây dựng mạng neuron nhân tạo OceanANN trên nền
MATLAB ñể phục hồi dữ liệu sóng biển. Cơ sở lý thuyết của mạng neuron nhân tạo, khu
18
vực nghiên cứu và số liệu chuẩn bị nhằm áp dụng cụ thể thuật toán của bài toán lần lượt
ñược trình bày kế tiếp theo sau.
II. PHƯƠNG PHÁP VÀ TÀI LIỆU
1. Cơ sở lý thuyết mạng neuron nhân tạo (ANN)
Mạng neuron nhân tạo ANN là một mô hình thống kê toán học dựa trên sự mô
phỏng các hoạt ñộng của hệ thần kinh sinh học. ANN không cố gắng ñể mô phỏng các
hoạt ñộng tinh tế của bộ não, nhưng chúng cố gắng tái tạo các hoạt ñộng logic của bộ não
bằng cách tập hợp nhiều dữ liệu ñầu vào có dạng neuron thần kinh ñể thực hiện các quá
trình tính toán hay nhận thức.
Hầu hết các mạng neuron ñều có sơ ñồ chung là neuron và cấu trúc liên kết mạng
(hình 1). Mỗi một neuron bao gồm hai phần: hàm số mạng (net function) và hàm số kích
hoạt (activation function). Hàm số mạng xác ñịnh phương thức liên kết của dữ liệu nhập
{yj ; 1 ≤ j ≤ N} với nhau trong neuron. Trong mô hình neuron này, mối liên kết tuyến tính
có trọng số
N
j j
j
u w y θ= +∑ ñược áp dụng, với wj là trong số {wj ; 1 ≤ j ≤ N} và θ là ñộ
lệch dùng ñể mô phỏng ngưỡng của neuron. Dữ liệu xuất của neuron ñược ký hiệu là ai,
nó liên kết với dữ liệu nhập ui của mạng neuron nhờ hàm kích hoạt (hay phép biến ñổi
tuyến tính hoặc phi tuyến f): ( )a f u= . Nhiều hàm mạng và hàm kích hoạt khác nhau
ñược sử dụng ñể thiết lập cấu trúc mạng neuron khác nhau. Chi tiết có thể tham khảo trong
các tài liệu mạng neuron [1].
Hình 1: Mô hình neuron
1.1. Mạng nhận thức nhiều lớp
Mạng nhận thức nhiều lớp (MLP) là một mạng lan truyền tiến (feed-forward) ñược
xếp thành nhiều lớp. Mỗi một neuron trong mạng MLP có một hàm kích hoạt phi tuyến,
thường là hàm sigmoid hay hàm tanhyerbolic. Cấu hình tiêu biểu của mạng MLP ñược thể
hiện trong hình 2. Trong hình này, các hình tròn mô tả các neuron và chúng ñược sắp xếp
19
theo từng lớp. Mạng neuron này có 3 lớp: lớp nhập (hình ngũ giác), lớp ẩn (hình tròn M và
H) và lớp xuất (hình tròn N). Kết quả của các lớp ẩn thường không nhìn thấy ñược.
Hình 2: Cấu hình mạng neuron có 3 lớp
Một trong những ñiều kiện áp dụng thành công mô hình MLP là chọn ñúng các ma
trận trọng số. Phương pháp phổ biến ñể chọn ñúng các ma trận trọng số là sử dụng phương
pháp tối ưu hoá hay phương pháp huấn luyện lan truyền ngược sai số (error back-
propagation training method). Phương pháp này ñược biết như sau. Nếu gọi bình phương
sai số của mạng:
[ ] [ ] [ ]2 2 2
1 1 1
( ) ( ) ( ) ( ) ( ( ))
K K K
k k k
E e k d k z k d k f k
= = =
= = − = − ⋅∑ ∑ ∑ W x (1)
Trong ñó W là một ma trận trọng số, x là vector dữ liệu nhập, d(k) là dữ liệu huấn
luyện {d(k); 1 ≤ k ≤ K}, z(k) là dữ liệu xuất {z(k); 1 ≤ k ≤ K } và e(k) = d(k) – z(k).
Như vậy, mục tiêu tìm ma trận trọng số tối ưu W sẽ tương ứng với việc cực tiểu hoá
bình phương sai số E. ðiều này dẫn ñến bài toán tối ưu hóa bình phương tối thiểu phi
tuyến. Hiện có khá nhiều phương pháp ñể giải bài toán tối ưu loại này, về cơ bản chúng có
thể ñược thực hiện bởi công thức lặp nhờ các thuật toán tối ưu sau:
( 1) ( ) ( )t t t+ = + ∆W W W . Ở ñây ∆W(t) là ñộ hiệu chỉnh của các trọng số hiện thời W(t).
Các thuật toán khác nhau chủ yếu sẽ khác nhau về dạng của ∆W(t). Nhiều thuật toán như
phương pháp gradient liên hiệp, phương pháp Newton thường hay ñược sử dụng [1].
1.2. Mạng lan truyền ngược (Back Propagation - BP)
Mạng lan truyền ngược tiêu biểu thường sử dụng thuật toán gradient hướng xuống
(gradient descent) giống như phép học Widrow-Hoff. Trong mạng này, các trọng số ñược
thay ñổi hay di chuyển dọc theo giá trị âm của gradient của hàm thực hiện. Thuật ngữ lan
truyền ngược ñược sử dụng vì nó liên quan ñến phương cách tính toán gradient của các
20
mạng neuron nhiều lớp phi tuyến. Hiện nay có khá nhiều biến thể của thuật toán cơ bản
lan truyền ngược ñược xây dựng, chúng hầu hết dựa trên các kỹ thuật cơ bản của tối ưu
hóa như phương pháp gradient liên hợp hoặc phương pháp Newton.
Trong thực tế ñể tiến hành thiết kế hoặc sử dụng các mạng neuron lan truyền ngược
ñể học hay huấn luyện các mạng truyền thẳng nhằm giải một bài toán cụ thể nào ñó, các
bước cơ bản sau ñây thường ñược tiến hành: a) Tập hợp các dữ liệu ñược học hoặc huấn
luyện; b) Xây dựng mạng neuron; c) Huấn luyện mạng; d) Ứng dụng mạng neuron ñể mô
phỏng các dữ liệu mới. Sơ ñồ khối của mạng lan truyển ngược ñược biết như sau (hình 3).
Hình 3: Sơ ñồ khối mạng lan truyền ngược
1.3. Thuật toán lan truyền ngược Levenberg-Marquardt
Một số thuật toán huấn luyện lan truyền ngược như gradient huớng dốc xuống có tốc
ñộ hội tụ chậm. Vì vậy, một trong những thuật toán cải thiện tốc ñộ hội tụ hay tốc ñộ học
của mạng neuron từ 10 cho ñến 100 lần là mạng huấn luyện lan truyền ngược theo thuật
toán Levenberg-Marquardt [2, 3]. Thuật toán Levenberg-Marquardt ñược xây dựng có tốc
ñộ huấn luyện nhanh cấp 2 mà không cần tính ñến ma trận Hessian giống như phương
pháp Newton. Nếu hàm thực thi có dạng tổng các bình phương, lúc ñó ma trận Hessian có
thể ñược xấp xỉ như sau: T= ⋅H J J và T= ⋅G J e , trong ñó J là ma trận Jacobian chứa các
ñạo hàm bậc nhất của các sai số mạng ñối với trọng số W và ñộ lệch b và e vector sai số
của mạng. Ma trận Jacobian có thể ñược tính thông qua kỹ thuật lan truyền ngược chuẩn
khi ấy việc tính toán ñơn giản hơn việc tính toán ma trận Hessian [2].
2. Nguồn số liệu
2.1. Khu vực nghiên cứu
Australia có một mạng lưới phao ño sóng hiện ñại ñược thiết lập dọc theo bờ biển
Queensland. Trong ñó, phao ño sóng ở Tweed Heads thuộc dự án TRESBP do hai bang
New South Wales (NSW) và Queensland (QLD) cùng lắp ñặt ñể sử dụng. Ở Tweed Heads
21
phao ño sóng có tên Waverider ñược ñặt ở ñộ sâu 25 m, có kinh ñộ 28o10.745’ và vĩ ñộ
153o34.597’, cách bờ khoảng 2100 m (hình 4). Số liệu sóng tại Tweed Heads ñược lấy
mẫu với thời khoảng 0.78 sec (tần số 1.28 Hz) và ñược ghi thành từng nhóm (burst) 2048
ñiểm (hay khoảng 26 phút) một lần ghi liên tục. Khoảng thời gian ño giữa hai lần ño là 1
giờ (hay obs quan trắc = 1 giờ). Vì thế số liệu sóng thu thập từ phao ño sóng Waverider
khá tốt. Khi có bão, số liệu sóng ño ñạc sẽ dầy ñặt hơn. Mặc dù vậy, sự liên tục về số liệu
theo yều cầu ñầu vào của mô hình toán, ví dụ 10 phút có một số liệu sóng chẳng hạn, là
không thể có.
Weipa
Townsville
Cairns
Mackay
Hay Point
Emu Park
Mooloolaba
Moreton Bay
Gold Coast
Tweed Heads
Brisbane
QUEENSLAND
Hình 4: Mạng ño ñạc và phao ño sóng tại Tweed Heads (NSW), Australia
2.2. Chuẩn bị số liệu
Trong bài báo này, số liệu sóng thực ño từng giờ tại Tweed Heads vào tháng 02 năm
1996 (hình 5) sẽ ñược sử dụng cho mô hình OceanANN. ðể có thể áp dụng OceanANN
phục hồi dữ liệu thất thoát và kiểm tra tính khả thi của mô hình, tổng số 670 số liệu của
tháng 2 năm 1996 sẽ ñược chia ra thành 470 số liệu (≈ 70% tổng số số liệu) ñược mô hình
OceanANN dùng ñể huấn luyện (train) hay học theo thuật toán có giám sát (supervise),
100 số liệu (≈15% tổng số liệu) sẽ ñược dùng ñể kiểm ñịnh mô hình (verification), 100 số
liệu (≈15% số liệu) sẽ ñược chọn ngẫu nhiên và cố ý làm thất thoát trong chuỗi số liệu
tổng cộng. Sau ñó mô hình OceanANN sẽ ñược sử dụng ñể mô phỏng (test/model) và
phục hồi lại số liệu thất thoát vừa giả ñịnh mất ñi. Số liệu thất thoát ñược mô phỏng bằng
mô hình OceanANN sẽ ñược so sánh với 15% số liệu thực ño ñể ñánh giá khả năng ứng
dụng cũng như ñộ tin cây của mô hình. Tất cả các ñánh giá sẽ dựa trên hệ số tương quan.
22
01/02/96 05/02/96 09/02/96 13/02/96 17/02/96 21/02/96 25/02/96 28/02/96
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
Thôøi gian töøng giôø (h)
Ñ
oä
c
ao
s
où
n
g
b
ie
ån
(
m
)
Soá lieäu soùng bieån thöïc ño töøng giôø taïi Tweed Heads, thaùng 2 naêm 1996
Hình 5: Số liệu sóng thực ño vào tháng 2 năm 1996 tại Tweed Heads (NSW)
III. KẾT QUẢ TÍNH TOÁN
Với các số liệu ñã chuẩn bị, OceanANN sẵn sàng ñược sử dụng và kết quả tính toán
ñược trình bày trong hình 6, hình 7.
Hình 6 trình bày kết quả tính toán tổng hợp của mô hình OceanANN, trong ñó các
ký hiệu hình tam giác có ñỉnh hướng lên trên và hình tam giác có ñỉnh hướng xuống dưới
chỉ số liệu nhập và xuất trong lúc học có giám sát khi mô hình ñang ñược xây dựng. Ký
hiệu hình tam giác có ñỉnh hướng về phía trái và hình tam giác có ñỉnh hướng về phía phải
chỉ số liệu nhập và xuất trong quá trình kiểm ñịnh mô hình. Ký hiệu hình tròn và chữ thập
chỉ số liệu ñược mô phỏng hay số liệu thất thoát ñược phục hồi. Chữ thập ký hiệu số liệu
thất thoát ñược phục hồi và vòng tròn là số liệu ño ñạc tương ứng với số liệu giả thuyết bị
thất thoát ñể so sánh. ðường nét ñứt gãy chỉ khoảng sai số trong các quá trình tính toán.
ðường chấm chấm chỉ ñường cong khớp các số liệu thực ño bằng ña thức bậc 10. ðường
cong liền nét là ñường cong mô phỏng từ OceanANN với 30 nút ẩn nhằm phục hồi các số
liệu thất thoát. Kết quả tính toán cho thấy có sự phù hợp rất tốt của số liệu ñược phục hồi
và số liệu thực ño. Chi tiết mô tả về trạng thái học có giám sát của mô hình OceanANN và
các ñánh giá sai số MSE ñược trình bày trong tài liệu tham khảo [4].
23
100 200 300 400 500 600
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
Phuïc hoài döõ lieäu thaát thoaùt baèng ANN
Ñ
oä
c
ao
s
où
ng
m
oâ
p
ho
ûn
g
va
ø t
hö
ïc
ñ
o
(m
)
Truïc thôøi gian thaùng 2 naêm 1996 (giôø)
Training Targets
Training Outputs
Validation Targets
Validation Outputs
Test Targets (Observation)
Test Outputs (Missing)
Errors
10th degree polynomial
Fit
Hình 6: Kết quả tính tổng hợp trong việc phục hồi dữ liệu sóng biển
Hình 7 mô tả hệ số tương quan của các phép tính trong mô hình. Hình nhỏ góc trái
trên cùng mô tả giá trị thực ño và giá trị tính toán của mạng OceanANN. Hình vẽ này cho
thấy giá trị thực ño và tính toán từ phép học có sự phù hợp khá cao với hệ số tương quan R
= 0.999. ðối với hình nhỏ bên trên góc phải, mạng oceanANN cũng cho kết quả khá tốt. Ở
ñây số liệu thực ño và số liệu tính toán từ mô hình ñể kiểm ñịnh có hệ số tương quan R =
0.985. Hình nhỏ bên dưới góc phải mô tả số liệu ñược mô phỏng và số liệu thực ño. Ở ñây
số liệu mô phỏng ñược giả sử như là số liệu thất thoát trong chuỗi số liệu cần ñược phục
hồi. Kết quả cho thấy số liệu cần ñược phục hồi gần giống với số liệu thực ño với hệ số
tương quan R = 0.998. Như vậy, mạng OceanANN có thể ñược sử dụng ñể phục hồi số
liệu bị thất thoát với ñộ tin cậy cao. Sau cùng là hình nhỏ ở dưới góc phải chỉ số liệu tính
toán và số liệu thực ño bằng mô hình OceanANN cho tất cả ba trường hợp riêng lẻ vừa
diễn giải trên.
Tóm lại, mô hình vừa ñược xây dựng hoàn toàn học ñược bản chất của số liệu với
các hệ số tương quan rất cao (R ~ 0.99). Vì thế nó có thể ñược dùng ñể phục hồi số liệu
thất thoát hoặc có thể dùng ñể dự báo số liệu tương lai khi chưa có số liệu ño ñạc dùng cho
mô hình số.
24
1 2 3 4
1
1.5
2
2.5
3
3.5
4
4.5
Observation
M
od
el
O
u
tp
u
t
Validation: R=0.98465
Data
Fit
Y = T
1 2 3 4
1
1.5
2
2.5
3
3.5
4
Observation
M
od
el
Ou
tp
u
t (M
is
si
n
g)
Missng Data / Test: R=0.98794
Data
Fit
Y = T
1 2 3 4 5
1
1.5
2
2.5
3
3.5
4
4.5
5
Onservation
M
od
el
O
u
tp
u
t
All: R=0.98796
Data
Fit
Y = T
1 2 3 4 5
1
1.5
2
2.5
3
3.5
4
4.5
5
Observation
M
od
el
O
u
tp
u
t
Training: R=0.98876
Y = T
Fit
Data
Hình 7: Kết quả hệ số tương quan của huấn luyện, kiểm ñịnh, mô phỏng và tổng hợp của
mô hình OceanANN
IV. KẾT LUẬN
Nghiên cứu này ñã xây dựng ñược một mạng trí tuệ nhân tạo có tên OceanANN trên
nền MATLAB dùng cho việc xử lý số liệu sóng biển ngoài khơi. Dựa trên mạng lan
truyền ngược với thuật toán Levenberg-Marquardt, OceanANN ñược thiết kế với 1 lớp
nhập, 2 lớp ẩn và 1 lớp xuất. Tổng cộng 30 neuron cho từng lớp ẩn ñược sử dụng ñể học
bản chất của chuỗi dữ liệu.
ðể ứng dụng OceanANN, tập số liệu sóng biển ngoài khơi ở Tweed Heads,
Australia vào tháng 2 năm 1996 ñã ñược thu thập. Tập số liệu này ñược chia thành 3 phần:
70% số liệu dùng ñể học, 15% số liệu dùng ñể kiểm ñịnh và 15% số liệu còn lại ñược cố ý
làm thất thoát ñể phục hồi từ OceanANN.
OceanANN khớp dữ liệu sóng tốt hơn nhiều so với việc khớp dữ liệu bằng ña thức
bậc 10. Các số liệu sóng có ñộ phi tuyến cao và nhiễu ñộng lớn chỉ thích hợp với việc sử
25
dụng các mạng neuron ñể tính toán.
OceanANN ñã ñược sử dụng ñể phục hồi dữ liệu sóng thất thoát tại Australia với kết
quả rất tốt. Với thời khoảng ghi số liệu sóng liên tiếp cách nhau 1 giờ, các hệ số tương
quan giữa số liệu tính toán và số liệu thực ño cho các trường hợp huấn luyện mạng, kiểm
ñịnh mạng và mô phỏng mạng ñều có kết quả trên 98%. Vì thế, OceanANN có thể dùng
ñể phục hồi dữ liệu thất thoát hoặc mô phỏng số liệu trong tương lai với ñộ tin cậy cao.
TÀI LIỆU THAM KHẢO
1. Hu, Y. H. and Hwang, J. N., 2002. Handbook of neural network signal processing:
CRC Press.
2. Hagan, M. T. and Menhaj, M., 1999. Training feed-forward networks with the
Marquardt algorithm, IEEE Transactions on Neural Networks, Vol. 5, pp. 989-993.
3. MathWorks, 2008. Neural Network Toolbox for Matlab, www.mathworks.com.
4. ðặng Văn Tỏ, 2009. Phục hồi dữ liệu thất thoát bằng phương pháp mạng neuron,
ðề tài nghiên cứu cấp trường, ðại học Khoa học Tự nhiên Tp. HCM.
RECOVERY OF WAVE DATA USING AN ARTIFICIAL NEURAL NETWORK
DANG VAN TO
Summary: This study aims at developing an artificial neural network OceanANN in
MATLAB to recover missing wave data. The program OceanANN was designed friendly to the
user for their convenient and useful interfaces. Based on the Levenberg-Marquardt algorithm,
OceanANN was established with 1 input - layer, 2 hidden - layers and 1 output - layer. Each
hidden layer consisting of 30 neurons was used to learn the nature of data series. For the
application of OceanANN, the wave data recorded offshore of the Tweed Heads (Australia) in
February 1996 was employed. The data set was divided into 3 segments: 70% of the data for
learning, 15% for verification and the rest 15% of the data deliberately removed for
OceanANN to recover. Artificial neural networks are suitable tools for the application on
wave data of high non-linearity and fluctuations. The regression coefficients showing the
relationship between the computed data and recorded data with hourly observations for the
learning process, verification and testing process are always higher than 98%.
Ngày nhận bài: 21 - 10 - 2009
Người nhận xét: TS. Lê ðình Mầu
Các file đính kèm theo tài liệu này:
- 903_6129_1_pb_1187_2079519.pdf