In urban area, most of water supply pipes are located under roads or pavements. Therefore when
the pipe failures occur, a significant amount of water lost. At the same time, contaminants from
outside are likely to enter the pipes, causing widespread water pollution in the water supply
network, making possible risks of massive contamination for water consumers. In order to minimize
water loss and to ensure water consumers’ health, it is necessary to identify the probability of pipe
failures in the water supply network, so that pipes maintenance and replacement planning is
enabled to make in time. This paper analyzes quantifiably the factors causing pipe failures in the
water supply network and proposes the use of decision tree model to estimate the probability of pipe
failures. The proposed model is validated in an actual statistics and evaluated by AUC indicator.
7 trang |
Chia sẻ: honghp95 | Lượt xem: 518 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Đề xuất mô hình dự báo ống vỡ trên mạng lưới cấp nước - Phạm Thị Minh Lành, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
KHOA HC K THUT THuhoahoiY LI uhoahoiuhoahoiuhoahoi VÀ MÔI TRuchoaNG - S 60 (3/2018) 3
BÀI BÁO KHOA H
C
ĐỀ XUẤT MÔ HÌNH DỰ BÁO ỐNG VỠ TRÊN MẠNG LƯỚI CẤP NƯỚC
Phạm Thị Minh Lành1,3, Vũ Thị Vân Anh2, Phạm Hà Hải3
Tóm tắt: Đa số các đường ống cấp nước trong đô thị đều được đặt dưới mặt đường hoặc vỉa hè
nên khi xảy ra vỡ một lượng nước đáng kể di chuyển ra khỏi đường ống mà không được phát hiện
kịp thời. Đồng thời, khi có điểm vỡ trên đường ống các chất ô nhiễm tồn tại bên ngoài đường ống
có điều kiện đi vào bên trong ống dễ hơn làm tăng nguy cơ nhiễm độc hàng loạt cho những người
tiêu thụ nước. Để giảm thiểu chi phí do thất thoát nước đồng thời đảm bảo an toàn cho sức khỏe
của người sử dụng nước, cần xác định được khả năng ống vỡ trên mạng lưới cấp nước từ đó có kế
hoạch bảo dưỡng và thay thế kịp thời. Trong bài báo này sẽ phân tích định lượng các yếu tố liên
quan đến sự kiện ống vỡ và đề xuất sử dụng mô hình cây quyết định ước lượng khả năng vỡ ống từ
các yếu tố liên quan này. Mô hình đề xuất sẽ được kiểm chứng cho số liệu thống kê thực tế và đánh
giá chất lượng bằng chỉ số AUC.
Từ khóa: mạng lưới cấp nước; thất thoát nước; ống cấp nước vỡ; chỉ số AUC; mô hình cây quyết
định; phần mềm R.
1. ĐẶT VẤN ĐỀ1
Các sự cố vỡ ống đặc biệt là các tuyến ống
dịch vụ thường xuyên xảy ra trên mạng lưới cấp
nước (MLCN), nguyên nhân có thể do động đất
thiên tai, các hoạt động thi công ở khu vực đặt
ống, khả năng chịu tải của mặt đường phía trên
ống dẫn nước thấp hơn tải trọng xe chạy. Mặc
dù đã có những cải tiến để tăng khả năng chịu
lực của vật liệu và các biện pháp bảo vệ nhưng
vẫn không tránh khỏi hư hỏng trong những
trường hợp này. Bên cạnh những sai sót trên sản
phẩm cũng như quy trình thi công thì nguyên
nhân dẫn đến vỡ ống chủ yếu là do ăn mòn
(Sheikh, Boah and Hansen, 1990) hoặc lực tác
động từ môi trường trong và ngoài (Gómez-
Martínez et al., 2017), một số đoạn ống thường
xuyên xảy ra vỡ thì cần xem xét cả hai nguyên
nhân này. Đôi khi chi phí để sửa chữa đoạn ống
nhiều lần sẽ cao hơn so với việc lắp đặt ống mới
(Pelliccia, 1981). Bên cạnh đó hoạt động sửa
chữa cũng làm ảnh hưởng đáng kể đến chất
lượng phục vụ của hệ thống và khả năng làm
1Khoa Kỹ thuật Xây dựng, ĐH Bách Khoa Tp. Hồ Chí Minh
2Khoa Khí tượng Thủy văn, ĐH Tài Nguyên và Môi Trường
3Khoa Kỹ thuật Đô thị, ĐH Kiến Trúc Tp. Hồ Chí Minh
gián đoạn giao thông của khu vực đặt ống. Bỏ
qua đặc điểm hình học của điểm vỡ, những sự
cố bất thường làm vỡ ống, tác giả xác định các
yếu tố liên quan tới sự kiện ống vỡ từ đó đề xuất
mô hình dự báo khả năng ống vỡ trên mạng lưới
cấp nước.
Hình 1. Các yếu tố dẫn đến hiện tượng ống vỡ
trên MLCN
Trong Hình 1 trình bày các nguyên nhân dẫn
đến ống cấp nước bị vỡ là ăn mòn, tải trọng, đặc
điểm vật lý và lịch sử vỡ ống. Đánh giá mức độ
ảnh hưởng của các yếu tố này tới hiện tượng vỡ
ống bằng phương pháp thống kê các tác giả
thường sử dụng mô hình số mũ, hồi quy tuyến
tính, mô hình Bayesian, Poisson. Mỗi mô hình
KHOA HC K THUT THuhoahoiY LI VÀ MÔI TRuchoaNG uhoahoiuhoahoiuhoahoi - S 60 (3/2018) 4
có một ưu điểm riêng và phù hợp với số liệu
khảo sát.
Nhận định ban đầu cho rằng khả năng ống vỡ
phụ thuộc vào thời gian làm việc, tác giả Bubbis
(Bubbis, 1948) đã đưa ra mô hình số mũ để mô
tả hiện tượng vỡ ống và mô hình này tiếp tục
được phát triển bởi Ossman năm 2011
(Bainbridge, 2011), từ lịch sử vỡ ống để ước
lượng khả năng vỡ trong tương lai. Tuy nhiên,
dữ liệu khảo sát chưa đề cập tới các yếu tố liên
quan như môi trường làm việc của ống, điều
kiện áp suất, môi trường trong và ngoài ống.
Một số nghiên cứu tiếp cận theo phương pháp
mạng trí tuệ nhân tạo-Artificial Neural Network
ANN để xác định hiệu suất làm việc của hệ
thống cũng như tỉ lệ vỡ ống trong thời gian làm
việc (Al-barqawi and Zayed, 2008). Một trong
những nhược điểm của mô hình ANN là thời
gian chạy mô hình lớn và chi phí cho khảo sát
số liệu đầu vào khá cao, vậy nên mô hình mới
chỉ đáp ứng cho nghiên cứu học thuật.
Hình 2. Nội dung nghiên cứu ước lượng khả
năng ống vỡ trên MLCN
Các mô hình hồi quy tuyến tính của tác giả
Andreou (1987) đánh giá đạt kết quả chính xác
đến 70% (Wengström, 1993), đồng thời tác giả
cũng nhận định ống vỡ phụ thuộc vào đường
kính, vị trí đặt ống, nguyên nhân gây vỡ và
không phụ thuộc vào độ tuổi. Sau khi so sánh
hiệu quả các mô hình hồi quy tuyến tính, hồi
quy logistic tổng quát, Poisson, số mũ, tác giả
Yamijala(2007) đề xuất mô hình số mũ thời
gian và Poisson là mô hình dự báo chính xác
nguy cơ vỡ, đặc biệt là đếm được số lần không
vỡ. Hồi quy Bayesian là mô hình mới được áp
dụng trong các nghiên cứu gần đây, với những
ưu điểm của mô hình đã giúp bài toán có kết
quả chính xác hơn các phương pháp trước.
Phát triển các kết quả nghiên cứu trước đây
và dự báo ống vỡ trong điều kiện Việt Nam,
nghiên cứu thực hiện theo trình tự như Hình 2.
Các số liệu thống kê đầu vào trong mô hình
được thu thập từ công ty cấp nước. Từ kết quả
phân tích và xử lý số liệu thống kê nghiên cứu
đề xuất sử dụng mô hình cây quyết định (DT) để
dự báo khả năng ống vỡ.
2. DỮ LIỆU VÀ PHƯƠNG PHÁP
NGHIÊN CỨU
2.1. Các yếu tố liên quan tới sự kiện vỡ ống
Trong quá trình hoạt động, đường ống chịu
tác động của ăn mòn cũng như tác động của tải
trọng đất xung quanh ống và trọng lượng nước
mà ống truyền tải. Đại lượng đặc trưng cho tỉ lệ
ăn mòn được nghiên cứu lựa chọn là độ tuổi ống
(A), cho tải trọng nước là áp suất làm việc trung
bình của ống (P), vị trí tuyến đường đặt ống
(R). Đại lượng thứ ba để xác định khả năng ống
vỡ là đặc trưng vật lí của đường ống bao gồm
đường kính (D), chiều dài (L) và vật liệu (Mat).
Các nghiên cứu trước đây tập trung chủ yếu vào
vật liệu ống gang và thép nói chung, trong
nghiên cứu này đề xuất xem xét cụ thể các vật
liệu thép trắng (SS), thép đen (ST), gang dẻo
(DI), gang xám (CI), nhựa Poly Vinyl Clorua
(PVC), nhựa Poly Etilen cao phân tử (HDPE) và
xi măng amiăng (AC).. Ngoài ra các đại lượng
đặc trưng cho đặc điểm hình học của mạng lưới
là vị trí tuyến đường đặt ống (R), số đoạn ống
kết nối trên một tuyến ống (N0), tổng chiều dài
ống trong một tiểu vùng cấp nước-District
Metered Area (DMA) và số lần vỡ trước đây
(Prior) cũng được khảo sát để đưa vào mô hình
thống kê.
2.2. Giới thiệu phần mềm R và lý thuyết
mô hình cây quyết định (DT)
Được phát triển từ năm 1996 bởi hai tác giả
Ross Ihaka và Robert Gentleman, phần mềm R
có mã nguồn mở sử dụng cho thống kê và biểu
diễn biểu đồ. Phần mềm có thể đọc dữ liệu trực
tiếp hoặc từ Excel (.csv); SAS; SPSS; Stata;
text;.và linh hoạt trong quá trình xử lý số liệu
thống kê bằng cách phân loại thành các nhóm,
thay thế biến từ kí tự sang số. Với các ưu điểm
trên, nghiên cứu lựa chọn ngôn ngữ R để xây
KHOA HC K THUT THuhoahoiY LI uhoahoiuhoahoiuhoahoi VÀ MÔI TRuchoaNG - S 60 (3/2018) 5
dựng mô hình cây quyết định, từ đó ước lượng
khả năng ống vỡ và áp dụng cho dữ liệu khảo
sát. Mô hình cây quyết định phát triển từ những
năm 80 bởi các tác giả Breiman, Freidman,
Oshem, Stone (Leo Breiman; Jerome
H.Freidman; Richard A.Olshen; Charles
J.Stone, 1984). Mô hình có khả năng xử lý dữ
liệu lớn trong thời gian ngắn bằng cách phân
loại dữ liệu thống kê thành các lớp từ đó xây
dựng nên mô hình cây quyết định- DT. Ưu điểm
của DT là có thể loại bỏ các giá trị ngoại vi ra
khỏi hệ thống, mỗi giá trị này bị cô lập tại các
nút riêng lẻ. Mô hình DT được gọi là mô hình
phi tham số nên khi sử dụng không có những
ràng buộc giữa các biến số và với cả những dữ
liệu có giá trị rỗng. Theo tài liệu (Witten, Frank
and Hall, 2011) thiết lập mô hình DT qua các
bước: xác định nút, xây dựng và lựa chọn DT
tối ưu.
2.2.1. Xác định nút trên cây quyết định
Nút là vị trí phân chia cây quyết định thành
một phân lớp mới, phương pháp phân chia có
thể áp dụng cho những tập dữ liệu khác nhau.
Mỗi nút được xác định dựa trên giá trị nguy cơ
thuộc về nút đó nhỏ nhất, nếu P(Aj) là xác suất
dự báo nút A thì giá trị nguy cơ nhỏ nhất R(Aj)
khi đó cây quyết định T với j nút A sẽ có giá trị
nguy cơ R(T) là:
1
( ) ( ) ( )k j jjR T P A R A==∑ (1)
2.2.2. Xây dựng cây quyết định
Để xây dựng cây quyết định cần phải tạo ra
các nút và phân chia thành lớp (nsplit). Phương
pháp phân chia đã trình bày ở trên nhưng phân
chia dữ liệu để cây quyết định đạt giá trị chính
xác và ra kết quả nhanh thì cần tiêu chuẩn để so
sánh. Nếu nút A chia là hai nút AL và AR với
P(A) là xác suất dự báo tại nút A và r(A) là
nguy cơ tại nút A thì:
P(AL).r(AL)+P(AR).r(AR)≤P(A).r(A) (2)
Giá trị tạo ra nhánh mới là ∆r lớn nhất để
giảm nguy cơ gây ra ống vỡ. Bài toán sẽ hội tụ
nhanh hơn khi đa dạng hóa nút A bằng cách sử
dụng hàm f – hàm hỗn hợp:
1
( ) ( )
C
iA
i
I A f p
=
=∑ (3)
Trong đó piA là phần trăm trong nút A thuộc
về nút i của mẫu tương lai. Nếu C1, C2 là một
phần của lớp C trong 2 nút mới tạo ra thì đồ thị
hàm f là đường cong có đáy:
1 2
1 2
( ) min[ ( ) ( )]C CC CI A f p f p= + (4)
2.2.3. Lựa chọn cây quyết định
Một cây quyết định hoàn chỉnh bao gồm
nhiều nhánh và số lượng nút khá lớn nên cần
loại bỏ một phần các biến không quan trọng
trong quá trình ra quyết định để có một kết quả
tối ưu. Để cắt gọn cây quyết định cần tối thiểu
hàm nguy cơ của nút:
1
( ) ( ). ( )k i iiT R T P T R T== =∑ (5)
Sử dụng thuật toán tối thiểu hàm T cho toàn
bộ các nhánh có giá trị nguy cơ nhỏ nhất sẽ xác
định được cây quyết định tối ưu cho mô hình.
2.2.4. Áp dụng mô hình cây quyết định cho
dự báo
Trong cây quyết định tối ưu, tập hợp các số
liệu thống kê thuộc nút A sẽ có xác suất dự báo
là P(AL) và P(AR) trong công thức (2) là giá trị
dự báo khả năng ống không vỡ và ống vỡ trên
mạng lưới cấp nước.
2.3. Kiểm chứng mô hình DT
Đường ống cấp nước quận Hải Châu có độ
tuổi lớn nhất (hơn 36 tuổi) trong MLCN của
thành phố Đà Nẵng, số lượng ống dẫn đa dạng,
hồ sơ ống vỡ lưu trữ đầy đủ, nên tác giả lựa
chọn làm khu vực nghiên cứu. Mục tiêu thu thập
dữ liệu là xác định xác suất ống vỡ trên mạng
lưới cấp nước nên tác giả tiến hành thu thập dữ
liệu từ hồ sơ quản lí của công ty và tham vấn
các nhân viên phụ trách kĩ thuật cũng như công
nhân vận hành, sửa chữa hệ thống để hiểu rõ
hơn về số liệu khảo sát cũng như các yếu tố liên
quan tới sự kiện ống vỡ trong quá trình làm
việc. Các thông tin trong hồ sơ sửa chữa ống vỡ
của công ty bao gồm vị trí vỡ ống, đường kính
(D), vật liệu (Mat) và nguyên nhân vỡ, hồ sơ ghi
nhận tất cả các trường hợp sửa chữa trên mạng
lưới từ hỏng van, thay đồng hồ cho đến các tác
động từ bên ngoài gây ra vỡ ống và số lượng
ống vỡ trên đường ống dịch vụ là lớn nhất mà
nguyên nhân xảy ra hiện tượng này chủ yếu là
do khách hàng sửa chữa thi công nên các số liệu
KHOA HC K THUT THuhoahoiY LI VÀ MÔI TRuchoaNG uhoahoiuhoahoiuhoahoi - S 60 (3/2018) 6
ống vỡ được chọn lọc trên các ống đường kính
lớn hơn 100mm và nguyên nhân vỡ do bản thân
vật liệu ống.
Hồ sơ sửa chữa ống vỡ chưa cung cấp các
thuộc tính liên quan tới đường ống như chiều
dài tuyến ống (L), khu vực đặt ống (DMA), năm
cài đặt cũng như giá trị áp lực làm việc trung
bình (P) của từng đoạn ống. Bên cạnh đó, mô
hình đề xuất dùng để ước lượng khả năng vỡ
cho tất cả các đoạn ống trên hệ thống phân phối
nước bao gồm cả những đoạn ống đã vỡ và
những đoạn ống chưa vỡ, thậm chí cả những
ống mới được lắp đặt, vậy nên số liệu thống kê
không chỉ thu thập từ hồ sơ ống vỡ trên mạng
lưới mà còn cần các thông tin liên quan tới các
đoạn ống chưa vỡ. Các thông tin này được lấy
từ hệ thống GIS do phòng kỹ thuật của công ty
cung cấp đồng thời các dữ liệu GIS sẽ được sử
dụng để kiểm chứng lại một lần nữa các thông
tin lấy được trong hồ sơ sửa chữa ống vỡ ở trên.
Số liệu thu thập được tổng hợp bằng bảng tính
Excel và xử lý các dữ liệu thiếu bằng khảo sát
thực địa, phỏng vấn nhân viên công ty cũng như
phân tích các hồ sơ thiết kế, dữ liệu hình ảnh
Google Earth và hệ thống GIS.
Bảng 1 tổng hợp dữ liệu khảo sát của 9 yếu
tố ảnh hưởng tới sự kiện vỡ F của quận Hải
Châu với 1979 hàng x10 cột. Dữ liệu này được
chia thành hai phần, 70% để huấn luyện, 30%
còn lại được sử dụng để kiểm tra và đưa vào mô
hình DT bằng phần mềm R với hàm rpart.
Tổng chiều dài MLCN quận HC là 158,43
km ống với các loại vật liệu và tỉ lệ như Hình 3.
Thống kê số lần vỡ có xu thế tăng theo chiều dài
ống, trong đó ống PVC có chiều dài lớn nhất là
80,6 km với số lần vỡ trong 6 năm khảo sát là
63 lần.Vật liệu AC có số lần vỡ ít nhất là 1 lần,
vật liệu DI có tỉ lệ vỡ lớn hơn, kết quả này cũng
phù hợp với kết quả các nghiên cứu trước đây
(Kabir, Tesfamariam and Sadiq, 2016)
50.9%
16.9%
6.5%
17.8%
6.5%
0.9%
0
10
20
30
40
50
60
70
uPVC HDPE CI DI ST ACMat
Nb
2015 2014
2013 2012
2011 2010
%L (km)
Hình 3. Số liệu ống vỡ trên MLCN quận HC
Bảng 1. Dữ liệu mẫu sử dụng cho mô hình DT
F A N0 Mat D P L R La Prior
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
0 16,07 8 PVC 100 8,9 0,002 1299 31,85 No
0 10,38 19 PVC 100 8,9 0,001 1374 31,85 No
. . . . . . . .
1 2,32 4 PVC 150 17,96 0,161 1317 31,85 1st
1 16,84 15 PVC 300 11,83 0,137 1140 22,94 1st
3. KẾT QUẢ VÀ THẢO LUẬN
3.1 Kết quả
Bảng 2 biểu diễn kết quả mô hình DT trong
phần mềm R, chỉ số ống vỡ ban đầu Root
node error:60/1385 cho biết tổng số dữ
liệu ống vỡ trên mô hình là 60 trên tổng 1385
ống, các đại lượng CP (tham số hỗn hợp),
nsplit (số lớp được phân chia), rel error
(chỉ số tương đối của số lượng ống vỡ trên
tổng), xerror (chỉ số thống kê ống vỡ), xstd
(độ lệch chuẩn) là các giá trị thể hiện quá trình
cắt gọn DT.
Kết quả phân tích dữ liệu MLCN quận Hải
Châu bằng mô hình DT cho thấy dự báo sự kiện
KHOA HC K THUT THuhoahoiY LI uhoahoiuhoahoiuhoahoi VÀ MÔI TRuchoaNG - S 60 (3/2018) 7
ống vỡ có 4 biến tham gia chính bao gồm độ
tuổi (A), chiều dài ống dẫn (L), áp lực làm việc
trung bình của từng đoạn ống (P) và lịch sử vỡ
(Prior). Mô hình DT ban đầu xây dựng với đầy
đủ các số liệu trong tập thống kê, sau đó bằng
phương pháp chi phí tối thiểu, DT được giản
lược các biến không quan trọng và đưa ra cây
tối ưu như Hình 4. Giải thích ý nghĩa của Hình 4
bằng Bảng 3 cho thấy phân lớp 1 là tập hợp dữ
liệu đưa vào với 1 nút có 1325 hàng dữ liệu ống
không vỡ và 60 hàng dữ liệu ống vỡ. Phân lớp 2
chia làm hai nút bằng tiêu chí lịch sử bể ống
(Prior), nút 3 chứa 1% ống vỡ có lịch sử vỡ ống ≥1.
Bảng 2. Kết quả mô hình DT quận Hải Châu
Variables actually used in tree
construction:
[1] A L P Prior
Root node error: 60/1385 = 0.043321
n= 1385
CP nsplit rel error xerror
xstd
1 0.200000 0 1.00000 1.00000
0.12627
2 0.116667 1 0.80000 0.85000
0.11681
3 0.046667 2 0.68333 0.85000
0.11681
4 0.010000 9 0.33333 0.73333
0.10878
Hình 4. Mô hình cây quyết định tối ưu cho MLCN quận Hải Châu
Bảng 3. Giải thích mô hình cây quyết định
Phân lớp 1:
1325/60
Nút 1 có 1325(F=0) + 60(F=1) = 1385(F) dòng dữ liệu trong đó:
1325 số liệu khảo sát có F=0; 60 hàng có F=1
Phân lớp 2:
1325/48
0/12
Nút 2 có 1325(F=0) + 48(F=1)thỏa mãn Prior<1
Nút 3 có 0(F =0)+12(F=1) có giá trị Prior >1.
Phân lớp 3:
1325/41
0/7
Nút 4 có 1325(F =0)+41(F=1) thỏa mãn P<17,63& Prior<1
Nút 5 có 0 (F =0)+ 7(F=1) thỏa mãn P≥17,63&Prior<1
So sánh với áp lực P<17,63 để đưa vào phân lớp 3 thì 100% (F=0) trong tập số liệu ống
Phân lớp 1
Phân lớp 3
Phân lớp 2
Nút 1
Nút 2
Nút 3
Nút 4
Nút 5
Nút 7
Nút 6
Nút 1
Nút 2
Nút 3
Nút 4
Nút 5 Nút 6
Nút 7
Phân lớp 4
KHOA HC K THUT THuhoahoiY LI VÀ MÔI TRuchoaNG uhoahoiuhoahoiuhoahoi - S 60 (3/2018) 8
không vỡ thỏa mãn điều kiện được đưa vào nút
4. Tương tự cho các phân lớp tiếp theo, số ống
không vỡ (F=0) ban đầu sẽ được chia nhỏ vào
các nút đến phân lớp cuối cùng. Giá trị % trong
mỗi nút cho biết số lượng biến trong tập không
vỡ và vỡ thỏa mãn điều kiện phân chia nút.
Các ô vuông màu xanh trong Hình 4 thể hiện
các nút A trong cây quyết định tối ưu, mỗi nút
có ba hàng thông tin. Hàng thứ 1 là tiêu chuẩn
phân chia nút ống vỡ (1) hay không vỡ (0);
Hàng thứ 3 là % số liệu trong nút; Hàng thứ 2 là
giá trị dự báo khả năng ống không vỡ hay vỡ
theo tiêu chuẩn phân chia ở hàng thứ 1 ví dụ nút
1 có tiêu chuẩn phân chia là 0-ống không vỡ thì
P(AL)=96% nghĩa là 96% số liệu ống không vỡ
nhưng nút 3 hàng thứ nhất là 1 thì P(AL)=0%
nghĩa là tập hợp số liệu trong nút có 0% khả
năng ống vỡ. Các giá trị phân lớp trong cây DT
này được áp dụng cho 30% số liệu còn lại,
nghiên cứu sử dụng lệnh predict trong R lấy
kết quả dự báo khả năng ống vỡ từ đó phân tích,
so sánh với dữ liệu thực tế để kiểm chứng độ
chính xác của mô hình đề xuất.
3.2 Thảo luận kết quả
Những ống được mô hình dự báo có khả
năng vỡ lớn hớn hoặc bằng 95% được cho là vỡ
ống có xảy ra ngoài thực tế như vậy kết quả mô
hình dự báo là đúng. Bảng 4 đưa ra so sánh giữa
kết quả mô hình DT và thực tế.
Kết quả cho thấy 13 ống vỡ ngoài thực tế
nhưng mô hình DT lại dự báo không vỡ vậy sai
số giữa dự báo và thực tế là 2,2%. Để đánh giá
chất lượng của mô hình dự báo cần xem xét hai
tiêu chí đường cong ROC và chỉ số AUC.
Đường cong ROC là đường cong thể hiện độ
nhạy (sensitivity) và độ đặc hiệu (specificity)
của kết quả dự báo, một dự báo tốt khi diện tích
dưới đường cong AUC là lớn nhất. Theo tài liệu
(Sarah Boslaugh; and Louise-Anne McNutt,
2008) chỉ số AUC được đánh giá theo giới hạn
từ 0,5-1 như Bảng 5. Sử dụng lệnh roc trong
phần mềm R, kết quả như Hình 5 cho thấy mô
hình cây quyết định đạt tiêu chuẩn AUC = 0,890
nằm trong giới hạn rất tốt.
Bảng 4. So sánh kết quả
Tiêu chí Thực tế Mô hình Sai số
F=0 560 560 0
F=1 34 21 13
Tổng 594 581 2,2%
Hình 5. Đường cong ROC cho MLCN HC
Bảng 5. Diện tích dưới đường cong (AUC)
để đánh giá hiệu suất của mô hình
AUC Ý nghĩa diễn giải AUC.HC
>0,9 Rất tốt
0,8-0,9 Tốt 0,890
0,7-0,8 Trung bình
0,6-0,7 Không tốt
0,5-0,6 Kết quả không sử dụng được
4. KẾT LUẬN
Mô hình cây quyết định là mô hình phi tham
số và tìm kiếm kết quả tốt nhất trên các tập hợp
biến độc lập nên thời gian chạy nhanh, phân lớp
rõ ràng. Kết hợp giữa phương pháp tối thiểu
nguy cơ và tối đa giá trị phân lớp, các nút không
quan trọng đã được loại bỏ để đưa ra DT tốt
nhất cho dữ liệu thống kê. Từ số liệu mạng lưới
cấp nước quận Hải Châu đã kiểm chứng chất
lượng của mô hình DT và cho chỉ số AUC của
mô hình nằm trong giới hạn tốt.
KHOA HC K THUT THuhoahoiY LI VÀ MÔI TRuchoaNG uhoahoiuhoahoiuhoahoi - S 60 (3/2018) 9
TÀI LIỆU THAM KHẢO
Al-barqawi, H. and Zayed, T. (2008) ‘Infrastructure Management: Integrated AHP / ANN Model to
Evaluate Municipal Water Mains ’ Performance’, (December), pp. 305–318.
Bainbridge, H. O. and K. (2011) ‘Comparison of Statistical Deterioration Models for Water
Distribution Networks’, Journal of Performance of Constructed Facilities, 25(May), pp. 259–266.
doi: 10.1061/(ASCE)CF.1943-5509.
Bubbis, N. S. (1948) ‘Maintenance and Operating Problems of Winnipeg’, Journal American Water
Works Association, 41(5), pp. 429–436.
Gómez-Martínez, P., Cubillo, F., Martín-Carrasco, F. and Garrote, L. (2017) ‘Statistical
Dependence of Pipe Breaks on Explanatory Variables’, Water, 9(3), p. 158. doi:
10.3390/w9030158.
Kabir, G., Tesfamariam, S. and Sadiq, R. (2016) ‘Bayesian Model Averaging for the Prediction of
Water Main Failure for Small to Large Candian Municialities’, Canadian Journal of Civil
Engineering, 43(3), pp. 233–240. doi: 10.1139/cjce-2015-0374.
Leo Breiman; Jerome H.Freidman; Richard A.Olshen;Charles J.Stone (1984) Classification and
regression trees. Chapman&Hall/CRC.
Pelliccia, T. M. W. A. (1981) Water main repair/replacement for Binghamton,N. Y.
Vicksburg,Miss.39180.
Sarah Boslaugh; and Louise-Anne McNutt (2008) Encyclopedia of Epidemiology. SAGE. Edited
by M. Birdsall, Diana E. Axelsen, and Lisa Cuevas Shaw. California: Rolf A. Janke.
Sheikh, A. K., Boah, J. K. and Hansen, D. A. (1990) ‘Statistical modeling of pitting corrosion and
pipeline reliability’, Corrosion, pp. 190–197. doi: 10.5006/1.3585090.
Wengström, T. (1993) ‘Comparative analysis of Pipe Break Rates’, Chalmers University of
Technology.
Witten, I. H., Frank, E. and Hall, M. a (2011) Data Mining: Practical Machine Learning Tools and
Techniques (Google eBook), Complementary literature None. doi: 0120884070, 9780120884070.
Yamijala, S. (2007) Statisticcal estimation of water distribution system pipe break risk. Texas A&M
University.
Abstract:
PROPOSING A MODEL FOR PIPE FAILURE ESTIMATION
IN WATER SUPPLY NETWORK
In urban area, most of water supply pipes are located under roads or pavements. Therefore when
the pipe failures occur, a significant amount of water lost. At the same time, contaminants from
outside are likely to enter the pipes, causing widespread water pollution in the water supply
network, making possible risks of massive contamination for water consumers. In order to minimize
water loss and to ensure water consumers’ health, it is necessary to identify the probability of pipe
failures in the water supply network, so that pipes maintenance and replacement planning is
enabled to make in time. This paper analyzes quantifiably the factors causing pipe failures in the
water supply network and proposes the use of decision tree model to estimate the probability of pipe
failures. The proposed model is validated in an actual statistics and evaluated by AUC indicator.
Keywords: Water supply network; Pipe ruptures; AUC indicator; Decision tree model; R software
Ngày nhận bài: 09/10/2017
Ngày chấp nhận đăng: 08/1/2018
Các file đính kèm theo tài liệu này:
- de_xuat_mo_hinh_du_bao_ong_vo_tren_mang_luoi_cap_nuoc_8093_2072298.pdf