Đề xuất mô hình dự báo ống vỡ trên mạng lưới cấp nước - Phạm Thị Minh Lành

In urban area, most of water supply pipes are located under roads or pavements. Therefore when the pipe failures occur, a significant amount of water lost. At the same time, contaminants from outside are likely to enter the pipes, causing widespread water pollution in the water supply network, making possible risks of massive contamination for water consumers. In order to minimize water loss and to ensure water consumers’ health, it is necessary to identify the probability of pipe failures in the water supply network, so that pipes maintenance and replacement planning is enabled to make in time. This paper analyzes quantifiably the factors causing pipe failures in the water supply network and proposes the use of decision tree model to estimate the probability of pipe failures. The proposed model is validated in an actual statistics and evaluated by AUC indicator.

7 trang | Chia sẻ: honghp95 | Lượt xem: 793 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Đề xuất mô hình dự báo ống vỡ trên mạng lưới cấp nước - Phạm Thị Minh Lành, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

KHOA HC K THUT THuhoahoiY LI uhoahoiuhoahoiuhoahoi VÀ MÔI TRuchoaNG - S 60 (3/2018) 3 BÀI BÁO KHOA H C ĐỀ XUẤT MÔ HÌNH DỰ BÁO ỐNG VỠ TRÊN MẠNG LƯỚI CẤP NƯỚC Phạm Thị Minh Lành1,3, Vũ Thị Vân Anh2, Phạm Hà Hải3 Tóm tắt: Đa số các đường ống cấp nước trong đô thị đều được đặt dưới mặt đường hoặc vỉa hè nên khi xảy ra vỡ một lượng nước đáng kể di chuyển ra khỏi đường ống mà không được phát hiện kịp thời. Đồng thời, khi có điểm vỡ trên đường ống các chất ô nhiễm tồn tại bên ngoài đường ống có điều kiện đi vào bên trong ống dễ hơn làm tăng nguy cơ nhiễm độc hàng loạt cho những người tiêu thụ nước. Để giảm thiểu chi phí do thất thoát nước đồng thời đảm bảo an toàn cho sức khỏe của người sử dụng nước, cần xác định được khả năng ống vỡ trên mạng lưới cấp nước từ đó có kế hoạch bảo dưỡng và thay thế kịp thời. Trong bài báo này sẽ phân tích định lượng các yếu tố liên quan đến sự kiện ống vỡ và đề xuất sử dụng mô hình cây quyết định ước lượng khả năng vỡ ống từ các yếu tố liên quan này. Mô hình đề xuất sẽ được kiểm chứng cho số liệu thống kê thực tế và đánh giá chất lượng bằng chỉ số AUC. Từ khóa: mạng lưới cấp nước; thất thoát nước; ống cấp nước vỡ; chỉ số AUC; mô hình cây quyết định; phần mềm R. 1. ĐẶT VẤN ĐỀ1 Các sự cố vỡ ống đặc biệt là các tuyến ống dịch vụ thường xuyên xảy ra trên mạng lưới cấp nước (MLCN), nguyên nhân có thể do động đất thiên tai, các hoạt động thi công ở khu vực đặt ống, khả năng chịu tải của mặt đường phía trên ống dẫn nước thấp hơn tải trọng xe chạy. Mặc dù đã có những cải tiến để tăng khả năng chịu lực của vật liệu và các biện pháp bảo vệ nhưng vẫn không tránh khỏi hư hỏng trong những trường hợp này. Bên cạnh những sai sót trên sản phẩm cũng như quy trình thi công thì nguyên nhân dẫn đến vỡ ống chủ yếu là do ăn mòn (Sheikh, Boah and Hansen, 1990) hoặc lực tác động từ môi trường trong và ngoài (Gómez- Martínez et al., 2017), một số đoạn ống thường xuyên xảy ra vỡ thì cần xem xét cả hai nguyên nhân này. Đôi khi chi phí để sửa chữa đoạn ống nhiều lần sẽ cao hơn so với việc lắp đặt ống mới (Pelliccia, 1981). Bên cạnh đó hoạt động sửa chữa cũng làm ảnh hưởng đáng kể đến chất lượng phục vụ của hệ thống và khả năng làm 1Khoa Kỹ thuật Xây dựng, ĐH Bách Khoa Tp. Hồ Chí Minh 2Khoa Khí tượng Thủy văn, ĐH Tài Nguyên và Môi Trường 3Khoa Kỹ thuật Đô thị, ĐH Kiến Trúc Tp. Hồ Chí Minh gián đoạn giao thông của khu vực đặt ống. Bỏ qua đặc điểm hình học của điểm vỡ, những sự cố bất thường làm vỡ ống, tác giả xác định các yếu tố liên quan tới sự kiện ống vỡ từ đó đề xuất mô hình dự báo khả năng ống vỡ trên mạng lưới cấp nước. Hình 1. Các yếu tố dẫn đến hiện tượng ống vỡ trên MLCN Trong Hình 1 trình bày các nguyên nhân dẫn đến ống cấp nước bị vỡ là ăn mòn, tải trọng, đặc điểm vật lý và lịch sử vỡ ống. Đánh giá mức độ ảnh hưởng của các yếu tố này tới hiện tượng vỡ ống bằng phương pháp thống kê các tác giả thường sử dụng mô hình số mũ, hồi quy tuyến tính, mô hình Bayesian, Poisson. Mỗi mô hình KHOA HC K THUT THuhoahoiY LI VÀ MÔI TRuchoaNG uhoahoiuhoahoiuhoahoi - S 60 (3/2018) 4 có một ưu điểm riêng và phù hợp với số liệu khảo sát. Nhận định ban đầu cho rằng khả năng ống vỡ phụ thuộc vào thời gian làm việc, tác giả Bubbis (Bubbis, 1948) đã đưa ra mô hình số mũ để mô tả hiện tượng vỡ ống và mô hình này tiếp tục được phát triển bởi Ossman năm 2011 (Bainbridge, 2011), từ lịch sử vỡ ống để ước lượng khả năng vỡ trong tương lai. Tuy nhiên, dữ liệu khảo sát chưa đề cập tới các yếu tố liên quan như môi trường làm việc của ống, điều kiện áp suất, môi trường trong và ngoài ống. Một số nghiên cứu tiếp cận theo phương pháp mạng trí tuệ nhân tạo-Artificial Neural Network ANN để xác định hiệu suất làm việc của hệ thống cũng như tỉ lệ vỡ ống trong thời gian làm việc (Al-barqawi and Zayed, 2008). Một trong những nhược điểm của mô hình ANN là thời gian chạy mô hình lớn và chi phí cho khảo sát số liệu đầu vào khá cao, vậy nên mô hình mới chỉ đáp ứng cho nghiên cứu học thuật. Hình 2. Nội dung nghiên cứu ước lượng khả năng ống vỡ trên MLCN Các mô hình hồi quy tuyến tính của tác giả Andreou (1987) đánh giá đạt kết quả chính xác đến 70% (Wengström, 1993), đồng thời tác giả cũng nhận định ống vỡ phụ thuộc vào đường kính, vị trí đặt ống, nguyên nhân gây vỡ và không phụ thuộc vào độ tuổi. Sau khi so sánh hiệu quả các mô hình hồi quy tuyến tính, hồi quy logistic tổng quát, Poisson, số mũ, tác giả Yamijala(2007) đề xuất mô hình số mũ thời gian và Poisson là mô hình dự báo chính xác nguy cơ vỡ, đặc biệt là đếm được số lần không vỡ. Hồi quy Bayesian là mô hình mới được áp dụng trong các nghiên cứu gần đây, với những ưu điểm của mô hình đã giúp bài toán có kết quả chính xác hơn các phương pháp trước. Phát triển các kết quả nghiên cứu trước đây và dự báo ống vỡ trong điều kiện Việt Nam, nghiên cứu thực hiện theo trình tự như Hình 2. Các số liệu thống kê đầu vào trong mô hình được thu thập từ công ty cấp nước. Từ kết quả phân tích và xử lý số liệu thống kê nghiên cứu đề xuất sử dụng mô hình cây quyết định (DT) để dự báo khả năng ống vỡ. 2. DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1. Các yếu tố liên quan tới sự kiện vỡ ống Trong quá trình hoạt động, đường ống chịu tác động của ăn mòn cũng như tác động của tải trọng đất xung quanh ống và trọng lượng nước mà ống truyền tải. Đại lượng đặc trưng cho tỉ lệ ăn mòn được nghiên cứu lựa chọn là độ tuổi ống (A), cho tải trọng nước là áp suất làm việc trung bình của ống (P), vị trí tuyến đường đặt ống (R). Đại lượng thứ ba để xác định khả năng ống vỡ là đặc trưng vật lí của đường ống bao gồm đường kính (D), chiều dài (L) và vật liệu (Mat). Các nghiên cứu trước đây tập trung chủ yếu vào vật liệu ống gang và thép nói chung, trong nghiên cứu này đề xuất xem xét cụ thể các vật liệu thép trắng (SS), thép đen (ST), gang dẻo (DI), gang xám (CI), nhựa Poly Vinyl Clorua (PVC), nhựa Poly Etilen cao phân tử (HDPE) và xi măng amiăng (AC).. Ngoài ra các đại lượng đặc trưng cho đặc điểm hình học của mạng lưới là vị trí tuyến đường đặt ống (R), số đoạn ống kết nối trên một tuyến ống (N0), tổng chiều dài ống trong một tiểu vùng cấp nước-District Metered Area (DMA) và số lần vỡ trước đây (Prior) cũng được khảo sát để đưa vào mô hình thống kê. 2.2. Giới thiệu phần mềm R và lý thuyết mô hình cây quyết định (DT) Được phát triển từ năm 1996 bởi hai tác giả Ross Ihaka và Robert Gentleman, phần mềm R có mã nguồn mở sử dụng cho thống kê và biểu diễn biểu đồ. Phần mềm có thể đọc dữ liệu trực tiếp hoặc từ Excel (.csv); SAS; SPSS; Stata; text;.và linh hoạt trong quá trình xử lý số liệu thống kê bằng cách phân loại thành các nhóm, thay thế biến từ kí tự sang số. Với các ưu điểm trên, nghiên cứu lựa chọn ngôn ngữ R để xây KHOA HC K THUT THuhoahoiY LI uhoahoiuhoahoiuhoahoi VÀ MÔI TRuchoaNG - S 60 (3/2018) 5 dựng mô hình cây quyết định, từ đó ước lượng khả năng ống vỡ và áp dụng cho dữ liệu khảo sát. Mô hình cây quyết định phát triển từ những năm 80 bởi các tác giả Breiman, Freidman, Oshem, Stone (Leo Breiman; Jerome H.Freidman; Richard A.Olshen; Charles J.Stone, 1984). Mô hình có khả năng xử lý dữ liệu lớn trong thời gian ngắn bằng cách phân loại dữ liệu thống kê thành các lớp từ đó xây dựng nên mô hình cây quyết định- DT. Ưu điểm của DT là có thể loại bỏ các giá trị ngoại vi ra khỏi hệ thống, mỗi giá trị này bị cô lập tại các nút riêng lẻ. Mô hình DT được gọi là mô hình phi tham số nên khi sử dụng không có những ràng buộc giữa các biến số và với cả những dữ liệu có giá trị rỗng. Theo tài liệu (Witten, Frank and Hall, 2011) thiết lập mô hình DT qua các bước: xác định nút, xây dựng và lựa chọn DT tối ưu. 2.2.1. Xác định nút trên cây quyết định Nút là vị trí phân chia cây quyết định thành một phân lớp mới, phương pháp phân chia có thể áp dụng cho những tập dữ liệu khác nhau. Mỗi nút được xác định dựa trên giá trị nguy cơ thuộc về nút đó nhỏ nhất, nếu P(Aj) là xác suất dự báo nút A thì giá trị nguy cơ nhỏ nhất R(Aj) khi đó cây quyết định T với j nút A sẽ có giá trị nguy cơ R(T) là: 1 ( ) ( ) ( )k j jjR T P A R A==∑ (1) 2.2.2. Xây dựng cây quyết định Để xây dựng cây quyết định cần phải tạo ra các nút và phân chia thành lớp (nsplit). Phương pháp phân chia đã trình bày ở trên nhưng phân chia dữ liệu để cây quyết định đạt giá trị chính xác và ra kết quả nhanh thì cần tiêu chuẩn để so sánh. Nếu nút A chia là hai nút AL và AR với P(A) là xác suất dự báo tại nút A và r(A) là nguy cơ tại nút A thì: P(AL).r(AL)+P(AR).r(AR)≤P(A).r(A) (2) Giá trị tạo ra nhánh mới là ∆r lớn nhất để giảm nguy cơ gây ra ống vỡ. Bài toán sẽ hội tụ nhanh hơn khi đa dạng hóa nút A bằng cách sử dụng hàm f – hàm hỗn hợp: 1 ( ) ( ) C iA i I A f p = =∑ (3) Trong đó piA là phần trăm trong nút A thuộc về nút i của mẫu tương lai. Nếu C1, C2 là một phần của lớp C trong 2 nút mới tạo ra thì đồ thị hàm f là đường cong có đáy: 1 2 1 2 ( ) min[ ( ) ( )]C CC CI A f p f p= + (4) 2.2.3. Lựa chọn cây quyết định Một cây quyết định hoàn chỉnh bao gồm nhiều nhánh và số lượng nút khá lớn nên cần loại bỏ một phần các biến không quan trọng trong quá trình ra quyết định để có một kết quả tối ưu. Để cắt gọn cây quyết định cần tối thiểu hàm nguy cơ của nút: 1 ( ) ( ). ( )k i iiT R T P T R T== =∑ (5) Sử dụng thuật toán tối thiểu hàm T cho toàn bộ các nhánh có giá trị nguy cơ nhỏ nhất sẽ xác định được cây quyết định tối ưu cho mô hình. 2.2.4. Áp dụng mô hình cây quyết định cho dự báo Trong cây quyết định tối ưu, tập hợp các số liệu thống kê thuộc nút A sẽ có xác suất dự báo là P(AL) và P(AR) trong công thức (2) là giá trị dự báo khả năng ống không vỡ và ống vỡ trên mạng lưới cấp nước. 2.3. Kiểm chứng mô hình DT Đường ống cấp nước quận Hải Châu có độ tuổi lớn nhất (hơn 36 tuổi) trong MLCN của thành phố Đà Nẵng, số lượng ống dẫn đa dạng, hồ sơ ống vỡ lưu trữ đầy đủ, nên tác giả lựa chọn làm khu vực nghiên cứu. Mục tiêu thu thập dữ liệu là xác định xác suất ống vỡ trên mạng lưới cấp nước nên tác giả tiến hành thu thập dữ liệu từ hồ sơ quản lí của công ty và tham vấn các nhân viên phụ trách kĩ thuật cũng như công nhân vận hành, sửa chữa hệ thống để hiểu rõ hơn về số liệu khảo sát cũng như các yếu tố liên quan tới sự kiện ống vỡ trong quá trình làm việc. Các thông tin trong hồ sơ sửa chữa ống vỡ của công ty bao gồm vị trí vỡ ống, đường kính (D), vật liệu (Mat) và nguyên nhân vỡ, hồ sơ ghi nhận tất cả các trường hợp sửa chữa trên mạng lưới từ hỏng van, thay đồng hồ cho đến các tác động từ bên ngoài gây ra vỡ ống và số lượng ống vỡ trên đường ống dịch vụ là lớn nhất mà nguyên nhân xảy ra hiện tượng này chủ yếu là do khách hàng sửa chữa thi công nên các số liệu KHOA HC K THUT THuhoahoiY LI VÀ MÔI TRuchoaNG uhoahoiuhoahoiuhoahoi - S 60 (3/2018) 6 ống vỡ được chọn lọc trên các ống đường kính lớn hơn 100mm và nguyên nhân vỡ do bản thân vật liệu ống. Hồ sơ sửa chữa ống vỡ chưa cung cấp các thuộc tính liên quan tới đường ống như chiều dài tuyến ống (L), khu vực đặt ống (DMA), năm cài đặt cũng như giá trị áp lực làm việc trung bình (P) của từng đoạn ống. Bên cạnh đó, mô hình đề xuất dùng để ước lượng khả năng vỡ cho tất cả các đoạn ống trên hệ thống phân phối nước bao gồm cả những đoạn ống đã vỡ và những đoạn ống chưa vỡ, thậm chí cả những ống mới được lắp đặt, vậy nên số liệu thống kê không chỉ thu thập từ hồ sơ ống vỡ trên mạng lưới mà còn cần các thông tin liên quan tới các đoạn ống chưa vỡ. Các thông tin này được lấy từ hệ thống GIS do phòng kỹ thuật của công ty cung cấp đồng thời các dữ liệu GIS sẽ được sử dụng để kiểm chứng lại một lần nữa các thông tin lấy được trong hồ sơ sửa chữa ống vỡ ở trên. Số liệu thu thập được tổng hợp bằng bảng tính Excel và xử lý các dữ liệu thiếu bằng khảo sát thực địa, phỏng vấn nhân viên công ty cũng như phân tích các hồ sơ thiết kế, dữ liệu hình ảnh Google Earth và hệ thống GIS. Bảng 1 tổng hợp dữ liệu khảo sát của 9 yếu tố ảnh hưởng tới sự kiện vỡ F của quận Hải Châu với 1979 hàng x10 cột. Dữ liệu này được chia thành hai phần, 70% để huấn luyện, 30% còn lại được sử dụng để kiểm tra và đưa vào mô hình DT bằng phần mềm R với hàm rpart. Tổng chiều dài MLCN quận HC là 158,43 km ống với các loại vật liệu và tỉ lệ như Hình 3. Thống kê số lần vỡ có xu thế tăng theo chiều dài ống, trong đó ống PVC có chiều dài lớn nhất là 80,6 km với số lần vỡ trong 6 năm khảo sát là 63 lần.Vật liệu AC có số lần vỡ ít nhất là 1 lần, vật liệu DI có tỉ lệ vỡ lớn hơn, kết quả này cũng phù hợp với kết quả các nghiên cứu trước đây (Kabir, Tesfamariam and Sadiq, 2016) 50.9% 16.9% 6.5% 17.8% 6.5% 0.9% 0 10 20 30 40 50 60 70 uPVC HDPE CI DI ST ACMat Nb 2015 2014 2013 2012 2011 2010 %L (km) Hình 3. Số liệu ống vỡ trên MLCN quận HC Bảng 1. Dữ liệu mẫu sử dụng cho mô hình DT F A N0 Mat D P L R La Prior (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) 0 16,07 8 PVC 100 8,9 0,002 1299 31,85 No 0 10,38 19 PVC 100 8,9 0,001 1374 31,85 No . . . . . . . . 1 2,32 4 PVC 150 17,96 0,161 1317 31,85 1st 1 16,84 15 PVC 300 11,83 0,137 1140 22,94 1st 3. KẾT QUẢ VÀ THẢO LUẬN 3.1 Kết quả Bảng 2 biểu diễn kết quả mô hình DT trong phần mềm R, chỉ số ống vỡ ban đầu Root node error:60/1385 cho biết tổng số dữ liệu ống vỡ trên mô hình là 60 trên tổng 1385 ống, các đại lượng CP (tham số hỗn hợp), nsplit (số lớp được phân chia), rel error (chỉ số tương đối của số lượng ống vỡ trên tổng), xerror (chỉ số thống kê ống vỡ), xstd (độ lệch chuẩn) là các giá trị thể hiện quá trình cắt gọn DT. Kết quả phân tích dữ liệu MLCN quận Hải Châu bằng mô hình DT cho thấy dự báo sự kiện KHOA HC K THUT THuhoahoiY LI uhoahoiuhoahoiuhoahoi VÀ MÔI TRuchoaNG - S 60 (3/2018) 7 ống vỡ có 4 biến tham gia chính bao gồm độ tuổi (A), chiều dài ống dẫn (L), áp lực làm việc trung bình của từng đoạn ống (P) và lịch sử vỡ (Prior). Mô hình DT ban đầu xây dựng với đầy đủ các số liệu trong tập thống kê, sau đó bằng phương pháp chi phí tối thiểu, DT được giản lược các biến không quan trọng và đưa ra cây tối ưu như Hình 4. Giải thích ý nghĩa của Hình 4 bằng Bảng 3 cho thấy phân lớp 1 là tập hợp dữ liệu đưa vào với 1 nút có 1325 hàng dữ liệu ống không vỡ và 60 hàng dữ liệu ống vỡ. Phân lớp 2 chia làm hai nút bằng tiêu chí lịch sử bể ống (Prior), nút 3 chứa 1% ống vỡ có lịch sử vỡ ống ≥1. Bảng 2. Kết quả mô hình DT quận Hải Châu Variables actually used in tree construction: [1] A L P Prior Root node error: 60/1385 = 0.043321 n= 1385 CP nsplit rel error xerror xstd 1 0.200000 0 1.00000 1.00000 0.12627 2 0.116667 1 0.80000 0.85000 0.11681 3 0.046667 2 0.68333 0.85000 0.11681 4 0.010000 9 0.33333 0.73333 0.10878 Hình 4. Mô hình cây quyết định tối ưu cho MLCN quận Hải Châu Bảng 3. Giải thích mô hình cây quyết định Phân lớp 1: 1325/60 Nút 1 có 1325(F=0) + 60(F=1) = 1385(F) dòng dữ liệu trong đó: 1325 số liệu khảo sát có F=0; 60 hàng có F=1 Phân lớp 2: 1325/48 0/12 Nút 2 có 1325(F=0) + 48(F=1)thỏa mãn Prior<1 Nút 3 có 0(F =0)+12(F=1) có giá trị Prior >1. Phân lớp 3: 1325/41 0/7 Nút 4 có 1325(F =0)+41(F=1) thỏa mãn P<17,63& Prior<1 Nút 5 có 0 (F =0)+ 7(F=1) thỏa mãn P≥17,63&Prior<1 So sánh với áp lực P<17,63 để đưa vào phân lớp 3 thì 100% (F=0) trong tập số liệu ống Phân lớp 1 Phân lớp 3 Phân lớp 2 Nút 1 Nút 2 Nút 3 Nút 4 Nút 5 Nút 7 Nút 6 Nút 1 Nút 2 Nút 3 Nút 4 Nút 5 Nút 6 Nút 7 Phân lớp 4 KHOA HC K THUT THuhoahoiY LI VÀ MÔI TRuchoaNG uhoahoiuhoahoiuhoahoi - S 60 (3/2018) 8 không vỡ thỏa mãn điều kiện được đưa vào nút 4. Tương tự cho các phân lớp tiếp theo, số ống không vỡ (F=0) ban đầu sẽ được chia nhỏ vào các nút đến phân lớp cuối cùng. Giá trị % trong mỗi nút cho biết số lượng biến trong tập không vỡ và vỡ thỏa mãn điều kiện phân chia nút. Các ô vuông màu xanh trong Hình 4 thể hiện các nút A trong cây quyết định tối ưu, mỗi nút có ba hàng thông tin. Hàng thứ 1 là tiêu chuẩn phân chia nút ống vỡ (1) hay không vỡ (0); Hàng thứ 3 là % số liệu trong nút; Hàng thứ 2 là giá trị dự báo khả năng ống không vỡ hay vỡ theo tiêu chuẩn phân chia ở hàng thứ 1 ví dụ nút 1 có tiêu chuẩn phân chia là 0-ống không vỡ thì P(AL)=96% nghĩa là 96% số liệu ống không vỡ nhưng nút 3 hàng thứ nhất là 1 thì P(AL)=0% nghĩa là tập hợp số liệu trong nút có 0% khả năng ống vỡ. Các giá trị phân lớp trong cây DT này được áp dụng cho 30% số liệu còn lại, nghiên cứu sử dụng lệnh predict trong R lấy kết quả dự báo khả năng ống vỡ từ đó phân tích, so sánh với dữ liệu thực tế để kiểm chứng độ chính xác của mô hình đề xuất. 3.2 Thảo luận kết quả Những ống được mô hình dự báo có khả năng vỡ lớn hớn hoặc bằng 95% được cho là vỡ ống có xảy ra ngoài thực tế như vậy kết quả mô hình dự báo là đúng. Bảng 4 đưa ra so sánh giữa kết quả mô hình DT và thực tế. Kết quả cho thấy 13 ống vỡ ngoài thực tế nhưng mô hình DT lại dự báo không vỡ vậy sai số giữa dự báo và thực tế là 2,2%. Để đánh giá chất lượng của mô hình dự báo cần xem xét hai tiêu chí đường cong ROC và chỉ số AUC. Đường cong ROC là đường cong thể hiện độ nhạy (sensitivity) và độ đặc hiệu (specificity) của kết quả dự báo, một dự báo tốt khi diện tích dưới đường cong AUC là lớn nhất. Theo tài liệu (Sarah Boslaugh; and Louise-Anne McNutt, 2008) chỉ số AUC được đánh giá theo giới hạn từ 0,5-1 như Bảng 5. Sử dụng lệnh roc trong phần mềm R, kết quả như Hình 5 cho thấy mô hình cây quyết định đạt tiêu chuẩn AUC = 0,890 nằm trong giới hạn rất tốt. Bảng 4. So sánh kết quả Tiêu chí Thực tế Mô hình Sai số F=0 560 560 0 F=1 34 21 13 Tổng 594 581 2,2% Hình 5. Đường cong ROC cho MLCN HC Bảng 5. Diện tích dưới đường cong (AUC) để đánh giá hiệu suất của mô hình AUC Ý nghĩa diễn giải AUC.HC >0,9 Rất tốt 0,8-0,9 Tốt 0,890 0,7-0,8 Trung bình 0,6-0,7 Không tốt 0,5-0,6 Kết quả không sử dụng được 4. KẾT LUẬN Mô hình cây quyết định là mô hình phi tham số và tìm kiếm kết quả tốt nhất trên các tập hợp biến độc lập nên thời gian chạy nhanh, phân lớp rõ ràng. Kết hợp giữa phương pháp tối thiểu nguy cơ và tối đa giá trị phân lớp, các nút không quan trọng đã được loại bỏ để đưa ra DT tốt nhất cho dữ liệu thống kê. Từ số liệu mạng lưới cấp nước quận Hải Châu đã kiểm chứng chất lượng của mô hình DT và cho chỉ số AUC của mô hình nằm trong giới hạn tốt. KHOA HC K THUT THuhoahoiY LI VÀ MÔI TRuchoaNG uhoahoiuhoahoiuhoahoi - S 60 (3/2018) 9 TÀI LIỆU THAM KHẢO Al-barqawi, H. and Zayed, T. (2008) ‘Infrastructure Management: Integrated AHP / ANN Model to Evaluate Municipal Water Mains ’ Performance’, (December), pp. 305–318. Bainbridge, H. O. and K. (2011) ‘Comparison of Statistical Deterioration Models for Water Distribution Networks’, Journal of Performance of Constructed Facilities, 25(May), pp. 259–266. doi: 10.1061/(ASCE)CF.1943-5509. Bubbis, N. S. (1948) ‘Maintenance and Operating Problems of Winnipeg’, Journal American Water Works Association, 41(5), pp. 429–436. Gómez-Martínez, P., Cubillo, F., Martín-Carrasco, F. and Garrote, L. (2017) ‘Statistical Dependence of Pipe Breaks on Explanatory Variables’, Water, 9(3), p. 158. doi: 10.3390/w9030158. Kabir, G., Tesfamariam, S. and Sadiq, R. (2016) ‘Bayesian Model Averaging for the Prediction of Water Main Failure for Small to Large Candian Municialities’, Canadian Journal of Civil Engineering, 43(3), pp. 233–240. doi: 10.1139/cjce-2015-0374. Leo Breiman; Jerome H.Freidman; Richard A.Olshen;Charles J.Stone (1984) Classification and regression trees. Chapman&Hall/CRC. Pelliccia, T. M. W. A. (1981) Water main repair/replacement for Binghamton,N. Y. Vicksburg,Miss.39180. Sarah Boslaugh; and Louise-Anne McNutt (2008) Encyclopedia of Epidemiology. SAGE. Edited by M. Birdsall, Diana E. Axelsen, and Lisa Cuevas Shaw. California: Rolf A. Janke. Sheikh, A. K., Boah, J. K. and Hansen, D. A. (1990) ‘Statistical modeling of pitting corrosion and pipeline reliability’, Corrosion, pp. 190–197. doi: 10.5006/1.3585090. Wengström, T. (1993) ‘Comparative analysis of Pipe Break Rates’, Chalmers University of Technology. Witten, I. H., Frank, E. and Hall, M. a (2011) Data Mining: Practical Machine Learning Tools and Techniques (Google eBook), Complementary literature None. doi: 0120884070, 9780120884070. Yamijala, S. (2007) Statisticcal estimation of water distribution system pipe break risk. Texas A&M University. Abstract: PROPOSING A MODEL FOR PIPE FAILURE ESTIMATION IN WATER SUPPLY NETWORK In urban area, most of water supply pipes are located under roads or pavements. Therefore when the pipe failures occur, a significant amount of water lost. At the same time, contaminants from outside are likely to enter the pipes, causing widespread water pollution in the water supply network, making possible risks of massive contamination for water consumers. In order to minimize water loss and to ensure water consumers’ health, it is necessary to identify the probability of pipe failures in the water supply network, so that pipes maintenance and replacement planning is enabled to make in time. This paper analyzes quantifiably the factors causing pipe failures in the water supply network and proposes the use of decision tree model to estimate the probability of pipe failures. The proposed model is validated in an actual statistics and evaluated by AUC indicator. Keywords: Water supply network; Pipe ruptures; AUC indicator; Decision tree model; R software Ngày nhận bài: 09/10/2017 Ngày chấp nhận đăng: 08/1/2018

Các file đính kèm theo tài liệu này:

de_xuat_mo_hinh_du_bao_ong_vo_tren_mang_luoi_cap_nuoc_8093_2072298.pdf