Cụm 1: Cụm này đa số là khách đoàn người nước
ngoài, có thời gian lưu trú nhiều ngày, độ tuổi từ 20 đến 40,
sử dụng nhiều dịch vụ như giặt là, thuê xe, đặt tour, đổi
tiền.
Cụm 2: Cụm này đa số là khách lẻ đi du lịch, lưu trú
nhiều ngày, vào tháng 1 đến tháng 5, độ tuổi trên 30,
thường ở loại phòng Deluxe, thanh toán bằng tiền mặt, sử
dụng nhiều dịch vụ như giặt là, minibar, mua vé., thường
đặt Citytour, tour Bà Nà, Hội An.
Cụm 3: Cụm này đa số là khách lẻ, đi công tác, tập
trung vào tháng 6 đến tháng 12, độ tuổi từ 18 đến 35,
thường ở loại phòng Deluxe, thanh toán bằng thẻ hoặc
chuyển khoản, sử dụng nhiều dịch vụ như giặt là, thuê xe,
đặt tour, đổi tiền.
Cụm 4: Cụm này đa số là khách công ty, chỉ lưu trú 1
ngày tại khách sạn, vào tháng 1 đến tháng 5, thường thuê
xe, mua vé máy bay., thanh toán chủ yếu bằng tiền mặt
hoặc chuyển khoản.
Cụm 5: Cụm này đa số là khách công ty, trong khoảng
thời gian từ tháng 1 đến tháng 9, độ tuổi từ 26 đến 38,
thường ở các phòng Single, thời gian lưu trú nhiều ngày,
nên ngoài mục đích công tác, khách hàng thuộc nhóm này
còn kết hợp đi du lịch, khách sạn thường thanh toán chênh
lệch hóa đơn cho nhóm khách này.
Cụm 6: Cụm này chủ yếu là khách đoàn Việt Nam, có
thời gian lưu trú nhiều ngày, thường vào tháng 6 đến tháng
10, tập trung nhiều vào tháng 7, sử dụng nhiều dịch vụ như
giặt là, thuê xe, họ thường đặt tour Bà Nà, Cù Lao Chàm,
Hội An, hình thức thanh toán bằng tiền mặt.
10 trang |
Chia sẻ: hachi492 | Ngày: 11/01/2022 | Lượt xem: 379 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu khách hàng sử dụng dịch vụ khách sạn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Lời nói đầu
----
Căn cứ vào quy hoạch báo chí đã được Thủ tướng Chính phủ phê duyệt,
theo văn bản đề nghị của Bộ Giáo dục và Đào tạo, ngày 25 tháng 11 năm 2002,
Bộ Văn hoá - Thông tin đã ra Quyết định số 510/GP-BVHTT, cấp giấy phép
hoạt động báo chí cho Tạp chí “Khoa học và Công nghệ” Đại học Đà Nẵng.
Ngày 10 tháng 8 năm 2006, Cục Báo chí Bộ Văn hoá - Thông tin đã có
Công văn số 816/BC đồng ý cho phép Tạp chí “Khoa học và Công nghệ” Đại học
Đà Nẵng được tăng kỳ xuất bản từ 03 tháng/kỳ lên thành 02 tháng/kỳ.
Ngày 6 tháng 2 năm 2007, Trung tâm Thông tin Khoa học và Công nghệ
Quốc gia thuộc Bộ Khoa học và Công nghệ đã có Công văn số 44/TTKHCN-ISSN
đồng ý cấp mã chuẩn quốc tế: ISSN 1859-1531 cho Tạp chí “Khoa học và
Công nghệ”, Đại học Đà Nẵng.
Ngày 5 tháng 3 năm 2008, Cục Báo chí, Bộ Thông tin và Truyền thông đã có
Công văn số 210/CBC cho phép Tạp chí “Khoa học và Công nghệ” Đại học
Đà Nẵng, ngoài ngôn ngữ được thể hiện là tiếng Việt, được bổ sung thêm
ngôn ngữ thể hiện bằng tiếng Anh và tiếng Pháp.
Ngày 15 tháng 9 năm 2011, Bộ Thông tin và Truyền thông đã có Quyết định
số 1487/GP-BTTTT cấp Giấy phép sửa đổi, bổ sung cho phép Tạp chí Khoa học và
Công nghệ, Đại học Đà Nẵng được tăng kỳ hạn xuất bản từ 02 tháng/kỳ lên
01 tháng/kỳ và tăng số trang từ 80 trang lên 150 trang.
Tạp chí “Khoa học và Công nghệ” Đại học Đà Nẵng ra đời với mục đích:
Công bố, giới thiệu các công trình nghiên cứu khoa học trong lĩnh vực
giảng dạy và đào tạo;
Thông tin các kết quả nghiên cứu khoa học ở trong và ngoài nước nhằm
phục vụ cho công tác đào tạo của nhà trường;
Tuyên truyền, phổ biến đường lối chính sách của Đảng và Nhà nước
trong lĩnh vực giáo dục, đào tạo và nghiên cứu khoa học, công nghệ.
Tạp chí “Khoa học và Công nghệ” Đại học Đà Nẵng ra đời là sự kế thừa và
phát huy truyền thống các tập san, thông báo, thông tin, kỷ yếu Hội thảo của
Đại học Đà Nẵng và các trường thành viên trong gần 40 năm qua.
Ban Biên tập rất mong sự phối hợp cộng tác của đông đảo các nhà
khoa học, nhà giáo, các cán bộ nghiên cứu trong và ngoài nhà trường, trong nước
và ngoài nước để Tạp chí “Khoa học và Công nghệ” của Đại học Đà Nẵng
ngày càng có chất lượng tốt hơn.
BAN BIÊN TẬP
Lời giới thiệu
----
Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng có chức năng
đào tạo nguồn nhân lực có trình độ cao đẳng các chuyên ngành công nghệ thông
tin và ứng dụng công nghệ thông tin trong các lĩnh vực; nghiên cứu khoa học và
hợp tác quốc tế; triển khai công nghệ phục vụ yêu cầu phát triển kinh tế - xã hội
của các tỉnh, thành phố miền Trung, Tây Nguyên và cả nước.
Là một trường thành viên của Đại học Đà Nẵng, Trường Cao đẳng Công nghệ
Thông tin cùng với các trường thành viên khác luôn xác định nghiên cứu khoa học
không chỉ là chiến lược nâng cao chất lượng đào tạo mà còn là nhiệm vụ trọng tâm
hướng đến xây dựng Đại học Đà Nẵng thành đại học nghiên cứu vào năm 2020.
Năm 2015, nhà trường đã phối hợp với Ban Khoa học, Công nghệ và
Môi trường, Đại học Đà Nẵng đã tổ chức thành công Hội thảo nghiên cứu khoa học
CITA với chủ đề "Công nghệ thông tin và ứng dụng trong các lĩnh vực" lần thứ 4.
Hội thảo đã quy tụ được đông đảo những nhà khoa học, những nhà chuyên môn
trong lĩnh vực Công nghệ Thông tin tham gia chia sẻ và thảo luận, đồng thời
Hội thảo cũng đã thu hút và chọn lọc được nhiều bài báo có chất lượng đăng trên
một số riêng của Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng
(số 12(97).2015, quyển 2).
Ban Tổ chức Hội thảo "Công nghệ thông tin và ứng dụng trong các lĩnh vực"
xin chân thành cảm ơn các nhà quản lý, các nhà khoa học đã gửi bài tham dự
Hội thảo, đồng thời mong muốn tiếp tục nhận được sự cộng tác và những ý kiến
quý báu của các nhà quản lý, các nhà khoa học nhằm góp phần cho sự thành công
của các lần Hội thảo tiếp theo.
Xin cảm ơn Ban Giám đốc Đại học Đà Nẵng và Ban Khoa học, Công nghệ &
Môi trường đã tạo điều kiện giúp đỡ và cho phép các bài báo có chất lượng của
Hội thảo được chọn lọc và phản biện để đăng trong số này của tạp chí.
Trân trọng cảm ơn!
BAN TỔ CHỨC HỘI THẢO
MỤC LỤC ISSN 1859-1531 - Tạp chí KHCN ĐHĐN, Số 12(97).2015, Quyển 2
KHOA HỌC KỸ THUẬT VÀ TỰ NHIÊN
Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu khách hàng sử dụng dịch vụ
khách sạn
Applying clustering technique and association rule to mine data of customers using hotel services
Nguyễn Văn Chức, Đào Thị Giang 1
Quét mã QR trên điện thoại di động ứng dụng vào việc điểm danh sinh viên - thực nghiệm
tại Trường Cao đẳng Công nghệ Thông tin
Scanning QR code on mobile phones for classroom roll call - experiments at College of Information
Technology
Võ Hùng Cường 5
Phân cụm dựa trên logic mờ trong khảo sát thời gian sống cho mạng cảm biến không dây
Clustering based on fuzzy logic for surveying lifetime in the wireless sensor network
Phạm Thị Dung, Lê Văn Sơn, Lê Thành Công, Đặng Hùng Vĩ 10
Tối ưu hóa mô hình mờ TSK trích xuất từ máy học véc-tơ hỗ trợ hồi quy với tham số ઽ
Optimazing TSK fuzzy model extracted from support-vector-machines for regression with ઽ parameter
Nguyễn Đức Hiển, Lê Mạnh Thạnh 15
Giải pháp hệ thống hóa tên miền và nguồn tài liệu khoa học của Đại học Đà Nẵng
Measures of systematizing website domain names and scientific literature resources of
The University of Danang
Hồ Phan Hiếu, Trần Thanh Liêm 20
Phân tích khả năng kiểm thử chương trình hướng đối tượng Java
Testability analysis of Java object - oriented programs
Nguyễn Thị Thúy Hoài, Nguyễn Thanh Bình 25
Chương trình dò tìm chuyển động của môi cài đặt trên FPGA
Lip tracking program implemented on FPGA
Võ Thị Thu Hồng, Lê Quốc Bảo Trí, Nguyễn Ngọc Tài, Lê Trung Hiếu 30
Ứng dụng sandbox phân tích mã độc trên môi trường phân tán
Applying sandbox to malware analysis in a distributed environment
Nguyễn Tấn Khôi, Trần Thanh Liêm 35
Chia để trị: giải pháp hữu hiệu để tăng tốc độ mô phỏng di tản trong tình huống thiên tai
Divide and conquer approach: an efficient measure to accelerate simulation of evacuation in case of
natural disasters
Lê Văn Minh, Phạm Tuấn Anh 41
Nghiên cứu giải pháp giảm nhiễu nâng cao chất lượng tiếng nói sử dụng bộ lọc kalman
hiệu chỉnh
A study of measures for noise reduction to improve the quality of speech using adjustment kalman filter
Dương Ngọc Pháp 45
Nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên phục vụ xử lý tiếng Việt và
tiếng dân tộc thiểu số
Researching and building an environment for accessing and managing resources for Vietnamese and
ethnic minority language processing
Huỳnh Công Pháp, Văn Đỗ Cẩm Vân 49
Ứng dụng thuật toán phân cụm dữ liệu để khai thác kết quả thi nhằm chuẩn hóa chất lượng
đề thi trắc nghiệm
Enhancing the quality of multiple-choice tests using clustering algorithm to mine test results
Đặng Thái Thịnh 54
Mô phỏng thuật toán lập lịch trong tính toán lưới
Simulation of scheduling algorithm in grid computing
Trần Hồ Thủy Tiên 58
Xây dựng giải pháp cửa thông minh “CIT Smart Door” trên nền tảng công nghệ không dây
bluetooth và ứng dụng di động android
Building up a smart door solution “CIT Smart Door” based on bluetooth wireless technology
and android mobile application
Nguyễn Anh Tuấn, Lã Trung Kiên 64
Mô hình hóa quỹ đạo của electron trong từ trường của nguồn plasma lưỡng cực trên
phần mềm matlab
Modelization of electron trajectories in the magnetic field of an elementary dipolar plasma source
based on matlab software
Trần Tấn Vinh 69
KHOA HỌC XÃ HỘI
Vận dụng phương pháp nghiên cứu tình huống trong giảng dạy môn học kế toán tài chính
The application of case study method in teaching finance accounting
Nguyễn Linh Giang 74
Nghiên cứu thực trạng chuyển giá trốn thuế của các doanh nghiệp có vốn đầu tư nước ngoài
tại Việt Nam
Studying the current situation of pricing transfer for tax evasion of foreign - invested enterprises in Vietnam
Huỳnh Thị Kim Hà 79
Thực trạng quảng bá du lịch trực tuyến tại thành phố Đà Nẵng
Current situation of online tourism advertising in Da Nang city
Đào Thị Thu Hường 84
Ứng dụng lý thuyết tài chính hiện đại vào đo lường rủi ro hệ thống trong đầu tư cổ phiếu tại thị
trường chứng khoán Việt Nam
Application of modern financial theory to measure the risks in investing shares on Vietnam's stock market
Nguyễn Thị Thanh Huyền 89
Nghiên cứu nhân tố ảnh hưởng đến giá trị cảm nhận khách hàng về các siêu thị tại
thành phố Đà Nẵng
A study of the factors that affect consumers’ perception value of supermarkets in Danang
Đặng Thị Thanh Minh 94
Nghiên cứu nhân tố ảnh hưởng đến ý định sử dụng dịch vụ mobile banking của khách hàng Đà Nẵng
Researching into factors that affect intention to use mobile banking service of customers in Da Nang
Nguyễn Thị Thu Ngân, Nguyễn Thị Thanh Nhàn, Đặng Thị Thanh Minh 100
Quản lý thuế trong môi trường thương mại điện tử tại Việt Nam
Tax administration in Vietnam’s E-commerce environment
Nguyễn Thị Kim Ngọc, Huỳnh Thị Kim Hà 105
Nghiên cứu động cơ sử dụng dịch vụ internet banking của khách hàng
Researching into the motivation for using internet banking of customers
Nguyễn Thị Thanh Nhàn 109
Bàn luận về mối quan hệ giữa trách nhiệm xã hội và hiệu quả hoạt động của doanh nghiệp
Discussion on the relationship between social responsibilty and business efficiency of enterprises
Lê Hà Như Thảo 113
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 1
ỨNG DỤNG KỸ THUẬT PHÂN CỤM VÀ LUẬT KẾT HỢP
KHAI PHÁ DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ KHÁCH SẠN
APPLYING CLUSTERING TECHNIQUE AND ASSOCIATION RULE
TO MINE DATA OF CUSTOMERS USING HOTEL SERVICES
Nguyễn Văn Chức, Đào Thị Giang
Trường Đại học Kinh tế, Đại học Đà Nẵng; chuc.nv@due.edu.vn, giang.dt37K14@gmail.com
Tóm tắt - Ngày nay, ngành công nghiệp du lịch, đặc biệt là kinh
doanh khách sạn đang phát triển mạnh mẽ. Dữ liệu khách hàng lưu
trú tại khách sạn được lưu trữ chứa rất nhiều tri thức giá trị. Tuy
nhiên, dữ liệu này lại không được khai thác triệt để. Trong khi đó, các
nhà quản trị khách sạn đang rất cần được hỗ trợ về vấn đề chăm
sóc khách hàng, đưa ra chính sách tối ưu trong quản lý từ những tri
thức có được, nếu dữ liệu của khách hàng được khai thác và sử
dụng hiệu quả. Bài báo tập trung nghiên cứu kỹ thuật phân cụm và
luật kết hợp trong khai phá dữ liệu để phân tích dữ liệu khách hàng
lưu trú tại khách sạn, giúp các nhà quản trị có thể nắm được đặc
điểm khách hàng và đưa ra được các quyết định kinh doanh hợp
lý.Trên cơ sở các tri thức phát hiện được, một giao tiếp trên nền web
được xây dựng để người dùng sử dụng các tri thức này vào phân
tích dữ liệu khách hàng sử dụng dịch vụ khi lưu trú tại khách sạn.
Abstract - Nowadays, tourism industry, especially hospitality
business has been developing strongly. Customer information
saved in hotels contains much valuable knowledge. However, this
data has not been exploited thoroughly. Meanwhile, the hospitality
business managers are yearning for being supported in customer
service to make optimal policies on hotel management from the
knowledge if the data has been exploited and used effectively. This
paper focuses on studying clustering technique and association
rule in data mining to analyse customer data in hotels to help the
managers understand customer characteristics and make better
decisions in business. Based on the knowledge discovered, the
research group also builds an interface on a web platform to help
users use that knowledge for analysing data of customers using
hotels services.
Từ khóa - khai phá dữ liệu; phân tích hành vi; phân cụm; luật kết
hợp; dịch vụ khách sạn.
Key words - data mining; behavior analysis; clustering; association
rule; hotel services.
1. Đặt vấn đề
Cùng với sự phát triển của ngành du lịch, các khách sạn
được liên tục xây dựng với nhiều quy mô khác nhau đã tạo
nên sự cạnh tranh không ngừng. Để đáp ứng nhu cầu ngày
càng cao của khách du lịch nước ngoài và nội địa, ngoài
việc đáp ứng nhu cầu lưu trú của khách hàng thì vấn đề
nâng cao chất lượng các dịch vụ khác tại khách sạn cũng
rất quan trọng. Du khách sẵn sàng trả thêm các khoản chi
phí hợp lý cho các dịch vụ cộng thêm của khách sạn khi nó
thực sự cần thiết hoặc khiến họ hài lòng. Để tồn tại và phát
triển trong thị trường đầy cạnh tranh này, các doanh nghiệp
kinh doanh khách sạn cần hiểu được đối tượng du khách
thường xuyên lưu trú tại khách sạn: Họ là ai và họ mong
muốn những gì? Mang lại đúng giá trị mà du khách cần là
phương pháp đơn giản nhất để phục vụ du khách ít tốn kém
chi phí nhất và làm du khách hài lòng nhất. Để làm được
điều này, các nhà quản lý cần có một chiến lược hợp lý dài
hạn. Trên thực tế, các thông tin về khách hàng lưu trú tại
khách sạn được lưu trữ với rất nhiều tri thức có giá trị, song
các dữ liệu này lại không được khai thác hiệu quả. Do đó,
rất cần có một hệ thống giúp người dùng phân tích các
thông tin lưu trú của khách hàng tại khách sạn. Từ đó, các
nhà quản trị có thể đưa ra được một số giải pháp hỗ trợ
chăm sóc khách hàng, giúp khách sạn chủ động hơn với
khách hàng trong việc cung cấp dịch vụ, nhờ đó giúp tăng
chất lượng dịch vụ, nâng cao mức độ hài lòng của khách
hàng, tăng cơ hội kinh doanh cho khách sạn. Bài báo tập
trung nghiên cứu về kỹ thuật phân cụm và luật kết hợp để
tìm ra tìm ra được các đặc điểm của từng nhóm khách hàng,
biết được mối quan hệ giữa các thuộc tính liên quan đến
hành vi lưu trú của khách hàng và dự báo được khả năng
sử dụng dịch vụ cũng như khả năng đặt tour du lịch của
khách hàng tại khách sạn.
2. Sơ lược về kỹ thuật phân cụm và luật kết hợp
2.1. Phân cụm dữ liệu
Phân cụm dữ liệu là qui trình tìm cách nhóm các đối
tượng đã cho vào các cụm (clusters), sao cho các đối tượng
trong cùng 1 cụm càng giống nhau (similar) càng tốt và các
đối tượng khác cụm thì càng khác nhau nhau (Dissimilar)
càng tốt [3].
Mục đích của phân cụm là tìm ra bản chất bên trong các
nhóm của dữ liệu. Có rất nhiều kỹ thuật phân cụm, như phân
cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật
độ... Tuy nhiên, không có tiêu chí nào được xem là tốt nhất
để đánh giá hiệu quả của phân tích phân cụm, điều này phụ
thuộc vào mục đích của bài toán phân cụm [3].
2.2. Luật kết hợp
Trong lĩnh vực Data Mining, mục đích của luật kết hợp
(Association Rule - AR) là tìm ra các mối quan hệ giữa các
đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản
của luật kết hợp được tóm tắt như dưới đây [3].
Cho cơ sở dữ liệu giao dịch T gồm tập các giao dịch t1,
t2, , tn.
T = {t1, t2,, tn}. Mỗi giao dịch ti bao gồm tập các đối
tượng I (gọi là itemset).
I = {i1, i2, , im}. Một itemset gồm k items gọi là k-itemset.
Mục đích của luật kết hợp là tìm ra sự kết hợp (tương
quan) giữa các items.
Những luật kết hợp này có dạng X →Y
Hai tiêu chí rất quan trọng trong việc đánh giá luật kết
hợp đó là độ hỗ trợ (support) và độ tin cậy (confidence).
Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp
X→Y [1]:
2 Nguyễn Văn Chức, Đào Thị Giang
ܵݑݎݐ ሺܺ → ܻሻ ൌ ܲሺܺ ∪ ܻሻ ൌ ݊ሺܺ ∪ ܻሻܰ
ܥ݂݊݅݀݁݊ܿ݁ ሺܺ → ܻሻ ൌ ܲሺܻ|ܺሻ ൌ ݊ሺܺ ∪ ܻሻ݊ሺܺሻ
Trong đó:
݊ሺܺሻ: Số giao dịch chứa X
N: Tổng số giao dịch
Các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn hoặc
bằng độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu
(min_conf) gọi là các luật mạnh.min_sup và min_conf gọi
là các giá trị ngưỡng (threshold) được xác định trước khi
sinh các luật kết hợp [1].
3. Xây dựng hệ thống khai phá dữ liệu khách hàng sử
dụng dịch vụ khách sạn
3.1. Mô tả hệ thống
Mục đích: Ứng dụng kỹ thuật phân cụm và luật kết hợp
phân tích dữ liệu khách hàng sử dụng dịch vụ khách sạn.
Đầu vào: Gồm các thông tin khách hàng sử dụng dịch vụ
khách sạn: giới tính, quốc tịch, tuổi, nguồn khách,; thông
tin về các dịch vụ khách sạn: giặt là, thuê xe, đặt tour.
Đầu ra: Đưa ra đặc trưng của từng nhóm khách hàng,
dự báo khả năng sử dụng dịch vụ và mối liên hệ giữa các
thuộc tính liên quan đến hành vi lưu trú tại khách sạn của
khách hàng
3.2. Kịch bản triển khai hệ thống phân tích dữ liệu khách hàng:
Hệ thống phân tích dữ liệu khách hàng được tiến hành
theo các bước chính như Hình 1.
Hình 1. Kịch bản triển khai hệ thống phân tích dữ liệu khách
hàng sử dụng dịch vụ khách sạn
Bước 1. Thu thập và tiền xử lý dữ liệu
Dữ liệu thu thập được gần 2000 mẫu, từ hệ thống quản
lý khách sạn Headway của khách sạn Thời Đại ở Đà Nẵng
từ đầu năm 2014 đến 3/2015.
Dữ liệu ban đầu gồm rất nhiều thuộc tính, sau quá trình
tiền xử lý dữ liệu (sử dụng phương pháp trích chọn thuộc
tính) để đánh giá mức độ ảnh hưởng của các thuộc tính đến
hành vi lưu trú tại khách sạn của khách hàng, mô hình xác
định được các thuộc tính như Bảng 1.
Bảng 1. Mô tả dữ liệu
STT Tên thuộc tính Kiểu dữ liệu Miền giá trị Giải thích
1 ID Nominal 000001-002000 Mã khách hàng, khóa
2 GioiTinh Nominal Nu, Nam Giới tính của khách hàng
3 Tuoi Interval >=18 Độ tuổi của khách hàng
4 QuocTich Nominal VIE, USA, CHN, JPN, AUS, . Quốc tịch của khách hàng
5 NguonKhach Nominal KhachLe, KhachDoan, CongTy Nguồn khách hàng
6 MucDichLuuTru Nominal DuLich, CongTac Mục đích lưu trú của khách hàng
7 ThoiGianLuuTru Nominal >=1, <=12 Thời gian lưu trú của khách hàng (tháng lưu trú)
8 SoNgayLuuTru Interval >=1 Số ngày lưu trú tại khách sạn
9 LoaiPhong Nominal StandardSingle, StandardDouble,
StandardTwin, DeluxeSingle, DeluxeDouble,
DeluxeTwin, VipSingle, VipDouble
Loại phòng khách sạn
10 HinhThucThanhToan Nominal TienMat, The, ChuyenKhoan Hình thức thanh toán
11 GiatLa Nominal Co, Khong Dịch vụ giặt là
12 ThueXe Nominal Co, Khong Dịch vụ thuê xe
13 MuaVeMayBay Nominal Co, Không Dịch vụ mua vé máy bay cho khách
14 DVMiniBar Nominal Co, Khong Dịch vụ mini bar
15 MuaDoGiupKhach Nominal Co, Khong Dịch vụ mua đồ giúp khách
16 ChenhLechHoaDon Nominal Co, Khong Dịch vụ thanh toán hóa đơn cho khách
17 DoiTien Nominal Co, Khong Dịch vụ đổi tiền cho khách
18 DatTourHue Nominal Co, Khong Đặt tour Huế
19 DatTourBaNa Nominal Co, Khong Đặt tour Bà Nà
20 DatTourNHS Nominal Co, Khong Đặt tour Ngũ Hành Sơn
21 CityTour Nominal Co, Khong Đặt City tour
22 DatTourSonTra Nominal Co, Khong Đặt tour Sơn Trà
23 DatTourHoiAn Nominal Co, Khong Đặt tour Hội An
24 DatTourCLC Nominal Co, Khong Đặt tour Cù Lao Chàm
1. Thu
thập và
tiền xử
lý dữ
liệu
2. Xây
dựng mô
hình phân
cụm và
luật kết
hợp
3. Phát
hiện tri
thức từ mô
hình dự
đoán
4. Ứng dụng tri
thức phát hiện
được vào dự đoán
khách hàng sử
dụng dịch vụ
khách sạn
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 3
Bước 2. Xây dựng mô hình phân cụm và luật kết hợp
Mô hình phân cụm và luật kết hợp phân tích dữ liệu
khách hàng sử dụng dịch vụ khách sạn được xây dựng trên
công cụ khai phá dữ liệu Business Intelligence
Development Studio (BIDS) của Microsoft. BIDS là công
cụ rất mạnh cho phép triển khai các mô hình khai phá dữ
liệu, được sử dụng rộng rãi hiện nay bởi khả năng kết nối
dễ dàng với nhiều nguồn dữ liệu, giao diện dễ sử dụng và
nhất là khả năng biểu diễn tri thức phát hiện được rất trực
quan, dễ hiểu, dễ sử dụng. BIDS được tích hợp vào SQL
SERVER 2005 trở về sau trong các phiên bản Enterprise
hoặc Development [4].
Sau khi thực hiện các thao tác tiền xử lý dữ liệu để phù
hợp với mô hình khai phá dữ liệu, sử dụng Microsoft
Clustering với thuật toán K-means và Microsoft
Association Rule với thuật toán Apriori trong BIDS để xây
dựng mô hình phân tích dữ liệu khách hàng sử dụng dịch
vụ khách sạn.
Bước 3. Phát hiện tri thức từ mô hình phân cụm và luật kết hợp
a. Mô hình phân cụm
Hình 2. Kết quả phân cụm dữ liệu
Hình 3. Đặc trưng từng cụm dữ liệu
Từ mô hình phân cụm, cho ra được đặc trưng 6 nhóm
khách hàng như sau:
Cụm 1: Cụm này đa số là khách đoàn người nước
ngoài, có thời gian lưu trú nhiều ngày, độ tuổi từ 20 đến 40,
sử dụng nhiều dịch vụ như giặt là, thuê xe, đặt tour, đổi
tiền...
Cụm 2: Cụm này đa số là khách lẻ đi du lịch, lưu trú
nhiều ngày, vào tháng 1 đến tháng 5, độ tuổi trên 30,
thường ở loại phòng Deluxe, thanh toán bằng tiền mặt, sử
dụng nhiều dịch vụ như giặt là, minibar, mua vé..., thường
đặt Citytour, tour Bà Nà, Hội An.
Cụm 3: Cụm này đa số là khách lẻ, đi công tác, tập
trung vào tháng 6 đến tháng 12, độ tuổi từ 18 đến 35,
thường ở loại phòng Deluxe, thanh toán bằng thẻ hoặc
chuyển khoản, sử dụng nhiều dịch vụ như giặt là, thuê xe,
đặt tour, đổi tiền...
Cụm 4: Cụm này đa số là khách công ty, chỉ lưu trú 1
ngày tại khách sạn, vào tháng 1 đến tháng 5, thường thuê
xe, mua vé máy bay..., thanh toán chủ yếu bằng tiền mặt
hoặc chuyển khoản.
Cụm 5: Cụm này đa số là khách công ty, trong khoảng
thời gian từ tháng 1 đến tháng 9, độ tuổi từ 26 đến 38,
thường ở các phòng Single, thời gian lưu trú nhiều ngày,
nên ngoài mục đích công tác, khách hàng thuộc nhóm này
còn kết hợp đi du lịch, khách sạn thường thanh toán chênh
lệch hóa đơn cho nhóm khách này.
Cụm 6: Cụm này chủ yếu là khách đoàn Việt Nam, có
thời gian lưu trú nhiều ngày, thường vào tháng 6 đến tháng
10, tập trung nhiều vào tháng 7, sử dụng nhiều dịch vụ như
giặt là, thuê xe, họ thường đặt tour Bà Nà, Cù Lao Chàm,
Hội An, hình thức thanh toán bằng tiền mặt.
b. Mô hình luật kết hợp
Từ mô hình luật kết hợp đã xây dựng, phát hiện được
tri thức về mối quan hệ giữa các thuộc tính liên quan đến
hành vi lưu trú của khách hàng tại khách sạn. Sau đây là
một số luật được trích ra từ mô hình:
L1: Khách hàng đặt tour Ngũ Hành Sơn, vào tháng 3
đến tháng 6 thì đặt tour Hội An, với độ tin cậy100%.
L2: Khách hàng là khách đoàn, lưu trú tại khách sạn
vào tháng 3 đến tháng 6 thì đặt tour Hội An, với độ tin cậy
89,4%.
L3: Khách ở loại phòng Deluxe Twin, vào tháng 3 đến
tháng 6 thì đặt tour Hội An với độ tin cậy 87,4%.
L4: Khách hàng là khách đoàn, đặt City Tour thì sẽ đặt
tour Cù Lao Chàm với độ tin cậy 82,4%.
Hình 4. Kết quả mô hình luật kết hợp
Bước 4. Ứng dụng tri thức phát hiện được vào phân tích
dữ liệu khách hàng lưu trú tại khách sạn
Dựa vào các tri thức phát hiện được từ mô hình phân
cụm và luật kết hợp, một hệ thống giao tiếp được xây dựng
trên nền web cho phép người dùng sử dụng để tìm ra đặc
điểm từng nhóm khách hàng, dự báo khả năng sử dụng dịch
vụ của khách hàng.
4 Nguyễn Văn Chức, Đào Thị Giang
Hình 5. Giao tiếp người dùng
với hệ thống phân tích dữ liệu khách hàng
4. Kết luận và hướng phát triển
Bài báo đã tìm hiểu về lý thuyết kỹ thuật phân cụm và
luật kết hợp, từ đó nghiên cứu ứng dụng các kỹ thuật này
vào xây dựng mô hình khai phá dữ liệu khách hàng lưu trú
tại khách sạn.
Dựa vào mô hình khai phá dữ liệu với hai kỹ thuật phân
cụm dữ liệu và phát hiện luật kết hợp đã xây dựng, nhóm
tác giả đã xây dựng thành công một giao tiếp trên nền web
để hỗ trợ việc ra quyết định của các nhà quản lý khách sạn,
giúp đưa ra được các chính sách riêng cho từng nhóm
khách hàng, dự báo hành vi sử dụng dịch vụ khách sạn cũng
như đặt tour du lịch của khách hàng. Trong thời gian tới sẽ
nghiên cứu mở rộng sang lĩnh vực du lịch nhằm nâng cao
hiệu quả trong việc phân tích hành vi du lịch của khách du
lịch tại các công ty du lịch lữ hành.
TÀI LIỆU THAM KHẢO
[1] Nguyễn Đức Thuần, Nhập môn khai phá dữ liệu và quản trị tri thức,
NXB Thông tin và Truyền thông, 2013.
[2] Trần Thị Kim Hằng, Ứng dụng khai phá dữ liệu dự đoán bệnh đái
tháo đường, Luận văn 2014.
[3] Jiawei Han and Micheline Kamber, Datamining: Concepts and
Techniques, Simon Fraser University, 2011.
[4] JamieMacLennan, Z.T., Bogdan Crivat, Data Mining with Microsoft
SQL Server 2008, Indianapolis, Indiana: Wiley Publishing, Inc, 2008.
[5]
[6]
(BBT nhận bài: 24/07/2015, phản biện xong: 23/09/2015)
Các file đính kèm theo tài liệu này:
- ung_dung_ky_thuat_phan_cum_va_luat_ket_hop_khai_pha_du_lieu.pdf