Trong nghiên cứu này, chúng tôi trình bày một
phƣơng pháp dự đoán giới tính ngƣời dùng dựa trên
dữ liệu thu thập từ hệ thống TMĐT. Phƣơng pháp tiếp
cận sử dụng các đặc trưng cơ bản như thời gian, tần
suất xem sản phẩm, cùng với các đặc trƣng nâng cao
nhƣ các chuỗi sản phẩm/loại sản phẩm hoặc các cặp
sản phẩm/loại sản phầm chuyển tiếp trong lƣợt xem.
Phƣơng pháp này sử dụng một biểu diễn dạng cây của
danh sách các sản phẩm/loại sản phẩm và sử dụng các
thuộc tính của cây nhƣ số nút, chuỗi các nút cùng tầng,
cặp nút chuyển khác tầng v.v. làm đặc trƣng phân loại.
Thiết kế tập đặc trƣng này cho kết quả tốt nhất trên
thuật toán Random Forest cùng với các kỹ thuật hỗ trợ
nhƣ Cost Sensitive Learning và Class Balancing.
Ngoài ra, kết quả cũng đƣợc cải tiến thông qua một số
kỹ thuật nhƣ lựa chọn đặc trƣng, tối ƣu tham số thuật
toán.
Hƣớng phát triển tiếp theo của nghiên cứu có thể
liên quan đến việc khai thác các đặc trƣng rút trích từ
cây biểu diễn danh sách sản phẩm/loại sản phẩm.
Ngoài ra, cũng có thể thu thập thêm các dữ liệu bổ
sung và mở rộng sang dự đoán các đặc điểm khác của
ngƣời dùng nhƣ độ tuổi, nghề nghiệp
7 trang |
Chia sẻ: huongthu9 | Lượt xem: 350 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Phương pháp biểu diễn cây cho dự đoán giới tính khách hàng dựa trên dữ liệu thương mại điện tử, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Dương Trần Đức
Tác giả liên hệ: Dƣơng Trần Đức,
Email: duongtranduc@gmail.com
Đến tòa soạn: 2/2018 , chỉnh sửa: 4/2018 , chấp nhận đăng: 5/ 2018
PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ
ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN
DỮ LIỆU THƢƠNG MẠI ĐIỆN TỬ
Dƣơng Trần Đức
Học viện Công nghệ Bưu chính Viễn thông
Tóm tắtt: Các đặc điểm cá nhân của khách hàng
nhƣ giới tính, độ tuổi, v.v. cung cấp các thông tin
quan trọng cho các nhà cung cấp dịch vụ thƣơng mại
điện tử (TMĐT) trong các hoạt động quảng cáo và cá
nhân hóa hệ thống. Tuy nhiên, khách hàng trực tuyến
thƣờng hạn chế cung cấp thông tin do vấn đề riêng tƣ.
Bài báo này đề xuất một phƣơng pháp dự đoán giới
tính của khách hàng dựa trên dữ liệu lịch sử truy cập
hệ thống TMĐT. Chúng tôi sử dụng phƣơng pháp học
máy trên một tập các đặc trƣng đƣợc trích xuất từ
thông tin xem sản phẩm của ngƣời dùng để dự đoán
giới tính của họ. Các thực nghiệm đƣợc thực hiện trên
tập dữ liệu đƣợc cung cấp trong khuôn khổ cuộc thi
về khai phá dữ liệu trong Hội nghị PAKDD’15. Kết
quả có độ chính xác 81.9% trên độ đo chính xác cân
bằng và 82.3% trên độ đo macro F1 cho thấy thuật
toán học máy và các đặc trƣng đƣợc đề xuất đã mang
lại hiệu quả tốt trong nhận diện giới tính của khách
hàng.
Từ khóa: học máy, dữ liệu lớn, dự đoán giới tính.
I. MỞ ĐẦU
Ngày nay, rất nhiều các ứng dụng web nhƣ các hệ
thống thƣơng mại điện tử (TMĐT), các máy tìm kiếm,
các hệ thống quảng cáo trực tuyến, sử dụng các đặc
điểm cá nhân hóa để làm gia tăng sự trải nghiệm của
ngƣời dùng và thúc đẩy hoạt động kinh doanh, bán
hàng. Với một dịch vụ đƣợc cá nhân hóa tốt, thông tin
hiển thị sẽ đƣợc tối ƣu hóa cho mỗi ngƣời dùng cá
nhân thay vì giống nhau cho toàn bộ ngƣời dùng.
Chẳng hạn, một hệ thống TMĐT có thể hiển thị các
thông tin khuyến mãi hoặc giới thiệu sản phẩm có liên
quan đến từng khách hàng thay vì hiển thị quảng cáo
chung hoặc giới thiệu các sản phẩm ngẫu nhiên.
Việc cá nhân hóa thông tin hiển thị dựa trên 2 loại
dữ liệu chính: dữ liệu lịch sử (chẳng hạn các mặt hàng
trƣớc đó đã xem hoặc đã mua v.v.) và đặc điểm cá
nhân của ngƣời dùng (chẳng hạn giới tính, độ tuổi,
trình độ giáo dục .v.v). Dữ liệu lịch sử chỉ có thể thu
thập đƣợc nếu ngƣời dùng đã sử dụng hệ thống trƣớc
đó và đã đăng nhập vào hệ thống. Do đó, các phƣơng
pháp cá nhân hóa dựa trên dữ liệu lịch sử không khả
thi trong trƣờng hợp khách hàng truy cập lần đầu hoặc
khách hàng chƣa đăng ký sử dụng hệ thống. Ngƣợc
lại, phƣơng pháp cá nhân hóa dựa trên đặc điểm cá
nhân của ngƣời dùng hữu ích kể cả khi ngƣời dùng
chƣa từng sử dụng hệ thống. Tuy nhiên, các thông tin
về đặc điểm cá nhân của ngƣời dùng thƣờng khó thu
thập đƣợc, do ngƣời dùng Internet thƣờng không sẵn
sàng cung cấp các thông tin cá nhân có tính riêng tƣ.
Vì lý do này, trong nhiều trƣờng hợp, cách duy nhất để
có đƣợc thông tin đặc điểm cá nhân của ngƣời dùng là
dự đoán dựa trên các dữ liệu khác mà ngƣời dùng để
lại trên hệ thống.
Vấn đề dự đoán đặc điểm ngƣời dùng dựa trên
phân tích văn bản (còn gọi dự đoán đặc điểm tác giả
văn bản - author profiling) đã đƣợc nghiên cứu trong
nhiều thập kỷ, tuy nhiên, trong nhiều trƣờng hợp,
ngƣời dùng không để lại các văn bản trên hệ thống.
Một phƣơng pháp khác có thể đƣợc sử dụng để dự
đoán đặc điểm ngƣời dùng là dựa vào hành vi của họ
trên hệ thống, chẳng hạn các hành vi duyệt web ([6],
[13]), phân tích lƣu lƣợng web ([3]), hoặc hành vi xem
danh mục sản phẩm. Ƣu điểm chính của phƣơng pháp
tiếp cận này là trong hầu hết các trƣờng hợp, ngƣời
dùng sẽ thực hành các hành vi trên hệ thống nhƣ truy
cập vào các trang web, nhấp chuột vào các mặt
hàng/mục tin, xem danh mục sản phẩm v.v.
Trong nghiên cứu này, chúng tôi giải quyết vấn đề
dự đoán giới tính ngƣời dùng dựa trên dữ liệu xem
danh mục sản phẩm nhƣ thời gian/thời lƣợng xem,
danh sách các sản phẩm/loại sản phẩm đã xem v.v.
Tập dữ liệu thực nghiệm đƣợc cung cấp bởi Tập đoàn
FPT trong cuộc thi về khai phá dữ liệu trong khuôn
khổ Hội nghị Quốc tế về Khai phá dữ liệu và Phát
hiện tri thức khu vực Châu Á Thái Bình Dƣơng năm
2015 (PAKDD’15). Ý tƣởng của phƣơng pháp là khai
thác tối đa mối quan hệ giữa các sản phẩm/loại sản
phẩm đƣợc xem trong cùng 1 lƣợt xem dựa trên 1 biểu
diễn dạng cây của danh sách sản phẩm/loại sản phâm.
Theo đó, bên cạnh các đặc trƣng cơ bản nhƣ thời gian,
tần suất xem, danh sách các sản phẩm/loại sản phẩm
riêng rẽ, chúng tôi nghiên cứu đề xuất sử dụng các đặc
trƣng nhƣ chuỗi các sản phẩm/loại sản phẩm đƣợc
xem liên tiếp, các cặp chuyển tiếp sản phẩm/loại sản
SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 17
PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT
phẩm khác nhau trong cùng 1 lƣợt xem v.v. (gọi chung
là các đặc trƣng nâng cao). Với cấu trúc phân cấp
nhiều cấp độ của danh mục sản phẩm/loại sản phẩm,
chúng tôi sử dụng một phƣơng pháp biểu diễn dạng
cây để cung cấp khung nhìn tốt hơn về mối quan hệ
giữa các sản phẩm/loại sản phẩm so với biểu diễn
dạng liệt kê. Sau khi xây dựng đƣợc tập dữ liệu huấn
luyện, một số thuật toán học máy phổ biến nhƣ Rừng
ngẫu nhiên (Random Forest-RF), Máy véc tơ hỗ trợ
(Support Vector Machine-SVM), và Mạng Bayes
(Bayesian Network-BN) đƣợc sử dụng để xây dựng
mô hình phân loại kết hợp với các kỹ thuật hỗ trợ để
xử lý vấn đề không cân bằng lớp nhƣ Tái chọn mẫu
(Resampling), Học nhạy cảm chi phí (Cost-Sensitive
Learning-CSL). Ngoài ra, do số lƣợng đặc trƣng sử
dụng là khá lớn cùng với tính chất thƣa của dữ liệu
xem danh mục sản phẩm, các phƣơng pháp lựa chọn
đặc trƣng (feature selection) đƣợc thử nghiệm và áp
dụng nhằm nâng cao kết quả dự đoán và giảm độ phức
tạp của mô hình. Cuối cùng, thuật toán phân loại đƣợc
tối ƣu tham số và kết hợp với thuật toán boosting để
cải tiến kết quả dự đoán. Các kết quả thực nghiệm cho
thấy độ chính xác nhận diện tốt trên tập đặc trƣng có
tính tổng quát và có thể dễ dàng áp dụng sang các hệ
thống TMĐT khác nhau. Bài báo này cũng là phiên
bản mở rộng của nghiên cứu đã đƣợc báo cáo tại Hội
nghị Quốc tế Kỹ nghệ tri thức và hệ thống năm 2016
(Knowledge and System Engineering - KSE 2016),
trong đó các vấn đề về xây dựng tập đặc trƣng, lựa
chọn đặc trƣng, và tối ƣu tham số thuật toán đã đƣợc
nghiên cứu và cải tiến.
Bài báo có cấu trúc nhƣ sau. Phần II trình bày về
các nghiên cứu liên quan trong lĩnh vực dự đoán đặc
điểm ngƣời dùng. Phần III mô tả phƣơng pháp tiếp cận
và hoạt động của hệ thống. Phần IV trình bày về các
kết quả và thảo luận. Cuối cùng, các kết luận sẽ đƣợc
trình bày trong phần V của bài báo.
II. TỔNG QUAN VỀ DỰ ĐOÁN ĐẶC ĐIỂM
NGƢỜI DÙNG
Vấn đề dự đoán đặc điểm ngƣời dùng đã đƣợc
nghiên cứu trong thời gian dài trƣớc đây. Trong giai
đoạn đầu, các nhà nghiên cứu trong lĩnh vực này tập
trung nghiên cứu về vấn đề xác định đặc điểm tác giả
văn bản. Đó là việc xác định hoặc dự đoán đặc điểm
của ngƣời dùng dựa trên phân tích các văn bản đƣợc
tạo ra bởi ngƣời đó. Các phƣơng pháp đƣợc sử dụng
trong các nghiên cứu này chủ yếu là dựa trên phân tích
phong cách viết với các đặc trƣng đa dạng nhƣ dựa
trên các dùng từ vựng, ngữ pháp, các đặc trƣng dựa
trên nội dung [9]. Các nghiên cứu trƣớc đây chủ yếu
tập trung vào các loại văn bản chính thống nhƣ các bài
báo, tiểu thuyết, bài luận v.v. Gần đây, do sự phát triển
mạnh mẽ của Internet và các kênh truyền thông trực
tuyến, các nghiên cứu trong lĩnh vực này chuyển sang
thực hiện trên các loại văn bản truyền thông trực tuyến
nhƣ email, bài viết blogs, bài viết diễn đàn v.v. De Vel
và các cộng sự [4] sử dụng 221 đặc trƣng để xác định
tác giả các emails. Argamon và các cộng sự [1] nghiên
cứu sự khác biệt giữa phong cách viết của nam và nữ
trong 604 tài liệu từ kho ngữ liệu Anh Quốc (British
National Corpus). Argamon và các cộng sự [2] khảo
sát việc sử dụng các đặc trƣng dựa theo phong cách và
nội dung để dự đoán giới tính và tuổi của các tác giả
bài viết blogs trên tập dữ liệu gồm hơn 71.000 bài viết
từ trang blogger.com. Mô hình này cho kết quả dự
đoán có độ chính xác 80% cho giới tính và 76% cho
độ tuổi. Iqbal và các cộng sự [7] đề xuất một phƣơng
pháp tính một giá trị đƣợc gọi là “vân chữ viết” (write
print) dựa trên các mẫu xuất hiện thƣờng xuyên đƣợc
trích chọn từ các emails để dự đoán đặc điểm ngƣời
dùng. Nguyen và các cộng sự [14] thực hiện nghiên
cứu về dự đoán giới tính và độ tuổi của các tác giả bài
viết trên mạng xã hội twitter và bài viết diễn đàn tiếng
Hà Lan sử dụng phƣơng pháp hồi quy tuyến tính và
cho độ chinh xác dự đoán khoảng 80%.
Bên cạnh việc nhận diện ngƣời dùng thông qua
phân tích văn bản, gần đây, nhiều nhà nghiên cứu
trong lĩnh vực khoa học máy tính đã mở rộng sang
phân tích nhận diện đặc điểm ngƣời dùng dựa trên
hành vi của họ, chẳng hạn nhƣ các hành vi duyệt
website [6, 14], hành vi trong mạng di động [5], hành
vi xem sản phẩm trong hệ thống thƣơng mại điện tử
v.v. Khác với vấn đề xác định đặc điểm tác giả văn
bản, các đặc trƣng hành vi của ngƣời dùng trên các hệ
thống là đa dạng hơn nhiều. Do vậy, các nghiên cứu
trong lĩnh vực này đã sử dụng các tập đặc trƣng khác
nhau và phụ thuộc vào các hệ thống cụ thể. Phƣơng
pháp nhận diện chủ yếu sử dụng kỹ thuật học máy.
Hu và các cộng sự [6] đề xuất một phƣơng pháp để
giải quyết vấn đề dự đoán giới tính và độ tuổi của
ngƣời dùng Internet thông qua phân tích hành vi duyệt
web của họ. Hu sử dụng các thông tin xem trang web
của ngƣời dùng nhƣ là các biến đầu vào để suy diễn
thông tin đặc điểm cá nhân của họ. Thuật toán SVM
đã đƣợc sử dụng trên tập đặc trƣng bao gồm các đặc
trƣng dựa trên nội dung (các từ trong trang web) và
dựa trên phân loại (theo các mục trong cấu trúc của
trang web). Kết quả thực nghiệm đạt độ chính xác
79.7% khi dự đoán giớ tính và 60.3% khi dự đoán
tuổi. Kabbur và các cộng sự [8] cũng thực hiện 1
nghiên cứu sử dụng học máy để dự đoán đặc điểm
ngƣời dùng website dựa trên thông tin về nội dung và
cấu trúc siêu liên kết.
Nghiên cứu của Dong và các cộng sự [5] có mục
tiêu suy diễn ra thông tin cá nhân của ngƣời dùng dựa
trên các mẫu giao tiếp hàng ngày trên mạng di động.
Nghiên cứu đƣợc thực hiện trên một mạng di động
thực với hơn 7.000.000 ngƣời dùng và hơn 1 tỷ bản
ghi giao dịch mỗi ngày. Các đặc trƣng đƣợc sử dụng
bao gồm các đặc trƣng cá nhân, bạn bè, đặc trƣng tuần
hoàn v.v. và đạt kết quả dự đoán 80% cho giới tính và
70% cho độ tuổi. Ying và các cộng sự [15] đề xuất
một phƣơng pháp dự đoán thông tin cá nhân ngƣời
dùng dựa trên phân tích hành vi và môi trƣờng.
Nghiên cứu cũng phát triển một phƣơng pháp mới là
mô hình phân loại nhiều cấp độ (multi-level
classification model) để giải quyết vấn đề không cân
bằng trong dữ liệu.
Phuong và các cộng sự [13] giải quyết vấn đề dự
đoán giới tính ngƣời dùng thông qua hành vi duyệt
website. Nghiên cứu sử dụng phƣơng pháp phân loại
học máy và dùng các đặc trƣng thu đƣợc từ dữ liệu lƣu
trữ thông tin duyệt web. Các đặc trƣng cơ bản đƣợc sử
dụng cũng tƣơng tự nghiên cứu của Hu và các cộng sự
[6], nhƣng nhóm tác giả sử dụng thêm nhiều loại đặc
trƣng khác nhƣ các đặc trƣng dựa trên chủ đề, đặc
trƣng thời gian, đặc trƣng kế tiếp v.v. qua đó làm tăng
đáng kể kết quả dự đoán.
SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 18
Dương Trần Đức
Nghiên cứu của Lu và các cộng sự [12] cũng giải
quyết vấn đề tƣơng tự nhƣ nghiên cứu này. Lu sử dụng
1 tập đặc trƣng bao gồm các đặc trƣng về tần suất, thời
gian, các sản phẩm/loại sản phầm đƣợc xem và thuật
toán phân loại Gradient Boosting Decision Trees. Sau
đó, Lu thực hiện việc cập nhật nhãn để nâng cao độ
chính xác bằng cách đƣa các thông tin về sản phẩm
đƣợc xem vào tính toán làm mƣợt (tổng số lƣợng
nam/nữ xem sản phẩm). Kết quả cuối cùng cho độ
chính xác F1 trung bình của 2 lớp phân loại là 80.6.
Bài báo này nghiên cứu một phƣơng pháp dự đoán
giới tính của ngƣời dùng dựa trên dữ liệu xem sản
phẩm của họ trên hệ thống TMĐT. Theo khảo sát của
chúng tôi, hiện chỉ có nghiên cứu của Lu và các cộng
sự [12] là nghiên cứu chính thức đƣợc thực hiện và
công bố trong lĩnh vực này.
III. PHƢƠNG PHÁP
A. Tổng quan về hệ thống
Trong nghiên cứu này, chúng tôi phát triển một hệ
thống có thể nhận dữ liệu từ các file lƣu trữ thông tin
xem sản phẩm của các khách hàng đã biết giới tính,
trích chọn các đặc trƣng và nhãn phân loại để tạo ra 1
tập dữ liệu huấn luyện. Mô hình dự đoán sẽ đƣợc xây
dựng dựa trên tập dữ liệu huấn luyện tạo đƣợc sử dụng
một phƣơng pháp phân loại và sau đó có thể sử dụng
để dự đoán giới tính của các khách hàng chƣa biết dựa
trên hành vi xem sản phẩm của họ.
File dữ liệu huấn luyện chứa các bản ghi tƣơng
ứng với các thông tin lƣu trữ về hành vi xem sản phẩm
của ngƣời dùng. Một bản ghi lƣu trữ chứa các thông
tin về hành vi xem sản phẩm của 1 ngƣời dùng, nhƣ
thời gian bắt đầu xem, kết thúc xem, danh sách các sản
phẩm và loại sản phẩm đã xem. Nhãn phân loại cho
mỗi dữ liệu mẫu là male/female (nam/nữ). Do vậy,
vấn đề cần giải quyết là một vấn đề phân loại nhị phân
với 2 nhãn tƣơng ứng.
Phần tiếp theo sẽ mô tả chi tiết hơn về các đặc
trƣng và các kỹ thuật đƣợc sử dụng để dự đoán.
B. Các đặc trưng phân loại
Các đặc trƣng đƣợc sử dụng trong nghiên cứu này
đƣợc chia làm 2 loại, đƣợc gọi là các đặc trƣng cơ bản
và các đặc trƣng nâng cao.
1) Đặc trưng cơ bản
Các đặc trƣng cơ bản bao gồm các đặc trƣng liên
quan đến thời gian, tần suất xem sản phầm và các đặc
trƣng về các sản phẩm/loại sản phẩm riêng rẽ. Các
thông tin nhƣ thời gian xem trong ngày, ngày trong
tuần, ngày nghỉ/ngày lễ, thời lƣợng xem, số sản phẩm
xem, thời gian trung bình khi xem 1 sản phẩm v.v. là
các nhân tố có thể đƣợc dùng để dự đoán giới tính của
ngƣời xem. Tổng cộng có 98 đặc trƣng nhị phân và 3
đặc trƣng số đƣợc sử dụng và đƣợc mô tả chi tiết hơn
nhƣ trong bảng 1.
Bảng 1. Các đặc trưng cơ bản
Đặc trưng Mô tả
Day Ngày trong tháng (31 đặc trƣng)
Month Tháng trong năm (12 đặc trƣng)
DayOfWeek Ngày trong tuần (7 đặc trƣng)
StartTime/EndTime Giờ (24 đặc trƣng)/ Giờ (24 đặc
trƣng)
Duration Tổng thời gian xem (1 đặc trƣng)
NumberOfProducts Số sản phẩn xem (1 đặc trƣng)
AverageTimePerPro
duct
Thời gian trung bình xem 1 sản
phẩm (1 đặc trƣng)
Đặc trƣng về các sản phẩm/loại sản phẩm bao gồm
tất cả các sản phẩm và loại sản phẩm có trong hệ
thống. Để xây dựng danh mục các đặc trƣng này,
chúng tôi thực hiện trích từ trong tập dữ liệu ra các mã
sản phẩm/mã phân loại và sử dụng chúng nhƣ các đặc
trƣng dạng số. Với mỗi sản phẩm/loại sản phẩm,
chúng tôi thực hiện đếm số lần ngƣời dùng xem sản
phẩm/loại sản phẩm đó trong lƣợt xem và sử dụng con
số này làm giá trị của đặc trƣng tƣơng ứng. Do mỗi mã
sản phẩm đầy đủ đƣợc hình thành từ 4 mã khác nhau,
bao gồm mã loại sản phẩm ở mức chung nhất (bắt đầu
bằng ký tự “A”), các mã loại sản phẩm ở mức tiếp
theo (bắt đầu bằng ký tự “B” và “C”), và cuối cùng là
mã sản phẩm cụ thể (bắt đầu bằng ký tự “D”), có 4
loại đặc trƣng thuộc dạng này với tổng cộng 8.035 đặc
trƣng nhƣ trong bảng 1. Lƣu ý rằng do số lƣợng mã
sản phẩm cụ thể là rất lớn và nhiều sản phẩm xuất hiện
ở tập dữ liệu huấn luyện nhƣng không xuất hiện ở tập
dữ liệu kiểm tra và ngƣợc lại, chúng tôi chỉ lựa chọn
các mã sản phẩm có tần suất xuất hiện từ 3 lần trở lên
và bổ sung thêm các sản phẩm có tần suất thấp hơn
nhƣng xuất hiện ở cả 2 tập dữ liệu. Ngoài ra, do một
sản phẩm có thể thuộc về nhiều hơn 1 phân loại, các
sản phẩm này sẽ tạo ra nhiều hơn 1 đặc trƣng, tƣơng
ứng với các phân loại.
Bảng 2. Các đặc trưng về sản phẩm/loại sản phẩm
riêng rẽ
Đặc trưng Mô tả
Loại sản phẩm mức
chung nhất
Mã bắt đầu là A (11 đặc trƣng)
Loại sản phẩm mức 2 Mã bắt đầu là B (60 đặc trƣng)
Loại sản phẩm mức 3 Mã bắt đầu là C (186 đặc trƣng)
Sản phẩm cụ thể Mã bắt đầu là D (7.778 đặc
trƣng)
2) Các đặc trưng nâng cao
Bên cạnh các đặc trƣng sản phẩm/loại sản phẩm
riêng rẽ, chúng tôi đặt giả thiết rằng mối quan hệ giữa
các sản phẩm/loại sản phẩm đƣợc xem trong cùng 1
lƣợt xem cũng là một yếu tố có thể dùng để dự đoán
giới tính ngƣời dùng. Chẳng hạn ngƣời dùng nam
thƣờng chỉ xem ít loại sản phẩm trong 1 lƣợt xem
trong khi ngƣời dùng nữ có thể xem liên tiếp nhiều
loại sản phẩm khác nhau. Trong file dữ liệu, danh sách
SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 19
PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT
các sản phẩm/loại sản phẩm đã xem trong 1 lƣợt xem
đƣợc biểu thị dƣới dang danh sách liệt kê nhƣ dƣới
đây:
A00002/B00003/C00006/D19760/; A00002/B00001/C00010/D18416;
A00002/B00001/C00004/D19764/; A00002/B00003/C00008/D19761/;
A00002/B00003/C00008/D08538/
Việc sử dụng danh sách liệt kê này có thể gây khó
khăn cho việc trích chọn hiệu quả tất cả các thông tin
về mối quan hệ giữa các sản phẩm/loại sản phẩm trong
1 lƣợt xem, chúng tôi đề xuất một biểu diễn dạng cây
nhằm cung cấp 1 khung nhìn tốt hơn về các quan hệ
này. Theo biểu diễn này, loại sản phẩm ở mức chung
nhất sẽ nằm ở gốc của cây, các sản phẩm cụ thể nằm ở
phần lá của cây và các loại sản phẩm ở cấp độ trung
gian nằm ở các tầng giữa của cây. Theo đó, danh mục
sản phẩm/loại sản phẩm đƣợc biểu diễn dƣới dạng
danh sách liệt kê ở trên đƣợc chuyển đổi sang biểu
diễn cây nhƣ trong hình 1.
Từ biểu diễn dạng cây này, chúng ta có thể dễ dàng
chuyển đổi ngƣợc trở lại biểu diễn dạng danh sách liệt
kê bằng cách duyệt cây theo chiều sâu và từ trái sang
phải. Ngoài ra, từ biểu diễn cây, chúng ta có thể rút ra
đƣợc các thông tin về quan hệ giữa các sản phẩm/loại
sản phẩm bằng cách khai thác các thuộc tính của cây
nhƣ các nút, các tầng, đƣờng đi, nút kề v.v.
Hình 1. Biểu diễn dạng cây của danh mục sản
phẩm/loại sản phẩm được xem
Trong vấn đề hiện tại, chúng ta có thể sử dụng các
thuộc tính sau của cây để làm đặc trƣng về mối quan
hệ:
Số các nút tại mỗi tầng: Tƣơng ứng với số sản
phẩm/loại sản phẩm đƣợc xem trong mỗi lƣợt xem.
Chuỗi các nút liên tiếp trên cùng 1 tầng: Tƣơng
ứng với các chuỗi sản phẩm/loại sản phẩm đƣợc
xem liền nhau trong cùng một lƣợt xem. Từ chuỗi
các nút liên tiếp trên cùng tầng, chúng tôi trích ra
tất cả các chuỗi con k nút và chọn các chuỗi con có
tần suất cao nhất làm đặc trƣng chuỗi.
Cặp nút chuyển đổi tại các tầng khác nhau: Đặc
trƣng này phản ánh thói quen xem sản phẩm của 1
ngƣời dùng khi chuyển từ 1 loại sản phẩm này
sang 1 loại khác ở tầng khác nhau.
Chẳng hạn, với biểu diễn cây nhƣ ở hình 1.1, một
số thuộc tính nhƣ ở trên có thể đƣợc trích ra nhƣ sau:
Số lƣợng nút tại mỗi tầng: {1, 3, 4, 5}
Chuỗi các nút liên tiếp trên cùng 1 tầng có thể là
{B00001, B00003, B00001}, {B00001, B00003},
{C00006, C00010}, {D19760, D18416, D19764},
v.v.
Các cặp nút chuyển đổi tại các tầng khác nhau có
thể là {D19760, B00001}, {D18416, C00004},
v.v.
Với số lƣợng lớn các sản phẩm và phân loại sản
phẩm, tổng số lƣợng các chuỗi nút và các cặp nút
chuyển đổi có thể rất lớn. Do đó, tƣơng tƣ nhue cách
xây dựng tập đặc trƣng cho các sản phẩm đơn lẻ,
chúng tôi chỉ lựa chọn các chuỗi nút và các cặp nút
chuyển đổi có tần suất xuất hiện ít nhất 3 lần và hoặc
tần suất ít hơn nhƣng xuất hiện trong cả 2 tập dữ liệu.
Theo đó, danh sách và số lƣợng các đặc trƣng nâng
cao đƣợc liệt kê trong bảng 3.
Bảng 3. Các đặc trưng nâng cao
Đặc trưng Mô tả
Số lƣợng nút tại mỗi tầng 4 đặc trƣng
Các chuỗi nút có tần suất xuất
hiện cao nhất
2.277 đặc trƣng
Các cặp nút chuyển đổi có tần
suất xuất hiện cao nhất
465 đặc trƣng
C. Các phương pháp phân loại
Trong nghiên cứu này, chúng tôi sử dụng 3 thuật
toán học máy để xây dựng mô hình phân loại nhƣ đã
nói ở trên. Đó là Random Forest (RF), Support Vector
Machine (SVM), và Bayesian Network (BN). RF là
một thuật toán học kết hợp sử dụng các tập con của dữ
liệu và tập con đặc trƣng để xây dựng nên các cây
quyết định. RF xây dựng nhiều cây quyết định nhƣ
vậy và kết hợp chúng để cho kết quả phân loại cuối
cùng có độ chính xác cao hơn. Do thuật toán này lựa
chọn ngẫu nhiên các tập con đặc trƣng để xây dựng
cây quyết định nên phù hợp với các vấn đề có tập đặc
trƣng lớn và thƣa nhƣ vấn đề hiện tại. SVM là phƣơng
pháp phân loại dựa trên lý thuyết học thống kê đƣợc
đề xuất bởi Vapnik năm 1995. SVM là thuật toán học
máy có ƣu điểm là có thể xử lý số lƣợng lớn các đặc
trƣng phân loại và không cần đến việc giảm bớt số
lƣợng đặc trƣng nhằm tránh vấn đề quá khớp (over-
fitting). Đặc điểm này rất hữu ích khi xử lý các vấn đề
có số chiều lớn. BN là một mô hình xác suất dạng đồ
thị biểu thị sự phụ thuộc thống kê trên một tập hợp các
biến ngẫu nghiên. Đây cũng là thuật toán đƣợc sử
dụng khá phổ biến trong xây dựng các mô hình học
máy.
Bên cạnh các thuật toán học máy, do tập dữ liệu
huấn luyện có đặc điểm không cần bằng giữa các lớp
(khoảng 80% là nữ và chỉ 20% nam), một số kỹ thuật
hỗ trợ nhƣ Resampling, Cost-Sensitive Learning
(CSL) đƣợc áp dụng để nâng cao độ chính xác cho lớp
thiểu số. Resampling là một phƣơng pháp đƣợc sử
dụng phổ biến để xử lý các trƣờng hợp không cân
bằng trong dữ liệu huấn luyện. Ý tƣởng cơ bản của
phƣơng pháp này là thêm vào hoặc bớt đi 1 số mẫu để
làm cho tập dữ liệu trở nên cân bằng hơn. Ngoài ra,
A00002
B00003 B00001 B00003
C00006 C00010 C00008 C00004
D19760 D18416 D19764 D19761 D08538
SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 20
Dương Trần Đức
cũng có thể đặt lại trọng số cho các mẫu của mỗi lớp
để giúp cân bằng tổng trọng số của mỗi lớp [10].
Trong khi resampling là một phƣơng pháp ở mức dữ
liệu thì CSL là một phƣơng pháp ở mức thuật toán
dùng để giải quyết vấn để phân loại không cân bằng.
Theo Ling và các cộng sự [11], CSL là một phƣơng
pháp có tính đến chi phí phân loại sai, nghĩa là nó xem
xét các phân loại sai của các lớp khác nhau là khác
nhau, nhờ đó có thể cân bằng độ chính xác giữa 2 lớp
khi xây dựng mô hình phân loại.
Ngoài ra, do số lƣợng các đặc trƣng lớp và dữ
liệu thƣa, các kỹ thuật lựa chọn đặc trƣng đƣợc nghiên
cứu, áp dụng để giảm bớt độ phức tạp và loại bỏ đi các
đặc trƣng ít liên quan đến quá trình phân loại. Trong
nghiên cứu này, chúng tôi thử nghiệm một số độ đo
nhƣ Độ lợi thông tin (Information Gain), Khi-bình
phƣơng (Chi-Square), Tƣơng quan (Correlation) để
chọn ra phƣơng pháp và số lƣợng đặc trƣng phù hợp
nhất.
IV. THỰC NGHIỆM
A. Dữ liệu và phương pháp đánh giá
Trong nghiên cứu này, chúng tôi sử dụng các tập
dữ liệu đƣợc cung cấp bởi tập đoàn FPT cho cuộc thi
về khai phá dữ liệu và phát hiện tri thức trong khuôn
khổ hội nghị PAKDD’15. Dữ liệu đƣợc chia thành 2
tập là tập huấn luyện và tập kiểm chứng. Mỗi tập dữ
liệu chứa 15.000 bản ghi, tƣơng ứng với các bản lƣu
trữ về thông tin xem sản phẩm của mỗi ngƣời dùng.
Về phƣơng pháp đánh giá, nhƣ đã trình bày ở
trên, do vấn đề không cân bằng của các lớp dự đoán,
độ đo chính xác cân bằng đƣợc sử dụng để đánh giá
mô hình. Độ đo chính xác cân bằng đƣợc định nghĩa là
độ chính xác trung bình của mỗi lớp và việc sử dụng
độ đo này có thể tránh đƣợc các dự báo hiệu suất giả
tạo trong các tập dữ liệu không cân bằng lớp.
fptn
tn
fntp
tp
BACaccuracybalanced
*5.0*5.0
)(
Trong đó tp (true positive) là số các mẫu mang
nhãn “dƣơng” đƣợc phân đúng vào lớp “dƣơng”, tn
(true nagative) là số các mẫu mang nhãn “âm” đƣợc
phân đúng vào lớp “âm”, fp (false positives) là số các
mẫu mang nhãn “âm” đƣợc phân sai vào lớp “dƣơng”,
và fn (false negative) là số các mẫu mang nhãn
“dƣơng” đƣợc phân sai vào lớp “âm”.
Đây cũng là độ đo đƣợc sử dụng để đánh giá các
kết quả trong cuộc thi PAKDD’15 Data Mining
Competition. Trong nghiên cứu này, chúng tôi sử dụng
độ đo này cũng với độ đo Macro F1 để tiện so sánh
với các nghiên cứu trƣớc đây.
B. Kết quả và đánh giá
Nhằm đánh giá hiệu quả của các đặc trƣng cơ bản
và nâng cao, chúng tôi thực hiện các thí nghiệm trên
các tập đặc trƣng khác nhau, bao gồm tập đặc trƣng cơ
bản và tập đặc trƣng cơ bản kết hợp nâng cao. Theo
cách phân loại tập đặc trƣng, các đặc trƣng nâng cao
chỉ mang tính bổ sung, nếu sử dụng riêng rẽ sẽ không
hiệu quả. Do đó, chúng tôi không tiến hành thí nghiệm
trên tập đặc trƣng nâng cao riêng rẽ trong nghiên cứu
này.
Mỗi tập đặc trƣng sẽ đƣợc thử nghiệm trên 3
thuật toán học máy và các kỹ thuật hỗ trợ nhƣ đã nói ở
trên, trong đó Resampling sử thuật toán tái cân bằng
lớp dựa trên kỹ thuật đặt lại trọng số Class Balancer
(CB). Công cụ thực nghiệm sử dụng bộ công cụ học
máy WEKA (Waikato Environment for Knowledge
Analysis). Đây là một tập hợp các thuật toán học máy
và các công cụ xử lý dữ liệu đƣợc phát triển bởi nhóm
nghiên cứu tại Đại học Waikato, New Zealand. Công
cụ này đƣợc viết bằng ngôn ngữ Java và đƣợc phân
phối dƣới dạng mã nguồn mở. Kết quả thực nghiệm
cuối cùng cho thấy khi thuật toán học máy kết hợp
với kỹ thuật tái cân bằng lớp theo phƣơng pháp đặt lại
trọng số cho các lớp ClassBalancer và kỹ thuật học
nhạy cảm chi phí CostSensitiveClassifier cho kết quả
BAC tốt nhất. Bảng 4 cho thấy kết quả cụ thể của các
thực nghiệm khi chƣa áp dụng các thuật toán lựa chọn
đặc trƣng và tối ƣu tham số học máy.
Bảng 4. Kết quả thực nghiệm khi sử dụng CSL kết
hợp CB
Đặc trưng cơ bản Đặc trưng cơ bản +
nâng cao
BAC Macro F1 BAC Macro F1
RF 77.3 75.5 81.0 78.5
SVM 76.6 74.4 79.5 76.7
BN 76.0 74.4 78.5 76.0
Có thể thấy, các đặc trƣng nâng cao khi đƣợc sử
dụng kết hợp với các đặc trƣng cơ bản đã cải tiến kết
quả đáng kể khi so sánh với việc chỉ sử dụng đặc trƣng
cơ bản. Mặc dù vậy, trong tập dữ liệu đƣợc cung cấp,
có khá nhiều lƣợt xem chỉ có một sản phẩm đƣợc xem
(khoảng 30%) và các đặc trƣng nâng cao không có
hiệu quả với các trƣờng hợp này (do không có nhiều
sản phẩn đƣợc xem trong cùng lƣợt để khai thác mối
quan hệ giữa chúng). Trên thực tế, số lƣợng ngƣời
dùng xem nhiều sản phẩm trong 1 lƣợt xem sẽ nhiều
hơn và do đó việc sử dụng các đặc trƣng nâng cao sẽ
đem lại hiệu quả cao hơn khi áp dụng trong các trƣờng
hợp này.
So sánh kết quả của các thuật toán học máy,
thuật toán RF có kết quả vƣợt trội so với các thuật
SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 21
PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT
toán SVM và BN. Thuật toán RF thực hiện học kết
hợp thông qua việc lựa chọn nhiều tập con đặc trƣng
và dữ liệu để xây dựng nên 1 tập các cây quyết định,
do đó phù hợp với bài toán có số lƣợng đặc trƣng lớn
và thƣa nhƣ bài toán hiện tại. Một điểm thú vị khác là
phƣơng pháp biểu diễn đặc trƣng đƣợc sử dụng trong
nghiên cứu này cũng có cấu trúc dạng cây. Tuy nhiên,
kết quả vẫn có thể tiếp tục đƣợc cải tiến thông qua
việc lựa chọn đặc trƣng và tối ƣu tham số.
C. Lựa chọn đặc trưng và tối ưu tham số
Mặc dù thuật toán RF đã tiến hành lựa chọn tập
đặc trƣng tốt trong quá trình học thông qua việc lựa
chọn ngẫu nhiên các đặc trƣng tại các bƣớc xây dựng
cây quyết định, tuy nhiên vẫn có thể cải tiến độ chính
xác bằng việc thực hiện các thuật toán lựa chọn đặc
trƣng dựa trên các độ đo thống kê. Trong nghiên cứu
này, chúng tôi thử nghiệm 3 phƣơng pháp lựa chọn
đặc trƣng là Information Gain, Chi-Square, và
Correlation. Information Gain sử dụng cách đo độ
quan trọng của mỗi đặc trƣng trong việc phân biệt các
lớp phân loại và đã đƣợc ứng dụng trong nhiều nghiên
cứu trƣớc đây và cho kết quả tốt. Chi-Square là phép
thử có thể đánh giá sự độc lập của 2 biến trong thống
kê, và đƣợc sử dụng để đo mức độ độc lập giữa 1 đặc
trƣng và lớp phân loại. Trong khi đó, phƣơng pháp
Correlation sử dụng độ đo tƣơng tự giữa các đặc trƣng
với nhau và với lớp phân loại để đánh giá tập đặc
trƣng tốt. Kết quả thử nghiệm cho thấy Information
Gain là phƣơng pháp phù hợp nhất cho vấn đề hiện tại
với số lƣợng tối ƣu đƣợc lựa chọn là 2.500 đặc trƣng.
Hình 2 cho thấy kết quả phân loại tốt dần với các số
lƣợng đặc trƣng thấp và đạt đỉnh tại mức 2.500 đặc
trƣng.
Hình 2. Kết quả phân loại với các số lượng đặc trưng
được lựa chọn khác nhau
Ngoài ra, các thực nghiệm ở phần trƣớc đƣợc
thực hiện trên tập tham số mặc định của thuật toán.
Các kết quả có thể đƣợc cải tiến thông qua việc tối ƣu
các tham số. Thuật toán RF có 3 tham số có thể ảnh
hƣởng tới độ chính xác phân loại. Đó là số lƣợng đặc
trƣng tối đa đƣợc lựa chọn khi xây dựng các cây
quyết định, số lƣợng cây đƣợc xây dựng (số vòng
lặp), kích thƣớc lá tối thiểu của cây. Các tham số này
đƣợc tối ƣu sử dụng thuật toán Grid Search để chọn ra
các tham số cho kết quả tốt nhất với thời gian tính
toán phù hợp. Bảng 6 cho biết kết quả phân loại sau
khi thực hiện lựa chọn đặc trƣng và tối ƣu tham số
cho thuật toán RF.
Bảng 5. Kết quả phân loại sau khi lựa chọn đặc trưng
và tối ưu tham số
BAC Macro
F1
Kết quả ban đầu 81.0 78.5
Áp dụng lựa chọn đặc trƣng với
Information Gain
81.2 78.8
Tối ƣu tham số cho thuật toán RF
(1000 cây, với số đặc trƣng 13)
81.7 79.3
D. Đánh giá
Kết quả cơ sở của các nghiên cứu về dự đoán giới
tính tác giả văn bản là hơn 80% (độ đo chính xác
thông thƣờng accracy và độ đo F1). Mặc dù so sánh
các kết quả của các nghiên cứu trên các tập dữ liệu
khác nhau không thực sự hợp lý, tuy nhiên, với cùng
mục đích dự đoán giới tính ngƣời dùng, kết quả của
nghiên cứu này có thể xem là có nhiều triển vọng. Với
các nghiên cứu có độ tƣơng tự cao hơn nhƣ [6], [13]
khi dự đoán giới tính ngƣời dùng thông qua hành vi
duyệt website, kết quả Marco F1 của nghiên cứu này
cũng tƣơng đƣơng, trong khi hành vi duyệt website tạo
ra nhiều dữ liệu có ý nghĩa hơn. Ngoài ra, các trang
web còn chứa các văn bản, do vậy có thể tạo ra nhiều
loại đặc trƣng hơn. So sánh với các giải pháp khác của
các nhóm tham gia cuộc thi PAKDD’15 Data Mining
Competition, giải pháp trong nghiên cứu này trong
top 10 trên 150 nhóm tham dự. Kết quả của nhóm cao
nhất là 87.9% và các nhóm trong top 10 có kết quả từ
81%. Tuy nhiên, ƣu điểm của giải pháp của nghiên
cứu này là sử dụng một cấu trúc đặc trƣng đơn giản,
nhƣng vẫn đạt đƣợc các kết quả đáng kể. Cấu trúc đặc
trƣng này có tính tổng quát, không chứa các đặc trƣng
mang tính đặc thù, do vậy có thể dễ dàng áp dụng
sang các hệ thống khác. So sánh với nghiên cứu đƣợc
thực hiện trên cùng tập dữ liệu và đƣợc công bố chính
thức của Lu và các cộng sự [12], nghiên cứu này có
kết quả tốt hơn, mặc dù không sử dụng bƣớc cập nhật
nhãn.
V. KẾT LUẬN
Trong nghiên cứu này, chúng tôi trình bày một
phƣơng pháp dự đoán giới tính ngƣời dùng dựa trên
dữ liệu thu thập từ hệ thống TMĐT. Phƣơng pháp tiếp
cận sử dụng các đặc trƣng cơ bản nhƣ thời gian, tần
suất xem sản phẩm, cùng với các đặc trƣng nâng cao
nhƣ các chuỗi sản phẩm/loại sản phẩm hoặc các cặp
sản phẩm/loại sản phầm chuyển tiếp trong lƣợt xem.
Phƣơng pháp này sử dụng một biểu diễn dạng cây của
danh sách các sản phẩm/loại sản phẩm và sử dụng các
Số lượng đặc trưng
SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 22
Dương Trần Đức
thuộc tính của cây nhƣ số nút, chuỗi các nút cùng tầng,
cặp nút chuyển khác tầng v.v. làm đặc trƣng phân loại.
Thiết kế tập đặc trƣng này cho kết quả tốt nhất trên
thuật toán Random Forest cùng với các kỹ thuật hỗ trợ
nhƣ Cost Sensitive Learning và Class Balancing.
Ngoài ra, kết quả cũng đƣợc cải tiến thông qua một số
kỹ thuật nhƣ lựa chọn đặc trƣng, tối ƣu tham số thuật
toán.
Hƣớng phát triển tiếp theo của nghiên cứu có thể
liên quan đến việc khai thác các đặc trƣng rút trích từ
cây biểu diễn danh sách sản phẩm/loại sản phẩm.
Ngoài ra, cũng có thể thu thập thêm các dữ liệu bổ
sung và mở rộng sang dự đoán các đặc điểm khác của
ngƣời dùng nhƣ độ tuổi, nghề nghiệp v.v.
TÀI LIỆU THAM KHẢO
[1] S. Argamon, M. Koppel, J. Fine, and A. Shimoni,
“Gender, genre, and writing style in formal written
texts,” Text 23(3), August 2003.
[2] S. Argamon, M. Koppel, J. Pennebaker, and J. Schler,
“Automatically profiling the author of an anonymous
text,” Communications of the ACM , v.52 n.2,
February 2009.
[3] J. C. A. Culotta, N. R. Kumar, and J. Cutler,
“Predicting the demographics of twitter users from
website traffic data, ” Proceedings of the 29th AAAI
Conference on Artificial Intelligence, Jan 2015.
[4] O. De Vel, A. Anderson, M. Corney, and G. M.
Mohay, “Mining e-mail content for author
identification forensics,” SIGMOD Record 30(4), pp.
55-64, 2001.
[5] Y. Dong, Y. Yang, J. Tang, Y. Yang, and N. V.
Chawla, “Inferring user demographics and social
strategies in mobile social networks.” In: KDD’14.
ACM. p. 15–24, 2014.
[6] J. Hu, H. J. Zeng, H. Li, C. Niu, and Z. Chen,
“Demographic prediction based on user’s browsing
behavior,” Proceedings of the 16th international
conference on World Wide Web, pp. 151-160, 2007.
[7] F. Iqbal, M. Debbabi, B. C. M. Fung, and L. A. Khan,
“E-mail authorship verification for forensic
investigation,” Proceedings of the 2010 ACM
Symposium on Applied Computing, ser. SAC '10. New
York, NY, USA: ACM, pp. 1591-1598, 2010.
[8] S. Kabbur, E. H. Han, and G. Karypis, “Content-based
methods for predicting web-site demographic
attributes,” Proceedings of ICDM, pp. 863-868, 2010.
[9] M. Koppel, S. Argamon, and A. R. Shimoni,
“Automatically categorizing written texts by author
gender,” Literary and Linguistic Computing, 17(4), pp
: 401-412, 2002.
[10] S. Kotsiantis, D. Kanellopoulos, and P. Pintelas,
“Handling unbalanced datasets: A review,” GESTS
International Transactions on Computer Science and
Engineering 30 (1), pp. 25-36, 2006.
[11] C. X. Ling, and V. S. Sheng, “Cost-sensitive learning
and the class imbalance problem.” In: Sammut C (ed)
Encyclopedia of machine learning. Springer, Berlin,
2008.
[12] S. Lu, Z. Meng, Z. Hui, Z. Chen, W. Wei, and W. Hao,
"GenderPredictor: A Method to Predict Gender of
Customers from E-commerce Website," In Web
Intelligence and Intelligent Agent Technology (WI-
IAT), 2015 IEEE/WIC/ACM International Conference
on, vol. 3, pp. 13-16. 2015.
[13] T. M. Phuong, and D. V. Phuong, “Gender prediction
using browsing history,” Proceedings of the Fifth
International Conference KSE 2013, Volume 1. pp.
271-283, 2013.
[14] D. Nguyen, R. Gravel, D. Trieschnigg, and T. Meder,
"How old do you think i am?; a study of language and
age in twitter,” Proceedings of the Seventh
International AAAI Conference on Weblogs and
Social Media, 2013.
[15] J. J. C. Ying, Y. J. Chang, C. M. Huang, and V. S.
Tseng, “ Demographic prediction based on users
mobile behaviors,” In Nokia Mobile Data Challenge,
2012.
Ảnh tác
giả
Dƣơng Trần Đức Tốt nghiệp Đại
học Khoa học Tự nhiên, Đại học Quốc
gia Hà Nội ngành Công nghệ thông tin
năm 1999. Tốt nghiệp Thạc sỹ chuyên
ngành Hệ thống thông tin tại Đại học
Tổng hợp Leeds, Vương Quốc Anh
năm 2004. Hiện đang công tác tại
Khoa Công nghệ Thông tin, Học viện
Công nghệ Bưu chính Viễn thông.
SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 23
Các file đính kèm theo tài liệu này:
- phuong_phap_bieu_dien_cay_cho_du_doan_gioi_tinh_khach_hang_d.pdf