Khám phá và trực quan hoá cộng đồng cá nhân trên mạng xã hội dựa theo mô hình chủ đề kết hợp mạng Kohonen

Kết quả thử nghiệm và thảo luận Thử nghiệm phương pháp đánh giá, các bộ dữ liệu là tập vector từ kết quả của mô hình TART (Bảng 1) được bài nghiên cứu sử dụng cho việc thử nghiệm các phương pháp gom cụm để tìm ra giá trị trung bình của RMSSTD và RS. Kết quả thử nghiệm này được lặp lại 1000 lần để cung cấp kết quả ổn định và đáng tin cậy và số lượng các cụm k cũng được thay đổi để có thêm điều kiện so sánh các phương pháp và giải thuật. Trong Bảng 3, cho thấy các giá trị trung bình RMSSTD, phương pháp mạng nơ-ron Kohone cho kết quả RMSSTD thấp nhất cho tất cả các lựa chọn số cụm. Điều này cho thấy rằng, phương pháp mạng nơ- ron Kohonen có kết quả thực hiện vượt trội hơn so với giải thuật K-Medoids. Trong thử nghiệm này, hai kỹ thuật gom cụm được so sánh dựa trên giá trị RMSSTD và RS (Bảng 4) cho bộ dữ liệu thực tế từ kết quả mô hình chủ đề TART. Kết quả cho thấy rằng thuật toán phương pháp mạng nơ- ron Kohonen (SOM) mang lại những giá trị RMSSTD là thấp nhất và giá trị RS là cao nhất.

pdf16 trang | Chia sẻ: hachi492 | Ngày: 15/01/2022 | Lượt xem: 241 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Khám phá và trực quan hoá cộng đồng cá nhân trên mạng xã hội dựa theo mô hình chủ đề kết hợp mạng Kohonen, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Open Access Full Text Article Bài nghiên cứu Trường Đại học Kinh tế - Luật, ĐHQG-HCM, Việt Nam Liên hệ Hồ Trung Thành, Trường Đại học Kinh tế - Luật, ĐHQG-HCM, Việt Nam Email: thanhht@uel.edu.vn Lịch sử  Ngày nhận: 19/2/2019  Ngày chấp nhận: 25/4/2019  Ngày đăng: 30/9/ 2019 DOI :10.32508/stdjelm.v3i3.572 Bản quyền © ĐHQG Tp.HCM. Đây là bài báo công bố mở được phát hành theo các điều khoản của the Creative Commons Attribution 4.0 International license. Khám phá và trực quan hoá cộng đồng cá nhân trênmạng xã hội dựa theomô hình chủ đề kết hợpmạng Kohonen Hồ Trung Thành*, Nguyễn Quang Hưng, Trần Duy Thanh Use your smartphone to scan this QR code and download this article TÓM TẮT Cá nhân (người dùng) là thành viên của cộng đồng trên mạng xã hội. Chủ đề quan tâm của cá nhân trên mạng xã hội thường thay đổi dẫn đến chủ đề quan tâm của cộng đồng thay đổi theo. Mức độ, thời gian và chủ đề được quan tâm của cá nhân trong cộng đồng là những đặc trưng của cộng đồng. Sự thay đổi các đặc trưng của cộng đồng thường phụ thuộc vào hai nguyên nhân chính : (i) thông qua sở thích của từng cá nhân trên mạng cùng kết bạn với nhau hoặc cùng quan tâm đến những chủ đề dựa trên nội dung thông điệp mà cá nhân quan tâm trao đổi ; (ii) hình thành hay thay đổi từ nhóm các bạn bè cùng kết bạn trên mạng hoặc thông qua sự giới thiệu bạn bè cùng kết bạn. Như vậy, mối liên hệ của cá nhân trong cộng đồng xem như một mạng liên kết những thành viên thông qua những đặc trưng trên MXH. Trong bài báo này, tác giả nghiên cứu và đề xuất phương pháp khám phá cộng đồng sử dụng mô hình chủ đề có yếu tố thời gian TART kết hợp phương pháp mạng nơ-ron Kohonen với mục tiêu khám phá cộng đồng những cá nhân có cùng chủ đề quan tâm theo từng giai đoạn thời gian. Qua thử nghiệm mô hình và phương pháp được đề xuất trên hai tập dữ liệu thông điệp tiếng Việt (thu thập từ mạng xã hội trong các trường đại học và trang báo điện tử) bằng hệ thống phần mềm được xây dựng để phân tích mạng mạng xã hội đã đạt được mục tiêu của nghiên cứu. Từ khoá: khám phá cộng đồng, phân tích mạng xã hội, mô hình TART, mạng nơ-ron Kohonen, mô hình chủ đề GIỚI THIỆU Mạng xã hội trực tuyến (MXH) đã đạt được những thành tựu lớn trong nhiều lĩnh vực như kinh tế, chính trị, xã hội, giáo dục. Mục tiêu phân tíchMXH là phân tích sự tương tác giữa con người, tổ chức với nhau và khám phá những thông tin, tri thức tiềm ẩn thông qua sự tương tác đó 1–4. Xu hướng gần đây, các nghiên cứu tập trung vào phân tích MXH và khám phá cộng đồng. Chính MXH đã tạo nên sự không lệ thuộc vào không gian và thời gian khi giao tiếp của cá nhân và cộng đồng. MXHmang lại lượng lớn dữ liệu là thông điệp trao đổi của cá nhân thông qua các liên kết xã hội. Hình 1 biểu diễn mối liên kết giữa các cá nhân trong MXH. Có thể biểu diễn dữ liệu này bằng cấu trúc đồ thị của MXH và nội dung dữ liệu là thông tin trao đổi giữa các thành viên trên MXH trong đó bao gồm dữ liệu thông điệp, dữ liệu đa phương tiện... Đây chính là nguồn dữ liệu để phân tíchMXH tìm ra những thông tin, tri thức tiềm ẩn được chứa đựng trong dữ liệu trên MXH2,3,5. Khám phá cộng đồng làmột phương pháp trong phân tích MXH nhằm tìm ra các nhóm những cá nhân có mối liên kết xã hội với nhau trên MXH và cùng chủ đề quan tâm6–10, đồng thời giúp hiểu được sự quan tâm của từng cá nhân trong cộng đồng MXH theo từng chủ đề cụ thể. Những thay đổi xảy ra trong cộng đồng thường liên quan đến các đặc trưng của cộng đồng như : chủ đề quan tâm, số cá nhân tham gia cộng đồng, mức độ quan tâm chủ đề của cộng đồng tại từng thời điểm khác nhau, và sự thay đổi chủ đề quan tâm trong cộng đồng dẫn đến thay đổi hành vi, sự quan tâm và trao đổi chủ đề của các cá nhân trong cộng đồng. Nghiên cứu đặt ra là làm thế nào để có thể khám phá cộng đồng cùng quan tâmđếnmột haymột nhóm chủ đề thông qua những nội dung thông điệp được trao đổi bởi các cá nhân trênMXH?Vớimột hay nhómchủ đề cụ thể có những cộng đồng nào trên MXH quan tâm trao đổi ? Sự biến thiên chủ đề quan tâm và cá nhân tham gia cộng đồng ? Tìm giải pháp cho các câu hỏi này rõ ràng là việc không đơn giản nhưng kết quả nghiên cứu sẽ giúp cho việc phân tích và khám phá chủ đề được cá nhân quan tâm hay tìm ra những cá nhân có ảnh hưởng trong cộng đồng để phục vụ cho những chiến lược phát triển như quản lý cộng đồng cá nhân của công ty, tổ chức hay của một quốc gia; hiểu cá nhân để thực hiện chiến lược tiếp thị hiệu quả, phát Trích dẫn bài báo này: Thành H T, Quang Hưng N, Duy Thanh T. Khám phá và trực quan hoá cộng đồng cá nhân trên mạng xã hội dựa theo mô hình chủ đề kết hợp mạng Kohonen. Sci. Tech. Dev. J. - Eco. Law Manag.; 3(3):311-326. 311 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 1: Mối liên kết xã hội giữa các cá nhân (actors) trên MXH Facebook. (Nguồn: m) triển loại hình đào tạo trực tuyến trong trường đại học và ứng dụng trong nhiều lĩnh vực khác. CÁC NGHIÊN CỨU LIÊN QUAN Bài nghiên cứu tập trung khảo sát các nghiên cứu về xây dựng mô hình khám phá nhóm hay cộng đồng cá nhân trên MXH cùng quan tâm đến chủ đề9,11–14. Bên cạnh đó, bài nghiên cứu cũng đã khảo sát các nghiên cứu liên quan đến khámphá cộng đồng MXH1,12,15–19 dựa theo mô hình chủ đề. Các nghiên cứu trên đã đạt kết quả trong khám phá cộng đồng mạng dựa trên việc phân tích nội dung thông điệp là các bài báo khoa học, nội dung email bằng tiếng Anh. Trong đó, một số mô hình tiêu biểu như mô hình GT (Group – Topic)13 được xây dựng dựa theo phương pháp mạng Bayes, mục tiêu của mô hình GT là khám phá những nhóm cá nhân ẩn trên MXH dựa trên phân tích nội dung được trao đổi bởi cá nhân. Tuy nhiên, nghiên cứu này chưa chỉ rõ từng thành phần trong cộng đồng như cá nhân gửi, cá nhân nhận thông điệp. Mô hình CUT (Community-User-Topic)8 đã dựa theo phương pháp mạng Bayes, kỹ thuật Gibbs sampling và phương pháp khámphá cộng đồng để tìm ra tập cá nhân cùng quan tâm đến các chủ đề cụ thể và hình thành nên các cộng đồng. Tuy nhiên, trong tài liệu của Zhou và cộng sự 8 giống như một số mô hình khác đã giới thiệu, Zhou và cộng sự 8 chưa quan tâm đến yếu tố thời gian mà cá nhân hay cộng đồng quan tâm trao đổi chủ đề cũng chưa quan tâm đến cá nhân là người nhận hay người gửi trong cộng đồng. Việc này là quan trọng để phân tích được xu thế quan tâm chủ đề với vai trò của cá nhân. Mô hình ATC (Author-Topic-Community) 7 được nhóm tác giả đề xuất và công bố vào năm 2015. Mô hình ATC tập trung quan tâm khai thác các thành phần chính là tác giả A, cộng đồng C và chủ đề T. Trong nghiên cứu 7, nhóm tác giả chưa tập trung khai thác yếu tố thời gian và phân tích sự biến thiên chủ đề quan tâm của cộng đồng cũng như cá nhân trên MXH. ĐỘNG LỰC NGHIÊN CỨU Đối với các nghiên cứu được giới thiệu trên, chúng ta nhận thấy rằng: - Ưu điểm: • Các mô hình đã được xây dựng dựa theo mô hình chủ đề. • Sử dụng mô hình ART20 để tạo vector chủ đề quan tâm và sử dụng làm vector đầu vào cho quá trình gom cụm của mô hình. • Các mô hình dùng giải thuật gom cụm (K- Means hoặc K-Medoids, và một số giải thuật khác) để khám phá cộng đồngMXH theo vector chủ đề quan tâm. - Hạn chế: • Chưa gom cụm cộng đồng theo thời gian vì vec- tor đầu vào của mô hình ART20 không có yếu tố thời gian. • Chưa biểu diễn trực quan kết quả gomcụmcộng đồng theo thời gian và phân tích sự biến thiên đặc trưng của cộng đồng. • Số cộng đồng MXH là rất lớn, các nghiên cứu dùng giải thuật K-Means hoặc K-Medoids nên khó tính toán trước hệ số K để gom cụm cộng đồng. Nghĩa là khó xác định số cộng đồng. Bên cạnh đó, đối với vấn đề phân tích sự phân bố chủ đề trong cộng đồng theo thời gian, phân bố chủ đề được quan tâm trong cộng đồng, với một chủ đề thì sự quan tâm của nhiều cá nhân thay đổi ra sao, điều này cũng chưa được các nghiên cứu quan tâm. Hơn thế nữa, các nghiên cứu trên chủ yếu tập trung khám 312 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 phá cộng đồng dựa trên tập dữ liệu thông điệp tiếng Anh. Bài báo nghiên cứu và thử nghiệm trên tập dữ liệu thông điệp tiếng Việt được thu thập từ MXH. Để khắc phục những hạn chế của các nghiên cứu trước, bài nghiên cứu xây dựng phương pháp khám phá cộng đồng dựa trên mô hình chủ đề có yếu tố thời gian kết hợp mạng nơ-ron Kohonen để khám phá cộng đồng theo thời gian và trực quan hoá kết quả khám phá cộng đồng dựa trên lớp ra Kohonen. Áp dụng phương pháp huấn luyện Kohonen để gom cụm những cá nhân cùng quan tâm đến chủ đề cụ thể những mức độ quan tâm là khác nhau, vì thế kết quả gom nhóm từ phương pháp đề xuất của bài nghiên cứu giải quyết được tiêu chí phải xác định trước số cụm trong phương pháp gom cụm. LÝ THUYẾT KHÁM PHÁ CỘNGĐỒNG CÁ NHÂN TRÊNMẠNG XÃHỘI Theo Hình 2 và Hình 3 thể hiện một mô hình MXH gồm các cộng đồng cá nhân9. Tập hợp các cộng đồng trên mạng được ký hiệu là C vàmột cộng đồng đang xét được ký hiệu là c, như vậy ta có c 2C 9. Định nghĩa 1:Cộng đồng9 Cộng đồng là một tập thể cùng sống và làm việc trong cùng một môi trường. Định nghĩa 2:Cộng đồngMXH5,9 Cộng đồng MXH là một tập hợp các cá nhân tương tác thông qua các phương tiện truyền thông cụ thể, có khả năng vượt qua những ranh giới địa lý và chính trị để theo đuổi lợi ích hay mục tiêu chungHình 2. Định nghĩa 3: Cộng đồng MXH theo chủ đề (đề xuất của bài nghiên cứu) Dựa theo mô hình chủ đề, cộng đồng là tập hợp các cá nhân cùng quan tâm đến các chủ đề. Mỗi cá nhân trong cộng đồng được đặc trưng bằng một vector chủ đề quan tâm và mức độ cùng quan tâm đến chủ đề trong cộng đồng nhiều hơn so với những cộng đồng khác. Cho c là một cộng đồng theo chủ đề, c 2C, trong đó C là tập hợp các cộng đồng. Cộng đồng là một phân hoạch với các đặc tính như cụm, ký hiệu C = fCl ;C2;C3;C4; : : : ;CKg với K là số cộng đồng, mỗi cộng đồng Ci có tập vector chủ đề: 1. Rời nhau: Ci\Cj = /0 nếu hai cộng đồng không cùng quan tâm đếnmột hay nhiều chủ đề cụ thể nào đó (Hình 3). 2. Và hợp các cộng đồngUKi=1Ci =C Định nghĩa 3 được bài nghiên cứu áp dụng để thử nghiệm phương pháp khám phá cộng đồng. PHƯƠNG PHÁP GOMCỤM, VẤNĐỀ TRỰCQUANHÓA VÀMÔHÌNH CHỦ ĐỀ Phương pháp gom cụmvà vấn đề trực quan hóa Phương pháp gom cụm (khám phá cộng đồng) là quá trình nhận biết các cụm dữ liệu mà mỗi cụm là một tập hợp dữ liệu tương đồng nhau. Sự tương đồng nhau của dữ liệu được mô tả và xác định bởi hàm khoảng cách tuỳ thuộc vào từng phương pháp (thường là khoảng cách Euclide). Mục đích gom cụm dữ liệu cũng nhằmnhận diệnmật độ dữ liệu trong tập dữ liệu lớn, nhiều chiều từ đó hiểu được cấu trúc của dữ liệu đầu vào và nhận biết những cụm dữ liệu có những đặc trưng giống nhau. Có nhiều kỹ thuật gom cụmdữ liệu như SVM,K-means, K-Medoids vàmạng nơ-ron Kohonen (hay còn gọi là Self-OrganizingMap (SOM)21. Mạng nơ-ron Kohonen do GS. Teuvo Ko- honen phát triển vào những năm 1980 21 và đã được ứng dụng vào bài toán gom cụm phẳng. Mạng nơ- ronKohonen gom cụmdữ liệumà không cần chỉ định trước số cụm. Điều này tương quan với cụm dữ liệu trong nghiên cứu này là cộng đồngmạng theo chủ đề, tập dữ liệu thông điệp vô cùng lớn, đa chiều và cộng đồng mạng rất lớn nên việc xác định trước số cụm - cộng đồng mạng là vô cùng khó khăn. Một mục tiêu quan trọng củamạng nơ-ron Kohonen đối với nghiên cứu này là khả năng biểu diễn trực quan kết quả khám phá cộng đồng trên lớp ra Kohonen 2D21. Mục tiêu cụ thể của mạng nơ-ron Kohonen là ánh xạ những vector đầu vào có N chiều thành một bản đồ với 1 hoặc 2 chiều21–23. Những vector gần nhau trong không gian đầu vào sẽ gần nhau trên bản đồ lớp ra của mạng nơ-ron Kohonen. Điều này đã giúp bài nghiên cứu giải quyết được vấn đề đưa vector chủ đề quan tâm của cá nhân (kết quả mô hình TART24) nhiều chiều về vector 2 chiều để trực quan hóa trên lớp ra mạng nơ-ron Kohonen. Một mạng nơ-ron Kohonen bao gồm một lưới các node đầu ra và N node đầu vào. Vector đầu vào được chuyển đến từng node đầu ra. Mỗi liên kết giữa đầu vào và đầu ra của mạng nơ-ron Kohonen tương ứng với một trọng số. Theo tính chất của thuật giải huấn luyện trên mạng nơ-ron Kohonen, các cụm có vị trí gần nhau trên mạng nơ-ron Kohonen sẽ chứa các đối tượng có mức độ tương tự cao (tập văn bản có nội dung tương tự nhau). 313 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 2: Các cộng đồng có liên hệ trongMXH.(Nguồn : Hình 3: Các cộng đồng rời rạc trongMXH.(Nguồn: Mô hình chủ đề có yếu tố thời gian TART Mô hình TART (Temporal-Author-Recipient-Topic) phân tích MXH có yếu tố thời gian dựa theo mô hình chủ đề (Hình 4). Nhiệm vụ của mô hình TART24: • Khám phá chủ đề quan tâm của cá nhân trên MXH có yếu tố thời gian. Nghĩa là tìm tập actor vector có yếu tố thời gian. • Phân tích vai trò của cá nhân tham gia mạng xã hội dựa theomô hình chủ đề có yếu tố thời gian. • Dùng yếu tố thời gian để chia nhỏ các yếu tố trong mô hình ART như tập cá nhân gửi, tập cá nhân nhận, tập chủ đề và tìm ra sự thay đổi chủ đề quan tâm của cá nhân trong tập thông điệp theo từng khoảng thời gian. • Khảo sát sự biến thiên chủ đề quan tâm của từng cá nhân. ĐỀ XUẤT PHƯƠNG PHÁP KHÁM PHÁ CỘNGĐỒNG Phương pháp khám phá cộng đồng Phương pháp khámphá cộng đồng cá nhân trênMXH dựa theo mô hình chủ đề để khám phá cộng đồng được đề xuất với 2 nhiệm vụ chính: (i) xây dựng phương pháp khám phá cộng đồng dựa theo mô hình chủ đề có yếu tố thời gian. Trong đó, thông qua kết quả khảo sát, phân tích và đánh giá các mô hình liên quan khám phá cộng đồng, bài nghiên cứu chọn phương pháp huấn luyện Kohonen ; (ii) huấn luyện mạng nơ-ron Kohonen kết hợp chuẩn hóa tập dữ liệu đầu vào (là kết quả được thực hiện từmô hình TART) là tập các vector chủ đề quan tâm của cá nhân theo từng giai đoạn thời gian. Từ đó, bài nghiên cứu thực hiện phương pháp khám phá cộng đồng cá nhân và kết quả được thể hiện trên các nơ-ron của lớp ra Ko- honen. Phương pháp khámphá cộng đồng thông qua phương pháp gom cụm dựa trên vector đặc trưng của cá nhân theo từng giai đoạn thời gian. Phương pháp này được thực hiện như Hình 5. Phương pháp được xây dựng gồm ba mô-đun chính: i. Chuẩn hoá vector nhập: là việc chuẩn hoá dữ liệu đầu vào phù hợp với dữ liệu huấn luyện củamạng nơ- ron Kohonen. Chuẩn hoá vector nhập cho quá trình huấn luyện mạng nơ-ron Kohonen là cần thiết 23. Cụ thể Mô-đun này thực hiện việc chuẩn hoá tập vec- tor chủ đề quan tâm của cá nhân theo từng giai đoạn thời gian từ kết quả mô hình TART thành tập vector nhập cho huấn luyện mạng nơ-ron Kohonen. Bởi vì các thành phần vector chủ đề quan tâm của mô hình 314 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 4: Mô hình TART khám phá chủ đề quan tâm của cá nhân theo thời gian 24 Hình 5: Phươngpháp khámphá cộngđồngdựa theo chủđề và phân tích sự biến thiên chủđề quan tâm của cá nhân. TART có thể cho giá trị > 1. Điều này không thoả điều kiện không gian vector của vector trọng nằm trong khoảng [0,1]. ii. Khám phá cộng đồng sử dụng mạng nơ-ron Ko- honen: áp dụng mạng nơ-ron Kohonen để gom cụm cá nhân theo chủ đề quan tâm, mỗi cụm là một cộng đồng theo chủ đề và tương ứng với 1 nơ-ron tại lớp ra Kohonen. iii. Phân tích sự biến thiên đặc trưng của cộng đồng: dựa trên lớp ra Kohonen phân tích sự biến thiên cá nhân tham gia cộng đồng và chủ đề mà cộng đồng quan tâm theo từng giai đoạn thời gian. Phát biểu bài toán khám phá chủ đề quan tâm của cộng đồng trênMXH Áp dụngmạng nơ-ron Kohonen để gom cụm cá nhân theo chủ đề quan tâm. Dựa trên tập vector chủ đề 315 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 quan tâm của cá nhân theo từng giai thời gian, quá trình huấn luyện để gom cụm dựa trên vector đặc trưng từ mô hình TART24. Mỗi cụm là một cộng đồng cá nhân cùng quan tâm đến nhiều chủ đề theo từng giai đoạn thời gian và được hiển thị trênmỗi nơ- ron tại lớp ra Kohonen. Cho MXH G = , trong đó V là tập các cá nhân, E là tập các thông điệp trao đổi giữa các cá nhân và cho tập vector chủ đề quan tâm của cá nhân, tìm cộng đồng C gồm các cá nhân có cùng chủ đề và mức độ quan tâm chủ đề theo từng giai đoạn thời gian. Cho: tập vector nhập (vector chủ đề quan tâm của cá nhân ) {vi} là kết quả từmô hình TART. Vector vi cóm chiều, vi m là số chủ đề quan tâm. Thành phần của vector nhập bao gồm tập chủ đề mà cá nhân quan tâm, mức độ quan tâm và thời gian cá nhân quan tâm chủ đề. Tìm: danh sách các cộng đồng cá nhân C = fC1;C2;C3;C4; : : : ;CKg quan tâmđến tập chủ đề theo từng giai đoạn thời gian. Đặc trưng của từng cộng đồng Ci bao gồm: chủ đề quan tâm, mức độ quan tâm chủ đề và số cá nhân tham gia cộng đồng. Với K là số cộng đồng. Trong đó, các cộng đồng có tính chất:  Rời rạc nhau: Ci\C j = /0 nếu các cộng đồng không cùng quan tâm đến một hay nhiều chủ đề cụ thể nào đó.  Và hợp các cộng đồngUKi=1Ci =C. Phương pháp: áp dụng mạng nơ-ron Kohonen21,22, các bước xử lý chính sau: i. Chuẩn hóa vector nhập vi ii. Đưa vector nhập vi vào quá trình huấn luyệnmạng nơ-ron Kohonen iii. For each i 2 [ 1,...,n ] //n là số cột và dòng lớp ra Kohonen For each j 2 [ 1,...,n ] Tìmnơ-ron có vector trọngwi j gần với vector nhập v nhất Gọi ( i0 , j0 ) là toạ độ của nơ-ron chiến thắng. Như vậy, khoảng cách d v;wi0; j0  = min d v;wi j  , với i; j 2 [1; : : : ;n] và wi0; j0 là trọng của nơ-ron chiến thắng. iv. Xác định vùng lân cận và cập nhật nơ-ron chiến thắng (xemHình 6). Mạng SOM áp dụng cạnh tranhmềm để gom cụm dữ liệu. Vì vậy, không những vector trọng của nơ-ron chiền thắng được cập nhật mà các vector trọng của các nơ-ron lân cận (hay gọi là “láng giềng”) với nơ- ron chiến thắng cũng được cập nhật21,22. Để xác định vùng lân cận của nơ-ron chiến thắng hay gọi là vùng chiến thắng, hàm lân cận Gaussian được áp dụng. Hàm lân cận Gaussian được trình bày bởi công thức: h(r; t) = exp  r2 2s2(t)  (1) Trong đó, rlà kho ảng cách từ nơ-ron lân cận đến nơ- ron chiến thắng. r = q (i0 i)2+( j0 j)2 (2) Với i0, j0 là chỉ số dòng, cột của nơ-ron chiến thắng trên lớp ra. Và s (t) là hàm được sử dụng cho việc xác định không gian lân cận nơ-ron chiến thắng với số lần lặp, giá trị của s giảm dần21. s(t) = s0e t t1 (3) Trong đó, (t1là hằng số, s0 = p m, t là số lần lặp). Trong đó, lớp vào là các vector nhập có kích thước n, lớp ra: gồmcác node (các nơ-ron) được bố trí trênmột lưới (bản đồ). Mỗi nơ-ron có vị trí xác định, tại mỗi nơ-ron lưu giữ một vector trọng số (weight vector) có số chiều bằng với số chiều của vector nhập. Thử nghiệm phương pháp khám phá cộng đồng Dữ liệu dùng thử nghiệm phương pháp khám phá cộng đồng là kết quả tìm được từ mô hình TART24. Dưới đây trình bày một số mẫu vector nhập trong Bảng 1. Mô tả dữ liệu thử nghiệm Bảng 1 là tập 10 vector chủ đề quan tâm đến 6 chủ đề (từ T-0 đến T-6) của 10 cá nhân tham gia trao đổi trong giai đoạn tháng 01-2015. Như vậy, xét trên từng vector, mỗi vector có 7 thành phần. Từng thành phần đó là mức độ quan tâm đến từng chủ đề của cá nhân. Cụ thể, mẫu dữ liệu tại Bảng 1 là mẫu các vector chủ đề quan tâm của cá nhân trênMXH là kết quả củamô hình TART14. Thử nghiệm phương pháp khám phá và trực quan hoá cộng đồng Gọi Ci là một cụm trên lớp ra Kohonen, Ci được tạo bằng cách tính khoảng cách từ vector nhập đến vec- tor trong tương ứng với cụm đó và gán vector nhập vào cụm có khoảng cách nhỏ nhất bằng phương pháp mạng nơ-ronKohonen. Kết quả là tạimỗi nơ-ron trên lớp ra Kohonen tương ứng với một tập các đối tượng có chứa các thuộc tính ( số cá nhân, tập chủ đề quan tâm ) thuộc từng nơ-ron tương ứng là từng cụm (cộng đồng). - Kích thước lớp ra Kohonen : 14 x 14 (196 nơ-ron). 316 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 6: Xác định nơ-ron chiến thắng và vùng lân cận củamạng nơ-ron Kohonen22. Bảng 1: Một sốmẫu vector quan tâm chủ đề (vector nhập) của cá nhân tại tháng 01-2015 Vector Chủ đề T-0 T-1 T-2 T-3 T-4 T-5 T-6 Cá nhân ~v1 0,47922 0,0 0,43396 0,60427 0,44592 0,3247 0,0 Tuan ~v2 0,38182 0,36 0,72414 0,72703 0,34163 0,0 0,0 Minh Nguyễn ~v3 0,33333 0,32075 0,46642 0,35593 0,33333 0,35712 0,41772 Thùy Dương ~v4 0,61194 0,0 0,56522 0,0 0,31646 0,0 0,0 Ánh Trăng ~v5 0,40241 0,50124 0,43301 0,0 0,34608 0,3428 0,31343 Hà Nguyễn ~v6 0,33333 0,74787 0,36456 0,0 0,36232 0,0 0,0 alibaba ~v7 0,63971 0,35199 0,54959 0,47916 0,44037 0,38475 0,49136 huynd1995 ~v8 0,56479 0,44286 0,65217 0,34884 0,30612 0,3717 0,0 Trung ~v9 0,7712 0,64083 0,42059 0,50435 0,39593 0,34884 0,34226 Hung ~v10 0,72819 0,33635 0,43336 0,50981 0,3573 0,45018 0,43044 Nguyên Đức 317 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 -Mỗi vector nhập có 25 thành phần tương ứng 25 chủ đề. - Thời gian : tháng 01-2015 - Số cá nhân tham gia trong tháng 01-2015: 7444 - Kết quả thử nghiệm 1: số cộng đồng khám phá là 60. Trên Hình 5, với từng nơ-ron có màu sậm và nhạt tương ứng với số lượng cá nhân nhiều hay ít tham gia vào cộng đồng. Màu sắc trên mỗi nơ-ron càng đậm đại diện cho số cá nhân trong cộng đồng nhiều hơn những nơ-ron có màu nhạt hơn hoặc cộng đồng không có bất kỳ cá nhân nào (nơ-ron trống không tồn tại cộng đồng). Mỗi cộng đồng tồn tại 2 thành phần chính là chủ đề quan tâm của cộng đồng và số cá nhân tham gia vào cộng đồng. Chẳng hạn trênHình 7, cộng đồng 35 tại nơ-ron 79 có 14 cá nhân tham gia và cùng quan tâm đến 07 chủ đề ( xem danh sách các chủ đề cộng đồng 35 quan tâm được trình bày tạiHình 8). Hình 9 trình bày trực quan kết quả khám phá cộng đồng bao gồm các đặc trưng như cá nhân tham gia và chủ đề quan tâm của của cộng đồng. Hình 10 trình bày kết quả khám phá cộng đồng quan tâm đến chủ đề 5 trong giai đoạn tháng 01-2015. Quan sát trong Bảng 2 nhận thấy rằng, 19 cộng đồng được chọn ngẫu nhiêu trong 41 cộng đồng (xem Hình 7) quan tâm đến 15 chủ đề. Trên Hình 11, mỗi cộng đồng thể hiện rõ được xác suất quan tâm đến từng chủ đề cụ thể. Chẳng hạn, cộng đồng 1 quan tâm đến chủ đề T1 là 0,01595. Đây là chủ đề có xác suất quan tâm cao nhất trong khoảng thời gian tháng 01-2015 của cộng đồng số 1. Trong Hình 12, mỗi cộng đồng thể hiện rõ được số lượng cá nhân tham gia. Chẳng hạn, tham gia cộng đồng 14 có 659 cá nhân chiếm9%và cộng đồng 7 có số cá nhân tham gia cao nhất là 698 chiếm 9% trên tổng số cá nhân tham gia tất cả cộng đồng trong khoảng thời gian tháng 01-2015. Khảo sát sự biến thiên số cộng đồng dựa trên lớp ra Kohonen Sự biến thiên số cá nhân tham gia cộng đồng c được biết dựa trên tần suất thay đổi số cá nhân a trong cộng đồng. Ký hiệu là A (c, t, Na). Trong đó c2 Clà cộng đồng, t là thời gian vàNa là số cá nhân tham gia trong cộng đồng c (hay nói cách khácNa là số cá nhân trong cộng đồng c) theo từng khoảng thời gian t. Mỗi cộng đồng có nhiều cá nhân trong từng giai đoạn thời gian. Tuy nhiên, cá nhân trong cộng đồng cũng là đặc trưng cho cộng đồng đó và việc xác định sự thay đổi số cá nhân trong cộng đồng cũng dựa vào cơ sở này. Sự thay đổi này thể hiện qua sự khác nhau giữa thành phần của hai tập số cá nhân trong cộng đồng tại thời điểm t – 1 là A (c, t -1,Na) và tại thời điểm t là A (c, t,Na) mà số cá nhân tham gia cộng đồng. Để đo lường mức độ thay đổi (tính động) số cá nhân a của cộng đồng c tại thời điểm t, bài nghiên cứu xây dựng độ đo ¶q (c; t1; t;Na). Độ đo này là tỉ lệ giữa: hiệu số (số cá nhân Na và phần giao giữa số cá nhân trong cộng đồng tại thời điểm t-1 với cá nhân trong cộng đồng tại thời điểm t) chia cho cá nhân đề Na, giá trị của ¶q (c; t1; t;Na) nằm trong khoảng [0,1]: - Nếu giá trị đạt ở ngưỡng 1 thì tập Na thường xuyên được thay đổi bởi cộng đồng c - Ngược lại nếu giá trị đạt ngưỡng 0 nghĩa là số cá nhân trong cộng đồng không thay đổi trong khoảng thời gian từ t -1 đến t. Giá trị ¶qđược tính bởi công thức (4): ¶q (c; t1; t; Na) = NajA(c; t1;Na)\A(c; t;Na) Na 2 [0;1] (4) Từng giai đoạn thời gian, số lượng cá nhân cũng như số cộng đồng tham gia trênMXH cũng có sự thay đổi. Dựa trên lớp ra Kohonen, bài nghiên cứu khảo sát sự biến số cộng đồng tham gia. Hình 13 trình bày kết quả phân tích sự biến thiên các đặc trưng trong cộng đồng và số cộng đồng tham gia MXH quan tâm trao đổi 15 chủ đề trong trường đại học theo từng giai đoạn thời gian năm 2015. Dựa trên kết quả trên Hình 13, Hình 14 thể hiện kết quả phân tích sự biến thiên số cộng đồng trên dữ liệu Facebook và 15 chủ đề quan tâm của cộng đồng trong 12 giai đoạn thuộc năm 2014. Kết quả thể hiện trênHình 12 chỉ ra rằng, trong từng giai đoạn thời gian, số lượng cộng đồng quan tâm đến 15 chủ đề (được khảo sát) có sự thay đổi. Trong đó, tháng 01-2014 có số cộng đồng tham gia nhiều nhất là 62 và tháng 11-2014 có số cộng đồng tham gia ít nhất là 30. Đánh giá kết quả thử nghiệm phương pháp khám phá cộng đồng và thảo luận So sánh với phương pháp gom cụm K- Medoids Bên cạnh việc áp dụng các hệ số Precision, Recall và độ đo F để đánh giá kết quả thử nghiệm, bài nghiên cứu còn áp dụng giá trị RMSSTD25 (Root Mean Square Standard Deviation) và giá trị RS26 (R- Squared) để so sánh kết quả giữa phương pháp gom cụm đề xuất trong bài nghiên cứu và giải thuật K- Medoids). Giá trị RMSSTD là một phương pháp được sử dụng để đo chất lượng của giải thuật gom cụ bằng công thức 318 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 7: Trực quan hóa kết quả khám phá cộng đồng cá nhân trong tháng 01-2015 hiển thị trực quan trên lớp ra Kohonen. Hình 8: Danh sách các chủ đề và xác suất quan tâm của cộng đồng 35 trên lớp ra Kohonen. Hình 9: Trực quan hóa kết quả cộng đồng 35 và các đặc trưng trong cộng đồng. 319 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Bảng 2: Vector trọng ! wiv ới thành phần là xác suất quan tâm chủ đề của từng cộng đồng trong giai đoạn tháng 01-2015 Trọng số T-1 Trọng số T-6 Trọng số T-7 Trọng số T-9 Trọng số T-10 Trọng số T-17 Trọng số T-18 Trọng số T-19 Trọng số T-20 Cộng đồng 1 0,1595 0,0774 0,0987 0,0078 0,0758 0,0045 0,0332 0,0205 0,0762 Cộng đồng 2 0,0898 0,0309 0,0295 0,0001 0,0007 0,0014 0,0015 0,0007 0,0008 Cộng đồng 8 0,3544 0,1839 0,1428 0,1600 0,1917 0,0572 0,0142 0,2417 0,0739 Cộng đồng 16 0,0773 0,0255 0,0553 0,0267 0,0214 0,0425 0,0341 0,0069 0,0179 Cộng đồng 22 0,0174 0,0076 0,0049 0,0043 0,0012 0,0021 0,0028 0,0037 0,0024 Cộng đồng 28 0,0185 0,0020 0,0040 0,0061 0,0017 0,0021 0,0061 0,0009 0,0069 Cộng đồng 32 0,3234 0,1799 0,6381 0,0912 0,8170 0,4028 0,6866 0,6175 0,3528 Cộng đồng 33 0,8282 0,7526 0,1829 0,6499 0,2256 0,5715 0,0183 0,2902 0,0571 Cộng đồng 34 0,0047 0,0085 0,0147 0,0005 0,0018 0,0087 0,0004 0,0046 0,0032 Cộng đồng 35 0,0116 0,0115 0,0092 0,0001 0,0001 0,0001 0,0002 0,0001 0,0002 Cộng đồng 36 0,0273 0,0184 0,0107 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 Cộng đồng 39 0,0295 0,0537 0,0668 0,0325 0,0402 0,0243 0,0037 0,0131 0,0136 Cộng đồng 40 0,0425 0,0777 0,0421 0,0124 0,0320 0,0377 0,0511 0,0255 0,0501 Cộng đồng 41 0,1067 0,0388 0,0235 0,0240 0,0101 0,0203 0,0183 0,0219 0,0083 Cộng đồng 42 0,0660 0,0339 0,0194 0,0025 0,0003 0,0032 0,0014 0,0032 0,0025 Cộng đồng 43 0,0764 0,0236 0,0128 0,0008 0,0001 0,0003 0,0003 0,0008 0,0011 Cộng đồng 45 0,0892 0,1071 0,0317 0,0515 0,0643 0,0787 0,0699 0,0674 0,0605 Cộng đồng 46 0,1422 0,0464 0,0853 0,0615 0,0683 0,0105 0,0327 0,0738 0,0792 Cộng đồng 47 0,0840 0,0127 0,0171 0,0154 0,0280 0,0364 0,0251 0,0160 0,0349 320 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 10: Trực quan hóa kết quả khám phá chủ đề 5 được các cộng đồng quan tâm. Hình 11: Kết quả phân tích cộn g đồng dựa trên bảng kết quả 2. (5), nếu giá trị của RMSSTD thấp hơn thì kết quả gom cụm tốt hơn. RMSSTD= åi=1::kj=1::på ni j a=1 (xa xi j)2 åi=1::kj=1::p (ni j 1) (5) Trong đó k là số cụm, p là số biến độc lập trong tập dữ liệu, xi j là trung bình dữ liệu của biến j và cụm i, ni j là số dữ liệu trong biến p và cụm k. Với những giá trị RMSSTD, trung bình của RMSSTD được tính dựa trên 1000 giao tác cho mỗi lần bộ dữ liệu được thực hiện. Công thức (6) tính trung bình giá trị RMSSTD: (6) Giá trị RS được sử dụng để xác định xem có sự khác biệt đáng kể nào giữa các đối tượng dữ liệu trong các cụm khác nhau và giữa các đối tượng dữ liệu trong cùng môt nhóm có độ tương tự cao. Nếu giá trị RS bằng 0, thì không có sự khác biệt giữa các cụm. Mặt khác, nếu giá trị RS bằng 1, thì kết quả gom cụm là tối ưu. Giá trị RS được tính bằng công thức (7, 8 và 9): RS= SSt SSw SSt (7) 321 Trung bình RMSSTD= (Tổng giá trị của RMSSTD từ 1000 giao tác mà bộ dữ liệu được thực hiện)q 1000 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 12: Kết quả phân tích cộng đồng trong tháng 01-2015. SSt = å p j=1å n j a=1 (xa x j)2 (8) SSw = åi=1::kj=1 å ni j a=1 (xa xi j)2 (9) Trong đó SSt là tổng bình phương khoảng cách giữa tất cả các biến, SSw là tổng bình phương khoảng cách giữa tất cả đối tượng dữ liệu trong cùng một cụm, trong đó k là số cụm, p là số biến độc lập trong tập dữ liệu, xi j là trung bình dữ liệu của biến j và cụm i, ni j là số dữ liệu trong biến p và cụm k. Giá trị trung bình của RS được tính dựa trên 1000 lần lặp của mỗi lần bộ dữ liệu được thực hiện. Giá trị này được tính bằng công thức (10). (10) Kết quả thử nghiệm và thảo luận Thử nghiệm phương pháp đánh giá, các bộ dữ liệu là tập vector từ kết quả của mô hình TART (Bảng 1) được bài nghiên cứu sử dụng cho việc thử nghiệm các phương pháp gomcụmđể tìm ra giá trị trung bình của RMSSTD và RS. Kết quả thử nghiệm này được lặp lại 1000 lần để cung cấp kết quả ổn định và đáng tin cậy và số lượng các cụm k cũng được thay đổi để có thêm điều kiện so sánh các phương pháp và giải thuật. Trong Bảng 3, cho thấy các giá trị trung bình RMSSTD, phương phápmạng nơ-ronKohone cho kết quả RMSSTD thấp nhất cho tất cả các lựa chọn số cụm. Điều này cho thấy rằng, phương phápmạng nơ- ronKohonen có kết quả thực hiện vượt trội hơn so với giải thuật K-Medoids. Trong thử nghiệm này, hai kỹ thuật gom cụm được so sánh dựa trên giá trị RMSSTD và RS (Bảng 4) cho bộ dữ liệu thực tế từ kết quả mô hình chủ đề TART. Kết quả cho thấy rằng thuật toán phương pháp mạng nơ- ron Kohonen (SOM)mang lại những giá trị RMSSTD là thấp nhất và giá trị RS là cao nhất. KẾT LUẬN VÀHƯỚNG PHÁT TRIỂN Kết luận Bài nghiên cứu đã giải quyết được hai vấn đề quan trọng đóng góp về mặt khoa học và thực tiễn trong lĩnh vực khám phá cộng đồng: Thứ nhất là xây dựng phương pháp khám phá cộng đồng cá nhân dựa theo mô hình chủ đề có yếu tố thời gian và phân tích sự biến thiên đặc trưng của cộng đồng. Phương pháp này giúp tìm ra nhóm cá nhân có cùng chủ đề và mức độ quan tâm chủ đề trong từng giai đoạn thời gian. Áp dụng phương pháp huấn luyệnmạng nơ-ron Kohonen để khám phá cộng đồng những cá nhân cùng quan tâm đến từng chủ đề cụ thể được gọi là cộng đồng cá nhân theo chủ đề dựa trên tập vector đầu ra của mô hình TART. Trong đó, 322 Trung bình RS= (Tổng giá trị của RS từ 1000 lần lặp lại tập dữ liệu) 1000 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 13: Số cộng đồng tham gia MXH quan tâm đến 15 chủ đề theo từng giai đoạn thời gian thể hiện trên lớp ra Kohonen. Bảng 3: Bảng kết quả giá trị trung bình RMSSTD dựa trên thử nghiệm hai phương pháp gom cụm Số cụm k Kohonen K-Medoids 2 0,69635 0,75288 3 0,58297 0,65064 4 0,52873 0,59444 5 0,49807 0,55666 6 0,47517 0,52774 7 0,45634 0,50502 8 0,44195 0,48648 323 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 Hình 14: Sự biến thiên số cộng đồng theo từng giai đoạn thời gian. Bảng 4: Bảng kết quả giá trị trung bình RS dựa trên thử nghiệm hai phương pháp gom cụm Số cụm k Kohonen K-Medoids 2 0,49659 0,40112 3 0,63921 0,55356 4 0,70391 0,63431 5 0,74951 0,68794 6 0,78086 0,72456 7 0,8034 0,75273 8 0,82022 0,77574 phương pháp khám phá cộng đồng tính được phân bố chủ đề theo từng cộng đồng và tính cụ thể chủ đề được những cộng đồng nào quan tâm vàmức độ quan tâm. Kết quả khám phá cộng đồng được trực quan hoá trên lớp ra Kohonen. Sau đó, dựa vào kết quả trên lớp ra Kohonen, bài báo phân tích sự biến thiên các đặc trưng của cộng đồng như: chủ đề quan tâm và cá nhân tham gia cộng đồng theo từng giai đoạn thời gian. Thứ hai làđể thực nghiệm các mô hình và phương pháp, nghiên cứu đã thử nghiệm và đánh giá mô hình và phương pháp trên hai tập dữ liệu thông điệp tiếng Việt được thu thập từ MXH trong trường đại học và trang báo điện tử VnExpress.net. Để tiến hành thử nghiệm, nghiên cứu đã xây dựng một hệ thống phần mềmphân tíchMXH thực hiện đầy đủ các bước trong phương pháp khám phá cộng đồng. Kết quả thực nghiệmđã cho thấy được hướng ứng dụng nghiên cứu của bài báo và khả năng khai thác hiệu quả của phần mềm vào ứng dụng thực tế. Hạn chế và hướng phát triển Kết quả nghiên cứu tập trung vào việc giải quyết các bài toán khám phá cộng đồng cá nhân trên MXH. Trong nghiên cứu tiếp theo, chúng tôi sẽ tập trung phân tích ảnh hưởng lan truyền chủ đề của cộng đồng trên MXH. Mục tiêu phân tích ảnh hưởng lan truyền thông điệp trên MXH nhằm xác định “ đường đi ” 324 Tạp chí Phát triển Khoa học và Công nghệ – Kinh tế-Luật và Quản lý 3(3):311-326 và tìm ra nguồn gốc thông tin. Xây dựng hệ thống khoảng thời gian (có tính chất overlap) để phân tích trực tuyến MXH theo nhiều khoảng thời gian khác nhau. LỜI CẢMƠN Nghiên cứu này được tài trợ bởi TrườngĐại học Kinh tế - Luật, ĐHQG-HCM thông qua đề tài với mã số CS /2018-01 và PhòngNghiên cứuKinh doanhThông minh (BI-LAB), Khoa Hệ thống Thông tin, Trường Đại học Kinh tế - Luật. DANHMỤC TỪ VIẾT TẮT MXH: mạng xã hội ART: Author-Recipient-Topic TART: Temporal-Author-Recipient-Topic SOM: Self-Organizing Map GT: Group-Topic CUT: Community-User-Topic ATC: Author-Topic-Community RMSSTD: Root Mean Square Standard Deviation RS: R-Squared XUNGĐỘT LỢI ÍCH Nhóm tác giả xin cam đoan rằng không có bất kì xung đột lợi ích nào trong công bố bài báo. ĐÓNGGÓP CỦA CÁC TÁC GIẢ Tác giả Hồ TrungThành, Trần DuyThanh và Nguyễn Quang Hưng cùng đóng góp về ý tưởng, mục tiêu, lựa chọn phương pháp nghiên cứu và các vấn đề liên quan đến trực quan hoá dữ liệu. Tác giảHồTrungThành đã đóng góp đề xuất mô hình phân tích dữ liệu mạng xã hội và phương pháp và thực nghiệm khám phá cộng đồng, đánh giá kết quả thực nghiệm. Tác giả TrầnDuy Thanh đã đóng góp về thu thập dữ liệu, xây dựng hệ thống phần mềm phân tích dữ liệu. Tác giả Nguyễn Quang Hưng đóng góp về xử lý dữ liệu đầu vào, khảo sát sự biến thiên của cộng đồng và đánh giá kết quả thực nghiệm. TÀI LIỆU THAMKHẢO 1. Durgesh MS, Moiz M. Sentiment Analysis on Social Network- ing: A Literature Review. International Journal on IJRITCC. 2015;3(2):022–027. 2. Aggarwal C. Social Network Data Analytics. IBM Thomas J. Watson Research Center; 2011. 3. Kirchhoff L. Applying Social Network Analysis to Information Retrieval on the World Wide Web: A Case Study of Academic Publication Space. Switzerland: The University of St. Gallen; 2010. 4. Wasserman S, Faust K. Social Network Analysis: Methods and Applications. Cambridge University Press; 1994. 5. Abdelbary HA, Abeer ME, Reem BT. Utilizing Deep Learning for Content-based Community Detection. In: Science and In- formation Conference, UK. IEEE; 2014. p. 777–784. 6. Aggarwal C, Subbian K. Event detection in social streams. In: Proceedings of the 2012 SIAM international conference on data mining; 2012. p. 624–635. 7. Li C, CheungWK, Ye Y, Zhang X, Chu D, Li X. The Author-Topic- Community model for author interest profiling and commu- nity discovery. London: Springer-Verlag; 2014. p. 74–85. 8. Zhou D, Manavoglu E, Li J, Giles CL, Zha H. Probabilistic mod- els for discovering e-communities. WWW ’06: Proceedings of the 15th international conference on World Wide Web, ACM. 2006;p. 173–182. 9. Pathak P, DelongC, BanerjeeA, EricksonK. Social topicmodels for community extraction. In: The 2nd SNA-KDD Workshop. vol. 8; 2008. 10. Wang X, Mohanty N, Mccallum A. Group and topic discovery from relations and their attributes. Advances in Neural Infor- mation Processing Systems. 2006;18:1449–1456. 11. Adham B, Ognjen A, Dinh P, Svetha V. Discovering Topic Structures of a Temporally Evolving Document Cor- pus. Journal: Knowledge and Information Systems. 2015;arXiv:1512.08008v1:1–53. 12. Zhou D, Councill I, Zha H, Lee GC. Discovering Temporal Com- munities from Social Network Documents. IEEE ICDM. 2007;p. 745–750. 13. Freeman LC. Visualizing Social Networks. Journal of So- cial Structure. 2000;Available from: content/articles/volume1/Freeman.html. 14. Yin Z, Cao L, Gu Q, Han J. Latent community Topic Analy- sis: Integration of Community Discovery with Topic Model- ing. ACMTransactions on Intelligent Systems andTechnology. 2012;3(4):1–21. 15. Alexandru B, Markus D, Nicolai R. Content and communi- cation based sub-community detection using probabilistic topic models. IADIS International Conference Intelligent Sys- tems and Agents © IADIS. 2009;. 16. Fani H, Zarrinkalam F, Zhao X. Temporal Identification of La- tent Communities on Twitter. In: The 9th ACM International Conference on Web Search and Data Mining (WSDM2016). vol. arXiv:1509.04227v1 [cs.SI]; 2016. 17. Rosen-Zvi M, Griffths T, et al. Probabilistic Author-Topic Mod- els for Information Discovery. In: 10th ACM SigKDD, Seattle; 2004. p. 306–315. 18. Yang T, Chi Y, Zhu S, Gong Y, R J. Detecting communities and their evolutions in dynamic social networks-a Bayesian approach. Mach Learn. 2011;82:157–189. 19. Griffiths T. Gibbs Sampling in the generative model of Latent Dirichlet Allocation. 2004;Gruffydd@psych.stanford.edu. 20. AndrewM, Andrés C, XueruiW. Topic and role discovery in so- cial networkswith experiments on enron and academic email. Journal ofArtificial IntelligenceResearch. 2007;30(1):249–272. 21. KohonenT. Self-OrganizedFormationof TopologicallyCorrect Feature Maps. Biol Cybern. 1982;43:59–69. 22. KohonenT. Self-Organization andAssociativeMemory. Berlin: Springer; 1984. 23. Haykin S. Neural Networks. A Comprehensive Foundation. New Jersey: Prentice-Hall, Inc.; 1999. p. 443–465. 24. Ho T, Do P. Social Network Analysis Based on TopicModelwith Temporal Factor. International Journal of Knowledge and Sys- tems Science (IJKSS). 2018;9(1). 25. Halkidi M, Batistakis Y, Vazirgiannis M. Cluster validity meth- ods: Part I. SIGMOD REC. 2002;31(2):40–45. 26. Halkidi M, Batistakis Y, Vazirgiannis M. Clustering validity checking methods: Part II. SIGMOD REC. 2002;31(3):19–27. 325 Science & Technology Development Journal – Economics - Law andManagement, 3(3):311- 326 Open Access Full Text Article Research Article University of Economics & Law, VNUHCM, Vietnam Correspondence Ho Trung Thanh, University of Economics & Law, VNUHCM, Vietnam Email: thanhht@uel.edu.vn History  Received: 19/2/2019  Accepted: 25/4/2019  Published: 30/9/2019 DOI : 10.32508/stdjelm.v3i3.572 Copyright © VNU-HCM Press. This is an open- access article distributed under the terms of the Creative Commons Attribution 4.0 International license. Applying topic model combined with Kohonen networks to discover and visualize communities on social networks Ho Trung Thanh*, Nguyen Quang Hung, Tran Duy Thanh Use your smartphone to scan this QR code and download this article ABSTRACT Users are members of communities on social networks. Users' interested topics keep changing, resulting in the change of their communities' interested topics as well. Level, period of time, and interested topics represent features of a communitywhich (i) changeuponpreferences of each user on social networks for making friends or being interested in topics (based onmessage content); (ii) are formed or change from online groups of friends or the suggestions to make friends. Hence, the link of users in communities can be viewed as a network of users by their features in social network communities. In this paper, the author studies and proposes a new model for discover- ing communities using Temporal-Author-Recipient-Topic (TART) model combined with Kohonen neural networks to discover communities of users with the same interested topics over different periods of time. The research goal is achieved through testingmodels on two Vietnamese datasets (collected from social networks at universities and online newspapers). Key words: Discovering communities, social network analysis, TART model, Kohonen neural networks, topic model Cite this article : Trung Thanh H, Quang Hung N, Duy Thanh T. Applying topic model combined with Kohonen networks to discover and visualize communities on social networks. Sci. Tech. Dev. J. - Eco. LawManag.; 3(3):311-326. 326

Các file đính kèm theo tài liệu này:

  • pdfkham_pha_va_truc_quan_hoa_cong_dong_ca_nhan_tren_mang_xa_hoi.pdf
Tài liệu liên quan