Các nhà hoạch định chính sách cũng nên tránh các quy định hạn chế không cần thiết về
thu thập và chia sẻ dữ liệu. Khi những hạn chế sử dụng là cần thiết chúng cần được thực
hiện với sự kiềm chế. Các quy định của pháp luật ngăn chặn việc sử dụng dữ liệu có thể dẫn
đến một tình huống gọi là “bi kịch chống lại những cái chung”.
Điều này xảy ra khi sự tồn tại của quá nhiều rào cản pháp lý và quan liêu tạo ra chi phí
giao dịch cao hạn chế việc sử dụng và trao đổi dữ liệu. Ví dụ, sự không chắc chắn về quyền
sở hữu dữ liệu có thể ngăn chặn một công ty tạo ra một ứng dụng dựa vào dữ liệu hữu ích.
Để không làm giảm tính năng của các ứng dụng dữ liệu có lợi, các cuộc thảo luận chính
sách cần tập trung giải quyết việc dữ liệu có thể được sử dụng như thế nào, chứ không phải
là việc quyết định liệu nó có nên được thu thập và trao đổi hay không. Những sử dụng đưa
đến tác hại cụ thể nên bị cấm, nhưng các nhà hoạch định chính sách cần tạo ra chính sách
mở thừa nhận phạm vi rộng không thể dự báo trước của các ứng dụng dựa vào dữ liệu trong
tương lai, đặc biệt là trong các lĩnh vực y tế và giáo dục.
Ở đây tồn tại những cơ hội tuyệt vời tận dụng dữ liệu để giải quyết các vấn đề xã hội
quan trọng và khuyến khích tăng trưởng kinh tế, tuy nhiên, để đạt được đầy đủ tiềm năng
của đổi mới dựa vào dữ liệu, các nhà hoạch định chính sách phải tạo ra cơ sở hạ tầng và
khung chính sách cần thiết. Bước đầu tiên để làm điều đó là phải hiểu và đánh giá cao tầm
quan trọng của đổi mới dựa vào dữ liệu trong khu vực công và tư nhân.
66 trang |
Chia sẻ: hachi492 | Ngày: 18/01/2022 | Lượt xem: 515 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Tài liệu Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ì vật trung gian nào, có thể đưa ra khả
năng tiếp xúc trực tiếp và do đó có thể hỗ trợ việc theo dõi và giám sát bùng nổ của bệnh. Một
nghiên cứu mới đây của các nhà nghiên cứu trên Facebook đã phân tích mối quan hệ giữa vị
trí địa lý của người dùng cá nhân và của bạn bè của họ. Từ phân tích này, họ đã có thể tạo ra
một thuật toán để dự đoán vị trí của một người dùng cá nhân dựa trên vị trí của một số ít các
bạn bè trong mạng của họ, chỉ đơn giản là nhìn vào địa chỉ IP của người dùng.
Có rất nhiều dịch vụ thương mại “lắng nghe xã hội”, như Radian6/Salesforce Cloud,
Collective Intellect, Lithium và những dịch vụ khác, khai phá dữ liệu từ mạng xã hội để
sử dụng trong tình báo kinh doanh. Cùng với mạng xã hội, thông tin này có thể được sử
dụng để đánh giá các thay đổi ảnh hưởng và sự lây lan của các xu hướng giữa các cá nhân
và cộng đồng để thông báo các chiến lược tiếp thị.
2.2.3. Sử dụng dữ liệu
Mục đích cuối cùng của phân tích dữ liệu là để hỗ trợ việc ra quyết định tốt hơn, cho dù
những quyết định này được thực hiện bởi một người điều hành trong một văn phòng, một
robot trong nhà máy, hoặc một người nào đó ở nhà. Tự động hóa dựa vào dữ liệu có thể
50
đơn giản hóa các quyết định được thực hiện bởi các robot, trong khi thông tin được tổ
chức sử dụng các hệ thống hỗ trợ ra quyết định, trực quan hóa dữ liệu và các công nghệ
ánh xạ có thể hỗ trợ con người.
Hệ thống hỗ trợ ra quyết định
Hệ thống hỗ trợ ra quyết định là các công cụ tương tác giúp người sử dụng đưa ra các
quyết định tốt hơn và nhanh hơn trong các môi trường phức tạp, đa biến. Hệ thống hỗ trợ
ra quyết định sử dụng các mô hình và các mô phỏng để dự đoán các kết quả và sau đó đưa
ra các khuyến nghị cho người ra quyết định. Ví dụ, một nhà quản lý xây dựng có thể sử
dụng hệ thống hỗ trợ ra quyết định giúp chọn nhà thầu phụ có sự kết hợp tốt nhất giữa rủi
ro và doanh thu cho một dự án nhất định.
Những hệ thống như vậy đặc biệt phổ biến ở các bệnh viện, nơi các hệ thống hỗ trợ ra
quyết định lâm sàng có thể sử dụng thông tin của bệnh nhân để cảnh báo cho bác sĩ nếu
một đơn thuốc ảnh hưởng đến các loại thuốc khác hay các bệnh khác. Các hệ thống hỗ trợ
ra quyết định cũng có thể được sử dụng trong nhiều lĩnh vực khác, bao gồm cả giám sát
môi trường. Ví dụ, hệ thống hỗ trợ ra quyết định cho an toàn hàng hải ở Địa Trung Hải đã
được thiết kế cho các chính phủ thành viên của EU để giúp giảm thiểu những rủi ro tràn
dầu ở Địa Trung Hải. Do các kỹ thuật phân tích dữ liệu như lập mô hình dự báo và xử lý
ngôn ngữ tự nhiên tiếp tục phát triển, khả năng của các hệ thống hỗ trợ ra quyết định cũng
phát triển theo.
Tự động hóa
Trong khi nhiều phân tích dữ liệu được triển khai để giúp con người đưa ra các quyết
định chính xác hơn, dữ liệu cũng có thể được sử dụng để kích hoạt các hoạt động tự động
trong hệ thống máy tính và robot. Ví dụ, Nest, máy điều nhiệt thông minh, có thể sử dụng
dữ liệu cảm biến để xác định khi ngôi nhà có người và điều chỉnh hệ thống sưởi và làm
mát của ngôi nhà một cách thích hợp. Xe ô tô tự lái của Google có thể nhận dữ liệu về các
điều kiện đường sá và luồng giao thông để điều hướng hiệu quả và tránh va chạm. Một
báo cáo năm 2013 của công ty nghiên cứu thị trường Markets and Markets dự đoán rằng
thị trường giao tiếp máy-máy sẽ đạt 290 tỷ USD năm 2017, tăng 650% so với năm 2011.
Máy học, một ngành của khoa học máy tính liên quan đến các hệ thống có hiệu suất
được cải thiện bằng việc bổ sung dữ liệu mới, cung cấp các phương pháp ra quyết định tự
động trong một loạt các ứng dụng. Máy học đã được sử dụng rộng rãi trong khoa học người
máy, chẳng hạn như thị giác máy tính và hoạt động tự động trong các môi trường nhà máy,
cũng như trong các hệ thống khuyến nghị trực tuyến, chẳng hạn như những hệ thống được
sử dụng bởi dịch vụ nhạc trực tuyến Spotify và trang web hẹn hò trực tuyến OKCupid.
Trực quan hóa
Một cách để các nhà khoa học dữ liệu có thể truyền tải phân tích của họ đến người ra
quyết định là thông qua trực quan hóa. Trực quan hóa được sử dụng trong một loạt các
lĩnh vực và có thể từ các đồ thị đường đơn giản giá cổ phiếu đến các sơ đồ mạng xã hội
phức tạp cho thấy sự lây lan của bệnh dịch. Trong các trường hợp nơi các mẫu trong dữ
51
liệu có thể được xác định dễ dàng hơn khi dữ liệu được hiển thị, trực quan hóa cũng có thể
được sử dụng để tiến hành phân tích dữ liệu. Trực quan hóa dữ liệu được đưa vào nhiều
công cụ phần mềm phân tích kinh doanh, chẳng hạn như Tableau. Các nền tảng và ngôn
ngữ chuyên dụng dành cho các ứng dụng cụ thể, chẳng hạn như Gephi cho mạng và hiển
thị đồ thị và xử lý hiển thị tương tác. Ngôn ngữ lập trình Javascript rất phổ biến để các
ứng dụng tùy chỉnh hiển thị dữ liệu, cung cấp các thư viện mã nguồn mở, được sử dụng
rộng rãi như D3.
Các ứng dụng ánh xạ đã thúc đẩy sự phát triển rộng rãi phần mềm các hệ thống thông
tin địa lý (GIS), cho phép các đặc trưng không gian được tích hợp vào phân tích dữ liệu.
Có các công nghệ chuyên dụng cho tất cả các khía cạnh của đổi mới dựa vào dữ liệu
không gian địa lý, bao gồm các cơ sở dữ liệu, máy chủ và các công cụ trực quan hóa. Các
nhà cung cấp phần mềm độc quyền chính bao gồm ESRI (nhà cung cấp ArcGIS), Google
(nhà cung cấp Google Maps, Earth và Street View) và Oracle (nhà cung cấp Spatial and
Graph). Các dịch vụ GIS mã nguồn mở, chẳng hạn như những dịch vụ được công ty công
nghệ không gian địa lý MapBox tạo ra, cũng đang phát triển ngày càng phổ biến. Các
công cụ từ những nhà cung cấp trên đang được sử dụng rộng rãi trong ngành công nghiệp
và chính phủ. Ví dụ, chính quyền Obama đã sử dụng phần mềm GIS để bổ sung thêm các
lớp dữ liệu và tính tương tác vào các bản đồ trên trang web Recovery.gov của mình.
Trình bày thông tin theo cách mà mọi người có thể tiếp thu nó một cách hiệu quả là một
thách thức quan trọng cần phải được đáp ứng nếu phân tích dữ liệu là để dẫn đến hành động
cụ thể. Loài người đã tiến hóa để đạt hiệu quả cao trong nhận thức một số loại mô hình với
các giác quan của mình nhưng vẫn tiếp tục phải đối mặt với những hạn chế đáng kể trong
khả năng của bản thân để xử lý các loại dữ liệu khác như số lượng lớn các dữ liệu số hoặc
văn bản. Vì lý do này, hiện nay có một lượng lớn nghiên cứu và đổi mới trong lĩnh vực trực
quan hóa, ví dụ, các kỹ thuật và công nghệ được sử dụng để tạo ra các hình ảnh, sơ đồ, hoặc
hình ảnh động để giao tiếp, hiểu và cải thiện kết quả của phân tích dữ liệu lớn. Dưới đây là
một số ví dụ về lĩnh vực quan trọng và đang phát triển hỗ trợ dữ liệu lớn.
a) Đám mây từ khóa (Tag cloud)
Văn bản của một báo cáo hiển thị dưới hình thức một đám mây thẻ (từ khóa), có thể là
một danh sách các từ được đánh giá mức độ quan trọng, trong đó các từ xuất hiện thường
xuyên nhất được hiển thị lớn hơn và các từ ít xuất hiện thường xuyên hơn sẽ được hiển thị
nhỏ hơn. Đây là cách trực quan giúp người đọc lĩnh hội nhanh chóng các khái niệm nổi
bật nhất trong một văn bản dài.
b) Clustergram
Clustergram là một kỹ thuật trực quan hóa được sử dụng cho phân tích cụm, hiển thị
các thành phần riêng của một tập dữ liệu được gán thành các cụm khi số lượng các cụm
tăng lên. Sự lựa chọn số cụm là một tham số quan trọng trong phân tích cụm. Kỹ thuật
này cho phép các nhà phân tích có được sự hiểu biết tốt hơn về cách các kết quả của cụm
khác với số khác của các cụm.
52
G
iá
t
rị
t
ru
n
g
b
ìn
h
c
ủ
a
c
ụ
m
Số cụm
c) Dòng lịch sử
Dòng lịch sử là một kỹ thuật trực quan hóa lập các biểu đồ tiến hóa của một tài liệu khi
nó được biên tập bởi nhiều tác giả. Thời gian nằm trên trên trục hoành, trong khi những
đóng góp vào văn bản nằm trên trục tung; mỗi tác giả có một mã màu khác nhau và chiều
dài của trục tung biểu thị số lượng văn bản được viết bởi mỗi tác giả. Bằng cách trực quan
hóa lịch sử của một tài liệu theo cách này, những hiểu biết khác nhau dễ dàng xuất hiện.
d) Dòng thông tin không gian
Một kỹ thuật trực quan hóa khác là kỹ thuật mô tả các dòng thông tin không gian. Ví
dụ chúng tôi chỉ ra ở đây có tên gọi New York Talk Exchange. Nó cho thấy lượng dòng
dữ liệu của giao thức Internet giữa New York và các thành phố trên khắp thế giới. Kích
thước của ánh sáng trên một vị trí thành phố cụ thể tương ứng với tổng lưu lượng IP lưu
thông giữa các nơi đó và TP. New York; ánh sáng càng sáng hơn, dòng lưu thông càng
lớn. Sự trực quang hóa này cho phép chúng ta xác định một cách nhanh chóng thành phố
nào được kết nối chặt chẽ nhất với New York về khối lượng thông tin liên lạc của chúng.
53
2.2.4. Phổ biến dữ liệu
Các tổ chức, bao gồm các cơ quan chính phủ, thường muốn chia sẻ dữ liệu của họ với
những tổ chức khác. Trước đây, các bộ dữ liệu thường được phổ biến thông qua các
phương tiện số, chẳng hạn như đĩa CD, nhưng sử dụng các đối tượng vật lý để phổ biến
có những hạn chế nhất định như khối lượng dữ liệu hạn chế, sự phân bổ chậm và tốn kém.
Hiện nay, dữ liệu có trên các trang web, thường miễn phí trực tiếp cho người sử dụng.
Một số tổ chức chỉ cung cấp quyền truy cập vào các tập dữ liệu thô; những tổ chức khác
phát triển các giao diện lập trình ứng dụng để các nhà phát triển khác tái sử dụng dữ liệu
của họ dễ dàng hơn.
Gần đây hơn, phần mềm chuyên dụng quản lý số lượng lớn các bộ dữ liệu mở của các
tổ chức được xây dựng, chủ yếu là từ doanh nghiệp mới khởi nghiệp Socrata. Phần mềm
này tương đối mới và các phần mềm khác cũng đã bắt đầu xuất hiện gần đây. Trong một
số trường hợp, các tổ chức đã phát triển các nền tảng phổ biến dữ liệu mở của họ trong nội
bộ tổ chức; một ví dụ là Data.gov của Hoa Kỳ. Những nhà sáng tạo ra nền tảng này sau đó
phổ biến phần mềm của họ cho cộng đồng nguồn mở.
2.2.5. Cơ sở hạ tầng của dữ liệu lớn
Phân tích dữ liệu lớn đòi hỏi không chỉ các thuật toán và dữ liệu, mà còn cả các cơ sở
vật chất, nơi lưu trữ và phân tích dữ liệu. Các dịch vụ an ninh liên quan được sử dụng đối
với dữ liệu cá nhân cũng là một thành phần thiết yếu trong cơ sở hạ tầng. Trước đây loại
cơ sở hạ tầng này thường chỉ thuộc về các tổ chức lớn, giờ đây nó có thể phổ biến đến các
doanh nghiệp nhỏ và các cá nhân thông qua "đám mây". Khi mà phạm vi chia sẻ cơ sở hạ
tầng phần mềm được mở rộng, thì các dịch vụ cơ sở hạ tầng bảo mật thông tin cá nhân
cũng có thể được sử dụng dễ dàng hơn.
Các trung tâm dữ liệu
Một cách để nghĩ tới nền tảng dữ liệu lớn đó là cơ sở vật chất của các "trung tâm dữ
liệu". Trong những năm gần đây, các trung tâm dữ liệu đã trở thành một loại hàng hóa gần
như đạt chuẩn. Một trung tâm dữ liệu điển hình là một tòa nhà lớn, giống như kho chứa
trên một nền bê tông kích thước bằng vài sân bóng đá. Nó được đặt ở vị trí có thể tiếp cận
nguồn điện giá rẻ với kết nối cáp quang và kết nối trực tiếp với mạng xương sống Internet,
thường là ở một vùng nông thôn hoặc biệt lập. Các trung tâm dữ liệu điển hình tiêu thụ
20-40 megawatt điện (tương đương với một thành phố 20.000-40.000 dân) và chứa đến
hàng chục ngàn máy chủ và ổ đĩa cứng, với tổng số lên đến hàng chục petabytes. Trên thế
giới, có khoảng 6000 trung tâm dữ liệu đạt quy mô này, Hoa Kỳ chiếm khoảng một nửa
số này. Các trung tâm dữ liệu là vị trí cụ thể của dữ liệu lớn với mọi hình thức của nó. Các
tập hợp dữ liệu lớn thường được sao chép tại nhiều trung tâm dữ liệu để nâng cao tính cả
hiệu suất và độ chắc chắn. Hiện nay thị trường dịch vụ trung tâm dữ liệu đang phát triển
nhanh.
Công nghệ phần mềm chuyên dụng cho phép các dữ liệu tại nhiều trung tâm dữ liệu
54
(và phân tán qua hàng chục ngàn bộ vi xử lý và ổ đĩa cứng) có thể tác hợp để thực hiện
các nhiệm vụ phân tích dữ liệu, qua đó cho phép mở rộng quy mô và hiệu suất tốt hơn. Ví
dụ, MapReduce (vốn là một công nghệ độc quyền của Google, nhưng giờ đây là một thuật
ngữ được sử dụng tổng quát) là một mô hình lập trình về các hoạt động thực thi song song
trên các bộ vi xử lý với số lượng gần như không giới hạn; Hadoop là một nền tảng lập
trình mã nguồn mở phổ biến và là thư viện lập trình dựa trên những ý tưởng tương tự;
NoSQL (Not Structured Query Language) là một tập hợp các công nghệ cơ sở dữ liệu,
tháo gỡ nhiều giới hạn của các cơ sở dữ liệu truyền thống và "quan hệ", cho phép mở rộng
tốt hơn trên nhiều bộ xử lý trong một hoặc nhiều trung tâm dữ liệu.
Nghiên cứu đương đại đang được nhằm vào thế hệ tiếp theo của Hadoop. Đại diện một
nhánh là Accumulo, do Cơ quan An ninh Quốc gia Hoa Kỳ khởi xướng và chuyển tiếp
thành cộng đồng mã nguồn mở Apache . Một ví dụ khác là Berkeley Data Analytics
Stack, một nền tảng mã nguồn mở vượt trội Hadoop về phân tích dữ liệu từ nhiều bộ nhớ
(memory-intensive) và được sử dụng bởi các công ty như Foursquare, Conviva, Klout,
Quantifind, Yahoo, và Amazon Web Services. Đôi khi được gọi là "NoHadoop" (dịch
chuyển từ SQL sang NoSQL), các công nghệ phù hợp với xu hướng này bao gồm Dremel
của Google, MPI (thường được sử dụng trong siêu máy tính), Pregel (sử dụng cho đồ
họa), và Cloudscale (phân tích thời gian thực).
Đám mây
Có thể hiểu "đám mây" như là một tập hợp các nền tảng và dịch vụ có thể thực hiện
được nhờ vào việc thông dụng hóa vật chất các trung tâm dữ liệu. Khi nói rằng dữ liệu
nằm "trong đám mây", không chỉ đề cập đến các ổ đĩa cứng cụ thể tồn tại (ở một nơi nào
đó) với các dữ liệu, mà đó là cả một cơ sở hạ tầng phức tạp gồm các chương trình ứng
dụng, phần mềm lớp trung gian (middleware), các giao thức mạng, và các mô hình kinh
doanh cho phép dữ liệu được đăng nhập, truy cập, và sử dụng, tất cả với chi phí phân phối
cạnh tranh. Các tổ chức thương mại cung cấp đám mây tồn tại trong một hệ sinh thái có
nhiều cấp thứ bậc và nhiều mô hình giá trị gia tăng khác nhau cùng tồn tại. Ở đây có nhiều
cách chuyển giao trách nhiệm giữa người dùng cuối và các trung tâm dữ liệu cụ thể.
Các nhà cung cấp đám mây hiện nay mang lại một số lợi ích an ninh (và thông qua đó,
lợi ích bảo mật) so với các trung tâm dữ liệu thông thường của các doanh nghiệp trước
đây hay các máy tính của các doanh nghiệp nhỏ. Các dịch vụ có thể bao gồm bảo vệ và
giám sát tốt hơn, cũng như hỗ trợ tập trung hóa nhân lực, đào tạo, và giám sát. Các dịch
vụ đám mây cũng đặt ra nhiều thách thức mới về an ninh, một đối tượng nghiên cứu hiện
nay. Cả lợi ích và rủi ro đều xuất phát từ sự tập trung hóa các nguồn lực: Thêm nhiều dữ
liệu được một tổ chức cụ thể nắm giữ (mặc dù phân bố trên nhiều máy chủ hoặc các trang
web), và một nhà cung cấp đám mây có thể thực hiện tốt hơn so với các trung tâm dữ liệu
được tổ chức riêng biệt bằng cách áp dụng các tiêu chuẩn cao về tuyển dụng và quản lý
con người và hệ thống.
Việc sử dụng đám mây và các tương tác cá nhân cùng với nó (bất kể cố ý hay không)
55
được dự báo sẽ tăng mạnh trong những năm tới. Sự gia tăng của cả hai ứng dụng di động,
tăng cường sử dụng điện thoại di động và máy tính bảng như là nền tảng, và các bộ cảm
biến phân bổ rộng có liên quan với việc sử dụng ngày càng tăng của các hệ thống đám
mây để lưu trữ, xử lý, và các tác nghiệp dựa trên thông tin khác đóng góp bởi các thiết bị
phân tán. Mặc dù sự tiến bộ về môi trường di động cải thiện khả năng sử dụng các ứng
dụng đám mây di động, tuy nhiên nó có thể gây phương hại đến tính riêng tư đến mức nó
có thể che giấu hiệu quả hơn sự trao đổi thông tin từ người sử dụng. Khi có thêm tính
năng di động lõi được chuyển sang đám mây, một lượng lớn thông tin sẽ được trao đổi, và
người dùng có thể ngạc nhiên bởi bản chất của thông tin không còn cục bộ hóa trong điện
thoại di động của mình. Ví dụ, màn hình hiển thị (screen rendering) dựa trên đám mây
(hoặc "màn hình ảo hóa") cho điện thoại di động sẽ có nghĩa là hình ảnh hiển thị trên màn
hình điện thoại di động trên thực tế sẽ được tính toán trên đám mây và truyền đến thiết bị
di động. Điều đó có nghĩa là tất cả các hình ảnh trên màn hình của thiết bị di động đều có
thể truy cập và thao tác từ đám mây.
Kiến trúc đám mây cũng đang được sử dụng ngày càng tăng để hỗ trợ phân tích dữ liệu
lớn, cả các doanh nghiệp lớn (như Google, Amazon, eBay) và các doanh nghiệp nhỏ hay cá
nhân, những người sử dụng đột xuất hay thường xuyên các nền tảng đám mây công cộng
(như Amazon Web Services, Google Cloud Platform, Microsoft Azure) thay cho việc mua
sắm cơ sở hạ tầng riêng. Các dịch vụ truyền thông xã hội như Facebook và Twitter đang
được triển khai và phân tích bởi các nhà cung cấp thông qua sử dụng các hệ thống đám
mây. Các dịch vụ này đại diện cho một dạng dân chủ hóa phân tích, có tiềm năng tạo điều
kiện thuận lợi cho các doanh nghiệp mới và nhiều hơn. Triển vọng tương lai bao gồm khám
phá các phương án hợp nhất hoặc kết nối các ứng dụng đám mây và làm giảm một số
không đồng nhất trong các giao diện lập trình ứng dụng cho các ứng dụng đám mây.
3.3. Các vấn đề chính sách để khai thác đổi mới dựa sáng tạo trên dữ liệu như một
nguồn lực tăng trưởng mới
3.3.1. Các thách thức chính sách đặt ra đối với đổi mới sáng tạo dựa trên dữ liệu
Chính phủ có một vai trò quan trọng trong việc thúc đẩy các điều kiện thuận lợi cho đổi
mới sáng tạo dựa trên dữ liệu diễn ra trong một môi trường đáng tin cậy. Sau đây là các
thách thức chính sách đã được xác định cho đến nay:
Xem xét toàn bộ vòng đời giá trị của dữ liệu
Việc thiết kế các chính sách hiệu quả để thúc đẩy đổi mới dựa trên dữ liệu, trong khi
giảm thiểu rủi ro, đòi hỏi một sự hiểu biết cơ bản về quá trình tạo ra giá trị. Một số chính
sách (như truy cập mở đến dữ liệu) sẽ ảnh hưởng đến các giai đoạn cụ thể của vòng đời
giá trị của dữ liệu trong khi những chính sách khác (ví dụ như bảo mật riêng tư) sẽ có tác
động đến toàn bộ vòng đời giá trị. Việc xem xét toàn bộ vòng đời giá trị của dữ liệu là rất
quan trọng vì nhiều lĩnh vực chính sách bổ sung cho nhau. Nói cách khác, việc tập trung
chỉ vào một lĩnh vực chính sách sẽ có tác động rất ít nếu không được hỗ trợ bởi các biện
56
pháp chính sách bổ sung. Ví dụ, việc thúc đẩy truy cập mở trong một nền kinh tế mà
không thúc đẩy các kỹ năng phân tích dữ liệu và tinh thần kinh doanh liên quan đến dữ
liệu sẽ không đưa đến những lợi ích đầy đủ của đổi mới sáng tạo dựa trên dữ liệu trong
phạm vi quốc gia.
Hình 8: Các giai đoạn chính của vòng đời giá trị của dữ liệu và các vấn đề chính sách
Dữ liệu hóa và thu
thập dữ liệu
Phân tích dữ liệu
Quyết định dựa trên dữ
liệu
Mở rộng lượng dữ
liệu có thể thu thập
được
Tăng cường năng lực
phân tích dữ liệu
Thúc đẩy việc ra quyết định
có trách nhiệm cho tăng
trưởng và sự phồn thịnh
- Dữ liệu mở
- Tính di chuyển
của dữ liệu
- Hạ tầng điện toán
đám mây
- Nhà khoa học về
dữ liệu
- Năng lực trong các lĩnh
vực cụ thể
- Tinh thần kinh doanh
Các vấn đề chính sách liên quan: Tính riêng tư, quyền sở hữu trí tuệ, cạnh
tranh, thuế, thương mại...
Bảo vệ hiệu quả sự riêng tư và quyền tự do cá nhân
Việc sợ mất quyền tự chủ và tự do có thể tạo ra một phản ứng mạnh đối với đổi mới
dựa trên dữ liệu, dẫn đến sự ít tham gia hơn của các cá nhân và sự miễn cưỡng đóng góp
dữ liệu cá nhân, nguồn dữ liệu cần thiết cho đổi mới dựa trên dữ liệu. Do đó, việc bảo vệ
hiệu quả sự riêng tư là một điều kiện quan trọng để duy trì lòng tin vào đổi mới dựa trên
dữ liệu. Chính phủ nên khuyến khích việc bảo vệ hiệu quả sự riêng tư khi xem xét toàn bộ
vòng đời giá trị của dữ liệu, từ sưu tập dữ liệu, đến phân tích dữ liệu, đến ra quyết định
dựa trên dữ liệu. Các biện pháp sau đây có thể được áp dụng: (i) tăng cường thực tiễn
phân tích dữ liệu minh bạch, (ii) tiếp cận tốt hơn và trao quyền cho các chủ thể dữ liệu
(chủ thể dữ liệu là cá nhân mà dữ liệu có liên quan đến họ), (iii) thúc đẩy việc sử dụng dữ
57
liệu có trách nhiệm của những người kiểm soát dữ liệu (người kiểm soát dữ liệu là người
hoặc một mình hoặc cùng với những người khác xác định mục tiêu và cách thức tổ chức
hoặc xử lý dữ liệu của cá nhân) và (iv) thúc đẩy quản lý rủi ro về quyền riêng tư bao gồm
tất cả các bên liên quan.
Thúc đẩy văn hóa quản lý rủi ro kỹ thuật số trên toàn hệ sinh thái dữ liệu
Phương pháp bảo đảm an ninh truyền thống có thể hạn chế việc hiện thực hóa các lợi
ích của đổi mới dựa trên dữ liệu. Chính phủ cần thúc đẩy văn hóa quản lý rủi ro an ninh
kỹ thuật số trong đó yêu cầu những người kiểm soát dữ liệu và các nhà ra quyết định hiểu
được cách thức để tiếp cận an ninh trong một bối cảnh kỹ thuật số để phục vụ tốt nhất các
mục tiêu kinh tế và xã hội của họ.
Việc đẩy mạnh văn hóa quản lý rủi ro thường gắn liền với sự hiểu biết về chu trình
quản lý rủi ro an ninh kỹ thuật số bao gồm các bước sau: đánh giá rủi ro (bước 1) và xử lý
rủi ro (bước 2), tức là xác định xem cần phải xử lý rủi ro như thế nào (bước 3), giảm thiểu
rủi ro (bước 4), chuyển nó cho người khác (ví dụ như thông qua hợp đồng, bảo hiểm hay
thoả thuận hợp pháp khác) (bước 5) hoặc tránh rủi ro bằng cách không thực hiện hoạt
động này (bước 6). Nếu một người quyết định giảm thiểu rủi ro, việc đánh giá rủi ro giúp
xác định các biện pháp an ninh cần được lựa chọn và áp dụng ở đâu và khi nào, đứng trên
góc độ của các hậu quả của các sự kiện không chắc chắn đối với các mục tiêu kinh tế và
xã hội (bước 7). Cuối cùng, rủi ro còn lại không thể bỏ qua. Một kế hoạch được chuẩn bị
(bước 8) cũng cần được thiết lập để hạn chế và quản lý các hậu quả của các sự cố khi
chúng xảy ra và làm giảm khả năng leo thang.
Cung cấp các ưu đãi cho Internet tốc độ cao và mở
Sự phổ biến nhanh chóng băng thông rộng ở các quốc gia OECD và các nền kinh tế đối
tác của nó là một trong những hỗ trợ cơ bản nhất cho đổi mới dựa trên dữ liệu. Băng
thông rộng tốc độ cao, và đặc biệt băng thông rộng di động, là cơ sở hạ tầng cơ bản cho
dòng dữ liệu tự do và trao đổi được thu thập từ xa thông qua các ứng dụng Internet và
hiện nay thông qua các thiết bị thông minh ngày càng nhiều và kết nối với nhau tạo thành
Internet vạn vật. Hơn nữa, tính chất toàn cầu và phân bổ của hệ sinh thái dữ liệu làm cho
Internet mở là một điều kiện quan trọng cho đổi mới dựa trên dữ liệu.
Chính phủ cần tiếp tục thúc đẩy băng thông rộng di động và hỗ trợ mối quan tâm chung
để tìm sự đồng thuận về cách duy trì Internet mở và sôi động. Hội nghị Cấp cao của
OECD về Nền kinh tế Internet diễn ra ngày 28-29/6/2011 đã thảo luận về tính mở của
Internet và cách tốt nhất để đảm bảo sự tăng trưởng liên tục và đổi mới nền kinh tế
Internet. Thông cáo kết quả dự thảo, đưa đến Khuyến nghị về các nguyên tắc cho hoạch
định chính sách Internet, bao gồm một số nguyên tắc cơ bản cho hoạch định chính sách
Internet với mục tiêu để đảm bảo cho Internet duy trì mở và năng động, “cho phép mọi
người nói lên khát vọng dân chủ của mình và bất kỳ hoạch định chính sách nào liên quan
đến nó cũng phải thúc đẩy tính mở và được đặt nền tảng trên sự tôn trọng nhân quyền và
các quy định của pháp luật”. Bốn nguyên tắc đầu tiên sau đây rất phù hợp cho việc sử
58
dụng dữ liệu. Điều này không có nghĩa là các nguyên tắc khác không quan trọng đối với
đổi mới sáng tạo dựa trên dữ liệu:
(1) Thúc đẩy và bảo vệ luồng thông tin tự do toàn cầu: Nền kinh tế Internet, cũng như
khả năng học tập của mỗi cá nhân, chia sẻ thông tin và kiến thức, thể hiện bản thân, tập
hợp và lập hội, phụ thuộc vào luồng thông tin tự do toàn cầu. Để khuyến khích các luồng
thông tin tự do trực tuyến, làm việc cùng nhau để thúc đẩy khả năng tương thích toàn cầu
tốt hơn trên một tập hợp đa dạng các luật và quy định là rất quan trọng. Trong khi thúc
đẩy luồng thông tin tự do, các chính phủ cũng cần hướng tới việc bảo vệ tốt hơn các dữ
liệu của các cá nhân, trẻ em, người tiêu dùng, các quyền sở hữu trí tuệ và giải quyết các
vấn đề an ninh mạng. Để thúc đẩy luồng thông tin tự do, chính phủ cũng nên tôn trọng các
quyền cơ bản.
(2) Thúc đẩy tính mở, bản chất phân tán và liên kết của Internet: Là một mạng phi tập
trung của các mạng máy tính, Internet đã đạt được sự kết nối toàn cầu mà không thuộc sự
phát triển của bất cứ cơ chế quản lý quốc tế nào. Sự phát triển của một cơ chế quản lý
chính thức như vậy có thể hủy hoại sự phát triển của nó. Tính mở của Internet đối với các
thiết bị, các ứng dụng và dịch vụ mới đóng một vai trò quan trọng trong sự thành công của
nó trong việc thúc đẩy đổi mới, sáng tạo và tăng trưởng kinh tế. Tính mở này bắt nguồn từ
sự tương tác liên tục phát triển và sự độc lập giữa các thành phần kỹ thuật khác nhau của
Internet, cho phép hợp tác và đổi mới trong khi tiếp tục hoạt động độc lập với nhau. Sự
độc lập này cho phép những thay đổi chính sách và quy định trong một số thành phần mà
không cần những thay đổi ở những thành phần khác hoặc có tác động đối với đổi mới và
hợp tác. Tính mở của Internet cũng bắt nguồn từ sự chấp nhận trên toàn cầu các tiêu
chuẩn kỹ thuật hỗ trợ các thị trường sản phẩm và truyền thông toàn cầu. Việc duy trì tính
trung lập của công nghệ và chất lượng phù hợp cho tất cả các dịch vụ Internet cũng rất
quan trọng để đảm bảo một môi trường Internet mở và năng động. Cung cấp dịch vụ truy
cập Internet mở là rất quan trọng cho nền kinh tế Internet.
(3) Thúc đẩy đầu tư và cạnh tranh trong các dịch vụ và mạng tốc độ cao: Dịch vụ và
mạng tốc độ cao cần thiết cho sự tăng trưởng kinh tế trong tương lai, tạo việc làm, năng
lực cạnh tranh cao hơn và để mọi người được hưởng một cuộc sống tốt hơn. Các chính
sách công cần thúc đẩy cạnh tranh mạnh mẽ trong việc cung cấp Internet băng thông rộng
tốc độ cao cho người dùng với giá cả phải chăng và thúc đẩy đầu tư để đạt được độ bao
phủ địa lý lớn nhất của Internet băng thông rộng. Các chính sách công cũng cần thúc đẩy
mức đầu tư tốt nhất bằng cách tạo ra nhu cầu đối với các mạng và dịch vụ băng thông
rộng tốc độ cao, đặc biệt là trong các lĩnh vực nơi chính phủ đóng vai trò quan trọng như
trong giáo dục, y tế, phân phối năng lượng và giao thông vận tải. Chính sách công sẽ giúp
thúc đẩy sự đa dạng của nội dung, các nền tảng, các ứng dụng, các dịch vụ trực tuyến và
các công cụ truyền thông của người dùng khác sẽ tạo ra nhu cầu cho các mạng và dịch vụ,
cũng như cho phép người dùng được hưởng lợi đầy đủ từ các mạng và dịch vụ này và truy
cập vào sự đa dạng của nội dung mà không có phân biệt đối xử, bao gồm các nội dung
59
văn hóa và ngôn ngữ theo lựa chọn.
(4) Đẩy mạnh và cho phép chuyển giao dịch vụ xuyên biên giới: Các nhà cung cấp cần
có khả năng cung cấp các dịch vụ xuyên Internet qua biên giới và trung lập về mặt công
nghệ theo cách thúc đẩy khả năng tương tác của các dịch vụ và công nghệ, ở nơi thích
hợp. Người sử dụng cần có khả năng truy cập và tạo ra nội dung hợp pháp và chạy các
ứng dụng theo sự lựa chọn của họ. Để đảm bảo hiệu quả về chi phí và các hiệu quả khác,
các rào cản đối với vị trí, sự tiếp cận và việc sử dụng các công cụ dữ liệu và các chức năng
xuyên biên giới cần được giảm thiểu, việc cung cấp các biện pháp bảo vệ dữ liệu và an
ninh dữ liệu thích hợp được thực hiện một cách phù hợp và phản ánh sự cân bằng cần
thiết giữa tất cả các quyền, quyền tự do và các nguyên tắc cơ bản.
Khuyến khích việc tiếp cận đến dữ liệu và luồng dữ liệu tự do qua biên giới của
quốc gia và tổ chức
Luồng dữ liệu tự do qua biên giới của quốc gia và tổ chức là một nhân tố hỗ trợ quan
trọng cho đổi mới dựa trên dữ liệu. Chính phủ nên khuyến khích sự tiếp cận tốt hơn với
luồng dữ liệu tự do trên toàn bộ nền kinh tế. Điều này không chỉ bao gồm việc tăng cường
tiếp cận và tái sử dụng dữ liệu của khu vực công, những lợi ích đáng kể được dự kiến có
thể thu được từ việc chia sẻ dữ liệu xuyên khu vực. Điều này có thể thực hiện được thông
qua việc thúc đẩy các dữ liệu mở và dữ liệu dùng chung một cách phổ thông hơn. Theo
Frischmann (2012), dữ liệu dùng chung có thể: (i) tạo điều kiện cho việc sản xuất liên
doanh hoặc hợp tác với các nhà cung cấp, các khách hàng hay thậm chí các đối thủ cạnh
tranh, (ii) hỗ trợ và khuyến khích đổi mới dựa vào người sử dụng bao gồm các hoạt động
tạo ra giá trị của người sử dụng (bao gồm cả người tiêu dùng và công dân), (iii) tối đa hóa
giá trị tùy chọn của dữ liệu khi các đầu tư vào dữ liệu là không thể đảo ngược và có sự
không chắc chắn cao về các nguồn lực của giá trị thị trường trong tương lai. và cuối cùng
nhưng không kém phần quan trọng là (iv) trợ cấp (chéo) một cách hiệu quả cho việc sản
xuất hàng hóa xã hội và công cộng mà không cần phải dựa vào thị trường hay các chính
phủ để “chọn người chiến thắng”.
Dữ liệu mở là chế độ chia sẻ dữ liệu mạnh mẽ nhất. Các chế độ khác tồn tại giữa dữ
liệu mở và dữ liệu đóng, với các yếu tố chính ảnh hưởng đến mức độ mở của gồm: (i)
thiết kế công nghệ (bao gồm dữ liệu trên web, có thể đọc được bằng máy và khả năng liên
kết), (ii) quyền sở hữu trí tuệ (bao gồm các chế độ pháp lý như bản quyền, các hình thức
sở hữu trí tuệ đối với cơ sở dữ liệu và các bí mật thương mại) và (iii) sự định giá.
Việc trao quyền cho các cá nhân (người tiêu dùng) thông qua khả năng mang theo dữ
liệu (data portability) có thể tiếp tục thúc đẩy luồng dữ liệu tự do qua biên giới quốc gia và
tổ chức. Dữ liệu được phân loại theo (i) dữ liệu đóng góp (contributed data), (ii) dữ liệu
quan sát (observed data) và (iii) dữ liệu ngoai suy (inferred data) có thể giúp các nhà
hoạch định chính sách thiết kế các cơ chế thích hợp để cân bằng các quyền cá nhân với lợi
ích hợp pháp của doanh nghiệp.
60
Thiết lập các khuôn khổ quản trị dữ liệu cho truy cập, chia sẻ và khả năng liên tác
của dữ liệu
Các chế độ quản trị dữ liệu có thể có một tác động đối với việc truy cập, chia sẻ và tính
liên tác (interoperability) của dữ liệu. Chúng bao gồm những thách thức mà các cá nhân,
doanh nghiệp và các nhà hoạch định chính sách phải đối mặt trong mọi lĩnh vực, trong đó
dữ liệu được sử dụng mà không phân biệt các loại dữ liệu. Các chế độ quản trị dữ liệu có
thể có tác động đối với các khuyến khích chia sẻ và tiềm năng của dữ liệu được sử dụng
theo cách thức liên tác. Các yếu tố được xem xét cho một chế độ quản trị dữ liệu hiệu quả
bao gồm:
- Giá trị và định giá dữ liệu
- Liên kết và tích hợp dữ liệu
- Chất lượng và xử lý dữ liệu
- Quyền sở hữu và kiểm soát dữ liệu
Thúc đẩy nghiên cứu và phát triển các công nghệ phân tích dữ liệu và tăng cường
bảo vệ quyền riêng tư
Chất lượng của những hiểu biết dựa vào dữ liệu phụ thuộc vào chất lượng của các thuật
toán được sử dụng để phân tích dữ liệu (bên cạnh việc lựa chọn thuật toán phù hợp và chất
lượng của dữ liệu). Đồng thời, kiến thức về các cơ chế được sử dụng để trích xuất thông
tin làm phong phú cho nghiên cứu về các cơ chế bảo vệ và kiểm soát tốt hơn việc khai
thác thông tin. Vì vậy, NC&PT trong phân tích dữ liệu có thể được tiến hành đồng thời
với NC&PT các công nghệ bảo vệ quyền riêng tư (privacy enhancing technologies-PET).
Tuy nhiên, bằng chứng cho thấy rằng các động cơ khuyến khích khu vực tư nhân tiến
hành NC&PT về phân tích dữ liệu là nhiều hơn so với PET. Ví dụ, số lượng đơn xin cấp
bằng sáng chế về các công nghệ PET liên quan đến bảo vệ sự riêng tư vẫn còn rất thấp và
thậm chí đã giảm trong năm 2011, trong khi đơn xin cấp bằng sáng chế liên quan đến
phân tích dữ liệu liên tục tăng. Vì vậy chính phủ cần thúc đẩy NC&PT không chỉ tập
trung vào phân tích dữ liệu mà còn tập trung vào các công nghệ PET.
Đảm bảo việc cung cấp và phát triển các kỹ năng và năng lực phân tích dữ liệu
Việc gặt hái những lợi ích đầy đủ của dữ liệu đòi hỏi một mức độ đủ cao năng lực phân
tích dữ liệu trong nền kinh tế và xã hội. Bên cạnh việc cung cấp các công cụ điện toán
đám mây và phân tích dữ liệu, cần thiết phải nâng cao các kỹ năng phân tích dữ liệu (nhà
khoa học dữ liệu). Các kỹ năng và năng lực cụ thể về cách giải thích và tận dụng tối đa
các kết quả phân tích dữ liệu cũng quan trọng. Chính phủ cần đảm bảo việc cung cấp và
phát triển các kỹ năng và năng lực phù hợp thông qua (i) các tổ chức giáo dục chính thức
và (ii) đào tạo tại chỗ và đào tạo nghề công nghệ thông tin và truyền thông.
Khuyến khích tinh thần khởi nghiệp doanh nghiệp dựa vào dữ liệu và thay đổi tổ
chức trên toàn bộ nền kinh tế
Đổi mới dựa trên dữ liệu muốn đạt được một mức độ lớn phải được thực hiện bởi các
61
nhà doanh nhân, họ nhận thức được tiềm năng của phân tích dữ liệu trong các tổ chức của
mình cũng như trong các thị trường khác.
Đối với các doanh nhân trong một tổ chức, những thách thức chính sẽ là thay đổi tổ
chức: Chuyển đổi từ một tổ chức truyền thống sang tổ chức dựa trên dữ liệu có thể đòi hỏi
sự thay đổi văn hóa có thể rất khó để thực hiện. Như Bakhshi et al. (2014) nhấn mạnh:
Thực hiện những thay đổi bổ sung để gặt hái lợi nhuận đầy đủ từ phân tích dữ liệu có thể
“bao gồm những thay đổi gây phá vỡ, do đó có thể gây tranh cãi trong các cơ cấu tổ chức
và quy trình kinh doanh”.
Chính phủ có thể đóng một vai trò quan trọng trong việc khuyến khích các doanh
nghiệp dựa vào dữ liệu và thay đổi tổ chức thông qua việc cung cấp các thực tiễn tốt nhất
và khuyến khích cung cấp vốn mạo hiểm.
Kết luận
Khuyến nghị các lĩnh vực chính sách công hỗ trợ đổi mới sáng tạo dựa vào dữ liệu
Cơ hội kinh tế của đổi mới sáng tạo dựa vào dữ liệu là rất lớn. Như OECD đã kết luận,
"sự gia tăng độ lớn, tốc độ và đa dạng dữ liệu được sử dụng trên toàn bộ nền kinh tế, và
quan trọng hơn là giá trị kinh tế và xã hội lớn hơn của nó, báo hiệu một sự thay đổi hướng
tới một mô hình kinh tế xã hội định hướng dữ liệu. Trong mô hình này, dữ liệu là tài sản cốt
lõi có thể tạo ra lợi thế cạnh tranh và chi phối đổi mới, tăng trưởng và phát triển bền vững".
Sự tăng trưởng về số lượng dữ liệu được tạo ra trên cơ sở hàng ngày đến nay đã vượt quá
bất kỳ một sự hiểu biết tiềm năng nào về độ lớn của nó. Một ước tính gần đây đã đưa ra con
số 161 exabytes một năm - hay tương đương với khối lượng thông tin được lưu trữ tại
37.000 thư viện có độ lớn tương đương Thư viện Quốc hội Hoa Kỳ. Với độ lớn như vậy,
tiềm năng kinh tế và xã hội là vô cùng to lớn.
Giá trị từ phân tích dữ liệu có thể tính toán trong điều kiện kinh tế thực. Chi tiêu cho cơ
sở hạ tầng CNTT để phân tích dữ liệu theo ước tính của Gartner đạt 37 tỉ USD vào năm
2013. Cũng báo cáo này chỉ ra rằng vào năm 2015, đổi mới sáng tạo dựa vào dữ liệu sẽ tạo
ra được 4,4 triệu việc làm IT trên toàn cầu.
Việc hiểu được giá trị có thể nắm bắt được từ sự đổi mới sáng tạo dựa vào dữ liệu là điều
quan trọng bởi chính bản thân dữ liệu không có giá trị sẵn có. Khối lượng dữ liệu được tạo
ra thường gây nhầm lẫn hoặc đặt không đúng chỗ và làm chệch hướng các cuộc tranh luận
chú trọng vào các vấn đề về độ lớn hơn là phân tích. Như Hilbert đã lập luận, "không phụ
thuộc vào tầm cỡ độ lớn ở mức Peta, Exa, hoặc zettabyte, đặc điểm then chốt của sự thay
đổi mô hình này chính là việc xử lý phân tích dữ liệu được đặt ra ở vị trí hàng đầu của việc
ra quyết định trí tuệ". Các số liệu thống kê kinh tế chỉ là những đại diện cho giá trị mà đổi
mới dựa vào dữ liệu tạo ra. Nhiều hiệu quả của thông tin số không thể nắm bắt bằng các
phép đo kinh tế truyền thống như GDP hay GVA. Chỉ có thể thông qua phân tích, kết hợp
các sản phẩm hoặc dịch vụ mới làm cho núi dữ liệu khổng lồ tạo ra giá trị hoặc hiệu quả cho
xã hội.
62
Giá trị từ đổi mới dựa vào dữ liệu không dành riêng cho khu vực nhà nước hay tư nhân.
Eric Byrnjolfsson phát hiện rằng các doanh nghiệp áp dụng việc ra quyết định dựa trên dữ
liệu thì nâng cao được sản lượng và năng suất lên từ 5-6%. Tương tự, các chính phủ có thể
cải thiện được các dịch vụ mà họ cung cấp cho công dân bằng cách mang đến các kỹ năng
và kỹ thuật để xử lý những dữ liệu riêng của mình. Ngoài ra còn có một áp lực ngày càng
tăng đối với các chính phủ để thực hiện các chính sách dựa trên bằng chứng; để tuân theo
quy luật rằng "những gì đo đếm được thì được cải tiến". Điều này đòi hỏi không chỉ thu
thập dữ liệu bổ sung mà còn phải xử lý nó. Đó không phải là chỉ chính phủ có thể có ý
tưởng về cách sử dụng các dữ liệu thu thập được như thế nào. Dữ liệu còn giúp tiết kiệm
tiền: các chính phủ thuộc EU có thể giảm chi phí hành chính 15-20%, giá trị tương đương
150-300 tỷ euroo.
Hiện nay, ngày càng có nhiều chính phủ công bố các bộ dữ liệu mở để thúc đẩy đổi mới
sáng tạo trong công chúng. Cho dù đó là việc công khai các lịch trình giao thông công cộng
để cho các nhà phát triển ứng dụng sáng tạo các sản phẩm tiêu dùng mới hay sự gia tăng
tính minh bạch trong các dịch vụ công bằng cách mở cửa dữ liệu cho các tổ chức phi chính
phủ, thì các cơ hội cho các tổ chức thuộc khu vực công có ý nghĩa rất quan trọng.
Các cơ hội mang lại là cả về kinh tế lẫn xã hội. Các bệnh viện và hệ thống y tế có thể
chữa bệnh và khắc phục các rủi ro hệ thống thông qua đổi mới dựa trên dữ liệu; các trường
học có thể phân tích xem học sinh tương tác như thế nào với tài liệu giảng dạy để nâng cao
kết quả giáo dục; việc bố trí các nguồn lực được phân bổ hiệu quả hơn thông qua sử dụng
phân tích dữ liệu. Thật sự khả năng là vô tận, chỉ cần chúng ta có nền tảng và kỹ năng để
phân tích các kho dữ liệu được sản sinh và thu thập.
Tất cả các cơ hội kinh tế và xã hội đó cũng tạo ra những nguy hiểm và rủi ro, vì vậy
chúng cần được phân tích và phản ứng thận trọng. Thách thức đầu tiên đó là đảm bảo rằng
thông tin cá nhân không bị tiết lộ dù vô tình hay bất đắc dĩ thông qua việc chia sẻ các tập
hợp dữ liệu. Những mối quan tâm đó cần được giải quyết và các rủi ro cần được giảm thiểu
trước nhằm duy trì niềm tin của công chúng trong sử dụng các dịch vụ kỹ thuật số và để xã
hội có thể tận dụng được những lợi thế mà đổi mới sáng tạo dựa trên dữ liệu có thể mang
lại. Điều này có thể mang lại lợi ích cho các cá nhân cũng như cho xã hội nói chung và vì
thế cách tiếp cận của các nhà hoạch định chính sách phải là một tập hợp các quy định hỗ trợ
chứ không phải là những cấm đoán.
Do khu vực tư nhân sẽ thực hiện nhiều nỗ lực tiên phong trong sử dụng và phân tích dữ
liệu, các chính phủ có thể và nên hỗ trợ cho những nỗ lực đó. Đặc biệt, đổi mới dựa vào dữ
liệu đòi hỏi một lực lượng lao động có kỹ năng, công nghệ tiên tiến và sự tiếp cận dữ liệu.
Các nhà hoạch định chính sách có thể hỗ trợ những nỗ lực đó bằng cách xem xét các cơ hội
chính sách công trong bối cảnh khu vực công là một trong những nơi có cường độ sử dụng
dữ liệu cao nhất trong nền kinh tế. Các lĩnh vực chính sách công cần chú trọng để hỗ trợ cho
đổi mới sáng tạo dựa trên dữ liệu gồm:
Nhân lực
Hiện tại, thế giới còn thiếu nhân lực có kiến thức, kỹ năng và năng lực để hỗ trợ đổi mới
63
dựa vào dữ liệu. Nguồn nhân lực này không chỉ bao gồm các nhà lập trình có kỹ năng về
học máy và Hadoop, mà còn bao gồm các nhà quản lý, các nhà thiết kế và các chuyên gia
truyền thông. Ví dụ, năm 2012, công ty phân tích thị trường Gartner dự tính đến năm 2015,
chỉ có một phần ba trong số 4,4 triệu việc làm trong lĩnh vực dữ liệu lớn sẽ được tuyển
dụng. Trong khi một số trường đại học gần đây đã bắt đầu đưa các chương trình khoa học
dữ liệu, phân tích kinh doanh và học máy vào chương trình đào tạo, những nỗ lực này có
thể không đáp ứng nhanh chóng được các nhu cầu trước mắt.
Các quốc gia có thể cung cấp nhân tài làm việc trong các lĩnh vực liên quan đến dữ liệu
sẽ có lợi thế trong nền kinh tế toàn cầu. Các nhà hoạch định chính sách có cơ hội để giúp
thúc đẩy sự tăng trưởng số nhân lực có kiến thức về dữ liệu bằng cách tài trợ cho các khóa
học mở, trực tuyến về các môn học liên quan đến dữ liệu và mở rộng tuyển sinh các lớp
thống kê và khoa học máy tính. Các trường trung học cũng có thể hỗ trợ bằng cách tạo ra
các yêu cầu về toán linh hoạt hơn, do đó học sinh có thể tham dự các khóa học khoa học
máy tính hay thống kê. Mặc dù những nỗ lực như vậy chắc chắn phải mất một thời gian để
đem lại kết quả nhưng chúng có thể giúp mở ra những cơ hội mới cho người lao động và
mở rộng sự sẵn có của nhân lực đa ngành có kiến thức về dữ liệu cho các công ty về dài
hạn.
Chính phủ cũng có thể giúp thúc đẩy sự phát triển vốn nhân lực cần thiết bằng cách trở
thành người đi đầu, chứ không phải là người tụt hậu, trong việc thực hiện đổi mới dựa vào
dữ liệu. Các cơ quan chính phủ có thể sử dụng dữ liệu để tiết kiệm tiền bạc và cung cấp dịch
vụ tốt hơn cho người dân. Một báo cáo năm 2012 của Viện Toàn cầu McKinsey ước tính
rằng bằng cách làm như vậy, các quốc gia phát triển của châu Âu có thể tiết kiệm 100 tỷ
euroo (149 tỷ USD) mỗi năm chỉ riêng trong việc cải thiện hiệu quả hoạt động.
Bằng cách trở thành quốc gia sớm áp dụng đổi mới dựa vào dữ liệu, các cơ quan chính
phủ có thể giúp xây dựng các cộng đồng am hiểu dữ liệu (data-savvy communities) địa
phương, chứng minh tính khả thi của các công nghệ khác nhau và thúc đẩy mối quan tâm
đến đổi mới dựa vào dữ liệu trong công chúng. Cuối cùng, các cơ quan chính phủ cấp quốc
gia và địa phương cần tham gia trực tiếp vào cộng đồng khoa học dữ liệu và tham gia vào
các cuộc thi lập trình, thi mã hóa dành cho mọi công dân và các sự kiện khác được cộng
đồng khoa học dữ liệu tổ chức.
Công nghệ
Chính phủ cũng có thể giúp thúc đẩy sự phát triển các công nghệ tạo năng lực sử dụng
dữ liệu. Năm 2012 tại Hoa Kỳ, chính quyền Obama đã công bố sáng kiến NC&PT dữ liệu
lớn với khoản tài trợ 200 triệu USD. Các nỗ lực tài trợ như vậy cần được tiếp tục và mở
rộng do các lợi ích của những công nghệ này có thể có các hiệu ứng lan tỏa tích cực đối với
toàn bộ nền kinh tế. Như một số nhà kinh tế lưu ý, đầu tư cho tín dụng thuế NC&PT tạo ra
hơn một đôla cho nghiên cứu từ mỗi đôla thuế nộp trước. Hơn nữa, khi các cơ quan chính
phủ phát triển phần mềm riêng của họ, họ nên phổ biến cho các cộng đồng mã nguồn mở để
những người khác có thể tái sử dụng nó và dựa vào nó. Làm như vậy sẽ giúp đảm bảo rằng
các công dân phát huy tối đa những lợi ích của tiền thuế được dùng cho nghiên cứu và phát
64
triển.
Để đảm bảo rằng tiền đầu tư cho nghiên cứu của chính phủ đang hướng vào những thách
thức cấp bách nhất trong khu vực công và tư nhân, một cơ quan chính phủ, với ngân sách
công lớn, nên phát triển một lộ trình NC&PT về các chủ đề liên quan như phân tích dữ liệu,
lưu trữ dữ liệu và điện toán phân tán cũng như các chủ đề riêng tư và bảo mật. Điều này có
thể đặc biệt thành công trong các lĩnh vực nơi các tiến bộ công nghệ có thể làm giảm các
rào cản để thích ứng. Ví dụ, những quan ngại về tính riêng tư có thể được giải quyết thông
qua các công nghệ và phương pháp mới trong các lĩnh vực như xóa vết định dạng dữ liệu,
đảm bảo an toàn thông tin trong quá trình khai thác dữ liệu, bảo mật, xác thực đa bên và khả
năng liên tác số. Các hợp tác công tư, chẳng hạn như Liên hiệp Quốc gia về khoa học dữ
liệu của Hoa Kỳ (NCDS), cũng có thể giúp mang lại kiến thức chuyên môn sâu rộng để
thiết lập các ưu tiên nghiên cứu và ban hành các chuẩn.
Cuối cùng, chính phủ có thể khuyến khích việc sử dụng và tái sử dụng dữ liệu bằng cách
khuyến khích chuẩn hóa. Do các chuẩn dữ liệu có thiên hướng mang lại lợi ích cho phạm vi
rộng các bên liên quan trong một khu vực nhất định, sự đồng thuận rộng rãi thường có thể
đạt được; tuy nhiên trong một số trường hợp, sự hỗ trợ của chính phủ có thể giúp đẩy nhanh
quá trình này. Tại Hoa Kỳ, sự lãnh đạo của Ủy ban Chứng khoán và giao dịch (SEC) trong
xây dựng chuẩn XBRL về hồ sơ doanh nghiệp là một ví dụ điển hình về vai trò tạo điều
kiện thuận lợi của chính phủ trong ban hành các chuẩn dữ liệu. Hoa Kỳ cũng sẽ tiếp tục hỗ
trợ Liên minh Dữ liệu nghiên cứu quốc tế để làm cho dữ liệu khoa học và các cụ phân tích
tương thích trên toàn thế giới.
Dữ liệu
Nếu không có dữ liệu, đổi mới sáng tạo dựa vào dữ liệu là không thể. Kết quả là, chính
phủ có một vai trò quan trọng không chỉ trong việc thu thập và cung cấp dữ liệu, mà còn
trong việc tạo ra các khuôn khổ pháp lý phù hợp để thúc đẩy việc chia sẻ dữ liệu và nâng
cao nhận thức của công chúng về tầm quan trọng của chia sẻ dữ liệu.
Các cơ quan chính phủ nên để người dùng tiếp cận dữ liệu riêng của họ một cách kịp thời
và ở định dạng hữu ích. Việc làm cho dữ liệu được nhận dạng đầy đủ và duy nhất, công
khai trực tuyến ở định dạng có thể đọc được bằng máy và kịp thời sẽ cho phép các doanh
nghiệp, các nhà nghiên cứu, các tổ chức phi lợi nhuận và người dân có thể tái sử dụng. Một
cách để đạt được điều này là thông qua các chính sách dữ liệu mở rõ ràng ở tất cả các cấp
của chính phủ, chẳng hạn như Điều lệ Dữ liệu mở 2013 của G8, Chương trình nghị sự Dữ
liệu mở của Hoa Kỳ, hoặc chính sách dữ liệu mở của thành phố Toronto.
Tương tự như vậy, các nhà hoạch định chính sách cần tiếp tục theo đuổi các nỗ lực để
cho phép các cá nhân truy cập vào dữ liệu cá nhân của chính họ. Hai ví dụ của nỗ lực này ở
Hoa Kỳ là Sáng kiến Nút bấm xanh (Green Button) khuyến khích các công ty tiện ích tạo
điều kiện thuận lợi để người tiêu dùng có thể truy cập vào dữ liệu sử dụng năng lượng tại
nhà của họ và các Sáng kiến Nút bấm lam (Blue Button) để các cựu chiến binh có thể truy
cập hồ sơ y tế của họ. Bằng cách theo đuổi quy tắc “mở mặc định”, các cơ quan chính
quyền ở tất cả các cấp có thể khuyến khích các nghiên cứu và thử nghiệm mở rộng rất quan
65
trọng để khởi phát đổi mới dựa vào dữ liệu. Khi các công ty không tự nguyện cung cấp cho
khách hàng của mình cơ hội truy cập vào dữ liệu riêng ở định dạng điện tử, có thể tái sử
dụng, các nhà hoạch định chính sách có thể cần can thiệp. Đây không phải là việc bắt buộc
các công ty phải từ bỏ quyền sở hữu dữ liệu, mà là yêu cầu họ cố gắng cung cấp cho khách
hàng những bản sao dữ liệu riêng của họ.
Các nhà hoạch định chính sách cũng cần đảm bảo rằng họ tạo ra các khuôn khổ pháp lý
và luật pháp để khuyến khích chia sẻ dữ liệu và tái sử dụng trong các ngành công nghiệp
khác nhau. Đổi mới sáng tạo dựa vào dữ liệu diễn ra khi các tổ chức, cá nhân có thể thu
thập, sử dụng và tái sử dụng dữ liệu cho các mục đích mà họ có thể không hình dung ban
đầu. Ví dụ, cuộc điều tra dân số đầu tiên của Hoa Kỳ ban đầu được tiến hành cho mục đích
duy nhất là xác định đại biểu Quốc hội, nhưng dữ liệu của nó đã được áp dụng cho một loạt
các ứng dụng trong khu vực công và tư nhân, từ tăng trưởng kinh tế đến phân tích y tế công
cộng. Để hỗ trợ cho các ứng dụng không được lường trước như vậy, các nhà hoạch định
chính sách cần tạo không gian cho sự đổi mới ngẫu nhiên. Điều này có nghĩa là các khung
pháp lý nên hỗ trợ sự di chuyển của dữ liệu giữa các cá nhân, trong và giữa các quốc gia và
các tổ chức. Những nỗ lực của một số quốc gia áp đặt các luật “khu trú dữ liệu” hạn chế
luồng thông tin tự do toàn cầu chứ không phải là khuyến khích lưu thông dữ liệu xuyên biên
giới.
Các nhà hoạch định chính sách cũng nên tránh các quy định hạn chế không cần thiết về
thu thập và chia sẻ dữ liệu. Khi những hạn chế sử dụng là cần thiết chúng cần được thực
hiện với sự kiềm chế. Các quy định của pháp luật ngăn chặn việc sử dụng dữ liệu có thể dẫn
đến một tình huống gọi là “bi kịch chống lại những cái chung”.
Điều này xảy ra khi sự tồn tại của quá nhiều rào cản pháp lý và quan liêu tạo ra chi phí
giao dịch cao hạn chế việc sử dụng và trao đổi dữ liệu. Ví dụ, sự không chắc chắn về quyền
sở hữu dữ liệu có thể ngăn chặn một công ty tạo ra một ứng dụng dựa vào dữ liệu hữu ích.
Để không làm giảm tính năng của các ứng dụng dữ liệu có lợi, các cuộc thảo luận chính
sách cần tập trung giải quyết việc dữ liệu có thể được sử dụng như thế nào, chứ không phải
là việc quyết định liệu nó có nên được thu thập và trao đổi hay không. Những sử dụng đưa
đến tác hại cụ thể nên bị cấm, nhưng các nhà hoạch định chính sách cần tạo ra chính sách
mở thừa nhận phạm vi rộng không thể dự báo trước của các ứng dụng dựa vào dữ liệu trong
tương lai, đặc biệt là trong các lĩnh vực y tế và giáo dục.
Ở đây tồn tại những cơ hội tuyệt vời tận dụng dữ liệu để giải quyết các vấn đề xã hội
quan trọng và khuyến khích tăng trưởng kinh tế, tuy nhiên, để đạt được đầy đủ tiềm năng
của đổi mới dựa vào dữ liệu, các nhà hoạch định chính sách phải tạo ra cơ sở hạ tầng và
khung chính sách cần thiết. Bước đầu tiên để làm điều đó là phải hiểu và đánh giá cao tầm
quan trọng của đổi mới dựa vào dữ liệu trong khu vực công và tư nhân.
Biên soạn: Đặng Bảo Hà
Nguyễn Lê Hằng
66
Tài liệu tham khảo
1. OECD: DATA-DRIVEN INNOVATION FOR GROWTH AND WELL-BEING:
INTERIM SYNTHESIS REPORT. 10/2014.
2. OECD: EXPLORING DATA-DRIVEN INNOVATION AS A NEW SOURCE OF
GROWTH: MAPPING THE POLICY ISSUES RAISED BY “BIG DATA”. 6/2013.
3. Big data: The next frontier for innovation, competition, and productivity. McKinsey
Global Institute, 6/2011.
4. Market Analysis: Worldwide Big Data technology and services 2012-2015 Forecast.
www.idc.com
5. White Paper: Data-Driven Innovation in South-East Europe. Economics Institute,
Serbia; Inženjerski biro, Croatia; Economics Institute, Bosnia and Herzegovina; Economic
Program Center for the Study of Democracy, Bulgaria, 12/2014.
6. Jeff Kelly, “Big Data Vendor Revenue and Market Forecast,” Wikibon, 12 Feb. 2014.
7. Daniel Castro & Travis Korte: Data Innovation 101: An Introduction to the
Technologies and Policies Supporting Data-Driven Innovation. Center for Data
Innovation, 11/2013.
8. Report to the President: BIG DATA AND PRIVACY: A TECHNOLOGICAL
PERSPECTIVE. The President’s Council of Advisors on Science and Technology
(PCAST), 5/2014.
9. The Future of Data-driven Innovation. U. S. Chamber of Commerce Foundation,
10/2014.
10. BIG DATA: SEIZING OPPORTUNITIES, PRESERVING VALUES. Executive
Office of the President , 5/2014.
11. Big Data for Development: Challenges & Opportunities. Global Pulse, 5/2012.
12. David Abecassis, Nico Flores, Sara Montakhab: Data-driven innovation in Japan -
supporting economic transformation . Analysys Mason Limited, 10/2014.
Các file đính kèm theo tài liệu này:
- tai_lieu_du_lieu_lon_va_xu_huong_doi_moi_sang_tao_dua_tren_d.pdf