Tài liệu Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu

Các nhà hoạch định chính sách cũng nên tránh các quy định hạn chế không cần thiết về thu thập và chia sẻ dữ liệu. Khi những hạn chế sử dụng là cần thiết chúng cần được thực hiện với sự kiềm chế. Các quy định của pháp luật ngăn chặn việc sử dụng dữ liệu có thể dẫn đến một tình huống gọi là “bi kịch chống lại những cái chung”. Điều này xảy ra khi sự tồn tại của quá nhiều rào cản pháp lý và quan liêu tạo ra chi phí giao dịch cao hạn chế việc sử dụng và trao đổi dữ liệu. Ví dụ, sự không chắc chắn về quyền sở hữu dữ liệu có thể ngăn chặn một công ty tạo ra một ứng dụng dựa vào dữ liệu hữu ích. Để không làm giảm tính năng của các ứng dụng dữ liệu có lợi, các cuộc thảo luận chính sách cần tập trung giải quyết việc dữ liệu có thể được sử dụng như thế nào, chứ không phải là việc quyết định liệu nó có nên được thu thập và trao đổi hay không. Những sử dụng đưa đến tác hại cụ thể nên bị cấm, nhưng các nhà hoạch định chính sách cần tạo ra chính sách mở thừa nhận phạm vi rộng không thể dự báo trước của các ứng dụng dựa vào dữ liệu trong tương lai, đặc biệt là trong các lĩnh vực y tế và giáo dục. Ở đây tồn tại những cơ hội tuyệt vời tận dụng dữ liệu để giải quyết các vấn đề xã hội quan trọng và khuyến khích tăng trưởng kinh tế, tuy nhiên, để đạt được đầy đủ tiềm năng của đổi mới dựa vào dữ liệu, các nhà hoạch định chính sách phải tạo ra cơ sở hạ tầng và khung chính sách cần thiết. Bước đầu tiên để làm điều đó là phải hiểu và đánh giá cao tầm quan trọng của đổi mới dựa vào dữ liệu trong khu vực công và tư nhân.

pdf66 trang | Chia sẻ: hachi492 | Ngày: 18/01/2022 | Lượt xem: 280 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Tài liệu Dữ liệu lớn và xu hướng đổi mới sáng tạo dựa trên dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ì vật trung gian nào, có thể đưa ra khả năng tiếp xúc trực tiếp và do đó có thể hỗ trợ việc theo dõi và giám sát bùng nổ của bệnh. Một nghiên cứu mới đây của các nhà nghiên cứu trên Facebook đã phân tích mối quan hệ giữa vị trí địa lý của người dùng cá nhân và của bạn bè của họ. Từ phân tích này, họ đã có thể tạo ra một thuật toán để dự đoán vị trí của một người dùng cá nhân dựa trên vị trí của một số ít các bạn bè trong mạng của họ, chỉ đơn giản là nhìn vào địa chỉ IP của người dùng. Có rất nhiều dịch vụ thương mại “lắng nghe xã hội”, như Radian6/Salesforce Cloud, Collective Intellect, Lithium và những dịch vụ khác, khai phá dữ liệu từ mạng xã hội để sử dụng trong tình báo kinh doanh. Cùng với mạng xã hội, thông tin này có thể được sử dụng để đánh giá các thay đổi ảnh hưởng và sự lây lan của các xu hướng giữa các cá nhân và cộng đồng để thông báo các chiến lược tiếp thị. 2.2.3. Sử dụng dữ liệu Mục đích cuối cùng của phân tích dữ liệu là để hỗ trợ việc ra quyết định tốt hơn, cho dù những quyết định này được thực hiện bởi một người điều hành trong một văn phòng, một robot trong nhà máy, hoặc một người nào đó ở nhà. Tự động hóa dựa vào dữ liệu có thể 50 đơn giản hóa các quyết định được thực hiện bởi các robot, trong khi thông tin được tổ chức sử dụng các hệ thống hỗ trợ ra quyết định, trực quan hóa dữ liệu và các công nghệ ánh xạ có thể hỗ trợ con người. Hệ thống hỗ trợ ra quyết định Hệ thống hỗ trợ ra quyết định là các công cụ tương tác giúp người sử dụng đưa ra các quyết định tốt hơn và nhanh hơn trong các môi trường phức tạp, đa biến. Hệ thống hỗ trợ ra quyết định sử dụng các mô hình và các mô phỏng để dự đoán các kết quả và sau đó đưa ra các khuyến nghị cho người ra quyết định. Ví dụ, một nhà quản lý xây dựng có thể sử dụng hệ thống hỗ trợ ra quyết định giúp chọn nhà thầu phụ có sự kết hợp tốt nhất giữa rủi ro và doanh thu cho một dự án nhất định. Những hệ thống như vậy đặc biệt phổ biến ở các bệnh viện, nơi các hệ thống hỗ trợ ra quyết định lâm sàng có thể sử dụng thông tin của bệnh nhân để cảnh báo cho bác sĩ nếu một đơn thuốc ảnh hưởng đến các loại thuốc khác hay các bệnh khác. Các hệ thống hỗ trợ ra quyết định cũng có thể được sử dụng trong nhiều lĩnh vực khác, bao gồm cả giám sát môi trường. Ví dụ, hệ thống hỗ trợ ra quyết định cho an toàn hàng hải ở Địa Trung Hải đã được thiết kế cho các chính phủ thành viên của EU để giúp giảm thiểu những rủi ro tràn dầu ở Địa Trung Hải. Do các kỹ thuật phân tích dữ liệu như lập mô hình dự báo và xử lý ngôn ngữ tự nhiên tiếp tục phát triển, khả năng của các hệ thống hỗ trợ ra quyết định cũng phát triển theo. Tự động hóa Trong khi nhiều phân tích dữ liệu được triển khai để giúp con người đưa ra các quyết định chính xác hơn, dữ liệu cũng có thể được sử dụng để kích hoạt các hoạt động tự động trong hệ thống máy tính và robot. Ví dụ, Nest, máy điều nhiệt thông minh, có thể sử dụng dữ liệu cảm biến để xác định khi ngôi nhà có người và điều chỉnh hệ thống sưởi và làm mát của ngôi nhà một cách thích hợp. Xe ô tô tự lái của Google có thể nhận dữ liệu về các điều kiện đường sá và luồng giao thông để điều hướng hiệu quả và tránh va chạm. Một báo cáo năm 2013 của công ty nghiên cứu thị trường Markets and Markets dự đoán rằng thị trường giao tiếp máy-máy sẽ đạt 290 tỷ USD năm 2017, tăng 650% so với năm 2011. Máy học, một ngành của khoa học máy tính liên quan đến các hệ thống có hiệu suất được cải thiện bằng việc bổ sung dữ liệu mới, cung cấp các phương pháp ra quyết định tự động trong một loạt các ứng dụng. Máy học đã được sử dụng rộng rãi trong khoa học người máy, chẳng hạn như thị giác máy tính và hoạt động tự động trong các môi trường nhà máy, cũng như trong các hệ thống khuyến nghị trực tuyến, chẳng hạn như những hệ thống được sử dụng bởi dịch vụ nhạc trực tuyến Spotify và trang web hẹn hò trực tuyến OKCupid. Trực quan hóa Một cách để các nhà khoa học dữ liệu có thể truyền tải phân tích của họ đến người ra quyết định là thông qua trực quan hóa. Trực quan hóa được sử dụng trong một loạt các lĩnh vực và có thể từ các đồ thị đường đơn giản giá cổ phiếu đến các sơ đồ mạng xã hội phức tạp cho thấy sự lây lan của bệnh dịch. Trong các trường hợp nơi các mẫu trong dữ 51 liệu có thể được xác định dễ dàng hơn khi dữ liệu được hiển thị, trực quan hóa cũng có thể được sử dụng để tiến hành phân tích dữ liệu. Trực quan hóa dữ liệu được đưa vào nhiều công cụ phần mềm phân tích kinh doanh, chẳng hạn như Tableau. Các nền tảng và ngôn ngữ chuyên dụng dành cho các ứng dụng cụ thể, chẳng hạn như Gephi cho mạng và hiển thị đồ thị và xử lý hiển thị tương tác. Ngôn ngữ lập trình Javascript rất phổ biến để các ứng dụng tùy chỉnh hiển thị dữ liệu, cung cấp các thư viện mã nguồn mở, được sử dụng rộng rãi như D3. Các ứng dụng ánh xạ đã thúc đẩy sự phát triển rộng rãi phần mềm các hệ thống thông tin địa lý (GIS), cho phép các đặc trưng không gian được tích hợp vào phân tích dữ liệu. Có các công nghệ chuyên dụng cho tất cả các khía cạnh của đổi mới dựa vào dữ liệu không gian địa lý, bao gồm các cơ sở dữ liệu, máy chủ và các công cụ trực quan hóa. Các nhà cung cấp phần mềm độc quyền chính bao gồm ESRI (nhà cung cấp ArcGIS), Google (nhà cung cấp Google Maps, Earth và Street View) và Oracle (nhà cung cấp Spatial and Graph). Các dịch vụ GIS mã nguồn mở, chẳng hạn như những dịch vụ được công ty công nghệ không gian địa lý MapBox tạo ra, cũng đang phát triển ngày càng phổ biến. Các công cụ từ những nhà cung cấp trên đang được sử dụng rộng rãi trong ngành công nghiệp và chính phủ. Ví dụ, chính quyền Obama đã sử dụng phần mềm GIS để bổ sung thêm các lớp dữ liệu và tính tương tác vào các bản đồ trên trang web Recovery.gov của mình. Trình bày thông tin theo cách mà mọi người có thể tiếp thu nó một cách hiệu quả là một thách thức quan trọng cần phải được đáp ứng nếu phân tích dữ liệu là để dẫn đến hành động cụ thể. Loài người đã tiến hóa để đạt hiệu quả cao trong nhận thức một số loại mô hình với các giác quan của mình nhưng vẫn tiếp tục phải đối mặt với những hạn chế đáng kể trong khả năng của bản thân để xử lý các loại dữ liệu khác như số lượng lớn các dữ liệu số hoặc văn bản. Vì lý do này, hiện nay có một lượng lớn nghiên cứu và đổi mới trong lĩnh vực trực quan hóa, ví dụ, các kỹ thuật và công nghệ được sử dụng để tạo ra các hình ảnh, sơ đồ, hoặc hình ảnh động để giao tiếp, hiểu và cải thiện kết quả của phân tích dữ liệu lớn. Dưới đây là một số ví dụ về lĩnh vực quan trọng và đang phát triển hỗ trợ dữ liệu lớn. a) Đám mây từ khóa (Tag cloud) Văn bản của một báo cáo hiển thị dưới hình thức một đám mây thẻ (từ khóa), có thể là một danh sách các từ được đánh giá mức độ quan trọng, trong đó các từ xuất hiện thường xuyên nhất được hiển thị lớn hơn và các từ ít xuất hiện thường xuyên hơn sẽ được hiển thị nhỏ hơn. Đây là cách trực quan giúp người đọc lĩnh hội nhanh chóng các khái niệm nổi bật nhất trong một văn bản dài. b) Clustergram Clustergram là một kỹ thuật trực quan hóa được sử dụng cho phân tích cụm, hiển thị các thành phần riêng của một tập dữ liệu được gán thành các cụm khi số lượng các cụm tăng lên. Sự lựa chọn số cụm là một tham số quan trọng trong phân tích cụm. Kỹ thuật này cho phép các nhà phân tích có được sự hiểu biết tốt hơn về cách các kết quả của cụm khác với số khác của các cụm. 52 G iá t rị t ru n g b ìn h c ủ a c ụ m Số cụm c) Dòng lịch sử Dòng lịch sử là một kỹ thuật trực quan hóa lập các biểu đồ tiến hóa của một tài liệu khi nó được biên tập bởi nhiều tác giả. Thời gian nằm trên trên trục hoành, trong khi những đóng góp vào văn bản nằm trên trục tung; mỗi tác giả có một mã màu khác nhau và chiều dài của trục tung biểu thị số lượng văn bản được viết bởi mỗi tác giả. Bằng cách trực quan hóa lịch sử của một tài liệu theo cách này, những hiểu biết khác nhau dễ dàng xuất hiện. d) Dòng thông tin không gian Một kỹ thuật trực quan hóa khác là kỹ thuật mô tả các dòng thông tin không gian. Ví dụ chúng tôi chỉ ra ở đây có tên gọi New York Talk Exchange. Nó cho thấy lượng dòng dữ liệu của giao thức Internet giữa New York và các thành phố trên khắp thế giới. Kích thước của ánh sáng trên một vị trí thành phố cụ thể tương ứng với tổng lưu lượng IP lưu thông giữa các nơi đó và TP. New York; ánh sáng càng sáng hơn, dòng lưu thông càng lớn. Sự trực quang hóa này cho phép chúng ta xác định một cách nhanh chóng thành phố nào được kết nối chặt chẽ nhất với New York về khối lượng thông tin liên lạc của chúng. 53 2.2.4. Phổ biến dữ liệu Các tổ chức, bao gồm các cơ quan chính phủ, thường muốn chia sẻ dữ liệu của họ với những tổ chức khác. Trước đây, các bộ dữ liệu thường được phổ biến thông qua các phương tiện số, chẳng hạn như đĩa CD, nhưng sử dụng các đối tượng vật lý để phổ biến có những hạn chế nhất định như khối lượng dữ liệu hạn chế, sự phân bổ chậm và tốn kém. Hiện nay, dữ liệu có trên các trang web, thường miễn phí trực tiếp cho người sử dụng. Một số tổ chức chỉ cung cấp quyền truy cập vào các tập dữ liệu thô; những tổ chức khác phát triển các giao diện lập trình ứng dụng để các nhà phát triển khác tái sử dụng dữ liệu của họ dễ dàng hơn. Gần đây hơn, phần mềm chuyên dụng quản lý số lượng lớn các bộ dữ liệu mở của các tổ chức được xây dựng, chủ yếu là từ doanh nghiệp mới khởi nghiệp Socrata. Phần mềm này tương đối mới và các phần mềm khác cũng đã bắt đầu xuất hiện gần đây. Trong một số trường hợp, các tổ chức đã phát triển các nền tảng phổ biến dữ liệu mở của họ trong nội bộ tổ chức; một ví dụ là Data.gov của Hoa Kỳ. Những nhà sáng tạo ra nền tảng này sau đó phổ biến phần mềm của họ cho cộng đồng nguồn mở. 2.2.5. Cơ sở hạ tầng của dữ liệu lớn Phân tích dữ liệu lớn đòi hỏi không chỉ các thuật toán và dữ liệu, mà còn cả các cơ sở vật chất, nơi lưu trữ và phân tích dữ liệu. Các dịch vụ an ninh liên quan được sử dụng đối với dữ liệu cá nhân cũng là một thành phần thiết yếu trong cơ sở hạ tầng. Trước đây loại cơ sở hạ tầng này thường chỉ thuộc về các tổ chức lớn, giờ đây nó có thể phổ biến đến các doanh nghiệp nhỏ và các cá nhân thông qua "đám mây". Khi mà phạm vi chia sẻ cơ sở hạ tầng phần mềm được mở rộng, thì các dịch vụ cơ sở hạ tầng bảo mật thông tin cá nhân cũng có thể được sử dụng dễ dàng hơn. Các trung tâm dữ liệu Một cách để nghĩ tới nền tảng dữ liệu lớn đó là cơ sở vật chất của các "trung tâm dữ liệu". Trong những năm gần đây, các trung tâm dữ liệu đã trở thành một loại hàng hóa gần như đạt chuẩn. Một trung tâm dữ liệu điển hình là một tòa nhà lớn, giống như kho chứa trên một nền bê tông kích thước bằng vài sân bóng đá. Nó được đặt ở vị trí có thể tiếp cận nguồn điện giá rẻ với kết nối cáp quang và kết nối trực tiếp với mạng xương sống Internet, thường là ở một vùng nông thôn hoặc biệt lập. Các trung tâm dữ liệu điển hình tiêu thụ 20-40 megawatt điện (tương đương với một thành phố 20.000-40.000 dân) và chứa đến hàng chục ngàn máy chủ và ổ đĩa cứng, với tổng số lên đến hàng chục petabytes. Trên thế giới, có khoảng 6000 trung tâm dữ liệu đạt quy mô này, Hoa Kỳ chiếm khoảng một nửa số này. Các trung tâm dữ liệu là vị trí cụ thể của dữ liệu lớn với mọi hình thức của nó. Các tập hợp dữ liệu lớn thường được sao chép tại nhiều trung tâm dữ liệu để nâng cao tính cả hiệu suất và độ chắc chắn. Hiện nay thị trường dịch vụ trung tâm dữ liệu đang phát triển nhanh. Công nghệ phần mềm chuyên dụng cho phép các dữ liệu tại nhiều trung tâm dữ liệu 54 (và phân tán qua hàng chục ngàn bộ vi xử lý và ổ đĩa cứng) có thể tác hợp để thực hiện các nhiệm vụ phân tích dữ liệu, qua đó cho phép mở rộng quy mô và hiệu suất tốt hơn. Ví dụ, MapReduce (vốn là một công nghệ độc quyền của Google, nhưng giờ đây là một thuật ngữ được sử dụng tổng quát) là một mô hình lập trình về các hoạt động thực thi song song trên các bộ vi xử lý với số lượng gần như không giới hạn; Hadoop là một nền tảng lập trình mã nguồn mở phổ biến và là thư viện lập trình dựa trên những ý tưởng tương tự; NoSQL (Not Structured Query Language) là một tập hợp các công nghệ cơ sở dữ liệu, tháo gỡ nhiều giới hạn của các cơ sở dữ liệu truyền thống và "quan hệ", cho phép mở rộng tốt hơn trên nhiều bộ xử lý trong một hoặc nhiều trung tâm dữ liệu. Nghiên cứu đương đại đang được nhằm vào thế hệ tiếp theo của Hadoop. Đại diện một nhánh là Accumulo, do Cơ quan An ninh Quốc gia Hoa Kỳ khởi xướng và chuyển tiếp thành cộng đồng mã nguồn mở Apache . Một ví dụ khác là Berkeley Data Analytics Stack, một nền tảng mã nguồn mở vượt trội Hadoop về phân tích dữ liệu từ nhiều bộ nhớ (memory-intensive) và được sử dụng bởi các công ty như Foursquare, Conviva, Klout, Quantifind, Yahoo, và Amazon Web Services. Đôi khi được gọi là "NoHadoop" (dịch chuyển từ SQL sang NoSQL), các công nghệ phù hợp với xu hướng này bao gồm Dremel của Google, MPI (thường được sử dụng trong siêu máy tính), Pregel (sử dụng cho đồ họa), và Cloudscale (phân tích thời gian thực). Đám mây Có thể hiểu "đám mây" như là một tập hợp các nền tảng và dịch vụ có thể thực hiện được nhờ vào việc thông dụng hóa vật chất các trung tâm dữ liệu. Khi nói rằng dữ liệu nằm "trong đám mây", không chỉ đề cập đến các ổ đĩa cứng cụ thể tồn tại (ở một nơi nào đó) với các dữ liệu, mà đó là cả một cơ sở hạ tầng phức tạp gồm các chương trình ứng dụng, phần mềm lớp trung gian (middleware), các giao thức mạng, và các mô hình kinh doanh cho phép dữ liệu được đăng nhập, truy cập, và sử dụng, tất cả với chi phí phân phối cạnh tranh. Các tổ chức thương mại cung cấp đám mây tồn tại trong một hệ sinh thái có nhiều cấp thứ bậc và nhiều mô hình giá trị gia tăng khác nhau cùng tồn tại. Ở đây có nhiều cách chuyển giao trách nhiệm giữa người dùng cuối và các trung tâm dữ liệu cụ thể. Các nhà cung cấp đám mây hiện nay mang lại một số lợi ích an ninh (và thông qua đó, lợi ích bảo mật) so với các trung tâm dữ liệu thông thường của các doanh nghiệp trước đây hay các máy tính của các doanh nghiệp nhỏ. Các dịch vụ có thể bao gồm bảo vệ và giám sát tốt hơn, cũng như hỗ trợ tập trung hóa nhân lực, đào tạo, và giám sát. Các dịch vụ đám mây cũng đặt ra nhiều thách thức mới về an ninh, một đối tượng nghiên cứu hiện nay. Cả lợi ích và rủi ro đều xuất phát từ sự tập trung hóa các nguồn lực: Thêm nhiều dữ liệu được một tổ chức cụ thể nắm giữ (mặc dù phân bố trên nhiều máy chủ hoặc các trang web), và một nhà cung cấp đám mây có thể thực hiện tốt hơn so với các trung tâm dữ liệu được tổ chức riêng biệt bằng cách áp dụng các tiêu chuẩn cao về tuyển dụng và quản lý con người và hệ thống. Việc sử dụng đám mây và các tương tác cá nhân cùng với nó (bất kể cố ý hay không) 55 được dự báo sẽ tăng mạnh trong những năm tới. Sự gia tăng của cả hai ứng dụng di động, tăng cường sử dụng điện thoại di động và máy tính bảng như là nền tảng, và các bộ cảm biến phân bổ rộng có liên quan với việc sử dụng ngày càng tăng của các hệ thống đám mây để lưu trữ, xử lý, và các tác nghiệp dựa trên thông tin khác đóng góp bởi các thiết bị phân tán. Mặc dù sự tiến bộ về môi trường di động cải thiện khả năng sử dụng các ứng dụng đám mây di động, tuy nhiên nó có thể gây phương hại đến tính riêng tư đến mức nó có thể che giấu hiệu quả hơn sự trao đổi thông tin từ người sử dụng. Khi có thêm tính năng di động lõi được chuyển sang đám mây, một lượng lớn thông tin sẽ được trao đổi, và người dùng có thể ngạc nhiên bởi bản chất của thông tin không còn cục bộ hóa trong điện thoại di động của mình. Ví dụ, màn hình hiển thị (screen rendering) dựa trên đám mây (hoặc "màn hình ảo hóa") cho điện thoại di động sẽ có nghĩa là hình ảnh hiển thị trên màn hình điện thoại di động trên thực tế sẽ được tính toán trên đám mây và truyền đến thiết bị di động. Điều đó có nghĩa là tất cả các hình ảnh trên màn hình của thiết bị di động đều có thể truy cập và thao tác từ đám mây. Kiến trúc đám mây cũng đang được sử dụng ngày càng tăng để hỗ trợ phân tích dữ liệu lớn, cả các doanh nghiệp lớn (như Google, Amazon, eBay) và các doanh nghiệp nhỏ hay cá nhân, những người sử dụng đột xuất hay thường xuyên các nền tảng đám mây công cộng (như Amazon Web Services, Google Cloud Platform, Microsoft Azure) thay cho việc mua sắm cơ sở hạ tầng riêng. Các dịch vụ truyền thông xã hội như Facebook và Twitter đang được triển khai và phân tích bởi các nhà cung cấp thông qua sử dụng các hệ thống đám mây. Các dịch vụ này đại diện cho một dạng dân chủ hóa phân tích, có tiềm năng tạo điều kiện thuận lợi cho các doanh nghiệp mới và nhiều hơn. Triển vọng tương lai bao gồm khám phá các phương án hợp nhất hoặc kết nối các ứng dụng đám mây và làm giảm một số không đồng nhất trong các giao diện lập trình ứng dụng cho các ứng dụng đám mây. 3.3. Các vấn đề chính sách để khai thác đổi mới dựa sáng tạo trên dữ liệu như một nguồn lực tăng trưởng mới 3.3.1. Các thách thức chính sách đặt ra đối với đổi mới sáng tạo dựa trên dữ liệu Chính phủ có một vai trò quan trọng trong việc thúc đẩy các điều kiện thuận lợi cho đổi mới sáng tạo dựa trên dữ liệu diễn ra trong một môi trường đáng tin cậy. Sau đây là các thách thức chính sách đã được xác định cho đến nay: Xem xét toàn bộ vòng đời giá trị của dữ liệu Việc thiết kế các chính sách hiệu quả để thúc đẩy đổi mới dựa trên dữ liệu, trong khi giảm thiểu rủi ro, đòi hỏi một sự hiểu biết cơ bản về quá trình tạo ra giá trị. Một số chính sách (như truy cập mở đến dữ liệu) sẽ ảnh hưởng đến các giai đoạn cụ thể của vòng đời giá trị của dữ liệu trong khi những chính sách khác (ví dụ như bảo mật riêng tư) sẽ có tác động đến toàn bộ vòng đời giá trị. Việc xem xét toàn bộ vòng đời giá trị của dữ liệu là rất quan trọng vì nhiều lĩnh vực chính sách bổ sung cho nhau. Nói cách khác, việc tập trung chỉ vào một lĩnh vực chính sách sẽ có tác động rất ít nếu không được hỗ trợ bởi các biện 56 pháp chính sách bổ sung. Ví dụ, việc thúc đẩy truy cập mở trong một nền kinh tế mà không thúc đẩy các kỹ năng phân tích dữ liệu và tinh thần kinh doanh liên quan đến dữ liệu sẽ không đưa đến những lợi ích đầy đủ của đổi mới sáng tạo dựa trên dữ liệu trong phạm vi quốc gia. Hình 8: Các giai đoạn chính của vòng đời giá trị của dữ liệu và các vấn đề chính sách Dữ liệu hóa và thu thập dữ liệu Phân tích dữ liệu Quyết định dựa trên dữ liệu Mở rộng lượng dữ liệu có thể thu thập được Tăng cường năng lực phân tích dữ liệu Thúc đẩy việc ra quyết định có trách nhiệm cho tăng trưởng và sự phồn thịnh - Dữ liệu mở - Tính di chuyển của dữ liệu - Hạ tầng điện toán đám mây - Nhà khoa học về dữ liệu - Năng lực trong các lĩnh vực cụ thể - Tinh thần kinh doanh Các vấn đề chính sách liên quan: Tính riêng tư, quyền sở hữu trí tuệ, cạnh tranh, thuế, thương mại... Bảo vệ hiệu quả sự riêng tư và quyền tự do cá nhân Việc sợ mất quyền tự chủ và tự do có thể tạo ra một phản ứng mạnh đối với đổi mới dựa trên dữ liệu, dẫn đến sự ít tham gia hơn của các cá nhân và sự miễn cưỡng đóng góp dữ liệu cá nhân, nguồn dữ liệu cần thiết cho đổi mới dựa trên dữ liệu. Do đó, việc bảo vệ hiệu quả sự riêng tư là một điều kiện quan trọng để duy trì lòng tin vào đổi mới dựa trên dữ liệu. Chính phủ nên khuyến khích việc bảo vệ hiệu quả sự riêng tư khi xem xét toàn bộ vòng đời giá trị của dữ liệu, từ sưu tập dữ liệu, đến phân tích dữ liệu, đến ra quyết định dựa trên dữ liệu. Các biện pháp sau đây có thể được áp dụng: (i) tăng cường thực tiễn phân tích dữ liệu minh bạch, (ii) tiếp cận tốt hơn và trao quyền cho các chủ thể dữ liệu (chủ thể dữ liệu là cá nhân mà dữ liệu có liên quan đến họ), (iii) thúc đẩy việc sử dụng dữ 57 liệu có trách nhiệm của những người kiểm soát dữ liệu (người kiểm soát dữ liệu là người hoặc một mình hoặc cùng với những người khác xác định mục tiêu và cách thức tổ chức hoặc xử lý dữ liệu của cá nhân) và (iv) thúc đẩy quản lý rủi ro về quyền riêng tư bao gồm tất cả các bên liên quan. Thúc đẩy văn hóa quản lý rủi ro kỹ thuật số trên toàn hệ sinh thái dữ liệu Phương pháp bảo đảm an ninh truyền thống có thể hạn chế việc hiện thực hóa các lợi ích của đổi mới dựa trên dữ liệu. Chính phủ cần thúc đẩy văn hóa quản lý rủi ro an ninh kỹ thuật số trong đó yêu cầu những người kiểm soát dữ liệu và các nhà ra quyết định hiểu được cách thức để tiếp cận an ninh trong một bối cảnh kỹ thuật số để phục vụ tốt nhất các mục tiêu kinh tế và xã hội của họ. Việc đẩy mạnh văn hóa quản lý rủi ro thường gắn liền với sự hiểu biết về chu trình quản lý rủi ro an ninh kỹ thuật số bao gồm các bước sau: đánh giá rủi ro (bước 1) và xử lý rủi ro (bước 2), tức là xác định xem cần phải xử lý rủi ro như thế nào (bước 3), giảm thiểu rủi ro (bước 4), chuyển nó cho người khác (ví dụ như thông qua hợp đồng, bảo hiểm hay thoả thuận hợp pháp khác) (bước 5) hoặc tránh rủi ro bằng cách không thực hiện hoạt động này (bước 6). Nếu một người quyết định giảm thiểu rủi ro, việc đánh giá rủi ro giúp xác định các biện pháp an ninh cần được lựa chọn và áp dụng ở đâu và khi nào, đứng trên góc độ của các hậu quả của các sự kiện không chắc chắn đối với các mục tiêu kinh tế và xã hội (bước 7). Cuối cùng, rủi ro còn lại không thể bỏ qua. Một kế hoạch được chuẩn bị (bước 8) cũng cần được thiết lập để hạn chế và quản lý các hậu quả của các sự cố khi chúng xảy ra và làm giảm khả năng leo thang. Cung cấp các ưu đãi cho Internet tốc độ cao và mở Sự phổ biến nhanh chóng băng thông rộng ở các quốc gia OECD và các nền kinh tế đối tác của nó là một trong những hỗ trợ cơ bản nhất cho đổi mới dựa trên dữ liệu. Băng thông rộng tốc độ cao, và đặc biệt băng thông rộng di động, là cơ sở hạ tầng cơ bản cho dòng dữ liệu tự do và trao đổi được thu thập từ xa thông qua các ứng dụng Internet và hiện nay thông qua các thiết bị thông minh ngày càng nhiều và kết nối với nhau tạo thành Internet vạn vật. Hơn nữa, tính chất toàn cầu và phân bổ của hệ sinh thái dữ liệu làm cho Internet mở là một điều kiện quan trọng cho đổi mới dựa trên dữ liệu. Chính phủ cần tiếp tục thúc đẩy băng thông rộng di động và hỗ trợ mối quan tâm chung để tìm sự đồng thuận về cách duy trì Internet mở và sôi động. Hội nghị Cấp cao của OECD về Nền kinh tế Internet diễn ra ngày 28-29/6/2011 đã thảo luận về tính mở của Internet và cách tốt nhất để đảm bảo sự tăng trưởng liên tục và đổi mới nền kinh tế Internet. Thông cáo kết quả dự thảo, đưa đến Khuyến nghị về các nguyên tắc cho hoạch định chính sách Internet, bao gồm một số nguyên tắc cơ bản cho hoạch định chính sách Internet với mục tiêu để đảm bảo cho Internet duy trì mở và năng động, “cho phép mọi người nói lên khát vọng dân chủ của mình và bất kỳ hoạch định chính sách nào liên quan đến nó cũng phải thúc đẩy tính mở và được đặt nền tảng trên sự tôn trọng nhân quyền và các quy định của pháp luật”. Bốn nguyên tắc đầu tiên sau đây rất phù hợp cho việc sử 58 dụng dữ liệu. Điều này không có nghĩa là các nguyên tắc khác không quan trọng đối với đổi mới sáng tạo dựa trên dữ liệu: (1) Thúc đẩy và bảo vệ luồng thông tin tự do toàn cầu: Nền kinh tế Internet, cũng như khả năng học tập của mỗi cá nhân, chia sẻ thông tin và kiến thức, thể hiện bản thân, tập hợp và lập hội, phụ thuộc vào luồng thông tin tự do toàn cầu. Để khuyến khích các luồng thông tin tự do trực tuyến, làm việc cùng nhau để thúc đẩy khả năng tương thích toàn cầu tốt hơn trên một tập hợp đa dạng các luật và quy định là rất quan trọng. Trong khi thúc đẩy luồng thông tin tự do, các chính phủ cũng cần hướng tới việc bảo vệ tốt hơn các dữ liệu của các cá nhân, trẻ em, người tiêu dùng, các quyền sở hữu trí tuệ và giải quyết các vấn đề an ninh mạng. Để thúc đẩy luồng thông tin tự do, chính phủ cũng nên tôn trọng các quyền cơ bản. (2) Thúc đẩy tính mở, bản chất phân tán và liên kết của Internet: Là một mạng phi tập trung của các mạng máy tính, Internet đã đạt được sự kết nối toàn cầu mà không thuộc sự phát triển của bất cứ cơ chế quản lý quốc tế nào. Sự phát triển của một cơ chế quản lý chính thức như vậy có thể hủy hoại sự phát triển của nó. Tính mở của Internet đối với các thiết bị, các ứng dụng và dịch vụ mới đóng một vai trò quan trọng trong sự thành công của nó trong việc thúc đẩy đổi mới, sáng tạo và tăng trưởng kinh tế. Tính mở này bắt nguồn từ sự tương tác liên tục phát triển và sự độc lập giữa các thành phần kỹ thuật khác nhau của Internet, cho phép hợp tác và đổi mới trong khi tiếp tục hoạt động độc lập với nhau. Sự độc lập này cho phép những thay đổi chính sách và quy định trong một số thành phần mà không cần những thay đổi ở những thành phần khác hoặc có tác động đối với đổi mới và hợp tác. Tính mở của Internet cũng bắt nguồn từ sự chấp nhận trên toàn cầu các tiêu chuẩn kỹ thuật hỗ trợ các thị trường sản phẩm và truyền thông toàn cầu. Việc duy trì tính trung lập của công nghệ và chất lượng phù hợp cho tất cả các dịch vụ Internet cũng rất quan trọng để đảm bảo một môi trường Internet mở và năng động. Cung cấp dịch vụ truy cập Internet mở là rất quan trọng cho nền kinh tế Internet. (3) Thúc đẩy đầu tư và cạnh tranh trong các dịch vụ và mạng tốc độ cao: Dịch vụ và mạng tốc độ cao cần thiết cho sự tăng trưởng kinh tế trong tương lai, tạo việc làm, năng lực cạnh tranh cao hơn và để mọi người được hưởng một cuộc sống tốt hơn. Các chính sách công cần thúc đẩy cạnh tranh mạnh mẽ trong việc cung cấp Internet băng thông rộng tốc độ cao cho người dùng với giá cả phải chăng và thúc đẩy đầu tư để đạt được độ bao phủ địa lý lớn nhất của Internet băng thông rộng. Các chính sách công cũng cần thúc đẩy mức đầu tư tốt nhất bằng cách tạo ra nhu cầu đối với các mạng và dịch vụ băng thông rộng tốc độ cao, đặc biệt là trong các lĩnh vực nơi chính phủ đóng vai trò quan trọng như trong giáo dục, y tế, phân phối năng lượng và giao thông vận tải. Chính sách công sẽ giúp thúc đẩy sự đa dạng của nội dung, các nền tảng, các ứng dụng, các dịch vụ trực tuyến và các công cụ truyền thông của người dùng khác sẽ tạo ra nhu cầu cho các mạng và dịch vụ, cũng như cho phép người dùng được hưởng lợi đầy đủ từ các mạng và dịch vụ này và truy cập vào sự đa dạng của nội dung mà không có phân biệt đối xử, bao gồm các nội dung 59 văn hóa và ngôn ngữ theo lựa chọn. (4) Đẩy mạnh và cho phép chuyển giao dịch vụ xuyên biên giới: Các nhà cung cấp cần có khả năng cung cấp các dịch vụ xuyên Internet qua biên giới và trung lập về mặt công nghệ theo cách thúc đẩy khả năng tương tác của các dịch vụ và công nghệ, ở nơi thích hợp. Người sử dụng cần có khả năng truy cập và tạo ra nội dung hợp pháp và chạy các ứng dụng theo sự lựa chọn của họ. Để đảm bảo hiệu quả về chi phí và các hiệu quả khác, các rào cản đối với vị trí, sự tiếp cận và việc sử dụng các công cụ dữ liệu và các chức năng xuyên biên giới cần được giảm thiểu, việc cung cấp các biện pháp bảo vệ dữ liệu và an ninh dữ liệu thích hợp được thực hiện một cách phù hợp và phản ánh sự cân bằng cần thiết giữa tất cả các quyền, quyền tự do và các nguyên tắc cơ bản. Khuyến khích việc tiếp cận đến dữ liệu và luồng dữ liệu tự do qua biên giới của quốc gia và tổ chức Luồng dữ liệu tự do qua biên giới của quốc gia và tổ chức là một nhân tố hỗ trợ quan trọng cho đổi mới dựa trên dữ liệu. Chính phủ nên khuyến khích sự tiếp cận tốt hơn với luồng dữ liệu tự do trên toàn bộ nền kinh tế. Điều này không chỉ bao gồm việc tăng cường tiếp cận và tái sử dụng dữ liệu của khu vực công, những lợi ích đáng kể được dự kiến có thể thu được từ việc chia sẻ dữ liệu xuyên khu vực. Điều này có thể thực hiện được thông qua việc thúc đẩy các dữ liệu mở và dữ liệu dùng chung một cách phổ thông hơn. Theo Frischmann (2012), dữ liệu dùng chung có thể: (i) tạo điều kiện cho việc sản xuất liên doanh hoặc hợp tác với các nhà cung cấp, các khách hàng hay thậm chí các đối thủ cạnh tranh, (ii) hỗ trợ và khuyến khích đổi mới dựa vào người sử dụng bao gồm các hoạt động tạo ra giá trị của người sử dụng (bao gồm cả người tiêu dùng và công dân), (iii) tối đa hóa giá trị tùy chọn của dữ liệu khi các đầu tư vào dữ liệu là không thể đảo ngược và có sự không chắc chắn cao về các nguồn lực của giá trị thị trường trong tương lai. và cuối cùng nhưng không kém phần quan trọng là (iv) trợ cấp (chéo) một cách hiệu quả cho việc sản xuất hàng hóa xã hội và công cộng mà không cần phải dựa vào thị trường hay các chính phủ để “chọn người chiến thắng”. Dữ liệu mở là chế độ chia sẻ dữ liệu mạnh mẽ nhất. Các chế độ khác tồn tại giữa dữ liệu mở và dữ liệu đóng, với các yếu tố chính ảnh hưởng đến mức độ mở của gồm: (i) thiết kế công nghệ (bao gồm dữ liệu trên web, có thể đọc được bằng máy và khả năng liên kết), (ii) quyền sở hữu trí tuệ (bao gồm các chế độ pháp lý như bản quyền, các hình thức sở hữu trí tuệ đối với cơ sở dữ liệu và các bí mật thương mại) và (iii) sự định giá. Việc trao quyền cho các cá nhân (người tiêu dùng) thông qua khả năng mang theo dữ liệu (data portability) có thể tiếp tục thúc đẩy luồng dữ liệu tự do qua biên giới quốc gia và tổ chức. Dữ liệu được phân loại theo (i) dữ liệu đóng góp (contributed data), (ii) dữ liệu quan sát (observed data) và (iii) dữ liệu ngoai suy (inferred data) có thể giúp các nhà hoạch định chính sách thiết kế các cơ chế thích hợp để cân bằng các quyền cá nhân với lợi ích hợp pháp của doanh nghiệp. 60 Thiết lập các khuôn khổ quản trị dữ liệu cho truy cập, chia sẻ và khả năng liên tác của dữ liệu Các chế độ quản trị dữ liệu có thể có một tác động đối với việc truy cập, chia sẻ và tính liên tác (interoperability) của dữ liệu. Chúng bao gồm những thách thức mà các cá nhân, doanh nghiệp và các nhà hoạch định chính sách phải đối mặt trong mọi lĩnh vực, trong đó dữ liệu được sử dụng mà không phân biệt các loại dữ liệu. Các chế độ quản trị dữ liệu có thể có tác động đối với các khuyến khích chia sẻ và tiềm năng của dữ liệu được sử dụng theo cách thức liên tác. Các yếu tố được xem xét cho một chế độ quản trị dữ liệu hiệu quả bao gồm: - Giá trị và định giá dữ liệu - Liên kết và tích hợp dữ liệu - Chất lượng và xử lý dữ liệu - Quyền sở hữu và kiểm soát dữ liệu Thúc đẩy nghiên cứu và phát triển các công nghệ phân tích dữ liệu và tăng cường bảo vệ quyền riêng tư Chất lượng của những hiểu biết dựa vào dữ liệu phụ thuộc vào chất lượng của các thuật toán được sử dụng để phân tích dữ liệu (bên cạnh việc lựa chọn thuật toán phù hợp và chất lượng của dữ liệu). Đồng thời, kiến thức về các cơ chế được sử dụng để trích xuất thông tin làm phong phú cho nghiên cứu về các cơ chế bảo vệ và kiểm soát tốt hơn việc khai thác thông tin. Vì vậy, NC&PT trong phân tích dữ liệu có thể được tiến hành đồng thời với NC&PT các công nghệ bảo vệ quyền riêng tư (privacy enhancing technologies-PET). Tuy nhiên, bằng chứng cho thấy rằng các động cơ khuyến khích khu vực tư nhân tiến hành NC&PT về phân tích dữ liệu là nhiều hơn so với PET. Ví dụ, số lượng đơn xin cấp bằng sáng chế về các công nghệ PET liên quan đến bảo vệ sự riêng tư vẫn còn rất thấp và thậm chí đã giảm trong năm 2011, trong khi đơn xin cấp bằng sáng chế liên quan đến phân tích dữ liệu liên tục tăng. Vì vậy chính phủ cần thúc đẩy NC&PT không chỉ tập trung vào phân tích dữ liệu mà còn tập trung vào các công nghệ PET. Đảm bảo việc cung cấp và phát triển các kỹ năng và năng lực phân tích dữ liệu Việc gặt hái những lợi ích đầy đủ của dữ liệu đòi hỏi một mức độ đủ cao năng lực phân tích dữ liệu trong nền kinh tế và xã hội. Bên cạnh việc cung cấp các công cụ điện toán đám mây và phân tích dữ liệu, cần thiết phải nâng cao các kỹ năng phân tích dữ liệu (nhà khoa học dữ liệu). Các kỹ năng và năng lực cụ thể về cách giải thích và tận dụng tối đa các kết quả phân tích dữ liệu cũng quan trọng. Chính phủ cần đảm bảo việc cung cấp và phát triển các kỹ năng và năng lực phù hợp thông qua (i) các tổ chức giáo dục chính thức và (ii) đào tạo tại chỗ và đào tạo nghề công nghệ thông tin và truyền thông. Khuyến khích tinh thần khởi nghiệp doanh nghiệp dựa vào dữ liệu và thay đổi tổ chức trên toàn bộ nền kinh tế Đổi mới dựa trên dữ liệu muốn đạt được một mức độ lớn phải được thực hiện bởi các 61 nhà doanh nhân, họ nhận thức được tiềm năng của phân tích dữ liệu trong các tổ chức của mình cũng như trong các thị trường khác. Đối với các doanh nhân trong một tổ chức, những thách thức chính sẽ là thay đổi tổ chức: Chuyển đổi từ một tổ chức truyền thống sang tổ chức dựa trên dữ liệu có thể đòi hỏi sự thay đổi văn hóa có thể rất khó để thực hiện. Như Bakhshi et al. (2014) nhấn mạnh: Thực hiện những thay đổi bổ sung để gặt hái lợi nhuận đầy đủ từ phân tích dữ liệu có thể “bao gồm những thay đổi gây phá vỡ, do đó có thể gây tranh cãi trong các cơ cấu tổ chức và quy trình kinh doanh”. Chính phủ có thể đóng một vai trò quan trọng trong việc khuyến khích các doanh nghiệp dựa vào dữ liệu và thay đổi tổ chức thông qua việc cung cấp các thực tiễn tốt nhất và khuyến khích cung cấp vốn mạo hiểm. Kết luận Khuyến nghị các lĩnh vực chính sách công hỗ trợ đổi mới sáng tạo dựa vào dữ liệu Cơ hội kinh tế của đổi mới sáng tạo dựa vào dữ liệu là rất lớn. Như OECD đã kết luận, "sự gia tăng độ lớn, tốc độ và đa dạng dữ liệu được sử dụng trên toàn bộ nền kinh tế, và quan trọng hơn là giá trị kinh tế và xã hội lớn hơn của nó, báo hiệu một sự thay đổi hướng tới một mô hình kinh tế xã hội định hướng dữ liệu. Trong mô hình này, dữ liệu là tài sản cốt lõi có thể tạo ra lợi thế cạnh tranh và chi phối đổi mới, tăng trưởng và phát triển bền vững". Sự tăng trưởng về số lượng dữ liệu được tạo ra trên cơ sở hàng ngày đến nay đã vượt quá bất kỳ một sự hiểu biết tiềm năng nào về độ lớn của nó. Một ước tính gần đây đã đưa ra con số 161 exabytes một năm - hay tương đương với khối lượng thông tin được lưu trữ tại 37.000 thư viện có độ lớn tương đương Thư viện Quốc hội Hoa Kỳ. Với độ lớn như vậy, tiềm năng kinh tế và xã hội là vô cùng to lớn. Giá trị từ phân tích dữ liệu có thể tính toán trong điều kiện kinh tế thực. Chi tiêu cho cơ sở hạ tầng CNTT để phân tích dữ liệu theo ước tính của Gartner đạt 37 tỉ USD vào năm 2013. Cũng báo cáo này chỉ ra rằng vào năm 2015, đổi mới sáng tạo dựa vào dữ liệu sẽ tạo ra được 4,4 triệu việc làm IT trên toàn cầu. Việc hiểu được giá trị có thể nắm bắt được từ sự đổi mới sáng tạo dựa vào dữ liệu là điều quan trọng bởi chính bản thân dữ liệu không có giá trị sẵn có. Khối lượng dữ liệu được tạo ra thường gây nhầm lẫn hoặc đặt không đúng chỗ và làm chệch hướng các cuộc tranh luận chú trọng vào các vấn đề về độ lớn hơn là phân tích. Như Hilbert đã lập luận, "không phụ thuộc vào tầm cỡ độ lớn ở mức Peta, Exa, hoặc zettabyte, đặc điểm then chốt của sự thay đổi mô hình này chính là việc xử lý phân tích dữ liệu được đặt ra ở vị trí hàng đầu của việc ra quyết định trí tuệ". Các số liệu thống kê kinh tế chỉ là những đại diện cho giá trị mà đổi mới dựa vào dữ liệu tạo ra. Nhiều hiệu quả của thông tin số không thể nắm bắt bằng các phép đo kinh tế truyền thống như GDP hay GVA. Chỉ có thể thông qua phân tích, kết hợp các sản phẩm hoặc dịch vụ mới làm cho núi dữ liệu khổng lồ tạo ra giá trị hoặc hiệu quả cho xã hội. 62 Giá trị từ đổi mới dựa vào dữ liệu không dành riêng cho khu vực nhà nước hay tư nhân. Eric Byrnjolfsson phát hiện rằng các doanh nghiệp áp dụng việc ra quyết định dựa trên dữ liệu thì nâng cao được sản lượng và năng suất lên từ 5-6%. Tương tự, các chính phủ có thể cải thiện được các dịch vụ mà họ cung cấp cho công dân bằng cách mang đến các kỹ năng và kỹ thuật để xử lý những dữ liệu riêng của mình. Ngoài ra còn có một áp lực ngày càng tăng đối với các chính phủ để thực hiện các chính sách dựa trên bằng chứng; để tuân theo quy luật rằng "những gì đo đếm được thì được cải tiến". Điều này đòi hỏi không chỉ thu thập dữ liệu bổ sung mà còn phải xử lý nó. Đó không phải là chỉ chính phủ có thể có ý tưởng về cách sử dụng các dữ liệu thu thập được như thế nào. Dữ liệu còn giúp tiết kiệm tiền: các chính phủ thuộc EU có thể giảm chi phí hành chính 15-20%, giá trị tương đương 150-300 tỷ euroo. Hiện nay, ngày càng có nhiều chính phủ công bố các bộ dữ liệu mở để thúc đẩy đổi mới sáng tạo trong công chúng. Cho dù đó là việc công khai các lịch trình giao thông công cộng để cho các nhà phát triển ứng dụng sáng tạo các sản phẩm tiêu dùng mới hay sự gia tăng tính minh bạch trong các dịch vụ công bằng cách mở cửa dữ liệu cho các tổ chức phi chính phủ, thì các cơ hội cho các tổ chức thuộc khu vực công có ý nghĩa rất quan trọng. Các cơ hội mang lại là cả về kinh tế lẫn xã hội. Các bệnh viện và hệ thống y tế có thể chữa bệnh và khắc phục các rủi ro hệ thống thông qua đổi mới dựa trên dữ liệu; các trường học có thể phân tích xem học sinh tương tác như thế nào với tài liệu giảng dạy để nâng cao kết quả giáo dục; việc bố trí các nguồn lực được phân bổ hiệu quả hơn thông qua sử dụng phân tích dữ liệu. Thật sự khả năng là vô tận, chỉ cần chúng ta có nền tảng và kỹ năng để phân tích các kho dữ liệu được sản sinh và thu thập. Tất cả các cơ hội kinh tế và xã hội đó cũng tạo ra những nguy hiểm và rủi ro, vì vậy chúng cần được phân tích và phản ứng thận trọng. Thách thức đầu tiên đó là đảm bảo rằng thông tin cá nhân không bị tiết lộ dù vô tình hay bất đắc dĩ thông qua việc chia sẻ các tập hợp dữ liệu. Những mối quan tâm đó cần được giải quyết và các rủi ro cần được giảm thiểu trước nhằm duy trì niềm tin của công chúng trong sử dụng các dịch vụ kỹ thuật số và để xã hội có thể tận dụng được những lợi thế mà đổi mới sáng tạo dựa trên dữ liệu có thể mang lại. Điều này có thể mang lại lợi ích cho các cá nhân cũng như cho xã hội nói chung và vì thế cách tiếp cận của các nhà hoạch định chính sách phải là một tập hợp các quy định hỗ trợ chứ không phải là những cấm đoán. Do khu vực tư nhân sẽ thực hiện nhiều nỗ lực tiên phong trong sử dụng và phân tích dữ liệu, các chính phủ có thể và nên hỗ trợ cho những nỗ lực đó. Đặc biệt, đổi mới dựa vào dữ liệu đòi hỏi một lực lượng lao động có kỹ năng, công nghệ tiên tiến và sự tiếp cận dữ liệu. Các nhà hoạch định chính sách có thể hỗ trợ những nỗ lực đó bằng cách xem xét các cơ hội chính sách công trong bối cảnh khu vực công là một trong những nơi có cường độ sử dụng dữ liệu cao nhất trong nền kinh tế. Các lĩnh vực chính sách công cần chú trọng để hỗ trợ cho đổi mới sáng tạo dựa trên dữ liệu gồm: Nhân lực Hiện tại, thế giới còn thiếu nhân lực có kiến thức, kỹ năng và năng lực để hỗ trợ đổi mới 63 dựa vào dữ liệu. Nguồn nhân lực này không chỉ bao gồm các nhà lập trình có kỹ năng về học máy và Hadoop, mà còn bao gồm các nhà quản lý, các nhà thiết kế và các chuyên gia truyền thông. Ví dụ, năm 2012, công ty phân tích thị trường Gartner dự tính đến năm 2015, chỉ có một phần ba trong số 4,4 triệu việc làm trong lĩnh vực dữ liệu lớn sẽ được tuyển dụng. Trong khi một số trường đại học gần đây đã bắt đầu đưa các chương trình khoa học dữ liệu, phân tích kinh doanh và học máy vào chương trình đào tạo, những nỗ lực này có thể không đáp ứng nhanh chóng được các nhu cầu trước mắt. Các quốc gia có thể cung cấp nhân tài làm việc trong các lĩnh vực liên quan đến dữ liệu sẽ có lợi thế trong nền kinh tế toàn cầu. Các nhà hoạch định chính sách có cơ hội để giúp thúc đẩy sự tăng trưởng số nhân lực có kiến thức về dữ liệu bằng cách tài trợ cho các khóa học mở, trực tuyến về các môn học liên quan đến dữ liệu và mở rộng tuyển sinh các lớp thống kê và khoa học máy tính. Các trường trung học cũng có thể hỗ trợ bằng cách tạo ra các yêu cầu về toán linh hoạt hơn, do đó học sinh có thể tham dự các khóa học khoa học máy tính hay thống kê. Mặc dù những nỗ lực như vậy chắc chắn phải mất một thời gian để đem lại kết quả nhưng chúng có thể giúp mở ra những cơ hội mới cho người lao động và mở rộng sự sẵn có của nhân lực đa ngành có kiến thức về dữ liệu cho các công ty về dài hạn. Chính phủ cũng có thể giúp thúc đẩy sự phát triển vốn nhân lực cần thiết bằng cách trở thành người đi đầu, chứ không phải là người tụt hậu, trong việc thực hiện đổi mới dựa vào dữ liệu. Các cơ quan chính phủ có thể sử dụng dữ liệu để tiết kiệm tiền bạc và cung cấp dịch vụ tốt hơn cho người dân. Một báo cáo năm 2012 của Viện Toàn cầu McKinsey ước tính rằng bằng cách làm như vậy, các quốc gia phát triển của châu Âu có thể tiết kiệm 100 tỷ euroo (149 tỷ USD) mỗi năm chỉ riêng trong việc cải thiện hiệu quả hoạt động. Bằng cách trở thành quốc gia sớm áp dụng đổi mới dựa vào dữ liệu, các cơ quan chính phủ có thể giúp xây dựng các cộng đồng am hiểu dữ liệu (data-savvy communities) địa phương, chứng minh tính khả thi của các công nghệ khác nhau và thúc đẩy mối quan tâm đến đổi mới dựa vào dữ liệu trong công chúng. Cuối cùng, các cơ quan chính phủ cấp quốc gia và địa phương cần tham gia trực tiếp vào cộng đồng khoa học dữ liệu và tham gia vào các cuộc thi lập trình, thi mã hóa dành cho mọi công dân và các sự kiện khác được cộng đồng khoa học dữ liệu tổ chức. Công nghệ Chính phủ cũng có thể giúp thúc đẩy sự phát triển các công nghệ tạo năng lực sử dụng dữ liệu. Năm 2012 tại Hoa Kỳ, chính quyền Obama đã công bố sáng kiến NC&PT dữ liệu lớn với khoản tài trợ 200 triệu USD. Các nỗ lực tài trợ như vậy cần được tiếp tục và mở rộng do các lợi ích của những công nghệ này có thể có các hiệu ứng lan tỏa tích cực đối với toàn bộ nền kinh tế. Như một số nhà kinh tế lưu ý, đầu tư cho tín dụng thuế NC&PT tạo ra hơn một đôla cho nghiên cứu từ mỗi đôla thuế nộp trước. Hơn nữa, khi các cơ quan chính phủ phát triển phần mềm riêng của họ, họ nên phổ biến cho các cộng đồng mã nguồn mở để những người khác có thể tái sử dụng nó và dựa vào nó. Làm như vậy sẽ giúp đảm bảo rằng các công dân phát huy tối đa những lợi ích của tiền thuế được dùng cho nghiên cứu và phát 64 triển. Để đảm bảo rằng tiền đầu tư cho nghiên cứu của chính phủ đang hướng vào những thách thức cấp bách nhất trong khu vực công và tư nhân, một cơ quan chính phủ, với ngân sách công lớn, nên phát triển một lộ trình NC&PT về các chủ đề liên quan như phân tích dữ liệu, lưu trữ dữ liệu và điện toán phân tán cũng như các chủ đề riêng tư và bảo mật. Điều này có thể đặc biệt thành công trong các lĩnh vực nơi các tiến bộ công nghệ có thể làm giảm các rào cản để thích ứng. Ví dụ, những quan ngại về tính riêng tư có thể được giải quyết thông qua các công nghệ và phương pháp mới trong các lĩnh vực như xóa vết định dạng dữ liệu, đảm bảo an toàn thông tin trong quá trình khai thác dữ liệu, bảo mật, xác thực đa bên và khả năng liên tác số. Các hợp tác công tư, chẳng hạn như Liên hiệp Quốc gia về khoa học dữ liệu của Hoa Kỳ (NCDS), cũng có thể giúp mang lại kiến thức chuyên môn sâu rộng để thiết lập các ưu tiên nghiên cứu và ban hành các chuẩn. Cuối cùng, chính phủ có thể khuyến khích việc sử dụng và tái sử dụng dữ liệu bằng cách khuyến khích chuẩn hóa. Do các chuẩn dữ liệu có thiên hướng mang lại lợi ích cho phạm vi rộng các bên liên quan trong một khu vực nhất định, sự đồng thuận rộng rãi thường có thể đạt được; tuy nhiên trong một số trường hợp, sự hỗ trợ của chính phủ có thể giúp đẩy nhanh quá trình này. Tại Hoa Kỳ, sự lãnh đạo của Ủy ban Chứng khoán và giao dịch (SEC) trong xây dựng chuẩn XBRL về hồ sơ doanh nghiệp là một ví dụ điển hình về vai trò tạo điều kiện thuận lợi của chính phủ trong ban hành các chuẩn dữ liệu. Hoa Kỳ cũng sẽ tiếp tục hỗ trợ Liên minh Dữ liệu nghiên cứu quốc tế để làm cho dữ liệu khoa học và các cụ phân tích tương thích trên toàn thế giới. Dữ liệu Nếu không có dữ liệu, đổi mới sáng tạo dựa vào dữ liệu là không thể. Kết quả là, chính phủ có một vai trò quan trọng không chỉ trong việc thu thập và cung cấp dữ liệu, mà còn trong việc tạo ra các khuôn khổ pháp lý phù hợp để thúc đẩy việc chia sẻ dữ liệu và nâng cao nhận thức của công chúng về tầm quan trọng của chia sẻ dữ liệu. Các cơ quan chính phủ nên để người dùng tiếp cận dữ liệu riêng của họ một cách kịp thời và ở định dạng hữu ích. Việc làm cho dữ liệu được nhận dạng đầy đủ và duy nhất, công khai trực tuyến ở định dạng có thể đọc được bằng máy và kịp thời sẽ cho phép các doanh nghiệp, các nhà nghiên cứu, các tổ chức phi lợi nhuận và người dân có thể tái sử dụng. Một cách để đạt được điều này là thông qua các chính sách dữ liệu mở rõ ràng ở tất cả các cấp của chính phủ, chẳng hạn như Điều lệ Dữ liệu mở 2013 của G8, Chương trình nghị sự Dữ liệu mở của Hoa Kỳ, hoặc chính sách dữ liệu mở của thành phố Toronto. Tương tự như vậy, các nhà hoạch định chính sách cần tiếp tục theo đuổi các nỗ lực để cho phép các cá nhân truy cập vào dữ liệu cá nhân của chính họ. Hai ví dụ của nỗ lực này ở Hoa Kỳ là Sáng kiến Nút bấm xanh (Green Button) khuyến khích các công ty tiện ích tạo điều kiện thuận lợi để người tiêu dùng có thể truy cập vào dữ liệu sử dụng năng lượng tại nhà của họ và các Sáng kiến Nút bấm lam (Blue Button) để các cựu chiến binh có thể truy cập hồ sơ y tế của họ. Bằng cách theo đuổi quy tắc “mở mặc định”, các cơ quan chính quyền ở tất cả các cấp có thể khuyến khích các nghiên cứu và thử nghiệm mở rộng rất quan 65 trọng để khởi phát đổi mới dựa vào dữ liệu. Khi các công ty không tự nguyện cung cấp cho khách hàng của mình cơ hội truy cập vào dữ liệu riêng ở định dạng điện tử, có thể tái sử dụng, các nhà hoạch định chính sách có thể cần can thiệp. Đây không phải là việc bắt buộc các công ty phải từ bỏ quyền sở hữu dữ liệu, mà là yêu cầu họ cố gắng cung cấp cho khách hàng những bản sao dữ liệu riêng của họ. Các nhà hoạch định chính sách cũng cần đảm bảo rằng họ tạo ra các khuôn khổ pháp lý và luật pháp để khuyến khích chia sẻ dữ liệu và tái sử dụng trong các ngành công nghiệp khác nhau. Đổi mới sáng tạo dựa vào dữ liệu diễn ra khi các tổ chức, cá nhân có thể thu thập, sử dụng và tái sử dụng dữ liệu cho các mục đích mà họ có thể không hình dung ban đầu. Ví dụ, cuộc điều tra dân số đầu tiên của Hoa Kỳ ban đầu được tiến hành cho mục đích duy nhất là xác định đại biểu Quốc hội, nhưng dữ liệu của nó đã được áp dụng cho một loạt các ứng dụng trong khu vực công và tư nhân, từ tăng trưởng kinh tế đến phân tích y tế công cộng. Để hỗ trợ cho các ứng dụng không được lường trước như vậy, các nhà hoạch định chính sách cần tạo không gian cho sự đổi mới ngẫu nhiên. Điều này có nghĩa là các khung pháp lý nên hỗ trợ sự di chuyển của dữ liệu giữa các cá nhân, trong và giữa các quốc gia và các tổ chức. Những nỗ lực của một số quốc gia áp đặt các luật “khu trú dữ liệu” hạn chế luồng thông tin tự do toàn cầu chứ không phải là khuyến khích lưu thông dữ liệu xuyên biên giới. Các nhà hoạch định chính sách cũng nên tránh các quy định hạn chế không cần thiết về thu thập và chia sẻ dữ liệu. Khi những hạn chế sử dụng là cần thiết chúng cần được thực hiện với sự kiềm chế. Các quy định của pháp luật ngăn chặn việc sử dụng dữ liệu có thể dẫn đến một tình huống gọi là “bi kịch chống lại những cái chung”. Điều này xảy ra khi sự tồn tại của quá nhiều rào cản pháp lý và quan liêu tạo ra chi phí giao dịch cao hạn chế việc sử dụng và trao đổi dữ liệu. Ví dụ, sự không chắc chắn về quyền sở hữu dữ liệu có thể ngăn chặn một công ty tạo ra một ứng dụng dựa vào dữ liệu hữu ích. Để không làm giảm tính năng của các ứng dụng dữ liệu có lợi, các cuộc thảo luận chính sách cần tập trung giải quyết việc dữ liệu có thể được sử dụng như thế nào, chứ không phải là việc quyết định liệu nó có nên được thu thập và trao đổi hay không. Những sử dụng đưa đến tác hại cụ thể nên bị cấm, nhưng các nhà hoạch định chính sách cần tạo ra chính sách mở thừa nhận phạm vi rộng không thể dự báo trước của các ứng dụng dựa vào dữ liệu trong tương lai, đặc biệt là trong các lĩnh vực y tế và giáo dục. Ở đây tồn tại những cơ hội tuyệt vời tận dụng dữ liệu để giải quyết các vấn đề xã hội quan trọng và khuyến khích tăng trưởng kinh tế, tuy nhiên, để đạt được đầy đủ tiềm năng của đổi mới dựa vào dữ liệu, các nhà hoạch định chính sách phải tạo ra cơ sở hạ tầng và khung chính sách cần thiết. Bước đầu tiên để làm điều đó là phải hiểu và đánh giá cao tầm quan trọng của đổi mới dựa vào dữ liệu trong khu vực công và tư nhân. Biên soạn: Đặng Bảo Hà Nguyễn Lê Hằng 66 Tài liệu tham khảo 1. OECD: DATA-DRIVEN INNOVATION FOR GROWTH AND WELL-BEING: INTERIM SYNTHESIS REPORT. 10/2014. 2. OECD: EXPLORING DATA-DRIVEN INNOVATION AS A NEW SOURCE OF GROWTH: MAPPING THE POLICY ISSUES RAISED BY “BIG DATA”. 6/2013. 3. Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 6/2011. 4. Market Analysis: Worldwide Big Data technology and services 2012-2015 Forecast. www.idc.com 5. White Paper: Data-Driven Innovation in South-East Europe. Economics Institute, Serbia; Inženjerski biro, Croatia; Economics Institute, Bosnia and Herzegovina; Economic Program Center for the Study of Democracy, Bulgaria, 12/2014. 6. Jeff Kelly, “Big Data Vendor Revenue and Market Forecast,” Wikibon, 12 Feb. 2014. 7. Daniel Castro & Travis Korte: Data Innovation 101: An Introduction to the Technologies and Policies Supporting Data-Driven Innovation. Center for Data Innovation, 11/2013. 8. Report to the President: BIG DATA AND PRIVACY: A TECHNOLOGICAL PERSPECTIVE. The President’s Council of Advisors on Science and Technology (PCAST), 5/2014. 9. The Future of Data-driven Innovation. U. S. Chamber of Commerce Foundation, 10/2014. 10. BIG DATA: SEIZING OPPORTUNITIES, PRESERVING VALUES. Executive Office of the President , 5/2014. 11. Big Data for Development: Challenges & Opportunities. Global Pulse, 5/2012. 12. David Abecassis, Nico Flores, Sara Montakhab: Data-driven innovation in Japan - supporting economic transformation . Analysys Mason Limited, 10/2014.

Các file đính kèm theo tài liệu này:

  • pdftai_lieu_du_lieu_lon_va_xu_huong_doi_moi_sang_tao_dua_tren_d.pdf