Ứng dụng dữ liệu lớn để tính chỉ số giá tiêu dùng của Mỹ: Kinh nghiệm và những kế hoạch

Kết luận và các kế hoạch trong tương lai Dữ liệu lớn có thể cung cấp thông tin một cách kịp thời hơn phương pháp thống kê giá truyền thống. Các nguồn dữ liệu thay thế mới có khả năng giải quyết nhiều vấn đề chúng ta đã gặp bao gồm tỷ lệ phản hồi thấp hơn và chi phí thu thập cao. Sau nhiều năm làm việc trên nhiều nguồn dữ liệu thay thế khác nhau, BLS hiện đã phác thảo một tầm nhìn CPI sẽ như thế nào trong thập kỷ tới. Điều này bao gồm các mục tiêu thay thế một phần đáng kể cho dữ liệu được thu thập trực tiếp theo phương pháp điều tra bởi các nguồn dữ liệu thay thế trong 5 năm tới. Cách tiếp cận của BLS là ưu tiên dữ liệu thay thế cho các danh mục và cửa hàng dựa trên một số yếu tố gồm: mức độ quan trọng của mặt hàng, số lượng giá thay thế, chi phí thu thập, chi phí dữ liệu thay thế, độ chính xác của chỉ số mặt hàng hiện tại, mối quan hệ của người trả lời với BLS, khả năng dễ dàng thực hiện, tỷ lệ phản hồi và mức tập trung của mẫu cho một mặt hàng nhất định. BLS cũng sẽ ưu tiên hợp tác để thu thập dữ liệu của doanh nghiệp lớn và sẽ khám phá các nguồn dữ liệu thay thế mang lại lợi ích và độ chính xác cao hơn. Mặc dù dữ liệu thay thế cho phép khám phá nhiều cải tiến về phương pháp, nhưng kinh nghiệm của BLS cho đến nay cho thấy có một số vấn đề cơ bản cần giải quyết. Các kỹ thuật đơn giản như mô hình chỉ số giá đối chiếu phù hợp không phải lúc nào cũng cho ra các kết quả có thể sử dụng được, và các phương pháp CPI hiện tại có thể không phù hợp với dữ liệu giao dịch. BLS đã phát triển các cách giải quyết vòng đời sản phẩm với các chỉ số mới sẽ sớm được công bố trên cơ sở thử nghiệm. Giải pháp ngắn hạn cho phép BLS thay thế việc thu thập dữ liệu giá thủ công từ trang web của doanh nghiệp bằng bộ dữ liệu giao dịch. BLS sẽ tiếp tục xem xét các tài liệu mới nhất về các phương pháp chỉ số giá, đồng thời phát triển thêm các phương pháp và quy trình mới để tận dụng các nguồn dữ liệu thay thế. Ngoài ra BLS sẽ tiếp tục giới thiệu dữ liệu thay thế trong CPI, đồng thời tiếp tục chú ý đến các mục tiêu đo lường CPI cốt lõi và đáp ứng nhu cầu của cơ sở dữ liệu rộng rãi của chương trình.

pdf9 trang | Chia sẻ: hachi492 | Ngày: 14/01/2022 | Lượt xem: 304 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Ứng dụng dữ liệu lớn để tính chỉ số giá tiêu dùng của Mỹ: Kinh nghiệm và những kế hoạch, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
17 THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê Tóm tắt: Sự phát triển không ngừng của dữ liệu lớn giúp mở ra các cơ hội mới cho hoạt động thống kê. Trường hợp Ủy ban Thống kê Lao động Mỹ (BLS) là một trong những minh chứng điển hình của việc sử dụng dữ liệu lớn giúp nâng cao hiệu quả công tác thống kê hiện đại. Hiện nay, BLS đã tiến hành một số dự án thí điểm sử dụng các nguồn dữ liệu mới với mục đích bổ sung hoặc thay thế cho phương pháp thu thập truyền thống. Dựa trên cơ sở báo cáo “Dữ liệu lớn trong Chỉ số giá tiêu dùng của Mỹ: Kinh nghiệm & những kế hoạch” của tác giả Crystal G. Konny, Brendan K. Williams, and David M. Friedman công bố vào tháng 2 năm 2019, bài viết sẽ tóm lược một số nội dung chính liên quan đến các nguồn dữ liệu thay thế, thách thức trong việc sử dụng, kinh nghiệm thực tiễn khai thác đối với một số dự án và một số kết luận, kế hoạch trong tương lai. 1. Chỉ số giá tiêu dùng và các nguồn dữ liệu thay thế 1.1 Chỉ số giá tiêu dùng Chỉ số giá tiêu dùng (CPI) là thước đo sự thay đổi giá bình quân theo thời gian của giỏ hàng hóa tiêu dùng trên thị trường hàng hóa và dịch vụ. CPI cũng là một chỉ số đo lường tổng hợp được biên soạn dựa trên việc kết hợp các lý thuyết kinh tế và các kỹ thuật thống kê khác. Giá dùng trong biên soạn CPI theo phương pháp truyền thống hiện nay được thu thập từ hai kênh bao gồm: Khảo sát Hàng hóa và Dịch vụ (C&S) và Khảo sát Nhà ở được thực hiện bởi các điều tra viên của BLS. Hạn chế lớn nhất của việc thu thập thông tin thông qua các cuộc khảo sát là chi phí thực hiện điều tra và việc tiến hành cũng ngày càng trở lên khó khăn hơn. Các khu vực ngày càng mở rộng, dẫn đến chi phí đi lại ngày càng tăng. Việc gia tăng số lượng chuỗi cửa hàng làm cho thời gian thu thập kéo dài hơn vì cần có sự chấp thuận của các doanh nghiệp để tiến hành thu thập dữ liệu tại các cửa hàng. Tỷ lệ trả lời ngày càng giảm do nhiều yếu tố: yêu cầu bảo mật mới, tăng số lượng khảo sát, tăng tỷ lệ mất lòng tin vào chính phủ, mối lo ngại về bảo mật dữ liệu và/hoặc ít tin tưởng vào độ chính xác của CPI. Xuất phát từ thực tế trên, các nguồn dữ liệu thay thế ngày nay đã và đang mang lại cơ hội tuyệt vời giúp BLS giải quyết nhiều thách thức mà khảo sát giá tiêu dùng đang gặp phải. Thông qua các nguồn dữ liệu thay thế cho phép đo lường chính xác hơn sự thay đổi giá, giúp mở rộng cỡ mẫu, thu thập được giá giao dịch thay vì giá đề xuất, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thế của người tiêu dùng, loại bỏ sự thay đổi chất lượng, giảm hoặc loại bỏ gánh nặng của người trả lời, giải quyết các vấn đề không có câu trả lời trong các khảo sát CPI và giảm chi phí thu thập trong một số tình huống.  18 Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê Trong một số trường hợp, nguồn dữ liệu thay thế có thể giúp thu thập thông tin tiêu dùng kịp thời hơn. Dữ liệu có thể ở mức chi tiết hơn, số lượng mặt hàng đa dạng hơn so với mẫu hiện nay và tần suất thu thập cao hơn. Chính vì vậy, trong những năm gần đây, BLS đang chú ý tìm kiếm một quy trình thu thập mới mang lại hiệu quả hơn về mặt chi phí. 1.2 Các nguồn dữ liệu thay thế Hiện nay, các nguồn dữ liệu thay thế được chia thành ba loại chính: 1.2.1. Dữ liệu do doanh nghiệp cung cấp là bộ dữ liệu của người trả lời cuộc khảo sát được cung cấp trực tiếp từ trụ sở của doanh nghiệp thay vì người trả lời là các chủ cửa hàng. Các bộ dữ liệu này thường được tạo ra để phục vụ mục đích quản lý. Các thành phần và cấu trúc dữ liệu được xác định bởi người trả lời và BLS phải điều chỉnh dữ liệu để phù hợp với hệ thống của mình. BLS nhận được các mức thông tin khác nhau về các tập dữ liệu - nói chung, thông tin được cung cấp là những gì các doanh nghiệp sẵn sàng cung cấp. 1.2.2. Dữ liệu nguồn thứ cấp (bộ dữ liệu của bên thứ ba) được biên soạn bởi bên thứ ba, chứa giá cho hàng hóa hoặc dịch vụ từ nhiều cơ sở mà BLS cần phải mua hoặc được cung cấp miễn phí từ bộ dữ liệu tổng hợp. Người tổng hợp dữ liệu thực hiện một số công tác chuẩn hóa cấu trúc dữ liệu giữa các cơ sở kinh doanh. 1.2.3. Dữ liệu trích xuất từ các web là dữ liệu được nhân viên BLS thu thập tự động bằng phần mềm trích xuất dữ liệu để thu thập giá cả và đặc điểm sản phẩm từ các trang web. Một số cơ sở cung cấp giao diện lập trình ứng dụng (API) hoặc mã nguồn mở cho phép các đối tác truy cập thông tin về giá. Việc thu thập dữ liệu thông qua API thường dễ dàng và đơn giản hơn so với việc duy trì mã quét web theo thời gian. 2. Thách thức sử dụng nguồn dữ liệu thay thế 2.1 Thách thức liên quan phương pháp biên soạn CPI Trước hết là thách thức liên quan đến sự phù hợp giữa dữ liệu thay thế với phương pháp tính CPI hiện tại. Trở ngại chính trong việc xử lý dữ liệu giao dịch trong CPI là xử lý các hiệu ứng vòng đời sản phẩm, ví dụ khi các sản phẩm thể hiện xu hướng giá một cách hệ thống trong vòng đời. Đối với một số hàng hóa nhất định như hàng may mặc và các mặt hàng điện tử, một sản phẩm thường được chào bán mức giá cao trên thị trường và dần được giảm giá theo thời gian. BLS nhận thấy các phương pháp chỉ số giá đa phương được thiết kế để giải quyết chuỗi trôi không khắc phục được sự trôi xuống liên quan đến vòng đời sản phẩm. Các phương pháp Hedonic thông thường cũng không giải quyết được các hiệu ứng vòng đời sản phẩm. Đối với từng trường hợp cụ thể, BLS đã phát triển phương pháp sử dụng thay đổi giá hàng năm để tránh các hiệu ứng vòng đời. Nhiều nguồn dữ liệu thay thế có thể được thu thập thay cho việc thu thập dữ liệu các cửa hàng nằm trong mẫu thuận tiện, điều này giúp cho việc thu thập dữ liệu dễ dàng hơn. Khi các cửa hàng thuộc doanh nghiệp không đủ mức thị phần trên thị trường sẽ dẫn đến việc tính đại diện trong một bộ dữ liệu thay thế không được đảm bảo, do đó có khả năng gây lỗi trong biên soạn CPI. Trong các trường hợp khác, chẳng hạn như với dữ liệu trích xuất, nguồn dữ liệu được trích xuất đảm bảo tính đại diện sẽ phản ánh tốt hơn thị trường thực tế, CPI có thể xử lý dữ liệu được thu thập bằng cách chọn mẫu ngẫu nhiên và ước lượng phương  19 Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê sai. Mặc dù dữ liệu lớn cho thấy vấn đề đối với việc ước lượng phương sai, nhưng nó lại có khả năng giải quyết được vấn đề cỡ mẫu nhỏ của truyền thống và giảm bớt sai số chọn mẫu. Những thách thức còn lại về mặt phương pháp liên quan đến mức độ chi tiết được cung cấp bởi nguồn dữ liệu thay thế. Các doanh nghiệp có thể không sẵn sàng hoặc không thể cung cấp dữ liệu với mức độ chi tiết giống như dữ liệu điều tra được thu thập bởi các điều tra viên. Định nghĩa của doanh nghiệp về một mặt hàng duy nhất có thể không phù hợp với định nghĩa BLS đưa ra, điều này làm cho việc định giá cùng một mặt hàng theo thời gian trở nên khó khăn. Thông tin hạn chế về các tính năng của sản phẩm và mô tả mặt hàng không có cấu trúc đòi hỏi phải có cách tiếp cận mới đối mô hình chỉ số và việc điều chỉnh chất lượng trong CPI. Hầu hết các nguồn dữ liệu thay thế cũng bỏ qua thông tin thuế bán hàng và có thể không cung cấp đủ thông tin để xác định thẩm quyền thuế mà CPI cần áp dụng thuế suất. 2.2 Những thách thức trong quy trình thu thập và xử lý Mặc dù tốc độ là một trong những ưu điểm của dữ liệu lớn, nhưng vấn đề thời gian của cả bộ dữ liệu thứ cấp và sơ cấp cũng có thể là vấn đề. Yêu cầu của BLS đối với chỉ số hàng tháng không phải là ưu tiên hàng đầu của các nhà cung cấp dữ liệu. BLS phải kiểm soát tất cả quy trình dữ liệu thu thập theo truyền thống đồng thời cần có thêm nhiều quy trình kiểm soát chất lượng tổng thể đối với các nguồn dữ liệu được thu thập và sử dụng để tính toán chỉ số giá tiêu dùng CPI. Độ sạch của dữ liệu cũng có thể là một rủi ro với dữ liệu của nhà cung cấp. Dữ liệu mô tả không được thu thập và việc so sánh dữ liệu theo thời gian không được đảm bảo. Ngoài ra, rủi ro cũng có thể phát sinh từ việc sử dụng nguồn dữ liệu không ổn định và có thể biến mất mà không có bất kỳ cảnh báo nào. Để một nguồn dữ liệu thay thế được sử dụng kết hợp trong đo lường CPI, dữ liệu phải được gắn tương ứng vào phân loại danh mục và cấu trúc địa lý của CPI. Điều này đơn giản khi một tập dữ liệu bao gồm danh mục các sản phẩm trong CPI. Tuy nhiên, với một số trường hợp nhất định, dữ liệu giao dịch thu được bao gồm nhiều loại mặt hàng và BLS phải khớp với danh mục mặt hàng dựa trên các phân loại và mô tả mặt hàng của các doanh nghiệp. Một hệ thống học máy đã được phát triển nhằm hỗ trợ các phân loại này, kết quả đã cải thiện đáng kể khả năng xử lý các bộ dữ liệu lớn với hàng trăm ngàn mục. Khi đã có được nguồn dữ liệu, giải quyết được mọi vấn đề về phương pháp luận và tiến hành kết hợp nguồn dữ liệu mới vào việc tính toán CPI, BLS vẫn phải xử lý việc tích hợp dữ liệu vào các hệ thống công nghệ thông tin hiện tại với giả định dữ liệu được cấu trúc theo quy trình thu thập dữ liệu khảo sát. Về cơ bản, có hai cách để thực hiện việc này mà không cần sửa đổi toàn bộ các hệ thống CPI. Hoặc là thay thế một quan sát giá riêng lẻ trong CPI, hoặc là thay thế một chỉ số thành phần bằng một chỉ số có nguồn gốc từ dữ liệu thay thế. Thay thế các quan sát về giá riêng lẻ sẽ hoạt động tốt khi kết hợp dữ liệu được khảo sát và dữ liệu thay thế trong các mục. Tuy nhiên, hệ thống hiện tại không được thiết kế để tạo ra các quan sát giá mới, vì vậy chiến lược hiện tại của BLS là khớp giá ước tính hoặc thay đổi giá với quan sát giá hiện tại đã được chọn để lấy mẫu.  20 Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê 2.3 Những thách thức về pháp lý, chính sách và ngân sách Đối với các nguồn dữ liệu thứ cấp, các thách thức về pháp lý, chính sách và ngân sách thường tập trung vào việc đàm phán hợp đồng phù hợp với quy định của Luật Liên bang và đáp ứng nhu cầu của cả hai bên. Trở ngại chính của BLS là việc đảm bảo tính hợp pháp cho nguồn dữ liệu được trích xuất. Những lo ngại liên quan đến việc quét web đã phát sinh cả trong nội bộ và từ những người được hỏi. Để đảm bảo tất cả dữ liệu thay thế được sử dụng trong nghiên cứu hoặc sản xuất được bảo vệ theo đạo luật thống kê, BLS phải cung cấp cho các cơ sở, bao gồm cả những dữ liệu thu thập trực tuyến, cho dù là thủ công hay tự động, cam kết bảo mật sẽ sử dụng thông tin cho mục đích thống kê. Trong trường hợp nguồn dữ liệu thứ cấp, một điều kiện của hợp đồng có thể là nhà cung cấp được công nhận công khai. Trong trường hợp quét web, BLS không thể tiến hành mà không có sự cho phép của cơ sở. Hơn nữa, các thỏa thuận trong điều khoản dịch vụ cho các trang web và các mã nguồn mở API thường có các khía cạnh gây rắc rối cho các cơ quan thống kê. Cuối cùng, cần phải đảm bảo rằng việc chuyển đổi sang các nguồn dữ liệu thay thế không làm tăng ngân sách chung, tức là công việc này vẫn duy trì ít nhất là ngân sách trung lập nếu không thực sự tiết kiệm chi phí tổng thể. 3. Kinh nghiệm khai thác các nguồn dữ liệu thay thế 3.1 Kinh nghiệm của BLS trong việc khai thác các bộ dữ liệu doanh nghiệp Doanh nghiệp X Tháng 5/2016, doanh nghiệp X đã bắt đầu cung cấp cho BLS dữ liệu hàng tháng về giá trung bình và doanh thu bán hàng của mỗi sản phẩm được bán cho mỗi cửa hàng thuộc doanh nghiệp X trong các khu vực địa lý bao gồm trong CPI. (Trước tháng 5/2016, BLS có được dữ liệu không được phép sử dụng và sau đó doanh nghiệp X đã tái cơ cấu cơ sở dữ liệu của mình và quyết định cung cấp dữ liệu cho BLS.) Tuy nhiên, dữ liệu chỉ bao gồm các mô tả giới hạn về các mặt hàng được bán. Không có dữ liệu có cấu trúc về các tính năng của sản phẩm và mô tả biến là tương đối ngắn. Việc thiếu dữ liệu mô tả này cản trở việc xây dựng hồi quy hedonic hoặc đưa ra quyết định sáng suốt về khả năng so sánh tương đối của các mặt hàng mới với các mặt hàng hiện hành, hạn chế khả năng áp dụng các phương pháp điều chỉnh chất lượng và thay thế thông thường của CPI. Dữ liệu được đánh giá trong khoảng hai năm nhằm thay thế cho hơn 1000 giá được sử dụng trong CPI. Phân tích nội bộ cho thấy xu hướng các chỉ số mô hình phù hợp giảm nhanh chóng. Một số loại mặt hàng cho thấy giảm hơn 90% trong vòng chưa đầy hai năm. Hầu hết những sự sụt giảm này có thể được cho là kết quả của chiến lược giá nhà bán lẻ. Sản phẩm được giới thiệu với giá cao và giảm giá theo thời gian. BLS đã phát triển một phương pháp ngắn hạn mô phòng theo các quy trình CPI hiện tại để bắt đầu kết hợp dữ liệu từ nhà bán lẻ này vào chỉ số giá tiêu dùng hiện tại. Phương pháp chọn một mẫu trên cơ sở tỷ lệ doanh số bán hàng trong các bộ dữ liệu do phía X cung cấp và tính toán giá tương quan mô hình cho các mặt hàng được chọn trong suốt một năm. Các chỉ số mô hình đối chiếu  21 Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê này thường cho thấy xu hướng giảm. Sau mười hai tháng, một mẫu sản phẩm mới thuộc cùng loại mặt hàng được chọn và giá tương đối được xây dựng là giá trung bình của tất cả các sản phẩm mới trong danh mục mặt hàng so với giá trung bình của sản phẩm trong danh mục 12 tháng trước. Tỷ lệ giữa đơn giá của mẫu mới và mẫu cũ thường dương và bù cho giá giảm trong năm do vòng đời sản phẩm. Để kết hợp dữ liệu từ phía X vào CPI, BLS cũng phải phát triển cách lập bản đồ phân loại mặt hàng. Nhà bán lẻ sẽ cung cấp các mô tả ngắn và thông tin phân loại cho từng mặt hàng được bán tại các cửa hàng của mình trong các khu vực địa lý được nêu trong CPI. Kết hợp thủ công từng mặt hàng, theo thứ tự từ một đến hàng trăm nghìn, với danh mục sản phẩm CPI là không khả thi. Dựa trên các phương pháp được phát triển tại BLS cho việc mã hóa tự động, BLS đã sử dụng công cụ học máy để phân loại các mặt hàng theo cấu trúc CPI dựa trên các mô tả. Nhân viên CPI phân loại mã hóa bằng tay cho một phân đoạn của các mục trong dữ liệu doanh nghiệp để tạo ra một tập dữ liệu đào tạo. Sau đó, sử dụng cách tiếp cận “những chiếc túi ngôn ngữ” dựa trên tần suất xuất hiện của các từ trong mục mô tả. Hồi quy logistic sau đó được sử dụng để ước tính xác suất của từng mục. Sau khi xác thực kết quả và xem xét dự đoán độ tin cậy, BLS sử dụng phương pháp này với mỗi tập dữ liệu hàng tháng để phân loại các mục mới. Doanh nghiệp Y Một chuỗi siêu thị khác (gọi tắt là CorpY) đã đồng ý cung cấp cho BLS dữ liệu về các loại thuốc kê đơn tại trụ sở doanh nghiệp. Tháng 2/2012, doanh nghiệp Y từ chối tham gia các mẫu mới do gánh nặng đặt lên các hiệu thuốc trong cửa hàng. Các cuộc thảo luận đã diễn ra giữa văn phòng thống kê của khu vực và phía doanh nghiệp về việc cung cấp dữ liệu của doanh nghiệp làm sao vừa có thể sử dụng dữ liệu cho biên soạn CPI vừa và đáp ứng được các vấn đề bảo mật của doanh nghiệp Y. Kể từ tháng 3/2015, phía doanh nghiệp Y đã cung cấp cho cơ quan điều tra giá bộ dữ liệu giá giao dịch thuốc theo toa tại cửa hàng của họ trung bình 2 tháng/lần. Với các phương pháp thu thập truyền thống, CPI xác định một mặt hàng duy nhất thuộc danh mục mã thuốc quốc gia và tiến hành theo dõi theo thời gian mã, số lượng, nhà cung cấp và lập kế hoạch đảm bảo và giá thành. Bằng cách giữ các biến này không đổi, CPI có thể kiểm soát thay đổi giá không phải là do thay đổi chất lượng thuốc. Các điều tra viên gán mã cho dược phẩm theo mã dược phẩm quốc gia và đưa ra các thông tin chi tiết về nhà sản xuất và liều lượng dùng. Điều tra viên cũng ghi lại giá niêm yết tại các nhà bán lẻ thuốc theo đơn. Khi thuốc chính hiệu mất quyền bảo vệ bằng sáng chế và thuốc của các đối thủ cạnh tranh tham gia vào thị trường, việc kinh doanh sẽ chậm hơn. Điều tra viên sẽ yêu cầu dược sĩ cung cấp tỷ lệ phần trăm của thuốc bán nói chung so với thuốc có thương hiệu, dựa trên các tỷ lệ mẫu của thương hiệu hoặc tỷ lệ chung đó để tiếp tục xác định giá. Nếu một thuốc không có thương hiệu được chọn, sự thay đổi giá giữa thuốc có tên thương hiệu và thuốc đó được phản ánh trong CPI. Do phía doanh nghiệp lo ngại về tính bảo mật và gánh nặng báo cáo, BLS cần phải thỏa hiệp và nhận bộ dữ liệu với tần suất hai tháng một lần. Doanh nghiệp Y tính giá bình quân của mặt hàng có nhãn hiệu và không nhãn hiệu. Khi người tiêu dùng sử dụng thay thế giữa thuốc có nhãn hiệu và thuốc không nhãn hiệu, giá trung bình sẽ thay đổi. Mặc dù thường có sự khác biệt lớn về chi phí tự trả giữa thuốc thương hiệu và  22 Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê thuốc chính hãng, nhưng chúng thường được coi là tương đương và hiệu quả như nhau và do đó, giá trung bình được coi là chấp nhận được bởi CPI. 3.2 Kinh nghiệm khai thác với các nguồn dữ liệu thứ cấp Một số nhà cung cấp tiến hành tổng hợp và bán dữ liệu của họ. Các bộ dữ liệu này thường được sử dụng bởi các bên tiếp thị và thường được xây dựng tập trung vào cấp độ bán hàng hơn là cung cấp mức độ chi tiết của sản phẩm. Hầu hết các bộ dữ liệu bao gồm nhiều mặt hàng hơn so với số mặt hàng thuộc danh mục CPI. BLS đã mua một số bộ dữ liệu và nghiên cứu sử dụng chúng để thay thế cho các thành phần CPI. Nguồn dữ liệu thứ cấp cho thấy các vấn đề tương tự như những vấn đề được tìm thấy trong dữ liệu của doanh nghiệp. Dữ liệu thường thiếu chi tiết mô tả so với thông tin được điều tra viên thực hiện trong khảo sát C&S thường không có sự minh bạch từ các nguồn thứ cấp về mức độ sẵn sàng chia sẻ đầy đủ các phương pháp của họ với BLS. Dưới đây là kinh nghiệm sử dụng các nguồn dữ liệu thứ cấp. 3.3 Dữ liệu các phương tiện mới Để giải quyết gánh nặng của người trả lời, tỷ lệ phản hồi thấp, giá ước tính của đại lý và chi phí thu gom cao, BLS mua dữ liệu giao dịch từ nhà cung cấp J.D. Power. Ngoài việc giải quyết các vấn đề của phương pháp thu thập truyền thống, dữ liệu của J.D. Power có thể cung cấp thông tin chất lượng cao hơn bao gồm giá giao dịch và chi tiêu theo thời gian thực. Dữ liệu cho phép đo lường chi phí sinh hoạt tốt hơn so với chỉ số hiện tại. J.D. Power cung cấp cho BLS dữ liệu giao dịch bao gồm khoảng một phần ba doanh số bán xe mới ở Hoa Kỳ. Phân tích chỉ ra rằng thị phần của các phương tiện giao thống trong CPI và Dữ liệu của J. Power Power tương tự nhau. Mỗi hồ sơ chứa thông tin về cấu hình xe, giá giao dịch và bất kỳ khoản tài chính nào được thiết lập bởi các đại lý. Mã định danh có sẵn trong bộ dữ liệu J.D. Power được sử dụng để xác định một mục duy nhất, đặc biệt là các tùy chọn cụ thể được bán với một giao dịch nhất định. Doanh số bán xe mới hiển thị vòng đời sản phẩm trong đó xe được giới thiệu ở mức giá cao và sau đó được giảm giá qua năm mô hình cho đến khi chúng được thay thế bằng xe kế nhiệm. Do kết quả của mô hình này, các chỉ số giá xe mới phù hợp với mô hình cho thấy sự sụt giảm đều đặn vì chúng chỉ phản ánh sự sụt giảm giá trong năm và không tính đến bất kỳ thay đổi giá trong năm của mô hình chéo. Hành vi chỉ số này có thể gợi ý sự trôi dạt chuỗi, nhưng như trường hợp của chỉ số CorpX, sự trôi dạt chuỗi dường như không phải là một yếu tố do các phương pháp đa phương không thể làm giảm sự di chuyển xuống. Williams và Sager cho rằng giá giảm theo vòng đời của sản phẩm có thể do người bán sử dụng chiến lược phân biệt giá không phù hợp với giả định về người tiêu dung có sở thích ổn định như trong lý thuyết chỉ số giá sinh hoạt. Đo lường giá cả qua các năm qua làm trơn các biến động tần số cao trên thị trường. Để khôi phục thông tin về hành vi ngắn hạn của thị trường xe mới, chỉ số giá tần suất hàng tháng được tính toán. Bộ lọc chuỗi thời gian được sử dụng để tách một thành phần theo chu kỳ khỏi xu hướng sai lệch của chỉ số tần số hàng tháng. Thành phần theo chu kỳ này được kết hợp với xu hướng hàng năm để tạo ra một chỉ số (YY + Chu kỳ) phản ánh cả hành vi ngắn hạn và dài hạn của giá xe mới.  23 Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê 3.4. Dữ liệu giá dịch vụ y tế Hiện tại, nhóm chăm sóc y tế có tỷ lệ đáp ứng thấp nhất trong tất cả các nhóm chính trong CPI, trong đó, dịch vụ y tế và các dịch vụ của bệnh viện là quan trọng nhất. Có nhiều lý do cho phản hồi thấp này và tất cả đều rất khó khắc phục, chẳng hạn như những lo ngại về tính bảo mật được Luật quy định về trách nhiệm giải trình và trách nhiệm bảo hiểm y tế, khó khăn trong việc xác định tỷ lệ gói bảo hiểm, phân chia cho bác sĩ viện phí và vấn đề đầu vào. BLS quyết định tìm hiểu tính khả thi của việc bổ sung thu thập dữ liệu truyền thống về tiền mặt và giá dịch vụ chăm sóc sức khỏe bằng dữ liệu bảo hiểm. BLS đã mua một bộ dữ liệu y tế năm 2009 và 2010 của một hãng bảo hiểm với một mẫu nhỏ các dịch vụ y tế ở khu vực đô thị Chicago. Giá trung bình trên tất cả các giao dịch cho sự kết hợp giữa nhà cung cấp/dịch vụ y tế đã được nhận hàng tháng cùng với số lượng giao dịch được sử dụng để tạo ra mức giá trung bình. Mục tiêu nghiên cứu chính là phân tích hiệu quả của việc sử dụng dữ liệu yêu cầu bảo hiểm bị trì hoãn. Khiếu nại bảo hiểm thường mất vài tháng để được phân xử đầy đủ và việc xử lý dữ liệu của nhà cung cấp có thể mất thêm thời gian. Dữ liệu khiếu nại sẽ bị chậm trễ, từ hai đến chín tháng, trước khi có thể được gửi tới cơ quan thống kê để biên soạn CPI. 3.5 Dữ liệu giá dịch vụ điện thoại không dây Bắt đầu vào tháng 2 năm 2018, BLS đã nghiên cứu và tận dụng một nguồn dữ liệu khảo sát hộ gia đình thứ cấp dựa vào các nhà mạng để đưa ra tỷ lệ lấy mẫu cho các dịch vụ điện thoại không dây. BLS đã tính toán các chỉ số nghiên cứu với một nguồn thứ cấp khác có giá niêm yết cho các gói dịch vụ điện thoại không dây được thu thập từ các trang web của các nhà mạng không dây. Sự đảm bảo của các nhà cung cấp CPI là hơn 90%. Phương pháp “đối chiếu và thay thế” đã được sử dụng để tính toán các chỉ số, theo đó các gói dịch vụ trong tập dữ liệu CPI được khớp với các mô tả kế hoạch trong dữ liệu thay thế, giá được thay thế và các chỉ số được tính toán lại bằng phương pháp CPI hiện tại và phần còn lại của mẫu CPI không bao gồm dữ liệu. 3.6 Dữ liệu giá dịch vụ viễn thông Bắt đầu vào tháng 2 năm 2019, dựa trên dữ liệu khảo sát hộ gia đình, BLS đã đưa ra tỷ lệ lấy mẫu cho dịch vụ điện thoại cố định, dịch vụ truyền hình cáp và vệ tinh và dịch vụ internet để hỗ trợ các nhà kinh tế học trong việc lựa chọn nhiều mặt hàng đại diện hơn. Một bộ dữ liệu khác chứa giá niêm yết cho các dịch vụ viễn thông dân dụng được tổng hợp bởi một bộ dữ liệu tổng hợp từ một số kênh bán hàng. Để tính toán các chỉ số thử nghiệm, BLS đã sử dụng quyền số của cửa hàng CPI và phân bổ quyền số đó cho tất cả các mục trong tập dữ liệu như nhau. BLS đã phát triển các chỉ số mô hình phù hợp để nhân rộng phương pháp CPI. Có sự khác biệt nhiều về chỉ số giữa CPI và chỉ số thử nghiệm do các thủ tục đối với dữ liệu bị thiếu và thiếu phương pháp thay thế. Khó khăn trong việc xác định một mặt hàng duy nhất để định giá trong dữ liệu thay thế - điều tạo ra một mặt hàng duy nhất trong bộ dữ liệu không phải là cách BLS định nghĩa mặt hàng đó. Kết quả sơ bộ cho thấy việc tính toán CPI cho các dịch vụ Viễn thông dân dụng với dữ liệu thay thế là có thể và với các điều chỉnh về phương pháp cho phép truy cập vào bộ dữ liệu rộng hơn, phong phú hơn so với thu thập trường truyền thống.  24 Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê 3.7 Dữ liệu giá thực phẩm tiêu dùng hộ gia đình Khoảng tám năm trước, BLS đã mua lịch sử dữ liệu máy quét Nielsen Scantrack và sử dụng dữ liệu để biên soạn các chỉ số giá. Dữ liệu bao gồm lịch sử dữ liệu năm năm kết thúc vào năm 2010 theo mã giá toàn cầu (UPC) / khu vực địa lý, và một số mô tả về sản phẩm và giá trung bình của mỗi quan sát. Dữ liệu Nielsen mà BLS mua không bao gồm toàn bộ phạm vi của các loại cửa hàng được nêu trong CPI cho các loại thực phẩm. Nó bỏ qua các cửa hàng tiện lợi, tiệm bánh, người bán thịt, cửa hàng tạp hóa nhỏ hơn, cửa hàng kho và trạm xăng13. Dữ liệu UPC của Nielsen phải được đối chiếu với bảng phân loại mặt hàng được sử dụng trong CPI. Khoảng 80% UPC có thể được so khớp trực tiếp vào danh mục CPI dựa trên phân loại Nielsen, nhưng 20% còn lại phải được khớp thủ công. 3.8 Dữ liệu giá thuê nhà ở Khảo sát giá thuê nhà ở trong CPI thu thập được dữ liệu giá thuê của khoảng 47.000 quan sát được chọn trong mẫu đại diện của thị trường cho thuê nhà tư nhân. BLS đã khám phá một bộ dữ liệu thứ cấp về giá thuê nhà ở và giá thuê ước tính để đánh giá tiềm năng thay thế hoặc bổ sung dữ liệu khảo sát Nhà ở CPI. Bộ dữ liệu nguồn thứ cấp không được thiết kế dưới dạng mẫu đại diện hoặc điều tra dân số cho khu vực địa lý và mặc dù nó bao gồm giá thuê và giá thuê ước tính cho hơn 50 triệu đơn vị nhà ở, tỷ lệ trùng khớp với các đơn vị CPI chỉ khoảng 30%. Trường hợp có thể đối chiếu, BLS khớp các đơn vị trong mẫu CPI với cùng các đơn vị trong bộ dữ liệu và chỉ 1 Nielsen cung cấp dữ liệu cho các cửa hàng tiện lợi, cửa hàng kho và trạm xăng nhưng BLS đã chọn không mua dữ liệu đó trong dự án nghiên cứu ban đầu này. số được tính toán. Trong phân tích cuối cùng, BLS đã quyết định rằng sự khác biệt giữa CPI Nhà ở và bộ dữ liệu nguồn thứ cấp là rất quan trọng và các mục đích khác nhau để cho phép sử dụng nguồn thứ cấp này trong CPI tại thời điểm này. 3.9 Dữ liệu nguồn nhiên liệu động cơ GasBuddy là một doanh nghiệp công nghệ chuyên thu thập nguồn nhiên liệu từ gần 100.000 trạm xăng ở Mỹ. Cơ quan thống kê đã có được sự cho phép của GasBuddy đối với dữ liệu trích xuất từ trang web của họ và thừa nhận chúng là nguồn dữ liệu để tính CPI. Các chỉ số dựa trên dữ liệu của GasBuddy theo dõi chặt chẽ các chỉ số giá xăng CPI mặc dù có sự khác biệt về quyền số và thông tin chi tiết về giá cả. Phần lớn công việc nghiên cứu đã tập trung vào các so sánh giữa việc thu thập dữ liệu hiện tại của CPI cho nhiên liệu động cơ và dữ liệu được trích xuất trên web. Không giống như hầu hết các mặt hàng khác trong CPI có các loại mặt hàng riêng lẻ được lấy mẫu, cả năm loại nhiên liệu động cơ được chọn tự động tại bất kỳ nhà bán lẻ nhiên liệu động cơ nào nằm trong mẫu. Trong số năm loại nhiên liệu động cơ trong CPI, thông tin GasBuddy có thể thay thế dữ liệu thu thập được cho ba loại xăng và dầu diesel, nhưng chúng không có phạm vi đảm bảo của nhiên liệu thay thế. Hiện nay, một số trạm xăng thực sự cung cấp nhiên liệu động cơ thay thế (như sạc điện, ethanol, E85 hoặc diesel sinh học), vì vậy các quan sát về các lựa chọn thay thế nhiên liệu động cơ có thể được thu thập bình thường và đưa vào dữ liệu được quét trên web. Kết quả của cho thấy giá trung bình và chỉ số giá dựa trên dữ liệu của GasBuddy và CPI hoạt động rất giống nhau. 3.10 Giá vé máy bay  25 Hướng tới kỷ niệm 75 năm Ngày thành lập ngành Thống kê và 45 năm Ngày thành lập Viện Khoa học Thống kê Hiện nay việc thu thập giá vé của các hãng hàng không được thực hiện bởi các điều tra viên, họ thu thập giá từ các trang web của người trả lời. Giá vé trên web cho phép những người làm thống kê giá CPI theo dõi chuyến đi được xác định theo từng tháng, trong đó giá được thu thập bằng cách chỉ định từng thông số kỹ thuật cố định cho giá vé một chiều hoặc khứ hồi, xuất phát và thành phố đích, ngày khởi hành và trở về, hạng vé của vé, tình trạng đặt trước, và ngày trong tuần. Mỗi tháng, thông tin chi tiết về vé đặt trước và chi tiết trong tuần là tương tự nhau sẽ được sử dụng để thu thập giá. Phương pháp này cho phép CPI định giá một chuyến đi được xác định nhất quán mỗi tháng ngoài việc mô phỏng chính xác cách người tiêu dùng đặt vé máy bay. Trước mắt, BLS đang nghiên cứu việc sử dụng phương pháp đối chiếu và thay thế, nghĩa là thu thập giá cho từng mục hiện có trong mẫu dựa trên các mô tả về thông số kỹ thuật và mức giá đang được sử dụng trong mẫu vé máy bay. BLS cũng đã bắt đầu tiếp cận với những người trả lời về dữ liệu được báo cáo cụ thể, cho phép sử dụng mã nguồn mở của họ hoặc cho phép trích xuất dữ liệu. 4. Kết luận và các kế hoạch trong tương lai Dữ liệu lớn có thể cung cấp thông tin một cách kịp thời hơn phương pháp thống kê giá truyền thống. Các nguồn dữ liệu thay thế mới có khả năng giải quyết nhiều vấn đề chúng ta đã gặp bao gồm tỷ lệ phản hồi thấp hơn và chi phí thu thập cao. Sau nhiều năm làm việc trên nhiều nguồn dữ liệu thay thế khác nhau, BLS hiện đã phác thảo một tầm nhìn CPI sẽ như thế nào trong thập kỷ tới. Điều này bao gồm các mục tiêu thay thế một phần đáng kể cho dữ liệu được thu thập trực tiếp theo phương pháp điều tra bởi các nguồn dữ liệu thay thế trong 5 năm tới. Cách tiếp cận của BLS là ưu tiên dữ liệu thay thế cho các danh mục và cửa hàng dựa trên một số yếu tố gồm: mức độ quan trọng của mặt hàng, số lượng giá thay thế, chi phí thu thập, chi phí dữ liệu thay thế, độ chính xác của chỉ số mặt hàng hiện tại, mối quan hệ của người trả lời với BLS, khả năng dễ dàng thực hiện, tỷ lệ phản hồi và mức tập trung của mẫu cho một mặt hàng nhất định. BLS cũng sẽ ưu tiên hợp tác để thu thập dữ liệu của doanh nghiệp lớn và sẽ khám phá các nguồn dữ liệu thay thế mang lại lợi ích và độ chính xác cao hơn. Mặc dù dữ liệu thay thế cho phép khám phá nhiều cải tiến về phương pháp, nhưng kinh nghiệm của BLS cho đến nay cho thấy có một số vấn đề cơ bản cần giải quyết. Các kỹ thuật đơn giản như mô hình chỉ số giá đối chiếu phù hợp không phải lúc nào cũng cho ra các kết quả có thể sử dụng được, và các phương pháp CPI hiện tại có thể không phù hợp với dữ liệu giao dịch. BLS đã phát triển các cách giải quyết vòng đời sản phẩm với các chỉ số mới sẽ sớm được công bố trên cơ sở thử nghiệm. Giải pháp ngắn hạn cho phép BLS thay thế việc thu thập dữ liệu giá thủ công từ trang web của doanh nghiệp bằng bộ dữ liệu giao dịch. BLS sẽ tiếp tục xem xét các tài liệu mới nhất về các phương pháp chỉ số giá, đồng thời phát triển thêm các phương pháp và quy trình mới để tận dụng các nguồn dữ liệu thay thế. Ngoài ra BLS sẽ tiếp tục giới thiệu dữ liệu thay thế trong CPI, đồng thời tiếp tục chú ý đến các mục tiêu đo lường CPI cốt lõi và đáp ứng nhu cầu của cơ sở dữ liệu rộng rãi của chương trình. Minh Ánh (dịch) Nguồn: https://www.nber.org/chapters/c14280.pdf

Các file đính kèm theo tài liệu này:

  • pdfung_dung_du_lieu_lon_de_tinh_chi_so_gia_tieu_dung_cua_my_kin.pdf