Thách thức chính mà NSO gặp phải
liên quan đến sự gia tăng nhu cầu các
nguồn lực (Bird et al., 2014). Duy trì cỡ
mẫu cơ bản, đặc biệt khi các mẫu giá
được mở rộng, đòi hỏi sự hỗ trợ một
cách thủ công bởi doanh thu sản phẩm
có thể lớn614.
Cách tốt nhất, NSO sẽ sử dụng tất
cả các thông tin có sẵn trong các bộ dữ
liệu máy quét thay vì chọn mẫu. Quy
trình xử lý thủ công toàn bộ các tập dữ
liệu máy quét cực kỳ tốn kém, và
không thể đáp ứng được lịch biên soạn
CPI. Vì vậy, quy trình tổng hợp CPI tự
động được đặt ra.
Đồng thời, khi sử dụng tổng toàn
bộ các sản phẩm, không chọn mẫu,
công thức chỉ số có quyền số nên được
sử dụng. Doanh thu sản phẩm đặt ra
một vấn đề quan trọng. Nhằm tối đa
hóa lượng liên kết trong dữ liệu, chuỗi
liên kết ở tần suất lớn là điều cần thiết.
Tuy nhiên có thể dẫn tới chuỗi (drift)
trôi trong chỉ số. Các phương pháp tính
chỉ số giá đa phương được xây dựng
cho chuỗi tự do là phù hợp nhất giúp
xử lý toàn bộ sản phẩm trong dữ liệu
máy quét.
10 trang |
Chia sẻ: hachi492 | Lượt xem: 323 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Dữ liệu máy quét, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
20
Tóm tắt:
Dữ liệu máy quét mang lại nhiều cơ hội trong việc cải thiện tính chính xác cho số liệu chỉ số
giá tiêu dùng (CPI). Sử dụng dữ liệu máy quét giúp ích cho việc cải thiện tính chính xác của dữ
liệu giá tiêu dùng được sử dụng trong tính toán CPI thông qua tính các giá trị đơn vị của các
sản phẩm đồng nhất, đồng thời giúp cải thiện cỡ mẫu cho điều tra giá tiêu dùng. Bài viết đưa
ra những cơ hội và thách thức chính của dữ liệu máy quét trong việc tính toán CPI.
1. Giới thiệu
Dữ liệu máy quét (Scanner data) mang lại
nhiều cơ hội trong việc cải thiện tính chính
xác cho số liệu CPI. Các bộ dữ liệu máy quét
cũng bao gồm toàn bộ danh mục và số lượng
mặt hàng được bán bởi các nhà bán lẻ tại các
điểm bán hàng. Sử dụng dữ liệu máy quét
giúp cho việc cải thiện tính chính xác của dữ
liệu giá tiêu dùng được sử dụng trong tính
toán CPI thông qua tính các giá trị đơn vị của
các sản phẩm đồng nhất, đồng thời giúp cải
thiện cỡ mẫu cho điều tra giá tiêu dùng. Bên
cạnh đó, dữ liệu máy quét còn cung cấp các
thông tin về doanh thu/số lượng bán hàng
giúp cho việc tính toán quyền số trở lên tốt
hơn. Bên cạnh những cơ hội mà máy quét
đem lại cũng có nhiều thách thức cần được
các cơ quan thống kê quốc gia (NSO) giải
quyết trước khi sử dụng trong việc biên soạn
CPI.
Những nội dung dưới đây sẽ chỉ ra những
cơ hội và thách thức chính của dữ liệu máy
quét, các cân nhắc cơ bản mang tính thực
tiễn, đồng thời bài viết cũng sẽ đưa ra các
giải pháp và lời khuyên trong việc sử dụng
dữ liệu máy quét để tính CPI.
2. Thu thập dữ liệu máy quét
Dữ liệu máy quét đã tồn tại một vài thập
kỷ nên rất có giá trị trong việc tính toán các
chỉ tiêu thống kê theo thời gian. Một trong
những thách thức đối với NSO là thu thập các
tập dữ liệu máy quét. Có hai lựa chọn mang
tính khả thi, là NSO có thể tìm kiếm dữ liệu
máy quét từ các doanh nghiệp bán lẻ hoặc từ
một nhà cung cấp dữ liệu thứ ba. Cả hai lựa
chọn trên đều mang lại lợi ích cũng như
thách thức.
Một số NSO đã tiến hành thành công các
cuộc đàm phán về việc chia sẻ dữ liệu máy
quét với các doanh nghiệp bán lẻ và đã sử
dụng các dữ liệu được cung cấp để biên soạn
CPI1 9. Việc thu thập dữ liệu trực tiếp từ các
cửa hàng doanh nghiệp bán lẻ có một số lợi
ích tiềm năng có thể có trong phương án
đàm phán:
- Việc cung cấp các tập dữ liệu không
mất phí (hoặc rất ít chi phí);
- Phạm vi các mặt hàng trong tập dữ
liệu;
- Thời gian cung ứng dữ liệu đáp ứng
tính kịp thời tính toán CPI;
- Mức độ tích hợp của các mặt hàng để
đảm bảo tính đồng nhất của thông tin;
1 Úc, Hà Lan, New Zealand, Thụy Điển và Thụy Sĩ
là các cơ quan thống kê quốc gia sử dụng dữ liệu
máy quét để tính CPI. Danh sách đầy đủ các quốc
gia sử dụng dữ liệu máy quét mã vạch nêu trong phụ
lục A.
21
- Đảm bảo tính kịp thời;
- Xác định chính xác người nắm giữ các
tập dữ liệu trong doanh nghiệp và tiến hành
liên lạc, trao đổi trực tiếp với họ;
Thu thập dữ liệu máy quét thông qua
đàm phán trực tiếp với các doanh nghiệp
cũng có những thách thức nhất định. Thách
thức cơ bản nhất là cuộc đàm phán song
phương đòi hỏi nhiều nỗ lực giữa các bên.
Kinh nghiệm của Hà Lan, Thụy Điển và Thụy
Sĩ cho thấy mất tới 6 tháng để đạt được các
thoả thuận. Nội dung đàm phán liên quan
đến nhiều lĩnh vực: Từ hệ thống công nghệ
thông tin đến các mối quan tâm về việc bảo
mật. Một số thỏa thuận đạt được giữa cơ
quan thống kê và các doanh nghiệp được
cam kết dưới dạng biên bản ghi nhớ (hoặc
tương tự)210.
Một số cơ quan thống kê tiếp cận dữ liệu
máy quét theo cách khác thông qua các công
ty trung gian hoặc các công ty nghiên cứu thị
trường như Nielsen và GfK. Lợi ích cơ bản
của cách tiếp cận này là chỉ cần đàm phán
với một số ít các nhà cung cấp dữ liệu, các cơ
quan thống kê đã có thể tiếp cận với nhiều
nguồn dữ liệu của nhiều nhà cung ứng khác
nhau.
Dữ liệu máy quét mã vạch có được từ các
doanh nghiệp cho thấy một số thách thức.
Nhìn chung dữ liệu này được các NSO mua
lại. Chi phí được bù đắp bằng việc giảm thiểu
chi phí thu thập dữ liệu như phương pháp
thu thập dữ liệu truyền thống, đó là cử điều
tra viên tới từng cửa hàng bán lẻ thu thập giá
bán, trong khi đó dữ liệu máy quét luôn được
giấu kín.
2 Biên bản ghi nhớ là các quy định và cam kết bắt
buộc của mỗi bên nhằm đảm bảo cho việc cung cấp
dữ liệu máy quét cho các cơ quan thống kê diễn ra
liên tục và đảm bảo tính kịp thời.
Kinh nghiệm của các cơ quan thống kê
quốc gia trong việc sử dụng dữ liệu máy quét
mã vạch để tính toán CPI cho thấy cách thu
thập dữ liệu trực tiếp từ các nhà bán lẻ
thường được yêu thích hơn vì các lý do như
đã trình bày. Tuy nhiên, tiếp cận dữ liệu từ
các công ty nghiên cứu thị trường sẽ hữu ích
hơn trong trường hợp các dữ liệu máy quét
mã vạch không đảm bảo hoặc các nguồn dữ
liệu không có sẵn trong việc đàm phán cung
cấp dữ liệu song phương.
3. Truy cập và chuẩn bị dữ liệu máy
quét mã vạch để sử dụng
Nếu như các cơ quan thống kê quốc gia
đã thành công trong việc tiếp cận các tập dữ
liệu scanner thì thách thức tiếp theo đối với
các cơ quan thống kê này là làm sao chuyển
đổi các tập dữ liệu đó thành các thông tin
hữu ích và có thể sử dụng để tính toán chỉ số
giá tiêu dùng CPI. Để đạt được các mục tiêu
trên, các cơ quan thống kê quốc gia cần vượt
qua một số thách thức sau.
3.1. Phát triển hệ thống công nghệ
thông tin (IT)
Dữ liệu máy quét với các đặc điểm của nó
còn được gọi là dữ liệu lớn. Các NSO cần phải
có một hệ thống máy tính/IT có thể đáp ứng
việc lưu trữ, xử lý nguồn dữ liệu lớn này nếu
muốn sử dụng các thông tin để tính CPI. Hệ
thống IT cần đáp ứng và xử lý được các tập
dữ liệu có cấu trúc, định dạng, nội dung khác
nhau do các doanh nghiệp bán lẻ (và các nhà
cung cấp dữ liệu trung gian) thường xây
dựng các hệ thống phục vụ cho báo cáo
trong nội bộ. Đây có thể là thách thức đối với
các cơ quan thống kê cũng như yêu cầu về
việc phát triển các nguồn lực IT đòi hỏi nhiều
chi phí về thời gian và tiền bạc. Một số NSO
đã đưa ra các tài liệu về những thách thúc
này (Bird et al., 2014; Böttcher and Sergeev,
2014). Giải pháp cụ thể phụ thuộc vào điều
kiện của từng quốc gia.
22
Như vậy, rõ ràng các cơ quan thống kê
cần xây dựng một hệ thống IT phù hợp mới
có thể sử dụng dữ liệu máy quét mã vạch để
biên soạn CPI, bất kể nhà cung cấp dữ liệu là
ai.
3.2. Phân loại dữ liệu máy quét
Các tập dữ liệu máy quét của các cửa
hàng bán lẻ thường có cách phân loại khác
nhau và độc lập, cơ quan thống kê sẽ nhận
được các tập thông tin phân loại mặt hàng
khác nhau, việc phân loại cần liên kết với
bảng phân loại danh mục các mặt hàng
thuộc rổ hàng hóa tiêu dùng. Phân loại các
tập dữ liệu máy quét chiếm nguồn lực đáng
kể tại NSO. Vì vậy, NSO cần đầu tư nhiều cho
công tác phân loại dữ liệu cơ sở mà họ nhận
được; tuy nhiên cũng cần có nguồn lực để
phân loại những mặt hàng mới xuất hiện
trong tập dữ liệu.
Thách thức trong việc phân loại các mặt
hàng trong tập dữ liệu máy quét theo phân
loại mặt hàng trong rổ hàng hóa tiêu dùng
hiện nay đã và đang được thực hiện bởi NSO
theo nhiều cách. Tất cả các cơ quan thống kê
đều đang cố gắng tìm ra giải pháp phù hợp
trong hoàn cảnh cụ thể tại đất nước của họ.
Chẳng hạn, cơ quan thống kê Thụy Sĩ đã tiến
hành phân loại danh mục mặt hàng dữ liệu
máy quét theo danh mục rổ hàng CPI bằng
cách mua lại siêu dữ liệu nghiên cứu thị
trường (Muller, 2010). Cơ quan Thống kê Hà
Lan đã kết hợp phân loại danh mục mặt hàng
máy quét theo danh mục được cung cấp với
các thông tin nghiên cứu thị trường hình
thành một quy trình xử lý (de Haan et al.,
2010). Một số cơ quan thống kê khác, vì
nhiều lý do, tự phân loại danh mục mặt hàng
máy quét theo danh mục CPI (Howard et al,
2015).
Thách thức của việc phân loại danh mục
hàng hóa từ dữ liệu máy quét theo rổ hàng
truyền thống tăng lên khi các tập dữ liệu máy
quét được bảo mật trực tiếp bởi các doanh
nghiệp. Việc đàm phán với các công ty
nghiên cứu thị trường cho phép NSO tiếp cận
trực tiếp dữ liệu máy quét đã được phân loại
theo danh mục rổ hàng truyền thống của các
cơ quan thống kê của mình. Quan sát của
một số cơ quan thống kê quốc gia nhận thấy
lợi ích thực tế từ việc thu thập dữ liệu máy
quét từ các công ty nghiên cứu thị trường.
3.3. Đảm bảo chất lượng của các tập
dữ liệu máy quét
Dữ liệu máy quét là một nguồn dữ liệu
mới có thể sử dụng trong việc biên soạn CPI.
Trong trường hợp xuất hiện sự thay đổi trong
nguồn dữ liệu, người tính toán các chỉ tiêu
thống kê nên tiến hành một loạt các phép
kiểm tra nhằm đảm bảo nguồn dữ liệu mới
cung cấp đúng những yêu cầu cơ sở đối với
việc sản xuất các số liệu phục vụ cho mục
đích thống kê. Việc kiểm tra dữ liệu máy quét
được chia thành hai loại, kiểm tra tổng quát
và kiểm tra chi tiết.
Kiểm tra tổng quát liên quan đến việc đo
lường mở rộng và thường được áp dụng khi
các cơ quan thống kê bắt đầu nhận được dữ
liệu. Loại kiểm tra này nhằm đảm bảo dữ liệu
mà các cơ quan thống kê nhận được khớp
với dữ liệu mà họ đã nhận được trước đó.
Việc kiểm tra có thể liên quan đến định dạng
tập dữ liệu, tổng số mặt hàng trong tập dữ
liệu, và tổng doanh thu bán hàng. Kiểm tra
toàn bộ có thể giúp phát hiện những lỗi điển
hình của tập dữ liệu.
Kiểm tra chi tiết thường được áp dụng ở
cấp sản phẩm hoặc nhóm sản phẩm. Việc
kiểm tra này nhằm phát hiện những thay đổi
nổi bật trong doanh số bán hàng, doanh thu
và giá của các sản phẩm trong tập dữ liệu.
Kiểm tra chi tiết thường liên quan đến công
tác biên tập dữ liệu giá.
23
Cả kiểm tra tổng quát và kiểm tra chi tiết
nên thực hiện tự động và báo cáo lại cho các
nhân viên thống kê. Việc kiểm tra có thể cần
sự tương tác với bên cung cấp dữ liệu, cũng
như tham chiếu với các nguồn thông tin giá
thay thế (như các tờ rơi quảng cáo hay giá
tiêu dùng online).
2.3.4 Mức độ chi tiết dữ liệu sản phẩm
phục vụ cho việc biên soạn CPI
Dữ liệu máy quét có thể cung cấp cho
người sử dụng dữ liệu giá của các sản phẩm
tương đồng. Điều này rất quan trọng vì nó
đảm bảo cho việc liệu CPI có phản ánh đúng
xu hướng giá tiêu dùng thay đổi theo thời
gian hay không. Những thay đổi trong kết
cấu sản phẩm đã bán và chất lượng của
chúng thực tế không được phản ánh trong
CPINSO nên tập trung vào vấn đề này như
một phần trong nội dung đàm phán nhằm
đảm bảo chất lượng cho dữ liệu máy quét
nhận được từ các nhà cung cấp. Nội dung
trên được thảo luận chi tiết trong mục 4.3
dưới đây.
4. Thực hiện - từ tranh luận đến các
phương pháp mới
4.1. Cơ hội và thách thức của việc sử
dụng dữ liệu máy quét
Việc sử dụng các thông tin trong dữ liệu
máy quét để biên soạn chỉ số giá tiêu dùng
CPI có thể mang lại sự thay đổi đáng kể
trong công tác thu thập dữ liệu truyền thống
hiện nay thường được thực hiện bởi các nhân
viên của NSO. Điều này cho thấy sự thay đổi
cần được giám sát cẩn thận, cả ảnh hưởng
trong các hoạt động thống kê lẫn quan hệ với
người sử dụng và các bên liên quan chính.
Kinh nghiệm thu thập dữ liệu máy quét
và các phương pháp chỉ số giúp cho việc sử
dụng các thông tin trong dữ liệu máy quét
trở lên tốt hơn. Dữ liệu máy quét có thể giúp
tăng cường độ chính xác cho CPI theo những
cách tốn ít chi phí hơn. Các tập dữ liệu máy
quét có thể được sử dụng để: (i) Đối chiếu
dữ liệu; (ii) Thay thế giá thu thập theo
phương pháp truyền thống; (iii) Mở rộng kích
thước mẫu; (iv) Quyền số sản phẩm mức
thấp nhất trong CPI và phản ánh mức độ
quan trọng của chỉ số này trong nền kinh tế;
(v) Thực hiện các phương pháp mới3 11 nắm
bắt được đặc tính chỉ số giá và cho phép tự
động hóa quy trình.
Việc cải tiến được liệt kê ở trên nhằm cải
thiện tính chính xác của CPI. Điều này sẽ giải
thích ở dưới đây. Một số cơ quan thống kê sử
dụng dữ liệu máy quét để đạt được các mục
tiêu (i), (ii) và (iii). Trong khi những sự tăng
cường này có ý nghĩa, thực hiện các mục tiêu
(iv) và (v) sẽ tối đa việc sử dụng dữ liệu máy
quét để cải thiện chất lượng CPI. Lưu ý, một
số NSO đã thực hiện lần lượt từng mục tiêu
được liệt kê ở trên (ABS, 2017) trong khi các
cơ quan thống kê khác chuyển từ mục tiêu (i)
sang (v) (Krsinich, 2015; Chessa, 2016), cả
hai cách tiếp cận đều khả thi và thường phản
ánh tình hình cụ thể tại từng khu vực của cơ
quan thống kê đó.
Năm mục tiếp theo mô tả lợi ích của việc
sử dụng dữ liệu máy quét cho mỗi mục tiêu
được liệt kê ở trên.
4.2. Sử dụng dữ liệu máy quét cho
việc đối chiếu và đảm bảo chất lượng dữ
liệu
NSO có thể sử dụng dữ liệu máy quét để
đối chiếu số liệu và kiểm soát chất lượng dữ
liệu CPI hiện nay.
Dữ liệu máy quét bao gồm số lượng và
doanh thu của các sản phẩm được cung cấp
bởi các nhà bán lẻ những mặt hàng này
trong các khoảng thời gian xác định, thường
là tuần hoặc tháng. Các thông tin này cho
3 Xem mục 3 của phụ lục để biết thêm chi tiết về các
phương pháp này
24
phép NSO tính giá từng sản phẩm riêng biệt
bằng cách lấy doanh thu chia cho số lượng
sản phẩm đã bán. Giá này liên quan đến giá
đơn vị và đại diện cho mức giá trung bình mà
người mua phải trả trong khoảng thời gian
tuần hoặc tháng.
Đối với các sản phẩm tương đồng, giá
đơn vị theo thời kỳ phản ánh được giá mà
người mua phải trả sẽ chính xác hơn giá thời
điểm (Balk, 1998)412. Giá đơn vị đã bao gồm
giảm giá và ảnh hưởng của sự giảm giá này
đến số lượng sản phẩm được bán ra. Việc
xác định thời kỳ cho giá đơn vị được tính
toán rất quan trọng vì nó đảm bảo tính chính
xác của loại giá này. Diewert, Fox và de Haan
(2016) đã phát hiện ra giá đơn vị được sử
dụng trong việc tính CPI nên có cùng thời kỳ
với các chỉ tiêu được tính toán, thay vì lấy giá
thời kỳ trước đó. Tiếp cận gần nhất có thể
dẫn tới xu thế tăng độ chệch đối với CPI.
Phân tích giá tiêu dùng cho phép so sánh
giá tiêu dùng được thu thập với giá được tính
từ dữ liệu máy quét. Những phân tích này
cho biết một số giá trị chệch tiềm ẩn của giá
được sử dụng để tính CPI tại thời điểm thu
thập so với với đơn vị. Phân tích doanh thu
và số lượng bán sản phẩm được sử dụng bởi
các chuyên gia phân tích giá tại các cơ quan
thống kê nhằm trả lời cho câu hỏi liệu cỡ
mẫu CPI hiện nay có thể được cải thiện hay
không.
4.3. Sử dụng dữ liệu máy quét thay
thế giá truyền thống
Tại hầu hết các quốc gia phần lớn giá
được sử dụng để tính toán CPI được thu thập
bởi các điều tra viên bằng việc thu thập dữ
liệu trực tiếp tại các cơ sở kinh doanh. Điều
4 Dữ liệu về doanh thu có thể không hoàn toàn khơp
với mục tiêu và nội dung của CPI quốc gia vì nó có
thể bao gồm cả chi tiêu từ các hộ dân cư không
thường trú và các doanh nghiêp (Fenwick, 2014).
tra viên của các cơ quan thống kê quốc gia
sẽ trực tiếp quan sát, thu thập giá bán tại các
cửa hàng tại một thời điểm xác định, cũng
như thảo luận trực tiếp về việc giảm giá, các
chương trình quà tặng đặc biệt và các mặt
hàng bán chạy với chủ cửa hàng. Điều tra
viên sẽ ghi chép các thông tin này trong buổi
phỏng vấn, sau đó nhập dữ liệu vào máy vi
tính một cách thủ công. Việc tiếp cận địa bàn
đều đặn giúp cơ quan thống kê nắm bắt
được sự biến động của thị trường một cách
chủ động và quan sát được sự thay đổi về
chất lượng sản phẩm.
Sử dụng dữ liệu máy quét để thay thế giá
thu thập theo phương pháp truyền thống
nhìn chung giúp tiết kiệm các nguồn lực cho
cơ quan thống kê quốc gia. Lý do bởi nhân
viên thống kê không cần tới cơ sở kinh doanh
để thu thập giá bán. Mức tiết kiệm được ảnh
hưởng bởi số lượng nhân viên được giảm bớt
và số lượng nguồn lực tăng cường tại cơ
quan thống kê phục vụ cho việc quản lý và
sử dụng dữ liệu máy quét.
Giá thu thập sử dụng cho việc thay thế
cũng có một số thách thức cần được quản lý.
Để tính giá đơn vị cần sử dụng các mặt
hàng đồng nhất, những mặt hàng này có đặc
tính ổn định theo thời gian vì sự thay đổi
trong thành phần mặt hàng và chất lượng
mặt hàng sẽ không được phản ánh trong sự
thay đổi giá bán (ILO, 2004, p.164). Những
yêu cầu này cho thấy một số thách thức khi
thay thế giá bán được thu thập bằng những
thông tin lấy từ các tập dữ liệu máy quét.
Việc thỏa thuận giữa NSO và bên cung cấp
dữ liệu cần xác định rõ mức độ phù hợp của
các nhóm sản phẩm (hoặc các sản phẩm
không theo nhóm) nhằm đảm bảo việc các
sản phẩm được cung cấp đáp ứng được các
tiêu chuẩn mà giá đơn vị yêu cầu, từ đó mới
có thể sử dụng để tính CPI.
25
Một số NSO đã có kinh nghiệm trong việc
sản xuất giá đơn vị từ dữ liệu giá lấy từ các
tập dữ liệu máy quét. Tại một số quốc gia
việc sử dụng đơn vị phân loại hàng hóa tồn
kho (SKU) được chứng minh là thành công
(Howard et al, 2015), trong khi việc sử dụng
Mã phân loại sản phẩm toàn cầu (GTIN) và
Mã vạch sản phẩm châu Âu (EAN) có thể
chưa đáp ứng được mức độ chi tiết, phân
biệt sản phẩm theo đặc tính, như là kiện
hàng, điều này được cân nhắc là không liên
quan đến người tiêu dùng. Trong khi chính
dữ liệu chi tiết này mới là dữ liệu phản ánh
mức độ đồng nhất của sản phẩm, vấn đề các
mặt hàng biến mất hoặc tái xuất hiện thường
xảy ra và thường làm cho việc tính toán chỉ
số giá tiêu dùng trở lên khó khăn hơn513.
Điều cốt lõi trong việc đo lường giá cần
phải tính đến thay đổi chất lượng và chỉ ra
các mặt hàng mới (ILO, 2004). Điều này
được hầu hết các cơ quan thống kê giải
quyết khi điều tra viên tới cửa hàng để thu
thập sự thay đổi giá bán của các mặt hàng
cụ thể hoặc các mặt hàng tương đương trong
các giai đoạn tiếp theo, và xác định các mặt
hàng mới. Do tính chất của các mặt hàng là
có thể thay thế nhau nên các điều tra viên
thống kê đã tiến hành thu thập các thông tin
mô tả, những thông tin này cho biết ảnh
hưởng của sự thay đổi chất lượng được phân
chia theo sự thay đổi giá, vì vậy CPI có thể
tính đến sự thay đổi thuần túy của giá.
Tính toán việc thay đổi quy cách sản
phẩm là một thách thức điển hình khi sử
dụng dữ liệu máy quét. Dữ liệu máy quét có
xu hướng cho thấy mức biến động của mặt
hàng khá cao từ tháng này sang tháng khác.
Có những mẫu mã sản phẩm mới (cũng như
5 Ví dụ, khi sử dụng mã vạch để xác định một mặt
hàng, sự thay đổi giá của sản phẩm đồng nhất, mã
vạch của các sản đó thay đổi cùng thời điểm sẽ
không thể đo lường được.
các phiên bản mới) hiện trên thị trường và
các mẫu mã cũ biến mất khỏi thị trường vì
chúng đã bị thay thế (xuất hiện các mặt hàng
xuất thay đổi mẫu mã mới và các mặt hàng
cũ biến mất khỏi thị trường do bị thay thế).
Việc tính giá cho các mặt hàng điều chỉnh
quy cách vì vậy trở lên khó khăn.
Có ba kịch bản cho giá của các mặt hàng
điều chỉnh quy cách từ dữ liệu máy quét,
gồm:
a. Trường hợp các sản phẩm mới được
bán với giá đã thu thập trong mẫu, kể cả mặt
hàng thay thế
b. Trường hợp khối lượng mặt hàng
thay đổi (ví dụ thay đổi về khối lượng đóng
gói) và quy cách mặt hàng thay đổi
c. Trường hợp khối lượng mặt hàng
thay đổi nhưng quy cách mặt hàng không
thay đổi
Kịch bản đầu tiên là trường hợp đơn giản
nhất và đòi hỏi tính giá ở giai đoạn trước đó
cho sản phẩm mới.
Đối với kịch bản 2 và 3, nhân tố điều
chỉnh quy cách được xem xét là sự thay đổi
về khối lượng. Các cơ quan thống kê cần xây
dựng phương pháp liên kết với các sản phẩm
mới xuất hiện hoặc biến mất. Ví dụ, nếu một
sản phẩm thay đổi về kích thước đóng gói,
quy trình liên kết có thể sử dụng thông tin
mô tả về sản phẩm, giá, doanh thu, thời gian
(khi các sản phẩm xuất hiện hoặc biến mất
trong danh sách các mặt hàng bày bán) và
số lượng bán. Quy trình xác định, sản phẩm
mới gần như có thể thay thế cho các sản
phẩm đã biến mất (nhưng với quy cách phẩm
cấp sản phẩm khác nhau). Việc điều chỉnh
quy cách sau đó được thực hiện bởi các nhà
phân tích giá dựa trên mô tả sản phẩm.
Dữ liệu máy quét có khối lượng lớn và đa
dạng về cấu trúc cũng như kiểu định dạng
26
đối với mỗi cửa hàng bán lẻ. Kết quả NSO
cần nhiều nguồn lực để chuyển đổi các tập
dữ liệu thô ban đầu thành cơ sở dữ liệu phù
hợp với việc phân tích và tính CPI (Bird et al.,
2014; Böttcher and Sergeev, 2014). Lưu trữ,
làm sạch và mã hóa dữ liệu máy quét cũng là
những thách thức lớn cần được cân nhắc kỹ
bởi các NSO.
4.4. Sử dụng dữ liệu máy quét để
cập nhật mẫu điều tra giá
Việc thu thập các điểm giá theo phương
pháp truyền thống bằng việc thu thập giá
bán lẻ trực tiếp tại các cửa hàng bán lẻ là rất
tốn nguồn lực. Việc thu thập toàn bộ giá bán
các mặt hàng mỗi kỳ là không thực tế, vì vậy
cần tiếp cận giá bán thông qua điều tra chọn
mẫu. Ví dụ, các sản phẩm trong rổ hàng CPI
thu thập bởi các điều tra viên thuộc các NSO
được thực hiện thông qua hình thức điều tra
chọn mẫu. Điều tra viên chính là những
người trực tiếp hỏi người bán mặt hàng nào
được bán với số lượng lớn, và trực tiếp kiểm
tra kệ hàng bày bán sản phẩm để đưa ra
quyết định về mức độ quan trọng tương ứng
của loại mặt hàng đó. Mục đích của điều tra
viên là thu thập giá bán của các mặt hàng
đại diện thuộc rổ hàng hóa. Đây cũng chính
là mục tiêu của cuộc điều tra chọn mẫu.
Chọn mẫu có mục đích là phương pháp vẫn
được sử dụng từ trước đến nay vì dàn mẫu
các mặt hàng được bán không có sẵn đồng
thời thiếu dữ liệu về số lượng bán, doanh thu
bán hàng, những thông tin được sử dụng
trong việc đo lường mức độ quan trọng của
mặt hàng trong nền kinh tế. Tuy nhiên, việc
chọn mẫu có mục đích có thể gây ra sự
chệch khi các mặt hàng được chọn không đủ
tính đại diện cho tổng thể các mặt hàng.
Chọn mẫu truyền thống có thể được thay
thế bởi nhiều phương pháp chọn mẫu khác
do sự sẵn có của dữ liệu máy quét. Dữ liệu
máy quét có thể được sử dụng như dàn mẫu
để cập nhật mẫu giá. Một mẫu giá thường
bao gồm 2 chiều là kết hợp của một mẫu các
cửa hàng và mẫu danh mục các mặt hàng.
Nếu toàn bộ các cửa hàng trong chuỗi bán lẻ
được tiếp cận, dữ liệu thu được có thể được
sử dụng làm dàn mẫu cho các cửa hàng và
danh mục sản phẩm.
Tỷ lệ doanh thu của từng mặt hàng (hoặc
sự kết hợp sản phẩm/cửa hàng) có thể được
xác định cụ thể đối với mỗi mặt hàng trong
nhóm. Các sản phẩm được lựa chọn để thu
thập dữ liệu nằm trong rổ hàng hóa CPI căn
cứ vào tỷ lệ doanh thu lấy từ mẫu hoặc điểm
cắt mẫu (de Haan, Opperdoes and Schut,
1999).
Tuy nhiên, theo thời gian các sản phẩm
trong mẫu có thể biến mất hoặc ngừng bán.
Trong trường hợp thay thế sản phẩm cần duy
trì sự liên quan đến mẫu. Kiểm tra tương
quan có thể được sử dụng để phát hiện mặt
hàng nào trong mẫu không phù hợp và đánh
giá mức độ phù hợp của các mặt hàng được
sử dụng làm mặt hàng thay thế.
Nguyên tắc cơ bản của phép kiểm định
tính liên quan là tỷ suất doanh thu của các
sản phẩm phải ổn định (ví dụ tỷ suất doanh
thu cố định để so sánh với các sản phẩm
khác) trong nhóm hàng hóa CPI. Những
nhóm hàng này được liên quan đến giá sơ
cấp “EA” (Elementary Aggregate) trong CPI
(Chapter 20 of ILO, 2004). Tỷ suất doanh thu
ổn định là điều thực sự quan trọng, vì có các
mặt hàng có được bán rộng rãi trên thị
trường do đây là mặt hàng mới lạ hoặc đang
được giảm giá, nhưng sau một thời gian
doanh thu lại không đáng kể. Do vậy những
mặt hàng như thế này không thể là mặt hàng
đại diện cho thị trường.
Để giải quyết vấn đề này, yêu cầu đặt ra
đối với mặt hàng thay thế là doanh thu của
27
mặt hàng phải ổn định và cụ thể tại những
khoảng thời gian nhất định (ví dụ khoảng
thời gian từ 3 đến 6 tháng) trước khi chúng
được coi như là một phần của mẫu giá. Các
chuyên gia phân tích CPI nên kiểm tra một
cách thủ công toàn bộ các mặt hàng thay thế
được chọn và các mặt hàng chọn từ một
danh sách sắp xếp theo doanh thu hàng
tháng những tháng trước đó.
Các mặt hàng thực phẩm và đồ dùng gia
đình rất đa dạng về chủng loại sản phẩm đều
có thể là các mặt hàng tương đồng nếu
không xác định được sự biến động giá của
chúng. Chẳng hạn, cùng một nhãn hiệu cá
ngừ đóng hộp có nhiều loại hương vị khác
nhau và người tổng hợp CPI sẽ nhận ra giá
của những hộp cá ngừ có mùi vị khác nhau
của cùng một hãng là tương tự nhau, chúng
được bán ở cùng thời điểm và thay đổi giá
cũng cùng thời điểm. Việc chỉ đưa một loại
hương vị vào mẫu vẫn sẽ đảm bảo tính đại
diện cho tỷ lệ biến động giá trên thị trường.
Quy trình chọn mẫu phải đảm bảo các
sản phẩm được chọn là sản phẩm đại diện.
Các mặt hàng thay thế cần được chuyên gia
lựa chọn thủ công từ danh sách xếp hạng
của các sản phẩm tiềm năng và đáp ứng
được các tiêu chuẩn bắt buộc. Mẫu tiếp cận
từ dữ liệu máy quét đòi hỏi cần thêm nhiều
nguồn lực phân tích CPI, tuy nhiên bù lại thì
số lượng nhân lực thu thập dữ liệu sẽ được
giảm bớt.
4.5. Sử dụng dữ liệu máy quét cập
nhật cấu trúc chỉ số và áp dụng các
quyền số
Các mẫu giá truyền thống thường nhỏ.
Nguồn nhân lực phân tích CPI thực sự được
bù đắp bằng việc giảm số lượng điều tra viên
thu thập dữ liệu, NSO có thể quyết định mở
rộng mẫu mà không cần thay đổi công thức
tính chỉ số giá ở cấp địa bàn (EA) hoặc quy
trình chọn mẫu.
Điều này thực sự xứng đáng, tuy nhiên,
NSO cần phải cân nhắc cấu trúc chỉ số và quy
trình chọn mẫu khi thu thập dữ liệu máy quét
trực tiếp từ các chuỗi cửa hàng bán lẻ. Theo
truyền thống, một chỉ số EA được tính từ giá
được thu thập tại các cửa hàng thuộc các
chuỗi bán lẻ khác nhau (hoặc các cửa hàng
độc lập). Trong khi NSO muốn sử dụng nhiều
thông tin giá từ nhiều chuỗi các cửa hàng
bán lẻ hơn trước thì dường như nên coi việc
kết hợp theo chuỗi EA như là tầng dữ liệu
trong quy trình biên soạn chỉ số là điều cần
thiết.
Thực tế khi NSO quyết định sử dụng hệ
thống phân loại của nhà bán lẻ, dường như
cấu trúc chỉ số cũng cần phải thay đổi: Mức
thấp nhất của phân tầng nên được phân chia
theo EA (chuỗi chi tiết). Điều này dẫn tới một
số vấn đề, thứ nhất là liệu các cửa hàng
thuộc chuỗi có nên được coi như là các cửa
hàng riêng lẻ hay không, thứ hai là việc tính
giá đơn vị cho tất cả các cửa hàng thuộc
chuỗi cũng có thể hữu ích (Ivancic and Fox,
2013). Một số NSO không có lựa chọn, họ
nhận được dữ liệu ở cấp độ chuỗi cửa hàng.
Vấn đề tiếp theo là thủ tục chọn mẫu
hiện nay phải thay đổi. Cho rằng NSO vẫn
chọn mẫu theo tỷ lệ doanh thu của mặt hàng
lấy từ dữ liệu máy quét thì phương pháp này
cũng có thể được sử dụng để chọn mẫu các
mặt hàng từ các chuỗi EA cụ thể, tiêu chuẩn
để xác định mặt hàng chi tiết (và tính các giá
trị đơn vị) cấp cửa hàng hoặc chuỗi cửa
hàng. Nếu NSO muốn tăng kích thước mẫu
để sử dụng phần lớn các thông tin giá từ dữ
liệu máy quét thu thập được, quy trình chọn
mẫu cần được cân nhắc.
Một vấn đề khác là làm sao để tích hợp
chỉ số giá EA chuỗi chi tiết từ dữ liệu máy
28
quét với thông tin giá từ các nguồn khác. Bởi
những EA này khác với EA trong cấu trúc chỉ
số giá truyền thống, chỉ số giá từ dữ liệu
máy quét phải được tổng hợp ở cấp độ chi
tiết nhất của chỉ số giá được NSO công bố
hiện nay. Nói cách khác, việc tổng hợp gồm
2 bước: Chỉ số tổng hợp chuỗi EA mức chi
tiết hơn, và tổng hợp các chỉ số dữ liệu máy
quét với các chỉ số giá ở mức liên quan đến
các chuỗi cửa hàng bán lẻ và các cửa hàng
độc lập.
Dữ liệu doanh thu mang lại cơ hội cho
các NSO trong việc tính toán các quyền số sử
dụng để tính chỉ số giá một cách kịp thời và
đều đặn hơn. Điều này có được theo nhiều
cách, phụ thuộc vào sự tiếp cận dữ liệu máy
quét của NSO tại các chuỗi cửa hàng. Điều
đó cho thấy quyền số sử dụng các chỉ số giá
từ dữ liệu máy quét được cập nhật hàng
năm, sử dụng dữ liệu doanh thu từ 12 tháng
liền trước. Sự kết hợp các chỉ số tính từ dữ
liệu máy quét với các chỉ số được tổng hợp
từ các nguồn khác đòi hỏi dữ liệu tiêu dùng
của các chỉ số lân cận, các chỉ số này khó có
được hoặc khó ước lượng được.
Nếu không có dữ liệu máy quét, các dữ
liệu tiêu dùng chi tiết phân theo mặt hàng
(hoặc các gói hàng) sẽ không có sẵn hoặc
nếu có sẵn cũng sẽ không đều đặn. Vì vậy,
phần lớn các các cơ quan thống kê vẫn áp
dụng các phương pháp chỉ số không dùng
quyền số ở mức thấp nhất của CPI: Giá hoặc
thay đổi giá của các mặt hàng được chọn
mẫu từ một chuỗi EA được kết hợp không
cần quyền số gián tiếp của các mặt hàng dựa
trên tầm quan trọng của mặt hàng trong nền
kinh tế. Trong hầu hết các trường hợp, công
thức chỉ số Jevons được sử dụng bởi NSO.
Các tập dữ liệu máy quét bao gồm dữ liệu
doanh thu ở hầu hết cấp độ chi tiết. Những
dữ liệu này có thể được sử dụng để chọn
mẫu tỷ lệ các mặt hàng theo doanh thu của
chúng, như đã đề cập ở trên, nhưng tăng
thêm một số mục. Bao gồm các xác suất
được coi như các quyền số gián tiếp. Đó là,
chỉ số giá EA thực tế sẽ là một chỉ số có
quyền số gián tiếp và xác suất đưa vào sẽ
tương ứng với chỉ số mục tiêu/tổng thể đang
nhắm đến (Balk, 2005). Hơn thế nữa, phân
bổ doanh thu mục mặt hàng trong dữ liệu
máy quét thường bị lệch. Do đó, chọn mẫu tỷ
lệ thuận với doanh thu có khả năng chọn một
số mặt hàng có doanh thu cao với xác suất
bằng 1. Cho rằng các cơ quan thống kê thử
ước lượng chỉ số mục tiêu có quyền số theo
công thức bình quân nhân sử dụng chỉ số
Jevons dựa trên-mẫu (không quyền số). Các
mặt hàng có doanh thu nhỏ sẽ có một quyền
số ẩn (implicit weight) 1, nhưng các mặt
hàng có doanh số cao sẽ không có quyền số,
điều này hiển nhiên không phải là giải pháp
tốt, các mục sau nên là quyền số ẩn. Chỉ số
giá có quyền số phản ánh mức độ quan trọng
trong nền kinh tế thường được yêu thích hơn
các chỉ số không quyền số gồm các xác suất
tiềm ẩn. Các phương pháp quyền số đối với
dữ liệu máy quét sẽ được thảo luận cụ thể và
chi tiết trong tiểu mục 4.6 và phần tiếp theo
của tài liệu này.
4.6. Sử dụng các tập dữ liệu máy
quét tính CPI theo phương pháp mới
Các tiếp cận trong mục 4.2-4.5 cho phép
NSO tiếp tục sử dụng các phương pháp chọn
mẫu cơ sở để tính toán CPI. Việc cải thiện
tính chính xác của CPI có thể thực hiện vì các
loại giá (ví dụ giá trị đơn vị) có tính đại diện
cao hơn cho mức tiêu dùng thực tế của người
tiêu dùng; các mặt hàng được chọn mẫu
phản ánh khối lượng bán; và quyền số sử
dụng để đo lường sự thay đổi giá cập nhật
hơn với tần suất đều đặn hơn.
29
Thách thức chính mà NSO gặp phải
liên quan đến sự gia tăng nhu cầu các
nguồn lực (Bird et al., 2014). Duy trì cỡ
mẫu cơ bản, đặc biệt khi các mẫu giá
được mở rộng, đòi hỏi sự hỗ trợ một
cách thủ công bởi doanh thu sản phẩm
có thể lớn614.
Cách tốt nhất, NSO sẽ sử dụng tất
cả các thông tin có sẵn trong các bộ dữ
liệu máy quét thay vì chọn mẫu. Quy
trình xử lý thủ công toàn bộ các tập dữ
liệu máy quét cực kỳ tốn kém, và
không thể đáp ứng được lịch biên soạn
CPI. Vì vậy, quy trình tổng hợp CPI tự
động được đặt ra.
Đồng thời, khi sử dụng tổng toàn
bộ các sản phẩm, không chọn mẫu,
công thức chỉ số có quyền số nên được
sử dụng. Doanh thu sản phẩm đặt ra
một vấn đề quan trọng. Nhằm tối đa
hóa lượng liên kết trong dữ liệu, chuỗi
liên kết ở tần suất lớn là điều cần thiết.
Tuy nhiên có thể dẫn tới chuỗi (drift)
trôi trong chỉ số. Các phương pháp tính
chỉ số giá đa phương được xây dựng
cho chuỗi tự do là phù hợp nhất giúp
xử lý toàn bộ sản phẩm trong dữ liệu
máy quét.
Minh Ánh (dịch)
Nguồn: Charp 10, Scanner data, pp
2-11.
6 Cơ quan Thống kê Hà Lan lần đầu tiên giới
thiệu việc sử dụng dữ liệu máy quét từ các
siêu thị để tính CPI, chỉ số Lowe được sử
dụng (Schut et al., 2002). Ý tưởng giống như
các phương pháp truyền thống và xử lý mẫu
khoảng 10.000 mã mặt hàng (mã sản phẩm)
từ các chuỗi siêu thị. Tiếp cận này là cần
thiết trong điều kiện các lựa chọn thủ công
các mặt hàng thay thế hoặc biến mất và trong
trường hợp điều chỉnh chất lượng được coi
như là cần thiết.
Tiếp theo trang 41
Tài liệu tham khảo:
1. Trần Thanh Bình (2019), Sáng kiến cấp
Bộ Giải pháp khắc phục chênh lệch số liệu dân
số giữa các tiêu chí trong xây dựng nông thôn
mới do Bộ, ngành hướng dẫn;
2. Trần Thanh Bình (2013), ‘Ngành Thống
kê với Chương trình mục tiêu quốc gia xây dựng
nông thôn mới’, Thông tin Khoa học Thống kê,
số 05/2013;
3. Trần Thanh Bình (2013), ‘Cơ sở lý luận
và thực tiễn tính tiêu chí thu nhập cấp xã trong
xây dựng nông thôn mới’, Thông tin Khoa học
Thống kê, số 06/2013;
4. Trần Thanh Bình (2013), ‘Xây dựng nông
thôn mới ở Hà Tĩnh’, Tạp chí Con số và Sự kiện,
số 08/2013;
5. Trần Thanh Bình (2013, Cơ sở lý luận và
thực tiễn tính tiêu chí thu nhập cấp xã trong xây
dựng nông thôn mới; những đề xuất, kiến nghị;
6. Trần Thanh Bình (2014), Tìm hiểu phong
trào thi đua chung sức xây dựng nông thôn mới
2012-2014;
7. Ủy ban Nhân dân tỉnh Hà Tĩnh (2017),
Quyết định số 2855/QĐ-UBND về thành lập
Đoàn Liên ngành kiểm tra, đánh giá các xã đạt
chuẩn NTM từ năm 2015 trở về trước và thẩm
định kết quả xét công nhận đạt chuẩn năm
2017, ngày 03/10/2017;
8. Ủy ban Nhân dân tỉnh Hà Tĩnh (2018),
Quyết định 2043/QĐ-UBND về thành lập Đoàn
Liên ngành kiểm tra, đánh giá các xã đạt chuẩn
NTM từ năm 2015 trở về trước, ngày 06/7/2018.
Các file đính kèm theo tài liệu này:
- du_lieu_may_quet.pdf