Ước lượng trong stata
Lệnh khai báo: xtset id time
Trong đó biến id là biến chỉ cá thể,
time là biến chỉ thời gian trong tệp số liệu
Câu lệnh thực hiện: xtreg Y X2 Xk, re
Trong đó xtreg: khai báo số liệu mảng,
Y: biến phụ thuộc, Xi: biến độc lập
re ngụ ý mô hình tác động ngẫu nhiên.
Nhận xét:
Ta thấy hệ số ước lượng của biến đầu
tư là dương và có ý nghĩa thống kê.
Báo cáo từ Stata cũng cho biết các giá
trị ước lượng của u vàc . Trong bảng 4
các giá trị này tương ứng là 1114680.5 và
3451080.9. Các con số này cho thấy yếu tố
không quan sát được ci gây nên sự khác
biệt giữa các cá thể mạnh hơn nhiều so với
yếu tố ngẫu nhiên.
Phương pháp ước lượng phương sai
mạnh cho mô hình tác động ngẫu nhiên:
Khi giả thiết RE3 bị vi phạm thì chúng
ta có thể sử dụng phương pháp ước lượng
phương sai mạnh [2], và kết quả thu được
cho trong bảng 5 bằng cách gõ lệnh:
xtreg Y X2 Xk, re robust
Trong đó xtreg: khai báohồi quy tuyến
tính với số liệu mảng,
Y: biến phụ thuộc, Xi: biến độc lập
Re robust: chạy quá trình hiệu chỉnh
Ta thu được kết quả như sau8
Chúng ta thấy tất cả thông số trong
bảng 4 và bảng 5 đều như nhau, ngoại trừ
sai số chuẩn (và các giá trị liên quan, bao
gồm các cột từ cột S.E trở đi) là khác nhau.
Có sự khác biệt này là do khi tính phương
sai của các hệ số ước lượng, phương pháp
phương sai mạnh không sử dụng ma trận
(4.2). Khi phương sai sai số là không đồng
đều thì ước lượng phương sai mạnh là hợp
lý. Tuy nhiên khi phương sai sai số là đồng
đều thì ước lượng phương sai mạnh là
không hiệu quả bằng ước lượng GLS.
9 trang |
Chia sẻ: hachi492 | Ngày: 13/01/2022 | Lượt xem: 315 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Mô hình phân tích số liệu mảng - Thực hiện trên phầm mềm Stata (Kỳ 1), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
TAÏP CHÍ KHOA HOÏC ÑAÏI HOÏC SAØI GOØN Soá 22 - Thaùng 8/2014
84
MÔ HÌNH PHÂN TÍCH SỐ LIỆU MẢNG
- THỰC HIỆN TRÊN PHẦM MỀM STATA (KỲ 1)
PHAN TẤT HIỂN(*)
LÊ KHẮC PHONG(**)
PHAN HUY BẰNG(***)
TÓM TẮT
Trong bài báo này chúng tôi trình bày về số liệu mảng, tầm quan trọng và các đặc
trưng ưu việt của nó trong việc phân tích và dự báo kinh tế. Chúng tôi cũng trình bày hai
mô hình cơ bản và các phương pháp ước lượng để phân tích số liệu mảng. Cuối cùng
chúng tôi trình bày các kiểm định cho số liệu và mô hình đã trình bày ở trên.
Từ khóa: số liệu mảng, mô hình tác động ngẫu nhiên, mô hình tác động cố định,
Stata;
ABSTRACTS
In this paper we present the Panel data, and the importance of its unique adVantages
in Vietnam economic analysis and forecasting. We also present two basic models and
estimation methods to analyze array data. Finally we present the testing for data and
model presented above.
Keywords: panel data, random effects models, fixed effects models, Stata;
1. SỐ LIỆU MẢNG VÀ TÍNH ƯU VIỆT
CỦA NÓ(*)(**)(***)
Quá trình hội nhập và phát triển đang
làm cho nền kinh tế Việt Nam ngày càng
tuân theo các quy luật kinh tế. Sự vận động
của các quy luật này ẩn dấu sau các hiện
tượng kinh tế chính là điều kiện nền tảng
cho việc áp dụng các mô hình kinh tế
lượng trong việc đưa ra các quyết định một
cách khoa học và phù hợp với xu hướng
phát triển. Ngày nay, việc sử dụng các mô
hình kinh tế lượng hiện đại trong phân tích
- dự báo đã trở thành nhu cầu thực tế tất
yếu của các cơ quan nghiên cứu hoạch định
chính sách cũng như nhiều doanh nghiệp
(*)ThS, Trường Đại học Sài Gòn
(**)ThS, Trường Đại học Vinh
(***)ThS, Trường Cao đẳng nghề Đồng An,
Bình Dương
lớn. Nhằm đáp ứng các yêu cầu ngày càng
tăng này của xã hội, chúng tôi giới thiệu về
số liệu mảng và các mô hình phân tích số
liệu mảng cho các giảng viên và đặc biệt là
các em sinh viên có nhu cầu tìm hiểu,
nghiên cứu và vận dụng. Bài báo được chia
thành 3 phần ngoài các phần tóm tắt và
giới thiệu bao gồm: Thứ nhất, số liệu mảng
và tính ưu việt của nó; Thứ hai, các mô
hình phân tích số liệu mảng và câu lệnh
trong phầm mềm Stata; thứ ba, kết luận.
Ngoài ra còn bổ sung phần bảng phụ lục và
tài liệu tham khảo.
Trong phần này chúng tôi muốn làm rõ
câu hỏi tại sao lại sử dụng mô hình phân
tích số liệu mảng trong phân tích hồi quy?
Như chúng ta đã biết một vấn đề khá
phổ biến trong phân tích hồi quy là biến
nội sinh. Khi mô hình có hiện tượng này,
85
các ước lượng OLS( phương pháp bình
phương nhỏ nhất) cũng như các biến thể
của nó như GLS(Phương pháp ước lượng
tác động ngẫu nhiên) hay phương sai
mạnh đều là các ước lượng chệch và không
vững. Một nguyên nhân chính cho hiện
tượng nội sinh của mô hình hồi quy là do
thiếu biến quan sát, một hiện tượng thường
gặp khi phân tích kinh tế. Đối với mô hình
số liệu chéo, việc khắc phục hiện tượng
thường được nhờ vào phương pháp biến
công cụ1, tuy nhiên phương pháp này là rất
khó thực hiện trong thực tế. Với số liệu
mảng thì chúng ta sẽ có một phương pháp
khá hữu hiệu để giải quyết – do đó các mô
hình phân tích số liệu mảng đặc biệt thích
hợp cho các bài toán mà trong đó chúng ta
nghi ngờ có vấn đề về thiếu biến không
quan sát được.
Một số phương pháp cũng được sử
dụng để giải quyết vấn đề nội sinh trong
các tình huống tương ứng. Chẳng hạn nếu
nguyên nhân gây ra vấn đề nội sinh là sự
tác động đồng thời giữa các biến, chúng ta
có thể dùng phương pháp hệ phương trình
đồng thời2. Khi số liệu là số liệu một chiều
thì danh sách trên đây đã vét hết các biện
pháp hiện có trong việc xử lý vấn đề về
biến nội sinh.
Tuy nhiên khi chúng ta có số liệu
mảng thì chúng ta có thêm một phương
pháp rất hữu hiệu, đó là các phương pháp
phân tích số liệu mảng. Phương pháp này
được sử dụng rất rộng rãi trong các nghiên
cứu kinh tế xã hội, giải quyết được vấn đề
về biến nội sinh do thiếu biến không quan
sát được gây ra.
Trước khi đi vào nghiên cứu các
phương pháp phân tích số liệu mảng,
chúng tôi xin được giới thiệu cơ bản về số
liệu mảng.
Vậy số liệu mảng là gì?
Khi phân loại số liệu theo đặc trưng
chiều của thông tin, chúng ta có thể phân ra
làm ba loại: số liệu chéo, số liệu theo chuỗi
thời gian và số liệu hỗn hợp, trong đó số
liệu hỗn hợp được hiểu là số liệu kết hợp
cả chiều ngang của số liệu chéo và chiều
dọc của chuỗi thời gian. Một dạng đặc biệt
của số liệu hỗn hợp nhận được sự quan tâm
lớn của các nhà kinh tế lượng, đó là số liệu
mảng.
Số liệu mảng: là tập số liệu thu thập được
trên cùng một tập hợp các cá thể (hộ gia đình,
doanh nghiệp, tỉnh, v.v) dọc theo thời gian tại
các mốc thời điểm cách đều nhau.
Ví dụ điển hình về số liệu mảng trên thế
giới bao gồm bộ số liệu mảng điều tra quốc
gia về thanh niên (NLSY – national
longitudinal survey of youth) do Bộ lao động
Mỹ thực hiện; số liệu điều tra hộ gia đình của
Anh (BHPS- British household panel
survey), v.v. Ở Việt Nam có bộ số liệu về
điều tra doanh nghiệp, bộ số liệu về điều tra
mức sống hộ gia đình3- VHLSS (VLSS trước
năm 2004) đều do Tổng cục Thống kê thực
hiện điều tra. Gần đây có bộ số liệu về chỉ số
năng lực cạnh tranh cấp tỉnh (CPI –
competitiveness provincial index) thực hiện
cho 64 tỉnh thành trong cả nước4.
Ngoài ra, trên website của Tổng cục
Thống kê cũng cung cấp các số liệu vĩ mô
và vi mô cho cả nước, các tỉnh thành, hoặc
phân theo khu vực địa lí kinh tế, thành
phần kinh tế, v.v- đều là các nguồn số liệu
mảng phong phú cho việc nghiên cứu kinh
tế xã hội.
Như vậy số liệu mảng chứa thông tin
theo chiều ngang giữa các đối tượng tại
cùng một thời điểm– đặc trưng của số liệu
chéo, và thông tin dọc theo thời gian của
từng đối tượng – đặc trưng của số liệu
chuỗi thời gian.
86
Trong các phần mềm thống kê và kinh
tế lượng như STATA hay EVIEWS, số liệu
mảng thường được sắp xếp dưới dạng
chiều dọc5. Số liệu mảng có hai loại, số
liệu mảng cân xứng và số liệu mảng không
cân xứng.
Số liệu mảng dạng cân xứng (balanced
panel): nếu trong tập số liệu mảng mọi đơn
vị được quan sát đều có mặt trong tất cả
các thời kỳ quan sát thì tập số liệu được
gọi là cân xứng. Ngược lại, nếu có đơn vị
mất quan sát tại một (hay nhiều) thời kỳ
nào đó thì tập số liệu được gọi là không
cân xứng.
Tuy nhiên trong phần này, chúng ta sẽ
chỉ quan tâm tới tập số liệu dạng cân xứng.
Kích cỡ của số liệu: tuỳ thuộc vào N
và T mà tập số liệu mảng có thể thuộc một
trong các trường hợp sau đây
- N lớn và T nhỏ - là dạng số liệu
mảng truyền thống (zhang li – lecture
notes). Đây là trường hợp N đủ lớn để có
thể áp dụng luật số lớn và định lý giới hạn
trung tâm (n >30), và khi đó các suy diễn
thống kê có thể áp dụng theo chiều ngang
của số liệu.
- N nhỏ và T lớn – (thông thường T
>30). Trường hợp này cần quan tâm đến
vấn đề về tự tương quan. Nếu N quá nhỏ so
với T thì thực chất đây là bài toán hồi quy
chuỗi thời gian.
- N nhỏ và T nhỏ : trường hợp này ít
được quan tâm vì ứng dụng không rộng rãi, và
việc suy diễn thống kê thường gặp khó khăn.
- N lớn và T lớn : số liệu dạng này
vẫn đang được quan tâm nghiên cứu
Trong tài liệu này chúng ta sẽ nói đến
số liệu panel đặc trưng bởi N lớn và T nhỏ,
với T 2.
Phân tích số liệu dạng mảng đặc biệt
thích hợp với các nước đang phát triển và
chuyển đổi nền kinh tế trong đó có Việt
Nam, nơi mà hệ thống thu thập và quản lý
số liệu còn hạn chế. Thêm vào đó là tính ổn
định trong cấu trúc của nền kinh tế thường
chưa cao nên việc sử dụng chuỗi số dọc
theo một khoảng thời gian dài thường là
không thích hợp. Khi đó số liệu mảng đảm
bảo được tính ổn định trong quan hệ giữa
các biến số, đồng thời đảm bảo được số
bậc tự do của mô hình là đủ lớn. Chẳng
hạn với 64 tỉnh thành với các quan sát
trong 5 năm thì chúng ta đã có đến 320
quan sát.
Vậy số liệu mảng có những đặc trưng
gì?
Số liệu mảng chứa thông tin theo hai
chiều: chiều ngang theo các đơn vị quan
sát, và chiều dọc theo thời gian.
Thông tin theo chiều dọc cho biết điều
gì? Để làm rõ điều này chúng ta quay lại số
liệu ở bảng 36. Trong bảng này ta còn có
thêm các cột như lao động, tài sản,Ta
thấy rằng thông tin về sự thay đổi giá trị
gia tăng Va còn ảnh hưởng của nhiều yếu
tố khác như lực lượng lao động, tài sản cố
định của mỗi doanh nghiệp. Tương tự ta có
thông tin về chiều ngang - cung cấp quan
sát về sự khác nhau giữa các cá thể trong
cùng một thời kỳ.
Tóm lại, sự thay đổi trong giá trị của
các biến trong bộ số liệu mảng được tạo ra
từ hai nguồn: sự thay đổi trong nội bộ
chính bản thân mỗi cá thể dọc theo thời
gian và sự thay đổi giữa các cá thể trong
cùng thời kỳ. Các biến số trong tập số liệu
mảng có thể gồm các nhóm như sau:
Nhóm 1: Các biến số thay đổi theo cả
hai chiều như: sản lượng của doanh nghiệp,
tiêu dùng cá nhân, v.v.
Nhóm 2: Các biến số thay đổi theo
chiều ngang nhưng không thay đổi theo
chiều dọc như: vị trí địa lý của doanh
nghiệp, giới tính của chủ hộ, tôn giáo,.v.v
87
Nhóm 3: Các biến số thay đổi theo
chiều dọc nhưng không thay đổi theo chiều
ngang như: tỷ giá, lãi suất cơ bản, môi
trường kinh tế vĩ mô chung của cả
nước,.v.v
Do số liệu mảng chứa đựng thông tin
hai chiều về sự biến đổi của các biến số,
nên nó có những ưu việt sau đây:
Thứ nhất, Giải quyết vấn đề về thiếu
biến không quan sát được:
Để minh hoạ, chúng ta quan tâm đến
việc đánh giá tác động của vốn đầu tư lên
giá trị gia tăng Va trong bảng 3. Bây giờ
chúng ta hãy nhìn vào số liệu vốn đầu tư và
giá trị gia tăng Va của mỗi ngành, và thấy
rằng tại mỗi ngành, vốn đầu tư tăng kèm
theo giá rị gia tăng Va tăng. Hãy đưa ra
một giả thiết rất thông thường rằng trong
mười một năm 2000-2010 thì lực lượng lao
động không đổi. Do đó khi xem xét sự thay
đổi trong nội bộ mỗi ngành thì Va không
còn chịu tác động của yếu tố lao động nữa
mà chỉ còn chịu tác động của vốn đầu tư
mà thôi. Nói một cách tổng quát, việc xem
xét sự thay đổi trong nội bộ mỗi cá thể cho
phép chúng ta bỏ qua tác động của các yếu
tố không quan sát được, miễn là các yếu tố
này không thay đổi theo thời gian, mà
không làm ảnh hưởng tới việc đánh giá tác
động của các biến giải thích khác trong mô
hình. Điều này là không thể thực hiện
được nếu chúng ta chỉ có số liệu chéo. Một
cách hoàn toàn tương tự, chúng ta cũng có
thể xem xét vấn đề về yếu tố không quan
sát được mà nó chỉ thay đổi theo thời gian,
ct. Trong nghiên cứu này chúng ta sẽ chỉ
quan tâm đến loại hình thứ nhất : khi yếu
tố không quan sát được là không thay đổi
theo thời gian mà chỉ khác nhau giữa các
cá thể.
Thứ hai, Đưa ra các phân tích mang
tính động, tinh tế :
Một ví dụ kinh điển là về tỷ lệ tham
gia lao động của phụ nữ. Giả sử số liệu
quan sát trong năm 2009 thấy có 20% số
phụ nữ ở một địa phương là không tham
gia lao động. Khi đó chúng ta không biết
được liệu có phải 20% phụ nữ ở vùng này
hoàn toàn không bao giờ tham gia vào lực
lượng lao động hay hàng năm có 20% phụ
nữ thay phiên nhau nghỉ việc. Nếu có số
liệu chẳng hạn cho hai năm liên tiếp thì
chúng ta hoàn toàn có thể phân biệt được
số liệu của chúng ta thuộc vào tình huống
nào.
Thứ 3, làm giảm nhẹ vấn đề về đa cộng
tuyến trong bài toán có trễ phân phối
Bài toán có trễ phân phối thường có
dạng sau :
0 1 1
..
t t t t k t k t
y x x x u
Thông thường, các giá trị nối tiếp nhau
của biến số xt thường có quan hệ tương
quan rất chặt với nhau. Chẳng hạn trong
bài toán thu nhập – chi tiêu thì một người
có thu nhập kỳ trước lớn thì thu nhập kỳ
sau cũng thường lớn, do đó các giá trị của
biến thu nhập có tự tương quan lớn. Và
như vậy, trong các bài toán có trễ phân
phối thì đa công tuyến thường là một vấn
đề khá nghiêm trọng, làm giảm đáng kể
tính chính xác của các suy diễn thống kê.
Tuy nhiên khi có số liệu mảng thì sự thay
đổi theo cả chiều ngang của các biến số
thường giúp làm giảm bậc của đa cộng
tuyến nói trên, do đó làm tăng độ chính xác
của các suy diễn thống kê.
Thứ tư, tăng bậc tự do, do đó làm tăng
độ chính xác của các suy diễn thống kê:
Một vấn đề thực nghiệm khi phân tích
kinh tế là vấn đề về kích thước mẫu. Khi số
quan sát của một mẫu là quá nhỏ khó có
thể đảm bảo được tính đại diện cho tổng
thể của mẫu này. Và do đó việc sử dụng
các thông tin từ mẫu để đưa ra các suy diễn
88
thống kê về tổng thể là thiếu chính xác.
Với số liệu mảng chúng ta thường không
phải lo lắng nhiều về kích thước mẫu. Do
tính hai chiều của số liệu, chỉ cần một
khoảng thời gian không dài cho một tập
vừa phải cá thể thì chúng ta đã có một số
quan sát khá lớn. Chẳng hạn với số liệu
cho 64 tỉnh thành và 5 năm thì đã tạo nên
một bộ số liệu với 320 quan sát. Do đó
kích thước mẫu lớn thường là một ưu điểm
đáng kể của số liệu mảng.
Thứ năm, đặc biệt thích hợp cho các
nước đang phát triển:
Đối với các nước đang phát triển trong
đó có Việt Nam thì số liệu thường là một
vấn đề khá nghiêm trọng đối với các nhà
phân tích. Thông thường chúng ta không
có số liệu quá dài trong quá khứ để có thể
đủ số quan sát, đảm bảo độ tin cậy của các
suy diễn thống kê trong các bài toán phân
tích động. Chẳng hạn khi số liệu về đầu tư
nước ngoài chỉ có một cách tương đối hệ
thống từ cuối những năm 1990. Kể cả khi
chúng ta có số liệu đủ dài thì việc sử dụng
các mô hình chuỗi thời gian thường phải
thận trọng do cấu trúc kinh tế thay đổi khá
nhanh. Tuy nhiên với số liệu mảng, chúng
ta không cần đến một lượng thời gian quá
dài, do đó vẫn đảm bảo được tính ổn định
về cấu trúc đồng thời vẫn đảm bảo một số
quan sát đủ lớn.
2. MÔ HÌNH TÁC ĐỘNG NGẪU NHIÊN
VÀ ƯỚC LƯỢNG
Phần này chúng ta sẽ xem xét một mô
hình rất thông dụng trong phân tích sử
dụng số liệu mảng - mô hình tác động ngẫu
nhiên (random effect model). Mô hình này
được dùng cho các bài toán có vấn đề về
thiếu biến không quan sát được dạng ci, với
điều kiện biến này là không tương quan với
các biến giải thích khác trong mô hình.
2.1. Mô hình và các giả thiết7
Xét mô hình với số liệu dạng mảng:
1 2 2
..
it it k kit it
y X X v (4.1)
Trong đó vit = ci + uit được gọi là sai số
tổng hợp. Trước hết chúng ta sẽ giới thiệu
các giả thiết của mô hình.
Giả thiết RE1 : E(X’v) = 0
Giả thiết RE2: ' 1( )rankE X X k
Trong đó Ω là ma trận hiệp phương
sai :
Ω = cov (vi, vj).
Giả thiết RE3:
(a) cov(uit, ujs|Xi ) = 0 với t ≠ s hoặc i≠ j
(b) Var(uit|Xi) =
2
u
;Var(ci|Xi ) =
2
c
,
cov( ci, uit) = 0 với mọi i, t
Mô hình (4.1) với các giả thiết RE1-
RE3 được gọi là mô hình tác động ngẫu
nhiên.
Ma trận hiệp phương sai của sai số
ngẫu nhiên tổng hợp có dạng sau :
2 2 2 2
2 2 2
2 2 2
.
. .
cov( , ) :
. . . .
. .
c u c c
c c u
i i
c c u TxT
v v
và :
0 . 0
0 . .0
cov( , )
. . . .
0 .0 .
it js
nTxnT
v v
(4.2)
(4.2) được xem là ma trận hiệp phương
sai đặc trưng cho mô hình tác động ngẫu
nhiên.
2.2. Các phương pháp ước lượng mô
hình tác động ngẫu nhiên
Có nhiều phương pháp để ước lượng
mô hình này, trong khuôn khổ của bài báo
89
chúng tôi xin được giới thiệu hai phương
pháp sau:
Phương pháp ước lượng tác động
ngẫu nhiên (GLS)
Phương pháp GLS về thực chất là
phương pháp bình phương bé nhất tổng
quát áp dụng cho (4.1) với cấu trúc ma trận
hiệp phương sai dạng (4.2).
Do đó công thức cho các ước lượng là :
1 1 1ˆ ˆ ˆ( ' ) ( ' )
RE
X X X y (4.3)
Trong đó ˆ là ước lượng của
Phương pháp GLS xem tài liệu [2]
Phương pháp ước lượng hiệu ứng
ngẫu nhiên hợp lý cực đại (MLE)
Phương pháp này là một sự mở rộng
trực tiếp của phương pháp ước lượng hợp
lý cực đại đã được trình bày trong các tài
liệu về mô hình hồi quy thông thường cho
mô hình dạng số liệu gộp (4.1), trong đó
các tham số ước lượng cần tìm để cực đại
hàm hợp lý bao gồm thêm cả 2 2;
u c
. Khi
số quan sát là lớn (>200) thì ước lượng thu
được từ hai phương pháp là rất gần nhau.
Phương pháp MLE xem tài liệu [2]
2.3. Ước lượng trong stata
Lệnh khai báo: xtset id time
Trong đó biến id là biến chỉ cá thể,
time là biến chỉ thời gian trong tệp số liệu
Câu lệnh thực hiện: xtreg Y X2 Xk, re
Trong đó xtreg: khai báo số liệu mảng,
Y: biến phụ thuộc, Xi: biến độc lập
re ngụ ý mô hình tác động ngẫu nhiên.
Nhận xét:
Ta thấy hệ số ước lượng của biến đầu
tư là dương và có ý nghĩa thống kê.
Báo cáo từ Stata cũng cho biết các giá
trị ước lượng của
u
và
c
. Trong bảng 4
các giá trị này tương ứng là 1114680.5 và
3451080.9. Các con số này cho thấy yếu tố
không quan sát được ci gây nên sự khác
biệt giữa các cá thể mạnh hơn nhiều so với
yếu tố ngẫu nhiên.
Phương pháp ước lượng phương sai
mạnh cho mô hình tác động ngẫu nhiên:
Khi giả thiết RE3 bị vi phạm thì chúng
ta có thể sử dụng phương pháp ước lượng
phương sai mạnh [2], và kết quả thu được
cho trong bảng 5 bằng cách gõ lệnh:
xtreg Y X2 Xk, re robust
Trong đó xtreg: khai báohồi quy tuyến
tính với số liệu mảng,
Y: biến phụ thuộc, Xi: biến độc lập
Re robust: chạy quá trình hiệu chỉnh
Ta thu được kết quả như sau8
Chúng ta thấy tất cả thông số trong
bảng 4 và bảng 5 đều như nhau, ngoại trừ
sai số chuẩn (và các giá trị liên quan, bao
gồm các cột từ cột S.E trở đi) là khác nhau.
Có sự khác biệt này là do khi tính phương
sai của các hệ số ước lượng, phương pháp
phương sai mạnh không sử dụng ma trận
(4.2). Khi phương sai sai số là không đồng
đều thì ước lượng phương sai mạnh là hợp
lý. Tuy nhiên khi phương sai sai số là đồng
đều thì ước lượng phương sai mạnh là
không hiệu quả bằng ước lượng GLS.
90
3. BẢNG PHỤ LỤC
Bảng 1. Bảng mã ngành tương ứng
Ký hiệu Mã ngành Ngành
id = 1 1711 Sản xuất sợi và dệt vải
id = 2 1712 Hoàn thiện các sản phẩm dệt
id =3 1721 Sản xuất các sản phẩm dệt may sẵn có
id = 4 1722 Sản xuất thảm và chăn đệm
id = 5 1723 Sản xuất dây bện và lưới
id = 6 1729 Sản xuất các hàng dệt khác
id = 7 1730 Sản xuất hàng đan móc
id = 8 1810 May trang phục trừ quần áo da lông thú
id = 9 1820
Thuộc và nhuộm da lông thú, sản xuất các sản phẩm từ lông
thú
year Thời gian từ 2000 tới 2010
Bảng 2. Cách sắp xếp số liệu mảng trong phần mềm Stata
Cá thể Năm Y X2 X3
1 2007 y1 X2,11 X3,11
1 2008 y12 X2,12 X3,12
1 2009 y13 X2,13 X3,13
--
I T yit X2,it X3,it
--
5 2007 y51 X2,51 X3,51
5 2008 y52 X2,52 X3,52
5 2009 y53 X2,53 X3,53
Bảng 3. Trích số liệu mảng về ngành Dệt may (panel.dta)
Id year Vondautu laodong Taisan Va
1 2000 653543 79156 15359870 6526556
1 2001 2525746 80050 17386609 7010251
1 2002 2401084 85312 20833236 7676141
1 2003 1578353 89877 21538049 9133104
1 2004 1868260 84554 30050558 10189547
1 2005 2374215 91235 35836248 11253494
1 2006 3252080 68558 31112316 10731196
1 2007 3661273 91388 46034361 16894620
1 2008 10417284 85996 57124484 18284551
91
1 2009 5634574 89696 60161835 22640679
1 2010 16252088 88527 80257565 30886679
2 2000 10782 1220 163732 68053
2 2001 194674 4313 682804 289112
2 2002 267787 4973 1051643 339149
2 2003 291252 7260 1510472 469237
2 2004 167359 9680 1583210 389836
2 2005 229313 10027 1839169 546273
2 2006 311907 10216 3204596 851622
2 2007 380374 11091 2754669 814837
2 2008 437893 12148 3020878 996739
2 2009 382229 14721 4069367 1373503
2 2010 927621 18051 5706000 1799354
Bảng 4. Kết quả ước lượng mô hình tác động ngẫu nhiên
Random-effects GLS regression Number of obs = 99
Group Variable: id Number of groups = 9
R-sq: within = 0.6005 Obs per group: min = 11
between = 0.9580 avg = 11.0
overall = 0.7846 max = 11
Random effects u_i ~ Gaussian Wald chi2(1) = 247.87
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
------------------------------------------------------------------------------
Va | Coef. Std. Err. z P>|z| [95% Conf. InterVal]
-------------+----------------------------------------------------------------
vondautu | 2.750478 .1747001 15.74 0.000 2.408072 3.092883
_cons | 875611.6 579529.5 1.51 0.131 -260245.4 2011469
-------------+----------------------------------------------------------------
sigma_u | 1114680.5
sigma_e | 3451080.9
rho | .0944699 (fraction of Variance due to u_i)
------------------------------------------------------------------------------
Bảng 5. Mô hình tác động ngẫu nhiên với ma trận phương sai mạnh
Random-effects GLS regression Number of obs = 99
Group Variable: id Number of groups = 9
R-sq: within = 0.6005 Obs per group: min = 11
between = 0.9580 avg = 11.0
overall = 0.7846 max = 11
Random effects u_i ~ Gaussian Wald chi2(1) = 9.15
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0025
(Std. Err. adjusted for 9 clusters in id)
------------------------------------------------------------------------------
| Robust
Va | Coef. Std. Err. z P>|z| [95% Conf. InterVal]
-------------+----------------------------------------------------------------
vondautu | 2.750478 .909056 3.03 0.002 .9687605 4.532195
92
_cons | 875611.6 891421.5 0.98 0.326 -871542.5 2622766
-------------+----------------------------------------------------------------
sigma_u | 1114680.5
sigma_e | 3451080.9
rho | .0944699 (fraction of Variance due to u_i)
------------------------------------------------------------------------------
sigma_u 30.506116
sigma_e 4.8388767
rho .97545723 (fraction of Variance due to u_i)
Chú thích:
1
Xem tai liệu[7]
2
Xem tài liệu [2]
3
Tuy các bộ số liệu này về thực chất không phải là bộ số liệu mảng, nhưng có thể tách lọc
ra để có được bộ số liệu mảng
4
website: www.pcivietnam.org.vn
5
Xem phần phụ lục về cách sắp xếp số liệu mảng
6
Xem phụ lục bảng 3
7
Xem chi tiết tài liệu [2]
8
Xem phụ lục kết quả theo phương pháp hồi quy mạnh
TÀI LIỆU THAM KHẢO
1. Arthur S.Goldberger, Econometric Theory, John Wiley & Sons,Inc
2. Brown, M. B., and A. B. Forsythe. 1974. Robust test for the equality of Variances.
Journal of the American Statistical Association 69: 364-367.
3. Damodar N. Gujarati (1995), Basic Econometric, MacGraw-Hill Inc, Third Ed.
4. Nguyễn Khắc Minh (2002), Các phương pháp phân tích và dự báo trong kinh tế, NXB
Khoa học và Kỹ thuật Hà Nội.
5. Nguyễn Quang Dong (2008), Bài giảng kinh tế lượng, NXB Giao thông vận tải Hà
Nội.
6. Jeffrey M. Wooldridge (2002), Econometric Analysis of Cross Section and Panel
Data, The MIT Press Cambridge, Massachusetts London, England
7. Madala, G.S-macmillan (19920), Introduction of Econometrics. 2d ed., New York.
8. Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice–Hall.
* Ngày nhận bài: 30/6/2014. Biên tập xong: 30/7/2014. Duyệt đăng: 05/8/2014
Các file đính kèm theo tài liệu này:
- mo_hinh_phan_tich_so_lieu_mang_thuc_hien_tren_pham_mem_stata.pdf