Mô hình phân tích số liệu mảng - Thực hiện trên phầm mềm Stata (Kỳ 1)

Ước lượng trong stata Lệnh khai báo: xtset id time Trong đó biến id là biến chỉ cá thể, time là biến chỉ thời gian trong tệp số liệu Câu lệnh thực hiện: xtreg Y X2 Xk, re Trong đó xtreg: khai báo số liệu mảng, Y: biến phụ thuộc, Xi: biến độc lập re ngụ ý mô hình tác động ngẫu nhiên. Nhận xét: Ta thấy hệ số ước lượng của biến đầu tư là dương và có ý nghĩa thống kê. Báo cáo từ Stata cũng cho biết các giá trị ước lượng của u vàc . Trong bảng 4 các giá trị này tương ứng là 1114680.5 và 3451080.9. Các con số này cho thấy yếu tố không quan sát được ci gây nên sự khác biệt giữa các cá thể mạnh hơn nhiều so với yếu tố ngẫu nhiên. Phương pháp ước lượng phương sai mạnh cho mô hình tác động ngẫu nhiên: Khi giả thiết RE3 bị vi phạm thì chúng ta có thể sử dụng phương pháp ước lượng phương sai mạnh [2], và kết quả thu được cho trong bảng 5 bằng cách gõ lệnh: xtreg Y X2 Xk, re robust Trong đó xtreg: khai báohồi quy tuyến tính với số liệu mảng, Y: biến phụ thuộc, Xi: biến độc lập Re robust: chạy quá trình hiệu chỉnh Ta thu được kết quả như sau8 Chúng ta thấy tất cả thông số trong bảng 4 và bảng 5 đều như nhau, ngoại trừ sai số chuẩn (và các giá trị liên quan, bao gồm các cột từ cột S.E trở đi) là khác nhau. Có sự khác biệt này là do khi tính phương sai của các hệ số ước lượng, phương pháp phương sai mạnh không sử dụng ma trận (4.2). Khi phương sai sai số là không đồng đều thì ước lượng phương sai mạnh là hợp lý. Tuy nhiên khi phương sai sai số là đồng đều thì ước lượng phương sai mạnh là không hiệu quả bằng ước lượng GLS.

pdf9 trang | Chia sẻ: hachi492 | Lượt xem: 337 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Mô hình phân tích số liệu mảng - Thực hiện trên phầm mềm Stata (Kỳ 1), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
TAÏP CHÍ KHOA HOÏC ÑAÏI HOÏC SAØI GOØN Soá 22 - Thaùng 8/2014 84 MÔ HÌNH PHÂN TÍCH SỐ LIỆU MẢNG - THỰC HIỆN TRÊN PHẦM MỀM STATA (KỲ 1) PHAN TẤT HIỂN(*) LÊ KHẮC PHONG(**) PHAN HUY BẰNG(***) TÓM TẮT Trong bài báo này chúng tôi trình bày về số liệu mảng, tầm quan trọng và các đặc trưng ưu việt của nó trong việc phân tích và dự báo kinh tế. Chúng tôi cũng trình bày hai mô hình cơ bản và các phương pháp ước lượng để phân tích số liệu mảng. Cuối cùng chúng tôi trình bày các kiểm định cho số liệu và mô hình đã trình bày ở trên. Từ khóa: số liệu mảng, mô hình tác động ngẫu nhiên, mô hình tác động cố định, Stata; ABSTRACTS In this paper we present the Panel data, and the importance of its unique adVantages in Vietnam economic analysis and forecasting. We also present two basic models and estimation methods to analyze array data. Finally we present the testing for data and model presented above. Keywords: panel data, random effects models, fixed effects models, Stata; 1. SỐ LIỆU MẢNG VÀ TÍNH ƯU VIỆT CỦA NÓ(*)(**)(***) Quá trình hội nhập và phát triển đang làm cho nền kinh tế Việt Nam ngày càng tuân theo các quy luật kinh tế. Sự vận động của các quy luật này ẩn dấu sau các hiện tượng kinh tế chính là điều kiện nền tảng cho việc áp dụng các mô hình kinh tế lượng trong việc đưa ra các quyết định một cách khoa học và phù hợp với xu hướng phát triển. Ngày nay, việc sử dụng các mô hình kinh tế lượng hiện đại trong phân tích - dự báo đã trở thành nhu cầu thực tế tất yếu của các cơ quan nghiên cứu hoạch định chính sách cũng như nhiều doanh nghiệp (*)ThS, Trường Đại học Sài Gòn (**)ThS, Trường Đại học Vinh (***)ThS, Trường Cao đẳng nghề Đồng An, Bình Dương lớn. Nhằm đáp ứng các yêu cầu ngày càng tăng này của xã hội, chúng tôi giới thiệu về số liệu mảng và các mô hình phân tích số liệu mảng cho các giảng viên và đặc biệt là các em sinh viên có nhu cầu tìm hiểu, nghiên cứu và vận dụng. Bài báo được chia thành 3 phần ngoài các phần tóm tắt và giới thiệu bao gồm: Thứ nhất, số liệu mảng và tính ưu việt của nó; Thứ hai, các mô hình phân tích số liệu mảng và câu lệnh trong phầm mềm Stata; thứ ba, kết luận. Ngoài ra còn bổ sung phần bảng phụ lục và tài liệu tham khảo. Trong phần này chúng tôi muốn làm rõ câu hỏi tại sao lại sử dụng mô hình phân tích số liệu mảng trong phân tích hồi quy? Như chúng ta đã biết một vấn đề khá phổ biến trong phân tích hồi quy là biến nội sinh. Khi mô hình có hiện tượng này, 85 các ước lượng OLS( phương pháp bình phương nhỏ nhất) cũng như các biến thể của nó như GLS(Phương pháp ước lượng tác động ngẫu nhiên) hay phương sai mạnh đều là các ước lượng chệch và không vững. Một nguyên nhân chính cho hiện tượng nội sinh của mô hình hồi quy là do thiếu biến quan sát, một hiện tượng thường gặp khi phân tích kinh tế. Đối với mô hình số liệu chéo, việc khắc phục hiện tượng thường được nhờ vào phương pháp biến công cụ1, tuy nhiên phương pháp này là rất khó thực hiện trong thực tế. Với số liệu mảng thì chúng ta sẽ có một phương pháp khá hữu hiệu để giải quyết – do đó các mô hình phân tích số liệu mảng đặc biệt thích hợp cho các bài toán mà trong đó chúng ta nghi ngờ có vấn đề về thiếu biến không quan sát được. Một số phương pháp cũng được sử dụng để giải quyết vấn đề nội sinh trong các tình huống tương ứng. Chẳng hạn nếu nguyên nhân gây ra vấn đề nội sinh là sự tác động đồng thời giữa các biến, chúng ta có thể dùng phương pháp hệ phương trình đồng thời2. Khi số liệu là số liệu một chiều thì danh sách trên đây đã vét hết các biện pháp hiện có trong việc xử lý vấn đề về biến nội sinh. Tuy nhiên khi chúng ta có số liệu mảng thì chúng ta có thêm một phương pháp rất hữu hiệu, đó là các phương pháp phân tích số liệu mảng. Phương pháp này được sử dụng rất rộng rãi trong các nghiên cứu kinh tế xã hội, giải quyết được vấn đề về biến nội sinh do thiếu biến không quan sát được gây ra. Trước khi đi vào nghiên cứu các phương pháp phân tích số liệu mảng, chúng tôi xin được giới thiệu cơ bản về số liệu mảng. Vậy số liệu mảng là gì? Khi phân loại số liệu theo đặc trưng chiều của thông tin, chúng ta có thể phân ra làm ba loại: số liệu chéo, số liệu theo chuỗi thời gian và số liệu hỗn hợp, trong đó số liệu hỗn hợp được hiểu là số liệu kết hợp cả chiều ngang của số liệu chéo và chiều dọc của chuỗi thời gian. Một dạng đặc biệt của số liệu hỗn hợp nhận được sự quan tâm lớn của các nhà kinh tế lượng, đó là số liệu mảng. Số liệu mảng: là tập số liệu thu thập được trên cùng một tập hợp các cá thể (hộ gia đình, doanh nghiệp, tỉnh, v.v) dọc theo thời gian tại các mốc thời điểm cách đều nhau. Ví dụ điển hình về số liệu mảng trên thế giới bao gồm bộ số liệu mảng điều tra quốc gia về thanh niên (NLSY – national longitudinal survey of youth) do Bộ lao động Mỹ thực hiện; số liệu điều tra hộ gia đình của Anh (BHPS- British household panel survey), v.v. Ở Việt Nam có bộ số liệu về điều tra doanh nghiệp, bộ số liệu về điều tra mức sống hộ gia đình3- VHLSS (VLSS trước năm 2004) đều do Tổng cục Thống kê thực hiện điều tra. Gần đây có bộ số liệu về chỉ số năng lực cạnh tranh cấp tỉnh (CPI – competitiveness provincial index) thực hiện cho 64 tỉnh thành trong cả nước4. Ngoài ra, trên website của Tổng cục Thống kê cũng cung cấp các số liệu vĩ mô và vi mô cho cả nước, các tỉnh thành, hoặc phân theo khu vực địa lí kinh tế, thành phần kinh tế, v.v- đều là các nguồn số liệu mảng phong phú cho việc nghiên cứu kinh tế xã hội. Như vậy số liệu mảng chứa thông tin theo chiều ngang giữa các đối tượng tại cùng một thời điểm– đặc trưng của số liệu chéo, và thông tin dọc theo thời gian của từng đối tượng – đặc trưng của số liệu chuỗi thời gian. 86 Trong các phần mềm thống kê và kinh tế lượng như STATA hay EVIEWS, số liệu mảng thường được sắp xếp dưới dạng chiều dọc5. Số liệu mảng có hai loại, số liệu mảng cân xứng và số liệu mảng không cân xứng. Số liệu mảng dạng cân xứng (balanced panel): nếu trong tập số liệu mảng mọi đơn vị được quan sát đều có mặt trong tất cả các thời kỳ quan sát thì tập số liệu được gọi là cân xứng. Ngược lại, nếu có đơn vị mất quan sát tại một (hay nhiều) thời kỳ nào đó thì tập số liệu được gọi là không cân xứng. Tuy nhiên trong phần này, chúng ta sẽ chỉ quan tâm tới tập số liệu dạng cân xứng. Kích cỡ của số liệu: tuỳ thuộc vào N và T mà tập số liệu mảng có thể thuộc một trong các trường hợp sau đây - N lớn và T nhỏ - là dạng số liệu mảng truyền thống (zhang li – lecture notes). Đây là trường hợp N đủ lớn để có thể áp dụng luật số lớn và định lý giới hạn trung tâm (n >30), và khi đó các suy diễn thống kê có thể áp dụng theo chiều ngang của số liệu. - N nhỏ và T lớn – (thông thường T >30). Trường hợp này cần quan tâm đến vấn đề về tự tương quan. Nếu N quá nhỏ so với T thì thực chất đây là bài toán hồi quy chuỗi thời gian. - N nhỏ và T nhỏ : trường hợp này ít được quan tâm vì ứng dụng không rộng rãi, và việc suy diễn thống kê thường gặp khó khăn. - N lớn và T lớn : số liệu dạng này vẫn đang được quan tâm nghiên cứu Trong tài liệu này chúng ta sẽ nói đến số liệu panel đặc trưng bởi N lớn và T nhỏ, với T  2. Phân tích số liệu dạng mảng đặc biệt thích hợp với các nước đang phát triển và chuyển đổi nền kinh tế trong đó có Việt Nam, nơi mà hệ thống thu thập và quản lý số liệu còn hạn chế. Thêm vào đó là tính ổn định trong cấu trúc của nền kinh tế thường chưa cao nên việc sử dụng chuỗi số dọc theo một khoảng thời gian dài thường là không thích hợp. Khi đó số liệu mảng đảm bảo được tính ổn định trong quan hệ giữa các biến số, đồng thời đảm bảo được số bậc tự do của mô hình là đủ lớn. Chẳng hạn với 64 tỉnh thành với các quan sát trong 5 năm thì chúng ta đã có đến 320 quan sát. Vậy số liệu mảng có những đặc trưng gì? Số liệu mảng chứa thông tin theo hai chiều: chiều ngang theo các đơn vị quan sát, và chiều dọc theo thời gian. Thông tin theo chiều dọc cho biết điều gì? Để làm rõ điều này chúng ta quay lại số liệu ở bảng 36. Trong bảng này ta còn có thêm các cột như lao động, tài sản,Ta thấy rằng thông tin về sự thay đổi giá trị gia tăng Va còn ảnh hưởng của nhiều yếu tố khác như lực lượng lao động, tài sản cố định của mỗi doanh nghiệp. Tương tự ta có thông tin về chiều ngang - cung cấp quan sát về sự khác nhau giữa các cá thể trong cùng một thời kỳ. Tóm lại, sự thay đổi trong giá trị của các biến trong bộ số liệu mảng được tạo ra từ hai nguồn: sự thay đổi trong nội bộ chính bản thân mỗi cá thể dọc theo thời gian và sự thay đổi giữa các cá thể trong cùng thời kỳ. Các biến số trong tập số liệu mảng có thể gồm các nhóm như sau: Nhóm 1: Các biến số thay đổi theo cả hai chiều như: sản lượng của doanh nghiệp, tiêu dùng cá nhân, v.v. Nhóm 2: Các biến số thay đổi theo chiều ngang nhưng không thay đổi theo chiều dọc như: vị trí địa lý của doanh nghiệp, giới tính của chủ hộ, tôn giáo,.v.v 87 Nhóm 3: Các biến số thay đổi theo chiều dọc nhưng không thay đổi theo chiều ngang như: tỷ giá, lãi suất cơ bản, môi trường kinh tế vĩ mô chung của cả nước,.v.v Do số liệu mảng chứa đựng thông tin hai chiều về sự biến đổi của các biến số, nên nó có những ưu việt sau đây: Thứ nhất, Giải quyết vấn đề về thiếu biến không quan sát được: Để minh hoạ, chúng ta quan tâm đến việc đánh giá tác động của vốn đầu tư lên giá trị gia tăng Va trong bảng 3. Bây giờ chúng ta hãy nhìn vào số liệu vốn đầu tư và giá trị gia tăng Va của mỗi ngành, và thấy rằng tại mỗi ngành, vốn đầu tư tăng kèm theo giá rị gia tăng Va tăng. Hãy đưa ra một giả thiết rất thông thường rằng trong mười một năm 2000-2010 thì lực lượng lao động không đổi. Do đó khi xem xét sự thay đổi trong nội bộ mỗi ngành thì Va không còn chịu tác động của yếu tố lao động nữa mà chỉ còn chịu tác động của vốn đầu tư mà thôi. Nói một cách tổng quát, việc xem xét sự thay đổi trong nội bộ mỗi cá thể cho phép chúng ta bỏ qua tác động của các yếu tố không quan sát được, miễn là các yếu tố này không thay đổi theo thời gian, mà không làm ảnh hưởng tới việc đánh giá tác động của các biến giải thích khác trong mô hình. Điều này là không thể thực hiện được nếu chúng ta chỉ có số liệu chéo. Một cách hoàn toàn tương tự, chúng ta cũng có thể xem xét vấn đề về yếu tố không quan sát được mà nó chỉ thay đổi theo thời gian, ct. Trong nghiên cứu này chúng ta sẽ chỉ quan tâm đến loại hình thứ nhất : khi yếu tố không quan sát được là không thay đổi theo thời gian mà chỉ khác nhau giữa các cá thể. Thứ hai, Đưa ra các phân tích mang tính động, tinh tế : Một ví dụ kinh điển là về tỷ lệ tham gia lao động của phụ nữ. Giả sử số liệu quan sát trong năm 2009 thấy có 20% số phụ nữ ở một địa phương là không tham gia lao động. Khi đó chúng ta không biết được liệu có phải 20% phụ nữ ở vùng này hoàn toàn không bao giờ tham gia vào lực lượng lao động hay hàng năm có 20% phụ nữ thay phiên nhau nghỉ việc. Nếu có số liệu chẳng hạn cho hai năm liên tiếp thì chúng ta hoàn toàn có thể phân biệt được số liệu của chúng ta thuộc vào tình huống nào. Thứ 3, làm giảm nhẹ vấn đề về đa cộng tuyến trong bài toán có trễ phân phối Bài toán có trễ phân phối thường có dạng sau : 0 1 1 .. t t t t k t k t y x x x u             Thông thường, các giá trị nối tiếp nhau của biến số xt thường có quan hệ tương quan rất chặt với nhau. Chẳng hạn trong bài toán thu nhập – chi tiêu thì một người có thu nhập kỳ trước lớn thì thu nhập kỳ sau cũng thường lớn, do đó các giá trị của biến thu nhập có tự tương quan lớn. Và như vậy, trong các bài toán có trễ phân phối thì đa công tuyến thường là một vấn đề khá nghiêm trọng, làm giảm đáng kể tính chính xác của các suy diễn thống kê. Tuy nhiên khi có số liệu mảng thì sự thay đổi theo cả chiều ngang của các biến số thường giúp làm giảm bậc của đa cộng tuyến nói trên, do đó làm tăng độ chính xác của các suy diễn thống kê. Thứ tư, tăng bậc tự do, do đó làm tăng độ chính xác của các suy diễn thống kê: Một vấn đề thực nghiệm khi phân tích kinh tế là vấn đề về kích thước mẫu. Khi số quan sát của một mẫu là quá nhỏ khó có thể đảm bảo được tính đại diện cho tổng thể của mẫu này. Và do đó việc sử dụng các thông tin từ mẫu để đưa ra các suy diễn 88 thống kê về tổng thể là thiếu chính xác. Với số liệu mảng chúng ta thường không phải lo lắng nhiều về kích thước mẫu. Do tính hai chiều của số liệu, chỉ cần một khoảng thời gian không dài cho một tập vừa phải cá thể thì chúng ta đã có một số quan sát khá lớn. Chẳng hạn với số liệu cho 64 tỉnh thành và 5 năm thì đã tạo nên một bộ số liệu với 320 quan sát. Do đó kích thước mẫu lớn thường là một ưu điểm đáng kể của số liệu mảng. Thứ năm, đặc biệt thích hợp cho các nước đang phát triển: Đối với các nước đang phát triển trong đó có Việt Nam thì số liệu thường là một vấn đề khá nghiêm trọng đối với các nhà phân tích. Thông thường chúng ta không có số liệu quá dài trong quá khứ để có thể đủ số quan sát, đảm bảo độ tin cậy của các suy diễn thống kê trong các bài toán phân tích động. Chẳng hạn khi số liệu về đầu tư nước ngoài chỉ có một cách tương đối hệ thống từ cuối những năm 1990. Kể cả khi chúng ta có số liệu đủ dài thì việc sử dụng các mô hình chuỗi thời gian thường phải thận trọng do cấu trúc kinh tế thay đổi khá nhanh. Tuy nhiên với số liệu mảng, chúng ta không cần đến một lượng thời gian quá dài, do đó vẫn đảm bảo được tính ổn định về cấu trúc đồng thời vẫn đảm bảo một số quan sát đủ lớn. 2. MÔ HÌNH TÁC ĐỘNG NGẪU NHIÊN VÀ ƯỚC LƯỢNG Phần này chúng ta sẽ xem xét một mô hình rất thông dụng trong phân tích sử dụng số liệu mảng - mô hình tác động ngẫu nhiên (random effect model). Mô hình này được dùng cho các bài toán có vấn đề về thiếu biến không quan sát được dạng ci, với điều kiện biến này là không tương quan với các biến giải thích khác trong mô hình. 2.1. Mô hình và các giả thiết7 Xét mô hình với số liệu dạng mảng: 1 2 2 .. it it k kit it y X X v       (4.1) Trong đó vit = ci + uit được gọi là sai số tổng hợp. Trước hết chúng ta sẽ giới thiệu các giả thiết của mô hình. Giả thiết RE1 : E(X’v) = 0 Giả thiết RE2: ' 1( )rankE X X k  Trong đó Ω là ma trận hiệp phương sai : Ω = cov (vi, vj). Giả thiết RE3: (a) cov(uit, ujs|Xi ) = 0 với t ≠ s hoặc i≠ j (b) Var(uit|Xi) = 2 u  ;Var(ci|Xi ) = 2 c  , cov( ci, uit) = 0 với mọi i, t Mô hình (4.1) với các giả thiết RE1- RE3 được gọi là mô hình tác động ngẫu nhiên. Ma trận hiệp phương sai của sai số ngẫu nhiên tổng hợp có dạng sau : 2 2 2 2 2 2 2 2 2 2 . . . cov( , ) : . . . . . . c u c c c c u i i c c u TxT v v                        và : 0 . 0 0 . .0 cov( , ) . . . . 0 .0 . it js nTxnT v v               (4.2) (4.2) được xem là ma trận hiệp phương sai đặc trưng cho mô hình tác động ngẫu nhiên. 2.2. Các phương pháp ước lượng mô hình tác động ngẫu nhiên Có nhiều phương pháp để ước lượng mô hình này, trong khuôn khổ của bài báo 89 chúng tôi xin được giới thiệu hai phương pháp sau: Phương pháp ước lượng tác động ngẫu nhiên (GLS) Phương pháp GLS về thực chất là phương pháp bình phương bé nhất tổng quát áp dụng cho (4.1) với cấu trúc ma trận hiệp phương sai dạng (4.2). Do đó công thức cho các ước lượng là : 1 1 1ˆ ˆ ˆ( ' ) ( ' ) RE X X X y      (4.3) Trong đó ˆ là ước lượng của  Phương pháp GLS xem tài liệu [2] Phương pháp ước lượng hiệu ứng ngẫu nhiên hợp lý cực đại (MLE) Phương pháp này là một sự mở rộng trực tiếp của phương pháp ước lượng hợp lý cực đại đã được trình bày trong các tài liệu về mô hình hồi quy thông thường cho mô hình dạng số liệu gộp (4.1), trong đó các tham số ước lượng cần tìm để cực đại hàm hợp lý bao gồm thêm cả 2 2; u c   . Khi số quan sát là lớn (>200) thì ước lượng thu được từ hai phương pháp là rất gần nhau. Phương pháp MLE xem tài liệu [2] 2.3. Ước lượng trong stata Lệnh khai báo: xtset id time Trong đó biến id là biến chỉ cá thể, time là biến chỉ thời gian trong tệp số liệu Câu lệnh thực hiện: xtreg Y X2 Xk, re Trong đó xtreg: khai báo số liệu mảng, Y: biến phụ thuộc, Xi: biến độc lập re ngụ ý mô hình tác động ngẫu nhiên. Nhận xét: Ta thấy hệ số ước lượng của biến đầu tư là dương và có ý nghĩa thống kê. Báo cáo từ Stata cũng cho biết các giá trị ước lượng của u  và c  . Trong bảng 4 các giá trị này tương ứng là 1114680.5 và 3451080.9. Các con số này cho thấy yếu tố không quan sát được ci gây nên sự khác biệt giữa các cá thể mạnh hơn nhiều so với yếu tố ngẫu nhiên. Phương pháp ước lượng phương sai mạnh cho mô hình tác động ngẫu nhiên: Khi giả thiết RE3 bị vi phạm thì chúng ta có thể sử dụng phương pháp ước lượng phương sai mạnh [2], và kết quả thu được cho trong bảng 5 bằng cách gõ lệnh: xtreg Y X2 Xk, re robust Trong đó xtreg: khai báohồi quy tuyến tính với số liệu mảng, Y: biến phụ thuộc, Xi: biến độc lập Re robust: chạy quá trình hiệu chỉnh Ta thu được kết quả như sau8 Chúng ta thấy tất cả thông số trong bảng 4 và bảng 5 đều như nhau, ngoại trừ sai số chuẩn (và các giá trị liên quan, bao gồm các cột từ cột S.E trở đi) là khác nhau. Có sự khác biệt này là do khi tính phương sai của các hệ số ước lượng, phương pháp phương sai mạnh không sử dụng ma trận (4.2). Khi phương sai sai số là không đồng đều thì ước lượng phương sai mạnh là hợp lý. Tuy nhiên khi phương sai sai số là đồng đều thì ước lượng phương sai mạnh là không hiệu quả bằng ước lượng GLS. 90 3. BẢNG PHỤ LỤC Bảng 1. Bảng mã ngành tương ứng Ký hiệu Mã ngành Ngành id = 1 1711 Sản xuất sợi và dệt vải id = 2 1712 Hoàn thiện các sản phẩm dệt id =3 1721 Sản xuất các sản phẩm dệt may sẵn có id = 4 1722 Sản xuất thảm và chăn đệm id = 5 1723 Sản xuất dây bện và lưới id = 6 1729 Sản xuất các hàng dệt khác id = 7 1730 Sản xuất hàng đan móc id = 8 1810 May trang phục trừ quần áo da lông thú id = 9 1820 Thuộc và nhuộm da lông thú, sản xuất các sản phẩm từ lông thú year Thời gian từ 2000 tới 2010 Bảng 2. Cách sắp xếp số liệu mảng trong phần mềm Stata Cá thể Năm Y X2 X3 1 2007 y1 X2,11 X3,11 1 2008 y12 X2,12 X3,12 1 2009 y13 X2,13 X3,13 -- I T yit X2,it X3,it -- 5 2007 y51 X2,51 X3,51 5 2008 y52 X2,52 X3,52 5 2009 y53 X2,53 X3,53 Bảng 3. Trích số liệu mảng về ngành Dệt may (panel.dta) Id year Vondautu laodong Taisan Va 1 2000 653543 79156 15359870 6526556 1 2001 2525746 80050 17386609 7010251 1 2002 2401084 85312 20833236 7676141 1 2003 1578353 89877 21538049 9133104 1 2004 1868260 84554 30050558 10189547 1 2005 2374215 91235 35836248 11253494 1 2006 3252080 68558 31112316 10731196 1 2007 3661273 91388 46034361 16894620 1 2008 10417284 85996 57124484 18284551 91 1 2009 5634574 89696 60161835 22640679 1 2010 16252088 88527 80257565 30886679 2 2000 10782 1220 163732 68053 2 2001 194674 4313 682804 289112 2 2002 267787 4973 1051643 339149 2 2003 291252 7260 1510472 469237 2 2004 167359 9680 1583210 389836 2 2005 229313 10027 1839169 546273 2 2006 311907 10216 3204596 851622 2 2007 380374 11091 2754669 814837 2 2008 437893 12148 3020878 996739 2 2009 382229 14721 4069367 1373503 2 2010 927621 18051 5706000 1799354 Bảng 4. Kết quả ước lượng mô hình tác động ngẫu nhiên Random-effects GLS regression Number of obs = 99 Group Variable: id Number of groups = 9 R-sq: within = 0.6005 Obs per group: min = 11 between = 0.9580 avg = 11.0 overall = 0.7846 max = 11 Random effects u_i ~ Gaussian Wald chi2(1) = 247.87 corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ Va | Coef. Std. Err. z P>|z| [95% Conf. InterVal] -------------+---------------------------------------------------------------- vondautu | 2.750478 .1747001 15.74 0.000 2.408072 3.092883 _cons | 875611.6 579529.5 1.51 0.131 -260245.4 2011469 -------------+---------------------------------------------------------------- sigma_u | 1114680.5 sigma_e | 3451080.9 rho | .0944699 (fraction of Variance due to u_i) ------------------------------------------------------------------------------ Bảng 5. Mô hình tác động ngẫu nhiên với ma trận phương sai mạnh Random-effects GLS regression Number of obs = 99 Group Variable: id Number of groups = 9 R-sq: within = 0.6005 Obs per group: min = 11 between = 0.9580 avg = 11.0 overall = 0.7846 max = 11 Random effects u_i ~ Gaussian Wald chi2(1) = 9.15 corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0025 (Std. Err. adjusted for 9 clusters in id) ------------------------------------------------------------------------------ | Robust Va | Coef. Std. Err. z P>|z| [95% Conf. InterVal] -------------+---------------------------------------------------------------- vondautu | 2.750478 .909056 3.03 0.002 .9687605 4.532195 92 _cons | 875611.6 891421.5 0.98 0.326 -871542.5 2622766 -------------+---------------------------------------------------------------- sigma_u | 1114680.5 sigma_e | 3451080.9 rho | .0944699 (fraction of Variance due to u_i) ------------------------------------------------------------------------------ sigma_u 30.506116 sigma_e 4.8388767 rho .97545723 (fraction of Variance due to u_i) Chú thích: 1 Xem tai liệu[7] 2 Xem tài liệu [2] 3 Tuy các bộ số liệu này về thực chất không phải là bộ số liệu mảng, nhưng có thể tách lọc ra để có được bộ số liệu mảng 4 website: www.pcivietnam.org.vn 5 Xem phần phụ lục về cách sắp xếp số liệu mảng 6 Xem phụ lục bảng 3 7 Xem chi tiết tài liệu [2] 8 Xem phụ lục kết quả theo phương pháp hồi quy mạnh TÀI LIỆU THAM KHẢO 1. Arthur S.Goldberger, Econometric Theory, John Wiley & Sons,Inc 2. Brown, M. B., and A. B. Forsythe. 1974. Robust test for the equality of Variances. Journal of the American Statistical Association 69: 364-367. 3. Damodar N. Gujarati (1995), Basic Econometric, MacGraw-Hill Inc, Third Ed. 4. Nguyễn Khắc Minh (2002), Các phương pháp phân tích và dự báo trong kinh tế, NXB Khoa học và Kỹ thuật Hà Nội. 5. Nguyễn Quang Dong (2008), Bài giảng kinh tế lượng, NXB Giao thông vận tải Hà Nội. 6. Jeffrey M. Wooldridge (2002), Econometric Analysis of Cross Section and Panel Data, The MIT Press Cambridge, Massachusetts London, England 7. Madala, G.S-macmillan (19920), Introduction of Econometrics. 2d ed., New York. 8. Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice–Hall. * Ngày nhận bài: 30/6/2014. Biên tập xong: 30/7/2014. Duyệt đăng: 05/8/2014

Các file đính kèm theo tài liệu này:

  • pdfmo_hinh_phan_tich_so_lieu_mang_thuc_hien_tren_pham_mem_stata.pdf