Lượng tăng hoặc giảm tuyệt đối
Là chỉ tiêu phản ảnh sự thay đổi về trị số tuyệt đối của chỉ tiêu giữa 2 thời gian
nghiên cứu. Tùy theo mục đích nghiên cứu ta có:
5.2.2.1. Lượng tăng (giảm) tuyệt đối từng kỳ (liên hoàn)
Chỉ tiêu này cho thấy lượng tăng (hoặc giảm) tuyệt đối của hiện tượng qua 2 kỳ liền nhau.
Công thức tính: yi yi1
yi : mức độ của kỳ nghiên cứu
yi-1 :mức độ của kỳ đứng liền trước đó.
* Nhận xét:một dãy số thời gian có n mức độ thì chỉ có thể tính được nhiều nhất là (n-
1) lượng tăng (giảm) tuyệt đối từng kỳ.
Từ ví dụ (1) ta có:
5.2.2.2. Lượng tăng (hoặc) giảm tuyệt đối định gốc
Chỉ tiêu này phản ánh lượng tăng (hoặc giảm) của hiện tượng nghiên cứu qua một
thời gian dài.
Công thức tính: y yi y1
yi : mức độ của kỳ nghiên cứu.
y1 : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số).
+ Mối quan hệ giữa y và y
50 trang |
Chia sẻ: hachi492 | Ngày: 15/01/2022 | Lượt xem: 252 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Giáo trình Phân tích dữ liệu và dự báo kinh tế (Phần 2), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
thiết n.
Median (trung vị): là giá trị nằm ở vị trí trung tâm (khác với giá trị trung bình
Mean). Được tính bằng cách:
- Nếu số quan sát n là số lẽ: sắp xếp các giá trị quan sát từ nhỏ đến lớn, giá trị đứng
vị trí chính giữa là số trung vị.
- Nếu số quan sát n là số chẵn: sắp xếp các giá trị quan sát từ nhỏ đến lớn, trung
bình cộng của 2 giá trị đứng ở vị trí chính giữa là số trung vị.
Theo ví dụ trên, ta sắp xếp các quan sát có giá trị từ nhỏ đến lớn: 323, 354, 365,
403, 410, 412.
Median =
365 + 403
2
= 384
Mode (yếu vị): là giá trị xuất hiện nhiều lần nhất. Theo ví dụ trên, ta không có yếu
vị nào cả (#N/A)
Standard Deviation (độ lệch chuẩn): Được xem như là độ lệch trung bình, đại
diện cho các độ lệch (hiệu số) giữa các giá trị quan sát thực và giá trị trung bình (Mean).
Độ lệch chuẩn là đại lượng dùng để đo mức độ phân tán (xa hay gần) của các giá trị quan
sát xung quanh giá trị trung bình. Được tính bằng cách lấy căn bậc hai của phương sai 2
( trung bình của phương các độ lệch: độ lệch âm- negative deviation và độ lệch dương –
positive deviation)
2 = = 36,26
( σ đọc là sagma )
57
Sample Variance (phương sai mẫu): Là trung bình của bình phương các độ lệch.
Giống như độ lệch chuẩn, nó cũng dùng để xem mức độ phân tán các giá trị quan sát thực
xung quanh giá trị trung bình. Được tính bằng cách lấy tổng các bình phương các độ lệch
(tổng các hiệu số giữa giá trị quan sát thực và giá trị trung bình) chia cho số quan sát trừ 1
(n - 1). Theo ví dụ trên ta có:
n
∑ ( X
2 i1
i
X )2
1.314,97
n 1
(
2
đọc là sigma bình phương )
Kurtosis (độ chóp): là hệ số đặc trưng thống kê dùng để đo mức độ “đồng nhất”
của các giá trị quan sát.
- Đường cong rất chóp (very peaked): nhọn đứng, kurtosis > 3. Nếu đường biểu
diễn dưới đây mô tả phân phối các giá trị doanh thu, ta có thể nói rằng đa số các giá trị
doanh thu rất gần với nhau (the same revenue) dù có một số ít mang giá trị rất nhỏ hoặc
rất lớn.
- Đường cong rất bẹt (very flat): phẳng nằm, kurtosis < 3. Nếu đường biểu diễn
dưới đây mô tả phân phối các giá trị doanh thu, ta có thể nói rằng đa số các giá trị doanh
thu được trải đều từ nhỏ đến lớn trong một khoảng rộng hơn.
Theo ví dụ trên, độ chóp bằng: - 1,30
Skewness (độ nghiêng): là hệ số dùng để đo “độ nghiêng” khi phân phối xác suất
không cân xứng theo hình chuông đều.
58
- Nghiêng về trái ta còn gọi là “nghiêng âm” (Skewned to the left), skewness < -1:
nghiêng nhiều, > 0,5: nghiêng ít. Nếu đường biểu diễn dưới đây mô tả phân phối các giá
trị doanh thu, ta có thể nói rằng đa số các giá trị doanh thu gần với doanh thu lớn nhất dù
có một số ít mang giá trị nhỏ hơn hoặc rất nhỏ (ở bên trái).
- Nghiêng về phải ta còn gọi là “nghiêng dương” (Skewned to the right), skewness
> 1: nghiêng nhiều, < 0,5: nghiêng ít. Nếu đường biểu diễn dưới đây mô tả phân phối các
giá trị doanh thu, ta có thể nói rằng đa số các giá trị doanh thu gần với doanh thu nhỏ nhất
dù có một số ít mang giá trị lớn hơn hoặc rất lớn (ở bên phải).
Theo ví dụ trên, độ nghiêng bằng: -0,58.
Range (khoảng) also range width (hay bề rộng của khoảng): là độ dài của khoảng
quan sát (khoảng biến thiên), được tính bằng lấy giá trị quan sát cực đại Max trừ đi giá trị
quan sát cực tiểu Min.
Range = Max - Min = 412 - 323 = 89
Minimum (giá trị quan sát cực tiểu): giá trị nhỏ nhất trong các quan sát.
Min = 323
Maximum (giá trị quan sát cực đại): giá trị lớn nhất trong các quan sát.
Max = 412
Sum (tổng cộng giá trị của các quan sát): là tổng cộng tất cả các giá trị của tất cả
các quan sát trong tập dữ liệu.
Theo ví dụ trên, ta có:
59
S u m
n
∑ X
i 1 i
2 .2 6 7
Count (số quan sát): là số đếm của số lần quan sát (n). Theo tập dữ liệu ở ví dụ
trên, ta có: n = 6
3.2. Phương pháp hồi quy bội:
Còn gọi là phương pháp hồi quy đa biến, dùng phân tích mối quan hệ giữa nhiều
biến số độc lập (tức biến giải thích hay biến nguyên nhân) ảnh hưởng đến 1 biến phụ
thuộc (tức biến phân tích hay biến kết quả).
Trong thực tế, có rất nhiều bài toán kinh tế - cả lĩnh vực kinh doanh và kinh tế
học, phải cần đến phương pháp hồi quy đa biến. Chẳng hạn như phân tích những nhân
tố ảnh hưởng đến thu nhập quốc dân, sự biến động của tỷ giá ngoại hối; xét doanh thu
trong trường hợp có nhiều mặt hàng; phân tích tổng chi phí với nhiều nhân tố tác động;
phân tích giá thành chi tiết; những nguyên nhân ảnh hưởng đến khối lượng tiêu thụ
Một chỉ tiêu kinh tế chịu sự tác động cùng lúc của rất nhiều nhân tố thuận chiều
hoặc trái chiều nhau. Chẳng hạn như doanh thu lệ thuộc và giá cả, thu nhập bình quân
xã hội, lãi suất tiền gửi, mùa vụ, thời tiết, quảng cáo tiếp thị Mặt khác, giữa những
nhân tố lại cũng có sự tương quan tuyến tính nội tại với nhau. Phân tích hồi quy giúp ta
vừa kiểm định lại giả thiết về những nhân tố tác động và mức độ ảnh hưởng, vừa định
lượng được các quan hệ kinh tế giữa chúng. Từ đó, làm nền tảng cho phân tích dự báo
và có những quyết sách phù hợp, hiệu quả, thúc đẩy tăng trưởng.
Phương trình hồi quy đa biến dưới dạng tuyến tính:
Y = b0 + b1X1 + b2X2 + + biXi + bnXn + e (3.2)
Trong đó: Y: biến số phụ thuộc (kết quả phân tích);
b0: tung độ gốc;
b1: các độ dốc của phương trình theo các biến
Xi; Xi: các biến số (các nhân tố ảnh hưởng);
e: các sai số
Lưu ý: Y trong phương trình trên được biểu hiện là Y ước lượng, người ta thường
viết dưới hình thức có nón ( Y□ )
60
i
∑
2
Mục tiêu của phương pháp hồi quy đa biến là dựa vào dữ liệu lịch sử các biến số
Yi, Xi, dùng thuật toán để đi tìm các thông số b0 và bi xây dựng phương trình hồi quy
để dự báo cho ước lượng trung bình của biến Yi.
3.3. Phương pháp thống kê hồi quy
Còn gọi là thống kê hồi quy đơn giản (simple regression statistical) dùng phương
pháp thống kê toán để tính các hệ số a, b của phương trình hồi quy dựa trên toàn bộ quan
sát của tập dữ liệu. Đây là phương pháp đáng tin cậy nhất và vì vậy đòi hỏi công phu hơn.
Vẫn dùng số liệu ở ví dụ trên, lập bảng tính các trị số cơ sở rồi căn cứ vào công
thức để tính các thông số của phương trình.
Ta có công thức trong thống kê toán a = - b
n
∑ ( X
X )(Y
Y )
i1 i i
b
n 2
Chứng minh công thức
∑ ( X
i1 i X )
Công thức trên được chứng minh từ phương pháp hồi quy các bình phương tối
thiểu của các hiệu số (độ lệch : Deviation) giữa các giá trị quan sát và giá trị ước lượng của
biến số phụ thuộc ( Y□ = a +bXi)
Với phương pháp tổng các bình phương tối thiểu, gọi
lệch, ta có:
e$
2
là bình phương các độ
= = (3.3)
Min (3.4)
Giải hệ phương trình vi phân để tìm giá trị các thông số.
Lấy đạo hàm riêng phần theo a và cho bằng 0:
n
a
i1
Yi a bXi 0 (3.5)
Lấy đạo hàm riêng phần theo a và cho bằng 0:
61
∑
2
n
b
i1
Yi a bXi 0 (3.6)
Lấy đạo hàm rồi cùng chia cho -2 ( hay nhân với ½) ta có hệ phương trình chuẩn
với n quan sát:
∑ XY a∑ X b∑ X
2
∑Y na b∑ X
(3.7)
(3.8)
Dùng phương pháp khử, giải hệ phương trình có 2 ẩn số, ta lần lược có được giá trị
các thông số a, b như các công thức (1.3) và (1.4) nên trên.
Dễ dàng thấy được ý nghĩa các độ lệch tối thiểu qua đồ thị sau:
Y
Yi
^
Độ lệch (deviation): Yi- Y
^
Y
Đường hồi quy bình quân tối thiểu.
Y a bX
0
Xi X
Đồ thị 3.2.Độ lệch của các trị quan sát so với giá trị ước lượng
Giải thích đồ thị:
Đường hồi quy Y =a+ bX là đường ước lượng tốt nhất, chứa các giá trị ước lượng
của Y mà độ lệch trung bình giữa chúng và giá trị quan sát thực là nhỏ nhất (tối thiểu).
Các độ lệch nằm phía trên đường ước lượng nhìn từ gốc của trục toạ độ, gọi
là độ lệch dương (Positive deviation); các độ lệch nằm phía dưới đường ước lượng nhìn từ
gốc của trục toạ độ, gọi là độ lệch âm (Negative deviation).
Tại sao là bình phương tối thiểu?
Mục đích cuối cùng của phương pháp hồi quy là dùng để giải thích hoặc dự báo
một đối tượng cần nghiên cứu. Cụ thể là đi tìm giá trị các thông số a, b để xây dựng
phương trình hồi quy tuyến tính (đường thẳng) có dạng tổng quát:
62
Y□ =a+ bX.
Mỗi giá trị ước lượng (ước lượng điểm) là giá trị ước lượng trung bình điểm
của biến kết quả Yi. Khả năng chỉ có thể xảy ra các giá trị trong một “khoảng
ước lượng” với một “độ tin cậy” nhất định mà thôi. Vì xác suất để giá trị thực Yi bằng với
giá trị ước lượng điểm i Y□ là bằng 0, hay nói cách khác là rất khó có khả năng xảy ra.
Ý nghĩa của phương pháp bình phương tối thiểu là làm sao cho độ lệch trung bình
^
giữa Y□ và Yi nhỏ nhất ( Yi- Y ) 0
Trong đó, Yi là các giá trị quan sát thực và
trị trung bình) của Yi.
Y□ =a+ bX là các giá trị ước lượng (giá
Khi ấy, giá trị ước lượng “gần với” giá trị quan sát thực và phương trình hồi quy
dùng để dự báo sẽ trở nên khả thi, thích hợp nhất và chính xác nhất trong điều kiện có thể.
N
Xi
Yi
Xi
2
Yi
2
Xi Yi
X i X
Yi Y
Xi X
Yi Y
2
Xi X
2
Yi Y
1 1.510 323 2.280.100 104.329 487.730 -372 -55 20.398 138.384 3.007
2 1.820 365 3.312.400 133.225 664.300 -62 -13 796 3.844 165
3 2.104 412 4.426.816 169.744 866.848 222 34 7.585 49.284 1.167
4 2.087 410 4.355.569 168.100 855.670 205 32 6.594 42.025 1.035
5 1.750 354 3.062.500 125.316 619.500 -132 -24 3.146 17.424 568
6 2.021 403 4.084.441 162.409 814.463 139 25 3.498 19.321 633
∑
11.292
2.267
21.521.826
863.123
4.308.511
0
0
42.017
270.282
6.575
Bảng 3.3. Các trị số cơ sở thống kê
Y
2.267
6
377, 83 378
63
270.282 ( 6.575)
∑ ( X X ) Y Y
Trước hết, xét mức độ tương quan (correlation) giữa biến số phụ thuộc và biến số
độc lập bằng công thức:
n 2
i1 i i
R
R = +1: tương quan hoàn toàn và đồng biến;
R = -1: tương quan hoàn toàn và nghịch biến;
R
= càng gần 1:tương quan càng mạnh (0,8<
R
<1);
R
= từ 0,4 đến 0,8: tương quan trung bình;
R
= nhỏ hơn 0,4: tương quan yếu;
42.017
R
0.993
Ý nghĩa của độ tương quan nói lên cường độ của mối quan hệ tuyến tính của hai
biến X và Y.
Trở lại, thay các giá trị đã tính ở bảng 3.7 vào công thức (3.3) và (3.4) ở trên, ta có:
n 2 2 ∑ ( X X ) (Y Y ) 42.017
i1 i i
b
n 2
0.115
∑ ( X
i1 i
X ) 270.282
a Y bX 377.83 (0.115x1882) 86,12
Vậy phương trình hồi quy có dạng Y = a + bX sẽ là:
Y = 86,12 + 0,155X
i1
∑ ( X
n 2 n
X ) ∑ (Y Y )
i1
64
* Tính trên phần mềm Microsoft Excel:
Có 2 cách thực hiện trên Excel:
Cách 1: dùng hàm Fx: Paste function
Tìm trị số b (slope), sử dụng lệnh: Insert / Fx / Statistical (select a category: chọn
loại hàm) / slope (select a function: lựa chọn tên hàm) / OK / quét đánh dấu khối cột dữ
liệu Y và cột dữ liệu X / OK.
Tìm trị số a (intercept), sử dụng lệnh giống như tìm trị số a, chỉ thay đổi bằng tên
hàng Slope bằng tên hàm Intercept (function name)
Tìm trị số R (correlation), dùng lệnh: Insert / Fx / Statistical (select a category:
lựa chọn loại hàm) / Correl (select a function: lựa chọn tên hàm) / OK / quét đánh dấu
khối cột dữ liệu X và cột dữ liệu Y / OK.
Cách 2: Dùng Regression (thường dùng để chạy hồi quy đa biến) Khi thao tác
trên Microsoft Excel, ta sử dụng lệnh: Tools / Data Analysis / Regression / OK.
Trong phần Input (nhập đầu vào):
Nhập dữ liệu Y vào ô: Input Y Range;
Nhập dữ liệu X vào ô: Input X Range;
Trong phần Output options (vị trí đầu ra) có 2 lựa chọn:
Chọn sheet mới: dùng New worksheet ply;
Chọn sheet hiện hành: dùng Output Range.
Chương trình Microsoft Excel sẽ cho bảng kết quả sau
65
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.996722138
R Square
0.993455021
Adjusted R
Square
0.991818777
Standard Error
3.27994452
Observations
6
ANOVA
df SS MS F
Significance
F
Regression 1 6531.801 6531.801 607.1555 1.6099E-05
Residual 4 43.03214 10.75804
Total 5 6574.833
Coefficients
Standard Error
t Stat
P-value
Lower 95%
Upper 95%
Lower 95.0%
Upper
95.0%
Intercept
85.26485301
11.94873
7.135891
0.00204
52.08985086
118.4399
52.08985
118.4399
X Variable 1
155.4561532
6.308962
24.64053
1.61E-05
137.9396656
172.9726
137.9397
172.9726
Bảng 3.4. Kết quả hồi quy đơn biến, cho bởi Microsoft Excel.
Giải thích bảng 3.4:
· Multiple R = 0,9967 là độ tương quan giữa Y và X (tương quan mạnh);
· R square (R2) = 0,9935: là hệ số xác định (determination), biểu hiện khả năng
giải thích của các biến độc lập X đến biến phụ thuộc Y (khả năng giải thích cao);
66
· Đọc trị số a, b ở cột Coefficients - các hệ số: Intercept - tung độ gốc
(a=85,265); X Varible 1 - độ dốc với biến độc lập X (b = 0,155)
· Trị số thống kê t-stat: 7,136 và 24,641 > 1,96, thể hiện sự “có ý nghĩa về mặt
thống kê” ở mức ý nghĩa 5% trong khoảng: cận trên -Upper, cận dưới - Lower. Cận trên
và cận dưới của Intercept là (118,44 ; 52,09) và của Slope là (0,17 ; 0,14).
· Một số chỉ tiêu dùng để kiểm định, như ANOVA trong bảng kết quả hồi quy
không đề cập hết trong phạm vi môn học này.
67
Chương 4: PHƯƠNG PHÁP BOX - JENKINS (ARIMA)
4.1. Tính ổn định của một chuỗi
Trước khi xử lý một chuỗi thời gian nghiền cứu các tính ngẫu nhiên của nó là bước
cần thiết cho phép ta đánh giá một cách tổng quát về số liệu nghiên cứu. Nếu kỳ vọng toán
vô phương sai của nó thay đổi theo thời gian, chuỗi được xem như là không ổn định. Trong
trường hợp ngược lại ta nói chuỗi ổn định. Xét chuỗi yt, về mặt toán học một chuỗi ổn định
phải thỏa các điều kiện sau:
E(yt) = E(yt+m) = cte yk và m
Var(yt) < rk
Cov(yt ;yt+k) = E ((yt - )( yt+k- ) = =hằng số
Với tính chất như vậy ta có thể thấy một nhiễu trắng (giới thiệu sau) là một chuỗi ổn
định vì nó thỏa mãn tính chất nêu trên. Một chuỗi thời gian là ổn định khi nó là đại diện của
một quá trình nghiên cứu ổn định. Nói một cách cụ thể hơn đó là chuối không có tính xu thế,
không có tính chu kỳ
4.2. Hàm số tự tương quan đơn và tự tương quan riêng phần
Hệ số tương quan riêng phần là hệ số dùng để đánh giá quan hệ giữa hai biến khi
ảnh hưởng của biến thứ ba được loại trừ
Hàm số tự tương quan
□p
k nhằm xác định sự tương quan của chuỗi và chính nó nhưng lệch
đi một chu kỳ k bất kỳ (xem bảng sau). Công thức xác định hàm số tương quan
□p
k như sau:
Tính chất:
□p 0 =1 và □p k = □p -k
Bảng sau đây giới thiệu cách tính hàm tự tương quan
Khảo sát chuỗi quan trắc yt. Các chuỗi lệch yt-k tương ứng cũng được giới thiệu:
68
k 0 1 2 3 4
t
1
yt
123
yt-1 yt yt yt-2
2 130 123
3 125 130 123
4 138 125 130 123
5 145 138 125 130 123
6 142 145 138 125 130
7 141 142 145 138 125
8 146 141 142 145 138
9 147 146 141 142 145
10 157 147 146 141 142
11 150 157 147 146 141
12 145 150 157 147 146
Bảng 4.1. Xác định các chuỗi lệch yt-k
Kết quả tính giá trị trung bình vô phương sai của các chuỗi và hàm số tự tương quan
k được trình bày trong bảng sau:
Trung bình yt 140.7 142.3 143.6 145.6 146.6
Trung bình yt-k 140.7 140.3 139.4 137.4 136.2
Phương sai yt 95 72.4 62.8 27.1 22.2
Phương sai yt-k 95 101.8 101.8 74.9 71.4
□p k 1 0.77 0.62 0.59 0.55
Bảng 4.2
Với định nghĩa của hàm số tự tương quan trên ta thấy không tiện lợi trong việc tính
toán vì nó đòi hỏi phải lùi lại khi tính mỗi số hạng rk Do đó trong thực tế áp dụng ta thường
tính hàm tự tương quan cho mẫu bằng một công thức đơn giản hơn như sau:
với giá trị trung bình của chuỗi tính trên n chu kỳ.
Khi số lượng quan trắc đủ lớn, hai cách tính giá trị hàm tự tương quan trên cho kết
quả rất gần nhau ( □p k ~ □p -k ) Hàm số tự tương quan riêng phần bắt nguồn từ khái niệm
69
tương quan riêng phần. Với khái niệm này cho phép ta đánh giá, ví dụ, ảnh hưởng của x1 lên
x2 trong bối cảnh loại hết các ảnh hưởng của các biến khác x3 x4xk
Tương tự như vậy ta định nghĩa hàm tự tương quan riêng phần có mức độ trễ k như là
hệ số tương quan riêng phần giữa yt và yt-k; có nghĩa là trong đó các ảnh hưởng của các biến
yt-l, yt-2 yk+l được loại bỏ .
4.3. Kiểm định nhiếu trắng
4.3.1. Phân tích hàm tự tương quan
Mục đích của phân tích hàm tự tương quan nhằm xác định khả năng có tính tự tương
quan trong chuỗi khảo sát (thường là chuỗi sai số) hay không. Khi chúng ta phân tích hàm tự
tương quan của một chuỗi thời gian, một câu hỏi luôn luôn đặt ra là các hệ số
□p k nào khác 0. Thật vậy, nếu ta hoàn toàn không có giá trị nào của □p k khác 0 ta nói
quá trình nghiên cứu không có >. Nó hoàn toàn không có tính xu thế cũng như
không có tính chu kỳ. Ví dụ trong trường hợp nếu chuỗi có tính chu kỳ theo tháng ta sẽ thấy
giá trị của □p 12 sẽ lớn (tương quan giữa yt và yt-12) Chuỗi chắc chắncó tính chu kỳ. Kiểm định
cho □p k có giá trị khác 0 được thực hiện dựa vâo nguyên tắc kiểm định giả thiết như sau:
H0: □p k = 0
H1: □p k 0
Trong thực hành, tác giả Quenouille đã chứng minh được rằng với một mẫu có kích
thước tương đối lớn, hệ số □p k tiến một cách tiệm cận về một phân phối chuẩn có giá trị
trung bình bằng 0 và độ lệch chuẩn là
Khoảng tin cậy của hệ số □p knhư sau:
với n là số lượng quan trắc.
Nếu hệ số □p k tính được nằm ngoài khoảng trên ta kết luận □p k khác 0 với rủi ro %
(thường ta lấy =5%).
4.3.2. Tham số thống kê của Box-Pierce và Ljung-box
Kiểm định của Box-pierce cho phép nhận biết đó là nhiễu trắng hay không. Chúng ta
phải kiểm định Cov(yt,yt-k)=o Và □p k=0 với . Một quá trình nhiễu trắng bắt buộc phải có:
□p 1= □p 2= □p 3 h chúng ta có thể kiểm định riêng lẻ các giá trị của p, tuy nhiên thường ta
hay sử dụng giá trị thống kê Q định nghĩa bởi Box-Pierce như sau: Q=n với h số lượng của
70
sự trễ, □p k giá tri tự tương quan kinh nghiệm bậc k và n chỉ số quan trắc.Giá trị thống kê Q
tuân theo gần như một phân phối c2 có bậc tự do h. Với mức độ rủi ro a% và bậc tự do h ta
có giá trị co cho từ bảng tra. Nếu c2 >c2 a sẽ .chấp nhận giả thiết H1: đó không phải là một
nhiễu trắng. Và ngược lại ta sẽ kết luận đó là một nhiễu trắng.
Đồ thị sau đây cho ta thấy biến đổi của một nhiễu trắng. H.4.1
71
Biểu đồ tương quan đơn và biểu đồ tương quan riêng phần tương ứng của chuỗi này
như sau:
Hình 4.2
Trong thực hành để khảo sát đó là một nhiễu trắng hay không ta sẽ sử dụng các kiểm
định Bartleu vâ Quenouille. Kiểm định liên quan đến độ lớn của các giá trị hệ số tương quan
và tương quan riêng phần.
Khi ta thấy cường độ của nhiễu toàn bộ nằm trong giới hạn cho phép, ta kết luận đó là
một nhiễu trắng. Đối với trường hợp hình trên, ta nhận thấy ở kiểm định Quenouílle còn có
giá trị vượt quá giới hạn, đây chưa phải là một nhiễu trắng hoàn toàn.
4.4. Mô hình AR(P) (Auto Regression)
Trong một quá trình tự hồi quy bậc p, số liệu quan trắc tại thời điểm hiện tại yt được
tạo ra bởi một tổng trung bình có trọng số của các giá trị quan trắc trong quá khứ tính cho
đến giá trị quan trắc quá khứ thứ p Công thức định nghĩa như sau:
AR(1): yt = q1*yt-l + et
AR(2): yt = q1*yt-l +q2*yt-2 + et
AR(P): yt = q1*yt-l +q2*yt-2 + +qp*yt-p +et
72
Trong đó q1; q2; ; qp là các thông số cần phải xác định. et là một nhiễu trắng ngẫu
nhiên có dạng Gaussien. Chúng ta cũng có thể thêm vào quá trình này một hằng số mà nó
vẫn không ảnh hường đến ưnh chất ngẫu nhiên của chuỗi. Phương trình trên có thể viết dưới
dạng đơn giản hơn nhờ vào định nghĩa toán tử lệch pha D như sau:
( 1- q1*D - q2D2 - . . .- qpDp)*yt = et
Tính chất:
- Người ta đã chứng minh biểu đồ tương quan đơn của một quá trình AR(P) được mô
tả bởi một cấp số nhân có công bội nhô hơn 1 (chuỗi giảm) có dạng:
□p k = □p -k
- Biểu đồ tương quan riêng phần chi có p số hạng đầu tiên là khác 0.
Các ví dụ sau đây cho phép chúng ta nhận biết mô hình dạng AR dựa trên phân tích
biểu đồ tương quan đơn vâ tương quan riêng phần. Xét một mô hình AR(L) có dạng:
yt = 1 + 0 9*yt-l+ et
với et là giá trị thặng dư.
Các biểu đồ tương quan của mô hình trên có dạng sau:
Hình 4.3
73
Ta thấy giá trị đầu tiên của biểu đồ tương quan riêng phần rất lôn so với các giá trị
còn lại và biểu đồ tương quan đơn có giá trị giảm đần. Đó là biểu thị đặc thù cho phép chúng
ta nhận dạng đó là một mô hình AR(L).
Xét một mô hình AR(2) có dạng:
yt = 0 9*yt-2+1+ et
Các biểu đồ tương quan của mô hình trên có dạng sau:
Hình 4.4
So với trường hợp trước ta thấy có sự khác nhau. Thay vì giá trị thứ 1 như ví dụ
trước, trường hợp này ta thấy giá trị thứ 2 trong biểu đồ tương quan riêng phần lớn trồi hơn
hẳn so với các giá trị còn lại. Trong khi đó tính chất của biểu đồ tương quan đơn cũng giống
như trước. Điều này cho phép ta biết đây là một mô hình AR(2). Ta cũng lưu ý thêm với số
hạng AR(1) là không đáng kể.
4.5. Mô hình MA(q) (Moving Average)
Trong một quá trình trung bình động bậc q, số liệu quan trắc tại thời điểm hiện tại yt
được tính bởi tổng trung bình có trọng số giá trị của các nhiễu ngẫu nhiên cho đến nhiễu thứ
q. Công thức định nghĩa như sau: .
74
MA(1): yt = et - a1*et-1
MA(2): yt = et - a1*et-1- a2*et-2
MA(q): yt = et - a1*et-1- a2*et-2-- aq*et-q
Trong đó a1, a3, , ap là các thông số cần phải xác định et là một nhiễu trắng ngẫu nhiên
có dạng Gaussien. Phương trình trên có thể viết dưới dạng đơn giản hơn nhờ vào định nghĩa
một toán tử lệch pha D như sau:
(l -a1D- a2D2 -...- apDp) et = yt
Trong quá trình dạng nây cũng như tất cả các mô hình tự hồi quy các nhiễu ngẫu
nhiên được giả thiết là được tạo ra bởi một > Chúng ta có thể hiểu quá trình
trung bình động là một chuỗi thời gian dao động ngẫu nhiên chung quanh giá trị trung
bình của chúng.
Tính chất:
- Chuỗi trung bình động bậc 1 chính là một quá trình tự hồi quy bậc p vô hạn.
- Biểu đồ tương quan đơn của một quá trình trung bình động bậc q, MA(q), được xác
định bởi:
□p k = khi
□p k = 0 khi k>q
Điều này có nghĩa là chỉ có q số hạng đầu tiên của biểu đồ tương quan là khác 0. Đối
với biểu đồ tương quan riêng phần sẽ được mô tả bởi một chuỗi cấp số giảm theo hướng các
chậm pha trong quá khứ. Các ví dụ sau đây cho phép chúng ta nhận biết theo kinh nghiệm,
hình dạng MA dựa trên cơ sở phân tích biểu đồ tương quan đơn và tương quan riêng phần.
Xét một mô hình MA(L) có dạng:
yt = 5 + et + 0.9*et-1
với et là giá trị thặng dư ở thời điểm t
75
Hình 4.5
Các biểu đồ tương quan của mô hình trên có dạng sau:
Ta thấy giá trị đầu tiên của biểu đồ tương quan đơn vượt trội so với các giá trị còn
lại và biểu đồ tương quan riêng phần giảm dần dần. Đó là dạng đặc thù của một mô hình MA
có bậc là 1.
Xét trường hợp cho một mô hình MA(2) có dạng:
yl = 5 +et + 1 . 1 et-2
Các biểu đồ tương quan của mô hình trên có dạng sau:
Trong trường hợp này, thay vì giá trị đầu tiên trên biểu đồ tương quan có giá trị lớn
trội như trước, ta thấy giá trị thứ 2 trên biểu đồ này lớn trội hơn so với các giá trị còn lại và
giá trị của biểu đồ tương quan riêng phần giảm dần dần; đó là biểu thị đặc thù của một mô
hình MA(2).
4.6. Mô hình ARMA(p,q)
Mô hình ARMA(p,q) là một quá trình được tạo ra bởi từ tổ hợp giữa các giá trị của
chuỗi trong quá khứ và các giá trị của nhiễu trong quá khứ. Nó được xác định bởi phương
trình sau đây:
76
Ta có thể nói đây là một mô hình có được từ sự tổng hợp của 2 loại mô hình AR và MA.
Tính chất:
ARMA( 1 ,0)=AR( 1 ) ; ARMA(0, 1 )=MA( 1 )
Ta chú ý trong trường hợp này, biểu đồ tương quan đơn và biểu đồ tương quan riêng
phần sẽ phức tạp hơn so với 2 trường hợp trên. Do vậy chúng ta phải lưu ý khi xác định các
thông số p,q của mô hình ARMA từ các biểu đồ này.
Ví dụ 5
Xét mô hình ARMA(L,l) sau đây:
y = 5 + 0.8yt-l + 1 . l
Các biểu đồ tương quan của mô hình trên có dạng sau:
Hình 4.6
Với biểu đồ trên ta thấy đây là một sự pha lẫn giữa hai loại mô hình AR và MA. Ta
thấy đều có giá trị đầu tiên vượt trội trong các biểu đồ tương quan. Cường độ trong các biểu
đồ cũng tắt dần.
Dự đoán bậc của mô hình đòi hỏi phải có một kinh nghiệm nhất định.
77
4.7. Mô hình ARMA mở rộng: ARIMA, SARIMA
Trong trường hợp chuỗi quan trắc có xu thế không ổn định (có xu thế tăng hoặc giảm
theo thời gian), ta định nghĩa một mô hình có dạng ARMA(p,d,q) với d là bậc của đường xu
thế. Nói một cách khác đi, d biểu thị cho số lần lấy cần thiết lên chuỗi quan trắc
để ta có thể nhận được một chuỗi nghiên cứu có tính ổn định theo xu thế. Ví dụ trong trường
hợp chuỗi có xu thế tuyến tính ta có d=l; trong trường hợp đường xu thế là một hàm bậc 2 ta
có d=2.
Thật vậy giả sừ chuỗi có một xu thế tuyến tính biểu thị bởi phương trình sau đây:
y =a+bt
Định nghĩa sai biệt bậc 1 Dyt ta có:
Dyt =yt-yt-1 =(a+bt)-(a+b[t—1])=b=cte
Ta thấy chuỗi sai biệt bậc 1 có xu thế ổn định.
Trong trường hợp có xu thế bậc 2 phương trình có dạng:
yt =a+bt+ct2
Tính sai biệt bậc 1 ta có:
Dyt =yt-yt-1 = (a+bt+ct2)-(a+b[t-l]+c*[t-1]2)=b-c+2tc
Ta thấy chuỗi Dyt có xu thế bậc 1 . Để có xu thế ổn định ta chỉ cần tính thêm một lần
nữa cho sự khác biệt như trường hợp ta đã có trong trường hợp xu thế là tuyến tính ở trên.
Như vậy ta có hai lần lấy sai biệt cho trường hợp bậc 2 này để chuỗi quan trắc trở nên
ổn định về xu thế. Tóm lại ta có thể viết chuỗi (l-D)d *yt là một ARMA(p,q) khi yt lâ một
ARIMA(p,d,q); với D được định nghĩa là toán tử sai biệt:
D(yt)=yt- yt-l
Mô hình SARIMA cho phép giải quyết vấn đề sai biệt liên quan đến biến đổi mùa. Sự
biến đổi được định nghĩa như sau:
(1 - Ds)*yt = yt - yt-s
với s biểu thị tính chu kỳ của số liệu (s=4 cho một chuỗi biến đổi theo quý, s=12 cho
chuỗi biến đổi theo tháng).
Chú ý: Chúng ta chi áp dụng mô hình ARMA để nghiên cưu cho các chuổi không có
xu thế.
78
4.8. Phương pháp Box - Jenkins
Dưới đây nghiên cứu một cách có hệ thống các dạng khác nhau của chuỗi thời gian
dựa vào các tính chất của nó. Mục tiêu là tìm trong số tất cả các mô hình ARIMA (AR: tự
hồi quy, MA: trung bình động, I: thông số cho biết bậc cần thiết để có thể tạo một chuỗi ổn
định) 1 mô hình thích hợp nhất với số liệu của hiện tượng nghiên cứu.
Phương pháp bao gồm 3 bước chính sau đây:
Bước 1: Tìm các mô hình thích hợp nhất
Đây là bước quan trọng và khó nhất. Nó cho phép nhận biết được trong họ tất cả các
mô hình ARLMA mô hình nào là có khả năng thích hợp nhất. Phương pháp dựa vào nghiên
cứu các biểu đồ tương quan đơn và các biểu đồ tương quan riêng phần. Một vài nguyên tắc
sau đây cho phép tìm các thông số p,d,q của mô hình ARIMA.
* Khử tính chu kỳ
Để đơn giản trong trường hợp chuỗi nghiên cứu có chứa yếu tố biến đổi có tính chu
kỳ ta nên > yếu tố này trước khi đi vào các xử lý thống kê nhằm đơn giản hóa cho
các bước tính sau.
* Khảo sát và xác định bậc của xu thế nếu có
Trong trường hợp biểu đồ tương quan đơn giảm chậm hoặc hoàn toàn không giảm,
chuỗi có chứa một xu thế. Trong trường hợp này ta sẽ loại tính xu thế nó nhờ vào áp dụng
của toán tử sai biệt lên chuỗi. Trong thực tế ta có thể gặp trường hợp d=l hoặc 2. Giá trị
thích hợp của d sẽ cho ta một biểu đồ tương quan đơn có xu thế giảm nhanh.
* Xác định p,q của mô hình ARMA nhờ vào biểu đổ tương quan
- Nếu biểu đồ tương quan đơn chỉ có q giá trị đầu tiên là khác 0 (q=3 là lớn nhất) và
các giá trị của biểu đồ tương quan riêng phần giảm từ từ ta có thể tiên đoán có một MA(q).
- Nếu biểu đồ tương quan riêng phần chỉ có p giá trị đầu tiên là khác 0 (p=3 là lớn
nhất) và các giá trị của biểu đồ tương quan đớn giảm từ từ ta có thể tiên đoán có một AR(P).
- Nếu biểu đồ tương quan đơn và biểu đồ tương quan riêng phần không có sự cắt ngắn
như hai trường hợp trên, ta sẽ có một quá trình ARMA và các thông số của nó tùy thuộc vào
dạng cụ thể của cấc biểu đồ tương quan.
Trong thực hành, phương pháp phân tích đồ thị chỉ cho ta tìm được p q trong các
trường hợp đơn giản mà thôi. Trong trường hợp tổng quát, ta có thể áp dụng các tiêu chuẩn
sau đây để xác định các thông số p, q trong một mô hình ARMA. Thực chất chung của các
tiêu chuẩn này là dựa vào sự khảo sát các giá trị liên quan đến phương sai của chuỗi sai số
cho bởi mô hình với thông số đề nghị.
79
Có 3 tiêu chuẩn thông dụng được sử dụng như sau:
Tiêu chuẩn Akaike:
Akaike = Log(%rss) + 2
Tiêu chuẩn BIC:
BIC = Log(%rss) + (p + q) *
Tiêu chuẩn HQ:
HQ = Log(%rss) + 2(p + q) *
270
với: %rss : tổng các thặng dư bình phương của mô hình đề nghị
%nobs : số lượng quan trắc.
Trong trường hợp lý tưởng, giá trị chọn của p,q tương ứng với trường hợp cho ta các
giá trị Akaike, BIC, HQ cực tiểu. Trong áp dụng ta có thể có trường hợp ở đó giá trị p,q đề
nghị không làm cho 3 tiêu chuẩn này đồng thời cực tiểu. Tuy vậy thường các tiêu chuẩn này
cho giá trị p,q tối ưu không khác nhau lớn. Trong trường hợp này ta sẽ khảo sát từng tổ hợp
(p,q) cụ thể để quyết định chọn mô hình hợp lý nhất.
Bước 2: Ước lượng các hệ số của mô hình
Trong trường hợp mô hình AR(P), tác giả áp dụng phương pháp bình phương tối
thiểu hay sử dụng quan hệ giữa tính tự tương quan và các hệ số của mô hình (phương trình
Yule Walker). ước lượng các hệ số cho mô hình MA(Q) tương đối phức tạp hơn. Các tác giả
đề nghị sử dụng một phương pháp lặp dưới dạng quét mà chúng ta có thể hiểu một cách đơn
giản như sau.
Giả sử ta có 1 mô hình ARMA(2,2) xác định bởi:
(l-q1D-q2D2)yt = (l-aD1-a2D2)*et
và Chúng ta có thể viết dưới dạng:
yt =
Ta đặt:
80
Do đó:
Từ đó chúng ta có thể khởi đầu bằng cách tính quét với 2 khoảng giá trị chấp nhận
được cho a1 và a2 và với một gia số cho trước. Tiếp theo, cho mỗi cặp giá trị của a1 và a2 ta
đặt no = o Và n1 =o và Chúng ta sẽ ước lượng giá trị của vl theo các bước sau:
n2 = y2
n3 = y3 + a2 n2
n4 = y4 + a1 n1+a2 n2
etc....
sau khi tính tất cả các giá trị của nt ta sẽ ước lượng các thông số q1 Và q2 bởi phương
pháp bình phương tối thiểu áp dụng vào phương trình sau:
nt = q1nt-1 + q2nt-2 + et
và chúng ta sẽ lấy giá trị al, a2 sao cho các tổng bình phương của các thặng dư từ
phương trình hồi quy trên tối thiểu. Chú ý phương pháp này chỉ có giá trị trong trường hợp
số lượng các thông số cần xác định không nhiều lắm. Ngoài phương pháp bình phương tối
thiểu ta còn có thể áp dụng phương pháp cực đại hóa các hàm tương thích.
Bước 3: Kiểm tra giá trị của mô hình và dự báo
Sau khi các thông số của mô hình được xác định, chúng ta sẽ kiểm định các kết quả
của ước lượng này.
Các hệ số của mô hình phải khác 0 (kiểm định Student cổ điển).
Nếu có một hay nhiều hệ số không thỏa mãn, ta sẽ loại bỏ nó ra khỏi mô hình AR
hoặc MA đang xét.
Phân tích các giá trị thặng dư được thực hiện từ 2 tiêu chuẩn sau:
- Giá trị trung bình số học triệt tiêu, trong trường hợp ngược lại ta nên thêm một hằng
số vào mô hình.
- Chuỗi giá trị thặng dư là một nhiễu trắng. Các giá trị th.ống kê của Box-pierce và của
Ljung-box cho phép kiểm định tính chất này. Nếu nó không phải là một nhiễu trắng ta kết luận
mô hình là không hoàn chỉnh và ta phải thêm vào mô hình các bậc bổ sung cần thiết.
- Bước kiểm định mô hình rất quan trọng? và có thể ta phải trở lại bước thứ 1 nếu mô
hình đề nghị không thích hợp. Một khi mô hình đã được kiểm định, ta có thể tiến hành dự
báo giới hạn trong một vài chu kỳ. Phân tích chuỗi thời gian với mô hình SARLMA chỉ cho
81
Tìm các thông tin thích hợp, khử
tính chu kỳ, khảo sát và xác định
bậc của xu thế
Phân tích biểu đồ tương quan đơn
và tương quan riêng phần: xác định
biến p,q của mô hình AR và MA
phép tiến hành các dự báo ngần hạn. Nó không cho phép một dự báo trung hạn và dài hạn
với độ chính xác cần có, vì biến độ của sai số gia tăng rất nhanh trong trường hợp này.
Chúng ta co thể tóm tắt các bước cơ bản của phương pháp Box-Jenkins như sau:
Vi dụ:
Áp dụng phương pháp BoxỊjenkins Doanh thu của một công ty trong chu kỳ 01/82
đến 09/90 được trình bày bởi đồ thị sau đây:
Kiểm tra mô hình: Phân tích các hệ
số và thặng dư
82
Hình 4.7
Hãy phân tích chuỗi trên bằng phương pháp Box-jenkins và dự báo cho doanh số
trong 6 tháng tiếp theo (lo/90 - 3/91).
Hướng dẫn (Kết quả tính toán được thực hiện với logiciel RATS)
Biểu đồ tương quan đơn và biểu đồ tương quan riêng phần của chuỗi trên như sau:
83
Ta thấy trên các biểu đồ tương quan xuất hiện 1 > rất rõ khi k=12. Nhận xét
này cho ta kết luận số liệu có tính chu kỳ (T=12 tháng). Để khử tính chu kỳ trong chuỗi, ta
sẽ định nghĩa chuỗi Yt nhờ vào một biến đổi như sau:
Yt = yt - yt-12 ; t
Biểu đồ tương quan đơn và biểu đồ tương quan riêng phần của chuỗi Yt trên như sau:
Ta thấy biểu đồ tương quan có cường độ giảm đần rất chậm, điều này có nghĩa là ta
có một xu thế trong số liệu. Để khử xu thế ta áp dụng biến đổi sau:(D)Yt = Yt - Yt-1 ;
Biểu đồ tương quan của D(YT) như sau:
Hình 4.8
84
Ta thấy giá trị đầu tiên của biểu đồ tương quan đơn lớn hơn hẳn sơ với các giá trị tiếp
theo, trong khi đó giá trị của biểu đồ tương quan riêng phần giảm từ từ; ta có thể dự đoán
đây là một mô hình có dạng MA(1). Tóm lại mô hình đề nghị cho chuỗi số liệu trên như sau
SARIMA(0,1,1) với s=12. Kết quả cho từ logiciel RATS như sau:
Biến nghiên cứu VENTE -Úớc lượg bởi Box-Jenkins
Số lần lập 21
Chuỗi số liệu 83:02 đền 90:09
Số quan trắc hiệu dụng 92 Bộc tự do 90
Hệ số xác định R**2 0.921215 Hệ số xác định hiệu chỉnh 0.920340
Giá trị biến nghiên cứu 646. 71640217 Ú
Độ lệch chuẩn của/ biên nghiên cứu 365.92740ố4í
Sai số chuẩn hóa của ước lượng 103.28000630
Tổng cá c thặng dư bình phương 960008.37314
Giá trị thông kê Durbin-watson 1.751202
Giá trị thống kê của Ljung-box Q(23-2) 29.883511
a tương ứng của Q 0.09435394
85
Biến Hệ số Độ lệch chuẩn T-student a
******
******************************************************************
1 AR(12) 1.058169 0.032803 32.25804 0.000
2. Ma(1) 0.820817 0.060968 -13.46307 0.000
Biểu đồ tương quan đơn và biểu đồ tương quan riêng phần của thặng dư cho bởi mô
hình được chọn từ phương pháp
Box Jenkins như sau:
86
Để đánh giá chất lượng của mô hình ta phải kiểm tra xem giá trị thặng dư trên có
phải là một nhiễu trắng hay không. Sau đây là kết quả của kiểm định Bartlett và Quenouille:
Ta thấy cường độ cửa hệ số tương quan đơn và tương quan riêng phần hoàn toàn nằm
trong giới hạn cho phép trong cả 2 loại kiểm định. Do đó chuỗi giá trị thặng dư cho bởi mô
hình chọn là một nhiễu trắng như mong đợi.
87
Dự báo ngắn hạn:
Tiến hành dự báo ngắn hạn về doanh số của công ty cho bởi mô hình Box-jenkins
được trình bày trong bảng sau:
Thời gian 90:10 90:11 90:12 91:01 91:02 91:03 91:04
Dự báo 1055.3 1480.7 1901.4 676.1 561.8 561.8 714.6
Đỗ thị sau biểu diễn tổng hợp giữa doanh thu trong quá khứ và dự báo ngắn hạn của
công ty như sau:
88
89
5.1. Khái niệm
Chương 5: DÃY SỐ THỜI GIAN
Mặt lượng của hiện tượng thường xuyên biến động qua thời gian. Trong thống kê để
nghiên cứu sự biến động này ta thường dựa vào dãy số thời gian.
Dãy số thời gian là dãy số các trị số của chỉ tiêu thống kê được sắp xếp theo thứ tự
thời gian.
Ví dụ: có số liệu về doanh thu của Bưu điện X từ năm 1999 -2003 như sau:
ĐVT: tỷ đồng.
Năm 1999 2000 2001 2002 2003
Doanh thu 23,9 28,1 37,3 47,2 67,4.
Bảng 5.1
Ví dụ trên đây là một dãy số thời gian về chỉ tiêu doanh thu của đơn vị Bưu điện này
từ năm 1999- 2003. Qua dãy số thời gian có thể nghiên cứu các đặc điểm về sự biến động
của hiện tượng, vạch rõ xu hướng và tính quy luật của sự phát triển, đồng thời để dự đoán
các mức độ của hiện tượng trong tương lai.
Mỗi dãy số thời gian có hai thành phần:
- Thời gian: có thể là ngày, tuần, tháng, quí, năm, ........... Độ dài giữa hai thời gian liền
nhau được gọi là khoảng cách thời gian.
- Chỉ tiêu về hiện tượng nghiên cứu: chỉ tiêu này có thể là số tuyệt đối, số tương đối,
số bình quân. Trị số của chỉ tiêu còn gọi là mức độ của dãy số.
* Phân loại dãy số thời gian:
Căn cứ vào tính chất thời gian của dãy số, có thể phân biệt thành 2 loại:
1. Dãy số thời kỳ: là dãy số biểu hiện mặt lượng của hiện tượng qua từng thời kỳ
nhất định
2. Dãy số thời điểm: là loại dãy số biểu hiện mặt lượng của hiện tượng qua các thời
điểm nhất định. Dãy số này còn được phân biệt thành 2 loại:
- Dãy số thời điểm có khoảng cách thời gian đều nhau.
Ví dụ: Có giá trị và hàng hóa tồn kho của công ty X vào các ngày đầu tháng 1, 2, 3, 4
năm 1995, như sau:
90
n
Ngày 1-1 2-1 3-1 4-1
Giá trị hàng tồn kho (triệu đồng) 356 364 370 352
Bảng 5.2
- Dãy số thời điểm có khoảng cách thời gian không đều:
Có số liệu về số dư tiền vay ngân hàng của công ty Y, như sau:
Ngày (thời điểm) 1-1 20-1 15-2 10-3
Số dư tiền vay (triệu đồng) 400 600 500 700
Bảng 5.3
* Các yếu tố ảnh hưởng đến biến động thời gian:
1. Biến động có xu hướng.
2. Biến động theo thời vụ.
3. Biến động theo chu kỳ.
4. Biến động bất thường.
5.2. Các chỉ tiêu phân tích
Để phản ánh đặc điểm biến động qua thời gian của hiện tượng nghiên cứu, người ta
thường tính các chỉ tiêu sau đây:
5.2.1. Mức độ trung bình theo thời gian
Chỉ tiêu này phản ánh mức độ đại biểu của các mức độ tuyệt đối trong một dãy số
thời gian. Mức độ trung bình theo thời gian được xác định theo các công thức khác nhau, tùy
theo tính chất thời gian của dãy số.
5.2.1.1 Đối với dãy số thời kỳ:
Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho số các
mức độ, tức là:
y y y ... y
∑ y1
y 1 2 3 n i1
n n
Trong đó:
Yi (i = 1,, n): các mức độ của dãy số thời kỳ
n: số mức độ của dãy số
91
n
Từ ví dụ trên ta doanh thu bình quân mỗi năm của Đơn vị Bưu điện X là:
y = (23,9 + 28,1 + 37,3 + 47,2 + 67,4)/5 = 40,78 ( tỷ đồng)
Kết quả được nói lên trong thời kỳ từ năm 1996 đến 2000, doanh thu trung bình hàng
năm của Bưu điện X là 40,78 tỷ đồng.
5.2.1.2. Đối với dãy số thời điểm:
* Dãy số có khoảng cách thời gian bằng nhau: mức độ trung bình được tính theo công
thức sau:
y = (y1 /2 + y2 + y3 + + yn-1 + yn / 2) / (n -1)
Trong đó: yi (i=1,2, . . . ,n) là các mức độ của dãy số thời điểm. n: số mức độ của dãy số
Từ ví dụ (2) ta tính y :
y = (256 / 2 + 364 + 370 + 352 /2) = 362,666
Có nghĩa là hàng hóa tồn kho trung bình của quý I là 362,666 triệu đồng.
* Dãy số thời điểm có khoảng cách thời gian không bằng nhau, mức độ trung bình
được tính theo công thức:
y t y t y t ... y t
∑ yiti
y 1 1 2 2 3 3 n n i1 t t t ... t n
1 2 3 n ∑ ti
i1
Trong đó: yi (i=1,2,3, . . ., n): các mức độ của dãy số thời điểm.
ti (i=1,2, . . . , n): độ dài của các khoảng cách thời gian.
Từ ví dụ (3), để tính y ta lập bảng sau:
y
I ti(số ngày) yitI
400 19 (1.1 đến 19.1) 7.6
600 26 (20.1 đến 14.2) 15.6
500 23 (15.2 đến 9.3) 11.5
700 22 (10.3 đến 31.3) 15.4
Cộng 90 ngày 50100
Bảng 5.4
Kết quả trên nói lên số dư tiền vay trung bình của quý I là 556,7 triệu đồng.
92
5.2.2. Lượng tăng hoặc giảm tuyệt đối
Là chỉ tiêu phản ảnh sự thay đổi về trị số tuyệt đối của chỉ tiêu giữa 2 thời gian
nghiên cứu. Tùy theo mục đích nghiên cứu ta có:
5.2.2.1. Lượng tăng (giảm) tuyệt đối từng kỳ (liên hoàn)
Chỉ tiêu này cho thấy lượng tăng (hoặc giảm) tuyệt đối của hiện tượng qua 2 kỳ liền nhau.
Công thức tính: yi yi1
yi : mức độ của kỳ nghiên cứu
yi-1 :mức độ của kỳ đứng liền trước đó.
* Nhận xét:một dãy số thời gian có n mức độ thì chỉ có thể tính được nhiều nhất là (n-
1) lượng tăng (giảm) tuyệt đối từng kỳ.
Từ ví dụ (1) ta có:
1 y2 y1
3 y3 y2
3 y4 y3
5.2.2.2. Lượng tăng (hoặc) giảm tuyệt đối định gốc
Chỉ tiêu này phản ánh lượng tăng (hoặc giảm) của hiện tượng nghiên cứu qua một
thời gian dài.
Công thức tính: y yi y1
yi : mức độ của kỳ nghiên cứu.
y1 : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số).
+ Mối quan hệ giữa y và y
Tổng đại số của các lượng tăng (giảm) tuyệt đối từng kỳ bằng lượng tăng (giảm) tuyệt
đối định gốc:
y ∑ yi
5.2.2.3. Lượng tăng giảm tuyệt đối trung bình
Chỉ tiêu này phản ánh lượng tăng (giảm) tuyệt đối điển hình của hiện tượng trong cả
thời kỳ nghiên cứu:
y ∑ yi / (n 1) y / (n 1) ( yn y1) / (n 1)
93
5.2.3. Tốc độ phát triển
Là một số tương đối (thường được biểu hiện bằng lần hoặc %) phản ánh tốc độ và xu
hướng biến động của hiện tượng qua thời gian. (tuỳ theo mục đích nghiên cứu ta có tốc độ
phát triển sau đây:)
5.2.3.1. Tốc độ phát triển từng kỳ (liên hoàn)
Chỉ tiêu này phản ánh hiện tượng đã phát triển với tốc độ phát triển cụ thể là bao
nhiêu qua 2 kỳ liền nhau:
ki = yi / (yi -1) (ĐVT: lần hoặc %)
* Nhận xét: dãy số thời gian có n mức độ, chỉ có thể tính được nhiều nhất là (n-1) tốc
độ phát triển từng kỳ.
5.2.3.2. Tốc độ phát triển định gốc
Chỉ tiêu này đánh giá nhịp độ phát triển của hiện tượng nghiên cứu qua 1 thời gian dài.
K = yn / y1 (lần)
hoặc K= yn x100/ y1 (%)
Trong đó: yi : mức độ từng kỳ nghiên cứu (i=2,3, .......... ,n)
yi : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số).
* Mối quan hệ giữa K và k: tích số của các tốc độ phát triển từng kỳ bằng tốc độ phát
triển định gốc.
k1.k2.................... kn-1. = K
5.2.3.2. Tốc độ phát triển trung bình
Chỉ tiêu này phản ánh tốc độ phát triển điển hình của hiện tượng trong cả thời kỳ
nghiên cứu:
k n1 k1.k2 .k3...k
n1
n
n1 ki
y
n
n1
y
(lần hoặc %)
i1 1
5.2.4. Tốc độ tăng hoặc giảm
Là chỉ tiêu cho thấy nhịp độ tăng trưởng của hiện tượng nghiên cứu qua thời gian.
5.2.4.1. Tốc độ tăng (giảm) liên hoàn (từng kỳ)
Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua 2
thời kỳ nghiên cứu liền nhau
94
a
y
yi1
yi yi1
yi 1
k 1
hoặc a = k 100 (%)
5.2.4.2. Tốc độ tăng giảm định gốc
Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua 1
thời gian dài.
b
y
y1
yi y1 K 1
y1
(lần)
hoặc b = K – 100 (%)
5.2.4.3. Tốc độ tăng (giảm) trung bình
Chỉ tiêu này cho thấy nhịp độ tăng (giảm) điển hình của hiện tượng trong cả thời kỳ
nghiên cứu.
a k 1 (lần)
hoặc a k 100 (%)
5.2.5. Trị tuyệt đối của 1% tăng (hoặc giảm)
Chỉ tiêu này dùng để đánh giá trị số tuyệt đối tương ứng với 1% của tốc độ tăng (hoặc
giảm) từng kỳ.
c
y
yi yi1
yi1
a k 100 100
(ĐVT trùng với ĐVT của lượng biến)
5.3. Các phương pháp biểu hiện xu hướng phát triển của hiện tượng
5.3.1. Phương pháp mở rộng khoảng cách thời gian
Phương pháp này được sử dụng khi 1 dãy số thời kỳ có khoảng cách thời gian tương
đối ngắn và có nhiều mức độ mà qua đó chưa phản ánh được xu hướng biến động của hiện
tượng.
Ví dụ: Có tài liệu về sản lượng hàng tháng của năm 1999 ở 1 xí nghiệp như sau:
95
Tháng Sản lượng Tháng Sản lượng
(1.000 tấn) (1.000 tấn)
1 40,4 7 40,8
2 36,8 8 44,8
3 40,6 9 49,4
4 38,0 10 48,9
5 42,2 11 46,2
6 48,5 12 42,2
Bảng 5.5
Dãy số trên cho thấy sản lượng các tháng thì tăng, khi thì giảm thất thường, không nói
rõ xu hướng biến động. Người ta có thể mở rộng khoảng cách thời gian từ tháng sang quý:
Quý Sản lượng (1.000 tấn)
1 117,8
2 128,7
3 135,0
4 137,3
Bảng 5.6
Do khoảng cách thời gian được mở rộng (từ tháng sang quý), nên trong mỗi
mức độ của dãy số mới chịu sự tác động của các nhân tố ngẫu nhiên (với chiều hướng khác
nhau) phần nào đã được bù trừ (triệt tiêu) và do đó cho ta thấy rõ xu hướng biến động cơ bản
là: tình hình sản xuất của xí nghiệp tăng dần từ quý 1 đến quý 4 của năm 1999.
5.3.2. Phương pháp số trung bình trượt
Số trung bình trượt (còn gọi là số trung bình di động) là số trung bình cộng của 1
nhóm nhất định các mức độ của dãy số được tính bằng cách lần lượt loại dần các mức độ
đầu, đồng thời, thêm vào các mức độ tiếp theo, sao cho tổng số lượng các mức độ tham gia
tính số trung bình không thay đổi.
Giả sử có dãy thời gian y1 ,y2 ,y3, . . . yn-1 ,yn
Nếu tính trung bình trượt cho nhóm 3 mức độ, ta sẽ có:
y2 ( y1 y2 y3 ) / 3
96
y3 ( y2 y3 y4 ) / 3
y2 ( y3 y4 y5 ) / 3
.
.
yn1 ( yn2 y21 yn ) / 3
Từ đó, ta có 1 dãy số mơi gồm các số trung bình trượt là
y2 , y3 ,..., yn1
Từ ví dụ (*), tính số trung bình trượt cho nhóm 3 mức độ, ta có :
Tháng Sản lượng Số trung bình Tháng Sản lượng Số trung bình
trượt yi trượt yi
1 40,4 7 40,8 44,7
2 36,8 39,3 8 44,8 45,0
3 40,6 38,5 9 49,4 47,7
4 38,0 40,3 10 48,9 48,2
5 42,2 42,9 11 46,4 45,8
6 48,5 43,8 12 42,2
Bảng 5.7
Trung bình trượt càng được tính từ nhiều mức độ thì càng có tác dụng san bằng ảnh
hưởng của các nhân tố ngẫu nhiên. Nhưng mặt khác bị làm giảm số lượng các mức độ của
dãy trung bình trượt.
5.3.3. Phương pháp hồi quy
Trên cơ sở dãy số thời gian, người ta tìm một hàm số (gọi là phương trình hồi
quy) phản ánh sự biến động của hiện tượng qua thời gian có dạng tổng quát như sau:
Trong đó:
a0, a1, ......................................... , an : các tham số.
t: thứ tự thời gian.
Để lựa chọn đúng đắn dạng của phương trình hồi quy đòi hỏi phải dựa vào sự phân
tích đặc điểm biến động của hiện tượng qua thời gian, đồng thời kết hợp với một số phương
pháp đơn giản khác (như dựa vào đồ thị, dựa vào độ tăng (giảm) tuyệt đối, dựa vào tốc độ
97
phát triển, ....... )
Các tham số ai (i= 1,2,3, . . . ,n) thường được xác định bằng phương pháp bình
phương nhỏ nhất. Tức là:
∑ ( y LT yTT )
2 min
Sau đây là 1 số dạng phương trình hồi quy đơn giản thường được sử dụng: _ Phương
trình đường thẳng: y = a0 + a1t
Phương trình đường thẳng được sử dụng khí các lượng tăng (hoặc giảm) tuyệt đối
liên hoàn (còn gọi là sai phân bậc 1) xấp sỉ nhau.
Để xác định a0 và a1: ta áp dụng phương pháp bình phương nhỏ nhất. Từ đó a0 và a1
được xác định bởi hệ phương trình sau:
n n
∑ y na0 a1 ∑t
i 1 i 1 (*)
n n n
∑ yt a ∑t a ∑t 2
i 1
0 1
i1
i1
Ví dụ: Có số liệu về doanh thu của một đơn vị sản xuất qua các năm như sau:
Năm 1998 1999 2000 2001 2002
Doanh thu (Tỷ đồng) 30 32 31 34 33
Để tính a0 và a1 cho ví dụ này, ta lập bảng sau:
Năm y t t
2
ty yLTt
1998 30 1 1 30 30,4
1999 32 2 4 64 31,2
2000 31 3 9 93 32,0
2001 34 4 16 136 32,8
2002 33 5 25 165 33,6
160 15 55 488
98
1
Thế các giá trị tương ứng trong bảng vào hệ phương trình trên (*) ta được:
160 5a0 15a1
488 15a 55a
0 1
Từ đây ta tính được a0 = 29,6 và a1 = 0,8. Thế các giá trị t lần lượt từ 1 đến 5 tương
ứng với thời gian từ năm 1998 đến năm 2002 ta tính được các giá trị doanh thu theo đường
hồi quy lý thuyết y= a0 + a1t là các giá trị trong cột yLTt.
Ta nhận thấy rằng: biến t là biến thứ tự thời gian, ta có thể thay t bằng t' (nhưng vẫn
đảm bảo tính thứ tự), sao cho ∑t, = 0 thì việc tính toán sẽ đơn giản hơn. Có 2 trường hợp:
1. Nếu thứ tự thời gian là số lẻ thì lấy thời gian đứng ở giữa bằng 0, các thời gian
đứng trước là -1, -2, -3 và t đứng sau là 1, 2, 3.
2. Nếu thứ tự thời gian là số chẵn thì lấy hai thời gian đứng giữa là -1 và 1, các thời
gian đứng trược lần lượt là -3, -5, . . . và đứng sau lần lượt là 3, 5, . . .
Với ∑t' =0 thì hệ phương trình trên sẽ là:
∑ y = na0 => a0 = ∑ y /n
∑t ' y = a ∑t 2 => a1 = ∑t ' y / ∑ t '2
Khi đó: yLT’ = a'0 +a'1t'
Với cách chọn ∑ t
'
= 0, ta lập bảng sau:
Năm y t' t'2 t'y yLTt
1998 30 -2 4 -60 30,4
1999 32 -1 1 -32 31,2
2000 31 0 0 0 32,0
2001 34 1 1 34 32,8
2002 33 2 4 66 33,6
160 0 10 8
Bảng 5.8
a0 = 160 / 5 = 32 ; a1 = 8 /10 = 0,8
yT’ =32 + 0,8t' (*)
99
Để dự đoán sản lượng cho năm 2003 thế t = 3 vào phương trình (*) ta được
y = 32+0,8*3 = 34,4 (tỷ đồng)
Với hai cách chọn ∑t # 0 và ∑t
= 0, ta thấy kết quả vẫn như nhau.
5.3.4. Phương pháp biểu hiện biến động thời vụ
Sự biến động của một số hiện tượng trong kinh tế xã hội thường có tính thời vụ, nghĩa
là hàng năm trong từng thời gian nhất định, sự biến động được lặp đi lặp lại.
Nghiên cứu biến động thời vụ nhằm đề ra những chủ trương biện pháp phù hợp, kịp thời,
hạn chế những ảnh hưởng của biến động thời vụ đối với sản xuất và sinh hoạt của xã hội.
Nhiệm vụ của nghiên cứu thống kê là dựa vào số liệu của nhiều năm (ít nhất là ba
năm) để xác định tính chất và mức độ của biến động thời vụ. Phương pháp này thường được
sử dụng để tính các chỉ số thời vụ.
Chỉ số thời vụ được tính theo công thức:
Ii yi / y0 x100(%)
Trong đó:
Ii số thời vụ của thời gian i.
yi : Số bình quân của các mức độ cùng thời gian i.
y0 : Số bình quân của tất cả các mức độ trong dãy số.
Ví dụ: Có số liệu về sản lượng điện thoại đường dài của một đơn vị Bưu điện qua các
năm như sau:
100
Tháng
Sản lượng điện thoại
đường dài (cuộc)
Cộng các
tháng
cùng tên
( yi )
Bình quân
các tháng
cùng tên
( yi )
Chỉ số
thời vụ Ii
= (yi
/ yi )x100
1997 1998 1999
A 1 2 3 4 5 6 7
1 137.139 184.326 241.892 563.357 187.785 72.38 361.937
2 130.009 213.218 270.682 613.909 204.636 78.88 394.415
3 159.241 234.3 350.684 744.255 248.075 95.62 478.158
4 147.674 222.667 338.037 708.378 236.125 91.02 455.108
5 148.589 236.26 353.488 738.337 246.112 94.87 474.356
6 162.643 229.976 368.601 761.22 253.74 97.81 489.058
7 160.598 235.483 376.304 772.385 257.461 99.25 496.231
8 172.235 246.789 383.399 802.423 267.474 103.1 515.529
9 180.119 249.628 410.292 840.039 280.013 107.9 539.696
10 181.161 254.651 421.905 857.717 285.905 110.2 551.054
11 185.552 246.818 415.502 847.872 282.624 108.94 544.729
12 197.785 259.143 632.233 1089.16 363.053 139.95 699.748
Cộng 9.339.023
Bảng 5.9
y
9.339.023
1.037.669
36
(cuộc)
Qua kết quả trình bày ở bảng trên ta thấy sản lượng điện thoại đường dài trong nước
tăng cao nhất ở những tháng cuối năm (gần tết) và giảm thấp nhất ở tháng giêng và
tháng hai.
Giả sử kế hoạch sản lượng điện thoại cho năm 2000 là 6 000 000 cuộc thì ta
dự đoán sản lượng của từng tháng của năm 2000 sẽ là: các sản lượng trong cột (7)
Các file đính kèm theo tài liệu này:
- giao_trinh_phan_tich_du_lieu_va_du_bao_kinh_te_phan_2.pdf