Giáo trình Phân tích dữ liệu và dự báo kinh tế (Phần 2)

Lượng tăng hoặc giảm tuyệt đối Là chỉ tiêu phản ảnh sự thay đổi về trị số tuyệt đối của chỉ tiêu giữa 2 thời gian nghiên cứu. Tùy theo mục đích nghiên cứu ta có: 5.2.2.1. Lượng tăng (giảm) tuyệt đối từng kỳ (liên hoàn) Chỉ tiêu này cho thấy lượng tăng (hoặc giảm) tuyệt đối của hiện tượng qua 2 kỳ liền nhau. Công thức tính:   yi  yi1 yi : mức độ của kỳ nghiên cứu yi-1 :mức độ của kỳ đứng liền trước đó. * Nhận xét:một dãy số thời gian có n mức độ thì chỉ có thể tính được nhiều nhất là (n- 1) lượng tăng (giảm) tuyệt đối từng kỳ. Từ ví dụ (1) ta có: 5.2.2.2. Lượng tăng (hoặc) giảm tuyệt đối định gốc Chỉ tiêu này phản ánh lượng tăng (hoặc giảm) của hiện tượng nghiên cứu qua một thời gian dài. Công thức tính:  y  yi  y1 yi : mức độ của kỳ nghiên cứu. y1 : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số). + Mối quan hệ giữa  y và  y

50 trang | Chia sẻ: hachi492 | Lượt xem: 533 | Lượt tải: 0

Bạn đang xem trước 20 trang tài liệu Giáo trình Phân tích dữ liệu và dự báo kinh tế (Phần 2), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

thiết n. Median (trung vị): là giá trị nằm ở vị trí trung tâm (khác với giá trị trung bình Mean). Được tính bằng cách: - Nếu số quan sát n là số lẽ: sắp xếp các giá trị quan sát từ nhỏ đến lớn, giá trị đứng vị trí chính giữa là số trung vị. - Nếu số quan sát n là số chẵn: sắp xếp các giá trị quan sát từ nhỏ đến lớn, trung bình cộng của 2 giá trị đứng ở vị trí chính giữa là số trung vị. Theo ví dụ trên, ta sắp xếp các quan sát có giá trị từ nhỏ đến lớn: 323, 354, 365, 403, 410, 412. Median = 365 + 403 2 = 384 Mode (yếu vị): là giá trị xuất hiện nhiều lần nhất. Theo ví dụ trên, ta không có yếu vị nào cả (#N/A) Standard Deviation (độ lệch chuẩn): Được xem như là độ lệch trung bình, đại diện cho các độ lệch (hiệu số) giữa các giá trị quan sát thực và giá trị trung bình (Mean). Độ lệch chuẩn là đại lượng dùng để đo mức độ phân tán (xa hay gần) của các giá trị quan sát xung quanh giá trị trung bình. Được tính bằng cách lấy căn bậc hai của phương sai  2 ( trung bình của phương các độ lệch: độ lệch âm- negative deviation và độ lệch dương – positive deviation) 2 = = 36,26 ( σ đọc là sagma ) 57 Sample Variance (phương sai mẫu): Là trung bình của bình phương các độ lệch. Giống như độ lệch chuẩn, nó cũng dùng để xem mức độ phân tán các giá trị quan sát thực xung quanh giá trị trung bình. Được tính bằng cách lấy tổng các bình phương các độ lệch (tổng các hiệu số giữa giá trị quan sát thực và giá trị trung bình) chia cho số quan sát trừ 1 (n - 1). Theo ví dụ trên ta có: n ∑ ( X  2  i1 i  X )2 1.314,97 n 1 (  2 đọc là sigma bình phương ) Kurtosis (độ chóp): là hệ số đặc trưng thống kê dùng để đo mức độ “đồng nhất” của các giá trị quan sát. - Đường cong rất chóp (very peaked): nhọn đứng, kurtosis > 3. Nếu đường biểu diễn dưới đây mô tả phân phối các giá trị doanh thu, ta có thể nói rằng đa số các giá trị doanh thu rất gần với nhau (the same revenue) dù có một số ít mang giá trị rất nhỏ hoặc rất lớn. - Đường cong rất bẹt (very flat): phẳng nằm, kurtosis < 3. Nếu đường biểu diễn dưới đây mô tả phân phối các giá trị doanh thu, ta có thể nói rằng đa số các giá trị doanh thu được trải đều từ nhỏ đến lớn trong một khoảng rộng hơn. Theo ví dụ trên, độ chóp bằng: - 1,30 Skewness (độ nghiêng): là hệ số dùng để đo “độ nghiêng” khi phân phối xác suất không cân xứng theo hình chuông đều. 58 - Nghiêng về trái ta còn gọi là “nghiêng âm” (Skewned to the left), skewness < -1: nghiêng nhiều, > 0,5: nghiêng ít. Nếu đường biểu diễn dưới đây mô tả phân phối các giá trị doanh thu, ta có thể nói rằng đa số các giá trị doanh thu gần với doanh thu lớn nhất dù có một số ít mang giá trị nhỏ hơn hoặc rất nhỏ (ở bên trái). - Nghiêng về phải ta còn gọi là “nghiêng dương” (Skewned to the right), skewness > 1: nghiêng nhiều, < 0,5: nghiêng ít. Nếu đường biểu diễn dưới đây mô tả phân phối các giá trị doanh thu, ta có thể nói rằng đa số các giá trị doanh thu gần với doanh thu nhỏ nhất dù có một số ít mang giá trị lớn hơn hoặc rất lớn (ở bên phải). Theo ví dụ trên, độ nghiêng bằng: -0,58. Range (khoảng) also range width (hay bề rộng của khoảng): là độ dài của khoảng quan sát (khoảng biến thiên), được tính bằng lấy giá trị quan sát cực đại Max trừ đi giá trị quan sát cực tiểu Min. Range = Max - Min = 412 - 323 = 89 Minimum (giá trị quan sát cực tiểu): giá trị nhỏ nhất trong các quan sát. Min = 323 Maximum (giá trị quan sát cực đại): giá trị lớn nhất trong các quan sát. Max = 412 Sum (tổng cộng giá trị của các quan sát): là tổng cộng tất cả các giá trị của tất cả các quan sát trong tập dữ liệu. Theo ví dụ trên, ta có: 59 S u m n  ∑ X i 1 i  2 .2 6 7 Count (số quan sát): là số đếm của số lần quan sát (n). Theo tập dữ liệu ở ví dụ trên, ta có: n = 6 3.2. Phương pháp hồi quy bội: Còn gọi là phương pháp hồi quy đa biến, dùng phân tích mối quan hệ giữa nhiều biến số độc lập (tức biến giải thích hay biến nguyên nhân) ảnh hưởng đến 1 biến phụ thuộc (tức biến phân tích hay biến kết quả). Trong thực tế, có rất nhiều bài toán kinh tế - cả lĩnh vực kinh doanh và kinh tế học, phải cần đến phương pháp hồi quy đa biến. Chẳng hạn như phân tích những nhân tố ảnh hưởng đến thu nhập quốc dân, sự biến động của tỷ giá ngoại hối; xét doanh thu trong trường hợp có nhiều mặt hàng; phân tích tổng chi phí với nhiều nhân tố tác động; phân tích giá thành chi tiết; những nguyên nhân ảnh hưởng đến khối lượng tiêu thụ Một chỉ tiêu kinh tế chịu sự tác động cùng lúc của rất nhiều nhân tố thuận chiều hoặc trái chiều nhau. Chẳng hạn như doanh thu lệ thuộc và giá cả, thu nhập bình quân xã hội, lãi suất tiền gửi, mùa vụ, thời tiết, quảng cáo tiếp thị Mặt khác, giữa những nhân tố lại cũng có sự tương quan tuyến tính nội tại với nhau. Phân tích hồi quy giúp ta vừa kiểm định lại giả thiết về những nhân tố tác động và mức độ ảnh hưởng, vừa định lượng được các quan hệ kinh tế giữa chúng. Từ đó, làm nền tảng cho phân tích dự báo và có những quyết sách phù hợp, hiệu quả, thúc đẩy tăng trưởng. Phương trình hồi quy đa biến dưới dạng tuyến tính: Y = b0 + b1X1 + b2X2 + + biXi + bnXn + e (3.2) Trong đó: Y: biến số phụ thuộc (kết quả phân tích); b0: tung độ gốc; b1: các độ dốc của phương trình theo các biến Xi; Xi: các biến số (các nhân tố ảnh hưởng); e: các sai số Lưu ý: Y trong phương trình trên được biểu hiện là Y ước lượng, người ta thường viết dưới hình thức có nón ( Y□ ) 60 i ∑ 2 Mục tiêu của phương pháp hồi quy đa biến là dựa vào dữ liệu lịch sử các biến số Yi, Xi, dùng thuật toán để đi tìm các thông số b0 và bi xây dựng phương trình hồi quy để dự báo cho ước lượng trung bình của biến Yi. 3.3. Phương pháp thống kê hồi quy Còn gọi là thống kê hồi quy đơn giản (simple regression statistical) dùng phương pháp thống kê toán để tính các hệ số a, b của phương trình hồi quy dựa trên toàn bộ quan sát của tập dữ liệu. Đây là phương pháp đáng tin cậy nhất và vì vậy đòi hỏi công phu hơn. Vẫn dùng số liệu ở ví dụ trên, lập bảng tính các trị số cơ sở rồi căn cứ vào công thức để tính các thông số của phương trình. Ta có công thức trong thống kê toán a = - b n ∑ ( X  X )(Y  Y ) i1 i i b  n 2 Chứng minh công thức ∑ ( X i1 i  X ) Công thức trên được chứng minh từ phương pháp hồi quy các bình phương tối thiểu của các hiệu số (độ lệch : Deviation) giữa các giá trị quan sát và giá trị ước lượng của biến số phụ thuộc ( Y□ = a +bXi) Với phương pháp tổng các bình phương tối thiểu, gọi lệch, ta có: e$ 2 là bình phương các độ = = (3.3) Min (3.4) Giải hệ phương trình vi phân để tìm giá trị các thông số. Lấy đạo hàm riêng phần theo a và cho bằng 0:  n a i1 Yi  a  bXi   0 (3.5) Lấy đạo hàm riêng phần theo a và cho bằng 0: 61 ∑ 2  n b i1 Yi  a  bXi   0 (3.6) Lấy đạo hàm rồi cùng chia cho -2 ( hay nhân với ½) ta có hệ phương trình chuẩn với n quan sát: ∑ XY  a∑ X  b∑ X 2 ∑Y  na  b∑ X (3.7) (3.8) Dùng phương pháp khử, giải hệ phương trình có 2 ẩn số, ta lần lược có được giá trị các thông số a, b như các công thức (1.3) và (1.4) nên trên. Dễ dàng thấy được ý nghĩa các độ lệch tối thiểu qua đồ thị sau: Y Yi ^ Độ lệch (deviation): Yi- Y ^ Y Đường hồi quy bình quân tối thiểu. Y  a  bX 0 Xi X Đồ thị 3.2.Độ lệch của các trị quan sát so với giá trị ước lượng Giải thích đồ thị: Đường hồi quy Y =a+ bX là đường ước lượng tốt nhất, chứa các giá trị ước lượng của Y mà độ lệch trung bình giữa chúng và giá trị quan sát thực là nhỏ nhất (tối thiểu). Các độ lệch nằm phía trên đường ước lượng nhìn từ gốc của trục toạ độ, gọi là độ lệch dương (Positive deviation); các độ lệch nằm phía dưới đường ước lượng nhìn từ gốc của trục toạ độ, gọi là độ lệch âm (Negative deviation). Tại sao là bình phương tối thiểu? Mục đích cuối cùng của phương pháp hồi quy là dùng để giải thích hoặc dự báo một đối tượng cần nghiên cứu. Cụ thể là đi tìm giá trị các thông số a, b để xây dựng phương trình hồi quy tuyến tính (đường thẳng) có dạng tổng quát: 62 Y□ =a+ bX. Mỗi giá trị ước lượng (ước lượng điểm) là giá trị ước lượng trung bình điểm của biến kết quả Yi. Khả năng chỉ có thể xảy ra các giá trị trong một “khoảng ước lượng” với một “độ tin cậy” nhất định mà thôi. Vì xác suất để giá trị thực Yi bằng với giá trị ước lượng điểm i Y□ là bằng 0, hay nói cách khác là rất khó có khả năng xảy ra. Ý nghĩa của phương pháp bình phương tối thiểu là làm sao cho độ lệch trung bình ^ giữa Y□ và Yi nhỏ nhất ( Yi- Y )  0 Trong đó, Yi là các giá trị quan sát thực và trị trung bình) của Yi. Y□ =a+ bX là các giá trị ước lượng (giá Khi ấy, giá trị ước lượng “gần với” giá trị quan sát thực và phương trình hồi quy dùng để dự báo sẽ trở nên khả thi, thích hợp nhất và chính xác nhất trong điều kiện có thể. N Xi Yi Xi 2 Yi 2 Xi Yi X i  X Yi  Y Xi  X Yi  Y 2  Xi  X  2 Yi  Y  1 1.510 323 2.280.100 104.329 487.730 -372 -55 20.398 138.384 3.007 2 1.820 365 3.312.400 133.225 664.300 -62 -13 796 3.844 165 3 2.104 412 4.426.816 169.744 866.848 222 34 7.585 49.284 1.167 4 2.087 410 4.355.569 168.100 855.670 205 32 6.594 42.025 1.035 5 1.750 354 3.062.500 125.316 619.500 -132 -24 3.146 17.424 568 6 2.021 403 4.084.441 162.409 814.463 139 25 3.498 19.321 633 ∑ 11.292 2.267 21.521.826 863.123 4.308.511 0 0 42.017 270.282 6.575 Bảng 3.3. Các trị số cơ sở thống kê Y  2.267 6  377, 83 378 63 270.282  ( 6.575) ∑ ( X  X ) Y  Y Trước hết, xét mức độ tương quan (correlation) giữa biến số phụ thuộc và biến số độc lập bằng công thức: n 2   i1 i i R     R = +1: tương quan hoàn toàn và đồng biến; R = -1: tương quan hoàn toàn và nghịch biến; R = càng gần 1:tương quan càng mạnh (0,8< R <1); R = từ 0,4 đến 0,8: tương quan trung bình; R = nhỏ hơn 0,4: tương quan yếu; 42.017 R    0.993 Ý nghĩa của độ tương quan nói lên cường độ của mối quan hệ tuyến tính của hai biến X và Y. Trở lại, thay các giá trị đã tính ở bảng 3.7 vào công thức (3.3) và (3.4) ở trên, ta có: n 2 2 ∑ ( X  X ) (Y  Y ) 42.017 i1 i i b  n 2   0.115 ∑ ( X i1 i  X ) 270.282 a  Y  bX  377.83 (0.115x1882)  86,12 Vậy phương trình hồi quy có dạng Y = a + bX sẽ là: Y = 86,12 + 0,155X i1 ∑ ( X n 2 n  X ) ∑ (Y  Y ) i1 64 * Tính trên phần mềm Microsoft Excel: Có 2 cách thực hiện trên Excel: Cách 1: dùng hàm Fx: Paste function Tìm trị số b (slope), sử dụng lệnh: Insert / Fx / Statistical (select a category: chọn loại hàm) / slope (select a function: lựa chọn tên hàm) / OK / quét đánh dấu khối cột dữ liệu Y và cột dữ liệu X / OK. Tìm trị số a (intercept), sử dụng lệnh giống như tìm trị số a, chỉ thay đổi bằng tên hàng Slope bằng tên hàm Intercept (function name) Tìm trị số R (correlation), dùng lệnh: Insert / Fx / Statistical (select a category: lựa chọn loại hàm) / Correl (select a function: lựa chọn tên hàm) / OK / quét đánh dấu khối cột dữ liệu X và cột dữ liệu Y / OK. Cách 2: Dùng Regression (thường dùng để chạy hồi quy đa biến) Khi thao tác trên Microsoft Excel, ta sử dụng lệnh: Tools / Data Analysis / Regression / OK. Trong phần Input (nhập đầu vào): Nhập dữ liệu Y vào ô: Input Y Range; Nhập dữ liệu X vào ô: Input X Range; Trong phần Output options (vị trí đầu ra) có 2 lựa chọn: Chọn sheet mới: dùng New worksheet ply; Chọn sheet hiện hành: dùng Output Range. Chương trình Microsoft Excel sẽ cho bảng kết quả sau 65 SUMMARY OUTPUT Regression Statistics Multiple R 0.996722138 R Square 0.993455021 Adjusted R Square 0.991818777 Standard Error 3.27994452 Observations 6 ANOVA df SS MS F Significance F Regression 1 6531.801 6531.801 607.1555 1.6099E-05 Residual 4 43.03214 10.75804 Total 5 6574.833 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0% Intercept 85.26485301 11.94873 7.135891 0.00204 52.08985086 118.4399 52.08985 118.4399 X Variable 1 155.4561532 6.308962 24.64053 1.61E-05 137.9396656 172.9726 137.9397 172.9726 Bảng 3.4. Kết quả hồi quy đơn biến, cho bởi Microsoft Excel. Giải thích bảng 3.4: · Multiple R = 0,9967 là độ tương quan giữa Y và X (tương quan mạnh); · R square (R2) = 0,9935: là hệ số xác định (determination), biểu hiện khả năng giải thích của các biến độc lập X đến biến phụ thuộc Y (khả năng giải thích cao); 66 · Đọc trị số a, b ở cột Coefficients - các hệ số: Intercept - tung độ gốc (a=85,265); X Varible 1 - độ dốc với biến độc lập X (b = 0,155) · Trị số thống kê t-stat: 7,136 và 24,641 > 1,96, thể hiện sự “có ý nghĩa về mặt thống kê” ở mức ý nghĩa 5% trong khoảng: cận trên -Upper, cận dưới - Lower. Cận trên và cận dưới của Intercept là (118,44 ; 52,09) và của Slope là (0,17 ; 0,14). · Một số chỉ tiêu dùng để kiểm định, như ANOVA trong bảng kết quả hồi quy không đề cập hết trong phạm vi môn học này. 67 Chương 4: PHƯƠNG PHÁP BOX - JENKINS (ARIMA) 4.1. Tính ổn định của một chuỗi Trước khi xử lý một chuỗi thời gian nghiền cứu các tính ngẫu nhiên của nó là bước cần thiết cho phép ta đánh giá một cách tổng quát về số liệu nghiên cứu. Nếu kỳ vọng toán vô phương sai của nó thay đổi theo thời gian, chuỗi được xem như là không ổn định. Trong trường hợp ngược lại ta nói chuỗi ổn định. Xét chuỗi yt, về mặt toán học một chuỗi ổn định phải thỏa các điều kiện sau: E(yt) = E(yt+m) = cte yk và m Var(yt) < rk Cov(yt ;yt+k) = E ((yt - )( yt+k- ) = =hằng số Với tính chất như vậy ta có thể thấy một nhiễu trắng (giới thiệu sau) là một chuỗi ổn định vì nó thỏa mãn tính chất nêu trên. Một chuỗi thời gian là ổn định khi nó là đại diện của một quá trình nghiên cứu ổn định. Nói một cách cụ thể hơn đó là chuối không có tính xu thế, không có tính chu kỳ 4.2. Hàm số tự tương quan đơn và tự tương quan riêng phần Hệ số tương quan riêng phần là hệ số dùng để đánh giá quan hệ giữa hai biến khi ảnh hưởng của biến thứ ba được loại trừ Hàm số tự tương quan □p k nhằm xác định sự tương quan của chuỗi và chính nó nhưng lệch đi một chu kỳ k bất kỳ (xem bảng sau). Công thức xác định hàm số tương quan □p k như sau: Tính chất: □p 0 =1 và □p k = □p -k Bảng sau đây giới thiệu cách tính hàm tự tương quan Khảo sát chuỗi quan trắc yt. Các chuỗi lệch yt-k tương ứng cũng được giới thiệu: 68 k 0 1 2 3 4 t 1 yt 123 yt-1 yt yt yt-2 2 130 123 3 125 130 123 4 138 125 130 123 5 145 138 125 130 123 6 142 145 138 125 130 7 141 142 145 138 125 8 146 141 142 145 138 9 147 146 141 142 145 10 157 147 146 141 142 11 150 157 147 146 141 12 145 150 157 147 146 Bảng 4.1. Xác định các chuỗi lệch yt-k Kết quả tính giá trị trung bình vô phương sai của các chuỗi và hàm số tự tương quan k được trình bày trong bảng sau: Trung bình yt 140.7 142.3 143.6 145.6 146.6 Trung bình yt-k 140.7 140.3 139.4 137.4 136.2 Phương sai yt 95 72.4 62.8 27.1 22.2 Phương sai yt-k 95 101.8 101.8 74.9 71.4 □p k 1 0.77 0.62 0.59 0.55 Bảng 4.2 Với định nghĩa của hàm số tự tương quan trên ta thấy không tiện lợi trong việc tính toán vì nó đòi hỏi phải lùi lại khi tính mỗi số hạng rk Do đó trong thực tế áp dụng ta thường tính hàm tự tương quan cho mẫu bằng một công thức đơn giản hơn như sau: với giá trị trung bình của chuỗi tính trên n chu kỳ. Khi số lượng quan trắc đủ lớn, hai cách tính giá trị hàm tự tương quan trên cho kết quả rất gần nhau ( □p k ~ □p -k ) Hàm số tự tương quan riêng phần bắt nguồn từ khái niệm 69 tương quan riêng phần. Với khái niệm này cho phép ta đánh giá, ví dụ, ảnh hưởng của x1 lên x2 trong bối cảnh loại hết các ảnh hưởng của các biến khác x3 x4xk Tương tự như vậy ta định nghĩa hàm tự tương quan riêng phần có mức độ trễ k như là hệ số tương quan riêng phần giữa yt và yt-k; có nghĩa là trong đó các ảnh hưởng của các biến yt-l, yt-2 yk+l được loại bỏ . 4.3. Kiểm định nhiếu trắng 4.3.1. Phân tích hàm tự tương quan Mục đích của phân tích hàm tự tương quan nhằm xác định khả năng có tính tự tương quan trong chuỗi khảo sát (thường là chuỗi sai số) hay không. Khi chúng ta phân tích hàm tự tương quan của một chuỗi thời gian, một câu hỏi luôn luôn đặt ra là các hệ số □p k nào khác 0. Thật vậy, nếu ta hoàn toàn không có giá trị nào của □p k khác 0 ta nói quá trình nghiên cứu không có >. Nó hoàn toàn không có tính xu thế cũng như không có tính chu kỳ. Ví dụ trong trường hợp nếu chuỗi có tính chu kỳ theo tháng ta sẽ thấy giá trị của □p 12 sẽ lớn (tương quan giữa yt và yt-12) Chuỗi chắc chắncó tính chu kỳ. Kiểm định cho □p k có giá trị khác 0 được thực hiện dựa vâo nguyên tắc kiểm định giả thiết như sau: H0: □p k = 0 H1: □p k 0 Trong thực hành, tác giả Quenouille đã chứng minh được rằng với một mẫu có kích thước tương đối lớn, hệ số □p k tiến một cách tiệm cận về một phân phối chuẩn có giá trị trung bình bằng 0 và độ lệch chuẩn là Khoảng tin cậy của hệ số □p knhư sau:  với n là số lượng quan trắc. Nếu hệ số □p k tính được nằm ngoài khoảng trên ta kết luận □p k khác 0 với rủi ro % (thường ta lấy =5%). 4.3.2. Tham số thống kê của Box-Pierce và Ljung-box Kiểm định của Box-pierce cho phép nhận biết đó là nhiễu trắng hay không. Chúng ta phải kiểm định Cov(yt,yt-k)=o Và □p k=0 với . Một quá trình nhiễu trắng bắt buộc phải có: □p 1= □p 2= □p 3 h chúng ta có thể kiểm định riêng lẻ các giá trị của p, tuy nhiên thường ta hay sử dụng giá trị thống kê Q định nghĩa bởi Box-Pierce như sau: Q=n với h số lượng của 70 sự trễ, □p k giá tri tự tương quan kinh nghiệm bậc k và n chỉ số quan trắc.Giá trị thống kê Q tuân theo gần như một phân phối c2 có bậc tự do h. Với mức độ rủi ro a% và bậc tự do h ta có giá trị co cho từ bảng tra. Nếu c2 >c2 a sẽ .chấp nhận giả thiết H1: đó không phải là một nhiễu trắng. Và ngược lại ta sẽ kết luận đó là một nhiễu trắng. Đồ thị sau đây cho ta thấy biến đổi của một nhiễu trắng. H.4.1 71 Biểu đồ tương quan đơn và biểu đồ tương quan riêng phần tương ứng của chuỗi này như sau: Hình 4.2 Trong thực hành để khảo sát đó là một nhiễu trắng hay không ta sẽ sử dụng các kiểm định Bartleu vâ Quenouille. Kiểm định liên quan đến độ lớn của các giá trị hệ số tương quan và tương quan riêng phần. Khi ta thấy cường độ của nhiễu toàn bộ nằm trong giới hạn cho phép, ta kết luận đó là một nhiễu trắng. Đối với trường hợp hình trên, ta nhận thấy ở kiểm định Quenouílle còn có giá trị vượt quá giới hạn, đây chưa phải là một nhiễu trắng hoàn toàn. 4.4. Mô hình AR(P) (Auto Regression) Trong một quá trình tự hồi quy bậc p, số liệu quan trắc tại thời điểm hiện tại yt được tạo ra bởi một tổng trung bình có trọng số của các giá trị quan trắc trong quá khứ tính cho đến giá trị quan trắc quá khứ thứ p Công thức định nghĩa như sau: AR(1): yt = q1*yt-l + et AR(2): yt = q1*yt-l +q2*yt-2 + et AR(P): yt = q1*yt-l +q2*yt-2 + +qp*yt-p +et 72 Trong đó q1; q2; ; qp là các thông số cần phải xác định. et là một nhiễu trắng ngẫu nhiên có dạng Gaussien. Chúng ta cũng có thể thêm vào quá trình này một hằng số mà nó vẫn không ảnh hường đến ưnh chất ngẫu nhiên của chuỗi. Phương trình trên có thể viết dưới dạng đơn giản hơn nhờ vào định nghĩa toán tử lệch pha D như sau: ( 1- q1*D - q2D2 - . . .- qpDp)*yt = et Tính chất: - Người ta đã chứng minh biểu đồ tương quan đơn của một quá trình AR(P) được mô tả bởi một cấp số nhân có công bội nhô hơn 1 (chuỗi giảm) có dạng: □p k = □p -k - Biểu đồ tương quan riêng phần chi có p số hạng đầu tiên là khác 0. Các ví dụ sau đây cho phép chúng ta nhận biết mô hình dạng AR dựa trên phân tích biểu đồ tương quan đơn vâ tương quan riêng phần. Xét một mô hình AR(L) có dạng: yt = 1 + 0 9*yt-l+ et với et là giá trị thặng dư. Các biểu đồ tương quan của mô hình trên có dạng sau: Hình 4.3 73 Ta thấy giá trị đầu tiên của biểu đồ tương quan riêng phần rất lôn so với các giá trị còn lại và biểu đồ tương quan đơn có giá trị giảm đần. Đó là biểu thị đặc thù cho phép chúng ta nhận dạng đó là một mô hình AR(L). Xét một mô hình AR(2) có dạng: yt = 0 9*yt-2+1+ et Các biểu đồ tương quan của mô hình trên có dạng sau: Hình 4.4 So với trường hợp trước ta thấy có sự khác nhau. Thay vì giá trị thứ 1 như ví dụ trước, trường hợp này ta thấy giá trị thứ 2 trong biểu đồ tương quan riêng phần lớn trồi hơn hẳn so với các giá trị còn lại. Trong khi đó tính chất của biểu đồ tương quan đơn cũng giống như trước. Điều này cho phép ta biết đây là một mô hình AR(2). Ta cũng lưu ý thêm với số hạng AR(1) là không đáng kể. 4.5. Mô hình MA(q) (Moving Average) Trong một quá trình trung bình động bậc q, số liệu quan trắc tại thời điểm hiện tại yt được tính bởi tổng trung bình có trọng số giá trị của các nhiễu ngẫu nhiên cho đến nhiễu thứ q. Công thức định nghĩa như sau: . 74 MA(1): yt = et - a1*et-1 MA(2): yt = et - a1*et-1- a2*et-2 MA(q): yt = et - a1*et-1- a2*et-2-- aq*et-q Trong đó a1, a3, , ap là các thông số cần phải xác định et là một nhiễu trắng ngẫu nhiên có dạng Gaussien. Phương trình trên có thể viết dưới dạng đơn giản hơn nhờ vào định nghĩa một toán tử lệch pha D như sau: (l -a1D- a2D2 -...- apDp) et = yt Trong quá trình dạng nây cũng như tất cả các mô hình tự hồi quy các nhiễu ngẫu nhiên được giả thiết là được tạo ra bởi một > Chúng ta có thể hiểu quá trình trung bình động là một chuỗi thời gian dao động ngẫu nhiên chung quanh giá trị trung bình của chúng. Tính chất: - Chuỗi trung bình động bậc 1 chính là một quá trình tự hồi quy bậc p vô hạn. - Biểu đồ tương quan đơn của một quá trình trung bình động bậc q, MA(q), được xác định bởi: □p k = khi □p k = 0 khi k>q Điều này có nghĩa là chỉ có q số hạng đầu tiên của biểu đồ tương quan là khác 0. Đối với biểu đồ tương quan riêng phần sẽ được mô tả bởi một chuỗi cấp số giảm theo hướng các chậm pha trong quá khứ. Các ví dụ sau đây cho phép chúng ta nhận biết theo kinh nghiệm, hình dạng MA dựa trên cơ sở phân tích biểu đồ tương quan đơn và tương quan riêng phần. Xét một mô hình MA(L) có dạng: yt = 5 + et + 0.9*et-1 với et là giá trị thặng dư ở thời điểm t 75 Hình 4.5 Các biểu đồ tương quan của mô hình trên có dạng sau: Ta thấy giá trị đầu tiên của biểu đồ tương quan đơn vượt trội so với các giá trị còn lại và biểu đồ tương quan riêng phần giảm dần dần. Đó là dạng đặc thù của một mô hình MA có bậc là 1. Xét trường hợp cho một mô hình MA(2) có dạng: yl = 5 +et + 1 . 1 et-2 Các biểu đồ tương quan của mô hình trên có dạng sau: Trong trường hợp này, thay vì giá trị đầu tiên trên biểu đồ tương quan có giá trị lớn trội như trước, ta thấy giá trị thứ 2 trên biểu đồ này lớn trội hơn so với các giá trị còn lại và giá trị của biểu đồ tương quan riêng phần giảm dần dần; đó là biểu thị đặc thù của một mô hình MA(2). 4.6. Mô hình ARMA(p,q) Mô hình ARMA(p,q) là một quá trình được tạo ra bởi từ tổ hợp giữa các giá trị của chuỗi trong quá khứ và các giá trị của nhiễu trong quá khứ. Nó được xác định bởi phương trình sau đây: 76 Ta có thể nói đây là một mô hình có được từ sự tổng hợp của 2 loại mô hình AR và MA. Tính chất: ARMA( 1 ,0)=AR( 1 ) ; ARMA(0, 1 )=MA( 1 ) Ta chú ý trong trường hợp này, biểu đồ tương quan đơn và biểu đồ tương quan riêng phần sẽ phức tạp hơn so với 2 trường hợp trên. Do vậy chúng ta phải lưu ý khi xác định các thông số p,q của mô hình ARMA từ các biểu đồ này. Ví dụ 5 Xét mô hình ARMA(L,l) sau đây: y = 5 + 0.8yt-l + 1 . l Các biểu đồ tương quan của mô hình trên có dạng sau: Hình 4.6 Với biểu đồ trên ta thấy đây là một sự pha lẫn giữa hai loại mô hình AR và MA. Ta thấy đều có giá trị đầu tiên vượt trội trong các biểu đồ tương quan. Cường độ trong các biểu đồ cũng tắt dần. Dự đoán bậc của mô hình đòi hỏi phải có một kinh nghiệm nhất định. 77 4.7. Mô hình ARMA mở rộng: ARIMA, SARIMA Trong trường hợp chuỗi quan trắc có xu thế không ổn định (có xu thế tăng hoặc giảm theo thời gian), ta định nghĩa một mô hình có dạng ARMA(p,d,q) với d là bậc của đường xu thế. Nói một cách khác đi, d biểu thị cho số lần lấy cần thiết lên chuỗi quan trắc để ta có thể nhận được một chuỗi nghiên cứu có tính ổn định theo xu thế. Ví dụ trong trường hợp chuỗi có xu thế tuyến tính ta có d=l; trong trường hợp đường xu thế là một hàm bậc 2 ta có d=2. Thật vậy giả sừ chuỗi có một xu thế tuyến tính biểu thị bởi phương trình sau đây: y =a+bt Định nghĩa sai biệt bậc 1 Dyt ta có: Dyt =yt-yt-1 =(a+bt)-(a+b[t—1])=b=cte Ta thấy chuỗi sai biệt bậc 1 có xu thế ổn định. Trong trường hợp có xu thế bậc 2 phương trình có dạng: yt =a+bt+ct2 Tính sai biệt bậc 1 ta có: Dyt =yt-yt-1 = (a+bt+ct2)-(a+b[t-l]+c*[t-1]2)=b-c+2tc Ta thấy chuỗi Dyt có xu thế bậc 1 . Để có xu thế ổn định ta chỉ cần tính thêm một lần nữa cho sự khác biệt như trường hợp ta đã có trong trường hợp xu thế là tuyến tính ở trên. Như vậy ta có hai lần lấy sai biệt cho trường hợp bậc 2 này để chuỗi quan trắc trở nên ổn định về xu thế. Tóm lại ta có thể viết chuỗi (l-D)d *yt là một ARMA(p,q) khi yt lâ một ARIMA(p,d,q); với D được định nghĩa là toán tử sai biệt: D(yt)=yt- yt-l Mô hình SARIMA cho phép giải quyết vấn đề sai biệt liên quan đến biến đổi mùa. Sự biến đổi được định nghĩa như sau: (1 - Ds)*yt = yt - yt-s với s biểu thị tính chu kỳ của số liệu (s=4 cho một chuỗi biến đổi theo quý, s=12 cho chuỗi biến đổi theo tháng). Chú ý: Chúng ta chi áp dụng mô hình ARMA để nghiên cưu cho các chuổi không có xu thế. 78 4.8. Phương pháp Box - Jenkins Dưới đây nghiên cứu một cách có hệ thống các dạng khác nhau của chuỗi thời gian dựa vào các tính chất của nó. Mục tiêu là tìm trong số tất cả các mô hình ARIMA (AR: tự hồi quy, MA: trung bình động, I: thông số cho biết bậc cần thiết để có thể tạo một chuỗi ổn định) 1 mô hình thích hợp nhất với số liệu của hiện tượng nghiên cứu. Phương pháp bao gồm 3 bước chính sau đây: Bước 1: Tìm các mô hình thích hợp nhất Đây là bước quan trọng và khó nhất. Nó cho phép nhận biết được trong họ tất cả các mô hình ARLMA mô hình nào là có khả năng thích hợp nhất. Phương pháp dựa vào nghiên cứu các biểu đồ tương quan đơn và các biểu đồ tương quan riêng phần. Một vài nguyên tắc sau đây cho phép tìm các thông số p,d,q của mô hình ARIMA. * Khử tính chu kỳ Để đơn giản trong trường hợp chuỗi nghiên cứu có chứa yếu tố biến đổi có tính chu kỳ ta nên > yếu tố này trước khi đi vào các xử lý thống kê nhằm đơn giản hóa cho các bước tính sau. * Khảo sát và xác định bậc của xu thế nếu có Trong trường hợp biểu đồ tương quan đơn giảm chậm hoặc hoàn toàn không giảm, chuỗi có chứa một xu thế. Trong trường hợp này ta sẽ loại tính xu thế nó nhờ vào áp dụng của toán tử sai biệt lên chuỗi. Trong thực tế ta có thể gặp trường hợp d=l hoặc 2. Giá trị thích hợp của d sẽ cho ta một biểu đồ tương quan đơn có xu thế giảm nhanh. * Xác định p,q của mô hình ARMA nhờ vào biểu đổ tương quan - Nếu biểu đồ tương quan đơn chỉ có q giá trị đầu tiên là khác 0 (q=3 là lớn nhất) và các giá trị của biểu đồ tương quan riêng phần giảm từ từ ta có thể tiên đoán có một MA(q). - Nếu biểu đồ tương quan riêng phần chỉ có p giá trị đầu tiên là khác 0 (p=3 là lớn nhất) và các giá trị của biểu đồ tương quan đớn giảm từ từ ta có thể tiên đoán có một AR(P). - Nếu biểu đồ tương quan đơn và biểu đồ tương quan riêng phần không có sự cắt ngắn như hai trường hợp trên, ta sẽ có một quá trình ARMA và các thông số của nó tùy thuộc vào dạng cụ thể của cấc biểu đồ tương quan. Trong thực hành, phương pháp phân tích đồ thị chỉ cho ta tìm được p q trong các trường hợp đơn giản mà thôi. Trong trường hợp tổng quát, ta có thể áp dụng các tiêu chuẩn sau đây để xác định các thông số p, q trong một mô hình ARMA. Thực chất chung của các tiêu chuẩn này là dựa vào sự khảo sát các giá trị liên quan đến phương sai của chuỗi sai số cho bởi mô hình với thông số đề nghị. 79 Có 3 tiêu chuẩn thông dụng được sử dụng như sau: Tiêu chuẩn Akaike: Akaike = Log(%rss) + 2 Tiêu chuẩn BIC: BIC = Log(%rss) + (p + q) * Tiêu chuẩn HQ: HQ = Log(%rss) + 2(p + q) * 270 với: %rss : tổng các thặng dư bình phương của mô hình đề nghị %nobs : số lượng quan trắc. Trong trường hợp lý tưởng, giá trị chọn của p,q tương ứng với trường hợp cho ta các giá trị Akaike, BIC, HQ cực tiểu. Trong áp dụng ta có thể có trường hợp ở đó giá trị p,q đề nghị không làm cho 3 tiêu chuẩn này đồng thời cực tiểu. Tuy vậy thường các tiêu chuẩn này cho giá trị p,q tối ưu không khác nhau lớn. Trong trường hợp này ta sẽ khảo sát từng tổ hợp (p,q) cụ thể để quyết định chọn mô hình hợp lý nhất. Bước 2: Ước lượng các hệ số của mô hình Trong trường hợp mô hình AR(P), tác giả áp dụng phương pháp bình phương tối thiểu hay sử dụng quan hệ giữa tính tự tương quan và các hệ số của mô hình (phương trình Yule Walker). ước lượng các hệ số cho mô hình MA(Q) tương đối phức tạp hơn. Các tác giả đề nghị sử dụng một phương pháp lặp dưới dạng quét mà chúng ta có thể hiểu một cách đơn giản như sau. Giả sử ta có 1 mô hình ARMA(2,2) xác định bởi: (l-q1D-q2D2)yt = (l-aD1-a2D2)*et và Chúng ta có thể viết dưới dạng: yt = Ta đặt: 80 Do đó: Từ đó chúng ta có thể khởi đầu bằng cách tính quét với 2 khoảng giá trị chấp nhận được cho a1 và a2 và với một gia số cho trước. Tiếp theo, cho mỗi cặp giá trị của a1 và a2 ta đặt no = o Và n1 =o và Chúng ta sẽ ước lượng giá trị của vl theo các bước sau: n2 = y2 n3 = y3 + a2 n2 n4 = y4 + a1 n1+a2 n2 etc.... sau khi tính tất cả các giá trị của nt ta sẽ ước lượng các thông số q1 Và q2 bởi phương pháp bình phương tối thiểu áp dụng vào phương trình sau: nt = q1nt-1 + q2nt-2 + et và chúng ta sẽ lấy giá trị al, a2 sao cho các tổng bình phương của các thặng dư từ phương trình hồi quy trên tối thiểu. Chú ý phương pháp này chỉ có giá trị trong trường hợp số lượng các thông số cần xác định không nhiều lắm. Ngoài phương pháp bình phương tối thiểu ta còn có thể áp dụng phương pháp cực đại hóa các hàm tương thích. Bước 3: Kiểm tra giá trị của mô hình và dự báo Sau khi các thông số của mô hình được xác định, chúng ta sẽ kiểm định các kết quả của ước lượng này. Các hệ số của mô hình phải khác 0 (kiểm định Student cổ điển). Nếu có một hay nhiều hệ số không thỏa mãn, ta sẽ loại bỏ nó ra khỏi mô hình AR hoặc MA đang xét. Phân tích các giá trị thặng dư được thực hiện từ 2 tiêu chuẩn sau: - Giá trị trung bình số học triệt tiêu, trong trường hợp ngược lại ta nên thêm một hằng số vào mô hình. - Chuỗi giá trị thặng dư là một nhiễu trắng. Các giá trị th.ống kê của Box-pierce và của Ljung-box cho phép kiểm định tính chất này. Nếu nó không phải là một nhiễu trắng ta kết luận mô hình là không hoàn chỉnh và ta phải thêm vào mô hình các bậc bổ sung cần thiết. - Bước kiểm định mô hình rất quan trọng? và có thể ta phải trở lại bước thứ 1 nếu mô hình đề nghị không thích hợp. Một khi mô hình đã được kiểm định, ta có thể tiến hành dự báo giới hạn trong một vài chu kỳ. Phân tích chuỗi thời gian với mô hình SARLMA chỉ cho 81 Tìm các thông tin thích hợp, khử tính chu kỳ, khảo sát và xác định bậc của xu thế Phân tích biểu đồ tương quan đơn và tương quan riêng phần: xác định biến p,q của mô hình AR và MA phép tiến hành các dự báo ngần hạn. Nó không cho phép một dự báo trung hạn và dài hạn với độ chính xác cần có, vì biến độ của sai số gia tăng rất nhanh trong trường hợp này. Chúng ta co thể tóm tắt các bước cơ bản của phương pháp Box-Jenkins như sau: Vi dụ: Áp dụng phương pháp BoxỊjenkins Doanh thu của một công ty trong chu kỳ 01/82 đến 09/90 được trình bày bởi đồ thị sau đây: Kiểm tra mô hình: Phân tích các hệ số và thặng dư 82 Hình 4.7 Hãy phân tích chuỗi trên bằng phương pháp Box-jenkins và dự báo cho doanh số trong 6 tháng tiếp theo (lo/90 - 3/91). Hướng dẫn (Kết quả tính toán được thực hiện với logiciel RATS) Biểu đồ tương quan đơn và biểu đồ tương quan riêng phần của chuỗi trên như sau: 83 Ta thấy trên các biểu đồ tương quan xuất hiện 1 > rất rõ khi k=12. Nhận xét này cho ta kết luận số liệu có tính chu kỳ (T=12 tháng). Để khử tính chu kỳ trong chuỗi, ta sẽ định nghĩa chuỗi Yt nhờ vào một biến đổi như sau: Yt = yt - yt-12 ; t Biểu đồ tương quan đơn và biểu đồ tương quan riêng phần của chuỗi Yt trên như sau: Ta thấy biểu đồ tương quan có cường độ giảm đần rất chậm, điều này có nghĩa là ta có một xu thế trong số liệu. Để khử xu thế ta áp dụng biến đổi sau:(D)Yt = Yt - Yt-1 ; Biểu đồ tương quan của D(YT) như sau: Hình 4.8 84 Ta thấy giá trị đầu tiên của biểu đồ tương quan đơn lớn hơn hẳn sơ với các giá trị tiếp theo, trong khi đó giá trị của biểu đồ tương quan riêng phần giảm từ từ; ta có thể dự đoán đây là một mô hình có dạng MA(1). Tóm lại mô hình đề nghị cho chuỗi số liệu trên như sau SARIMA(0,1,1) với s=12. Kết quả cho từ logiciel RATS như sau: Biến nghiên cứu VENTE -Úớc lượg bởi Box-Jenkins Số lần lập 21 Chuỗi số liệu 83:02 đền 90:09 Số quan trắc hiệu dụng 92 Bộc tự do 90 Hệ số xác định R**2 0.921215 Hệ số xác định hiệu chỉnh 0.920340 Giá trị biến nghiên cứu 646. 71640217 Ú Độ lệch chuẩn của/ biên nghiên cứu 365.92740ố4í Sai số chuẩn hóa của ước lượng 103.28000630 Tổng cá c thặng dư bình phương 960008.37314 Giá trị thông kê Durbin-watson 1.751202 Giá trị thống kê của Ljung-box Q(23-2) 29.883511 a tương ứng của Q 0.09435394 85 Biến Hệ số Độ lệch chuẩn T-student a ****** ****************************************************************** 1 AR(12) 1.058169 0.032803 32.25804 0.000 2. Ma(1) 0.820817 0.060968 -13.46307 0.000 Biểu đồ tương quan đơn và biểu đồ tương quan riêng phần của thặng dư cho bởi mô hình được chọn từ phương pháp Box Jenkins như sau: 86 Để đánh giá chất lượng của mô hình ta phải kiểm tra xem giá trị thặng dư trên có phải là một nhiễu trắng hay không. Sau đây là kết quả của kiểm định Bartlett và Quenouille: Ta thấy cường độ cửa hệ số tương quan đơn và tương quan riêng phần hoàn toàn nằm trong giới hạn cho phép trong cả 2 loại kiểm định. Do đó chuỗi giá trị thặng dư cho bởi mô hình chọn là một nhiễu trắng như mong đợi. 87 Dự báo ngắn hạn: Tiến hành dự báo ngắn hạn về doanh số của công ty cho bởi mô hình Box-jenkins được trình bày trong bảng sau: Thời gian 90:10 90:11 90:12 91:01 91:02 91:03 91:04 Dự báo 1055.3 1480.7 1901.4 676.1 561.8 561.8 714.6 Đỗ thị sau biểu diễn tổng hợp giữa doanh thu trong quá khứ và dự báo ngắn hạn của công ty như sau: 88 89 5.1. Khái niệm Chương 5: DÃY SỐ THỜI GIAN Mặt lượng của hiện tượng thường xuyên biến động qua thời gian. Trong thống kê để nghiên cứu sự biến động này ta thường dựa vào dãy số thời gian. Dãy số thời gian là dãy số các trị số của chỉ tiêu thống kê được sắp xếp theo thứ tự thời gian. Ví dụ: có số liệu về doanh thu của Bưu điện X từ năm 1999 -2003 như sau: ĐVT: tỷ đồng. Năm 1999 2000 2001 2002 2003 Doanh thu 23,9 28,1 37,3 47,2 67,4. Bảng 5.1 Ví dụ trên đây là một dãy số thời gian về chỉ tiêu doanh thu của đơn vị Bưu điện này từ năm 1999- 2003. Qua dãy số thời gian có thể nghiên cứu các đặc điểm về sự biến động của hiện tượng, vạch rõ xu hướng và tính quy luật của sự phát triển, đồng thời để dự đoán các mức độ của hiện tượng trong tương lai. Mỗi dãy số thời gian có hai thành phần: - Thời gian: có thể là ngày, tuần, tháng, quí, năm, ........... Độ dài giữa hai thời gian liền nhau được gọi là khoảng cách thời gian. - Chỉ tiêu về hiện tượng nghiên cứu: chỉ tiêu này có thể là số tuyệt đối, số tương đối, số bình quân. Trị số của chỉ tiêu còn gọi là mức độ của dãy số. * Phân loại dãy số thời gian: Căn cứ vào tính chất thời gian của dãy số, có thể phân biệt thành 2 loại: 1. Dãy số thời kỳ: là dãy số biểu hiện mặt lượng của hiện tượng qua từng thời kỳ nhất định 2. Dãy số thời điểm: là loại dãy số biểu hiện mặt lượng của hiện tượng qua các thời điểm nhất định. Dãy số này còn được phân biệt thành 2 loại: - Dãy số thời điểm có khoảng cách thời gian đều nhau. Ví dụ: Có giá trị và hàng hóa tồn kho của công ty X vào các ngày đầu tháng 1, 2, 3, 4 năm 1995, như sau: 90 n Ngày 1-1 2-1 3-1 4-1 Giá trị hàng tồn kho (triệu đồng) 356 364 370 352 Bảng 5.2 - Dãy số thời điểm có khoảng cách thời gian không đều: Có số liệu về số dư tiền vay ngân hàng của công ty Y, như sau: Ngày (thời điểm) 1-1 20-1 15-2 10-3 Số dư tiền vay (triệu đồng) 400 600 500 700 Bảng 5.3 * Các yếu tố ảnh hưởng đến biến động thời gian: 1. Biến động có xu hướng. 2. Biến động theo thời vụ. 3. Biến động theo chu kỳ. 4. Biến động bất thường. 5.2. Các chỉ tiêu phân tích Để phản ánh đặc điểm biến động qua thời gian của hiện tượng nghiên cứu, người ta thường tính các chỉ tiêu sau đây: 5.2.1. Mức độ trung bình theo thời gian Chỉ tiêu này phản ánh mức độ đại biểu của các mức độ tuyệt đối trong một dãy số thời gian. Mức độ trung bình theo thời gian được xác định theo các công thức khác nhau, tùy theo tính chất thời gian của dãy số. 5.2.1.1 Đối với dãy số thời kỳ: Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho số các mức độ, tức là: y  y  y ...  y ∑ y1 y  1 2 3 n  i1 n n Trong đó: Yi (i = 1,, n): các mức độ của dãy số thời kỳ n: số mức độ của dãy số 91 n Từ ví dụ trên ta doanh thu bình quân mỗi năm của Đơn vị Bưu điện X là: y = (23,9 + 28,1 + 37,3 + 47,2 + 67,4)/5 = 40,78 ( tỷ đồng) Kết quả được nói lên trong thời kỳ từ năm 1996 đến 2000, doanh thu trung bình hàng năm của Bưu điện X là 40,78 tỷ đồng. 5.2.1.2. Đối với dãy số thời điểm: * Dãy số có khoảng cách thời gian bằng nhau: mức độ trung bình được tính theo công thức sau: y = (y1 /2 + y2 + y3 + + yn-1 + yn / 2) / (n -1) Trong đó: yi (i=1,2, . . . ,n) là các mức độ của dãy số thời điểm. n: số mức độ của dãy số Từ ví dụ (2) ta tính y : y = (256 / 2 + 364 + 370 + 352 /2) = 362,666 Có nghĩa là hàng hóa tồn kho trung bình của quý I là 362,666 triệu đồng. * Dãy số thời điểm có khoảng cách thời gian không bằng nhau, mức độ trung bình được tính theo công thức: y t  y t  y t ...  y t ∑ yiti y  1 1 2 2 3 3 n n  i1 t  t  t ...  t n 1 2 3 n ∑ ti i1 Trong đó: yi (i=1,2,3, . . ., n): các mức độ của dãy số thời điểm. ti (i=1,2, . . . , n): độ dài của các khoảng cách thời gian. Từ ví dụ (3), để tính y ta lập bảng sau: y I ti(số ngày) yitI 400 19 (1.1 đến 19.1) 7.6 600 26 (20.1 đến 14.2) 15.6 500 23 (15.2 đến 9.3) 11.5 700 22 (10.3 đến 31.3) 15.4 Cộng 90 ngày 50100 Bảng 5.4 Kết quả trên nói lên số dư tiền vay trung bình của quý I là 556,7 triệu đồng. 92 5.2.2. Lượng tăng hoặc giảm tuyệt đối Là chỉ tiêu phản ảnh sự thay đổi về trị số tuyệt đối của chỉ tiêu giữa 2 thời gian nghiên cứu. Tùy theo mục đích nghiên cứu ta có: 5.2.2.1. Lượng tăng (giảm) tuyệt đối từng kỳ (liên hoàn) Chỉ tiêu này cho thấy lượng tăng (hoặc giảm) tuyệt đối của hiện tượng qua 2 kỳ liền nhau. Công thức tính:   yi  yi1 yi : mức độ của kỳ nghiên cứu yi-1 :mức độ của kỳ đứng liền trước đó. * Nhận xét:một dãy số thời gian có n mức độ thì chỉ có thể tính được nhiều nhất là (n- 1) lượng tăng (giảm) tuyệt đối từng kỳ. Từ ví dụ (1) ta có: 1  y2  y1  3  y3  y2  3  y4  y3  5.2.2.2. Lượng tăng (hoặc) giảm tuyệt đối định gốc Chỉ tiêu này phản ánh lượng tăng (hoặc giảm) của hiện tượng nghiên cứu qua một thời gian dài. Công thức tính:  y  yi  y1 yi : mức độ của kỳ nghiên cứu. y1 : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số). + Mối quan hệ giữa  y và  y Tổng đại số của các lượng tăng (giảm) tuyệt đối từng kỳ bằng lượng tăng (giảm) tuyệt đối định gốc:  y  ∑ yi 5.2.2.3. Lượng tăng giảm tuyệt đối trung bình Chỉ tiêu này phản ánh lượng tăng (giảm) tuyệt đối điển hình của hiện tượng trong cả thời kỳ nghiên cứu:  y  ∑ yi / (n 1)   y / (n 1)  ( yn  y1) / (n 1) 93 5.2.3. Tốc độ phát triển Là một số tương đối (thường được biểu hiện bằng lần hoặc %) phản ánh tốc độ và xu hướng biến động của hiện tượng qua thời gian. (tuỳ theo mục đích nghiên cứu ta có tốc độ phát triển sau đây:) 5.2.3.1. Tốc độ phát triển từng kỳ (liên hoàn) Chỉ tiêu này phản ánh hiện tượng đã phát triển với tốc độ phát triển cụ thể là bao nhiêu qua 2 kỳ liền nhau: ki = yi / (yi -1) (ĐVT: lần hoặc %) * Nhận xét: dãy số thời gian có n mức độ, chỉ có thể tính được nhiều nhất là (n-1) tốc độ phát triển từng kỳ. 5.2.3.2. Tốc độ phát triển định gốc Chỉ tiêu này đánh giá nhịp độ phát triển của hiện tượng nghiên cứu qua 1 thời gian dài. K = yn / y1 (lần) hoặc K= yn x100/ y1 (%) Trong đó: yi : mức độ từng kỳ nghiên cứu (i=2,3, .......... ,n) yi : mức độ kỳ gốc (thường là mức độ đầu tiên của dãy số). * Mối quan hệ giữa K và k: tích số của các tốc độ phát triển từng kỳ bằng tốc độ phát triển định gốc. k1.k2.................... kn-1. = K 5.2.3.2. Tốc độ phát triển trung bình Chỉ tiêu này phản ánh tốc độ phát triển điển hình của hiện tượng trong cả thời kỳ nghiên cứu: k  n1 k1.k2 .k3...k n1 n  n1  ki y n n1 y (lần hoặc %) i1 1 5.2.4. Tốc độ tăng hoặc giảm Là chỉ tiêu cho thấy nhịp độ tăng trưởng của hiện tượng nghiên cứu qua thời gian. 5.2.4.1. Tốc độ tăng (giảm) liên hoàn (từng kỳ) Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua 2 thời kỳ nghiên cứu liền nhau  94 a   y  yi1 yi  yi1 yi 1  k 1 hoặc a = k 100 (%) 5.2.4.2. Tốc độ tăng giảm định gốc Chỉ tiêu này phản ánh hiện tượng đã tăng (hoặc giảm) với tốc độ là bao nhiêu qua 1 thời gian dài. b   y y1  yi  y1  K 1 y1 (lần) hoặc b = K – 100 (%) 5.2.4.3. Tốc độ tăng (giảm) trung bình Chỉ tiêu này cho thấy nhịp độ tăng (giảm) điển hình của hiện tượng trong cả thời kỳ nghiên cứu. a  k 1 (lần) hoặc a  k 100 (%) 5.2.5. Trị tuyệt đối của 1% tăng (hoặc giảm) Chỉ tiêu này dùng để đánh giá trị số tuyệt đối tương ứng với 1% của tốc độ tăng (hoặc giảm) từng kỳ. c   y  yi  yi1  yi1 a k 100 100 (ĐVT trùng với ĐVT của lượng biến) 5.3. Các phương pháp biểu hiện xu hướng phát triển của hiện tượng 5.3.1. Phương pháp mở rộng khoảng cách thời gian Phương pháp này được sử dụng khi 1 dãy số thời kỳ có khoảng cách thời gian tương đối ngắn và có nhiều mức độ mà qua đó chưa phản ánh được xu hướng biến động của hiện tượng. Ví dụ: Có tài liệu về sản lượng hàng tháng của năm 1999 ở 1 xí nghiệp như sau: 95 Tháng Sản lượng Tháng Sản lượng (1.000 tấn) (1.000 tấn) 1 40,4 7 40,8 2 36,8 8 44,8 3 40,6 9 49,4 4 38,0 10 48,9 5 42,2 11 46,2 6 48,5 12 42,2 Bảng 5.5 Dãy số trên cho thấy sản lượng các tháng thì tăng, khi thì giảm thất thường, không nói rõ xu hướng biến động. Người ta có thể mở rộng khoảng cách thời gian từ tháng sang quý: Quý Sản lượng (1.000 tấn) 1 117,8 2 128,7 3 135,0 4 137,3 Bảng 5.6 Do khoảng cách thời gian được mở rộng (từ tháng sang quý), nên trong mỗi mức độ của dãy số mới chịu sự tác động của các nhân tố ngẫu nhiên (với chiều hướng khác nhau) phần nào đã được bù trừ (triệt tiêu) và do đó cho ta thấy rõ xu hướng biến động cơ bản là: tình hình sản xuất của xí nghiệp tăng dần từ quý 1 đến quý 4 của năm 1999. 5.3.2. Phương pháp số trung bình trượt Số trung bình trượt (còn gọi là số trung bình di động) là số trung bình cộng của 1 nhóm nhất định các mức độ của dãy số được tính bằng cách lần lượt loại dần các mức độ đầu, đồng thời, thêm vào các mức độ tiếp theo, sao cho tổng số lượng các mức độ tham gia tính số trung bình không thay đổi. Giả sử có dãy thời gian y1 ,y2 ,y3, . . . yn-1 ,yn Nếu tính trung bình trượt cho nhóm 3 mức độ, ta sẽ có: y2  ( y1  y2  y3 ) / 3 96 y3  ( y2  y3  y4 ) / 3 y2  ( y3  y4  y5 ) / 3 . . yn1  ( yn2  y21  yn ) / 3 Từ đó, ta có 1 dãy số mơi gồm các số trung bình trượt là y2 , y3 ,..., yn1 Từ ví dụ (*), tính số trung bình trượt cho nhóm 3 mức độ, ta có : Tháng Sản lượng Số trung bình Tháng Sản lượng Số trung bình trượt yi trượt yi 1 40,4 7 40,8 44,7 2 36,8 39,3 8 44,8 45,0 3 40,6 38,5 9 49,4 47,7 4 38,0 40,3 10 48,9 48,2 5 42,2 42,9 11 46,4 45,8 6 48,5 43,8 12 42,2 Bảng 5.7 Trung bình trượt càng được tính từ nhiều mức độ thì càng có tác dụng san bằng ảnh hưởng của các nhân tố ngẫu nhiên. Nhưng mặt khác bị làm giảm số lượng các mức độ của dãy trung bình trượt. 5.3.3. Phương pháp hồi quy Trên cơ sở dãy số thời gian, người ta tìm một hàm số (gọi là phương trình hồi quy) phản ánh sự biến động của hiện tượng qua thời gian có dạng tổng quát như sau: Trong đó: a0, a1, ......................................... , an : các tham số. t: thứ tự thời gian. Để lựa chọn đúng đắn dạng của phương trình hồi quy đòi hỏi phải dựa vào sự phân tích đặc điểm biến động của hiện tượng qua thời gian, đồng thời kết hợp với một số phương pháp đơn giản khác (như dựa vào đồ thị, dựa vào độ tăng (giảm) tuyệt đối, dựa vào tốc độ 97 phát triển, ....... ) Các tham số ai (i= 1,2,3, . . . ,n) thường được xác định bằng phương pháp bình phương nhỏ nhất. Tức là: ∑ ( y LT  yTT ) 2  min Sau đây là 1 số dạng phương trình hồi quy đơn giản thường được sử dụng: _ Phương trình đường thẳng: y = a0 + a1t Phương trình đường thẳng được sử dụng khí các lượng tăng (hoặc giảm) tuyệt đối liên hoàn (còn gọi là sai phân bậc 1) xấp sỉ nhau. Để xác định a0 và a1: ta áp dụng phương pháp bình phương nhỏ nhất. Từ đó a0 và a1 được xác định bởi hệ phương trình sau: n n ∑ y  na0  a1 ∑t i 1 i 1 (*) n n n ∑ yt  a ∑t  a ∑t 2 i 1 0 1 i1 i1 Ví dụ: Có số liệu về doanh thu của một đơn vị sản xuất qua các năm như sau: Năm 1998 1999 2000 2001 2002 Doanh thu (Tỷ đồng) 30 32 31 34 33 Để tính a0 và a1 cho ví dụ này, ta lập bảng sau: Năm y t t 2 ty yLTt 1998 30 1 1 30 30,4 1999 32 2 4 64 31,2 2000 31 3 9 93 32,0 2001 34 4 16 136 32,8 2002 33 5 25 165 33,6 160 15 55 488 98 1 Thế các giá trị tương ứng trong bảng vào hệ phương trình trên (*) ta được: 160  5a0 15a1 488  15a  55a 0 1 Từ đây ta tính được a0 = 29,6 và a1 = 0,8. Thế các giá trị t lần lượt từ 1 đến 5 tương ứng với thời gian từ năm 1998 đến năm 2002 ta tính được các giá trị doanh thu theo đường hồi quy lý thuyết y= a0 + a1t là các giá trị trong cột yLTt. Ta nhận thấy rằng: biến t là biến thứ tự thời gian, ta có thể thay t bằng t' (nhưng vẫn đảm bảo tính thứ tự), sao cho ∑t, = 0 thì việc tính toán sẽ đơn giản hơn. Có 2 trường hợp: 1. Nếu thứ tự thời gian là số lẻ thì lấy thời gian đứng ở giữa bằng 0, các thời gian đứng trước là -1, -2, -3 và t đứng sau là 1, 2, 3. 2. Nếu thứ tự thời gian là số chẵn thì lấy hai thời gian đứng giữa là -1 và 1, các thời gian đứng trược lần lượt là -3, -5, . . . và đứng sau lần lượt là 3, 5, . . . Với ∑t' =0 thì hệ phương trình trên sẽ là: ∑ y = na0 => a0 = ∑ y /n ∑t ' y = a ∑t 2 => a1 = ∑t ' y / ∑ t '2 Khi đó: yLT’ = a'0 +a'1t' Với cách chọn ∑ t ' = 0, ta lập bảng sau: Năm y t' t'2 t'y yLTt 1998 30 -2 4 -60 30,4 1999 32 -1 1 -32 31,2 2000 31 0 0 0 32,0 2001 34 1 1 34 32,8 2002 33 2 4 66 33,6 160 0 10 8 Bảng 5.8 a0 = 160 / 5 = 32 ; a1 = 8 /10 = 0,8 yT’ =32 + 0,8t' (*) 99 Để dự đoán sản lượng cho năm 2003 thế t = 3 vào phương trình (*) ta được y = 32+0,8*3 = 34,4 (tỷ đồng) Với hai cách chọn ∑t # 0 và ∑t = 0, ta thấy kết quả vẫn như nhau. 5.3.4. Phương pháp biểu hiện biến động thời vụ Sự biến động của một số hiện tượng trong kinh tế xã hội thường có tính thời vụ, nghĩa là hàng năm trong từng thời gian nhất định, sự biến động được lặp đi lặp lại. Nghiên cứu biến động thời vụ nhằm đề ra những chủ trương biện pháp phù hợp, kịp thời, hạn chế những ảnh hưởng của biến động thời vụ đối với sản xuất và sinh hoạt của xã hội. Nhiệm vụ của nghiên cứu thống kê là dựa vào số liệu của nhiều năm (ít nhất là ba năm) để xác định tính chất và mức độ của biến động thời vụ. Phương pháp này thường được sử dụng để tính các chỉ số thời vụ. Chỉ số thời vụ được tính theo công thức: Ii   yi / y0  x100(%) Trong đó: Ii số thời vụ của thời gian i. yi : Số bình quân của các mức độ cùng thời gian i. y0 : Số bình quân của tất cả các mức độ trong dãy số. Ví dụ: Có số liệu về sản lượng điện thoại đường dài của một đơn vị Bưu điện qua các năm như sau: 100 Tháng Sản lượng điện thoại đường dài (cuộc) Cộng các tháng cùng tên ( yi ) Bình quân các tháng cùng tên ( yi ) Chỉ số thời vụ Ii = (yi / yi )x100 1997 1998 1999 A 1 2 3 4 5 6 7 1 137.139 184.326 241.892 563.357 187.785 72.38 361.937 2 130.009 213.218 270.682 613.909 204.636 78.88 394.415 3 159.241 234.3 350.684 744.255 248.075 95.62 478.158 4 147.674 222.667 338.037 708.378 236.125 91.02 455.108 5 148.589 236.26 353.488 738.337 246.112 94.87 474.356 6 162.643 229.976 368.601 761.22 253.74 97.81 489.058 7 160.598 235.483 376.304 772.385 257.461 99.25 496.231 8 172.235 246.789 383.399 802.423 267.474 103.1 515.529 9 180.119 249.628 410.292 840.039 280.013 107.9 539.696 10 181.161 254.651 421.905 857.717 285.905 110.2 551.054 11 185.552 246.818 415.502 847.872 282.624 108.94 544.729 12 197.785 259.143 632.233 1089.16 363.053 139.95 699.748 Cộng 9.339.023 Bảng 5.9 y  9.339.023  1.037.669 36 (cuộc) Qua kết quả trình bày ở bảng trên ta thấy sản lượng điện thoại đường dài trong nước tăng cao nhất ở những tháng cuối năm (gần tết) và giảm thấp nhất ở tháng giêng và tháng hai. Giả sử kế hoạch sản lượng điện thoại cho năm 2000 là 6 000 000 cuộc thì ta dự đoán sản lượng của từng tháng của năm 2000 sẽ là: các sản lượng trong cột (7)

Các file đính kèm theo tài liệu này:

giao_trinh_phan_tich_du_lieu_va_du_bao_kinh_te_phan_2.pdf