Bài giảng Phương pháp chỉ số dẫn báo và ứng dụng trong phân tích dữ liệu - Đỗ Văn Thành
Bước 1: Tìm chỉ số báo trước của dVNINDEX
Ø Tính chất tập dữ liệu: tất cả các biến dữ liệu giao dịch CP đều dừng;
VNINDEX không dừng nhưng dVNINDEX dừng;
Bước 2: Lựa chọn chỉ số báo trước làm biến giải thích
- Thực hiện tính hệ số tương quan mẫu giữa các chỉ số dẫn báo với
dVNINDEX
- Xác định ngưỡng của hệ số tương quan mẫu: có trị tuyệt đối ≥
0.0399. Có 6 biến dữ liệu như vậy
48 trang |
Chia sẻ: huongthu9 | Lượt xem: 531 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Phương pháp chỉ số dẫn báo và ứng dụng trong phân tích dữ liệu - Đỗ Văn Thành, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Phương pháp chỉ số dẫn báo và ứng dụng
trong phân tích dữ liệu
PSG.TS.Đỗ Văn Thành
Đại học Nguyễn Tất Thành
NỘI DUNG TRÌNH BẦY
1. Sơ lược về Phân tích dữ liệu và kỹ thuật phân tích dữ liệu
2. Mục đích của bài giảng
3. Một số khái niệm cần thiết
4. Chỉ số dẫn báo – Quan hệ nhân quả
5. Chỉ số đồng thời – Quan hệ đồng tích hơp
6. Hồi quy với biến chuỗi thời gian
7. Case Study: Dự báo chỉ số kinh tế vĩ mô theo quý bằng sử
dụng các chỉ số báo trước và báo đồng thời
8. Case Study: Dự báo chỉ số VNINDEX bằng ứng dụng
phương pháp chỉ số báo trước (hay dẫn báo)
Khoa học dữ liệu
Phân tích dữ liệu (Data Analysis)
¡ Data Analysis (DA): là quá trình kiểm tra, làm sạch,
chuyển đổi, và mô hình hóa dữ liệu với mục đích tìm
được những thông tin hữu ích, gợi ý kết luận và hỗ trợ
ra quyết định.
¡ Data Analysis vs Data mining (DM): DM là kỹ thuật
DA cụ thể, nó tập trung vào việc mô hình hóa và phát
hiện tri thức để dự báo, dự đoán chứ không phải tập
trung vào mục đích mô tả.
¡ DA vs Business Intelligence (BI): bao gồm DA, BI tập
trung vào các thông tin kinh doanh, nó chủ yếu dựa vào
tích hợp thông tin.
4
Các kỹ thuật phân tích dữ liệu
1. Các kỹ thuật khai phá dữ liệu (DM),
2. Các kỹ thuật phân tích thông kê: Phân tích thống kê mô
tả, phân tích thông kế nhiều chiều, phân tích dữ liệu
dạng hàm (bao gồm phân tích thành phần chính dạng
hàm), phân tích dữ liệu chuỗi thời gian dạng hàm và
chuỗi thời gian mờ,
3. Phân tích text, BI, trực quan hóa dữ liệu.
4. Các kỹ thuật học máy khác,
5
Tình hình ứng dụng các kỹ thuật khai phá dữ liệu
(DM)
1. Sở dĩ cây quyết định được
sử dụng nhiều nhất bởi: mọi
hoạt động của con người đều
liên quan đến ra quyết định và
cây quyết định là kỹ thuật
không quá phức tạp
2. Phương pháp hồi quy có
lịch sử nghiên cứu và ứng
dụng rất lâu dài và có rất
nhiều kiểu hồi quy, ký thuật
đã đạt mức độ tinh tế
3. Phương pháp hồi quy đặc
biệt được ứng dụng nhiều
trong các lĩnh vực KT-XH.
II. MỤC ĐÍCH BÀI GiẢNG
¡ Bài giảng sẽ giới thiệu:
1. Chỉ số báo trước, chỉ số báo đồng thời và phương pháp xác định
các chỉ số này
2. Mô hình dự báo được xây dựng dựa trên các chỉ số báo trước, chỉ
số báo đồng thời;
3. Phân tích thông tin rút ra từ mô hình
4. Case Study: Ứng dụng chỉ số báo trước, báo đồng thời trong việc
dự báo chỉ số kinh tế vĩ mô/cảnh báo kinh tê theo quý cho Việt
Nam
5. Case Study: Ứng dụng chỉ số báo trước trong việc xây dựng mô
hình dự báo không điều kiện chỉ số VNINDEX;
7
III. MỘT SỐ KHÁI NIỆM CẦN THIẾT
1. Khái niệm biến trễ
2. Khái niệm sai phân (thường, mùa vụ)
3. Chuỗi dừng: hồi quy với các biến chuỗi thời gian
không dừng có thể là hồi quy sai.
4. Phương pháp đưa chuỗi thời gian không dừng về chuỗi
dừng
5. Kiểm định chuỗi dừng trong thực tế ứng dụng
Hiểu biến trễ thế nào ?
Hiểu biến trễ như thế nào ?
¡ Ví dụ: Có 10 quan sát đối với biến Y và X (t =1,,10) và để
chạy mô hình hồi qui Y theo biến X, X trễ, X trễ 2 thời kỳ, X trễ
3 thời kỳ thì làm thể nào ? Thực chất phải ước lượng Phương
trình:
Khái niệm sai phân
¡ Sai phân thường
Sai phân mùa vụ
Khái niệm chuỗi dừng
Công thức tổng quát chuyển chuỗi không có
xu thế, không dừng thành dừng
Các phương pháp biến đổi chuỗi thời gian
thành chuỗi dừng
1. Dùng hàm biến đổi: log, căn bậc 2,
2. Dùng phép sai phân
3. Khử xu thế: cho chuỗi Yt, Hồi quy Y theo t
• Đặt Zt = Yt –(a+bt): thực chất là chuỗi phần dư trong
phép hồi quy nêu trên
Nhìn chung phải kết hợp đồng thời cả 3 phép biến đổi
trê mới chuyển được một chuỗi không dừng thành
chuỗi dừng
Triển khai ứng dụng trong thực tế
(kiểm định nghiệm đơn vị: ADF)
Hồi quy: Yt = a* Yt -1 + b
1) Yt: không có nghiệm đơn vị
(a<1): Yt dừng không có hệ số
chặn;
2) Yt - a: không có nghiệm
đơn vị ; Yt dừng có hệ số chặn;
3) Yt – (a + b*t) không có
nghiệm đơn vị: Yt dừng xu thế.
Trong các phần mềm thống
kê thường ký hiệu: d(X)/dX là
sai phần bậc 1 của X
Yt: không dừng nhưng:
1) d(Yt ) dừng, thì Yt được gọi
là dừng sai phân bậc 1 không có
hệ số chặn;
2) d(Yt ) - a: dừng thì Yt đgl
dừng sai phân bậc 1 có hệ số
chặn;
3) d(Yt ) – (a + b*t) dừng, thì Yt
đgl dừng sai phân bậc 1 có xu
thế.
4) Tương tự cho sai phân bậc 2,
3.
16
Một số lưu ý
Trong lĩnh vực KT-XH: thay vì làm việc với biến kinh
tế X người ta thường làm việc với lô ga cơ số tự nhiên của
X (cơ số e) và thường được ký hiệu log(X), vì 2 lý do
chính sau:
1). Log(X) là phép biến đổi thường được sử dụng để
chuyển một chuỗi không dừng thành chuỗi dừng;
2) (Quan trọng hơn): dlog(X) xấp xỉ bằng tốc độ thay
đổi của X,
Thông lệ này phổ biến đến mức người ta nói về biến X
nhưng thực ra đang làm việc với log(X) mà không cần bất
kỳ giải thích gì thêm.
IV. CHỈ SỐ BÁO TRƯỚC - QUAN HỆ NHÂN QUẢ
1. Chỉ số tác động: là biến mà sự biến động của nó có quan hệ
ổn định đến biến động của một số biến (chỉ số) khác.
2. Chỉ số tác động có 3 loại (2 loại đầu là quan trọng nhất)
1) Chỉ số báo trước (Leading Indicator): sự biến động của nó báo
trước cho sự biến động của một số chỉ số khác;
2) Chỉ số báo đồng thời (Coincident Indicator): nó và chỉ số mà nó
có quan hệ ổn định: xẩy ra đồng thời, nó có tác động đồng thời;
3) Chỉ số báo sau (Lag Indicator) cung cấp thông tin biến động
trước đó của chỉ số mà nó có quan hệ.
3. PT&DB KT-XH: cần xem xét đồng thời cả 3 chỉ số này.
4. Grange-Engle (Nobel 2004): Là người đặt nền móng về
nghiên cứu và ứng dụng của chỉ số báo trước và báo đồng thời.
CHỈ SỐ BÁO TRƯỚC & QUAN HỆ NHÂN QUẢ
Kiểm định quan hệ nhân quả
1) Kiểm định quan hệ nhân quả (QHNQ) được thực hiện
dựa theo 2 công thức (1) và (2) đã nêu;
2) Kiểm định quan hệ nhân quả Granger: xem n=m=p=q
với giả thuyết H0: “biến X không là quan hệ nhân quả
của biến Y” .
Sau đó kiểm tra giá trị xác suất của phân phối T
(Student) để bác bỏ hay chấp nhận giả thuyết.
3) Kiểm định QHNQ Granger là có sẵn trong phần mềm
R hoặc Eview.
V. QUAN HỆ ĐỒNG TÍCH HỢP VÀ CHỈ SỐ BÁO
ĐỒNG THỜI
Kiểm định quan hệ đồng tích hợp
Quan hệ đồng tích hơp (tổng quát)
23
Kiểm định Quan hệ đồng tích hợp
Mô hình hiệu chỉnh sai số: ECM
Ước lượng mô hình hiệu chỉnh sai số
Mô hình hiệu chỉnh sai số tổng quát
VI. HỒI QUY VỚI BIẾN CHUỖI THỜI GIAN
¡ Trước khi chạy hồi qui bất kỳ chuỗi thời gian nào, cần
phải kiểm tra các tính chất đơn biến của các biến, trong
đó đặc biệt là kiểm định nghiệm đơn vị.
¡ Dưới đây giả thiết các biến Y và X cùng kiểu dừng
Hồi qui chuỗi thời gian khi X, Y là dừng
¡ Nhân tử dài hạn đánh giá tác động X đến Y:
ρ
θ1−
Hồi qui chuỗi thời gian khi X, Y không dừng
nhưng có quan hệ đồng tích hợp
Hồi qui chuỗi thời gian khi X, Y có nghiệm đơn
vị nhưng không là đồng tích hợp
Dự báo kiểm định – đánh giá độ chính xác dự báo
32
VII. DỰ BÁO CHỈ SÔ KINH TẾ VĨ MÔ THEO QUÝ - SỬ
CÁC CHỈ SỐ DẪN BÁO
¡ Tập số liệu các biến: từ 1995Q1 đến 2012Q3, Nguồn: TCTK
33
Kiểm định tính dừng của các chỉ số KTVM theo quý
Phát hiện quan hệ nhân quả giữa các biến kinh tế
vĩ mô quý (trễ 4)
35
Mô hình dự báo XK theo quý sử dụng chỉ số dẫn báo
36
Phát hiện quan hệ đồng tích hợp và chỉ số báo
đồng thời
Mô hình dự báo XK theo quý sử dụng Quan hệ đồng
tích hợp
38
Mô hình hiệu chỉnh sai số (ECM): dự báo XK
Đánh giá chất lượng dự báo bằng mô hình
40
VIII. DỰ BÁO VNINDEX BẰNG ỨNG DỤNG PHƯƠNG
PHÁP CHỈ BÁO TRƯỚC
41
ÁP DỤNG PHƯƠNG PHÁP: DỰ BÁO VNINDEX
Tập dữ liệu để dự báo: 277 biến dữ liệu giao dịch CP và chỉ số
VNINDEX, từ 4/1/2010 đến 5/5/2016 (1574 quan sát).
Bước 1: Tìm chỉ số báo trước của dVNINDEX
Ø Tính chất tập dữ liệu: tất cả các biến dữ liệu giao dịch CP đều dừng;
VNINDEX không dừng nhưng dVNINDEX dừng;
42
ÁP DỤNG PHƯƠNG PHÁP: DỰ BÁO VNINDEX
Bước 2: Lựa chọn chỉ số báo trước làm biến giải thích
- Thực hiện tính hệ số tương quan mẫu giữa các chỉ số dẫn báo với
dVNINDEX
- Xác định ngưỡng của hệ số tương quan mẫu: có trị tuyệt đối ≥
0.0399. Có 6 biến dữ liệu như vậy.
43
Các biến dữ liệu là nguyên nhân Gr, hệ số tương
quan với DVNINDEX
44
ÁP DỤNG PHƯƠNG PHÁP: DỰ BÁO VNINDEX
Bước 3: Xây dựng mô hình dự báo
- Chia Tập dữ liệu thành 2: tập thứ nhất từ 4/1/2010 đến 22/4/2016;
tập thứ 2: còn lại;
- Thực hiện hồi quy d(log(VNINDEX)) theo các chỉ số dẫn báo được
chọn theo công thức:
- Quá trinh hồi quy phải kiểm định: mô hình cần ổn định, phần dư phải
nhiễu trắng,
45
Mô hình dự báo chỉ số VNINDEX
46
Một vài kết luận
- Ưu: PP được áp dụng cho nhiểu chỉ số KT-XH, kể cả giá, giá trị
dao dịch của một số cổ phiếu nào đó; Độ chính xác dự báo là khá
cao; Là mô hình dự báo không điều kiện; thích hợp với dự báo
ngắn hạn;
- Nhược: chỉ đưa được 6/38 chỉ số dẫn báo vào mô hình, thiếu các
biến kinh tế - tài chính khác (rất khó có theo ngày, chỉ có được
khi điều tra); quan hệ nhân quả thường thay đổi nên phải cập
nhật; Để dự báo trung và dài hạn VNINDEX: cần sử dụng mô
hình dự báo có điều kiện;
47
HỎI VÀ ĐÁP
Các file đính kèm theo tài liệu này:
- bai_giang_phuong_phap_chi_so_dan_bao_va_ung_dung_trong_phan.pdf