4. Introduction
Các phương pháp và hệ thống kỹ thuật được sử dụng thường xuyên trong các ứng dụng thị trường tài
chính:
• Xử lý tín hiệu
• Lý thuyết điều khiển
• Phương pháp thống kê tiên tiến
Thành công gần đây của Machine Learning đã thu hút sự quan tâm của cộng đồng tài chính, họ tìm
kiếm các thành công từ các lĩnh vực khác: như thị giác máy tính, NLP để tăng cường mô hình hóa thị
trường tài chính
Trong luận án này khám phá cách giải quyết vấn đề phân bố tài sản bằng cách học tang cường
(reinforcement learning) một nhánh của Machine Learning giải quyết tối ưu các vấn đề ra quyết định
tuần tự
6. Xử Lý tín hiệu tài chính
• Các ứng dụng tài chính thường liên quan đến việc thao tác và phân tích các choỗi quan
sát, được lập chỉ mục theo thứ tự thời gian, còn được gọi là choỗi thời gian
• Xử lý tín hiệu cung cấp một hộp công cụ phong phú để
+ Phân tích
+ Mô hình hóa
+ Dự báo choỗi thời gian có hệ thống
• . Do đó, các phương pháp xử lý tín hiệu có thể được sử dụng để xây dựng toán học và giải quyết
các vấn đề kinh tế cơ bản và kinh doanh.
7. Xử lý tín hiệu tài chính
2.1 Điều khoản và khái niệm tài chính
2.1.1 Tài sản
• Một tài sản là một mặt hang có giá trị kinh tế
VD: tiền mặt, cổ phiếu, đi vay, thu thập tích lũy, v.v..
• Trọng tâm chính trong báo cáo này là tiền mặt và cổ phiếu
8. Xử Lý tín hiệu tài chính
2.1.2 Danh mục đầu tư
• Là tập hợp của nhiều tài sản
• . Wi,t đặc chưng cho tỉ lệ trong tổng số ngân sách đầu tư vào tài sản thứ i
• Rủi ro được biểu thị bằng độ lệch chuẩn hoặc độ rộng của các đường cong phân
phối,
Thấy rằng số lượng danh mục đầu tư lớn (M = 100) có thể rủi ro ít hơn đáng kể so với
một tài sản (M = 1).
9. Xử Lý tín hiệu tài chính
2.2 Chuỗi thời gian tài chính
• Bản chất năng động của nền kinh tế, là kết quả của sự cân bằng cung và cầu biến động,
khiến giá cả phát triển theo thời gian. Điều này coi biến động thị trường là chuỗi thời gian
và sử dụng các phương pháp và công cụ kỹ thuật để phân tích và mô hình hóa.
2.2.1 Giá
• Kí hiệu pt là giá của tài sản tại thời điểm t, pi,t là giá của tài sản thứ i tại thời điểm t
• Tổng quát ta có ma trận tài sản đa biến
Công thức này cho phép phân tích tài sản và
xem xét sự phụ thuộc lẫn nhau giữa các tài sản
khác nhau.
10. Xử Lý tín hiệu tài chính
2.2.2 Lợi nhuận
Giá tài sản không hữu ích trực tiếp cho một nhà đầu tư
Mặt khác, giá cả thay đổi theo thời gian có tầm quan trọng rất lớn, vì chúng phản ánh lợi
nhuận và thua lỗ đầu tư, hay nói ngắn gọn hơn là lợi nhuận của nó.
• Lợi nhuận gộp (gross return): Lợi nhuận gộp của một tài sản thể hiện hệ tỷ lệ của khoản đầu tư
vào tài sản tại thời điểm (t - 1)
11. Xử Lý tín hiệu tài chính
• Lợi nhuận ròng (simple return)
Một thuật ngữ được sử dụng phổ biến hơn là lợi nhuận ròng, đại diện cho phần trăm thay đổi
giá tài sản từ thời điểm (t - 1) đến thời điểm t:
2.3 Tiêu chí đánh giá
2.3.1 Thống kê
Mean:
Median:
Mode:
Varian:
12. Xử Lý tín hiệu tài chính
2.3.2 Rủi ro tài chính và chỉ số hiệu suất
• Lợi nhuận tích lũy
Chúng ta đã xác định lợi nhuận liên quan đến thay đổi giá tài sản trong một khoảng thời gian.
Tuy nhiên, chúng tôi thường tham gia vào một khoản đầu tư nhiều kỳ, do đó chúng ta đang
mở rộng định nghĩa về lợi nhuận thành lợi nhuận tích lũy, đại diện cho sự thay đổi giá tài sản
trong khoảng thời gian lớn hơn.
• Hệ số sharp: là một thước đo xem lợi nhuận thu được là bao nhiêu trên một đơn vị rủi ro
khi đầu tư vào một tài sản
Trong đó T là số lượng mẫu xét
13. Xử Lý tín hiệu tài chính
2.4 Phân tích chuỗi thời gian
2.4.1 Vector autoregression (VAR)
Autoregression (AR) có thể mô hình hóa chuỗi thời gian đơn biến và chỉ định các giá trị
tương lai của chuỗi phụ thuộc tuyến tính vào các giá trị trước của chuỗi.
2.4.2 Recurrent Neural Networks (RNN)
St và xt là trạng thái hệ thống và tín hiệu đầu vào tại thời điểm t
f một hàm được tham số hóa bởi ánh xạ trạng thái trước đó và tín hiệu đầu vào sang
trạng thái mới.
15. Tối ưu hóa danh mục đầu tư
3.1. Mô hình Markowitz
Mô hình Markowitz đã hình thành một công thức toán học vấn đề phân bố danh mục đầu tư
Mô hình Markowitz cung cấp vectơ danh mục đầu tư tối ưu w ∗ giúp giảm thiểu biến động
cho một mức lợi nhuận nhất định
3.1.1 Tối ưu phương sai trung bình
Đối với lợi nhuận mục tiêu đã cho, lợi nhuận được mong đợi, hãy xác định vectơ danh mục đầu tư
w sao cho:
σ2 = wT Σw là phương sai danh mục đầu tư
wT µ là lợi nhuận kì vọng
Ta có hàm Lagrangian:
Muốn tìm min chúng ta đạo hàm:
16. Xử Lý tín hiệu tài chính
3.1.2 Quadratic Programming
Phương trình trên cho thấy bán khống(short selling) được cho phép.
Nếu việc bán khống không được phép:
Giải ma trận tính phương sai trung bình
tối ưu:
17. Xử Lý tín hiệu tài chính
4.1 Dynamical Systems
Học tăng cường phù hợp trong việc điều khiển tối ưu các hệ thống động lực, Bộ điều khiển (Agent)
nhận trạng thái điều khiển của hệ thống và hồi đáp liên quan đến quá trình chuyển trạng thái cuối
cùng. Sau đó, nó tính toán một tín hiệu điều khiển được gửi trở lại hệ thống. Đáp lại, hệ thống thực
hiện chuyển đổi sang trạng thái mới và chu trình được lặp lại. Mục tiêu là học cách kiểm soát hệ
thống (chính sách) để tối đa hóa tổng số phần thưởng
18. Xử Lý tín hiệu tài chính
4.1.2 Hoạt động
• Hành động là tín hiệu điều khiển mà tác nhân gửi lại cho hệ thống theo chỉ số thời gian
t.
• Đó là cách duy nhất mà tác nhân có thể ảnh hưởng đến trạng thái môi trường và kết quả
là dẫn đến các chuỗi tín hiệu reward khác nhau
A = {a1, a2, . . . , aM};
4.1.3 Reward
reward rt ∈ B là tín hiệu phản hồi vô hướng, cho biết tác nhân hoạt động tốt như thế nào
ở bước thời gian rời rạc t. Các tác nhân nhằm mục đích tối đa hóa phần thưởng tích lũy,
qua một chuỗi các bước.
4.2 Agent & Environment
• Thuật ngữ tác nhân được sử dụng để chỉ bộ điều khiển môi trường được sử dụng thay thế cho
thuật ngữ hệ thống
• Mục tiêu của thuật toán học tăng cường là phát triển (đào tạo) một tác nhân có khả năng tương
tác thành công với môi trường, sao cho nó tối đa hóa một số mục tiêu vô hướng theo thời gian.
19. Xử Lý tín hiệu tài chính
4.2.1 Return
4.2.2 Policy
Trong đó S là tập trạng thái
A là tập hành động
4.2.3 Gí trị hàm
Hàm giá trị trạng thái, vπ, là lợi nhuận kỳ vọng, Gt, bắt đầu từ
trạng thái s, sau đó tuân theo chính sách π
4.2.4 Mô hình Một mô hình dự đoán trạng thái tiếp theo của
môi trường st + 1 và tín hiệu phần thưởng tương ứng rt + 1,
đưa ra trạng thái hiện tại, st và hành động được thực hiện tại,
tại thời gian t. Nó có thể được biểu diễn bằng ma trận xác
suất chuyển trạng thái P được cho bởi:
4.2. Các thành phần chính của học tang cường
Học tăng cường có thể bao gồm một hoặc nhiều thành phần sau đây
20. Xử Lý tín hiệu tài chính
4.3.2 Định nghĩa
Bất kỳ môi trường thỏa mãn phương trình trên, có thể được mô hình hóa như một Quy
trình quyết định Markov (MDP). Quy trình ra quyết định của Markov là một đối tượng trong
đó:
• S là tập hữu hạn các trạng thái sao cho chúng thỏa mãn Markov
• A là tập hợp hữu hạn của hành động
• P là ma trận xác suất chuyển trạng thái
• R là hàm tạo phần thưởng
• γ là hệ số chiết khấu.
4.3 Quy trình quyết định Markov
4.3.1 Markov Property
Một trạng thái St thỏa mãn thuộc tính Markov khi và chỉ khi :
21. Part 2 - Innovation
• Financial Market as Discrete-Time Stochastic
Dynamical System
• Trading agents
• Pre-Training
23. Financial Market as Discrete-Time Stochastic Dynamical System
• Trading agent quay ngược thời gian tại một thời điểm trong lịch sử thị trường, không biết
bất kỳ thông tin thị trường nào trong tương lai.
• Giả sử thị trường:
+ Đủ thanh khoản
+ Không trượt giá
+ Tác động thị trường bằng không
5.1 Assumptions
• Tất cả đều thực tế nếu khối lượng tài sản giao dịch trên thị trường đủ cao.
24. Financial Market as Discrete-Time Stochastic Dynamical System
• Để giải quyết bài toán phân bố tài sản: Trading agent phải xác định vector danh mục đầu
tư wt ở mọi thời điểm t => hành động at tại thời điểm t là vector danh mục đầu tư wt + 1
• Vậy, tập hành động A là tập con của không gian thực M chiều RM :
5.2 Action Space
25. Financial Market as Discrete-Time Stochastic Dynamical System
• Tuy nhiên, trong cả hai trường hợp, tập hành động A đều vô hạn (liên tục) => thị trường
tài chính được coi là Quy trình quyết định vô hạn Markvo (IMDP)
• Nếu bán khống bị cấm, khối lượng danh mục đầu tư không âm
26. Financial Market as Discrete-Time Stochastic Dynamical System
• Tại bất kì thời điểm nào, chúng ta chỉ có thể quan sát giá tài sản => vector giá pt là quan
sát ot
• Vậy, tập quan sát O là tập con của không gian thực dương M chiều R+
M vì giá là giá trị thực
không âm.
5.3 State & Observation Space
5.3.1 Observation
27. Financial Market as Discrete-Time Stochastic Dynamical System
• Nhưng giá một kỳ không thể nắm bắt được hoàn toàn trạng thái thị trường
thị trường tài chính có thể quan sát được một phần
Phương trình 4.3 không thỏa mãn
• Giả sử trang thái agent ≈ trạng thái environment
• Chúng ta sẽ xây dựng the agent’s state bằng cách xử lý các observation
Hai phương án được đề xuất:
28. Financial Market as Discrete-Time Stochastic Dynamical System
• Để hỗ trợ và tăng tốc độ đào tạo của state manager, chúng ta xử lý các quan sát thô để thu
được , Bằng cách sử dụng ma trận trả về (2.10), có kích thước cửa sổ cố định T
5.3.1 State
• Vì vectơ danh mục đầu tư trước đó cũng ảnh hưởng đến chi phí giao dịch, ta sẽ nối
thêm , hoặc (5.1) vào state agent, thu được 2-tuple:
29. Financial Market as Discrete-Time Stochastic Dynamical System
• Phần thưởng là một giá trị vô hướng. Xác định đầy đủ các mục tiêu của agent và tối đa
hóa phần thưởng tích lũy sẽ dẫn đến giải pháp tối ưu cho bài toán.
• Việc xác định reward signal là bước thử thách nhất trong thiết kế bài toán học tăng cường
5.4 Reward Signal
• Giải pháp: Phát triển một khung cho phép so sánh các hàm tạo phần thưởng khác nhau,
bao gồm log returns, (negative) volatility và Sharpe Ratio.
31. Trading agents
• Các phương pháp quản lý danh mục đầu tư tốt nhất hiện nay
Giải quyết nhiệm vụ ra quyết định phân bổ tài sản bằng cách giải quyết vấn đề dự
đoán, dựa nhiều vào tính chính xác của các mô hình dự đoán cho chuỗi thời gian
tài chính.
Tỷ lệ thành công ít do tính ngẫu nhiên của thị trường tài chính
Đưa ra các giả định không thực tế về các thời điểm thống kê thứ hai và cao hơn của
các tín hiệu tài chính
Xử lý các tín hiệu giao dịch nhị phân (tức là MUA, BÁN, GIỮ) thay vì chỉ định trọng số danh
mục đầu tư cho từng tài sản và do đó giới hạn phạm vi ứng dụng của chúng
32. Trading agents
• Mặt khác, Thị trường tài chính là một hệ thống động ngẫu nhiên thời gian rời rạc, điều
này cho phép phát triển một framework thống nhất để đào tạo các trading agent theo
reinforcement learning.
Model-Based Reinforcement Learning
Model-Free Reinforcement Learning
• Framework được phát triển theo 2 cách
33. Trading agents
6.1 Model-Based Reinforcement Learning
• Bao gồm hai quá trình:
• Được dùng cho môi trường động, trong khi các tác nhân dẫn xuất thực hiện lập kế hoạch
và kiểm soát.
Vector Autoregression (VAR)
Recurrent Neural Network (RNN)
• Được sử dụng làm mô hình cơ sở để so sánh.
• Các tác nhân này dựa trên mô hình dự đoán về môi trường, lần lượt được sử dụng để ra
quyết định.
34. • Thuật toán: General setup for adaptive model-based trading agents.
Vector Autoregression (VAR)
35. Trading agents
6.2 Model-Free Reinforcement Learning
• Trực tiếp giải quyết nhiệm vụ ra quyết định tối ưu hóa liên tục và nhiều bước
• Sửa đổi các thuật toán học tăng cường tiên tiến
Deep Soft Recurrent Q-Network (DSRQN)
Monte-Carlo Policy Gradient (REINFORCE)
• Cho phép kết hợp với khung đào tạo trading agent.
Mixture of Score Machines (MSM)
36. Trading agents
Deep Soft Recurrent Q-Network (DSRQN)
• Algorithm: Q-Learning with greedy policy
40. Pre-training
7.1 Mô hình cơ sở
• Kiến trúc của các tác nhân REINFORCE và MSN được coi là hộp đen
Với đầu vào (1) trả về nhật ký lịch sử
(2) trả về các hành động tiếp theo tại t+1
Hộp đen được tham số hóa để có thể cập nhật và tối ưu hóa
7.1.1 Lập trình bậc hai với chi phí giao dịch
Nếu không được cung cấp một cách rõ ràng vector trung bình µ, ma trận hiệp phương sai Σ và
hệ số giao dịch β, các tác nhân hộp đen sẽ có thể giải quyết nhiệm vụ tối ưu hóa (3.14) hoặc
tương đương:
41. Pre-training
7.1.2 Sinh dữ liệu
N cặp giám sát được tạo ra bằng cách giải quyết tối ưu hóa cho N trường hợp
riêng biệt
7.2 Đánh giá mô hình
Các tham số của các tác nhân hộp đen được điều khiển theo hướng độ dốc giúp giảm
thiểu Lỗi bình phương trung bình giữa các trọng số danh mục dự đoán
Quá trình tạo dữ liệu được đưa ra trong thuật toán 6
42. Pre-training
Các tham số được tối ưu hóa thích ứng bởi Adam (Kingma và Ba, 2014), trong khi độ
dốc của các tham số mạng được lấy thông qua Backpropagation Through Time (Werbos,
1990).
43. Pre-training
7.2.1 Hội tụ lập trình bậc hai
Hình 7.2 mô tả các đường cong học tập, trong mẫu và ngoài mẫu, của quá trình đào tạo học
tập có giám sát. Cả REINFORCE và MSM đều hội tụ sau ≈400 epoch (tức là, các lần lặp)
7.2.2 Hiệu suất đạt được
Hình 7.3: Đánh giá hiệu quả giao dịch với học
tăng cường (RL) và học tăng cường và đào tạo
trước (RL & PT). Hỗn hợp các máy tính điểm
(MSM) cải thiện lợi nhuận tích lũy 21,02% và tỷ
lệ Sharpe lên 13,61%. Các tác nhân dựa trên mô
hình (tức là, RNN và VAR) và các tác nhân dựa
trên giá trị modelfree (tức là, DSRQN) không thể
phân biệt được từ đầu đến cuối và do đó không
thể được đào tạo trước.
44. Part 3 - Experiments
• Synthetic Data
• Market Data
• Conclusion
Bibliography
46. Synthetic Data
8. Dữ liệu tổng hợp
• Chuỗi xác định: bao gồm sóng hình sin, răng cưa và sóng chirp, như trong
Phần 8.1;
• Sê-ri mô phỏng: sử dụng các phương pháp thay thế dữ liệu, như AAFT, như
trong Phần 8.2.
8.1 Quy trình xác định
• Sóng hình sin
• Sóng sawtooth
• Sóng chirp
47. Synthetic Data
8.1.1 Sóng hình sin
Một tập hợp gồm 100 sóng hình sin có tham số không đổi (nghĩa là biên độ, tần số tròn và pha ban
đầu) được tạo ra, trong khi chuỗi ví dụ được cung cấp trong Hình 8.1
Hình 8.2: Tác nhân học tập củng cố dựa trên mô hình mạng thần kinh tái phát (RNN) được đào
tạo về giao dịch nhị phân giữa hai sóng hình sin. Các tín hiệu giao dịch tam giác (tức là MUA
hoặc BÁN) đề cập đến tài sản 1 (tức là màu đỏ), trong khi các hành động ngược lại được thực
hiện cho tài sản 2, nhưng không được minh họa.
48. Synthetic Data
8.1.1 Sóng sawtooth
Hình 8.3: Vũ trụ tổng hợp của sóng răng cưa xác định. (Trái) Chuỗi ví dụ từ vũ trụ. (Phải) Lợi nhuận
tích lũy của các đại lý giao dịch học tập củng cố.
49. Synthetic Data
8.1.1 Sóng chirp
Hình 8.4: Vũ trụ tổng hợp của sóng chirp xác định. (Trái) Chuỗi ví dụ từ vũ trụ. (Phải) Lợi nhuận tích
lũy của các đại lý giao dịch học tập củng cố.
50. Synthetic Data
8.2 Dữ liệu mô phỏng
Thay vì chọn ngẫu nhiên các họ của các quy trình ngẫu nhiên và các tham số tương ứng cho chúng,
dữ liệu thị trường thực được sử dụng để tìm hiểu các tham số của các quy trình tạo ứng viên giải
thích dữ liệu. Mục đích của phương pháp này là hai lần:
1. Không cần điều chỉnh siêu tham số
2. Bộ dữ liệu đào tạo được mở rộng, thông qua việc tăng dữ liệu, tạo cơ hội cho các đại lý để có
thêm kinh nghiệm và khám phá thêm về không gian hành động chung.
8.2.1 Biến đổi Fourier điều chỉnh biên độ (AAFT)
Phương pháp Biến đổi Fourier điều chỉnh biên độ (AAFT) (Prichard và Theiler, 1994) được sử dụng,
được giải thích trong Thuật toán 7. Đưa ra chuỗi thời gian đơn biến thực, thuật toán AAFT hoạt
động trong miền Fourier (tức là tần số), trong đó nó bảo tồn phổ biên độ của chuỗi, nhưng ngẫu
nhiên pha, dẫn đến một tín hiệu mới nhận ra.
51. Synthetic Data
Thuật toán AAFT hoạt động trên chuỗi đơn biến, do đó, hai thời điểm thống kê đầu tiên của tài sản
duy nhất được bảo toàn nhưng phụ thuộc chéo (ví dụ, tương quan chéo, hiệp phương sai) được
điều chỉnh do tăng dữ liệu.
53. Market Data
9. Dữ liệu thị trường
• Các chức năng tạo phần thưởng ứng viên được khám phá, trong Phần 9.1;
• Các thí nghiệm giao dịch trên giấy được thực hiện trên hầu hết các tài sản có tính thanh khoản
của Hoa Kỳ và Châu Âu (xem Giả định thanh khoản của Suf's 5.1), như trong Phần 9.2 và 9.3,
tương ứng;
• Ma trận so sánh và hiểu biết sâu sắc về các chiến lược đại lý đã học được thu được.
55. Conclusion
10. Phần kết luận
• Mục tiêu chính: điều tra tính hiệu quả của các tác nhân Học tập củng cố về Quản lý danh mục
đầu tư tuần tự
• Các lĩnh vự xử lý tín hiệu, lý thuyết điều khiển, trí tuệ máy, tài chính được khám phá
• Những đóng góp, thành tựu của dự án được tóm tắt có thể dành cho nghiên cứu tương lai
10.1 Đóng góp
10.2 Công việc tương lai
Bibliography
Đổi mới
Thị trường tài chính là một hệ thống động vừa ngẫu nhiên lại còn rời rạc về mặt thời gian
Thị trường tài chính như hệ thống động ngẫu nhiên thời gian rời rạc
Một tài sản được gọi là thanh khoản nếu nó có thể được chuyển đổi thành tiền mặt một cách nhanh chóng, với ít hoặc không mất giá trị.
Giả định 5.1 (Đủ thanh khoản) Tất cả các tài sản trên thị trường đều có tính thanh khoản và mọi giao dịch có thể được thực hiện trong cùng điều kiện.
Trượt giá là sự khác biệt giữa giá dự kiến của một giao dịch và giá mà giao dịch thực sự được thực hiện (Investopedia, 2018e).
Giả định 5.2 (Không trượt giá) Tính thanh khoản của tất cả các tài sản thị trường đủ cao để mỗi giao dịch có thể được thực hiện ngay ở mức giá cuối cùng khi đặt hang.
Giá tài sản được xác định theo Luật Cung và Cầu. Do đó, bất kỳ giao dịch nào cũng tác động đến sự cân bằng giữa chúng, dẫn đến ảnh hưởng đến giá của tài sản được giao dịch.
Giả định 5.3 (Tác động thị trường bằng không) Vốn đầu tư của trading agent không đáng kể, không có ảnh hưởng đến thị trường.
Tập hành động
Tập quan sát và tập trạng thái
Tín hiệu phần thưởng
Học tập Củng cố dựa trên mô hình
Học tập Củng cố không có mô hình
Học tập Củng cố dựa trên mô hình
Tự phát vectơ (VAR) và mạng thần kinh tái phát (RNN)
Thiết lập chung cho các đại lý thương mại dựa trên mô hình thích ứng.
Đầu vào: vũ trụ giao dịch của tài sản M
vector danh mục đầu tư ban đầu w1 = a0
giá tài sản ban đầu p0 = o0
mất chức năng L
tập dữ liệu lịch sử D
đầu ra: tham số mô hình tối ưu θ
đào tạo hàng loạt về D
θ ← argmaxθp (| D) // MLE
repeat
for t = 1, 2 ,. . . T do
dự đoán trạng thái tiếp theo // thông qua Pˆss0
quan sát tuple nóng, rti
lấy ước tính trạng thái tác nhân: st ≈ f (·, ot) // (5.9)
tính toán độ dốc: L (sˆt, st) // backprop
cập nhật thông số mô hình
sử dụng tối ưu hóa độ dốc thích ứng // ADAM
lập kế hoạch và hành động tại // tái cân bằng danh mục đầu tư
cho đến khi hội tụ
Học tập Củng cố không có mô hình
Deep Q-Network (DQN) – Q-network tái phát sâu mềm
Gradient - Chính sách xác định sâu (DDPG)
Hỗn hợp máy chấm điểm
Q-Learning với chính sách tham lam.
đầu vào: vũ trụ giao dịch của tài sản M
vector danh mục đầu tư ban đầu w1 = a0
giá tài sản ban đầu p0 = o0
đầu ra: hàm hành động-giá trị tối ưu q
khởi tạo bảng q: qˆ (s, a) ← 0, ∀s S, a A
While hội tụ do
for t = 0, 1 ,. . . T do
chọn hành động tham lam: at = maxa0∈A qˆ (st, a0)
quan sát tuple hst + 1, rti
cập nhật bảng q:
qˆ (st, at) ← qˆ (st, at) + αrt + γ maxa0∈A qˆ (st + 1, a0) - qˆ (st, at)
Q-Learning sâu mềm tái phát.
đầu vào: vũ trụ giao dịch của tài sản M
vector danh mục đầu tư ban đầu w1 = a0
giá tài sản ban đầu p0 = o0
hàm mục tiêu J
trọng lượng đại lý ban đầu θ0
đầu ra: tham số tác nhân tối ưu θ
repeat
for t = 1, 2 ,. . . T do
quan sát tuple nóng, rti
tính toán lỗi TD t + 1 // (6.11)
tính toán độ dốc ∇θiL (i) = t + 1∇θiq (s, a; θ) // BPTT
cập nhật thông số đại lý
sử dụng tối ưu hóa độ dốc thích ứng // ADAM
lấy ước lượng của hàm giá trị qt ≈ NN (~ t − T → t) // (6.11)
thực hiện hành động atsoftmax (qt) // tái cân bằng danh mục đầu tư
cho đến khi hội tụ
Gradient chính sách Model-Carlo (REINFORCE).
đầu vào: vũ trụ giao dịch của tài sản M
vector danh mục đầu tư ban đầu w1 = a0
giá tài sản ban đầu p0 = o0
hàm mục tiêu J
trọng lượng đại lý ban đầu θ0
đầu ra: tham số chính sách đại lý tối ưu θ
khởi tạo bộ đệm: G, ←c ← 0
repeat
for t = 1, 2 ,. . . T do
quan sát tuple nóng, rti
lấy mẫu và thực hiện hành động: tại ∼ πθ (· | st; θ) // tái cân bằng danh mục đầu tư
phần thưởng bộ đệm: G ← G + rt // (6.19)
6 độ dốc nhật ký bộ đệm: ∆θc ← c + log [πθ (s, a)] G // (6.20)
cập nhật các tham số chính sách θ sử dụng bộ đệm
Ước tính Monte-Carlo thông qua tối ưu hóa thích ứng // (6.18), ADAM
bộ đệm trống: G, ←c ← 0
cho đến khi hội tụ