SlideShare a Scribd company logo
1 of 56
AI for Trading
Nguyễn Đức
Nguyễn Nam Thắng
Nguyễn Hoàng Thông
Reinforcement Learning
for Portfolio Management
Part 1 - Background
• Introduction
• Financial Terms & Concepts
• Portfolio Optimization
• Reinforcement Learning
Introduction
Chapter 1
Introduction
Các phương pháp và hệ thống kỹ thuật được sử dụng thường xuyên trong các ứng dụng thị trường tài
chính:
• Xử lý tín hiệu
• Lý thuyết điều khiển
• Phương pháp thống kê tiên tiến
Thành công gần đây của Machine Learning đã thu hút sự quan tâm của cộng đồng tài chính, họ tìm
kiếm các thành công từ các lĩnh vực khác: như thị giác máy tính, NLP để tăng cường mô hình hóa thị
trường tài chính
Trong luận án này khám phá cách giải quyết vấn đề phân bố tài sản bằng cách học tang cường
(reinforcement learning) một nhánh của Machine Learning giải quyết tối ưu các vấn đề ra quyết định
tuần tự
Financial Signal
Processing
Chapter 2
Xử Lý tín hiệu tài chính
• Các ứng dụng tài chính thường liên quan đến việc thao tác và phân tích các choỗi quan
sát, được lập chỉ mục theo thứ tự thời gian, còn được gọi là choỗi thời gian
• Xử lý tín hiệu cung cấp một hộp công cụ phong phú để
+ Phân tích
+ Mô hình hóa
+ Dự báo choỗi thời gian có hệ thống
• . Do đó, các phương pháp xử lý tín hiệu có thể được sử dụng để xây dựng toán học và giải quyết
các vấn đề kinh tế cơ bản và kinh doanh.
Xử lý tín hiệu tài chính
2.1 Điều khoản và khái niệm tài chính
2.1.1 Tài sản
• Một tài sản là một mặt hang có giá trị kinh tế
VD: tiền mặt, cổ phiếu, đi vay, thu thập tích lũy, v.v..
• Trọng tâm chính trong báo cáo này là tiền mặt và cổ phiếu
Xử Lý tín hiệu tài chính
2.1.2 Danh mục đầu tư
• Là tập hợp của nhiều tài sản
• . Wi,t đặc chưng cho tỉ lệ trong tổng số ngân sách đầu tư vào tài sản thứ i
• Rủi ro được biểu thị bằng độ lệch chuẩn hoặc độ rộng của các đường cong phân
phối,
Thấy rằng số lượng danh mục đầu tư lớn (M = 100) có thể rủi ro ít hơn đáng kể so với
một tài sản (M = 1).
Xử Lý tín hiệu tài chính
2.2 Chuỗi thời gian tài chính
• Bản chất năng động của nền kinh tế, là kết quả của sự cân bằng cung và cầu biến động,
khiến giá cả phát triển theo thời gian. Điều này coi biến động thị trường là chuỗi thời gian
và sử dụng các phương pháp và công cụ kỹ thuật để phân tích và mô hình hóa.
2.2.1 Giá
• Kí hiệu pt là giá của tài sản tại thời điểm t, pi,t là giá của tài sản thứ i tại thời điểm t
• Tổng quát ta có ma trận tài sản đa biến
Công thức này cho phép phân tích tài sản và
xem xét sự phụ thuộc lẫn nhau giữa các tài sản
khác nhau.
Xử Lý tín hiệu tài chính
2.2.2 Lợi nhuận
Giá tài sản không hữu ích trực tiếp cho một nhà đầu tư
Mặt khác, giá cả thay đổi theo thời gian có tầm quan trọng rất lớn, vì chúng phản ánh lợi
nhuận và thua lỗ đầu tư, hay nói ngắn gọn hơn là lợi nhuận của nó.
• Lợi nhuận gộp (gross return): Lợi nhuận gộp của một tài sản thể hiện hệ tỷ lệ của khoản đầu tư
vào tài sản tại thời điểm (t - 1)
Xử Lý tín hiệu tài chính
• Lợi nhuận ròng (simple return)
Một thuật ngữ được sử dụng phổ biến hơn là lợi nhuận ròng, đại diện cho phần trăm thay đổi
giá tài sản từ thời điểm (t - 1) đến thời điểm t:
2.3 Tiêu chí đánh giá
2.3.1 Thống kê
Mean:
Median:
Mode:
Varian:
Xử Lý tín hiệu tài chính
2.3.2 Rủi ro tài chính và chỉ số hiệu suất
• Lợi nhuận tích lũy
Chúng ta đã xác định lợi nhuận liên quan đến thay đổi giá tài sản trong một khoảng thời gian.
Tuy nhiên, chúng tôi thường tham gia vào một khoản đầu tư nhiều kỳ, do đó chúng ta đang
mở rộng định nghĩa về lợi nhuận thành lợi nhuận tích lũy, đại diện cho sự thay đổi giá tài sản
trong khoảng thời gian lớn hơn.
• Hệ số sharp: là một thước đo xem lợi nhuận thu được là bao nhiêu trên một đơn vị rủi ro
khi đầu tư vào một tài sản
Trong đó T là số lượng mẫu xét
Xử Lý tín hiệu tài chính
2.4 Phân tích chuỗi thời gian
2.4.1 Vector autoregression (VAR)
Autoregression (AR) có thể mô hình hóa chuỗi thời gian đơn biến và chỉ định các giá trị
tương lai của chuỗi phụ thuộc tuyến tính vào các giá trị trước của chuỗi.
2.4.2 Recurrent Neural Networks (RNN)
St và xt là trạng thái hệ thống và tín hiệu đầu vào tại thời điểm t
f một hàm được tham số hóa bởi ánh xạ trạng thái trước đó và tín hiệu đầu vào sang
trạng thái mới.
INTRODUCTION
Portfolio
Optimization
Chapter 3
Tối ưu hóa danh mục đầu tư
3.1. Mô hình Markowitz
Mô hình Markowitz đã hình thành một công thức toán học vấn đề phân bố danh mục đầu tư
Mô hình Markowitz cung cấp vectơ danh mục đầu tư tối ưu w ∗ giúp giảm thiểu biến động
cho một mức lợi nhuận nhất định
3.1.1 Tối ưu phương sai trung bình
Đối với lợi nhuận mục tiêu đã cho, lợi nhuận được mong đợi, hãy xác định vectơ danh mục đầu tư
w sao cho:
σ2 = wT Σw là phương sai danh mục đầu tư
wT µ là lợi nhuận kì vọng
Ta có hàm Lagrangian:
Muốn tìm min chúng ta đạo hàm:
Xử Lý tín hiệu tài chính
3.1.2 Quadratic Programming
Phương trình trên cho thấy bán khống(short selling) được cho phép.
Nếu việc bán khống không được phép:
Giải ma trận tính phương sai trung bình
tối ưu:
Xử Lý tín hiệu tài chính
4.1 Dynamical Systems
Học tăng cường phù hợp trong việc điều khiển tối ưu các hệ thống động lực, Bộ điều khiển (Agent)
nhận trạng thái điều khiển của hệ thống và hồi đáp liên quan đến quá trình chuyển trạng thái cuối
cùng. Sau đó, nó tính toán một tín hiệu điều khiển được gửi trở lại hệ thống. Đáp lại, hệ thống thực
hiện chuyển đổi sang trạng thái mới và chu trình được lặp lại. Mục tiêu là học cách kiểm soát hệ
thống (chính sách) để tối đa hóa tổng số phần thưởng
Xử Lý tín hiệu tài chính
4.1.2 Hoạt động
• Hành động là tín hiệu điều khiển mà tác nhân gửi lại cho hệ thống theo chỉ số thời gian
t.
• Đó là cách duy nhất mà tác nhân có thể ảnh hưởng đến trạng thái môi trường và kết quả
là dẫn đến các chuỗi tín hiệu reward khác nhau
A = {a1, a2, . . . , aM};
4.1.3 Reward
reward rt ∈ B là tín hiệu phản hồi vô hướng, cho biết tác nhân hoạt động tốt như thế nào
ở bước thời gian rời rạc t. Các tác nhân nhằm mục đích tối đa hóa phần thưởng tích lũy,
qua một chuỗi các bước.
4.2 Agent & Environment
• Thuật ngữ tác nhân được sử dụng để chỉ bộ điều khiển môi trường được sử dụng thay thế cho
thuật ngữ hệ thống
• Mục tiêu của thuật toán học tăng cường là phát triển (đào tạo) một tác nhân có khả năng tương
tác thành công với môi trường, sao cho nó tối đa hóa một số mục tiêu vô hướng theo thời gian.
Xử Lý tín hiệu tài chính
4.2.1 Return
4.2.2 Policy
Trong đó S là tập trạng thái
A là tập hành động
4.2.3 Gí trị hàm
Hàm giá trị trạng thái, vπ, là lợi nhuận kỳ vọng, Gt, bắt đầu từ
trạng thái s, sau đó tuân theo chính sách π
4.2.4 Mô hình Một mô hình dự đoán trạng thái tiếp theo của
môi trường st + 1 và tín hiệu phần thưởng tương ứng rt + 1,
đưa ra trạng thái hiện tại, st và hành động được thực hiện tại,
tại thời gian t. Nó có thể được biểu diễn bằng ma trận xác
suất chuyển trạng thái P được cho bởi:
4.2. Các thành phần chính của học tang cường
Học tăng cường có thể bao gồm một hoặc nhiều thành phần sau đây
Xử Lý tín hiệu tài chính
4.3.2 Định nghĩa
Bất kỳ môi trường thỏa mãn phương trình trên, có thể được mô hình hóa như một Quy
trình quyết định Markov (MDP). Quy trình ra quyết định của Markov là một đối tượng trong
đó:
• S là tập hữu hạn các trạng thái sao cho chúng thỏa mãn Markov
• A là tập hợp hữu hạn của hành động
• P là ma trận xác suất chuyển trạng thái
• R là hàm tạo phần thưởng
• γ là hệ số chiết khấu.
4.3 Quy trình quyết định Markov
4.3.1 Markov Property
Một trạng thái St thỏa mãn thuộc tính Markov khi và chỉ khi :
Part 2 - Innovation
• Financial Market as Discrete-Time Stochastic
Dynamical System
• Trading agents
• Pre-Training
Financial Market as
Discrete-Time
Stochastic Dynamical
System
Chapter 5
Financial Market as Discrete-Time Stochastic Dynamical System
• Trading agent quay ngược thời gian tại một thời điểm trong lịch sử thị trường, không biết
bất kỳ thông tin thị trường nào trong tương lai.
• Giả sử thị trường:
+ Đủ thanh khoản
+ Không trượt giá
+ Tác động thị trường bằng không
5.1 Assumptions
• Tất cả đều thực tế nếu khối lượng tài sản giao dịch trên thị trường đủ cao.
Financial Market as Discrete-Time Stochastic Dynamical System
• Để giải quyết bài toán phân bố tài sản: Trading agent phải xác định vector danh mục đầu
tư wt ở mọi thời điểm t => hành động at tại thời điểm t là vector danh mục đầu tư wt + 1
• Vậy, tập hành động A là tập con của không gian thực M chiều RM :
5.2 Action Space
Financial Market as Discrete-Time Stochastic Dynamical System
• Tuy nhiên, trong cả hai trường hợp, tập hành động A đều vô hạn (liên tục) => thị trường
tài chính được coi là Quy trình quyết định vô hạn Markvo (IMDP)
• Nếu bán khống bị cấm, khối lượng danh mục đầu tư không âm
Financial Market as Discrete-Time Stochastic Dynamical System
• Tại bất kì thời điểm nào, chúng ta chỉ có thể quan sát giá tài sản => vector giá pt là quan
sát ot
• Vậy, tập quan sát O là tập con của không gian thực dương M chiều R+
M vì giá là giá trị thực
không âm.
5.3 State & Observation Space
5.3.1 Observation
Financial Market as Discrete-Time Stochastic Dynamical System
• Nhưng giá một kỳ không thể nắm bắt được hoàn toàn trạng thái thị trường
 thị trường tài chính có thể quan sát được một phần
 Phương trình 4.3 không thỏa mãn
• Giả sử trang thái agent ≈ trạng thái environment
• Chúng ta sẽ xây dựng the agent’s state bằng cách xử lý các observation
Hai phương án được đề xuất:
Financial Market as Discrete-Time Stochastic Dynamical System
• Để hỗ trợ và tăng tốc độ đào tạo của state manager, chúng ta xử lý các quan sát thô để thu
được , Bằng cách sử dụng ma trận trả về (2.10), có kích thước cửa sổ cố định T
5.3.1 State
• Vì vectơ danh mục đầu tư trước đó cũng ảnh hưởng đến chi phí giao dịch, ta sẽ nối
thêm , hoặc (5.1) vào state agent, thu được 2-tuple:
Financial Market as Discrete-Time Stochastic Dynamical System
• Phần thưởng là một giá trị vô hướng. Xác định đầy đủ các mục tiêu của agent và tối đa
hóa phần thưởng tích lũy sẽ dẫn đến giải pháp tối ưu cho bài toán.
• Việc xác định reward signal là bước thử thách nhất trong thiết kế bài toán học tăng cường
5.4 Reward Signal
• Giải pháp: Phát triển một khung cho phép so sánh các hàm tạo phần thưởng khác nhau,
bao gồm log returns, (negative) volatility và Sharpe Ratio.
Trading Agents
Chapter 6
Trading agents
• Các phương pháp quản lý danh mục đầu tư tốt nhất hiện nay
 Giải quyết nhiệm vụ ra quyết định phân bổ tài sản bằng cách giải quyết vấn đề dự
đoán, dựa nhiều vào tính chính xác của các mô hình dự đoán cho chuỗi thời gian
tài chính.
Tỷ lệ thành công ít do tính ngẫu nhiên của thị trường tài chính
 Đưa ra các giả định không thực tế về các thời điểm thống kê thứ hai và cao hơn của
các tín hiệu tài chính
 Xử lý các tín hiệu giao dịch nhị phân (tức là MUA, BÁN, GIỮ) thay vì chỉ định trọng số danh
mục đầu tư cho từng tài sản và do đó giới hạn phạm vi ứng dụng của chúng
Trading agents
• Mặt khác, Thị trường tài chính là một hệ thống động ngẫu nhiên thời gian rời rạc, điều
này cho phép phát triển một framework thống nhất để đào tạo các trading agent theo
reinforcement learning.
 Model-Based Reinforcement Learning
 Model-Free Reinforcement Learning
• Framework được phát triển theo 2 cách
Trading agents
6.1 Model-Based Reinforcement Learning
• Bao gồm hai quá trình:
• Được dùng cho môi trường động, trong khi các tác nhân dẫn xuất thực hiện lập kế hoạch
và kiểm soát.
 Vector Autoregression (VAR)
 Recurrent Neural Network (RNN)
• Được sử dụng làm mô hình cơ sở để so sánh.
• Các tác nhân này dựa trên mô hình dự đoán về môi trường, lần lượt được sử dụng để ra
quyết định.
• Thuật toán: General setup for adaptive model-based trading agents.
 Vector Autoregression (VAR)
Trading agents
6.2 Model-Free Reinforcement Learning
• Trực tiếp giải quyết nhiệm vụ ra quyết định tối ưu hóa liên tục và nhiều bước
• Sửa đổi các thuật toán học tăng cường tiên tiến
 Deep Soft Recurrent Q-Network (DSRQN)
 Monte-Carlo Policy Gradient (REINFORCE)
• Cho phép kết hợp với khung đào tạo trading agent.
 Mixture of Score Machines (MSM)
Trading agents
 Deep Soft Recurrent Q-Network (DSRQN)
• Algorithm: Q-Learning with greedy policy
• Algorithm: Deep Soft Recurrent Q-Learning.
 Monte-Carlo Policy Gradient (REINFORCE)
INTRODUCTION
Pre-training
Chapter 7
Pre-training
7.1 Mô hình cơ sở
• Kiến trúc của các tác nhân REINFORCE và MSN được coi là hộp đen
 Với đầu vào (1) trả về nhật ký lịch sử
 (2) trả về các hành động tiếp theo tại t+1
 Hộp đen được tham số hóa để có thể cập nhật và tối ưu hóa
7.1.1 Lập trình bậc hai với chi phí giao dịch
Nếu không được cung cấp một cách rõ ràng vector trung bình µ, ma trận hiệp phương sai Σ và
hệ số giao dịch β, các tác nhân hộp đen sẽ có thể giải quyết nhiệm vụ tối ưu hóa (3.14) hoặc
tương đương:
Pre-training
7.1.2 Sinh dữ liệu
N cặp giám sát được tạo ra bằng cách giải quyết tối ưu hóa cho N trường hợp
riêng biệt
7.2 Đánh giá mô hình
Các tham số của các tác nhân hộp đen được điều khiển theo hướng độ dốc giúp giảm
thiểu Lỗi bình phương trung bình giữa các trọng số danh mục dự đoán
Quá trình tạo dữ liệu được đưa ra trong thuật toán 6
Pre-training
Các tham số được tối ưu hóa thích ứng bởi Adam (Kingma và Ba, 2014), trong khi độ
dốc của các tham số mạng được lấy thông qua Backpropagation Through Time (Werbos,
1990).
Pre-training
7.2.1 Hội tụ lập trình bậc hai
Hình 7.2 mô tả các đường cong học tập, trong mẫu và ngoài mẫu, của quá trình đào tạo học
tập có giám sát. Cả REINFORCE và MSM đều hội tụ sau ≈400 epoch (tức là, các lần lặp)
7.2.2 Hiệu suất đạt được
Hình 7.3: Đánh giá hiệu quả giao dịch với học
tăng cường (RL) và học tăng cường và đào tạo
trước (RL & PT). Hỗn hợp các máy tính điểm
(MSM) cải thiện lợi nhuận tích lũy 21,02% và tỷ
lệ Sharpe lên 13,61%. Các tác nhân dựa trên mô
hình (tức là, RNN và VAR) và các tác nhân dựa
trên giá trị modelfree (tức là, DSRQN) không thể
phân biệt được từ đầu đến cuối và do đó không
thể được đào tạo trước.
Part 3 - Experiments
• Synthetic Data
• Market Data
• Conclusion
Bibliography
INTRODUCTION
Synthetic Data
Chapter 8
Synthetic Data
8. Dữ liệu tổng hợp
• Chuỗi xác định: bao gồm sóng hình sin, răng cưa và sóng chirp, như trong
Phần 8.1;
• Sê-ri mô phỏng: sử dụng các phương pháp thay thế dữ liệu, như AAFT, như
trong Phần 8.2.
8.1 Quy trình xác định
• Sóng hình sin
• Sóng sawtooth
• Sóng chirp
Synthetic Data
8.1.1 Sóng hình sin
Một tập hợp gồm 100 sóng hình sin có tham số không đổi (nghĩa là biên độ, tần số tròn và pha ban
đầu) được tạo ra, trong khi chuỗi ví dụ được cung cấp trong Hình 8.1
Hình 8.2: Tác nhân học tập củng cố dựa trên mô hình mạng thần kinh tái phát (RNN) được đào
tạo về giao dịch nhị phân giữa hai sóng hình sin. Các tín hiệu giao dịch tam giác (tức là MUA
hoặc BÁN) đề cập đến tài sản 1 (tức là màu đỏ), trong khi các hành động ngược lại được thực
hiện cho tài sản 2, nhưng không được minh họa.
Synthetic Data
8.1.1 Sóng sawtooth
Hình 8.3: Vũ trụ tổng hợp của sóng răng cưa xác định. (Trái) Chuỗi ví dụ từ vũ trụ. (Phải) Lợi nhuận
tích lũy của các đại lý giao dịch học tập củng cố.
Synthetic Data
8.1.1 Sóng chirp
Hình 8.4: Vũ trụ tổng hợp của sóng chirp xác định. (Trái) Chuỗi ví dụ từ vũ trụ. (Phải) Lợi nhuận tích
lũy của các đại lý giao dịch học tập củng cố.
Synthetic Data
8.2 Dữ liệu mô phỏng
Thay vì chọn ngẫu nhiên các họ của các quy trình ngẫu nhiên và các tham số tương ứng cho chúng,
dữ liệu thị trường thực được sử dụng để tìm hiểu các tham số của các quy trình tạo ứng viên giải
thích dữ liệu. Mục đích của phương pháp này là hai lần:
1. Không cần điều chỉnh siêu tham số
2. Bộ dữ liệu đào tạo được mở rộng, thông qua việc tăng dữ liệu, tạo cơ hội cho các đại lý để có
thêm kinh nghiệm và khám phá thêm về không gian hành động chung.
8.2.1 Biến đổi Fourier điều chỉnh biên độ (AAFT)
Phương pháp Biến đổi Fourier điều chỉnh biên độ (AAFT) (Prichard và Theiler, 1994) được sử dụng,
được giải thích trong Thuật toán 7. Đưa ra chuỗi thời gian đơn biến thực, thuật toán AAFT hoạt
động trong miền Fourier (tức là tần số), trong đó nó bảo tồn phổ biên độ của chuỗi, nhưng ngẫu
nhiên pha, dẫn đến một tín hiệu mới nhận ra.
Synthetic Data
Thuật toán AAFT hoạt động trên chuỗi đơn biến, do đó, hai thời điểm thống kê đầu tiên của tài sản
duy nhất được bảo toàn nhưng phụ thuộc chéo (ví dụ, tương quan chéo, hiệp phương sai) được
điều chỉnh do tăng dữ liệu.
INTRODUCTION
Market Data
Chapter 9
Market Data
9. Dữ liệu thị trường
• Các chức năng tạo phần thưởng ứng viên được khám phá, trong Phần 9.1;
• Các thí nghiệm giao dịch trên giấy được thực hiện trên hầu hết các tài sản có tính thanh khoản
của Hoa Kỳ và Châu Âu (xem Giả định thanh khoản của Suf's 5.1), như trong Phần 9.2 và 9.3,
tương ứng;
• Ma trận so sánh và hiểu biết sâu sắc về các chiến lược đại lý đã học được thu được.
INTRODUCTION
Conclusion
Chapter 10
Conclusion
10. Phần kết luận
• Mục tiêu chính: điều tra tính hiệu quả của các tác nhân Học tập củng cố về Quản lý danh mục
đầu tư tuần tự
• Các lĩnh vự xử lý tín hiệu, lý thuyết điều khiển, trí tuệ máy, tài chính được khám phá
• Những đóng góp, thành tựu của dự án được tóm tắt có thể dành cho nghiên cứu tương lai
10.1 Đóng góp
10.2 Công việc tương lai
Bibliography
INTRODUCTION
Thank You For Yours
Listening!!!!

More Related Content

What's hot

quyền chọn
quyền chọnquyền chọn
quyền chọnLoren Bime
 
Điểu khiển hạ độ cao vật bay sử dụng lý thuyết mờ và đại số gia tử.pdf
Điểu khiển hạ độ cao vật bay sử dụng lý thuyết mờ và đại số gia tử.pdfĐiểu khiển hạ độ cao vật bay sử dụng lý thuyết mờ và đại số gia tử.pdf
Điểu khiển hạ độ cao vật bay sử dụng lý thuyết mờ và đại số gia tử.pdfMan_Ebook
 
TIỂU LUẬN LẠM PHÁT Ở VIỆT NAM THỰC TRẠNG VÀ GIẢI PHÁP_10302212052019
TIỂU LUẬN LẠM PHÁT Ở VIỆT NAM THỰC TRẠNG VÀ GIẢI PHÁP_10302212052019TIỂU LUẬN LẠM PHÁT Ở VIỆT NAM THỰC TRẠNG VÀ GIẢI PHÁP_10302212052019
TIỂU LUẬN LẠM PHÁT Ở VIỆT NAM THỰC TRẠNG VÀ GIẢI PHÁP_10302212052019phamhieu56
 
Định luật bảo toàn động lượng
Định luật bảo toàn động lượngĐịnh luật bảo toàn động lượng
Định luật bảo toàn động lượngwww. mientayvn.com
 
Chương 3: Giá trị thời gian của tiền
Chương 3: Giá trị thời gian của tiềnChương 3: Giá trị thời gian của tiền
Chương 3: Giá trị thời gian của tiềnDzung Phan Tran Trung
 
bảng tra phân phối chuẩn
bảng tra phân phối chuẩnbảng tra phân phối chuẩn
bảng tra phân phối chuẩnRuc Trương
 
Thị Trường Tài Chính
Thị Trường Tài ChínhThị Trường Tài Chính
Thị Trường Tài ChínhDigiword Ha Noi
 
Tìm thành phần liên thông mạnh và bài toán 2-SAT
Tìm thành phần liên thông mạnh và bài toán 2-SATTìm thành phần liên thông mạnh và bài toán 2-SAT
Tìm thành phần liên thông mạnh và bài toán 2-SATTam Pham Minh
 
Bai 11 mo hinh IS-LM
Bai 11 mo hinh IS-LMBai 11 mo hinh IS-LM
Bai 11 mo hinh IS-LMHuy Tran Ngoc
 
12.ma trận và dịnh thức
12.ma trận và dịnh thức12.ma trận và dịnh thức
12.ma trận và dịnh thứcTrinh Yen
 
Bài tập tài chính quốc tế
Bài tập tài chính quốc tếBài tập tài chính quốc tế
Bài tập tài chính quốc tếnhiepphongx5
 
Tailieu.vncty.com giai-bai-tap-tien-te-ngan-hang-phan1
Tailieu.vncty.com   giai-bai-tap-tien-te-ngan-hang-phan1Tailieu.vncty.com   giai-bai-tap-tien-te-ngan-hang-phan1
Tailieu.vncty.com giai-bai-tap-tien-te-ngan-hang-phan1Trần Đức Anh
 
Bài tập mô hình toán
Bài tập mô hình toánBài tập mô hình toán
Bài tập mô hình toánSang Nguyễn
 
โลก ดาราศาสตร์ อวกาศ ม.4 เล่ม 1_บทที่ 4 การลำดับเหตุการณ์ทางธรณีวิทยา
โลก ดาราศาสตร์ อวกาศ ม.4 เล่ม 1_บทที่ 4 การลำดับเหตุการณ์ทางธรณีวิทยาโลก ดาราศาสตร์ อวกาศ ม.4 เล่ม 1_บทที่ 4 การลำดับเหตุการณ์ทางธรณีวิทยา
โลก ดาราศาสตร์ อวกาศ ม.4 เล่ม 1_บทที่ 4 การลำดับเหตุการณ์ทางธรณีวิทยาsoysuwanyuennan
 
Chương 2a Tỷ giá hối đoái
Chương 2a Tỷ giá hối đoáiChương 2a Tỷ giá hối đoái
Chương 2a Tỷ giá hối đoáiPureLe Gooner
 
Smartphone trong học tập và giải trí của sinh viên
Smartphone trong học tập và giải trí của sinh viênSmartphone trong học tập và giải trí của sinh viên
Smartphone trong học tập và giải trí của sinh viênVo Tuan
 
Tồn Tại Xã Hội & Ý Thức Xã Hội | MLN101
Tồn Tại Xã Hội & Ý Thức Xã Hội | MLN101Tồn Tại Xã Hội & Ý Thức Xã Hội | MLN101
Tồn Tại Xã Hội & Ý Thức Xã Hội | MLN101Hoa PN Thaycacac
 
Chương 1: Tổng quan về tài chính
Chương 1: Tổng quan về tài chínhChương 1: Tổng quan về tài chính
Chương 1: Tổng quan về tài chínhDzung Phan Tran Trung
 

What's hot (20)

quyền chọn
quyền chọnquyền chọn
quyền chọn
 
Điểu khiển hạ độ cao vật bay sử dụng lý thuyết mờ và đại số gia tử.pdf
Điểu khiển hạ độ cao vật bay sử dụng lý thuyết mờ và đại số gia tử.pdfĐiểu khiển hạ độ cao vật bay sử dụng lý thuyết mờ và đại số gia tử.pdf
Điểu khiển hạ độ cao vật bay sử dụng lý thuyết mờ và đại số gia tử.pdf
 
TIỂU LUẬN LẠM PHÁT Ở VIỆT NAM THỰC TRẠNG VÀ GIẢI PHÁP_10302212052019
TIỂU LUẬN LẠM PHÁT Ở VIỆT NAM THỰC TRẠNG VÀ GIẢI PHÁP_10302212052019TIỂU LUẬN LẠM PHÁT Ở VIỆT NAM THỰC TRẠNG VÀ GIẢI PHÁP_10302212052019
TIỂU LUẬN LẠM PHÁT Ở VIỆT NAM THỰC TRẠNG VÀ GIẢI PHÁP_10302212052019
 
Định luật bảo toàn động lượng
Định luật bảo toàn động lượngĐịnh luật bảo toàn động lượng
Định luật bảo toàn động lượng
 
Chương 3: Giá trị thời gian của tiền
Chương 3: Giá trị thời gian của tiềnChương 3: Giá trị thời gian của tiền
Chương 3: Giá trị thời gian của tiền
 
Đề tài: Tìm hiểu hoạt động kinh doanh của tập đoàn đa quốc gia Nestle tại Tru...
Đề tài: Tìm hiểu hoạt động kinh doanh của tập đoàn đa quốc gia Nestle tại Tru...Đề tài: Tìm hiểu hoạt động kinh doanh của tập đoàn đa quốc gia Nestle tại Tru...
Đề tài: Tìm hiểu hoạt động kinh doanh của tập đoàn đa quốc gia Nestle tại Tru...
 
bảng tra phân phối chuẩn
bảng tra phân phối chuẩnbảng tra phân phối chuẩn
bảng tra phân phối chuẩn
 
Thị Trường Tài Chính
Thị Trường Tài ChínhThị Trường Tài Chính
Thị Trường Tài Chính
 
Tìm thành phần liên thông mạnh và bài toán 2-SAT
Tìm thành phần liên thông mạnh và bài toán 2-SATTìm thành phần liên thông mạnh và bài toán 2-SAT
Tìm thành phần liên thông mạnh và bài toán 2-SAT
 
Bai 11 mo hinh IS-LM
Bai 11 mo hinh IS-LMBai 11 mo hinh IS-LM
Bai 11 mo hinh IS-LM
 
12.ma trận và dịnh thức
12.ma trận và dịnh thức12.ma trận và dịnh thức
12.ma trận và dịnh thức
 
Bài tập tài chính quốc tế
Bài tập tài chính quốc tếBài tập tài chính quốc tế
Bài tập tài chính quốc tế
 
Tailieu.vncty.com giai-bai-tap-tien-te-ngan-hang-phan1
Tailieu.vncty.com   giai-bai-tap-tien-te-ngan-hang-phan1Tailieu.vncty.com   giai-bai-tap-tien-te-ngan-hang-phan1
Tailieu.vncty.com giai-bai-tap-tien-te-ngan-hang-phan1
 
Bài tập mô hình toán
Bài tập mô hình toánBài tập mô hình toán
Bài tập mô hình toán
 
โลก ดาราศาสตร์ อวกาศ ม.4 เล่ม 1_บทที่ 4 การลำดับเหตุการณ์ทางธรณีวิทยา
โลก ดาราศาสตร์ อวกาศ ม.4 เล่ม 1_บทที่ 4 การลำดับเหตุการณ์ทางธรณีวิทยาโลก ดาราศาสตร์ อวกาศ ม.4 เล่ม 1_บทที่ 4 การลำดับเหตุการณ์ทางธรณีวิทยา
โลก ดาราศาสตร์ อวกาศ ม.4 เล่ม 1_บทที่ 4 การลำดับเหตุการณ์ทางธรณีวิทยา
 
Chương 2a Tỷ giá hối đoái
Chương 2a Tỷ giá hối đoáiChương 2a Tỷ giá hối đoái
Chương 2a Tỷ giá hối đoái
 
Smartphone trong học tập và giải trí của sinh viên
Smartphone trong học tập và giải trí của sinh viênSmartphone trong học tập và giải trí của sinh viên
Smartphone trong học tập và giải trí của sinh viên
 
Tồn Tại Xã Hội & Ý Thức Xã Hội | MLN101
Tồn Tại Xã Hội & Ý Thức Xã Hội | MLN101Tồn Tại Xã Hội & Ý Thức Xã Hội | MLN101
Tồn Tại Xã Hội & Ý Thức Xã Hội | MLN101
 
Chương 1: Tổng quan về tài chính
Chương 1: Tổng quan về tài chínhChương 1: Tổng quan về tài chính
Chương 1: Tổng quan về tài chính
 
Dữ liệu mảng
Dữ liệu mảngDữ liệu mảng
Dữ liệu mảng
 

Similar to Reinforcement Learning for Portfolio Management

Kế toán quản trị tung.
Kế toán quản trị tung.Kế toán quản trị tung.
Kế toán quản trị tung.lethanhtung1007
 
Nummary Tactical Keynote Plus (NTK Plus)~Nguyen Khanh Duy VIC & Nguyen Trung ...
Nummary Tactical Keynote Plus (NTK Plus)~Nguyen Khanh Duy VIC & Nguyen Trung ...Nummary Tactical Keynote Plus (NTK Plus)~Nguyen Khanh Duy VIC & Nguyen Trung ...
Nummary Tactical Keynote Plus (NTK Plus)~Nguyen Khanh Duy VIC & Nguyen Trung ...Duy Khanh Nguyen
 
GIỚI THIỆU KẾ TOÁN QUẢN TRỊ - Bai Giang 10
GIỚI THIỆU KẾ TOÁN QUẢN TRỊ - Bai Giang 10GIỚI THIỆU KẾ TOÁN QUẢN TRỊ - Bai Giang 10
GIỚI THIỆU KẾ TOÁN QUẢN TRỊ - Bai Giang 10huytv
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Giá Cổ Phiếu Ngành Xây Dựng Niêm Yết Trê...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Giá Cổ Phiếu Ngành Xây Dựng Niêm Yết Trê...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Giá Cổ Phiếu Ngành Xây Dựng Niêm Yết Trê...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Giá Cổ Phiếu Ngành Xây Dựng Niêm Yết Trê...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Doko.vn 153787-huong-dan-giai-bai-tap-quan-tri-tai-chin
Doko.vn 153787-huong-dan-giai-bai-tap-quan-tri-tai-chinDoko.vn 153787-huong-dan-giai-bai-tap-quan-tri-tai-chin
Doko.vn 153787-huong-dan-giai-bai-tap-quan-tri-tai-chinHằng Đào
 
CHUONG-2_GIA-TRI-TIEN-TE-THEO-THOI-GIAN.pdf
CHUONG-2_GIA-TRI-TIEN-TE-THEO-THOI-GIAN.pdfCHUONG-2_GIA-TRI-TIEN-TE-THEO-THOI-GIAN.pdf
CHUONG-2_GIA-TRI-TIEN-TE-THEO-THOI-GIAN.pdftongthihue2004gl
 
Nhom 2 bai thuyet trinh 2 a_dttc
Nhom 2 bai thuyet trinh 2 a_dttcNhom 2 bai thuyet trinh 2 a_dttc
Nhom 2 bai thuyet trinh 2 a_dttcsuminsect
 
Bài 1 Tổng quan thị trường chứng khoán.pdf
Bài 1 Tổng quan thị trường chứng khoán.pdfBài 1 Tổng quan thị trường chứng khoán.pdf
Bài 1 Tổng quan thị trường chứng khoán.pdfNguyễn Minh
 
C9 tai chinh
C9  tai chinhC9  tai chinh
C9 tai chinhNgoc Tu
 
Mô Hình Tài chính Công ty Chuong1+2.pptx
Mô Hình Tài chính Công ty Chuong1+2.pptxMô Hình Tài chính Công ty Chuong1+2.pptx
Mô Hình Tài chính Công ty Chuong1+2.pptxmillionstars2
 
Thẩm định dự án đầu tư
Thẩm định dự án đầu tưThẩm định dự án đầu tư
Thẩm định dự án đầu tưĐình Linh
 
Thi Truong Von2
Thi Truong Von2Thi Truong Von2
Thi Truong Von2hung84488
 
Phan tich va dau tu trai phieu
Phan tich va dau tu trai phieuPhan tich va dau tu trai phieu
Phan tich va dau tu trai phieuBichtram Nguyen
 
Tiểu Luận Vận Dụng Phương Pháp Chỉ Số Để Phân Tích Tình Hình Hoạt Động Kinh D...
Tiểu Luận Vận Dụng Phương Pháp Chỉ Số Để Phân Tích Tình Hình Hoạt Động Kinh D...Tiểu Luận Vận Dụng Phương Pháp Chỉ Số Để Phân Tích Tình Hình Hoạt Động Kinh D...
Tiểu Luận Vận Dụng Phương Pháp Chỉ Số Để Phân Tích Tình Hình Hoạt Động Kinh D...Dịch vụ viết bài trọn gói ZALO: 0936 885 877
 
KTXD1TLU bai giang kinh te xay dung truong TLU
KTXD1TLU bai giang kinh te xay dung  truong TLUKTXD1TLU bai giang kinh te xay dung  truong TLU
KTXD1TLU bai giang kinh te xay dung truong TLUtrungcomplexxlt
 

Similar to Reinforcement Learning for Portfolio Management (20)

Kế toán quản trị tung.
Kế toán quản trị tung.Kế toán quản trị tung.
Kế toán quản trị tung.
 
Nummary Tactical Keynote Plus (NTK Plus)~Nguyen Khanh Duy VIC & Nguyen Trung ...
Nummary Tactical Keynote Plus (NTK Plus)~Nguyen Khanh Duy VIC & Nguyen Trung ...Nummary Tactical Keynote Plus (NTK Plus)~Nguyen Khanh Duy VIC & Nguyen Trung ...
Nummary Tactical Keynote Plus (NTK Plus)~Nguyen Khanh Duy VIC & Nguyen Trung ...
 
GIỚI THIỆU KẾ TOÁN QUẢN TRỊ - Bai Giang 10
GIỚI THIỆU KẾ TOÁN QUẢN TRỊ - Bai Giang 10GIỚI THIỆU KẾ TOÁN QUẢN TRỊ - Bai Giang 10
GIỚI THIỆU KẾ TOÁN QUẢN TRỊ - Bai Giang 10
 
PTĐTCK
PTĐTCKPTĐTCK
PTĐTCK
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Giá Cổ Phiếu Ngành Xây Dựng Niêm Yết Trê...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Giá Cổ Phiếu Ngành Xây Dựng Niêm Yết Trê...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Giá Cổ Phiếu Ngành Xây Dựng Niêm Yết Trê...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Giá Cổ Phiếu Ngành Xây Dựng Niêm Yết Trê...
 
Chuong 2 gia tri thoi gian cua tien
Chuong 2   gia tri thoi gian cua tienChuong 2   gia tri thoi gian cua tien
Chuong 2 gia tri thoi gian cua tien
 
Doko.vn 153787-huong-dan-giai-bai-tap-quan-tri-tai-chin
Doko.vn 153787-huong-dan-giai-bai-tap-quan-tri-tai-chinDoko.vn 153787-huong-dan-giai-bai-tap-quan-tri-tai-chin
Doko.vn 153787-huong-dan-giai-bai-tap-quan-tri-tai-chin
 
CHUONG-2_GIA-TRI-TIEN-TE-THEO-THOI-GIAN.pdf
CHUONG-2_GIA-TRI-TIEN-TE-THEO-THOI-GIAN.pdfCHUONG-2_GIA-TRI-TIEN-TE-THEO-THOI-GIAN.pdf
CHUONG-2_GIA-TRI-TIEN-TE-THEO-THOI-GIAN.pdf
 
Nhom 2 bai thuyet trinh 2 a_dttc
Nhom 2 bai thuyet trinh 2 a_dttcNhom 2 bai thuyet trinh 2 a_dttc
Nhom 2 bai thuyet trinh 2 a_dttc
 
Bài 1 Tổng quan thị trường chứng khoán.pdf
Bài 1 Tổng quan thị trường chứng khoán.pdfBài 1 Tổng quan thị trường chứng khoán.pdf
Bài 1 Tổng quan thị trường chứng khoán.pdf
 
Chủ đề 5
Chủ đề 5Chủ đề 5
Chủ đề 5
 
C9 tai chinh
C9  tai chinhC9  tai chinh
C9 tai chinh
 
TCQT - Chương 3.pptx
TCQT - Chương 3.pptxTCQT - Chương 3.pptx
TCQT - Chương 3.pptx
 
Mô Hình Tài chính Công ty Chuong1+2.pptx
Mô Hình Tài chính Công ty Chuong1+2.pptxMô Hình Tài chính Công ty Chuong1+2.pptx
Mô Hình Tài chính Công ty Chuong1+2.pptx
 
Thẩm định dự án đầu tư
Thẩm định dự án đầu tưThẩm định dự án đầu tư
Thẩm định dự án đầu tư
 
Thi Truong Von2
Thi Truong Von2Thi Truong Von2
Thi Truong Von2
 
Phan tich va dau tu trai phieu
Phan tich va dau tu trai phieuPhan tich va dau tu trai phieu
Phan tich va dau tu trai phieu
 
Tiểu Luận Vận Dụng Phương Pháp Chỉ Số Để Phân Tích Tình Hình Hoạt Động Kinh D...
Tiểu Luận Vận Dụng Phương Pháp Chỉ Số Để Phân Tích Tình Hình Hoạt Động Kinh D...Tiểu Luận Vận Dụng Phương Pháp Chỉ Số Để Phân Tích Tình Hình Hoạt Động Kinh D...
Tiểu Luận Vận Dụng Phương Pháp Chỉ Số Để Phân Tích Tình Hình Hoạt Động Kinh D...
 
KTXD1TLU bai giang kinh te xay dung truong TLU
KTXD1TLU bai giang kinh te xay dung  truong TLUKTXD1TLU bai giang kinh te xay dung  truong TLU
KTXD1TLU bai giang kinh te xay dung truong TLU
 
Quan tri tai chinh ch 1
Quan tri tai chinh  ch 1Quan tri tai chinh  ch 1
Quan tri tai chinh ch 1
 

Reinforcement Learning for Portfolio Management

  • 1. AI for Trading Nguyễn Đức Nguyễn Nam Thắng Nguyễn Hoàng Thông Reinforcement Learning for Portfolio Management
  • 2. Part 1 - Background • Introduction • Financial Terms & Concepts • Portfolio Optimization • Reinforcement Learning
  • 4. Introduction Các phương pháp và hệ thống kỹ thuật được sử dụng thường xuyên trong các ứng dụng thị trường tài chính: • Xử lý tín hiệu • Lý thuyết điều khiển • Phương pháp thống kê tiên tiến Thành công gần đây của Machine Learning đã thu hút sự quan tâm của cộng đồng tài chính, họ tìm kiếm các thành công từ các lĩnh vực khác: như thị giác máy tính, NLP để tăng cường mô hình hóa thị trường tài chính Trong luận án này khám phá cách giải quyết vấn đề phân bố tài sản bằng cách học tang cường (reinforcement learning) một nhánh của Machine Learning giải quyết tối ưu các vấn đề ra quyết định tuần tự
  • 6. Xử Lý tín hiệu tài chính • Các ứng dụng tài chính thường liên quan đến việc thao tác và phân tích các choỗi quan sát, được lập chỉ mục theo thứ tự thời gian, còn được gọi là choỗi thời gian • Xử lý tín hiệu cung cấp một hộp công cụ phong phú để + Phân tích + Mô hình hóa + Dự báo choỗi thời gian có hệ thống • . Do đó, các phương pháp xử lý tín hiệu có thể được sử dụng để xây dựng toán học và giải quyết các vấn đề kinh tế cơ bản và kinh doanh.
  • 7. Xử lý tín hiệu tài chính 2.1 Điều khoản và khái niệm tài chính 2.1.1 Tài sản • Một tài sản là một mặt hang có giá trị kinh tế VD: tiền mặt, cổ phiếu, đi vay, thu thập tích lũy, v.v.. • Trọng tâm chính trong báo cáo này là tiền mặt và cổ phiếu
  • 8. Xử Lý tín hiệu tài chính 2.1.2 Danh mục đầu tư • Là tập hợp của nhiều tài sản • . Wi,t đặc chưng cho tỉ lệ trong tổng số ngân sách đầu tư vào tài sản thứ i • Rủi ro được biểu thị bằng độ lệch chuẩn hoặc độ rộng của các đường cong phân phối, Thấy rằng số lượng danh mục đầu tư lớn (M = 100) có thể rủi ro ít hơn đáng kể so với một tài sản (M = 1).
  • 9. Xử Lý tín hiệu tài chính 2.2 Chuỗi thời gian tài chính • Bản chất năng động của nền kinh tế, là kết quả của sự cân bằng cung và cầu biến động, khiến giá cả phát triển theo thời gian. Điều này coi biến động thị trường là chuỗi thời gian và sử dụng các phương pháp và công cụ kỹ thuật để phân tích và mô hình hóa. 2.2.1 Giá • Kí hiệu pt là giá của tài sản tại thời điểm t, pi,t là giá của tài sản thứ i tại thời điểm t • Tổng quát ta có ma trận tài sản đa biến Công thức này cho phép phân tích tài sản và xem xét sự phụ thuộc lẫn nhau giữa các tài sản khác nhau.
  • 10. Xử Lý tín hiệu tài chính 2.2.2 Lợi nhuận Giá tài sản không hữu ích trực tiếp cho một nhà đầu tư Mặt khác, giá cả thay đổi theo thời gian có tầm quan trọng rất lớn, vì chúng phản ánh lợi nhuận và thua lỗ đầu tư, hay nói ngắn gọn hơn là lợi nhuận của nó. • Lợi nhuận gộp (gross return): Lợi nhuận gộp của một tài sản thể hiện hệ tỷ lệ của khoản đầu tư vào tài sản tại thời điểm (t - 1)
  • 11. Xử Lý tín hiệu tài chính • Lợi nhuận ròng (simple return) Một thuật ngữ được sử dụng phổ biến hơn là lợi nhuận ròng, đại diện cho phần trăm thay đổi giá tài sản từ thời điểm (t - 1) đến thời điểm t: 2.3 Tiêu chí đánh giá 2.3.1 Thống kê Mean: Median: Mode: Varian:
  • 12. Xử Lý tín hiệu tài chính 2.3.2 Rủi ro tài chính và chỉ số hiệu suất • Lợi nhuận tích lũy Chúng ta đã xác định lợi nhuận liên quan đến thay đổi giá tài sản trong một khoảng thời gian. Tuy nhiên, chúng tôi thường tham gia vào một khoản đầu tư nhiều kỳ, do đó chúng ta đang mở rộng định nghĩa về lợi nhuận thành lợi nhuận tích lũy, đại diện cho sự thay đổi giá tài sản trong khoảng thời gian lớn hơn. • Hệ số sharp: là một thước đo xem lợi nhuận thu được là bao nhiêu trên một đơn vị rủi ro khi đầu tư vào một tài sản Trong đó T là số lượng mẫu xét
  • 13. Xử Lý tín hiệu tài chính 2.4 Phân tích chuỗi thời gian 2.4.1 Vector autoregression (VAR) Autoregression (AR) có thể mô hình hóa chuỗi thời gian đơn biến và chỉ định các giá trị tương lai của chuỗi phụ thuộc tuyến tính vào các giá trị trước của chuỗi. 2.4.2 Recurrent Neural Networks (RNN) St và xt là trạng thái hệ thống và tín hiệu đầu vào tại thời điểm t f một hàm được tham số hóa bởi ánh xạ trạng thái trước đó và tín hiệu đầu vào sang trạng thái mới.
  • 15. Tối ưu hóa danh mục đầu tư 3.1. Mô hình Markowitz Mô hình Markowitz đã hình thành một công thức toán học vấn đề phân bố danh mục đầu tư Mô hình Markowitz cung cấp vectơ danh mục đầu tư tối ưu w ∗ giúp giảm thiểu biến động cho một mức lợi nhuận nhất định 3.1.1 Tối ưu phương sai trung bình Đối với lợi nhuận mục tiêu đã cho, lợi nhuận được mong đợi, hãy xác định vectơ danh mục đầu tư w sao cho: σ2 = wT Σw là phương sai danh mục đầu tư wT µ là lợi nhuận kì vọng Ta có hàm Lagrangian: Muốn tìm min chúng ta đạo hàm:
  • 16. Xử Lý tín hiệu tài chính 3.1.2 Quadratic Programming Phương trình trên cho thấy bán khống(short selling) được cho phép. Nếu việc bán khống không được phép: Giải ma trận tính phương sai trung bình tối ưu:
  • 17. Xử Lý tín hiệu tài chính 4.1 Dynamical Systems Học tăng cường phù hợp trong việc điều khiển tối ưu các hệ thống động lực, Bộ điều khiển (Agent) nhận trạng thái điều khiển của hệ thống và hồi đáp liên quan đến quá trình chuyển trạng thái cuối cùng. Sau đó, nó tính toán một tín hiệu điều khiển được gửi trở lại hệ thống. Đáp lại, hệ thống thực hiện chuyển đổi sang trạng thái mới và chu trình được lặp lại. Mục tiêu là học cách kiểm soát hệ thống (chính sách) để tối đa hóa tổng số phần thưởng
  • 18. Xử Lý tín hiệu tài chính 4.1.2 Hoạt động • Hành động là tín hiệu điều khiển mà tác nhân gửi lại cho hệ thống theo chỉ số thời gian t. • Đó là cách duy nhất mà tác nhân có thể ảnh hưởng đến trạng thái môi trường và kết quả là dẫn đến các chuỗi tín hiệu reward khác nhau A = {a1, a2, . . . , aM}; 4.1.3 Reward reward rt ∈ B là tín hiệu phản hồi vô hướng, cho biết tác nhân hoạt động tốt như thế nào ở bước thời gian rời rạc t. Các tác nhân nhằm mục đích tối đa hóa phần thưởng tích lũy, qua một chuỗi các bước. 4.2 Agent & Environment • Thuật ngữ tác nhân được sử dụng để chỉ bộ điều khiển môi trường được sử dụng thay thế cho thuật ngữ hệ thống • Mục tiêu của thuật toán học tăng cường là phát triển (đào tạo) một tác nhân có khả năng tương tác thành công với môi trường, sao cho nó tối đa hóa một số mục tiêu vô hướng theo thời gian.
  • 19. Xử Lý tín hiệu tài chính 4.2.1 Return 4.2.2 Policy Trong đó S là tập trạng thái A là tập hành động 4.2.3 Gí trị hàm Hàm giá trị trạng thái, vπ, là lợi nhuận kỳ vọng, Gt, bắt đầu từ trạng thái s, sau đó tuân theo chính sách π 4.2.4 Mô hình Một mô hình dự đoán trạng thái tiếp theo của môi trường st + 1 và tín hiệu phần thưởng tương ứng rt + 1, đưa ra trạng thái hiện tại, st và hành động được thực hiện tại, tại thời gian t. Nó có thể được biểu diễn bằng ma trận xác suất chuyển trạng thái P được cho bởi: 4.2. Các thành phần chính của học tang cường Học tăng cường có thể bao gồm một hoặc nhiều thành phần sau đây
  • 20. Xử Lý tín hiệu tài chính 4.3.2 Định nghĩa Bất kỳ môi trường thỏa mãn phương trình trên, có thể được mô hình hóa như một Quy trình quyết định Markov (MDP). Quy trình ra quyết định của Markov là một đối tượng trong đó: • S là tập hữu hạn các trạng thái sao cho chúng thỏa mãn Markov • A là tập hợp hữu hạn của hành động • P là ma trận xác suất chuyển trạng thái • R là hàm tạo phần thưởng • γ là hệ số chiết khấu. 4.3 Quy trình quyết định Markov 4.3.1 Markov Property Một trạng thái St thỏa mãn thuộc tính Markov khi và chỉ khi :
  • 21. Part 2 - Innovation • Financial Market as Discrete-Time Stochastic Dynamical System • Trading agents • Pre-Training
  • 22. Financial Market as Discrete-Time Stochastic Dynamical System Chapter 5
  • 23. Financial Market as Discrete-Time Stochastic Dynamical System • Trading agent quay ngược thời gian tại một thời điểm trong lịch sử thị trường, không biết bất kỳ thông tin thị trường nào trong tương lai. • Giả sử thị trường: + Đủ thanh khoản + Không trượt giá + Tác động thị trường bằng không 5.1 Assumptions • Tất cả đều thực tế nếu khối lượng tài sản giao dịch trên thị trường đủ cao.
  • 24. Financial Market as Discrete-Time Stochastic Dynamical System • Để giải quyết bài toán phân bố tài sản: Trading agent phải xác định vector danh mục đầu tư wt ở mọi thời điểm t => hành động at tại thời điểm t là vector danh mục đầu tư wt + 1 • Vậy, tập hành động A là tập con của không gian thực M chiều RM : 5.2 Action Space
  • 25. Financial Market as Discrete-Time Stochastic Dynamical System • Tuy nhiên, trong cả hai trường hợp, tập hành động A đều vô hạn (liên tục) => thị trường tài chính được coi là Quy trình quyết định vô hạn Markvo (IMDP) • Nếu bán khống bị cấm, khối lượng danh mục đầu tư không âm
  • 26. Financial Market as Discrete-Time Stochastic Dynamical System • Tại bất kì thời điểm nào, chúng ta chỉ có thể quan sát giá tài sản => vector giá pt là quan sát ot • Vậy, tập quan sát O là tập con của không gian thực dương M chiều R+ M vì giá là giá trị thực không âm. 5.3 State & Observation Space 5.3.1 Observation
  • 27. Financial Market as Discrete-Time Stochastic Dynamical System • Nhưng giá một kỳ không thể nắm bắt được hoàn toàn trạng thái thị trường  thị trường tài chính có thể quan sát được một phần  Phương trình 4.3 không thỏa mãn • Giả sử trang thái agent ≈ trạng thái environment • Chúng ta sẽ xây dựng the agent’s state bằng cách xử lý các observation Hai phương án được đề xuất:
  • 28. Financial Market as Discrete-Time Stochastic Dynamical System • Để hỗ trợ và tăng tốc độ đào tạo của state manager, chúng ta xử lý các quan sát thô để thu được , Bằng cách sử dụng ma trận trả về (2.10), có kích thước cửa sổ cố định T 5.3.1 State • Vì vectơ danh mục đầu tư trước đó cũng ảnh hưởng đến chi phí giao dịch, ta sẽ nối thêm , hoặc (5.1) vào state agent, thu được 2-tuple:
  • 29. Financial Market as Discrete-Time Stochastic Dynamical System • Phần thưởng là một giá trị vô hướng. Xác định đầy đủ các mục tiêu của agent và tối đa hóa phần thưởng tích lũy sẽ dẫn đến giải pháp tối ưu cho bài toán. • Việc xác định reward signal là bước thử thách nhất trong thiết kế bài toán học tăng cường 5.4 Reward Signal • Giải pháp: Phát triển một khung cho phép so sánh các hàm tạo phần thưởng khác nhau, bao gồm log returns, (negative) volatility và Sharpe Ratio.
  • 31. Trading agents • Các phương pháp quản lý danh mục đầu tư tốt nhất hiện nay  Giải quyết nhiệm vụ ra quyết định phân bổ tài sản bằng cách giải quyết vấn đề dự đoán, dựa nhiều vào tính chính xác của các mô hình dự đoán cho chuỗi thời gian tài chính. Tỷ lệ thành công ít do tính ngẫu nhiên của thị trường tài chính  Đưa ra các giả định không thực tế về các thời điểm thống kê thứ hai và cao hơn của các tín hiệu tài chính  Xử lý các tín hiệu giao dịch nhị phân (tức là MUA, BÁN, GIỮ) thay vì chỉ định trọng số danh mục đầu tư cho từng tài sản và do đó giới hạn phạm vi ứng dụng của chúng
  • 32. Trading agents • Mặt khác, Thị trường tài chính là một hệ thống động ngẫu nhiên thời gian rời rạc, điều này cho phép phát triển một framework thống nhất để đào tạo các trading agent theo reinforcement learning.  Model-Based Reinforcement Learning  Model-Free Reinforcement Learning • Framework được phát triển theo 2 cách
  • 33. Trading agents 6.1 Model-Based Reinforcement Learning • Bao gồm hai quá trình: • Được dùng cho môi trường động, trong khi các tác nhân dẫn xuất thực hiện lập kế hoạch và kiểm soát.  Vector Autoregression (VAR)  Recurrent Neural Network (RNN) • Được sử dụng làm mô hình cơ sở để so sánh. • Các tác nhân này dựa trên mô hình dự đoán về môi trường, lần lượt được sử dụng để ra quyết định.
  • 34. • Thuật toán: General setup for adaptive model-based trading agents.  Vector Autoregression (VAR)
  • 35. Trading agents 6.2 Model-Free Reinforcement Learning • Trực tiếp giải quyết nhiệm vụ ra quyết định tối ưu hóa liên tục và nhiều bước • Sửa đổi các thuật toán học tăng cường tiên tiến  Deep Soft Recurrent Q-Network (DSRQN)  Monte-Carlo Policy Gradient (REINFORCE) • Cho phép kết hợp với khung đào tạo trading agent.  Mixture of Score Machines (MSM)
  • 36. Trading agents  Deep Soft Recurrent Q-Network (DSRQN) • Algorithm: Q-Learning with greedy policy
  • 37. • Algorithm: Deep Soft Recurrent Q-Learning.
  • 38.  Monte-Carlo Policy Gradient (REINFORCE)
  • 40. Pre-training 7.1 Mô hình cơ sở • Kiến trúc của các tác nhân REINFORCE và MSN được coi là hộp đen  Với đầu vào (1) trả về nhật ký lịch sử  (2) trả về các hành động tiếp theo tại t+1  Hộp đen được tham số hóa để có thể cập nhật và tối ưu hóa 7.1.1 Lập trình bậc hai với chi phí giao dịch Nếu không được cung cấp một cách rõ ràng vector trung bình µ, ma trận hiệp phương sai Σ và hệ số giao dịch β, các tác nhân hộp đen sẽ có thể giải quyết nhiệm vụ tối ưu hóa (3.14) hoặc tương đương:
  • 41. Pre-training 7.1.2 Sinh dữ liệu N cặp giám sát được tạo ra bằng cách giải quyết tối ưu hóa cho N trường hợp riêng biệt 7.2 Đánh giá mô hình Các tham số của các tác nhân hộp đen được điều khiển theo hướng độ dốc giúp giảm thiểu Lỗi bình phương trung bình giữa các trọng số danh mục dự đoán Quá trình tạo dữ liệu được đưa ra trong thuật toán 6
  • 42. Pre-training Các tham số được tối ưu hóa thích ứng bởi Adam (Kingma và Ba, 2014), trong khi độ dốc của các tham số mạng được lấy thông qua Backpropagation Through Time (Werbos, 1990).
  • 43. Pre-training 7.2.1 Hội tụ lập trình bậc hai Hình 7.2 mô tả các đường cong học tập, trong mẫu và ngoài mẫu, của quá trình đào tạo học tập có giám sát. Cả REINFORCE và MSM đều hội tụ sau ≈400 epoch (tức là, các lần lặp) 7.2.2 Hiệu suất đạt được Hình 7.3: Đánh giá hiệu quả giao dịch với học tăng cường (RL) và học tăng cường và đào tạo trước (RL & PT). Hỗn hợp các máy tính điểm (MSM) cải thiện lợi nhuận tích lũy 21,02% và tỷ lệ Sharpe lên 13,61%. Các tác nhân dựa trên mô hình (tức là, RNN và VAR) và các tác nhân dựa trên giá trị modelfree (tức là, DSRQN) không thể phân biệt được từ đầu đến cuối và do đó không thể được đào tạo trước.
  • 44. Part 3 - Experiments • Synthetic Data • Market Data • Conclusion Bibliography
  • 46. Synthetic Data 8. Dữ liệu tổng hợp • Chuỗi xác định: bao gồm sóng hình sin, răng cưa và sóng chirp, như trong Phần 8.1; • Sê-ri mô phỏng: sử dụng các phương pháp thay thế dữ liệu, như AAFT, như trong Phần 8.2. 8.1 Quy trình xác định • Sóng hình sin • Sóng sawtooth • Sóng chirp
  • 47. Synthetic Data 8.1.1 Sóng hình sin Một tập hợp gồm 100 sóng hình sin có tham số không đổi (nghĩa là biên độ, tần số tròn và pha ban đầu) được tạo ra, trong khi chuỗi ví dụ được cung cấp trong Hình 8.1 Hình 8.2: Tác nhân học tập củng cố dựa trên mô hình mạng thần kinh tái phát (RNN) được đào tạo về giao dịch nhị phân giữa hai sóng hình sin. Các tín hiệu giao dịch tam giác (tức là MUA hoặc BÁN) đề cập đến tài sản 1 (tức là màu đỏ), trong khi các hành động ngược lại được thực hiện cho tài sản 2, nhưng không được minh họa.
  • 48. Synthetic Data 8.1.1 Sóng sawtooth Hình 8.3: Vũ trụ tổng hợp của sóng răng cưa xác định. (Trái) Chuỗi ví dụ từ vũ trụ. (Phải) Lợi nhuận tích lũy của các đại lý giao dịch học tập củng cố.
  • 49. Synthetic Data 8.1.1 Sóng chirp Hình 8.4: Vũ trụ tổng hợp của sóng chirp xác định. (Trái) Chuỗi ví dụ từ vũ trụ. (Phải) Lợi nhuận tích lũy của các đại lý giao dịch học tập củng cố.
  • 50. Synthetic Data 8.2 Dữ liệu mô phỏng Thay vì chọn ngẫu nhiên các họ của các quy trình ngẫu nhiên và các tham số tương ứng cho chúng, dữ liệu thị trường thực được sử dụng để tìm hiểu các tham số của các quy trình tạo ứng viên giải thích dữ liệu. Mục đích của phương pháp này là hai lần: 1. Không cần điều chỉnh siêu tham số 2. Bộ dữ liệu đào tạo được mở rộng, thông qua việc tăng dữ liệu, tạo cơ hội cho các đại lý để có thêm kinh nghiệm và khám phá thêm về không gian hành động chung. 8.2.1 Biến đổi Fourier điều chỉnh biên độ (AAFT) Phương pháp Biến đổi Fourier điều chỉnh biên độ (AAFT) (Prichard và Theiler, 1994) được sử dụng, được giải thích trong Thuật toán 7. Đưa ra chuỗi thời gian đơn biến thực, thuật toán AAFT hoạt động trong miền Fourier (tức là tần số), trong đó nó bảo tồn phổ biên độ của chuỗi, nhưng ngẫu nhiên pha, dẫn đến một tín hiệu mới nhận ra.
  • 51. Synthetic Data Thuật toán AAFT hoạt động trên chuỗi đơn biến, do đó, hai thời điểm thống kê đầu tiên của tài sản duy nhất được bảo toàn nhưng phụ thuộc chéo (ví dụ, tương quan chéo, hiệp phương sai) được điều chỉnh do tăng dữ liệu.
  • 53. Market Data 9. Dữ liệu thị trường • Các chức năng tạo phần thưởng ứng viên được khám phá, trong Phần 9.1; • Các thí nghiệm giao dịch trên giấy được thực hiện trên hầu hết các tài sản có tính thanh khoản của Hoa Kỳ và Châu Âu (xem Giả định thanh khoản của Suf's 5.1), như trong Phần 9.2 và 9.3, tương ứng; • Ma trận so sánh và hiểu biết sâu sắc về các chiến lược đại lý đã học được thu được.
  • 55. Conclusion 10. Phần kết luận • Mục tiêu chính: điều tra tính hiệu quả của các tác nhân Học tập củng cố về Quản lý danh mục đầu tư tuần tự • Các lĩnh vự xử lý tín hiệu, lý thuyết điều khiển, trí tuệ máy, tài chính được khám phá • Những đóng góp, thành tựu của dự án được tóm tắt có thể dành cho nghiên cứu tương lai 10.1 Đóng góp 10.2 Công việc tương lai Bibliography
  • 56. INTRODUCTION Thank You For Yours Listening!!!!

Editor's Notes

  1. Đổi mới Thị trường tài chính là một hệ thống động vừa ngẫu nhiên lại còn rời rạc về mặt thời gian
  2. Thị trường tài chính như hệ thống động ngẫu nhiên thời gian rời rạc
  3. Một tài sản được gọi là thanh khoản nếu nó có thể được chuyển đổi thành tiền mặt một cách nhanh chóng, với ít hoặc không mất giá trị. Giả định 5.1 (Đủ thanh khoản) Tất cả các tài sản trên thị trường đều có tính thanh khoản và mọi giao dịch có thể được thực hiện trong cùng điều kiện. Trượt giá là sự khác biệt giữa giá dự kiến ​​của một giao dịch và giá mà giao dịch thực sự được thực hiện (Investopedia, 2018e). Giả định 5.2 (Không trượt giá) Tính thanh khoản của tất cả các tài sản thị trường đủ cao để mỗi giao dịch có thể được thực hiện ngay ở mức giá cuối cùng khi đặt hang. Giá tài sản được xác định theo Luật Cung và Cầu. Do đó, bất kỳ giao dịch nào cũng tác động đến sự cân bằng giữa chúng, dẫn đến ảnh hưởng đến giá của tài sản được giao dịch. Giả định 5.3 (Tác động thị trường bằng không) Vốn đầu tư của trading agent không đáng kể, không có ảnh hưởng đến thị trường.
  4. Tập hành động
  5. Tập quan sát và tập trạng thái
  6. Tín hiệu phần thưởng
  7. Học tập Củng cố dựa trên mô hình Học tập Củng cố không có mô hình
  8. Học tập Củng cố dựa trên mô hình Tự phát vectơ (VAR) và mạng thần kinh tái phát (RNN)
  9. Thiết lập chung cho các đại lý thương mại dựa trên mô hình thích ứng. Đầu vào: vũ trụ giao dịch của tài sản M vector danh mục đầu tư ban đầu w1 = a0 giá tài sản ban đầu p0 = o0 mất chức năng L tập dữ liệu lịch sử D đầu ra: tham số mô hình tối ưu θ đào tạo hàng loạt về D θ ← argmaxθp (| D) // MLE repeat for t = 1, 2 ,. . . T do dự đoán trạng thái tiếp theo // thông qua Pˆss0 quan sát tuple nóng, rti lấy ước tính trạng thái tác nhân: st ≈ f (·, ot) // (5.9) tính toán độ dốc: L (sˆt, st) // backprop cập nhật thông số mô hình sử dụng tối ưu hóa độ dốc thích ứng // ADAM lập kế hoạch và hành động tại // tái cân bằng danh mục đầu tư cho đến khi hội tụ
  10. Học tập Củng cố không có mô hình Deep Q-Network (DQN) – Q-network tái phát sâu mềm Gradient - Chính sách xác định sâu (DDPG) Hỗn hợp máy chấm điểm
  11. Q-Learning với chính sách tham lam. đầu vào: vũ trụ giao dịch của tài sản M vector danh mục đầu tư ban đầu w1 = a0 giá tài sản ban đầu p0 = o0 đầu ra: hàm hành động-giá trị tối ưu q khởi tạo bảng q: qˆ (s, a) ← 0, ∀s S, a A While hội tụ do for t = 0, 1 ,. . . T do chọn hành động tham lam: at = maxa0∈A qˆ (st, a0) quan sát tuple hst + 1, rti cập nhật bảng q: qˆ (st, at) ← qˆ (st, at) + αrt + γ maxa0∈A qˆ (st + 1, a0) - qˆ (st, at)
  12. Q-Learning sâu mềm tái phát. đầu vào: vũ trụ giao dịch của tài sản M vector danh mục đầu tư ban đầu w1 = a0 giá tài sản ban đầu p0 = o0 hàm mục tiêu J trọng lượng đại lý ban đầu θ0 đầu ra: tham số tác nhân tối ưu θ repeat for t = 1, 2 ,. . . T do quan sát tuple nóng, rti tính toán lỗi TD t + 1 // (6.11) tính toán độ dốc ∇θiL (i) = t + 1∇θiq (s, a; θ) // BPTT cập nhật thông số đại lý sử dụng tối ưu hóa độ dốc thích ứng // ADAM lấy ước lượng của hàm giá trị qt ≈ NN (~ t − T → t) // (6.11) thực hiện hành động atsoftmax (qt) // tái cân bằng danh mục đầu tư cho đến khi hội tụ
  13. Gradient chính sách Model-Carlo (REINFORCE). đầu vào: vũ trụ giao dịch của tài sản M vector danh mục đầu tư ban đầu w1 = a0 giá tài sản ban đầu p0 = o0 hàm mục tiêu J trọng lượng đại lý ban đầu θ0 đầu ra: tham số chính sách đại lý tối ưu θ khởi tạo bộ đệm: G, ←c ← 0 repeat for t = 1, 2 ,. . . T do quan sát tuple nóng, rti lấy mẫu và thực hiện hành động: tại ∼ πθ (· | st; θ) // tái cân bằng danh mục đầu tư phần thưởng bộ đệm: G ← G + rt // (6.19) 6 độ dốc nhật ký bộ đệm: ∆θc ← c + log [πθ (s, a)] G // (6.20) cập nhật các tham số chính sách θ sử dụng bộ đệm Ước tính Monte-Carlo thông qua tối ưu hóa thích ứng // (6.18), ADAM bộ đệm trống: G, ←c ← 0 cho đến khi hội tụ