Lecture 04: Reinforcement Learning

应用案例：智能投顾（Robo-Advising）

随机控制方法（Stochastic Control Approach）

该模型框架旨在通过动态优化与客户互动机制，构建智能投顾的自适应投资决策体系。其核心要素包括：

模型框架（Framework）
1. 市场收益的状态转换模型（Regime Switching Model）: 通过马尔可夫切换模型刻画市场环境的不同阶段（如牛市、熊市），并在状态间切换时调整投资策略；
2. 客户—投顾交互机制:智能投顾与客户持续交互，根据客户反馈迭代更新其风险偏好认知；
3. 客户风险偏好的动态模型（Risk Aversion Process）: 将客户的风险厌恶程度建模为随时间动态演化的随机过程；
4. 最优投资准则（Optimal Investment Criterion）: 在动态环境下，采用最优控制方法确定投资组合的调整策略。
交互与学习（Interaction and Learning）: 智能投顾通过持续的客户交互，监测并学习客户风险偏好的变化，从而实现策略的自适应调整。
投资优化目标（Optimization Objective）: 基于客户风险厌恶水平的估计值，采用有限投资期内的多期均值–方差优化准则（multi-period mean–variance criterion），动态平衡收益与风险。

第04讲

强化学习（Reinforcement Learning）

目录

第01部分 · 强化学习简介

动机

什么是强化学习？

强化学习在金融中的应用

金融中的RL体系：从动态规划到深度强化学习

这一演变为何重要

强化学习的关键概念概览

第02部分 · 将金融问题建模为强化学习问题

MDP 在金融中的动机

马尔可夫决策过程（MDP）

状态与动作空间设计

金融领域中的奖励函数

数学表述

经典应用示例

定义马尔可夫决策模型

MDP 的等价定义

示例：消费问题（Consumption Problem）

有限期马尔可夫决策模型

贝尔曼方程（Bellman Equation）

最大化者、贝尔曼方程与验证定理

结构假设与结构定理

价值迭代与策略迭代

用 MDP 建模金融市场

总结：用 MDP 进行金融建模与求解思路

MDP 在金融中的应用：现金余额问题（Cash Balance Problem）

问题建模

问题求解

MDP 在金融中的应用：消费与投资问题（Consumption and Investment Problems）

问题建模

问题求解

MDP 在金融中的应用：终端财富问题（Terminal Wealth Problems）

模型构建

问题求解

MDP 在金融中的应用：含交易成本的投资组合选择问题（Portfolio Selection with Transaction Costs）

模型构建（Formulation）

MDP 在金融中的应用：动态均值–方差问题（Dynamic Mean–Variance Problems）

模型构建（Formulation）

MDP 在金融中的应用：指数跟踪问题（Index Tracking）

模型构建（Formulation）

第03部分 · 强化学习算法 (Reinforcement Learning Algorithms)

基于价值的方法 vs 基于策略的方法

Q-learning 概述

深度 Q 网络（Deep Q-Network, DQN）

策略梯度方法（Policy Gradient Methods）

第04部分 · 深度强化学习及其应用

强化学习与深度学习的融合

应用案例：最优执行问题（Optimal Execution）

应用案例：（多期均值–方差）投资组合优化（Multi-period Mean–Variance Portfolio Optimization）

应用案例：期权定价与对冲（Option Pricing and Hedging）

做市商策略（Market Making）

应用案例：智能投顾（Robo-Advising）

随机控制方法（Stochastic Control Approach）

应用案例：智能订单路由（Smart Order Routing）

强化学习应用的新趋势（Emerging Trends in RL Applications）

第05部分 · 总结与讨论 (Summary and Discussion)

核心要点总结（Summary of Key Takeaways）

最终收获与展望（Final Takeaways）