第04讲

强化学习(Reinforcement Learning)

“理解智能体如何通过与环境的交互来学习最优决策。”


该版为机翻版本,未经人工校对,建议配合原版使用。

Financial Machine Learning · Lecture 04

目录

Financial Machine Learning · Lecture 04

第01部分 · 强化学习简介

动机

  • 强化学习(Reinforcement Learning, RL)关注通过与环境的交互进行学习。
  • RL 适用于存在延迟反馈的复杂决策场景。
  • 其在金融中的应用包括自适应交易、投资组合管理以及风险控制。

本节为理解强化学习在金融中的重要性奠定基础。

Financial Machine Learning · Lecture 04

什么是强化学习?

强化学习(Reinforcement Learning, RL) 是机器学习的一个分支,使智能体能够根据从环境中获得的奖励来学习最优行为。

  1. RL 通过与环境的交互学习
  2. 目标:学习策略 以最大化期望奖励
  3. 核心元素:状态、行为、奖励、转移、折扣因子
  • 不同于有监督学习,RL 依赖于探索(exploration)与利用(exploitation)之间的权衡。

强化学习模拟了真实世界的决策过程,因此在金融领域具有天然的适用性。

Financial Machine Learning · Lecture 04

强化学习在金融中的应用

  • 算法交易: 通过学习市场动态,开发买卖资产的智能策略。

  • 投资组合优化: 自动调整资产配置以实现预期收益/风险目标。

  • 风险管理: 构建自适应系统,动态监测并缓释金融风险。

  • 数学表述(最大化期望回报):

强化学习的实践应用展示了其在应对金融复杂问题方面的能力。

Financial Machine Learning · Lecture 04

金融中的RL体系:从动态规划到深度强化学习

  • 经典动态规划(Dynamic Programming, DP) 为不确定环境下的序列决策建立了数学基础。

    在金融中,DP 可用于解决投资组合优化、期权定价或消费–投资规划等问题,但其依赖于已知的转移模型,并受“维度灾难”限制。

  • 强化学习(Reinforcement Learning, RL) 消除了对显式模型的依赖。

    通过基于交互或仿真的学习,RL 可直接估计价值函数与策略,实现数据驱动的交易、执行与风险控制任务。

  • 深度强化学习(Deep RL) 将神经网络与RL结合,用于逼近复杂的价值或策略函数,能够处理高维特征输入,如历史收益、订单簿数据或文本情绪。

    这种演进——从“理论驱动的DP”到“数据驱动的Deep RL”——使自动化智能体能够在现实的、不确定的金融市场中有效运作。

Financial Machine Learning · Lecture 04

这一演变为何重要

每一阶段都推进了我们在金融体系中应对复杂性与不确定性的能力:

  • DP: 数学上精确、可解释,但在高维市场中计算不可行。
  • RL: 无模型且灵活,可直接从数据中学习,但需要大量探索与精心设计的奖励函数。
  • Deep RL: 可扩展且具表现力,能够捕捉金融变量间的非线性依赖,但可能存在不稳定和过拟合问题。

总体而言,这个演进清晰展示了从基于模型的优化基于经验的学习的过渡,为投资组合分配、动态对冲、算法交易等任务提供了实用的工具,当传统模型不再适用时尤为关键。

Financial Machine Learning · Lecture 04

强化学习的关键概念概览

  • 核心组成部分:
    • 智能体(Agent): 做出决策的学习者。
    • 环境(Environment): 影响智能体的外部世界。
    • 状态(State, ): 表示智能体当前的情境。
    • 行为(Action, ): 智能体所采取的动作。
    • 奖励(Reward, ): 环境反馈信息,用于指导学习。

理解这些要素是将强化学习有效应用于金融领域的基础。

Financial Machine Learning · Lecture 04

第02部分 · 将金融问题建模为强化学习问题

MDP 在金融中的动机

  • 许多金融问题都可以使用马尔可夫决策过程(Markov Decision Process, MDP)建模。
  • MDP 提供了一种在不确定环境下表示状态与行为的结构化方法。
  • 强化学习帮助在复杂金融情境中寻找最优策略。

本节强调了 MDP 对金融决策问题建模的适用性。

Financial Machine Learning · Lecture 04

马尔可夫决策过程(MDP)

MDP 由以下几个关键组成部分构成:

  • 状态(States, ): 所有可能的情形。
  • 行为(Actions, ): 所有可选择的决策集合。
  • 转移概率(Transition probabilities, ): 执行动作后从一个状态转移到另一个状态的概率。
  • 奖励函数(Reward function, ): 在某状态执行某行动后得到的回报。
组成部分 描述 金融示例
状态 市场状态、财富水平
行为 资产配置、交易决策
转移 价格/财富演化
奖励 利润或效用

MDP 框架是将强化学习方法应用于金融问题的理论基础。

Financial Machine Learning · Lecture 04

状态与动作空间设计

  • 状态空间设计:

    • 应纳入关键金融特征,如资产价格、波动率、指标信号等。
  • 动作空间设计:

    • 明确可执行的操作,例如买入、卖出或持有。
    • 定义交易量或再平衡策略。

状态与动作空间的合理设计是强化学习代理在金融场景中有效学习的关键。

Financial Machine Learning · Lecture 04

金融领域中的奖励函数

  • 奖励函数是驱动智能体学习的核心,通过衡量行为的优劣指导优化。
    • 常见定义包括投资回报率、风险调整收益等。
  • 精心设计的奖励函数能引导智能体实现长期盈利目标。

奖励函数的设定确保了智能体的行为符合金融目标。

Financial Machine Learning · Lecture 04

数学表述

  • 表示系统的状态空间。状态 是在时刻 控制方可获取的信息。基于该信息,控制者必须选择一个动作。
  • 表示动作空间。在时刻 下,针对状态 ,可能仅有一个子集 的动作是可行的。
  • 表示随机转移核(stochastic transition kernel),给出当状态为 、执行动作 时,下一个状态位于集合 的概率。
  • 表示系统在时刻 、状态为 并执行动作 时的(折现)单阶段奖励
  • 表示规划期末的(折现)终端奖励
Financial Machine Learning · Lecture 04
  • 控制策略 是一系列决策规则序列 ,其中 ,决定了每个状态 在时刻 应执行的动作 。该序列称为策略(policy)或方案(strategy)。
  • 正式定义的马尔可夫决策问题为:

  • MDP 问题的类型:
    • 有限期问题) vs. 无限期问题
    • 完全状态可观测 vs. 部分可观测
    • 带约束问题 vs. 无约束问题
    • 总(折现)成本准则 vs. 平均成本准则
  • 研究问题:
    • 最优策略是否存在?
    • 它是否具有特定形式?
    • 能否高效计算出最优策略?
    • 能否从分析上推导出最优值函数的性质?
Financial Machine Learning · Lecture 04

经典应用示例

  • 消费问题(Consumption Problem):
    假设某投资者拥有一定的初始资本。在每个时期开始时(共有 个时期),她需决定消费多少、投资多少于风险资产。消费带来的效用由效用函数 衡量,同时终端财富也带来效用。剩余资本投资于流动性良好的风险资产,投资者无法影响价格走势。
    → 目标:最大化其预期折现效用之和。

  • 现金余额/库存问题(Cash Balance or Inventory Problem):
    假设一家公司在有限的 个周期内希望保持最优现金水平。假定每期现金储备发生随机变化(由于支出或收入),正现金带来持有成本,负现金则需支付利息(成本)。公司可通过资金转移调整储备水平,但需付出转移成本。
    → 目标:求解最优现金管理策略。

  • 均值-方差问题(Mean-Variance Problem):
    一个小型投资者在给定市场中操作,目标是在确保预期收益达到基准水平的前提下,最小化投资组合方差。
    → 目标:确定最优投资策略。

Financial Machine Learning · Lecture 04
  • 红利分配问题(Dividend Problem in Risk Theory):
    考虑一家保险公司的风险储备,一方面获得保费收入,另一方面需支付赔款。每期初公司可决定是否发放红利,且仅当储备为正时才能分红。一旦储备变为负,则视为破产,业务终止。
    → 目标:找到能最大化破产前期望折现红利总和的最优分红策略。

  • 赌博机问题(Bandit Problem):
    假设有两台老虎机,其成功概率 未知。每次只能选择其中一台,若获胜则得1欧元,否则无收益。
    → 如何选择以最大化 次实验的期望总收益?

  • 美式期权定价问题(Pricing of American Options):
    为求解美式期权的公平价格及最优行权时机,需解决一个最优停时问题。与欧式期权不同,美式期权买方可在到期前任意时刻行权。
    → 此类最优停时问题可在马尔可夫决策过程框架下求解。

Financial Machine Learning · Lecture 04

定义马尔可夫决策模型

Financial Machine Learning · Lecture 04

MDP 的等价定义

马尔可夫决策模型也可由数据集合 等价描述,其中各部分意义如下:

  • 与前页定义相同。
  • 表示扰动空间(disturbance space),配备 σ-代数
  • 表示扰动转移核(stochastic transition kernel) — 给出当当前状态为 、执行动作 时,随机扰动 落入集合 的概率。
  • 转移函数(transition function 或系统函数)
    给出:若系统在时刻的状态为、采取动作,且在时刻 出现扰动 ,则系统在时刻 的新状态。
Financial Machine Learning · Lecture 04

示例:消费问题(Consumption Problem)

表示风险资产在区间 内的随机收益。假设 为非负且相互独立的随机变量;消费效用函数记为 ,终端财富同样通过 评估效用。取如下定义:

  • :状态空间; 表示时刻 的投资者财富;
  • :动作空间; 表示时刻 的消费额;
  • :即禁止借款;
  • 为资产的随机收益;
  • :状态转移函数;
  • 的分布(独立于);
  • :单期奖励;
  • :期末奖励。
Financial Machine Learning · Lecture 04
  • 决策规则与策略
    • 可测映射 ,若满足 对所有 成立,则称为时刻 决策规则。令 表示时刻 所有决策规则的集合。
    • 决策规则序列 ,其中 ,称为**阶段策略(policy)方案(strategy)**。
  • 价值函数:

  • 定理: 对于 ,有

Financial Machine Learning · Lecture 04

有限期马尔可夫决策模型

可积性假设 (): 对所有

假设 () 对 阶马尔可夫决策问题成立。

Financial Machine Learning · Lecture 04

示例:(消费问题)
若假设效用函数递增且凹,并且 对所有成立,则假设 () 成立。此时 可被线性函数 )上界。因 在任何策略下几乎处处成立,故有:

  • :若在时刻处于状态且使用策略,则 之间的期望总奖励

  • :在时刻处于状态时的最大期望总奖励

  • 两者有界性:
Financial Machine Learning · Lecture 04

贝尔曼方程(Bellman Equation)

定义 。定义以下算子:

  • :

  • :,定义

  • :(时刻 的最大奖励算子)

定理(奖励迭代):
阶策略,对于 有:

Financial Machine Learning · Lecture 04

示例:(消费问题)
对于 ,算子 为:

,且收益分布独立于并满足

假设策略 (每期消费固定比例资产),则通过归纳可得:

因此,最优策略 满足 ,其中 ,即最优消费比例。

Financial Machine Learning · Lecture 04

最大化者、贝尔曼方程与验证定理

  • 最大化者定义:,则称为在时刻最大化者,若有
    即对所有 是映射 上的最大点。

  • 贝尔曼方程:

  • 验证定理:解此方程,则:

    • 对所有
    • 的最大化者,则 且策略 为最优策略。
Financial Machine Learning · Lecture 04

结构假设与结构定理

  • 结构假设 (): 存在集合 ,使得对

    • ,则定义良好且
    • 对所有,存在最大化者
  • 结构定理: 若()成立,则:


    对每个 存在最大化者 使 构成 阶问题的最优策略。

  • 推论: 若()成立且,则

Financial Machine Learning · Lecture 04
  • 动态规划原理: 若()成立,则对任意

    即:若 对区间 最优,则 对区间 亦最优。
Financial Machine Learning · Lecture 04

价值迭代与策略迭代

Financial Machine Learning · Lecture 04

用 MDP 建模金融市场

  • 资产动态与投资组合策略: 假设资产价格在离散时间下被观察:

    • 时间被划分为长度为 的周期,且
    • 资产价格采用乘法模型:
    • 二项式模型(Cox-Ross-Rubinstein 模型)与 Black-Scholes-Merton 模型的离散化都是乘法模型的特例。
  • 期金融市场: 个风险资产和一个无风险债券

    • 无风险债券

    • 个风险资产的价格过程为 ,并有

Financial Machine Learning · Lecture 04
  • 一个投资组合(portfolio)交易策略(trading strategy) 是一个 -适应的随机过程 ,其中
    表示在时段 内投资于第个资产的金额。

  • 向量 被称为投资者在时刻初始投资组合,其初始总值为:

  • 是一个投资组合策略,记时刻交易前的投资组合价值为 ,则有:

  • 交易后的投资组合价值为:

Financial Machine Learning · Lecture 04
  • 自融资策略(Self-financing): 若投资策略 满足

    对所有 ,即当前财富仅在资产之间重新分配,则称其为自融资。

  • 无套利机会(Arbitrage opportunity): 若自融资策略 满足

    则存在套利机会。

  • 定理: 对于一个 阶市场,下列两命题等价:

    • 市场中不存在套利机会;
    • 对任意 -可测的 ,若

      则必有

Financial Machine Learning · Lecture 04

总结:用 MDP 进行金融建模与求解思路

  • 建模方法: 明确 MDP 的主要要素:

    • 状态空间 ,动作空间
    • 转移函数:
    • 价值函数:
    • 贝尔曼方程:
  • 求解方法:

    • 通过贝尔曼方程的反向递推(backward induction);
    • 研究最优策略的存在性与形式;
    • 关注在迭代中得以保持的结构性性质。
Financial Machine Learning · Lecture 04

MDP 在金融中的应用:现金余额问题(Cash Balance Problem)

  • 涉及企业在有限期内如何决定最优现金持有水平。每期现金储备会出现随机变化(可能为正或负)。
  • 成本组成:
    • 若现金为正:存在持有成本或机会成本;
    • 若现金为负:产生支付成本(out-of-pocket expense)。
  • 企业管理层可以在每期初调整现金水平:
    • 转移成本函数 定义为

      其中 表示增加现金的单位成本, 表示减少现金的单位成本。
    • 现金流的随机变化由独立同分布随机变量 描述,且其期望有限。
  • 每期初持有现金水平 时所需支付的持有成本为:

Financial Machine Learning · Lecture 04

问题建模

  • MDP 的元素定义如下:
    • :状态空间, 表示现金水平;
    • :动作空间, 表示调整后的现金水平;
    • :随机扰动空间, 表示现金变化;
    • 的分布(独立于 );
    • 一期即时收益函数:
    • 终端收益函数:
    • 折现因子:
Financial Machine Learning · Lecture 04
  • 状态转移函数:

  • 价值函数:

  • 贝尔曼方程:

Financial Machine Learning · Lecture 04

问题求解

  • 解法通过**反向归纳法(backward induction)**完成;
  • 我们验证了每个 满足可积性假设 () 与结构性假设 ();
  • 现金余额问题的定理(Theorem 2.6.2):
    • 存在两个临界水平 ,使得对所有 :

      其中

    • 对应的最优策略存在同样的临界界限 ,使得:

    • 经济意义:当现金水平过低()时 → 增加现金至 ;当位于合适区间()时 → 不调整;当现金过高()时 → 减少现金至

Financial Machine Learning · Lecture 04

MDP 在金融中的应用:消费与投资问题(Consumption and Investment Problems)

投资者拥有初始财富 。在每个 个离散时期的起点,她都要决定在该期消费多少、投资多少到金融市场中。

在时刻 消费的金额 由效用函数 评估;剩余财富投资于风险资产与无风险债券,期末财富 带来终值效用

问题: 投资者应如何在各期平衡消费与投资,以最大化整个周期的预期效用总和?

Financial Machine Learning · Lecture 04

问题建模

  • 假设 (FM):
    • 市场中不存在套利机会;
    • 对所有
  • 效用函数 满足定义域
  • 财富过程 的演化为:

    其中 为消费–投资策略,满足 均为 -适应过程,且有
  • 消费–投资问题的目标函数为:

Financial Machine Learning · Lecture 04
  • MDP 的元素定义:
    • 状态空间:,其中 表示当前财富;
    • 动作空间:,其中 表示投资于风险资产的资金量, 表示消费额;
    • 允许决策集合:

    • 外生随机空间:,其中 表示风险资产的相对回报;
    • 状态转移函数:

    • 随机核分布: 的分布(独立于 );
    • 一期奖励函数:
    • 期末奖励函数:
  • 价值函数:

Financial Machine Learning · Lecture 04

问题求解

  • 定义在 上,满足递增、严格凹性及连续性,则成立以下性质:

    • 当且仅当市场无套利时,存在可测函数 使得

    • 函数 上严格递增、严格凹且连续。
  • 对多期消费–投资问题,有:

    • 价值函数 严格递增、严格凹且连续;
    • 价值函数可递推求得(贝尔曼方程):

    • 存在最大化器 使 构成消费–投资问题的最优策略。
Financial Machine Learning · Lecture 04

MDP 在金融中的应用:终端财富问题(Terminal Wealth Problems)

假设一位投资者的效用函数为

其中定义域 ,初始财富
市场由 个风险资产和一个无风险债券组成。

假设随机收益向量 相互独立但不必同分布;并且 为由股票价格生成的过滤集,即
市场满足假设 (FM)。

投资者必须在该市场中进行投资,并可在 个阶段中调整投资组合。
目标是最大化终端财富的期望效用

Financial Machine Learning · Lecture 04

模型构建

  • 财富过程 的演化规律为:

    其中 表示投资组合策略。最优化问题可表示为:

  • 对应的 MDP 要素如下:
    • 状态空间:,其中 表示财富;
    • 动作空间:,其中 表示投资于风险资产的金额;
    • 可行决策集:
    • 随机扰动空间:,其中 表示相对风险;
    • 状态转移函数:
    • 随机核: 的分布,且独立于
    • 即期奖励函数:
    • 终期奖励函数:

Financial Machine Learning · Lecture 04

问题求解

对于多期终端财富问题,成立以下性质:

  • (1) 凸性与连续性:
    价值函数 严格递增、严格凹且连续。

  • (2) 递推关系(贝尔曼方程):

  • (3) 最优策略存在性:
    存在最大化器 使得

    为该 阶终端财富问题的最优投资策略

Financial Machine Learning · Lecture 04

MDP 在金融中的应用:含交易成本的投资组合选择问题(Portfolio Selection with Transaction Costs)

我们现在考虑在比例交易成本(proportional transaction costs)条件下的效用最大化问题。
为简化起见,仅考虑包含
一只债券和一只风险资产
的市场。

若在股票中额外投资金额 (可以为正或负),则会产生 的交易成本(比例系数 满足 ),该项费用从债券头寸中支付。

要准确计入交易成本,不仅需要关注投资者的总财富,还需区分资金在债券与股票之间的分配。
因此,与此前的一维财富建模不同,本模型的状态空间是二维的,由债券和股票的持仓金额组成。

Financial Machine Learning · Lecture 04

模型构建(Formulation)

  • MDP 元素定义:
    • 状态空间:,其中 分别表示投资于债券与股票的金额;
    • 动作空间:,其中 表示交易后在债券与股票中的新配置;
    • 允许的动作集合:

      表示在包含交易成本约束下可行的再平衡操作;
    • 随机空间:,其中 表示股票相对价格变化;
    • 状态转移函数:

    • 概率核: 表示 的分布(独立于状态与动作);
    • 即期回报:
    • 终端回报:
Financial Machine Learning · Lecture 04

MDP 在金融中的应用:动态均值–方差问题(Dynamic Mean–Variance Problems)

本节采用与“终端财富问题(Terminal Wealth Problems)”相同的非平稳金融市场设定,假设相对风险变量独立但不平稳。投资者初始财富为 ,该财富可分别投资于 个风险资产和一个无风险债券中。

问题:
投资者应如何在 个时期中进行投资,以在达到指定期望收益 的条件下最小化投资组合方差

Financial Machine Learning · Lecture 04

模型构建(Formulation)

  • MDP 元素:
    • 状态空间: 表示当前财富;
    • 动作空间: 表示投资于风险资产的金额;
    • 允许决策集:
    • 随机扰动空间: 表示相对风险;
    • 状态转移函数:
    • 条件分布: 的分布(独立于 )。
  • 原始形式 (MV):

  • 等价形式 (MV):

Financial Machine Learning · Lecture 04
  • 假设 (FM):

    • 对所有 ,有
    • 相对风险收益过程的协方差矩阵

      对所有 都是正定的;
    • 约束条件:
  • 求解思路:
    问题 (MV) 可通过**拉格朗日乘子法(Lagrange multiplier technique)**求解。
    定义拉格朗日函数:

  • 相应的拉格朗日形式问题:

Financial Machine Learning · Lecture 04
  • 等价的随机二次规划问题(Stochastic LQ Problem):

    的最优解,则它同时也是 的最优解,其中

  • MDP 对应元素:

    • 即期回报:
    • 终期回报:
Financial Machine Learning · Lecture 04
  • 结果(Solution): 对均值–方差问题 (MV) 有以下结论:

    • 问题 (MV) 的最优值为:

      其中 定义见式 (4.34),且
    • 最优投资组合策略 为:

  • 拓展:

    • 可基于相同原理进一步推广至动态均值–风险问题(Dynamic Mean–Risk Problems)
Financial Machine Learning · Lecture 04

MDP 在金融中的应用:指数跟踪问题(Index Tracking)

假设一个金融市场中包含一只债券d只可交易风险资产。此外,还存在一只不可交易资产(如某指数或信托基金),其价格过程 演化如下:

其中随机变量 表示该不可交易资产的相对价格变化率。 可能与风险资产的回报 存在相关性。假设随机向量序列 相互独立,且每一对 的联合分布已知。

投资者的目标是——通过投资于可交易资产组合,使其投资组合的财富过程尽可能“贴近”不可交易资产的价格过程。为定量衡量“贴近度”,定义**跟踪误差(tracking error)**为投资组合财富与目标价格过程的平方距离。因此优化问题为:

其中 可测于
即策略在每期仅依赖于过去的可观察信息(包括交易资产与目标资产的收益)。

Financial Machine Learning · Lecture 04

模型构建(Formulation)

  • MDP 模型组件:
    • 状态空间:,其中 表示投资者财富, 表示不可交易资产的价值;
    • 动作空间:,其中 为投资于各风险资产的金额;
    • 可行动作集:
    • 随机扰动空间:,其中 为可交易风险资产的相对变动; 为不可交易资产的相对价格变动。
    • 状态转移函数:

    • 随机转移核: 表示 的联合分布(独立于动作与状态)。
    • 单期成本(即时回报):,即惩罚投资组合财富与目标资产价值的平方偏差。
    • 终期成本:
  • 价值函数(或“最小代价函数”, cost-to-go function):

Financial Machine Learning · Lecture 04

第03部分 · 强化学习算法 (Reinforcement Learning Algorithms)

基于价值的方法 vs 基于策略的方法

  • 基于价值的方法(Value-based Methods)

    • 通过学习**价值函数(value function)**来指导决策,例如 Q-learning
  • 基于策略的方法(Policy-based Methods)

    • 直接优化定义智能体行为的策略函数(policy function),例如 REINFORCE

这两类方法各具优点,并在不同的金融场景下具有不同的适用性。

Financial Machine Learning · Lecture 04
Financial Machine Learning · Lecture 04
Financial Machine Learning · Lecture 04

Q-learning 概述

  • Q-learning 是一种**离策略(off-policy)**的基于价值强化学习算法:
    • 无需环境模型的情况下学习动作的价值;
    • 按照经验数据迭代更新价值估计。

Q-learning 是一种通用性较强的算法,可应用于各种交易策略开发中。

Financial Machine Learning · Lecture 04

深度 Q 网络(Deep Q-Network, DQN)

  • DQN 结合了深度学习与强化学习:
    • 使用神经网络近似 Q 值函数;
    • 克服了传统 Q-learning 在高维环境中的局限;
    • 能够直接从**原始市场数据(如价格序列)**中学习。

DQN 在复杂的金融场景中表现出强大性能,使交易策略得以大幅提升。

Financial Machine Learning · Lecture 04

策略梯度方法(Policy Gradient Methods)

  • 策略梯度方法直接对策略进行优化:
    • 通过对期望收益执行**梯度上升(gradient ascent)**实现策略改进;
    • 典型算法如 REINFORCE
  • 特别适用于动作空间连续的场景(如投资与交易决策)。

该类方法在灵活性与可扩展性上优于传统方法,适合多样化金融策略优化。

Financial Machine Learning · Lecture 04

第04部分 · 深度强化学习及其应用

强化学习与深度学习的融合

  • 深度强化学习(Deep Reinforcement Learning, DRL)
    将神经网络与强化学习原理相结合,能够:

    • 处理高维输入(如市场数据、图像等);
    • 在复杂环境中实现更高效的决策与学习。
  • 这种融合极大拓展了强化学习在高维决策中的应用潜力。

深度强化学习正在革新金融自动化决策的方式。

Financial Machine Learning · Lecture 04

应用案例:最优执行问题(Optimal Execution)

  • 问题描述:

    • 交易者希望在给定的时间期限内买入或卖出一定数量的资产;
    • 目标是在执行过程中最大化收益或等价地最小化交易成本
  • Almgren–Chriss 模型:

    • 交易者需在时间区间 内卖出总量为 的资产;
    • 初始价格为 ,交易在离散的时间点 进行;
    • 最终库存(持仓)
    • 目标是确定最优的卖出(或买入)策略
    • 模型包含两类价格冲击(price impact)
      • 暂时性冲击(temporary impact): 由买卖造成的短期供需失衡所引起的价格变化;
      • 永久性冲击(permanent impact): 交易活动对市场“均衡价格”产生的长期影响。
Financial Machine Learning · Lecture 04
  • 资产价格动态:

    其中:

    • 为价格波动率;
    • 为独立同分布随机变量,期望为 0,方差为 1;
    • 表示永久性冲击函数
  • 库存动态:

  • 考虑暂时性冲击的实际成交价格:

    其中 为暂时性冲击函数,反映即时价格滑点。

Financial Machine Learning · Lecture 04
  • 交易成本函数:

    • 交易总成本 定义为初始账面价值减去总收入:

    • 其期望与方差为:

  • 交易者的优化目标:

    其中 表示风险厌恶系数。

Financial Machine Learning · Lecture 04
  • 解析解(线性价格冲击)
    • 当两类冲击均为线性:

    • Almgren–Chriss 模型的一般解为:

      其中:

    • 对应的最优库存路径为:

Financial Machine Learning · Lecture 04
  • 评估指标(Evaluation Criteria):

    • 盈亏(PnL):算法在整个交易期间产生的最终利润或损失;
    • 执行落差(Implementation Shortfall):算法所得 PnL 与假设立即执行全部交易的理想 PnL 之间的差值;
    • 夏普比率(Sharpe Ratio):期望收益与收益标准差的比值,用于衡量风险调整后的绩效。
  • 基准算法(Benchmark Algorithms):

    • 时间加权平均价格(TWAP)
    • 成交量加权平均价格(VWAP)
    • Submit-and-Leave (SnL) 策略。
Financial Machine Learning · Lecture 04
  • 强化学习(RL)方法在最优执行中的应用
    • 代表性算法:
      • 基于价值的:-learning、Double DQN;
      • 基于策略的:深度策略梯度方法(Policy Gradient, A2C, PPO, DDPG 等)。
    • **状态(states):**包含时间戳、市场特征(例如中间价、买卖价差)、库存状态、历史收益等。
    • **动作(controls):**每个时间点的交易决策,如:
      • 市价单交易的数量;
      • 限价单的相对报价水平。
    • 奖励(rewards):
      • 现金流入或流出(取决于买卖方向);
      • 执行落差(Implementation Shortfall);
      • 盈亏(PnL)、收益率、夏普比率等。

强化学习方法通过与市场环境交互学习最优策略,可在动态市场下实现自适应的最优执行。

Financial Machine Learning · Lecture 04

应用案例:(多期均值–方差)投资组合优化(Multi-period Mean–Variance Portfolio Optimization)

  • 问题设定(Setting)
    • 市场中存在 个风险资产;
    • 投资者在 时进入市场,初始财富为
    • 目标是在各时刻 动态调整持仓,使得投资的期望收益与风险方差达到最佳平衡;
    • 各期资产的随机收益率为:
      • 假设 相互独立;
      • 期望向量:
      • 每个资产的标准差为
      • 收益协方差矩阵:
    • 投资者在时刻 的财富为
    • 投资于第 个资产的金额为
    • 投资于第 个资产的金额为
    • 投资策略表示为:

Financial Machine Learning · Lecture 04
  • 模型构建(Model)

    • 目标函数:

      其中 为风险厌恶系数;
    • 财富动态约束:

  • 解析解形式:

    其中 由递推形式显式给出,分别表示对财富的线性依赖系数与偏置项。
    该结构揭示最优策略在每期内均为线性反馈形式(linear feedback policy)

Financial Machine Learning · Lecture 04

  • 强化学习方法(RL Approach)
    • 主要算法:
      • 基于价值的方法:Q-learning、SARSA、DQN;
      • 基于策略的方法:DPG(Deterministic Policy Gradient)与 DDPG(Deep DPG)。
    • 状态变量(states):
      • 当前时间
      • 各资产价格;
      • 资产历史收益;
      • 当前投资持仓;
      • 剩余现金或未投资余额。
    • 控制变量(controls): 投资者在每期选择的投资组合决策 —— 各资产的投资金额或投资比例。
    • 奖励函数(rewards):
      • 投资组合收益(portfolio return);
      • (差分)夏普比率(Sharpe ratio);
      • 总利润(profit)。

基于强化学习的动态组合优化能在未知市场分布下自适应学习,使得投资者在风险与收益间实现动态最优权衡。

Financial Machine Learning · Lecture 04

应用案例:期权定价与对冲(Option Pricing and Hedging)

  • Black–Scholes 模型
    • 标的资产价格动态:

      其中:
      • 为标的资产的预期收益率;
      • 为波动率;
      • 为标准布朗运动。
    • Black–Scholes–Merton 偏微分方程(PDE):

      其中 表示期权价格, 为无风险利率。
    • 解析解(以欧式看涨期权为例): , 其中 为标准正态分布函数。
Financial Machine Learning · Lecture 04

  • 强化学习(RL)方法在期权定价与对冲中的应用
    • 常用强化学习算法:
      • 基于价值的方法:Q-learning、深度 Q-learning (DQN);
      • 策略优化类:PPO(Proximal Policy Optimization)、DDPG(Deep Deterministic Policy Gradient)。
    • 状态变量(states):
      • 当前标的资产价格;
      • 当前持仓(库存);
      • 期权执行价;
      • 距离到期时间。
    • 控制变量(controls):
      • 每期对冲调整量(即持仓头寸的增减)。
    • 奖励函数(rewards):
      • (风险调整后的)预期财富或收益;
      • 期权收益(option payoff);
      • (风险调整后的)对冲成本。

Financial Machine Learning · Lecture 04

做市商策略(Market Making)

  • 问题背景:
    做市商(market maker)的核心目标是在提供买卖报价的过程中**赚取买卖价差(bid-ask spread)**的利润,同时避免积累过大的仓位(库存)。

  • 主要风险来源:

    1. 库存风险(Inventory Risk)
      当持有过大的净头寸时,价格波动会显著影响盈亏;
    2. 执行风险(Execution Risk)
      指限价单在期望时间内可能无法成交的风险;
    3. 逆向选择风险(Adverse Selection Risk)
      当市场价格单边快速移动而扫过做市商挂出的报价时,若价格未能回落,则导致做市商亏损。
Financial Machine Learning · Lecture 04
  • 随机控制方法(Stochastic Control Approach)
    • 设做市商在有限时域 内为一单只股票持续报价交易;
    • 股票**中间价(mid-price)**服从算术布朗运动(Arithmetic Brownian Motion):

    • 做市商持续报出买价 卖价
    • 市价单的到达是一个随机过程,买入和卖出订单分别以速率 到达;
    • 做市商的库存过程(inventory process) 定义为:, 其中 分别表示截止 成交的买入与卖出笔数;
    • 报价价差(quote distances):

    • 成交强度函数(order arrival intensities):

      其中 为经验常数,反映订单簿流动性特征。
Financial Machine Learning · Lecture 04
  • 现金过程(Cash Process)与优化问题
    • 做市商的现金(cash)动态为:

    • 做市商最大化恒定绝对风险厌恶(CARA)效用函数的期望:

      其中 为风险厌恶系数。

    • 相应的 Hamilton–Jacobi–Bellman (HJB) 方程:

Financial Machine Learning · Lecture 04
  • 强化学习方法(RL Approach)

    • 强化学习算法:

      • 基于价值的方法:Q-learning、SARSA;
      • 基于策略的方法:深度策略梯度(Deep Policy Gradient)。
    • 状态变量(states):

      • 买价与卖价、前持仓量、订单流失衡(order-flow imbalance)、市场波动率、其他市场指标(如交易量、不对称度等)。
    • 控制变量(controls):

      • 报价价差(spread),即在每个时刻发布的限价买单与卖单间距。
    • 奖励函数(rewards):

      • 含库存惩罚项的盈亏(PnL with inventory cost);
      • 含库存成本的执行落差(Implementation Shortfall with inventory cost)。
Financial Machine Learning · Lecture 04

应用案例:智能投顾(Robo-Advising)

随机控制方法(Stochastic Control Approach)

该模型框架旨在通过动态优化与客户互动机制,构建智能投顾的自适应投资决策体系。其核心要素包括:

  • 模型框架(Framework)
    1. 市场收益的状态转换模型(Regime Switching Model): 通过马尔可夫切换模型刻画市场环境的不同阶段(如牛市、熊市),并在状态间切换时调整投资策略;
    2. 客户—投顾交互机制:智能投顾与客户持续交互,根据客户反馈迭代更新其风险偏好认知;
    3. 客户风险偏好的动态模型(Risk Aversion Process): 将客户的风险厌恶程度建模为随时间动态演化的随机过程;
    4. 最优投资准则(Optimal Investment Criterion): 在动态环境下,采用最优控制方法确定投资组合的调整策略。
  • 交互与学习(Interaction and Learning): 智能投顾通过持续的客户交互,监测并学习客户风险偏好的变化,从而实现策略的自适应调整。
  • 投资优化目标(Optimization Objective): 基于客户风险厌恶水平的估计值,采用有限投资期内的多期均值–方差优化准则(multi-period mean–variance criterion),动态平衡收益与风险。

Financial Machine Learning · Lecture 04

应用案例:智能订单路由(Smart Order Routing)

  • 暗池(Dark Pools)与亮池(Lit Pools)
    • 暗池(Dark Pools) 是用于股票交易的私人交易场所,普通投资者无法直接访问。
      • 暗池最初是为了便于机构投资者进行大宗交易(block trading),从而避免因大额订单冲击市场价格,导致获得不利成交价格;
      • 按运营主体可分为三类:
        1. 券商自营型暗池(Broker-Dealer-Owned Dark Pools)
        2. 代理券商或交易所运营型暗池(Agency Broker / Exchange-Owned Dark Pools)
        3. 电子做市商暗池(Electronic Market Maker Dark Pools)
    • 亮池(Lit Pools) 则会完全显示买价与卖价(bid/ask quotes)
      • 主板交易所属于典型亮池;
      • 市场参与者可见全部可用流动性;
      • 亮池是市场中最主要的交易场所之一。
Financial Machine Learning · Lecture 04
  • 暗池的重要特征:

    • 成交配对的概率(matching probability);
    • 成交价格相对优势或劣势(price advantage/disadvantage)。
  • 亮池的关键特征:

    • 订单流特征(order flows);
    • 排队深度(queue sizes);
    • 撤单率(cancellation rates)。

不同交易场所的结构特征直接影响订单执行速度、交易成本以及价格影响。

Financial Machine Learning · Lecture 04
  • 强化学习(RL)在自动化交易中的广泛应用:

    • 智能体以学习机制为核心,能够根据市场反馈动态调整策略;
    • 用于交易执行、报价优化及风控等多种应用场景。
  • 多智能体系统(Multi-Agent Systems)的发展:

    • 不同交易智能体之间的博弈学习提升了市场流动性和价格发现效率;
    • 在高频交易与做市领域表现出显著优势。

这些趋势展示了强化学习在现代金融体系中的快速发展与日益增强的影响力。

Financial Machine Learning · Lecture 04

第05部分 · 总结与讨论 (Summary and Discussion)

核心要点总结(Summary of Key Takeaways)

  • 强化学习(Reinforcement Learning, RL) 是优化金融决策的强大工具;
  • 强化学习与深度学习的融合 正在推动金融领域出现一系列创新型策略;
  • 随着研究与技术的不断进步,强化学习将在更多新的场景与方法论上得到拓展与应用。

本节讨论旨在引导大家思考强化学习对金融决策范式的变革性影响,以及其未来的发展方向。

Financial Machine Learning · Lecture 04

最终收获与展望(Final Takeaways)

  • 强化学习正在重塑金融中的决策逻辑
  • 现代强化学习技术的融合正在支撑更智能化、更高效的金融策略设计
  • 下一讲主题:大数据与机器学习在金融中的应用 (Big Data & ML in Finance)
    → 将深入探讨大数据分析方法如何助力金融创新与决策优化
Financial Machine Learning · Lecture 04