金融中的机器学习 · 讲座 03

MLP	CNN	RNN	GNN
对一般表格数据灵活。	本地模式与平移不变性（对术结构信号如期限结构或限价单本有用）。	收益、波动性或流动性的顺序依赖。	图的关系（对手、供应链、所有权）。

方面	优点	缺点 / 风险
灵活性	通用逼近器，丰富的非线性	小样本容易过拟合
数据格式	对表格、横截面数据表现良好	没有内置的序列/图的归纳偏见
优化	基于 SGD 的训练可扩展到大数据集	非凸的，局部最小值、鞍点
可解释性	可以通过架构嵌入经济约束	比线性/树模型难以解释

方面	优点	缺点 / 风险
归纳性	捕捉局部模式，平移不变性	如果没有局部结构则不太适用
效率	比稠密层更少的参数	架构选择可能是临时的
数据类型	在序列和网格上表现良好	可能需要许多过滤器/层
可解释性	过滤器有时可解释为“图案”	仍然不如线性模型透明

Application · (Re-)Imag(in)ing Price Trends (Jiang, Kelly & Xiu, 2023, JF)

问题
- 通过让模型发现预测收益的价格模式，而不是预先指定动量或反转规则，重新审视 基于趋势的可预测性。
- 使用股票级 价格图 作为输入，测试机器学习的模式是否优于标准趋势信号。

flowchart LR %% =========================== %% 节点定义 %% =========================== %% 1. 原始数据 RawData["价格系列
+ 成交量
(1D 数据)"] %% 2. 图像化 (核心步骤) %% 使用 {{ }} 形状代表“准备/转换”过程 ImgGen{{"时间序列
转直接图像"}} %% 图像数据的抽象表示 ImgData[("二维图像
(例如 GAF/RP)")] %% 3. 模型 %% 使用 [[ ]] 代表黑箱/计算密集型模型 CNN[["二维 CNN
(空间模式)"]] %% 4. 预测信号 %% 使用 (( )) 代表单个数值输出 Prob(("P(上涨)
概率")) %% 5. 金融应用 Sorts["分位数排序
(多头/空头)"] Perf["表现
(夏普比率 / 阿尔法)"] %% =========================== %% 流程连接 %% 数据流：粗箭头 RawData ==> ImgGen ImgGen ==> ImgData ImgData ==> CNN CNN ==> Prob %% 策略流：细箭头 Prob --> Sorts Sorts --> Perf %% =========================== %% 样式美化 %% 原始数据：蓝色 style RawData fill:#e3f2fd,stroke:#1565c0,stroke-width:2px %% 图像转换部分：青色/视觉感 style ImgGen fill:#e0f7fa,stroke:#006064,stroke-dasharray: 5 5 style ImgData fill:#b2ebf2,stroke:#006064,stroke-width:2px %% 深度学习：紫色 style CNN fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px,rx:5 %% 信号：黄色/高亮 style Prob fill:#fff9c4,stroke:#fbc02d,stroke-width:2px %% 回测应用：绿色 style Sorts fill:#e8f5e9,stroke:#2e7d32 style Perf fill:#c8e6c9,stroke:#2e7d32,stroke-width:2px

模型 / 算法
- 将最近的日常 OHLC 价格、成交量和移动平均（5、20、60 天）的数据转换为 黑白图像（OHLC 杆 + MA 线 + 成交量柱），并进行标准化的垂直缩放。
- 训练 二维 CNN 分类未来 5/20/60 天的收益是否为正，使用交叉熵损失和标准 CNN 组件（卷积–激活–池化、批归一化、丢弃）。

方面	优点	缺点 / 风险
序列性	自然适用于时间序列和序列	难以在时间上进行并行化
记忆性	可以捕捉中期/长期依赖	对于非常长程的依赖仍然存在困难
灵活性	许多变体（堆叠的、双向的）	有许多超参数，调优困难

方面	优点	缺点 / 风险
长程依赖性	更好地处理长程依赖性	增加复杂性和参数
可解释性	权重可以可视化	不总是完全具有因果性 / 可解释性
灵活性	支持 RNN 编码器/解码器、集合等	仍然依赖于序列长度

模型	优点	缺点 / 风险
VAE	概率性、显式潜在结构	重建可能过于“平滑”
GAN	清晰、现实的样本	训练不稳定、模式崩溃

方面	优点	缺点 / 风险
结构	尊重网络拓扑	需要图数据和质量边缘
灵活性	学习复杂的邻域交互	多层可能导致过度平滑
金融应用	自然适用于系统性风险、传染、溢出	可解释性可能具有挑战性

第03讲

金融中的深度学习算法

大纲

动机

深度学习作为表示学习

浅层与深层：金融导向的视角

深度模型何时可能有用？

动机

本讲的神经网络基础

神经网络的简短历史

感知器及其局限性

用小型 MLP 解决 XOR 问题

神经元、层、网络

Application · Empirical Asset Pricing via ML (Gu, Kelly & Xiu, 2020, RFS)

Sigmoid 和 Tanh：饱和激活函数

ReLU 及其变体

超越 ReLU：平滑和自门控激活函数

损失与训练目标

示例模型

直觉与通用逼近

“深度学习革命”

与生物学的联系

训练过程（反向传播）：高级步骤

反向传播的计算图视角

优缺点、风险和金融用例

总结

Application · Autoencoder Asset Pricing Models (Gu, Kelly & Xiu, 2021, JoE)

Application · Deep Learning in Asset Pricing (Chen, Pelger & Zhu, 2023, MS)

动机

一维卷积公式

一维卷积作为过滤

步幅、填充和卷积类型

直觉与架构

优缺点与金融用例

从特征图到特征图

池化层

历史 CNN 架构（概要）

总结

Application · (Re-)Imag(in)ing Price Trends (Jiang, Kelly & Xiu, 2023, JF)

Case Study · Charting by Machines (Murray, Xia & Xiao, 2024, JFE)

动机

从前馈到时间延迟再到递归

RNN 基本公式

展开 RNN 和通过时间反向传播

RNN 中的消失与爆炸梯度

Application · Forecasting the Equity Premium: Mind the News! (Adämmer & Schüssler, 2020, RoF)

LSTM 和 GRU 公式（核心方程）

LSTM 单元直觉

GRU 单元直觉

堆叠和双向 RNN

直觉、优缺点、金融用例

总结

动机

注意基本公式

直觉与变体

优缺点与金融应用

示例：具有注意的序列到序列

总结

动机

VAE 公式（核心思想）

VAE 关键要点

GAN 公式（核心思想）

GAN 关键要点

优缺点与金融应用

总结

Application · Synthetic Data in Finance (Potluru et al., 2024)

Application · Generating Synergistic Alpha Collections via RL (Yu et al., 2023)

动机

消息传递公式

直觉、优缺点和金融应用

总结

深度网络的优化

深度网络中的消失/爆炸梯度

残差连接以简化优化

深度网络中的正则化

神经网络的贝叶斯视角（简要）

正则化、过拟合与可解释性

在金融中的混合架构

何时在金融中使用深度学习（以及何时不使用）

总体总结与展望