<center> Week 3 深度学习与强化学习 </center>

函数	范围	特点	金融应用
Sigmoid	(0,1)	梯度饱和，输出概率	违约概率输出层
Tanh	(-1,1)	零中心，梯度饱和	特征标准化
ReLU	[0, ∞)	稀疏激活，不死问题	隐层默认选择
Leaky ReLU	(-∞, ∞)	解决ReLU死亡	替代ReLU
GELU	(-∞, ∞)	GPT使用，平滑	LLM隐层
Swish	(-∞, ∞)	自门控，无界上界	高级网络

方案	解决消失	解决爆炸	机制
ReLU激活		—	正区间导数为1
梯度裁剪	—		梯度范数超阈值则缩放
残差连接		—	梯度高速公路
BatchNorm			稳定每层激活分布
好的初始化			Xavier/He确保初始方差

技巧	描述	金融应用
学习率调度	预热+衰减	先用大LR快速收敛，再用小LR精细调优
梯度裁剪	限制梯度最大值	金融数据极端值多，梯度爆炸常见
早停(Early Stopping)	验证集误差不再下降时停止	防止在噪声上过拟合
学习率重启	Cosine annealing	跳出局部最优，重新探索
混合精度训练	FP16混合FP32	加速训练50-100%
批次归一化	Batch Normalization	稳定训练，允许更大LR

场景	预训练数据	微调数据	优势
新股预测	全市场历史数据	新股上市后数据	解决冷启动问题
跨市场迁移	美股数据	A股数据	弥补新兴市场数据不足
因子迁移	大型股票	中小盘股票	提高样本外表现

变体	结构变化	特点	适用场景
标准LSTM	遗忘门 + 输入门 + 输出门	完整记忆控制	通用时序建模
无遗忘门LSTM	仅输入门 + 输出门	简化的记忆管理	短期时序（<20步）
耦合门LSTM		减少参数量	移动端/轻量部署
Peephole LSTM	门控看到细胞状态	更精确的时序控制	需要精确计时的任务
GRU	重置门 + 更新门	LSTM的简化版	训练速度优先
ConvLSTM	门控用卷积替代全连接	时空序列建模	订单簿动态预测
双向LSTM	正向+反向	利用未来信息	非实时分析（财报）

特性	GAN	扩散模型
训练稳定性	不稳定（模式崩塌）	稳定
样本质量	高	更高（但生成慢）
多样性	有限	丰富
计算成本	中等	高

应用	原理	价值
异常检测	重建误差大=异常	市场操纵检测、交易异常
噪声过滤	去噪自编码器	从噪声行情中提取信号
因子提取	隐编码=风险因子	类似PCA但非线性
缺失值填充	从非缺失部分重建缺失	财报数据插补

方法	生成质量	训练稳定性	金融适用性
GAN	中等	不稳定	合成数据生成
扩散模型	高	稳定	情景生成
VAE	中等	稳定	隐含表示学习
自回归模型	高	稳定	时间序列预测

指标	评估什么	方法
收益率自相关	时序依赖	比较ACF图
波动率聚类	条件异方差	比较GARCH效应
尾部指数	极端值分布	Hill估计量对比
协方差矩阵	多资产关系	比较相关矩阵Frobenius范数
预测效用	有用性	用生成数据训练→真数据评估

要素	设计原则	反例（应避免）
状态空间	包含可观测变量+可计算特征	包含未来信息（前视偏差）
动作空间	离散(方向)或连续(比例)，与执行匹配	动作分辨率与交易约束不匹配
奖励函数	风险调整后收益，考虑交易成本	仅用原始收益（忽略风险）
折扣因子γ	短期任务γ≈0.9，长期γ≈0.99	γ=1.0（无限远收益，训练不稳定）
初始状态分布	覆盖不同市场周期	仅在牛市数据上训练

任务	状态空间(S)	动作空间(A)	奖励(R)
组合优化	价格+持仓+因子值	权重调整[0,1]	Sharpe/Sortino Ratio
最优执行	剩余量+时间+价格+波动率	交易比例[0,1]	实现价格 - 基准 - 冲击成本
做市	库存+价差+波动率+订单流	bid/ask报价调整	做市收入 - 库存风险惩罚
期权对冲	标的价格+Greek+持仓	对冲比率调整	PnL波动率惩罚（最小化风险）

Q-learning

核心更新公式：

off-policy：使用行为策略产生数据，但学习目标策略（贪心策略）

flowchart LR s["当前状态 s"]:::state qtab["Q表"]:::table policy["行为策略
epsilon-greedy"]:::policy a["动作 a"]:::action env["环境"]:::env r["奖励 r"]:::result sn["下一状态 s'"]:::state maxq["查询下一状态最大Q值
max Q(s', a')"]:::calc update["更新 Q(s, a)
向目标值靠近"]:::update note["off-policy
用探索策略采样
用贪心目标更新"]:::note s --> policy qtab --> policy policy --> a a --> env env --> r env --> sn sn --> maxq qtab --> maxq s --> update a --> update r --> update maxq --> update update --> qtab policy -. 采样策略 .-> note maxq -. 目标策略 .-> note classDef state fill:#DDEBFF,stroke:#5B8FF9,stroke-width:1.2px,color:#222; classDef table fill:#F3E8FF,stroke:#8B5CF6,stroke-width:1.2px,color:#222; classDef policy fill:#FFF4CC,stroke:#C9A227,stroke-width:1.2px,color:#222; classDef action fill:#FCE7F3,stroke:#DB2777,stroke-width:1.2px,color:#222; classDef env fill:#F3F4F6,stroke:#999,stroke-width:1px,color:#222; classDef result fill:#DCFCE7,stroke:#16A34A,stroke-width:1.2px,color:#222; classDef calc fill:#DBEAFE,stroke:#2563EB,stroke-width:1.2px,color:#222; classDef update fill:#FDE68A,stroke:#D97706,stroke-width:1.2px,color:#222; classDef note fill:#F9FAFB,stroke:#6B7280,stroke-width:1px,color:#222;

def q_learning(env, episodes=1000, alpha=0.1, gamma=0.99, epsilon=0.1):
    Q = defaultdict(lambda: np.zeros(env.action_space.n))
    
    for episode in range(episodes):
        s = env.reset()
        done = False
        while not done:
            # ε-greedy探索
            if random.random() < epsilon:
                a = env.action_space.sample()
            else:
                a = np.argmax(Q[s])
            
            s_next, reward, done = env.step(a)
            
            # Q-learning更新
            Q[s][a] += alpha * (reward + gamma * np.max(Q[s_next]) - Q[s][a])
            s = s_next
    return Q

策略	描述	金融类比
-greedy	概率ε随机探索	保留一小部分资金尝试新策略
UCB	置信上界，不确定性高的动作更值得探索	对新资产/策略赋予更高权重
汤普森采样	从后验分布采样	贝叶斯组合优化
熵正则化	在目标函数中加入策略熵	鼓励策略多样化

模式	示例	适用场景
原始价格	[S_t, S_{t-1}, ..., S_{t-n}]	端到端学习
技术指标	[RSI, MACD, BB, MA]	特征工程辅助
组合特征	[Delta, Gamma, Vega, Theta]	衍生品对冲
混合状态	[价格 + 指标 + 持仓信息]	完整交易Agent

模式	描述	金融示例
LLM→DL	LLM输出作为DL输入特征	LLM情感分数 → LSTM预测
DL→LLM	DL输出作为LLM上下文	CNN提取K线特征 → LLM生成分析报告
Co-Training	LLM和DL同时训练，共享表示	联合文本+价格嵌入空间
LLM as Controller	LLM决策调用哪些DL模型	Agent选择LSTM/CNN/XGBoost

特性	DQN	DDPG	PPO
动作空间	离散	连续	两者均可
训练稳定性	中等	不稳定	最稳定
样本效率	中等	高	低
实现复杂度	简单	中等	中等

Week 3 深度学习与强化学习

Deep Learning & Reinforcement Learning

本周内容概览

3.1 神经网络基础

MLP & Backpropagation

从感知机到深度网络

激活函数

反向传播 (Backpropagation)

正则化与Dropout

人工神经元：从生物到数学

神经网络发展史

梯度消失与梯度爆炸

Batch Normalization原理

3.2 卷积神经网络

CNN

卷积操作

经典CNN架构演进

3.2.1 深度学习训练技巧

3.2.2 超参数优化

3.2.3 迁移学习在金融中的应用

CNN特征图可视化：模型在看什么？

DeepLOB: CNN用于订单簿分析

3.3 循环神经网络

RNN, LSTM, GRU

RNN与梯度问题

LSTM门控机制

LSTM vs GRU vs RNN

双向与堆叠RNN

BPTT (Backpropagation Through Time)

梯度裁剪 (Gradient Clipping)

LSTM门控数值示例

Seq2Seq在金融中的应用

3.4 Transformer进阶

Transformer in Finance

Transformer编码器可视化

位置编码的直觉

金融时间序列Transformer

预训练 + 微调策略

3.5 GAN与扩散模型

Generative Models in Finance

GAN (生成对抗网络)

扩散模型 (Diffusion Models)

3.5.1 GAN在金融中的应用案例

3.5.2 自编码器在金融中的应用

3.5.3 生成模型在金融中的前沿应用

GAN损失函数详解

模式崩塌 (Mode Collapse) 与WGAN

3.6 强化学习基础

RL Fundamentals

MDP (马尔可夫决策过程)

Bellman方程

Q-learning

探索 vs 利用 (Exploration vs Exploitation)

策略梯度定理 (Policy Gradient Theorem)

Actor-Critic架构详解

RL金融参数化设计模式

3.7 深度强化学习

Deep RL: DQN, DDPG, PPO

DQN (Deep Q-Network)

DDPG (Deep Deterministic Policy Gradient)

PPO (Proximal Policy Optimization)

DRL在金融中的经典应用

LLM+DRL混合架构 (前沿)

3.7.1 DRL训练稳定技巧

3.7.2 多Agent强化学习 (MARL)在金融中的应用

3.7.3 LLM+DRL的三种集成模式

RL在金融中的更多应用

LLM与DL的融合范式

3.8 实践环节

课堂实践项目（5选1）

课堂实践说明（统一要求）

项目1：信用评分 —— Logistic vs MLP

项目2：A股 tick 短期方向预测 —— CNN / LSTM 三选一

项目3：自编码器 —— 异常检测 / 因子提取

项目4：简化版 DeepLOB —— 订单簿方向预测

项目5：强化学习 —— 最优执行 Toy Problem

实践建议：如何高效使用 AI Agent / LLM

本周总结

延伸阅读