DNNs的优势:处理"非结构化数据"
DNNs的结构
![]() ![]() |
|
![]() |
|
|
|
|
|
|
卷积
|
|
给定一个输入信号序列 ![]() |
|
|
|
|
|
|
![]() |
|
卷积作为特征提取器 |
互相关 |
![]() |
|
![]() |
|
![]() |
|
汇聚层/池化层![]() |
|
|
![]() |
![]() |
|
|
|
|
![]() |
|
![]() |
![]() |
![]() |
简单循环网络( Simple Recurrent Network , SRN )
|
图灵完备
|
![]() |
|
堆叠循环神经网络
|
双向循环神经网络
|
![]() |
![]() |
|
|
|
|
模型 | 优点 | 局限性 | 典型应用 |
---|---|---|---|
MLP | 简单、通用 | 缺乏特征提取 | 分类、回归 |
CNN | 空间特征提取 | 不擅长序列 | 图像处理 |
RNN | 序列建模 | 长程依赖 | 时间序列 |
GAN | 数据生成 | 训练不稳定 | 生成式任务 |
Python深度学习生态
|
深度学习框架比较
|
|
|
|
|
策略
状态价值函数 (V函数)
动作价值函数 (Q函数)
最优价值函数
Bellman期望方程
Bellman最优方程
所有强化学习方法可以视为以下一般形式的特例:
各方法在三个关键维度上有所不同:
动态规划(DP)
|
时序差分(TD)学习
|
Q学习
|
表格表示的局限:
参数化表示的优势:
金融应用:能够从历史市场数据中泛化到新的市场状态
金融场景中的目标函数(最大化风险调整后的回报):
金融参数化的典型更新过程
金融特定目标:夏普比率、索提诺比率或自定义奖励函数
金融特征
优势:计算效率高,可解释性强,适合简单交易规则
案例:基于技术指标的趋势跟踪交易策略
投资组合管理的多层感知机
输入(市场状态) → FC(128) → ReLU → FC(64) → ReLU → FC(资产数量)
时间序列特化网络
输入(价格序列) → LSTM(128) → LSTM(64) → FC(32) → 交易决策
Actor网络
Critic网络
目标计算:
多时间尺度层次架构
市场数据 → 高频特征(CNN) → 日内特征(LSTM) → 长期特征(Transformer)
多资产关系建模
特殊金融应用
方法 | 函数表示 | 目标计算 | 更新机制 | 模型依赖 | 策略特性 | 稳定性技巧 |
---|---|---|---|---|---|---|
动态规划 | 表格 | 完整模型计算 | 确定性迭代 | 完全依赖 | 在线策略 | 无需 |
TD学习 | 表格 | 单样本估计 | 增量更新 | 无需 | 在线策略 | 无需 |
Q学习 | 表格 | 最大化下一步 | 增量更新 | 无需 | 离线策略 | 无需 |
DQN | 深度网络 | 最大化下一步 | 梯度下降 | 无需 | 离线策略 | 目标网络、回放 |
DDPG | 双网络 | 策略决定下一步 | 双梯度下降 | 无需 | 确定性策略 | 目标网络、噪声 |
PPO | 双网络 | 约束策略更新 | 梯度下降 | 无需 | 随机策略 | 梯度裁剪、GAE |
|
|
工具 | 优点 | 适用场景 | 学习曲线 |
---|---|---|---|
OpenAI Gym | 环境丰富 | 算法原型 | 低 |
Ray RLlib | 分布式 | 大规模学习 | 中 |
Stable Baselines | 实现简单 | 快速开发 | 低 |
TF-Agents | 深度集成 | 工业级项目 | 高 |
一种探索-利用(Exploration-Exploitation)算法,通过观察投资者在不同市场环境下的投资组合选择来了解投资者随时间的风险偏好
由两个智能体组成的投资机器人咨询框架
--- ## 基础强化学习算法 ### 动态规划方法 - 价值迭代(Value Iteration) - 策略迭代(Policy Iteration) ### Q-Learning算法 - 核心公式: $Q(s,a) \leftarrow Q(s,a) + \alpha[r + \gamma \max_{a'}Q(s',a') - Q(s,a)]$ ### SARSA算法 - On-Policy学习 - 与Q-Learning的关键区别 --- ## 深度强化学习算法 ### DQN (深度Q网络) - 神经网络近似价值函数 - 经验回放机制 - 目标网络稳定性 ### 关键创新 - 将Q-Learning与深度学习结合 - 处理高维状态空间