(Re-)Imag(in)ing Price Trends

部分	主题
1-2	问题框架与方法论设计
3-4	CNN架构与实证结果
5-7	可解释性、迁移学习与复现指南
8	总结与讨论

需求	说明
灵活性	能捕捉复杂的价格模式
可解释性	能理解模型发现了什么
可行性	参数不能太多，计算可控

方法	灵活性	可解释性	可行性
Logistic回归	低	高	高
1D CNN (时间序列)	中	中	中
2D CNN (图像)	高	中	高
全连接网络	高	低	低

类型	宽度	高度	日均像素
5日图	15px	32px	3px/天
20日图	60px	64px	3px/天
60日图	180px	96px	3px/天

配置	移动平均线	成交量条	性能
A	无	无	基础
B	有	无	短期好，长期差
C	无	有	混合
D (基准)	有	有	综合最优

选择	选项	论文选择	原因
颜色	RGB涨跌色	黑白	去除冗余，降维
缺失数据	删除	留白	保留完整历史
收益率	原始价格	调整后收益率	去除拆股/分红影响
移动平均窗口	固定	=图表天数	自适应、信息完整

方法	等权 Sharpe
2D CNN + 图像表示	2.16
Logistic + 图像缩放	2.00 ← 接近CNN!
1D CNN + 累积收益	0.40
Logistic + 标准时序	0.40

组件	作用	论文选择
卷积	提取局部特征	5×3 卷积核
激活函数	引入非线性	Leaky ReLU (α=0.01)
池化	降维+平移不变性	Max-pooling (2×1)
Batch Norm	稳定训练	每层使用
Dropout	防止过拟合	p=0.5 (仅FC层)

参数	值	说明
优化器	Adam	lr=1×10⁻⁵
批大小	128	—
损失函数	Cross-Entropy	二分类: up/down
权重初始化	Xavier	加速收敛
停止准则	Early Stopping	验证集损失2轮无改进

手段	为什么要做？	不做的后果
Batch Normalization	稳定每层输入分布	收敛慢，不稳定
Dropout (0.5)	随机关闭50%神经元	过拟合训练数据
Xavier初始化	使梯度在早期稳定	梯度消失/爆炸
Early Stopping	在验证集不改进时停止	过拟合
Leaky ReLU	避免神经元完全死亡	梯度流动受阻

改变	Sharpe变化
层数 3→2	显著下降
卷积核数 64→32或128	基本不变
Dropout 0.5→0.75	下降
激活 LeakyReLU→ReLU	显著下降
池化 (2,1)→(2,2)	显著下降

策略	Sharpe	对比
I5/R5 (CNN 5日图)	7.15	← 最佳
I20/R5	6.75
I60/R5	4.89
TREND	2.92	传统最优
WSTR	2.84	传统最优
STR	1.76
MOM	0.07	动量在周频失效

策略	Sharpe
I5/R5	1.49
I20/R5	1.74
WSTR	0.77
MOM	0.33

模型	5日持有	20日持有	60日持有
I5	7.15	2.35	1.30
I20	6.75	2.16	0.37
I60	4.89	1.29	0.75
MOM	0.07	0.25	0.06
WSTR	2.84	1.23	0.65
TREND	2.92	1.39	0.38

时间段	I5	I20	I60	MOM	WSTR
Day 1-5	SR=3.58	SR=2.50	SR=1.07	SR=-0.28	SR=2.11
Day 6-20	SR=0.42	SR=1.21	SR=0.83	SR=0.35	SR=0.33

持有期	月周转率	交易成本调整后 Sharpe
5日	~690%	4.03 (适合做市商/HFT)
20日	~175%	1.47 (适合机构投资者)
60日	~59%	0.91 (适合长期投资者)

CNN模型	与MOM相关性	与WSTR相关性	与TREND相关性
I5/R5	≈0%	-26%	-34%
I20/R20	≈0%	≈0%	≈0%
I60/R60	21%	≈0%	≈0%

策略	等权 Sharpe	市值权 Sharpe
I5/R5	1.02	1.29
I20/R5	0.78	0.96
I60/R5	1.08	1.03
MOM	0.19	0.23
WSTR	-0.30	-0.19

持有期	净 Sharpe	适用投资者
5日	4.03	做市商、高频交易
20日	1.47	机构投资者
60日	0.91	长期投资者

图表类型	CNN预测"涨"的概率
随机游走图表	48.6% ≈ 50% ✓
真实"头肩顶"模式	56.3% 显著偏离50%

模式	传统观点	CNN判断
杯柄模式	看涨信号	概率 < 50% (看跌!)
头肩顶	看跌信号	CNN识别为看涨

方法	20日 Sharpe	60日 Sharpe
基准（直接训练）	2.16	0.4-0.75
5日模型迁移	2.10	0.9-1.0
差异	42%相关 ← 不同信号!	迁移优于基准!

国家	股票数	本地重训	直接迁移	迁移-重训
美国	7,298	2.16	—	—
澳大利亚	886	1.97	2.20	+0.22
法国	955	-0.36	0.81	+1.17*
韩国	911	0.89	0.59	-0.30
新加坡	284	0.36	2.20	+1.83*
中国	662	0.82	0.06	-0.77
平均	661	0.30	0.70	+0.40

五个常见错误

错误1: 前向偏差 (Look-ahead Bias)

##  直接用未来数据训练
## ✓ 严格按时间顺序，测试期完全不参与训练

错误2: 数据泄漏 (Data Leakage)

##  在训练前用全部数据标准化
## ✓ 只用训练集的统计量来标准化

错误3: 图像表示错误

##  用原始价格水平（不同股票不可比）
## ✓ 相对于各自范围的标准化 [0,1]

错误4: 用测试集调参

##  监控测试集性能来停止训练
## ✓ 只用验证集(1993-2000的30%)决定何时停止

错误5: Sharpe比率计算

##  忘了年化
## ✓ 年化: daily_sharpe × √252

步骤	工具	说明
数据获取	CRSP / Tushare / AKShare	OHLCV数据
图像生成	Matplotlib / PIL	绘制OHLC图
模型构建	PyTorch	Conv2d, BatchNorm2d
训练监控	TensorBoard / W&B	损失曲线
投资组合	Pandas / NumPy	回测计算
AI辅助	Claude Code / ChatGPT	代码生成与调试

(Re-)Imag(in)ing Price Trends

CNN图像识别与股票价格趋势预测

课程目标与结构

本课程你将学到：

课程结构（45分钟）

Part 1

引入：技术分析的悖论

技术分析的矛盾地位

学术界的传统观点

但现实是...

核心问题

作者的三层递进问题

第1层：能否超越预定义模式？

第2层：为什么用图像表示？

第3层：发现的模式能否推广？

研究设计的核心洞察

两个关键决策的协同效应

为什么这两个选择互相增强？

关键信息

Part 2

方法论设计与选择逻辑

为什么选择CNN而非其他方法？

方法选择的三角权衡

CNN vs 其他方案

关键：CNN的参数共享大幅减少参数量

为什么用图像而非时间序列？

1D CNN vs 2D CNN 的本质区别

1D CNN的根本局限

图像表示的四大优势

1. 空间相关性捕捉

2. 多层次时间信息在单一图像中编码

3. 缩放不变性

4. 非线性信息的自然编码

从数据到图像：OHLC图像构造

构造过程（学生应能复现）

图像尺寸规格

图像设计的关键选择

四种图像变体 (Appendix Figure IA.2)

其他设计选择

关键发现：图像表示比CNN更重要！

Appendix Table IA.IX / 论文 Table IX 的启示

这意味着什么？

启示

Part 3

CNN架构详解

CNN的核心构建块

卷积 (Convolution) — 类比时间序列平滑

关键组件

CNN信息流的逐层理解

深度学习的"深度"意味着什么？

三种模型配置

模型架构随图像大小自动调整

训练关键参数

训练策略与数据分割

关键：时间序列不能随机分割！

重要设计细节

为什么这些正则化选择重要？

学生复现时必须理解的"为什么"

附录Table IA.XI的敏感性分析告诉我们

Part 4

实证结果与经济意义

核心发现1：惊人的短期预测能力

Table I — 等权组合 Sharpe Ratio (5日持有期)

市值加权组合

不同持有期的表现

Table II — 月度与季度策略 Sharpe Ratio

关键观察

收益的时间分解

Table III — 月度策略收益分解 (I20/R20)

解读

经济可行性

核心发现2：CNN发现了全新的信号

CNN预测与传统信号的相关性

这意味着什么？

因子回归 (Table IA.I) 进一步确认

CNN学到了什么？—— Logistic近似

Table VIII — 用简单变量近似CNN预测

一个可解释的模式

为什么这比动量更微妙？

交易成本与实际可行性