玩转 Python 量化交易(第 2 讲)

不写代码的量化多因子策略开发

今日目标(Learning Objectives)

  • 复述量化策略的端到端流程(假设→数据→因子→合成→组合→评估→稳健性)
  • 理解多因子策略的理论基础与行业共识(风险补偿/行为,周期性与分散化,可投资性)
  • 在 Excel/Sheets 完成多因子:因子工程→合成→分组/Top-N→月度调仓→成本与绩效
  • 识别并规避关键陷阱:未来函数、阈值泄露、样本内过拟合、可交易性忽视

工具与课堂产出

  • 工具:Excel 或 WPS
  • 课堂产出:
    • 合成因子得分、Q 分组 / Top-N
    • 月度调仓、成本与换手近似
    • 多空收益、夏普、累计曲线
    • ≥1 项稳健性实验、≥1 个风险点
    • AI 使用记录(提示词 + 关键响应)

因子投资是什么?

  • 定义:可度量、解释一组证券收益差异的共同驱动特征(MSCI)
  • 多因子模型(直观):

  • 常见权益因子:Value、Size、Momentum、Quality、Low Vol、Yield

多因子策略理论与实务发展(1/2)

  • 1960s–1990s
    • 理论:CAPM(1964/1965;Sharpe 1964, Lintner 1965),APT(1976;Ross),FF3(三因子,1992/1993;Fama–French)
    • 实务:Barra 风险模型在机构组合中普及;DFA 等“因子倾斜”投资(1990s)
  • 1997–2005
    • 理论:Carhart 动量(1997);低波/低贝塔异常系统化记录(1991;Haugen–Baker)
    • 实务:均值—方差优化 + 因子约束进入投研流程;基本面加权(RAFI,2005)引发“Smart Beta”讨论
  • 2006–2011
    • 理论:最小方差组合经验研究(2006;Clarke–de Silva–Thorley);低波指数方法成熟(Min Vol 指数,2008 起)
    • 实务:首批低波/质量/价值等风格指数与 ETF 落地;2007/08 “量化风格挤兑”暴露拥挤与杠杆风险

多因子策略理论与实务发展(2/2)

  • 2012–2016
    • 理论:FF5(2015;Profitability/Investment),QMJ(质量,2014 WP/2019 发表;Asness 等),BAB(低贝塔,2014;Frazzini–Pedersen);“动物园/复现危机”(2016;Harvey–Liu–Zhu)
    • 实务:Smart Beta 与多因子指数/ETF 爆发;“打分合成 vs 集成优化”两条构建路径形成共识
  • 2017–2020
    • 理论:因子择时难度量化与稳健统计(2017–2019,多篇)
    • 实务:MiFID II 研究解绑(2018)促使买方自建量化与替代数据;TCA/执行算法与成本模型深度融合
  • 2021–至今
    • 理论:不同利率/通胀体制下因子表现差异与宏观敏感度研究
    • 实务:“疫苗日”价值/周期旋转(2020-11-09)与再通胀交易(2021)促使更重视拥挤与容量管理;ML/多源数据作为叠加层,但产品端坚持“可解释 + 可投资”

学术界挖掘因子的一般做法(以FF3、FF5为例)

  • 数据与分组
    • 每年6月末:按市值(S/B)与 BM(H/N/L)、盈利(R/W)、投资(C/A)分组;月度更新收益。
  • 因子收益
    • MKT:市值加权市场超额收益。
    • SMB:小盘三组平均 − 大盘三组平均。
    • HML:平均(高BM的小/大) − 平均(低BM的小/大)。
    • RMW:平均(高盈利的小/大) − 平均(低盈利的小/大)。
    • CMA:平均(低投资的小/大) − 平均(高投资的小/大)。
  • 检验
    • 排序检验:因子溢价 t 值、分组单调性。
    • 模型检验:对 25 组合(S×BM)、25–100 特征组合做时序回归;报告 、GRS、
    • FMB: 与 NW/Shanken 标准误。

Panel A: Size–B/M portfolios

Low 2 3 4 High
Small 0.26 0.81 0.85 1.01 1.15
2 0.48 0.72 0.94 0.94 1.02
3 0.50 0.78 0.79 0.88 1.07
4 0.60 0.57 0.71 0.85 0.86
Big 0.46 0.51 0.48 0.56 0.62

Panel B: Size–OP portfolios

Low 2 3 4 High
Small 0.56 0.94 0.90 0.95 0.88
2 0.59 0.78 0.84 0.81 0.98
3 0.53 0.77 0.72 0.78 0.94
4 0.57 0.65 0.63 0.70 0.82
Big 0.39 0.33 0.43 0.47 0.57

suorce: FF5 Table 1

因子挖掘方法与适用情景

方法范式 典型做法 适用/优点 风险/防御
理论驱动 先立经济直觉(风险/行为),
再写口径并预注册假设
样本短或执行受限;可解释、可投资性好 叙事贴合显著性偏误 → 设定 OOS 留出、前置假设
经验复制 复现实证经典(Value/Mom/Quality/LowVol),
校准口径
基准与教学;
可比性强
口径不一致、后发表衰减 → 对齐定义、做样本外
统计/线性 橫截面回归、LASSO/Ridge、
PCA、逐步特征选择
特征多、结构近线性;可解释 数据窥探 → 滚动/嵌套交叉验证、信息系数跟踪
机器学习/非线性 树、Boosting、Random Forest、XGBoost、浅层 NN、Stacking 非线性/交互强、特征多 黑箱/过拟合/泄露 → 滚动 OOS、时间分块 CV、特征重要性与稳定性
替代数据 文本/舆情、供应链、卫星、网页抓取 新维度、潜在先手 噪声高/合规与可复制性弱 → 审计数据来源、版本锁定
事件/微观结构 公告、回购、限售解禁、交易成本/深度/价差 明确催化、短期信号 执行摩擦、容量受限 → 成本/冲击建模、容量敏感性

横截面因子工程流程


  1. 数据与宇宙治理(PIT)
  2. 原始特征(仅用 时点信息)
  3. 横截面去极值(Winsorize/分位)
  4. 方向统一(越大越好)
  5. 横截面标准化(z/秩/正态分位,行业/国家内)
  6. 可选中性化(行业/规模/β/风格:残差化或约束化)
  1. 多描述子合成(等权/稳健配权/去冗余;多周期 EWMA)
  2. 得分→alpha(波动/特质缩放,半衰期/衰减)
  3. 组合构建(排序/倾斜/优化;内生风险 × 成本 × 约束)
  4. 再平衡与执行(缓冲/最小交易额/算法/TCA)
  5. 风险与容量治理(TE/集中度/ADV/拥挤/情景)
  6. 评估与生命周期(IC/IR/稳定性/换手/成本/OOS)

1) 数据与宇宙治理(PIT)

  • 行业共识
    • Point‑in‑Time、公告滞后、复权/退市、会计口径统一、异常审计;母指数/基准对齐
  • 各机构特点
    • AQR/BlackRock/Man:Barra/Axioma 风险模型;跨市场 QC
    • MSCI/Scientific Beta:规则化可投资宇宙(自由流通/流动性门槛)
    • WorldQuant:广覆盖 + 自动 QC,支撑大规模信号管线
    • DFA:覆盖至小盘,受容量/流动性边界管理

2) 原始特征定义(仅用 时点信息)

  • 行业共识
    • Value()、Momentum(12‑1、残差动量)、Quality/Profitability、Low‑Risk、Size
  • 各机构特点
    • WorldQuant:海量短公式 alpha;去相关与衰减
    • AQR/BlackRock/Man:少而精 + 轻量 ML 融合(正则/可解释)
    • MSCI/SciBeta:公开规则化描述子,易复制
    • DFA:Size/Value/Profitability 三维用于“倾斜”

3) 横截面去极值(Winsorize/分位)

  • 行业共识
    • 在横截面内对每个描述子做分位截断(1–99%)或 ,抑制脏数据影响
  • 各机构特点
    • AQR/Man/BlackRock:行业/国家内分位截断;财报项加业务规则
    • MSCI/SciBeta:方法学固定口径,利于复制
    • WorldQuant:秩/分位型特征天然稳健
    • DFA:保守处理,避免无谓换手

4) 方向统一(越大越好)

  • 行业共识
    • 负向指标取负或单调变换:如 Score = -Accruals
  • 各机构特点
    • 基本一致;指数商文档会明确方向

5) 横截面标准化(行业/国家内)

  • 行业共识
    • 行业内 z‑score/秩/正态分位,消除结构差异
  • 各机构特点
    • MSCI/SciBeta:硬规则
    • AQR/BlackRock/Man:z 或秩;是否进一步残差化视产品
    • WorldQuant:更偏秩/分位
    • DFA:分层比较但不过度中性化

6) 可选中性化(行业/规模/β/风格)

  • 行业共识
    • 残差化:
    • 或在组合优化阶段施加暴露带
  • 各机构特点
    • Man/AQR/BlackRock:强中性化(L/S 尤甚)
    • MSCI/SciBeta:行业内 + 组合层带
    • WorldQuant:广泛残差化与去相关
    • DFA:弱中性,保留长期倾斜

7) 合成/加权(多描述子、多周期、去冗余)

  • 行业共识
    • 多描述子等权/稳健配权;高相关做收缩/分桶;多周期 EWMA
  • 各机构特点
    • AQR/Man/BlackRock:稳健配权 + 半衰期 + 相关性收缩;轻量 ML
    • MSCI:等权/固定权;SciBeta:单因子池 + 多策略聚合
    • WorldQuant:去相关 + 组合器最大 IR
    • DFA:连续倾斜函数,不追求精细配权

8) 得分→alpha(缩放与衰减)

  • 行业共识
    • $ \alpha_{i,t} = \kappa \cdot S_{i,t} $,按波动/特质波动缩放,设半衰期/衰减
  • 各机构特点
    • AQR/Man/BlackRock:分风格 sleeves 缩放与半衰期,再统一优化
    • WorldQuant:强衰减与去相关,IC 驱动
    • MSCI/SciBeta:多为排序/倾斜,不显式
    • DFA:得分直接映射为权重倾斜

9) 组合构建(排序/倾斜/优化)

  • 行业共识
    • 排序/筛选、连续倾斜、优化器、或多策略加权
  • 各机构特点
    • long‑only:MSCI/SciBeta(排序/倾斜 + 约束)、BlackRock/AQR(优化器一体化)、DFA(连续倾斜 + 缓冲)
    • long‑short:AQR/Man/BlackRock/WQ(强中性化 + 杠杆/借券费/成本内生)

10) 成本与容量建模(内生化)

  • 行业共识
    • 成本 :点差 + 冲击(平方根/二次) + 换手惩罚;交易≤ADV 上限;容量看 ADV 与集中度
  • 各机构特点
    • AQR/Man/BlackRock/WQ:成本内生 + TCA 校准
    • MSCI/SciBeta:低频重构 + 缓冲 + 上限约束
    • DFA:耐心交易 + 替代性选股 + 最小交易阈值

11) 再平衡与执行(缓冲/算法/TCA)

  • 行业共识
    • 节奏:月/双周;指数季/半年度;缓冲带、最小交易额阈值;VWAP/POV/TWAP/IS;TCA 事后校准
  • 各机构特点
    • AQR/Man/BlackRock:连续/分层调仓 + TCA
    • MSCI/SciBeta:固定重构 + 双向缓冲
    • DFA:无硬重构,与现金流连续再平衡;动量用于交易风控

12) 风险与容量治理(风险模型/约束/压力) · 行业共识与各机构特点

  • 行业共识
    • 使用(收缩的)协方差矩阵与风格/行业因子风险模型,评估主动风险与相关性。
    • 常设约束:TE、行业/国家带、单票上限、净/总 $ \beta $、杠杆、流动性(持仓与交易占 ADV)。
    • 情景压测:风格崩盘、流动性收缩、宏观冲击;拥挤监控:估值分位、借券费、成交量、价差等。
    • 容量度量:ADV、集中度(HHI/有效成分数)、借券可得性(L/S)、拥挤度。
  • 各机构特点
    • AQR / BlackRock(Aladdin)/ Man:全链路风险平台,情景库与拥挤监控纳入日常。
    • MSCI / Scientific Beta:指数化模板(TE 目标/带、行业/国家/单票带、流动性门槛),重复制性。
    • DFA:强调税后与执行可行性、长周期回撤;“带宽化”暴露管理(不过度中性)。
  • 适用性
    • long‑only 指数增强:TE/行业国家带最关键。
    • L/S:净 $ \beta $≈0、行业/风格≈0、杠杆/借券费/可借量约束为核心。

13) 评估与生命周期管理 · 行业共识与各机构特点

  • 行业共识

    • 研究评估:Rank‑IC / IC、t‑stat、IR、hit‑rate、分组回测(Q1–Q5)、稳健性(子时期/地区/市值层)、样本外(OOS)与多重检验控制。
    • 组合评估:年化超额、回撤、TE 与主动风险分解、风格暴露达标度、换手/成本实现(TCA 前后)、容量敏感性。
    • 生命周期:新颖度筛查、库内相关性降重、退化监控(IC 漂移/拥挤/成本恶化)、停用/降权;版本管理与可重复性。
  • 各机构特点

    • WorldQuant:IC/Rank‑IC 管线化,去相关与新颖度门槛,聚合前强筛选。
    • AQR / Man / BlackRock:经济直觉 + 统计稳健 + 执行可行三维并重;TCA 与拥挤监控闭环。
    • MSCI / Scientific Beta:暴露达标、TE/换手合规、指数可复制性;多策略聚合稳健性检验。
    • DFA:税后收益与实现度(交易/税损/借贷收入)权重高;长期暴露稳定性优先。

机构对照表

维度 AQR / Man / BlackRock MSCI / Scientific Beta WorldQuant DFA
数据治理 PIT + 风险模型 + 跨市 QC 规则化可投资宇宙 广覆盖 + 自动 QC 广覆盖至小盘 + 容量边界
特征定义 少而精,多描述子,轻量 ML 公开规则化描述子 海量短公式 alpha Size/Value/Profit 倾斜
去极值/标准化 分位 + 行业内 z/秩 方法学明确口径 多用秩/分位 保守处理
中性化 强(行业/β/规模/风格) 行业内 + 组合层带 广泛残差化 弱中性,保留弹性
合成 稳健配权 + 多周期 等权/固定权;多策略池 去相关 + 组合器 连续倾斜函数
α/衰减 波动/特质缩放 + 半衰期 排序/加权为主 强衰减 + 去相关 不显式 α
组合构建 优化器一体化(/成本/约束) 排序/倾斜/多策略 组合器 + 优化器 倾斜 + 缓冲 + 替代
成本/容量 内生 + TCA 闭环 低频 + 缓冲 + 上限 内生 + 参数网格 耐心交易 + 税务
再平衡/执行 连续/分层 + 算法 固定重构 + 缓冲 连续 + 组合器 连续 + 税损/借贷
风险/压力 全链路 + 情景库 TE/行业/国家模板 β/杠杆/借券 税后/长期回撤
评估/生命周期 三视角 + OOS/拥挤/TCA 暴露达标 + 复制性 IC 管线 + 新颖度 税后实现度

Excel 迷你案例

  • 数据:20–30 只股票 × 2–3 行业 × 1 国家
    列:参考FF5要求
  • (简化后的关键)步骤
    1. 定义
    2. 去极值
    3. 标准化(行业内)
    4. 中性化(规模)
    5. 合成与评估

资源与参考

常见误区与快速自检

  • 未来函数 / 索引错位(t → t+1)
  • 全样本阈值/标准化(应为当期横截面)
  • 过度优化与复杂加权(先用等权/秩均)
  • 可交易性忽视(小盘/停牌/涨跌停)
  • 信号同质化与重复计数(高度相关信号去重)

- 课程:玩转 Python 量化交易(通识·8学时) - 讲次定位:理论与方法 + Excel/Sheets 全流程演示 - 受众:无先修、非金融专业同学

.footnote[对齐行业共识:MSCI、Robeco、NEPC、《因子投资:方法与实践》、Paleologo]

--- ### 议程与时间(120 min) 1. 理论基础与行业共识(25') 2. 方法论 Canvas 与治理(10') 3. 表格演示:因子工程与合成(25') 4. 表格演示:组合构建与评估(25') 5. 小组实操(20') 6. 展示与总结(15')

.footnote[每页 2–3 分钟,现场答疑留 5–10 分钟机动]

### 行业发展时间线(速览) - 1960s:CAPM(Sharpe, Lintner) - 1992/1993:Fama–French 三因子(Value/Size) - 1997:Carhart 动量(四因子) - 2014–2015:BAB(Betting Against Beta),FF 五因子(Prof/Investment),QMJ(质量) - 2010s:Smart Beta/多因子指数与 ETF 扩张 - 2016–至今:因子“动物园”与复现危机、拥挤与容量管理 - 2020s:ML 与多源数据融合,治理与可投资性成为共识 .footnote[启示:择时难,多因子分散更稳健;强调成本、容量与治理。]

.footnote[课堂建议聚焦“理论驱动 + 经验复制 + 轻量统计”,将 ML/替代数据留到第4讲展开。] .footnote[防御要点:一次只动 1–2 个“旋钮”;负结果也记录;治理与透明优先于“漂亮数字”。]