知识维度
技能维度
科学素养
Module 1基本框架与核心逻辑 |
|
核心问题链:
为什么不同资产的平均收益不同?
↓
是对系统性风险的补偿,还是市场错误定价?
↓
如何用理论和数据区分这两种可能?
↓
这涉及模型设定、估计方法和检验框架三个环节
假设发现"小盘股长期平均收益 > 大盘股"。三种可能的解释:
关键:这三种解释无法仅通过统计显著性来区分,需要多层面的证据
定理1:无套利下的 SDF 约束
在无套利市场中,存在一个随机贴现因子(Stochastic Discount Factor)
满足:
同时采用无风险资产的 SDF 归一化:
超额收益形式:
令无风险毛收益率为
则有
经济意义:
• 资产值多少钱(资产的期望回报与价格),不只是由“这只股票波动有多大”决定;更关键的是它的回报在贴现权重下的变化方式。
• 因而应关注
贴现因子越大对应的状态通常意味着“边际效用更高/更不利”,因此在这些状态下资产是“涨”还是“跌”会直接影响其定价。
例子: 两只风险资产 A 和 B,总波动率(方差结构)相同,但它们在好/坏状态下与
| 情景 | 资产A | 资产B |
|---|---|---|
| 经济繁荣 | 收益高 | 收益低 |
| 经济衰退 | 暴跌 | 反而强势(收益上升) |
| 与 |
||
| 期望收益要求 | 高(需要风险补偿) | 低(类似保险) |
启示: 总波动率(或方差结构)相同的资产,期望收益可能完全不同;关键在于资产在 贴现权重较高的“坏状态/不利状态” 下的表现,以及其与
由
并结合
因此:若资产收益在
定理2:线性因子模型与期望收益关系
在实证中,通常假设SDF可以写成线性形式:
其中
代入SDF约束,可得:
其中:
某资产的期望超额收益 = 其对各因子暴露 × 对应因子的风险价格
设定1:时间序列因子模型
| 参数 | 含义 | 理论期望 |
|---|---|---|
| 资产 |
— | |
| — | ||
| 任意 | ||
| 定价误差(alpha) | 0(模型正确定价) | |
| 模型残差 | 均值为0 |
设定2:横截面定价关系
对于某一时期,资产横截面上的平均收益应满足:
其中
关键连接:
困惑: 实证中既有"时间序列"的因子模型,又有"横截面"的定价关系,两者是什么关系?
理论框架(基于SDF)
期望收益的横截面关系:
实证设定(假设市场是线性因子模型)
时间序列回归:
若模型正确(且因子暴露在样本区间内稳定、风险价格为常数/不时变),时间序列回归估计得到的(在样本充分时)应收敛到横截面关系中使用的总体 ,同时 应接近0
样本内一致性(在参数稳定下):
模型检验可从两个角度:
重要结论:
要点总结:
思考题:
Module 2五大经验方法 |
|
| 方法 | 核心思想 | 主要检验对象 | 适用场景 |
|---|---|---|---|
| 时间序列回归 | 对每个资产做时间序列回归,检验 |
定价误差 |
多资产定价检验、模型有效性 |
| FM两步法 | 先估计 |
风险价格 |
因子定价检验、因子重要性比较 |
| 排序组合 | 按特征分组,比较高低组平均收益 | 特征与收益的关系 | 异常收益发现、新规律识别 |
| 特征回归 | 直接在收益上回归特征 | 特征的预测能力 | 特征效应识别、特征定价检验 |
| SDF/GMM | 从理论SDF约束出发,用GMM检验矩条件 | 定价核可行性 | 理论模型检验、多资产联合定价 |
基本模型:
对
步骤1:因子选择与构造
| 因子 | 定义 | 代表论文 |
|---|---|---|
| 市场因子 | Sharpe (1964) CAPM | |
| 规模因子 | Fama & French (1993) | |
| 价值因子 | Fama & French (1993) | |
| 动量因子 | Carhart (1997) | |
| 盈利因子 | Fama & French (2015) | |
| 投资因子 | Fama & French (2015) |
步骤2:回归与假设检验
对每个资产
检验:
Gibbons, Ross & Shanken (1989) 提出GRS统计量:
其中
时间序列回归残差的特征:
正确的标准误选择:
| 标准误类型 | 处理问题 | 代表方法 |
|---|---|---|
| OLS标准误 | 无(理想情况) | — |
| White稳健SE | 异方差 | White (1980) |
| Newey-West SE | 异方差 + 自相关 | Newey & West (1987) |
| 聚类稳健SE | 跨截面相关 | Cluster-Robust |
| NW + 聚类 | 同时处理 | 双聚类 |
常见错误: 使用OLS标准SE(严重低估)→ 导致t值虚高
说明:
使用 Newey & West (1987) 的 HAC(Heteroskedasticity and Autocorrelation Consistent)估计,为时间序列回归(或相应矩条件)的系数/时序统计量提供稳健标准误,用于同时处理异方差与自相关。
滞后阶数选择(经验规则):
| 检验结果 | 解读 |
|---|---|
| 多数资产 |
模型低估了某些资产的收益 |
| 多数资产 |
模型高估了某些资产的收益 |
| 模型存在系统性定价误差 | |
| 模型在统计上可接受 |
问题提出:
时间序列回归检验的是每个资产的
某个因子是否在横截面上被市场定价?
暴露于该因子更多的资产,平均收益是否更高?
思想来源: Fama & MacBeth (1973) "Risk, Return, and Equilibrium: Empirical Tests"
第一步:估计因子暴露
用
得到
第二步:每期横截面回归
对
第三步:取时间平均
第四步:统计推断
关键提醒: 标准误是
| 情况 | 含义 |
|---|---|
| 因子 |
|
| 因子 |
|
| 因子 |
Errors-in-Variables问题: 第一步估计的
修正方法:
| 方面 | 时间序列回归 | FM两步法 |
|---|---|---|
| 检验对象 | ||
| 核心问题 | 模型能否定价这些资产? | 这些因子是否被定价? |
| 优点 | 直接、易解释;可检验每个资产 | 接近理论框架;直接显示风险价格 |
| 缺点 | 不直接显示因子风险价格 | 标准误计算较复杂 |
| 适用场景 | 多资产定价有效性评估 | 新因子的风险价格检验 |
基本思想:
不做参数回归,而是通过排序分组直接检验某个特征与收益的关系。
步骤:
优点:
| 特征 | 定义 | 代表规律 | 关键论文 |
|---|---|---|---|
| 市值 | 股票总市值 | 小盘股溢价 | Fama & French (1992) |
| 账面市值比 | 账面价值/市值 | 价值溢价 | Fama & French (1992) |
| 动量 | 过去12月收益(排除近1月) | 动量效应 | Jegadeesh & Titman (1993) |
| 盈利能力 | ROE、毛利率等 | 盈利溢价 | Fama & French (2015) |
| 投资 | 资产增长率 | 投资异常 | Fama & French (2015) |
| 应计项 | 应计利润/总资产 | 应计异常 | Sloan (1996) |
设计1:5分位排序
设计2:条件排序(conditional sorts)
先按市值分组,再在每组内按B/M分组,得到
目的: 分离两个特征的独立影响
计算出多空组合
检验
| 结果 | 含义 |
|---|---|
| 原始多空收益显著 | 该特征与平均收益显著相关 |
| 调整后alpha仍显著 | 现有模型(如FF3)不能解释这个收益 |
| 调整后alpha不显著 | 现有模型能解释这个收益规律 |
应用:验证价值因子(HML)是否为实际风险
步骤:
基本模型:
不引入因子,直接在超额收益上回归某个公司特征:
其中
Fama-MacBeth特征回归:
对每个时期
检验
显著的特征效应,并不一定代表该特征是风险因子。
可能的解释:
特征 vs 因子收益的关键区别:
理论基础:
任何资产定价模型都可从SDF约束出发:
这是一组矩条件(moment conditions)。若有
参数化SDF: 假设
GMM估计步骤:
| J-test结果 | 含义 |
|---|---|
| 不显著(p > 0.05) | 模型的矩条件在统计上不被拒绝,模型可接受 |
| 显著(p < 0.05) | 模型的矩条件被拒绝,说明SDF定价有系统误差 |
SDF方法优缺点:
| 方面 | 说明 |
|---|---|
| 优点 | 更接近理论本体;可同时检验多个资产的定价 |
| 局限 | 假设模型正确;拒绝不一定指出问题所在;过度敏感 |
Hansen & Jagannathan (1997) "Assessing Specification Errors in Stochastic Discount Factor Models" — 提出了HJ距离作为模型误设定的度量
问题背景:为什么需要机器学习?
传统实证资产定价面临的核心困境:
海量特征问题(Big Data Challenge)
↓
候选因子/特征数量 >> 样本大小(N >> T)
↓
传统线性模型失效
- OLS无法估计(参数过多)
- 高度多重共线性
- 数据挖掘与过拟合风险激增
具体挑战: Hou, Xue & Zhang (2015)估计可能存在300+个经济相关特征;多重检验问题加剧;发表后衰减现象普遍
问题: 数千个特征,但可能只有少数"真实风险因子"
方法:
实证应用:
Kelly, Pruitt & Su (2019): 将1500+个特征投入PCA,提取出4-5个主成分,能解释美国股市横截面收益,相比FF5因子样本外预测能力更强
Gu, Kelly & Xiu (2020): 用深度学习自编码器提取潜在因子,完全数据驱动
问题: 从海量特征中找出"真正重要的"
方法:
实证应用:
A. 梯度提升(Gradient Boosting):XGBoost, LightGBM, CatBoost
B. 深度神经网络(Deep Learning):多层隐层自动学习特征间的复杂关系
C. CNN / RNN:处理高维结构数据和时间序列依赖
实证应用:
Gu, Kelly & Xiu (2020) "Empirical Asset Pricing via Machine Learning":用5种ML方法预测个股收益,神经网络方法的样本外Sharpe比率是传统因子模型的2-3倍
Kozak, Nagel & Santosh (2020): 用神经网络学习时变SDF参数
IPCA(Instrumented PCA)—— Kelly, Pruitt & Su (2019)
核心思想:使用公司特征作为"工具变量",学习特征与
将Daniel & Titman (1997)的"特征vs协方差"争议用ML框架统一
Autoencoder Asset Pricing—— Gu, Kelly & Xiu (2021)
Encoder将高维特征压缩到隐因子,Decoder重构收益
结果:CAPM年化Sharpe 0.46,FF5为0.58,Autoencoder达0.86
| 评估维度 | 传统方法 | ML方法的新挑战 |
|---|---|---|
| 样本内拟合 | R² | 容易过拟合,需要CV |
| 样本外表现 | alpha、Sharpe | 需要walk-forward测试 |
| 稳定性 | β显著性 | 特征重要性排序稳定吗? |
| 可解释性 | 回归系数 | 神经网络黑箱,难以解释 |
| 多重检验 | p值修正 | ML的"有效p值"定义困难 |
核心困境: ML方法在"样本外预测"上更优,但在"经济解释与理论联系"上更弱
| 研究问题 | 推荐方法 | 原因 |
|---|---|---|
| 某模型是否能定价这些资产? | 时间序列回归 | 直接检验α |
| 某因子是否被定价? | FM两步法或SDF | 直接给出λ |
| 某特征与收益的关系强度? | 排序组合 | 直观、易沟通 |
| 某特征是否具有独立定价能力? | 特征回归+排序 | 分离直接效应 |
| 理论SDF是否成立? | GMM/SDF | 理论导向 |
完整研究流程: 发现阶段(排序)→ 检验阶段(时间序列+FM)→ 理论检验(SDF/GMM)→ 稳健性(跨样本、样本外)
Module 3"显著"的三重含义与检验框架 |
|
常见混淆:
在实证资产定价中,我们经常说某个结果"显著"。但这个"显著"可能指三种完全不同的东西。
反面例子:
假设某论文报告:"X因子显著地定价解释资产收益"。这可能意味着:
这三种"显著"的底层模型、检验方法和经济含义都不同。
模型形式:
检验:
t统计量:
经济含义: 资产
重要限制:
实例: 小盘股的"交易量"与收益显著正相关。可能解释:
模型形式(FM框架):
检验:
t统计量:
经济含义:
重要提示:
FF3模型中λ_HML显著
可能解释:
1. HML代表真实的"价值风险"
→ 高B/M公司更多暴露于灾难性或衰退风险
2. 或HML只是价值特征的代理
→ 市场系统性高估成长、低估价值
3. 判别需要额外证据:HML与衰退/流动性压力的关系
模型形式:
检验:
经济含义:
α显著 = 模型存在系统性定价误差,但不能指出哪里出了问题
某排序组合(动量多空)在FF5模型下α显著
可能原因:
1. FF5遗漏了动量风险因子
→ 加入动量因子后α消失
2. 动量是真实的市场错误定价
→ 即使加任何因子也不能完全解释
3. 动量收益来自交易成本或流动性挤兑
→ 是摩擦而非风险或误定价
单从"α显著"看不出来,需要进一步分析。
三种显著性的区别:
| 维度 | β显著 | λ显著 | α显著 |
|---|---|---|---|
| 检验对象 | 检验资产对因子的暴露: |
检验因子的风险价格: |
检验模型在测试集合上的定价误差: |
| 检验口径 | 时间序列(单个资产的共动) | 横截面(多个资产的定价关系) | 时间序列(联合,如GRS等) |
| 统计含义 | 资产与因子共动显著 | 风险溢价关系在横截面上显著 | 模型无法在该测试集合上完全解释平均收益 |
| 对“风险/错误定价”的提示 | 仅说明“暴露”,不自动说明“被补偿” | 提示“该因子(或其代理)在横截面上被定价”,但不必然说明其为真实风险 | 提示“存在系统性定价误差”,但无法直接指出具体遗漏/机制来源 |
| 互推关系 | β≠0 不能推出 λ≠0 | λ≠0 不能推出 α=0 | α=0 不能推出 因子一定是真实风险 |
β显著但λ不显著: 资产与因子共动存在,但不被补偿
例:某资产与流动性高度相关(β显著),但市场不定价流动性(λ ≈ 0)
λ显著但α不为0: 因子被定价但不能完全解释资产收益
例:SMB在FF3中λ显著,但许多小盘股的α仍显著 → 可能遗漏了小盘股特有的另一个因子
α=0但β或λ不显著: 资产定价合理但无异常收益
例:某高度特异化资产,与任何因子都不相关(β=0),但在模型内α接近0
即使结果"显著",也需要检验三个维度的稳健性:
实证结果的三重检验:
1. 模型设定 ← 你是否选对了因子和资产?
2. 统计推断 ← 你的标准误选择对吗?
3. 样本外有效性 ← 结果在新数据上能复现吗?
问题清单:
检验方法:
遗漏因子检验: 若加入新因子后α大幅下降,说明之前的模型设定有偏
子样本检验: 不同时期、不同市场的α是否一致?
问题清单:
多重检验问题: 同时检验100个因子,即使全部为噪声,也期望约5个显著(
修正方法:
问题清单:
常见现象:发表后衰减(Post-publication decay)
许多学术论文中发现的异常收益,发表后显著衰减。原因:
Arnott, Beck, Kalesnik & West (2016): 已发布异常收益平均衰减35-45%
样本外检验
第一步:用1980-2000年数据发现规律
第二步:用2001-2020年数据验证
若新样本期α显著衰减或消失 → 原发现可能是样本内偶然
跨市场复现
若在美国发现某规律,检验其在中国、日本、欧洲是否存在
若完全不存在 → 可能是美国特有的市场摩擦或数据特征
子样本分析
按规模、流动性、行业等分层
若规律仅在难套利子集显著 → 更支持"错误定价"而非"真实风险"
核心结论:
“显著”有三重含义,缺一不可(证据层面):
实证可靠性的三要素缺一不可:
实用检验清单:
Module 4风险vs错误定价的判别框架 |
|
基本困境:
给定某个异常收益(如小盘股溢价、动量效应、价值溢价等),并在某个候选因子模型与测试资产集合下,我们观察到:
三种可能的解释都能与数据一致:
为什么无法通过统计显著性区分?
无论是"真实但隐藏的风险"还是"系统性错误定价",都会在数据中表现为可预测的收益差异和显著的
虽然无法百分百确定,但可以通过多层证据的支持程度来倾向于某种解释。
第一层:统计显著性筛选
确认异常收益的显著性,但这只是开始。
检验清单:
关键问题: 该异常收益是否通过"β-λ关系"被定价?
检验逻辑: 构造高(H)、低(L)异常收益的两个组合,分析它们的β向量
理论基础: Daniel & Titman (1997) — 区分"特征效应" vs "协方差风险"
观察:小盘股年平均超额收益 8%
情景A:β定价能解释
- 小盘股 β_SMB = 1.5(高度暴露于规模因子)
- 规模因子 λ_SMB = 5%/年
- 预测收益增量 = 1.5 × 5% = 7.5%
- 实际8% ≈ 预测7.5% → 风险补偿能基本解释
情景B:β定价解释不了
- 小盘股 β_SMB = 0.3(低度暴露)
- 规模因子 λ_SMB = 5%
- 预测收益增量 = 0.3 × 5% = 1.5%
- 实际8% ≫ 预测1.5% → 更像是错误定价
关键问题: 该异常收益在"坏状态"下是否表现更差?
理论基础: 如果某个风险是真实的系统性风险,承担这个风险的资产应该在投资者最痛苦的时刻表现最差(与
坏状态的定义:
| 坏状态类型 | 具体指标 | 对应理论 |
|---|---|---|
| 经济衰退 | GDP增速↓、失业率↑ | CCAPM核心机制 |
| 消费压力 | 消费增长下降 | Lucas (1978) |
| 金融压力 | VIX升高、信用息差↑ | 制度转换模型 |
| 流动性压力 | 买卖价差↑、融资成本↑ | Acharya & Pedersen (2005) |
将样本分为"好状态"和"坏状态":
好状态:GDP增速 > 中位数,VIX < 中位数
坏状态:GDP增速 < 中位数,VIX > 中位数
计算多空组合在两个状态下的回报:
结论判断:
- 若坏状态下R_bad > R_good → 与风险补偿逻辑不符 → 更支持"错误定价"
- 若坏状态下R_bad < R_good → 符合风险补偿逻辑 → 更支持"风险"解释
方法2:条件CAPM/SDF框架
其中
关键问题: 是否存在阻止套利消除错误定价的机制?
套利限制的类型:
| 类型 | 具体含义 | 实证表现 |
|---|---|---|
| 交易成本 | 佣金、买卖价差 | 规律在交易成本高的资产中显著 |
| 流动性限制 | 无法迅速交易 | 低流动性股票中规律强 |
| 做空限制 | 做空成本高 | 多头端易被套利,空头端不能 |
| 融资约束 | 融资成本高 | 套利者资本不足 |
方法1:按流动性分组
将股票按流动性分成高、中、低三组
- 高流动性股票:α ≈ 0(易被套利消除)
- 低流动性股票:α 很大且显著(套利困难)
→ 强烈支持"错误定价 + 套利限制"解释
方法2:按规模分组
如果异常收益主要来自小盘股:
α(微盘) > α(小盘) > α(中盘) > α(大盘)
→ 更支持"套利限制导致的错误定价"
方法3:行为偏差变量检验
| 行为偏差 | 操作化方法 |
|---|---|
| 投资者情绪 | Baker-Wurgler情绪指数 |
| 注意力不足 | 新闻数量、搜索热度 |
| 过度反应 | 极端过去收益 |
案例1:动量效应
| 检验维度 | 结果 | 含义 |
|---|---|---|
| 第一层:统计显著 | t值>2,样本外仍存在 | ✓ 通过筛选 |
| 第二层:Beta定价 | Δβ很小,λ'Δβ ≪ 实际α | ✗ β无法解释,更像误定价 |
| 第三层:坏状态表现 | 危机时动量反向,好时alpha为正 | ✗ 不符合风险逻辑 |
| 第四层:套利限制 | 主要在小盘股、低流动性股中显著 | ✗ 支持套利限制+误定价 |
| 综合结论 | 动量效应主要是行为错误定价,部分是套利限制 |
| 检验维度 | 结果 | 含义 |
|---|---|---|
| 第一层:统计显著 | t值持续稳定,跨国复现 | ✓ 通过筛选 |
| 第二层:Beta定价 | 高B/M组Δβ显著,λ'Δβ≈实际α | ✓ β定价能解释大部分 |
| 第三层:坏状态表现 | 衰退期高B/M表现更差 | ✓ 符合风险逻辑 |
| 第四层:套利限制 | 大盘股中也显著存在 | ✓ 不依赖套利限制 |
| 综合结论 | 价值效应主要是真实风险补偿(衰退风险或流动性风险) |
传统范式的核心逻辑:
理论预言 → 数据检验 → 得出结论
↓
"手工"构造因子 → 线性定价模型 → α检验
面临的困境:
关键转变:
转变1:从"假设检验"到"预测评价"
转变2:从"手工特征"到"自动发现"
转变3:从"线性模型"到"灵活非参数模型"
现阶段共识:并非"ML取代传统",而是互补与融合
| 研究环节 | 传统方法 | ML方法 | 融合形式 |
|---|---|---|---|
| 因子发现 | 理论推导 | 自动筛选 | 理论候选+ML验证 |
| 定价关系 | 线性因子模型 | 神经网络 | 线性基准+非线性检验 |
| 样本外评价 | α、Sharpe | Walk-forward CV | 时间序列+交叉验证混合 |
| 可解释性 | 清晰的β系数 | SHAP特征重要性 | 两层并行解释 |
掌握ML工具的资产定价研究者,未来应该是:既懂理论、又懂数据、还会评价
无法仅通过统计显著性区分风险与错误定价——需要多层证据综合判断
四层判别框架按递进:
风险解释的特征: β定价关系成立、坏状态表现更差、跨市场稳健、不依赖交易成本
错误定价的特征: 主要在难套利资产中显著、与情绪变量相关、发表后显著衰减
重要提醒: 四层框架提供的是支持程度,而非充分条件。现实中往往既有风险成分也有误定价成分
四个模块的核心主线:
Module 1:理论基础
SDF → 线性因子模型 → E(R_i) = β_i' λ
↓
Module 2:经验方法
时间序列 / FM两步法 / 排序 / 特征回归 / SDF-GMM
↓
Module 3:统计显著性框架
β显著 / λ显著 / α显著 → 实证可靠性三要素
↓
Module 4:经济含义判别
风险补偿 vs 错误定价 — 四层判别框架
实践部分分组项目制(80分钟) |
|
形式:分组项目制
目的:
研究问题:
方法步骤:
预期难点: ST股处理、新股/停牌股、无风险利率获取、生存者偏差
研究问题:
方法步骤:
关键思考题: 动量效应在危机期反向(momentum crash)、中国动量为何强?
研究问题: 基于Sloan (1996)的经典发现,检验应计项是否能预测超额收益
方法步骤:
关键思考题: 低应计高收益是投资者"会计天真"还是真实风险?
研究问题: 融资受约束的公司是否有更高超额收益?
方法步骤:
理论连接:
研究问题: 基于Daniel & Titman (1997)框架,区分特征效应与协方差风险
方法步骤:
预期难点: Beta估计误差(EIV问题)、特征与beta的多重共线性
研究问题: 基于Acharya & Pedersen (2005)框架,流动性风险是否被定价?
方法步骤:
理论连接:
研究问题: 经典的FF5因子,用ML方法能否进一步改进?
方法步骤:
预期难点:
教师讲解(5分钟):
学生分工(10分钟):
第1步:数据准备(5分钟)
第2步:方法实现(20分钟)
第3步:结果初步分析(10分钟)
| 陷阱 | 表现 | 教师干预 |
|---|---|---|
| 多重检验偏误 | "我检验了100个特征,其中5个显著" | 提醒:可能是随机噪声,需Bonferroni/FDR修正 |
| 幸存者偏差 | 数据只包含存活到2024年的公司 | 讨论偏误方向,检验样本外 |
| 交易成本忽视 | 宣称策略年化收益20%没考虑成本 | 追问:实际可实现吗? |
| 数据挖掘 | 样本内发现规律直接宣布 | 强调必须样本外验证 |
| 假显著性 | 用OLS SE而非Newey-West | 这是判断结果可靠性的第一道关 |
| 特征vs风险混淆 | 特征显著就说它是风险因子 | 需要用FM法确认β定价关系 |
1. 研究问题与动机(1分钟)
- 为什么重要?与已有文献关系?中国特殊性?
2. 数据与方法(1.5分钟)
- 样本期、样本量、数据来源
- 关键变量定义与计算
- 使用的方法
3. 核心结果展示(2分钟)
- 排序表、alpha值、显著性
- 可视化图表
4. 稳健性检验(0.5分钟)
5. 经济含义与讨论(1分钟)
- 风险还是误定价?
6. 问题与反思(0.5分钟)
教师反思问题:
课程核心收获:
经典论文:
理论基础:
标准方法:
关键问题:
显著性与稳健性:
机器学习应用:
数据库推荐:
软件与包:
实证资产定价是一门"证据积累"的科学。单一p值不足以支撑结论,好的实证论文需要多层证据。
核心信息:
预习准备
下周预告
Week 6: AI时代量化交易
## Newey-West标准误 **公式:** $$SE_{NW} = \sqrt{\frac{1}{T}\left( \sum_{t=1}^T x_t \varepsilon_t \right)^2 + 2 \sum_{j=1}^L w_j \sum_{t=j+1}^T x_t \varepsilon_t x_{t-j} \varepsilon_{t-j}}$$ 其中$w_j = 1 - \frac{j}{L+1}$为Bartlett核权重,滞后阶数$L$通常取$\text{floor}(1.3 \times \sqrt{T})$。 **要点:** - 同时处理异方差和自相关 - 滞后阶数的选择影响标准误大小 - 月度数据通常取$L = 6$或$L = 12$ ---