第 07 讲

实证资产定价中的机器学习


该版为机翻版本,未经人工校对,建议配合原版使用。

Financial Machine Learning · Lecture 07

大纲

Financial Machine Learning · Lecture 07

第1部分 · 无机器学习的经验资产定价

  • 经验资产定价简介
  • 理论基础:随机贴现因子(SDF)
  • 在SDF框架内的历史发展
  • GMM与时间变化的风险
  • 当前发展和挑战
  • 总结与要点
Financial Machine Learning · Lecture 07

什么是经验资产定价?

  • 经验资产定价旨在理解风险如何影响资产回报。
  • 它通过风险与回报的权衡考察预期回报与风险之间的关系。
  • 随机贴现因子(SDF)作为一个基本概念,统一了各种资产定价模型。
  • 重要性:理解经验资产定价有助于投资者和资产经理在基于风险评估做出明智决策。
Financial Machine Learning · Lecture 07

核心问题:收益率的横截面

  • 收益率的横截面指的是基于风险因素的资产回报变化。
  • 关键问题包括:
    • 为什么某些资产的表现优于其他资产?
    • 如何在金融市场中评估和定价风险?
  • 理解这些动态对于有效的投资策略至关重要。
Financial Machine Learning · Lecture 07

理论基础:随机贴现因子(SDF)

  • 定义:SDF,用符号表示,满足方程:

    其中是资产的总回报,而是时间的信息集。
  • SDF概括了风险与预期回报之间的权衡,构成资产定价模型的基础。
Financial Machine Learning · Lecture 07

理解SDF:经济直觉

  • SDF代表消费的边际效用,将资产价格与消费选择和投资者偏好联系起来。
  • 它建立了一个框架,其中风险因素直接影响预期资产回报,这对于经验资产定价的见解至关重要。
Financial Machine Learning · Lecture 07

从消费推导SDF:消费资本资产定价模型(CCAPM)

  • 消费资本资产定价模型(CCAPM)从跨期消费选择中推导出SDF,整合经济因素。
  • 关键含义:资产回报反映消费者的时间偏好和风险厌恶,强调宏观经济影响与资产定价之间的联系。
Financial Machine Learning · Lecture 07

SDF框架内的CAPM

  • **资本资产定价模型(CAPM)**可以在SDF方法中表示为:

  • 该模型表明预期回报仅由市场风险驱动。
  • 局限性:尽管基础性,CAPM未能解决经验研究中观察到的资产回报的复杂性。
Financial Machine Learning · Lecture 07

CAPM的局限性与多因子模型的诞生

  • CAPM单一关注市场风险,无法充分捕捉资产回报动态。
  • 多因子模型的引入旨在解决CAPM的局限性,融入影响预期回报的额外因素。
  • 实证研究表明,市场风险之外的多个因素在解释资产回报中具有重要意义。
Financial Machine Learning · Lecture 07

套利定价理论(APT):多因子扩展

  • APT提供了一个框架,其中SDF表示为多个风险因素的线性组合:

  • 表示影响资产回报的系统性风险因素。
  • APT增强了资产定价模型的灵活性和实证稳健性,允许更广泛地考虑风险。
Financial Machine Learning · Lecture 07

Fama-French三因子模型:因子与SDF表示

  • Fama-French模型包含三个因子:市场回报、规模(SMB)和价值(HML):

  • 它处理诸如规模和价值溢价等实际经验现象,提供对预期回报的更全面视角。
Financial Machine Learning · Lecture 07

Carhart模型:增加动量因子

  • Carhart模型通过引入动量因子扩展了Fama-French模型。
  • 该模型反映了过去表现对未来回报的影响这一经验观察,丰富了SDF表示并提高了预测能力。
Financial Machine Learning · Lecture 07

实证测试:资产定价模型测试的挑战

  • 测试资产定价模型面临的数据可用性限制和模型误设定等常见问题的挑战。
  • 研究人员努力实证验证理论模型,以增强其在实际场景中的预测能力。
Financial Machine Learning · Lecture 07

GMM:估计和测试的框架

  • 广义矩估计(GMM),由Hansen提出,是一种估计资产定价模型参数的强大工具。
  • GMM提供了一种实用的方法,对照观察数据实证测试SDF框架,促进模型的准确性和相关性。
Financial Machine Learning · Lecture 07

时间变化风险:条件模型

  • 条件SDF模型考虑了风险随时间的变化:

  • 这些模型反映了市场条件的变化,提高了资产定价在波动环境中的适应性和准确性。
Financial Machine Learning · Lecture 07

因子繁荣:因子的动物园

  • 增长的因子数量在有效资产定价中提出了挑战。
  • SDF框架提供了理解这些因子的背景,将其与基本经济风险连接起来。
Financial Machine Learning · Lecture 07

经典方法中的当前挑战

  • 研究人员在整合多样化的实证发现到统一的资产定价模型中面临挑战。
  • 传统资产定价模型在当代市场中的适用性在学者和从业人员之间仍然是一个持续的辩论。
Financial Machine Learning · Lecture 07

为机器学习奠定基础

  • 最近的经济计量学和机器学习的进展潜在地能够显著增强经验资产定价。
  • 机器学习技术提供了改善模型估计和测试方法的有前景的途径。
Financial Machine Learning · Lecture 07

总结与要点

  • SDF框架将各种资产定价模型统一在一个连贯的理论结构下。
  • 它结合了传统模型的重要见解,同时允许适应不断变化的市场动态。
  • 理解SDF的细微差别对于在当今金融环境中应对资产定价的复杂性至关重要。
Financial Machine Learning · Lecture 07

参考文献

  • Hansen, L. P. (1982). The Generalized Method of Moments Estimation.
  • Fama, E. F., & French, K. R. (1992). The Cross-Section of Expected Stock Returns.
  • Carhart, M. M. (1997). On Persistence in Mutual Fund Performance.
Financial Machine Learning · Lecture 07

第2部分 · 因子模型、机器学习与资产定价


Giglio S, Kelly B, Xiu D. Factor models, machine learning, and asset pricing[J]. Annual Review of Financial Economics, 2022, 14(1): 337-368.

Financial Machine Learning · Lecture 07

引言

  • 因子模型:对建模股票收益至关重要;提供收益横截面依赖性的简约统计描述。

  • 套利定价理论基础:套利定价理论为理解风险暴露和风险溢价提供了坚实的经济基础。

  • 估计资产风险溢价的挑战

    • 信噪比低
    • 样本量小
    • 多个相关预测变量
    • 功能形式的模糊性
  • 机器学习应用:变量选择和维度缩减的采用已成为经验资产定价的一部分,增强了模型的鲁棒性。

Financial Machine Learning · Lecture 07
  • 近期进展:机器学习的新方法促进了严谨的实证发现,补充了传统经济理论。

  • 论文目标

    1. 回顾按目的分类的近期方法论贡献。
    2. 讨论与数据维度相关的渐近理论,并比较不同方法。
Financial Machine Learning · Lecture 07

模型规格:静态因子模型

  • 基本方程

    • :测试资产的超额收益(例如,排序组合)
    • :因子暴露矩阵
    • :因子创新
    • :特有错误
  • 预期回报分解

    • :风险溢价向量
    • :定价误差向量
  • 无套利条件

Financial Machine Learning · Lecture 07

因子模型框架

  1. 可观察因子

    • ;当因子是可交易组合时,
  2. 潜在因子和暴露

    • 遵循Connor & Korajczyk (1986),假设所有因子都是潜在的。
  3. 可观察暴露但潜在因子

    • MSCI Barra模型允许时变暴露(Rosenberg, 1974)。
Financial Machine Learning · Lecture 07

模型规格:条件因子模型

  • 需要条件模型

    • 静态模型对于具有可变风险暴露和非线性收益结构的资产是不足够的。
  • 条件因子模型规格

  • 模型要求

    • :超额收益向量。
    • :特有错误向量。
Financial Machine Learning · Lecture 07

模型框架

  • Rosenberg (1974)

    • ,其中是可观察特征矩阵。
  • 工具变量主成分分析(IPCA)

  • 时变风险溢价

    • Gagliardini等人(2016):
  • 非线性扩展

    • Gu等(2021):引入了一种用于非线性动态的条件自编码器模型。
  • 挑战

    • 深度学习模型的黑箱特性。
    • 需要严格的理论基础。
Financial Machine Learning · Lecture 07

方法论:测量预期回报

  • 目标

    • 理解在不可预见影响噪声中预期回报的行为。
  • 挑战

    • 由于不可预测新闻导致的资产价格噪声,预期回报的测量相当困难。
  • 改进测量的重要性

    • 更好的测量有助于完善经济理论,以解释预期回报。
Financial Machine Learning · Lecture 07

股票收益预测的实证文献

  • 三个基本方面

    1. 横截面回归(Fama & French, 2008;Lewellen, 2015):

      • 关注影响预期回报的股票特性。
    2. 时间序列回归对组合收益的预测:

      • 挑战包括处理高维预测变量(Welch & Goyal, 2007;Koijen & Nieuwerburgh, 2011;Rapach & Zhou, 2013)。
    3. 机器学习方法

      • 对于经验资产定价的相关性增加,利用变量选择和维度缩减。
  • 传统方法的局限性

    • 无法有效处理大量预测变量。
    • 过拟合风险及多重比较问题。
Financial Machine Learning · Lecture 07

方法论:估计因子和暴露

  • 因子模型方差

    • 总方差分解为系统性风险和特有风险。
  • 时间序列回归(TSR)

    • 因子暴露估计:

    • 每个资产的时间序列回归产生
  • 横截面回归(CSR)

    • 当暴露是可观察时:

    • 通常用于单个股票,适应时变特征。
Financial Machine Learning · Lecture 07

主成分分析(PCA)

  • 当既不知道因子也不知道负载时使用:

  • 奇异值分解(SVD)提供潜在因子及其负载的估计。
  • PCA虽然在解释因子时面临挑战,但在研究中提供了灵活性。
Financial Machine Learning · Lecture 07

风险溢价主成分分析

  • 从实际回报协方差中提取潜在因子:

  • 提供了一个通用风险溢价估计的框架。
Financial Machine Learning · Lecture 07

工具变量主成分分析

  • 通过估计条件因子来解决灵活性问题:

  • 有效处理动态和不可观察特征。
Financial Machine Learning · Lecture 07

自编码器学习

  • 由Gu等(2021)提出:

    • 提出了用于建模风险与回报权衡的条件自编码器结构。
  • 架构:

    • 该结构允许贝塔非线性地依赖于股票特征。
  • 数学表示:

    • 初始化模型并通过层传播信息增强特征提取的灵活性。
Financial Machine Learning · Lecture 07

方法论:估计风险溢价

  • 因子的风险溢价

    • 反映投资者为持有相关风险所需的补偿。
    • 理解资产定价模型至关重要。
  • 估计风险溢价

    • 因子的简单平均回报提供了一个起点。
    • 模型通常针对不可交易因子进行构建,强调需要交易对照。
Financial Machine Learning · Lecture 07

经典双回归

方法论

  1. 第一步回归(时间序列):

    • 通过单个资产回归来估计

  2. 第二步回归(横截面):

    • 使用OLS在估计的 上估计风险溢价。

广义最小二乘法(GLS)版本

  • 替代OLS在第二步:

Financial Machine Learning · Lecture 07

因子模仿组合

  • 构建因子模仿组合
    • Fama & Macbeth (1973)建议将实现的回报回归到 上。

  • 模仿不可交易因子
    • 目标:通过构建可交易的代理来估计不可交易因子的风险溢价。
Financial Machine Learning · Lecture 07

三步回归

  • 方法
    1. 第一步:对 进行奇异值分解以获得
    2. 第二步:对 进行OLS回归以获得风险溢价。
    3. 第三步:将 投影到 上。

Financial Machine Learning · Lecture 07

弱因子

  • 识别弱因子

    • Kan & Zhang (1999):包含弱因子时风险溢价会扭曲。
    • Kleibergen (2009):提出在各种β值下有效的检验统计量。
  • 应对弱因子

    • Jagedesh等(2019):提出多重变量选择以改善测量准确性。
Financial Machine Learning · Lecture 07

测试资产

  • 测试资产的重要性
    • 对于经验资产定价分析至关重要。
  1. 标准方法:使用基于特征的标准组合。
  2. 扩展方法:包括广泛的资产集群或按特征排序的组合。
  3. 目标测试资产:专注于特定的感兴趣因子。
Financial Machine Learning · Lecture 07

方法论:估计SDF及其负载

  • 风险溢价与SDF

    • 因子的风险溢价等于其与随机贴现因子(SDF)的(负)协方差。
    • 在模型设置中,SDF表示为:

Financial Machine Learning · Lecture 07

广义矩估计(GMM)

SDF负载估计

  • 矩条件

    • 设置一组矩条件:

  • 优化

  • GMM估计量

    • 求解器定义为:

Financial Machine Learning · Lecture 07

基于主成分分析的方法

  • 用于SDF的PCA

    • 强协方差表明SDF可以被表示为资产回报的主导来源的函数。

  • SDF估计

    • 可以在不依赖于因子身份知识的情况下实现。
Financial Machine Learning · Lecture 07

惩罚回归

  • 随机贴现因子的参数化

    • 以少量因子的线性组合表示:

  • 估计方法

Financial Machine Learning · Lecture 07

双重机器学习

  • 应用DML

    • 提出的框架旨在缓解来自多个因子的偏差。
  • 示例框架

    • 确定感兴趣的因子,并通过相应的回归控制预期回报。
Financial Machine Learning · Lecture 07

核心思想

  • 双重机器学习(DML)是一个框架,旨在在高维协变量存在的情况下估计因果参数。
  • 它将机器学习技术与传统经济计量方法相结合,以控制混杂变量并最小化偏差。
Financial Machine Learning · Lecture 07

原理

  • 正交化:DML利用两个机器学习模型来预测结果和混杂变量,从而有效地将处理效应与这些变量正交化。
  • 两步估计:它采用两步程序,第一步涉及预测烦扰参数,第二步集中在估计因果效应。
Financial Machine Learning · Lecture 07

适用情景

  • DML特别适用于以下场景:
    • 高维数据:预测变量数量多于观察数量。
    • 复杂关系:变量之间的非线性和交互效应。
    • 因果推断:当旨在推导处理效应或因果关系时。
Financial Machine Learning · Lecture 07

具体步骤

  1. 模型规范:指定包含处理变量(例如,政策干预)和结果变量(例如,经济产出)的模型。
  2. 烦扰参数估计
    • 拟合机器学习模型以预测结果和协变量。
    • 获取与处理变量正交的残差。
  3. 处理效应的估计
    • 使用第二步获得的残差进行回归或其他经济计量方法。
    • 估计处理变量对结果变量的因果效应。
Financial Machine Learning · Lecture 07

参数组合和深度学习SDF

  • 优化SDF

  • 神经网络方法

    • 使用网络将过去的表现和特征结合起来以进行SDF估计。
Financial Machine Learning · Lecture 07

方法论:模型规格测试和模型比较

  • 目的
    • 经济理论有助于识别最佳模型,但导致多个候选模型的产生。
    • 近期值得注意的可观察组合模型包括Fama & French (2015)、Hou等(2015)和其他模型。
Financial Machine Learning · Lecture 07

GRS测试及扩展

  • 因子定价模型的评估

    • 形式化为统计假设检验问题。
    • 共同关注零阿尔法条件:

  • 估计

Financial Machine Learning · Lecture 07

GRS测试统计量

  • 二次测试统计量

  • 局限性

    • 要求 ;在某些条件下,渐进性质可能会受到影响。
Financial Machine Learning · Lecture 07

模型比较测试

  • 比较分析

    • 测试模型通常比比较模型的信息少。
    • 经典GRS测试与资产形成的最优Sharpe比率相关。
  • 测试见解

    • 在使用因子评估资产组合的风险溢价时非常有用。
Financial Machine Learning · Lecture 07

贝叶斯方法

  • 模型扩展

    • 概率方法允许更稳健的模型比较。
  • 先验

    • 利用Spike-and-Slab先验来增强模型选择的稳健性。
Financial Machine Learning · Lecture 07

结论

  • 测试的重要性
    • 验证模型抵御各种因素的韧性并确保定价准确至关重要。
    • 统计测试和经济理论必须指导模型规格,以增强资产定价预测。
Financial Machine Learning · Lecture 07

方法论:阿尔法与多重测试

  • 阿尔法的定义

    • 没有被风险因素解释的预期回报部分,通常被称为异常现象。
    • 显著发现质疑传统资产定价模型的有效性。
  • 数据挖掘问题

    • 多重测试的普遍存在导致阿尔法估计中可能出现的虚假发现。
    • 早期提案的例子包括Lo & MacKinlay (1990)和Sullivan等(1999)。
Financial Machine Learning · Lecture 07

假设检验框架

阿尔法测试的零假设

  • 为一组阿尔法提出单一零假设:

  • 检验统计量

    • 的检验统计量(通常为t统计量)。

检验的组成部分

  • 为拒绝的数量,为总数。
  • 均为随机变量,其表现可以建模以限制的关系。
Financial Machine Learning · Lecture 07

多重测试程序

  • 天真的程序:在预定水平下测试单个假设。
  • Bonferroni校正:将水平调整至以控制虚假发现率。

增强测试示例

  • Giglio等人(2021a):
    • 为有效p值和t统计量的发展提供渐近保证。
  • 贝叶斯方法:
    • 因子联合建模及阿尔法估计的改善。
Financial Machine Learning · Lecture 07

贝叶斯层次模型

  • 将阿尔法视为具有分布的属性,专注于提高准确性同时控制虚假发现。
  • 处理阿尔法估计的变化可以在不增加错误率的情况下增强统计功效。
Financial Machine Learning · Lecture 07

结论

  • 财务中的多重测试相互作用需要稳健的方法论。
  • 贝叶斯方法为管理阿尔法测试的复杂性提供了有希望的途径,同时减轻数据挖掘的偏差。
Financial Machine Learning · Lecture 07

渐近理论

  • 关键渐近方案
    • 在资产定价中识别出三种主要的渐近方案:
      1. 固定N,较大T:传统方法强调固定资产数量和增加的时间段。
      2. 较大N,较大T:资产数量和时间段同时增加,为模型应用提供灵活性。
      3. 较大N,固定T:关注资产数量增长,而时间序列保持不变的情况。
Financial Machine Learning · Lecture 07

固定N,较大T

  • 经典方法

    • 针对风险溢价的估计开发了中心极限定理。
    • 强调调整估计以考虑贝塔估计中的潜在偏差的重要性。
  • 模型影响

    • 估计量的方差提供了关于风险溢价估计可靠性的见解。
    • 建议进行重要的调整(例如,Shanken调整)以提高准确性。
Financial Machine Learning · Lecture 07

较大N,较大T

  • 比较优势
    • 当资产数量和时间同时增加时,简化了复杂协方差结构的估计需求。
    • 简化了关于风险溢价的推理过程。
    • OLS和GLS均具有类似的渐近性行为,使模型应用更加灵活。
Financial Machine Learning · Lecture 07

较大N,固定T

  • 新框架

    • 为对后期风险溢价建模提供了独特策略。
    • 在固定时间框架内应用因子模型时非常重要。
  • 建议

    • 利用该框架可以更好地处理时间变化的因子和不可见的风险暴露。
Financial Machine Learning · Lecture 07

结论

  • 模型选择

    • 根据数据结构和研究目标选择合适的渐近方案至关重要。
    • 每种方案提供特定的好处,应根据实证背景进行考虑。
  • 未来方向

    • 渐近理论的持续发展将继续完善金融中的投资模型和预测。
Financial Machine Learning · Lecture 07