| 方法 | 惩罚 | 典型用例 |
|---|---|---|
| 岭回归 | 收缩系数,处理多重共线性 | |
| LASSO | 特征选择 → 稀疏模型 | |
| 弹性网 | 结合两者优点 |
|
实证金融应用
|
关键要点:
“使用机器学习进行选择,使用计量经济学进行估计。”
动机:
公式
其中
关键思想:
|
实证金融应用
|
好处: 更高的稳定性,更好的经济解释,在分组设计中的预测改进。
| 方面 | 岭回归 | LASSO | 弹性网 |
|---|---|---|---|
| 特征选择 | 否 | 是 | 组级 |
| 处理共线性 | 强 | 可能丢弃相关变量 | 好的折中 |
| 偏差与方差 | 低方差,高偏差 | 选定变量倾向于高方差 | 平衡 |
| 参数计数 | 保留所有 | 几个非零 | 中等 |
| 可解释性 | 收缩系数 | 稀疏解释 | 组选择 |
| 金融用例 | 收益曲线, 带共线性的风险溢价 |
高维特征筛选 | 主题因子 组 |
|
|
典型金融应用
关键要点
|
|
|
|
|
分段多项式
约束与样条
|
|
|
|
|
|
|
计算目标点 |
|
|
|
多重线性回归模型
GAM
示例
|
自然样条 |
|
|
平滑样条 |
|
GAM 自动建模标准线性回归会遗漏的非线性关系。
非线性拟合可以为响应
在固定其他变量的情况下,可以逐个检查每个
|
|
关键思想:
始终在样本外或保留集中评估以避免虚假拟合。
分类作为风险与不确定性下二元决策的基础。
预测离散标签
金融中的例子:
回归不适合分类任务
|
|
数据来源:ISLP
|
数据来源:ISLP |
|
|
预测
|
|
为具有两个以上类别的响应变量分类
模型
生成模型用于分类的核心思想
为什么我们需要用于分类的生成模型
|
|
|
多变量高斯分布
|
|
|
|
|
|
将对数赔率比建模为广义加性模型:
|
超平面
|
|
|
|
|
|
|
|
|
|
|
|
|
|
支持向量机无法处理非线性问题。
我们该怎么办?
|
|
| 名称 | 函数 |
|---|---|
| 线性核 | |
| 多项式核 | |
| 径向核 | |
| 高斯核 | |
| 拉普拉斯核 | |
| Sigmoid 核 |
假设
|
|
SVC
|
SVM
|
|
内积 / 核
|
|
|
|
函数形式
|
|
|
|
|
|
一对一 (OVO) 分类
一对多 (OVA) 分类
| 指标 | 目标 |
|---|---|
| 混淆矩阵 | 真/假正率和负率 |
| 准确率 | 整体分类率 |
| 精确率与召回率 (PR) | 对于不平衡数据的关键权衡 |
| ROC / AUC | 概率排名质量 |
| KS 统计量 | 信贷风险的区分能力 |
金融实践 → PD 模型评估、欺诈检出率、风险控制敏感性分析。
| 方法 | 数学思想/假设 | 非线性能力 | 输出 | 主要优势 |
|---|---|---|---|---|
| 逻辑回归 | 线性决策边界;估计 |
低 | 概率 | 高度可解释、标准误可得 |
| LDA | 类条件正态且协方差相同 | 线性 | 概率 | 稳定、最小误差界 |
| QDA | 类条件正态但协方差不同 | 中高 | 概率 | 能拟合不同形状边界 |
| 朴素贝叶斯 | 特征条件独立 | 中 | 概率 | 简单、高维文本类适用 |
| GAM | 多变量非线性可加 | 高 | 概率或期望 | 灵活且可解释 |
| 支持向量机 | 最大化间隔,核函数映射 | 高 | 离散决策 | 对噪声鲁棒、边界清晰 |
| 场景 | 适用方法 | 说明 |
|---|---|---|
| 信用评分 / 违约预测 | 逻辑回归, GAM | 监管认可、可解释概率输出 |
| 企业破产 / 风险等级 | LDA, QDA | 经典统计判别思路 |
| 欺诈检测 | 支持向量机, 朴素贝叶斯 | 高维特征、复杂分类边界 |
| 市场状态识别(牛市/熊市) | 支持向量机, GAM | 可构建非线性或时变边界 |
| 文本情绪正负分类 | 朴素贝叶斯, 支持向量机 | 高维稀疏词向量场景 |
| 宏观政策立场分类 | 逻辑回归, GAM | 输出概率方便经济解释 |
| 比较维度 | 逻辑回归 | LDA | QDA | 朴素贝叶斯 | GAM | 支持向量机 |
|---|---|---|---|---|---|---|
| 可解释性 | 高 | 高 | 中 | 中 | 高 | 低 |
| 非线性能力 | 中 | 弱 | ||||
| 小样本性能 | 可能过拟合 | 需要正则化 | 中 | |||
| 高维特征容忍度 | 需要正则化 | 不佳 | 不佳 | 依赖核 | ||
| 输出形式 | 概率 | 概率 | 概率 | 概率 | 概率/期望 | 类别或分数间隔 |
| 计算效率 | 高 | 高 | 中 | 高 | 中 | 相对较慢 |
| 监管接受度 | 中 | 中 | 低 | |||
| 典型数据结构 | 表格结构 | 连续特征 | 连续特征但方差不同 | 离散文本/分类 | 多维非线性时序 | 高维非线性 |
| 任务 | 数据特点 | 推荐算法 | 原因 |
|---|---|---|---|
| 信用评分 / 违约概率 | 中小样本、易解释 | 逻辑回归或GAM | 输出概率、可视化解释、合规 |
| 企业分类 / 财务风险层级 | 多变量但正态性可近似 | LDA/QDA | 经典实证传统 |
| 文本或信件分类 | 高维词频、稀疏 | 朴素贝叶斯或支持向量机 | 对高维文本表现优 |
| 宏观经济状态判别 | 非线性、多因素 | GAM或支持向量机 | 可捕捉非线性或边界变化 |
| 市场操纵 / 欺诈检测 | 噪声多、复杂模式 | 支持向量机或GAM | 强非线性识别能力 |
建议:
|
|
基于树的方法结合了准确性和可解释性,架起了金融中的预测与解释之间的桥梁。
|
|
|
训练目标: 找到最大化均方误差 (MSE) 减少的切分。 分类变量输入: 切分比较特征 |
示例回顾
CART:分类树
|
|
|
训练目标: 分类树在每个切分时最小化上切分的不纯度。常见的不纯度度量:
分类变量输入: 切分比较 |
示例回顾:
|
|
|
|
核心思想:结合多个基础学习器以产生更强大、更稳定的模型。
为什么有效
常见集成方法
| 类别 | 模型组合方式 | 目标 | 示例 |
|---|---|---|---|
| 平均法 | 独立地训练模型并平均或投票它们的预测 | 减少方差 | Bagging, 随机森林 |
| 提升法 | 依次训练模型,每个模型聚焦于之前的错误 | 减少偏差 | AdaBoost, 梯度提升 |
| 堆叠法 | 学习一个元模型以最佳地组合基础模型的输出 | 利用多样化学习者 | 堆叠, 混合 |
|
回归集成:平均预测
|
分类集成:投票或概率平均
|
Bagging 有效的原因
注意
为什么提升有效
关键特性
| 方面 | 提升 | Bagging / 随机森林 |
|---|---|---|
| 训练风格 | 顺序,自适应 | 并行 |
| 主要目标 | 减少偏差 | 减少方差 |
| 模型依赖性 | 后续模型依赖于先前的错误 | 模型独立训练 |
| 典型基础学习者 | 弱(例如,浅树) | 不稳定(例如,深树) |
| 示例算法 | AdaBoost,梯度提升 | Bagging,随机森林 |
注意
|
模型定义: 我们寻求一个加性模型,结合多个基础学习器:
|
优化框架: 我们以阶段性的方式最小化经验损失函数 在每个阶段
|
这是一个前向阶段加性的方法——每一步执行一个局部优化以减少总损失。
特殊情况
| 算法 | 损失函数 | 解释 |
|---|---|---|
| AdaBoost | 指数损失:%%BR%% |
权重更新 |
| 梯度提升 | 任意可微损失 |
学习者拟合关于 |
总结
|
核心思想
|
|
示例:二次损失与最小二乘提升
|
|
洞见
典型超参数
| 参数 | 作用 | 常见范围 |
|---|---|---|
| 提升轮数 | 100–1000 | |
| 收缩步长 |
0.01–0.1 | |
| 树的深度 | 基础学习者容量 | 3–8 |
| 子采样率 | 通过随机性进行正则化 | 0.5–1.0 |
注意
为什么正则化很重要
三种核心正则化技术
| 技术 | 关键思想 | 实践效果 | 金融研究实例 |
|---|---|---|---|
| (1) 收缩(学习率) | 减少每次迭代后的更新步长: |
每个模型单独贡献较少。多次迭代→平滑收敛。 | 在信用风险建模中,较小的学习率(例如,0.05)防止模型过于激进地拟合极端或稀有的违约案例。 |
| (2) 子采样(随机采样) | 在每次迭代时使用训练数据的随机子集(例如,50–80%)。 | 引入随机性,降低方差。类似于随机梯度下降。 | 在高频交易预测中,随机子样本减少市场微观噪声,避免对瞬时模式的过拟合。 |
| (3) 决策树约束(结构控制) | 限制树的复杂性——深度、叶子数量或最小叶子大小。 | 减少模型的灵活性,控制过拟合。 | 在宏观经济预测中,使用浅树(深度 ≤ 4)防止模型对短期、非结构性波动做出反应。 |
实践中的正则化
实践启示:稳健性优于完美
| 研究背景 | 过拟合风险 | 推荐策略 |
|---|---|---|
| 信用评分(小样本、众多预测变量) | 高 | 小学习率 + 浅树 |
| 宏观经济预测 | 中等 | 子采样 + 深度约束 |
| 市场操控 / 欺诈检测 | 非常高 | 强正则化 + 时间分段训练 |
| 投资组合风险建模 | 中等 | 保守参数 + 重复交叉验证 |
为什么堆叠有效
关键特性
| 方面 | 堆叠 | Bagging | Boosting |
|---|---|---|---|
| 架构 | 分层(多级) | 并行 | 顺序 |
| 基础模型 | 异质(不同类型) | 同质 | 同质 |
| 依赖性 | 元模型依赖于基础输出 | 独立 | 步骤依赖 |
| 主要目标 | 结合多样化建模优势 | 减少方差 | 减少偏差 |
| 示例元模型 | 线性 / 岭回归 | – | – |
|
数据划分策略 — 避免信息泄露
|
基础模型 — 如何选择
设计原则: 选择多样化但互补的学习者,以反映不同的经济结构。 |
元模型 — 如何训练
工作流程概述
第1步 将数据划分为训练折
第2步 训练多样化的基础模型 → 获取样本外预测
第3步 从基础预测中构建元特征
第4步 在这些元特征上训练元模型
第5步 将训练好的管道应用于测试数据或新的时间段
常见陷阱
| 问题 | 描述 | 缓解措施 |
|---|---|---|
| 数据泄露 | 元模型使用了样本内预测 | 严格的折叠分离或滚动窗口设置 |
| 过于复杂的元模型 | 学习基础模型噪声而非信号 | 使用正则化回归 |
| 样本量有限 | 观察数量太少以估计第二层 | 减少基础模型数量或折叠数 |
| 不一致的缩放 | 基础模型输出在不同的尺度上 | 在元训练前进行标准化 |
总结
三种主要方法一览
| 方面 | Bagging | Boosting | Stacking |
|---|---|---|---|
| 核心策略 | 并行重采样和投票 | 顺序错误校正 | 分层模型集成 |
| 模型依赖性 | 独立学习者 | 每个学习者依赖于先前的错误 | 元级依赖于基础输出 |
| 主要目标 | 减少方差 | 减少偏差 | 结合多样化模型优势 |
| 典型基础学习者 | 不稳定模型(例如,深树) | 弱模型(例如,浅树) | 混合模型(线性 + 非线性) |
| 组合规则 | 平均 / 投票 | 加权加法更新 | 元模型学习最佳权重 |
| 代表性算法 | 随机森林 | AdaBoost、GBM、XGBoost | 堆叠泛化 |
| 偏差–方差–多样性视角 | ↓ 方差 | ↓ 偏差 | ↑ 模型多样性 |
它们如何相辅相成
金融与经济应用的指导
| 场景 | 首选方法 | 理由/目标 |
|---|---|---|
| 信用风险建模 %%BR%%(不平衡标签、表格数据) | Boosting(例如,XGBoost) | 专注于难以分类的违约;处理特征交互。 |
| 宏观经济预测 %%BR%%(少量特征、时间结构) | Bagging / 随机森林 | 降低小样本的方差;对异常值鲁棒。 |
| 市场微观数据或多源模型 %%BR%%(价格、文本、基本面) | Stacking | 集成异质模型;结合可解释性和灵活性。 |
| 投资组合优化或波动率预测 | Stacking / Bagging 混合 | 在多个制度之间平衡预测稳定性与适应性。 |
无监督学习作为数据驱动的结构发现探索,旨在金融系统中发现潜在结构。
从有监督到无监督
核心哲学
| 有监督 | 无监督 |
|---|---|
| 从已知目标 |
仅从输入结构学习 |
| 目标:最小化错误或损失 | 目标:最大化模式清晰度或紧凑性 |
| 典型任务:回归,分类 | 典型任务:聚类,降维,异常检测,关联规则 |
| 侧重于预测 | 侧重于理解 / 探索 |
示例直觉
在金融与经济中的重要性
| 应用领域 | 示例用例 | 益处 |
|---|---|---|
| 市场结构分析 | 识别具有相似收益行为的股票组 | 揭示行业共动性 |
| 消费者金融/信用 | 按消费和还款模式将借款人分组 | 更好的细分,风险分析 |
| 宏观经济学 | 从多个指标中提取隐藏的经济因子 | 简化大数据集供政策分析 |
| 欺诈/危机检测 | 发现交易或宏观趋势中的异常 | 早期预警和控制 |
概念类比
有监督 → 教师提供正确答案
无监督 → 学生自我组织成学习小组
“教师”(标签)缺席——然而洞察力从数据点之间的关系中出现。
这使得无监督方法非常适合探索性分析和假设生成。
过渡
在接下来的页面中,我们将探索主要的无监督方法:
- 聚类 → 发现相似性结构,
- 降维 → 总结复杂变量,
- 关联规则与异常检测 → 发现隐藏关系与异常值。
这些技术将原始、未标记的数据转变为可解释的经济知识。
主要方法
| 方法 | 关键原则 | 优势 | 局限性 |
|---|---|---|---|
| K‑Means | 最小化聚类内方差(惯性) | 快速、简单、广泛使用 | 必须预先指定K;对规模和异常值敏感 |
| 层次聚类 | 根据距离链接(单、全、平均)合并或拆分聚类 | 可视化树状图;不需预设K | 对于大N 计算负担沉重 |
| DBSCAN | 基于密度:聚类是稠密区域,由稀疏区域分开的 | 检测不规则形状和噪声 | 需要参数调优(ε,MinPts) |
|
|
如何选择方法
| 数据特征 | 推荐方法 | 理由 |
|---|---|---|
| 明确的聚类边界,近似球形 | K‑Means | 高效,稳定中心 |
| 未知组数,需层次结构 | 层次聚类 | 揭示嵌套结构 |
| 存在不规则形状或噪声 | DBSCAN | 基于密度的鲁棒性 |
| 非常大的 N,高维 | 先使用 MiniBatch K‑Means | 可扩展的近似 |
评估聚类质量
在金融应用中,聚类的可解释性与数值紧凑性同样重要。
金融与经济相关性
| 领域 | 示例用途 | 结果 |
|---|---|---|
| 金融市场 | 按收益相关性对股票或投资者分组 | 识别市场状态或风格聚类 |
| 消费者行为 | 按交易历史对客户进行细分 | 目标营销和信用策略 |
| 宏观政策 | 按宏观指标对国家进行聚类 | 揭示结构相似性或差异 |
聚类结构通常揭示潜在制度或商业策略,这些在简单平均值中是不可见的。
示例数据集
| 实体 | 用于聚类的特征 | 经济含义 |
|---|---|---|
| 公司 (市场营销 / 零售) | 销售增长、广告比例、产品多样性、数字渠道使用 | 反映市场行为和创新强度 |
| 消费者 (金融 / 银行) | 消费频率、平均交易额、信用利用率 | 揭示不同的消费/风险特征 |
| 股票 (市场数据) | 平均收益、波动率、换手率、与指数相关性 | 识别风格聚类或行为状态 |
标准化至关重要 — 在聚类之前将所有特征缩放至可比较单位。
工作流程
说明性结果
| 聚类 ID | 概要描述 | 代表行为 |
|---|---|---|
| 1 | 高销售额 & 高数字化使用 | 数字领袖 |
| 2 | 中等增长 & 传统渠道 | 常规参与者 |
| 3 | 小型公司,低市场支出 | 细分生存者 |
经济解释
在研究层面,聚类可以作为后续模型的无监督标记机制。
扩展思路
| 方向 | 在经济研究中的目的 |
|---|---|
| 随时间变化的聚类稳定性 | 研究结构变化或市场状态转变 |
| 聚类转移矩阵 | 评估典型行为类型之间的流动性 |
| 与有监督模型结合 | 使用聚类标签作为解释变量或控制变量 |
| 混合方法(K‑Means + DBSCAN) | 同时捕捉核心群体和边缘异常 |
|
|
降维 在保留数据最重要的方差或结构的同时压缩数据。
两种主要哲学: 主成分分析(PCA)和t-分布随机邻居嵌入(t‑SNE)
| 方法 | 类型 | 关键思想 | 输出空间 |
|---|---|---|---|
| PCA | 线性投影 | 旋转轴以最大化解释的方差 | 成分是原始变量的线性组合 |
| t‑SNE | 非线性流形学习 | 在低维空间中保留局部邻居关系 | 适合可视化的2维/3维嵌入 |
PCA — 核心机制
示例解释:
PCA揭示了潜在正交方向,这些方向最佳地总结了数据集。
|
![]()
|
数据的方差可以分解为前
我们可以将 PVE 解释为由前
|
|
|
|
比较概述
| 方面 | PCA | t‑SNE |
|---|---|---|
| 线性/非线性 | 线性 | 非线性 |
| 目标 | 最大化全局方差 | 保留局部相似性 |
| 输出可解释性 | 高 | 低(无明确因子) |
| 用例 | 因子提取,噪声减少 | 可视化探索,聚类辅助 |
| 运行时可扩展性 | 非常快 | 对大型 N 较慢 |
金融与经济应用
| 上下文 | 如何使用 | 洞察结果 |
|---|---|---|
| 宏观经济学 | 将100多个指标减少为几个主成分 | 识别潜在经济周期或冲击 |
| 投资组合风险 | 通过 PCA 分解协方差矩阵 | 揭示主导风险因子(市场、规模、行业) |
| ESG 分析 | 压缩数十个评分为一个复合评分 | 构建可解释的可持续性指数 |
| 消费者分析/文本数据 | 可视化消费或意见的相似性 | 发现行为聚类 |
|
动机
|
从回报到因子
|
主成分的经济解释
| 主成分 | 可能的经济含义 | 典型模式 |
|---|---|---|
| PC1 | 市场广泛因子 | 解释最大的价格波动部分,与指数高度相关。 |
| PC2 | 行业轮换因子 | 区分周期性与防御性产业。 |
| PC3 | 规模或流动性因子 | 捕捉小与大或流动与非流动对比。 |
投资组合风险分解
每个项对应一个主成分对投资组合风险的贡献。
| 成分 | 方差份额 | 解释 |
|---|---|---|
| PC1 | 52% | 系统性市场风险 |
| PC2 | 18% | 行业轮换风险 |
| PC3+ | 30% | 特殊或噪声 |
|
核心思想 关联规则学习发现商品或事件之间的共现模式:
最初用于零售(购物篮),它在经济和金融中有广泛应用——从消费者分析到交易网络和风险事件检测。 |
示例场景 在一家超市的交易数据集中:
目标 → 寻找规则,例如:{面包, 牛奶} → {啤酒},这意味着购买面包和牛奶的顾客通常也购买啤酒。 |
| 度量 | 公式 | 含义 |
|---|---|---|
| 支持度 | 包含A和B的交易频率 | |
| 置信度 | 给定A的条件下B的概率 | |
| 提升率 | 超越机会的关联强度(>1 = 正相关) |
示例:如果提升率 = 1.8,购买A的顾客有80%的概率同时购买B,超过平均水平。
Apriori 算法
使用“Apriori 属性”:频繁项集的所有子集也必须是频繁的。
热门扩展: FP‑Growth、ECLAT用于可扩展性。
超越零售的应用
| 领域 | 数据来源 | 获得的洞察 |
|---|---|---|
| 电子商务/银行 | 购买或交易日志 | 交叉销售与推荐 |
| 宏观经济学 | 国家宏观指标 (例如,通货膨胀↑ & 能源价格↑ → 政策收紧) |
检测共同运动的模式 |
| 金融与风险 | 欺诈或损失事件日志 | 共发生触发因素分析 |
| 文本分析 | 关键词或主题共现 | 识别潜在问题关联 |
经济背景下的解释
典型的经济与金融背景
| 领域 | 异常示例 | 检测的价值 |
|---|---|---|
| 银行与支付 | 不寻常的交易模式或金额 | 防范欺诈,反洗钱系统 |
| 金融市场 | 异常回报或波动性飙升 | 市场压力的早期信号 |
| 宏观经济学 | 指标的突然偏离(例如,信用与增长) | 危机的早期预警 |
| 公司金融 | 意外的会计数字 | 治理与审计检查 |
当标记的欺诈或危机数据有限时,无监督的异常检测至关重要。
主要方法
| 方法 | 机制 | 何时使用 |
|---|---|---|
| 统计阈值 | 识别远离均值的点(z‑得分,IQR 规则) | 小数据集,可解释 |
| 基于距离的方法 | 计算最近邻→标记孤立点 | 中等数据集,清晰度量空间 |
| 基于密度的(DBSCAN / LOF) | 低密度 = 异常 | 非线性结构 |
| 基于模型(一类SVM,孤立森林) | 学习“正常”区域的边界 | 高维/复杂数据 |
孤立森林关键思想: 随机划分数据;异常需要更少的分割来隔离。
定量评估
| 指标 | 含义 |
|---|---|
| 精确率/召回率 | 错过和假检测之间的权衡 |
| ROC/PR 曲线 | 如果部分标签存在,评估模型区分能力 |
| 经济验证 | 检查标记的异常是否与已知事件一致(例如,金融危机2008,COVID冲击) |
经济解释
在这两种情况下,异常 = “重大事件前的弱信号”。
混合与实际系统
我们学到了什么
| 方法家族 | 主要目标 | 经济含义 |
|---|---|---|
| 聚类 | 组群相似的观察 | 市场细分/结构制度识别 |
| 降维(PCA / t‑SNE) | 压缩信息,提取潜在成分 | 因子提取/风险分解 |
| 关联规则 | 发现共生逻辑 | 行为关联/政策指标关系 |
| 异常检测 | 识别不规律的样本 | 欺诈筛查/危机早期信号 |
共同主题:在显然的随机中找到秩序。
概念整合
经济分析中的优势
| 方面 | 无监督学习的附加价值 |
|---|---|
| 探索性能力 | 在设定假设之前揭示潜在结构 |
| 可扩展性 | 处理大型、多维数据集 |
| 适应性 | 即使在有限或没有标记的数据上工作 |
| 互补性 | 增强传统的计量经济模型(例如,因子分析、结构突变) |
特别在像金融和政策分析这样的“数据丰富、理论稀缺”的环境中非常有价值。
方法论反思
实践实施检查表
一直将算法视作透镜,而非绝对真理。
|
设
等价于对 |
视为投影:
偏差—方差机制:
|
| 步骤 | 描述 |
|---|---|
| 1️ | 标准化 |
| 2️ | 计算特征向量 P 的协方差矩阵 Σₓ = X'X / n |
| 3️ | 保留前 K 主成分 T = X Pₖ |
| 4️ | 对 T 回归 Y |
| 5️ | 获得拟合的 β = Pₖ βₜ |
选择
解释: PCR 强调方差结构,而不是预测相关性 → 用于描述性因子发现。 |
适用情况:
失效情况:
要点:
|
|
PLS使用 第一成分:
解释:
|
|
逐成分(NIPALS/SIMPLS思路):
其中
Krylov子空间视图:
|
几何
与相关方法的链接:
|
收缩特征:
影响:
|
资产定价因子:
宏观预测:
信用风险:
预处理:
| 特征 | PCR | PLS |
|---|---|---|
| 使用 |
否 | 是 |
| 目标 | ||
| 预测能力 | 中等 | 较高 |
| 可解释性 | 高 | 中等 |
| 典型目标 | 数据总结 | 预测 |
在金融计量经济学中,PLS经常产生更能预测回报或宏观变量的因子。
| 方法 | 降维机制 | 使用 |
变量选择 | 可解释性 | 预测准确性 |
|---|---|---|---|---|---|
| PCR | PCA在 |
中等 | |||
| PLS | 中等 | 高 | |||
| LASSO | 稀疏 | 高 | |||
| Ridge | 稳定 | 中等 | |||
| Elastic Net | 中等 | 高 |
| 研究目标 | 数据结构 | 推荐方法 | 理由 |
|---|---|---|---|
| 解释结构关系 | 中等维度 | PCR | 捕捉潜在数据结构 |
| 预测 |
高度共线性 | PLS | 使用 |
| 特征选择/大量 p | 稀疏相关信号 | LASSO/Elastic Net | 自动变量选择 |
| 稳定估计/共线性 | p≈n大 | Ridge/PLS | 收缩稳定估计 |
| 混合目标(解释+预测) | 高维、噪声 |
混合PLS+正则化 | 在金融中的新兴趋势 |
经验法则:
总结 · 第 02 讲
| 主题 | 精髓 | 金融应用 |
|---|---|---|
| 回归 | 线性 + 正则化模型用于连续目标 | 回报 & 风险预测 |
| 分类 | 基于特征的二元决策 | 信贷评分,欺诈检测 |
| 基于树的模型 | 集成方法(GBM,RF)用于准确性与可解释性 | PD建模,风险评级 |
| 无监督学习 | 聚类 & PCA 发现隐藏模式 | 制度分析,因子提取 |
浅层学习为后来的深度学习方法奠定了基础。
推荐阅读
- 岭回归通常保留所有变量,但数值较小。 - LASSO 进行明确的特征选择。 - 弹性网平衡了偏差-方差折中。
> 示例:将宏观理论模型与数据驱动模型结合,以提高预测稳定性。
> 这些方法共同形成了从*方差控制* → *偏差校正* → *模型多样化*的**连续体**。
> 可以将无监督学习视为*让数据讲述自己的故事。*
> 它回答以下问题:“谁看起来像谁?”