Lecture 02: Shallow Learning Algorithms

方法	惩罚	典型用例
岭回归		收缩系数，处理多重共线性
LASSO		特征选择 → 稀疏模型
弹性网		结合两者优点

方面	岭回归	LASSO	弹性网
特征选择	否	是	组级
处理共线性	强	可能丢弃相关变量	好的折中
偏差与方差	低方差，高偏差	选定变量倾向于高方差	平衡
参数计数	保留所有	几个非零	中等
可解释性	收缩系数	稀疏解释	组选择
金融用例	收益曲线，带共线性的风险溢价	高维特征筛选	主题因子组

名称	函数
线性核
多项式核
径向核
高斯核
拉普拉斯核
Sigmoid 核

指标	目标
混淆矩阵	真/假正率和负率
准确率	整体分类率
精确率与召回率 (PR)	对于不平衡数据的关键权衡
ROC / AUC	概率排名质量
KS 统计量	信贷风险的区分能力

方法	数学思想/假设	非线性能力	输出	主要优势
逻辑回归	线性决策边界；估计	低	概率	高度可解释、标准误可得
LDA	类条件正态且协方差相同	线性	概率	稳定、最小误差界
QDA	类条件正态但协方差不同	中高	概率	能拟合不同形状边界
朴素贝叶斯	特征条件独立	中	概率	简单、高维文本类适用
GAM	多变量非线性可加	高	概率或期望	灵活且可解释
支持向量机	最大化间隔，核函数映射	高	离散决策	对噪声鲁棒、边界清晰

场景	适用方法	说明
信用评分 / 违约预测	逻辑回归, GAM	监管认可、可解释概率输出
企业破产 / 风险等级	LDA, QDA	经典统计判别思路
欺诈检测	支持向量机, 朴素贝叶斯	高维特征、复杂分类边界
市场状态识别（牛市/熊市）	支持向量机, GAM	可构建非线性或时变边界
文本情绪正负分类	朴素贝叶斯, 支持向量机	高维稀疏词向量场景
宏观政策立场分类	逻辑回归, GAM	输出概率方便经济解释

比较维度	逻辑回归	LDA	QDA	朴素贝叶斯	GAM	支持向量机
可解释性	高	高	中	中	高	低
非线性能力			中	弱
小样本性能			可能过拟合		需要正则化	中
高维特征容忍度	需要正则化	不佳	不佳			依赖核
输出形式	概率	概率	概率	概率	概率/期望	类别或分数间隔
计算效率	高	高	中	高	中	相对较慢
监管接受度			中	中		低
典型数据结构	表格结构	连续特征	连续特征但方差不同	离散文本/分类	多维非线性时序	高维非线性

任务	数据特点	推荐算法	原因
信用评分 / 违约概率	中小样本、易解释	逻辑回归或GAM	输出概率、可视化解释、合规
企业分类 / 财务风险层级	多变量但正态性可近似	LDA/QDA	经典实证传统
文本或信件分类	高维词频、稀疏	朴素贝叶斯或支持向量机	对高维文本表现优
宏观经济状态判别	非线性、多因素	GAM或支持向量机	可捕捉非线性或边界变化
市场操纵 / 欺诈检测	噪声多、复杂模式	支持向量机或GAM	强非线性识别能力

梯度提升：算法实施

核心思想

梯度提升将提升解读为在函数空间中执行的梯度下降。
每次迭代添加一个新的基础学习器，该学习器拟合损失函数对当前模型预测的负梯度。

此处，近似损失函数的负梯度。

梯度提升算法： 给定损失函数：
1. 初始化模型

对：
a. 计算伪残差（负梯度）：

  b. **拟合基础学习者** $\small f_m(x)$ 到训练数据对 $\small (x_i, r_{im})$。  
  c. **找到最优步长**

  d. **更新模型**

最终模型：

	SVC	SVM
内积 / 核
函数形式
函数形式

类别	模型组合方式	目标	示例
平均法	独立地训练模型并平均或投票它们的预测	减少方差	Bagging, 随机森林
提升法	依次训练模型，每个模型聚焦于之前的错误	减少偏差	AdaBoost, 梯度提升
堆叠法	学习一个元模型以最佳地组合基础模型的输出	利用多样化学习者	堆叠, 混合

方面	提升	Bagging / 随机森林
训练风格	顺序，自适应	并行
主要目标	减少偏差	减少方差
模型依赖性	后续模型依赖于先前的错误	模型独立训练
典型基础学习者	弱（例如，浅树）	不稳定（例如，深树）
示例算法	AdaBoost，梯度提升	Bagging，随机森林

算法	损失函数	解释
AdaBoost	指数损失：%%BR%%	权重更新最小化指数风险
梯度提升	任意可微损失	学习者拟合关于的损失的负梯度

参数	作用	常见范围
	提升轮数	100–1000
(学习率)	收缩步长	0.01–0.1
树的深度	基础学习者容量	3–8
子采样率	通过随机性进行正则化	0.5–1.0

有时数据是不可分的
有时最大边缘分类器对噪声数据非常敏感

技术	关键思想	实践效果	金融研究实例
(1) 收缩（学习率）	减少每次迭代后的更新步长：, 其中 .	每个模型单独贡献较少。多次迭代→平滑收敛。	在信用风险建模中，较小的学习率（例如，0.05）防止模型过于激进地拟合极端或稀有的违约案例。
(2) 子采样（随机采样）	在每次迭代时使用训练数据的随机子集（例如，50–80%）。	引入随机性，降低方差。类似于随机梯度下降。	在高频交易预测中，随机子样本减少市场微观噪声，避免对瞬时模式的过拟合。
(3) 决策树约束（结构控制）	限制树的复杂性——深度、叶子数量或最小叶子大小。	减少模型的灵活性，控制过拟合。	在宏观经济预测中，使用浅树（深度 ≤ 4）防止模型对短期、非结构性波动做出反应。

研究背景	过拟合风险	推荐策略
信用评分（小样本、众多预测变量）	高	小学习率 + 浅树
宏观经济预测	中等	子采样 + 深度约束
市场操控 / 欺诈检测	非常高	强正则化 + 时间分段训练
投资组合风险建模	中等	保守参数 + 重复交叉验证

方面	堆叠	Bagging	Boosting
架构	分层（多级）	并行	顺序
基础模型	异质（不同类型）	同质	同质
依赖性	元模型依赖于基础输出	独立	步骤依赖
主要目标	结合多样化建模优势	减少方差	减少偏差
示例元模型	线性 / 岭回归	–	–

问题	描述	缓解措施
数据泄露	元模型使用了样本内预测	严格的折叠分离或滚动窗口设置
过于复杂的元模型	学习基础模型噪声而非信号	使用正则化回归
样本量有限	观察数量太少以估计第二层	减少基础模型数量或折叠数
不一致的缩放	基础模型输出在不同的尺度上	在元训练前进行标准化

方面	Bagging	Boosting	Stacking
核心策略	并行重采样和投票	顺序错误校正	分层模型集成
模型依赖性	独立学习者	每个学习者依赖于先前的错误	元级依赖于基础输出
主要目标	减少方差	减少偏差	结合多样化模型优势
典型基础学习者	不稳定模型（例如，深树）	弱模型（例如，浅树）	混合模型（线性 + 非线性）
组合规则	平均 / 投票	加权加法更新	元模型学习最佳权重
代表性算法	随机森林	AdaBoost、GBM、XGBoost	堆叠泛化
偏差–方差–多样性视角	↓ 方差	↓ 偏差	↑ 模型多样性

场景	首选方法	理由/目标
信用风险建模 %%BR%%(不平衡标签、表格数据)	Boosting（例如，XGBoost）	专注于难以分类的违约；处理特征交互。
宏观经济预测 %%BR%%(少量特征、时间结构)	Bagging / 随机森林	降低小样本的方差；对异常值鲁棒。
市场微观数据或多源模型 %%BR%%(价格、文本、基本面)	Stacking	集成异质模型；结合可解释性和灵活性。
投资组合优化或波动率预测	Stacking / Bagging 混合	在多个制度之间平衡预测稳定性与适应性。

有监督	无监督
从已知目标学习	仅从输入结构学习
目标：最小化错误或损失	目标：最大化模式清晰度或紧凑性
典型任务：回归，分类	典型任务：聚类，降维，异常检测，关联规则
侧重于预测	侧重于理解 / 探索

应用领域	示例用例	益处
市场结构分析	识别具有相似收益行为的股票组	揭示行业共动性
消费者金融/信用	按消费和还款模式将借款人分组	更好的细分，风险分析
宏观经济学	从多个指标中提取隐藏的经济因子	简化大数据集供政策分析
欺诈/危机检测	发现交易或宏观趋势中的异常	早期预警和控制

方法	关键原则	优势	局限性
K‑Means	最小化聚类内方差（惯性）	快速、简单、广泛使用	必须预先指定K；对规模和异常值敏感
层次聚类	根据距离链接（单、全、平均）合并或拆分聚类	可视化树状图；不需预设K	对于大N 计算负担沉重
DBSCAN	基于密度：聚类是稠密区域，由稀疏区域分开的	检测不规则形状和噪声	需要参数调优（ε，MinPts）

自然样条	平滑样条
平滑样条

数据特征	推荐方法	理由
明确的聚类边界，近似球形	K‑Means	高效，稳定中心
未知组数，需层次结构	层次聚类	揭示嵌套结构
存在不规则形状或噪声	DBSCAN	基于密度的鲁棒性
非常大的 N，高维	先使用 MiniBatch K‑Means	可扩展的近似

领域	示例用途	结果
金融市场	按收益相关性对股票或投资者分组	识别市场状态或风格聚类
消费者行为	按交易历史对客户进行细分	目标营销和信用策略
宏观政策	按宏观指标对国家进行聚类	揭示结构相似性或差异

实体	用于聚类的特征	经济含义
公司 (市场营销 / 零售)	销售增长、广告比例、产品多样性、数字渠道使用	反映市场行为和创新强度
消费者 (金融 / 银行)	消费频率、平均交易额、信用利用率	揭示不同的消费/风险特征
股票 (市场数据)	平均收益、波动率、换手率、与指数相关性	识别风格聚类或行为状态

聚类 ID	概要描述	代表行为
1	高销售额 & 高数字化使用	数字领袖
2	中等增长 & 传统渠道	常规参与者
3	小型公司，低市场支出	细分生存者

方向	在经济研究中的目的
随时间变化的聚类稳定性	研究结构变化或市场状态转变
聚类转移矩阵	评估典型行为类型之间的流动性
与有监督模型结合	使用聚类标签作为解释变量或控制变量
混合方法（K‑Means + DBSCAN）	同时捕捉核心群体和边缘异常

方法	类型	关键思想	输出空间
PCA	线性投影	旋转轴以最大化解释的方差	成分是原始变量的线性组合
t‑SNE	非线性流形学习	在低维空间中保留局部邻居关系	适合可视化的2维/3维嵌入

方面	PCA	t‑SNE
线性/非线性	线性	非线性
目标	最大化全局方差	保留局部相似性
输出可解释性	高	低（无明确因子）
用例	因子提取，噪声减少	可视化探索，聚类辅助
运行时可扩展性	非常快	对大型 N 较慢

上下文	如何使用	洞察结果
宏观经济学	将100多个指标减少为几个主成分	识别潜在经济周期或冲击
投资组合风险	通过 PCA 分解协方差矩阵	揭示主导风险因子（市场、规模、行业）
ESG 分析	压缩数十个评分为一个复合评分	构建可解释的可持续性指数
消费者分析/文本数据	可视化消费或意见的相似性	发现行为聚类

主成分	可能的经济含义	典型模式
PC1	市场广泛因子	解释最大的价格波动部分，与指数高度相关。
PC2	行业轮换因子	区分周期性与防御性产业。
PC3	规模或流动性因子	捕捉小与大或流动与非流动对比。

成分	方差份额	解释
PC1	52%	系统性市场风险
PC2	18%	行业轮换风险
PC3+	30%	特殊或噪声

第 02 讲

金融中的浅层学习算法

大纲

第 1 部分 · 回归模型

动机

线性回归回顾

正则化：岭回归与LASSO

后LASSO与两步估计

LASSO与后LASSO（OLS选择后）

结构化正则化 · 群体 LASSO

与标准 LASSO 的比较

岭回归 · LASSO · 弹性网特征与用例比较

模型训练管道

典型金融应用和关键要点

非线性回归：多项式回归

非线性回归：阶梯函数

非线性回归：基函数

非线性回归：回归样条

样条基函数表示

选择节点的数量与位置

与多项式回归的比较

平滑样条

非线性回归：局部回归

局部线性回归

非线性回归：广义加性模型

GAM 的优缺点

回归模型的评估

第 2 部分 · 分类算法

动机

分类问题

示例：违约数据集

逻辑模型

多重逻辑回归

多项逻辑回归

用于分类的生成模型

逻辑判别分析（LDA）

一个示例

多维 LDA 适用于

二次判别分析（QDA）

朴素贝叶斯

广义加性模型

支持向量机

支持向量机：最大间隔分类器

使用分隔超平面的分类

最大间隔分类器

非分隔案例与噪声数据

支持向量分类器

参数

支持向量机

利用多项式特征的非线性分类器

核函数

SVC 和 SVM

多类支持向量机

与逻辑回归的关系

分类模型评估

分类算法核心思想速览

经济与金融研究典型应用

模型比较

经济金融研究中“方法—场景”匹配表

总结

第 3 部分 · 基于树的模型

动机

分类与回归树 (CART)：回归树

回归树：正式表述与训练

CART：分类树

分类树：正式表述与训练

正则化

优缺点

集成学习：概述

回归集成与分类集成

基于平均的集成：Bagging

随机森林：带有特征随机性的 Bagging

提升：专注于偏差减少

提升：序列学习算法

前向阶段加性建模 (FSAM)

梯度提升：算法实施

梯度提升中的正则化与增强

堆叠：专注于模型多样性与跨模型协同

堆叠实施细节

集成学习概述 — Bagging、Boosting、Stacking

聚类方法概述（K‑Means、层次聚类、DBSCAN）

度量	公式	含义
支持度		包含A和B的交易频率
置信度		给定A的条件下B的概率
提升率		超越机会的关联强度（>1 = 正相关）

领域	数据来源	获得的洞察
电子商务/银行	购买或交易日志	交叉销售与推荐
宏观经济学	国家宏观指标 (例如，通货膨胀↑ & 能源价格↑ → 政策收紧)	检测共同运动的模式
金融与风险	欺诈或损失事件日志	共发生触发因素分析
文本分析	关键词或主题共现	识别潜在问题关联

领域	异常示例	检测的价值
银行与支付	不寻常的交易模式或金额	防范欺诈，反洗钱系统
金融市场	异常回报或波动性飙升	市场压力的早期信号
宏观经济学	指标的突然偏离（例如，信用与增长）	危机的早期预警
公司金融	意外的会计数字	治理与审计检查

方法	机制	何时使用
统计阈值	识别远离均值的点（z‑得分，IQR 规则）	小数据集，可解释
基于距离的方法	计算最近邻→标记孤立点	中等数据集，清晰度量空间
基于密度的（DBSCAN / LOF）	低密度 = 异常	非线性结构
基于模型（一类SVM，孤立森林）	学习“正常”区域的边界	高维/复杂数据

指标	含义
精确率/召回率	错过和假检测之间的权衡
ROC/PR 曲线	如果部分标签存在，评估模型区分能力
经济验证	检查标记的异常是否与已知事件一致（例如，金融危机2008，COVID冲击）

方法家族	主要目标	经济含义
聚类	组群相似的观察	市场细分/结构制度识别
降维（PCA / t‑SNE）	压缩信息，提取潜在成分	因子提取/风险分解
关联规则	发现共生逻辑	行为关联/政策指标关系
异常检测	识别不规律的样本	欺诈筛查/危机早期信号

方面	无监督学习的附加价值
探索性能力	在设定假设之前揭示潜在结构
可扩展性	处理大型、多维数据集
适应性	即使在有限或没有标记的数据上工作
互补性	增强传统的计量经济模型（例如，因子分析、结构突变）

步骤	描述
1️	标准化
2️	计算特征向量 P 的协方差矩阵 Σₓ = X'X / n
3️	保留前 K 主成分 T = X Pₖ
4️	对 T 回归 Y
5️	获得拟合的 β = Pₖ βₜ

特征	PCR	PLS
使用信息提取成分	否	是
目标
预测能力	中等	较高
可解释性	高	中等
典型目标	数据总结	预测

方法	降维机制	可解释性	预测准确性
PCR	PCA在上		中等
PLS		中等	高
LASSO	惩罚（收缩与选择）	稀疏	高
Ridge	惩罚（仅收缩）	稳定	中等
Elastic Net	相结合	中等	高