<center> Week 2 机器学习与量化建模 </center>

任务类型	金融应用	输入(X)	输出(y)
回归	资产定价、收益率预测	因子/特征	连续价格
分类	违约预测、欺诈检测	财务指标	违约/非违约
聚类	客户分群、风格分类	交易行为	群标签
降维	因子提取、噪声过滤	高维特征	低维表示
异常检测	市场操纵识别	交易数据	异常分数

数据特征	适合的模型	不适合的模型
特征多(>100) + 样本少	Lasso/Ridge/XGBoost	深度神经网络
特征高度相关	Ridge/PCR/PLS	普通OLS
非线性关系	GAM/树模型/样条	线性模型
类别不平衡	XGBoost(scale_pos_weight)	朴素贝叶斯
需要概率输出	逻辑回归/XGBoost	SVM
需要可解释性	线性模型/GAM/SHAP	深度神经网络

方法	描述	金融示例
数学变换	log, sqrt, 平方	对数收益率、平方收益率
滞后特征	过去N期值	过去5日收益率
滚动统计	滚动均值/方差/偏度	20日滚动波动率
交叉特征	特征相乘/相除	市盈率×市值
分箱	连续值离散化	PE分位数分组
编码	类别特征数值化	行业One-Hot编码

方法	描述	优点	缺点	金融适用性
Filter(过滤法)	统计指标筛选(IC/互信息)	计算快	忽略特征交互	初步筛选
Wrapper(包装法)	递归特征消除(RFE)	考虑模型效果	计算慢	特征<50时
Embedded(嵌入法)	Lasso/Tree重要性	结合训练过程	可能过拟合	最常用

方法	降维方式	使用Y信息	适用场景
PCR	PCA → 回归		预测变量高度相关
PLS	最大化Cov(X,Y)		Y引导降维（预测导向）
Ridge	L2收缩	系数收缩	所有特征都有贡献
Lasso	L1稀疏化	特征选择	需要自动特征选择

数据特征	推荐方法	原因
特征少 (<10)，线性	OLS	简单、可解释
存在多重共线性	Ridge	收缩系数，稳定模型
高维，需要特征选择	Lasso	自动稀疏化
兼顾收缩+选择	Elastic Net	L1+L2组合
p > n (特征多于样本)	Lasso / Elastic Net / PLS	稀疏性或降维
非线性关系	样条回归 / GAM	灵活建模非线性
多因子共线+预测导向	PLS	监督降维
纯降维去噪	PCR	无监督降维
离群值多	稳健回归 (Huber)	减少异常值影响
需要完全可解释	OLS / GAM	每个变量贡献清晰

维度	LDA	逻辑回归
假设	正态+等协方差	无分布假设
效率	假设满足时更高效(~30%少样本)	假设不满足时更稳健
多分类	天然支持	需要扩展
可解释性	判别方向可视化	系数=对数几率

场景	推荐	原因
信用评分 (需概率)	判别式 (逻辑回归)	直接估计PD
数据增强 (样本少)	生成式 (LDA)	可生成合成样本
高维分类	判别式 (SVM/XGBoost)	对高维更稳健
缺失特征	生成式	可边际化缺失变量
监管合规 (需解释)	两者皆可 (逻辑回归/LDA)	都有清晰的决策规则

指标	公式	金融含义
Precision (精确率)	TP/(TP+FP)	预测为"买入"的股票中，真正涨了的比例
Recall (召回率)	TP/(TP+FN)	真正涨了的股票中，被模型选出的比例
Specificity	TN/(TN+FP)	没涨的股票中，被正确排除的比例
F1-Score	2PR/(P+R)	精确率和召回率的调和平均

应用场景	推荐方法	原因
违约预测（不平衡数据）	XGBoost/LightGBM + 阈值调整	处理非线性 + 类别权重
欺诈检测（极度不平衡）	XGBoost + SMOTE 或 Isolation Forest	异常检测+过采样
市场方向预测（涨/跌）	逻辑回归（基线）→ XGBoost	简单可解释 → 复杂提升
信用评分（需可解释性）	逻辑回归 + WOE分箱	监管要求可解释
文本情感分类	朴素贝叶斯（基线）/ FinBERT	轻量基线 → 深度模型
高维特征分类	SVM + RBF核 / XGBoost	处理复杂边界
客户分群后分类	随机森林	对噪声鲁棒
实时交易决策	LightGBM	推理速度快
监管合规要求高	逻辑回归 / 决策树（单棵）	完全可解释
预测精度优先	XGBoost/LightGBM/CatBoost	集成方法通常最优

场景	推荐
纯数值特征	XGBoost
大数据量	LightGBM
多类别特征	CatBoost
竞赛/精度优先	三者Ensemble

需求	说明	监管要求
模型审计	监管机构需要理解模型决策逻辑	Basel III, 银保监会
风控合规	风控拒绝贷款需要提供理由	《个人信用信息基础数据库管理暂行办法》
模型改进	理解错误来源才能改进	—
信任建立	交易员不会盲目信任黑箱	—
公平性	防止歧视性预测	反歧视法规

金融ML完整Pipeline代码走查

端到端量化因子建模流程：

# ============ Step 1: 数据加载与清洗 ============
import pandas as pd
import numpy as np
from sklearn.model_selection import TimeSeriesSplit

df = pd.read_parquet('factor_data.parquet')
# 处理缺失值：金融数据用前向填充+中位数回退
df = df.ffill().fillna(df.median())
# 去除停牌日（成交量=0）
df = df[df['volume'] > 0]

# ============ Step 2: 特征工程 ============
# 原始因子
factors = ['momentum_1m', 'momentum_6m', 'volatility_1m',
           'turnover_1m', 'size_log', 'bm_ratio', 
           'roe', 'leverage', 'beta_1y']
# 交叉特征
df['mom_vol_ratio'] = df['momentum_1m'] / df['volatility_1m']
df['quality_score'] = df['roe'] / df['leverage']
# 行业中性化 (关键!)
for f in factors:
    df[f'{f}_neutral'] = df.groupby('industry')[f].transform(
        lambda x: x - x.mean()
    )

# ============ Step 3: 标签构建 ============
# 未来5日经行业中性化后的收益
df['fwd_return'] = df.groupby('industry')['return'].transform(
    lambda x: x.shift(-5)
)
df['label'] = (df['fwd_return'] > df['fwd_return'].quantile(0.8)).astype(int)

# ============ Step 4: 时间序列分割 ============
tscv = TimeSeriesSplit(n_splits=5)
feature_cols = [c for c in df.columns if c.endswith('_neutral')]

核函数	公式	参数
线性核		无
多项式核
RBF核
Sigmoid核

指标	公式	优点	缺点	金融适用
MSE		可导/优化方便	对离群值敏感	OLS损失函数
MAE	$\frac{1}{n}\Sigma	y_i-\hat{y}_i	$	抗离群值
RMSE		与y同单位	同MSE	常用汇报
MAPE	$\frac{1}{n}\Sigma\frac{	y_i-\hat{y}_i	}{y_i}$	百分比直观
		解释方差比例	过度使用	基线参考
Adj		惩罚模型复杂度	—	模型选择
IC (信息系数)	RankCorr(预测, 实际)	关注排序	忽略幅度	因子评价首选
Rank IC	Spearman ρ(pred, actual)	稳健排序	—	量化核心指标

类型	示例	是否正确值	处理方法
真实极端值	1987崩盘日收益-20%	是	保留或Winsorize
数据错误	PE录入0.001而非10.0	否	删除或修正
结构性断点	会计准则变更	是	标记+分段处理
停牌恢复	复牌首日涨跌>100%	是	标记处理

方法	原理	优点	缺点	适用场景
网格搜索	枚举所有组合	简单、可并行	维度灾难	参数少(<3)
随机搜索	随机采样参数空间	高效、覆盖好	可能错过最优	参数适中
贝叶斯优化	用代理模型引导搜索	高效、智能	串行计算	参数多且评估慢
遗传算法	进化式搜索	全局优化	收敛慢	复杂空间
Optuna	树状采样+剪枝	高效、自动	需配置	通用推荐

框架	特点	金融适用性
AutoGluon (AWS)	多层级Ensemble，表格数据强	推荐
H2O AutoML	成熟稳定，可解释性好	推荐
TPOT	遗传编程搜索管线
AutoSklearn	基于sklearn，全面
FLAML (微软)	高效低成本，支持时间序列

Week 2 机器学习与量化建模

Machine Learning & Quantitative Modeling

本周内容概览

2.1 机器学习基础

ML Fundamentals

什么是机器学习？

监督学习流程

偏差-方差权衡 (Bias-Variance Tradeoff)

正则化 (Regularization)

交叉验证 (Cross-Validation)

评估指标

No Free Lunch定理

学习曲线 (Learning Curves)

拟合曲线可视化

时间序列交叉验证

No Free Lunch定理深入

2.1.1 特征工程

2.1.2 特征选择方法

2.1.3 分类阈值调整

2.2 回归模型

Regression Models

线性回归 (Linear Regression)

线性回归的局限性

正则化回归家族

多项式回归与样条

样条回归的数学基础

截断幂基表示

自然样条 (Natural Splines)

平滑样条 (Smoothing Splines)

GAM (广义可加模型)

降维回归：PCR与PLS

回归算法选择决策表

稳健回归 (Robust Regression)

2.3 分类模型

Classification Models

逻辑回归 (Logistic Regression)

SVM与核方法

朴素贝叶斯 (Naive Bayes)

LDA (线性判别分析)

QDA (二次判别分析)

多元逻辑回归 (Multinomial Logistic Regression)

生成式 vs 判别式分类器

分类器评估：超越准确率

分类算法选择决策表

2.4 树模型与集成学习

Tree Models & Ensemble

CART决策树

Bagging与随机森林

Boosting原理

XGBoost核心机制

LightGBM vs XGBoost

CatBoost特性

2.5 模型可解释性

SHAP & Interpretability

金融中的模型可解释性

SHAP原理

SHAP可视化解读

SHAP在信用评分中的应用

金融ML完整Pipeline代码走查

模型融合策略

回归模型评估指标

离群值检测与处理

完整案例：A股多因子选股模型

2.6 AutoML

Automated Machine Learning

AutoML在金融中的价值

超参数优化方法

常用AutoML框架

2.7 无监督学习

Unsupervised Learning

PCA主成分分析

K-means聚类

2.8 实践环节

信用评分+SHAP分析

实践：信用评分模型 (1.5h)

实践报告要求

本周总结

延伸阅读