文本分析与金融

模块	内容
一	问题导入：为什么文本？
二	BNBC核心：LDA主题模型
三	BNBC应用：VAR与市场择时
四	LLM论文：从BoW到预训练模型
五	复现路线与讨论

层次	问题	对应论文
描述	新闻能否定量反映经济状态？	BNBC: 主题注意度 vs 宏观数据
预测	新闻能否预测宏观走势和股票收益？	BNBC: VAR + 市场择时 / LLM: 截面收益
理解	改进的源头在哪？"更好的表示"还是"更好的方法"？	两篇论文的对比

参数	含义	维度
	文章对K个主题的注意力分配	K维概率向量
	每个主题的词概率分布	K × V 矩阵

方法	优势	局限	BNBC选择
情感词典	可解释	信息量低、词义歧义	✗
Bag-of-Words	实现简单	18K维、丢失词序	作为LDA输入
LDA	降维(18K→180)、无监督、可解释	计算成本高	✓ 核心选择
有监督ML	预测能力强	需标注、难解释	✗（后续LLM论文）

K值	问题	示例
K=50	混合多个独立主题	"航空+破产"合并为一个主题
K=180	主题纯净、可解释	"航空"和"破产"分离
K=250	过于细化，捕捉一次性事件	收益不显著增加

类型	特征	示例
周期性主题	持续活跃	Federal Reserve {greenspan, yellen, fomc}
季节性主题	周期性出现	Elections {obama, romney, campaign finance}
突发性主题	由事件触发	Terrorism {taliban, suicide bomber, osama}
情感修饰词	修饰其他主题	Concerns {raise concern, major concern}

主题	关键词	时序模式
Recession	unemployment, economic slowdown, bankruptcy	高持续性，2008年前后激增
Health Insurance	hmo, health plan, blue cross	Clinton医改 + Obamacare + 2016
Elections	obama, romney, campaign finance	每4年高峰，2年小峰
Earnings Forecasts	analyst poll, earn forecast	每季度激增
Terrorism	taliban, osama, suicide bomber	9/11后结构性跳跃
Natural Disasters	katrina, tsunami, hurricane	2005年Katrina激增

变量	Recession冲击	EPU冲击 (基准)
工业产出 (峰值)	-1.99% (17月后)	-0.98%
就业 (峰值)	-0.92% (20月后)	-0.34%

时间	检索到的标题	经济含义
2001年4月	"Consumer Confidence Slides on Fears of Layoffs"	消费者悲观预期→需求下降
1987年11月	"Survey Finds Sharp Drop in Confidence after Stock Market Crash"	噪声冲击→短暂的预期下降
2015年9月	"Stocks Fell Further Amid Concerns Prices Don't Fully Reflect Worsening Global Growth"	异质信念传播

策略	Sharpe比	年化收益	最大回撤
Buy-and-Hold	0.71	2.72%	-47.09%
LDA (全样本)	0.99	3.79%	-47.31%
oLDA (无前视)	1.04	4.01%	-25.89%
R-Word指数	0.65	2.50%	-46.98%
EPU	0.53	2.04%	-77.66%
Welch-Goyal 15因子	0.53	2.03%	-65.76%

LLM工作原理

预训练阶段（一次性投资）

输入: 数十亿个互联网文本 (Wikipedia, Common Crawl, Books)
任务: 预测被遮挡的词 (Masked Language Modeling)
      BERT: 随机遮挡15%的token，双向预测
      RoBERTa: 去掉NSP任务，更大batch，更多数据(160GB)
      OPT: 自回归下一个token预测
结果: 0.125B – 6.7B 参数的"语言理解引擎"

迁移学习（重复使用）

输入: 我们的金融新闻
方法: 冻结预训练权重，提取最后一层隐藏状态
      → 每篇文章的contextualized embedding (BERT: 1024维, OPT: 2560维)
      → 对所有token取平均 → 文章级表示
输出: 直接进入下游回归/分类

关键：不需要Fine-tuning

只作为特征提取器，不更新预训练参数
大大降低计算成本，便于复现

数据库	描述	规模
Refinitiv RTRS	路透实时新闻	美国3百万+文章
Refinitiv 3PTY	第三方存档	3百万+文章
News Alerts	仅标题的快速新闻	3百万+条
CRSP	美国股票数据	1996-2019
Datastream-EIKON	国际股票数据	16个市场

模型	EW L-S Sharpe	EW Long Sharpe	EW Short Sharpe
OPT (2.7B)	4.51	2.03	-0.35
RoBERTa	4.10	1.90	-0.14
BERT	3.65	1.82	0.00
Word2Vec	3.13	1.56	0.06
SESTM	3.61	1.69	-0.05
FinBERT	1.44	1.64	1.03

模型	EW 文章	EW 警报(TS1)	EW 警报(TS2)
OPT	4.51	5.70	5.88
RoBERTa	4.10	5.90	5.63
BERT	3.65	4.95	4.28
Word2Vec	3.13	5.04	4.63

参数量	EW Sharpe (文章)	EW Sharpe (警报)
125M	4.39	5.47
350M	4.39	5.25
1.3B	4.46	5.25
2.7B	4.51	5.25
6.7B	4.45	5.25

市场	语言	文章数	月均覆盖股票
美国	英文	3,038,025	2,593
英国	英文	571,285	454
日本	日文	310,244	645
中国(港)	中文	182,363	247
德国	德文	178,039	163
...	...	...	...

	BNBC (2024)	LLM论文 (2023)
表示	LDA主题 (180维)	BERT embedding (1024维)
监督	无监督	有监督（股票收益标签）
解释性	高	低
适用	宏观经济	个股收益
核心贡献	可解释的经济测量	高效的预测表示

文本分析与金融

课程导航

第一部分：问题导入

为什么要关注文本数据？

传统宏观指标的瓶颈

数据滞后问题

文本作为"经济体温计"

研究问题的三层递进

文本分析的技术谱系

第二部分：BNBC核心方法论

LDA主题模型

从文本到数字：数据预处理

WSJ语料库构建（附录IA.A详细步骤）

LDA的数学直觉

生成模型视角

关键参数

为什么选LDA而不是其他方法？

BNBC的选择逻辑

估计方法：Gibbs采样

直觉解释（附录IA.B）

估计结果

模型选择：为什么是180个主题？

Bayes因子 + 10折交叉验证

K值选择的经济学含义

180个主题：经济的多维面

主题层次结构

主题类型

主题注意度的时序特征

六个典型主题的月度注意度

关键发现

避免前视偏差：Online LDA

问题

oLDA解决方案 (Hoffman, Bach, Blei 2010)

oLDA的关键优势

第三部分：BNBC的应用

应用一：新闻增强的宏观VAR

标准VAR vs 文本增强VAR

冲击响应结果

Group-Lasso VAR选择：为什么只选Recession？

问题：180个主题不可能全进VAR

方法

结果

叙事检索：从数字到故事

创新点

四步流程

经典案例

应用二：市场择时策略

策略构造

实证结果 (Table VI)

第四部分：LLM论文

从BoW到预训练语言模型

LLM论文的核心问题

BNBC方法的局限

LLM论文的解决方案

LLM vs BoW：直觉理解

关键区别：上下文感知

否定词敏感性实验

BoW无法区分的两个句子

LLM如何处理

实证发现

LLM工作原理

预训练阶段（一次性投资）

迁移学习（重复使用）

关键：不需要Fine-tuning

实验数据与方法

数据

建模框架（刻意保持简单）

美国市场：情感排序投资组合

等权多空策略绩效 (Table 6)

关键发现

信息吸收速度：新闻序列分析

新闻警报 vs 文章

发现

模型规模：越大越好吗？

OPT模型规模与Sharpe比

启示

跨国验证

16个市场 × 13种语言

多语言BERT的迁移性

第五部分：从论文到复现