<center> Week 4 金融大数据分析 </center>

特性	批处理 (Hadoop/Spark)	流处理 (Flink/Storm)
延迟	分钟-小时级	毫秒-秒级
数据范围	全量历史数据	实时数据窗口
计算模式	分批次处理	持续计算
适用场景	日报/月报生成	实时风控/交易
金融案例	收盘后风险报告	实时市场监控

数据集市	数据源	用途
交易数据集市	交易系统	交易分析、算法评估
风控数据集市	风控系统	VaR计算、压力测试
客户数据集市	CRM系统	客户画像、产品推荐
市场数据集市	行情源	因子计算、定价

特性	传统数据库	时序数据库(InfluxDB/ClickHouse)
写入性能	行式存储，写入慢	列式存储，写入快100x
压缩比	3-5x	10-20x
时间查询	全表扫描慢	按时间分区，毫秒级
聚合查询	GROUP BY开销大	预聚合+物化视图
窗口函数	支持有限	原生支持滑动窗口

实体类型	标签	示例
公司/机构	ORG	贵州茅台、中国平安、上交所
人名	PER	马明哲、易会满
金融产品	PROD	雪球产品、中证500ETF
金额	MONEY	1500亿元、100万美元
百分比	PERCENT	20%、5.5%
时间	TIME	2024年Q4、3月15日
金融指标	METRIC	ROE、PE、资产负债率

方法	准确率	召回率	F1	速度	可部署性
词典(LM词典)	65%	58%	0.61	极快	易
词袋+逻辑回归	72%	68%	0.70	快	易
FinBERT微调	85%	82%	0.83	中等	中
GPT-4零样本	88%	86%	0.87	慢	依赖API
本地LLM零样本	82%	79%	0.80	慢	中等

类别	词数	示例
正面(Positive)	354个	profit, growth, record, strategic
负面(Negative)	2,355个	loss, default, impairment, penalty
不确定(Uncertainty)	297个	approximate, contingent, depend
诉讼(Litigious)	903个	claimant, deposition, injunction
强语气(Strong Modal)	19个	always, never, undoubtedly
弱语气(Weak Modal)	27个	almost, barely, could

方法	描述	金融应用
早期融合	特征层拼接	财报+CEO语气情感
中期融合	模态间交叉注意	新闻图片+文本影响分析
晚期融合	独立预测后投票	多源信号综合交易
动态融合	学习模态权重	不同市态下调整模态重要性

模态	预测精度	单独使用
文本	70-75%	需大量标注
语音	65-70%	依赖音频质量
文本+语音	80-85%	互补效果显著
文本+语音+图像	82-88%	收益递减

问题	表现	处理方式
缺失值	停牌导致价格缺失	前向填充/插值
异常值	数据录入错误	Winsorize/IQR截断
幸存者偏差	只保留现存股票	退市股票必须包含
前视偏差	使用了未来信息	严格按时间序列处理
数据不一致	不同源数据冲突	权威源优先/交叉验证
财报调整	会计准则变化	可比性调整

方法	代表工具	原理
基于词典	jieba	前缀词典+DP
基于统计	HanLP	CRF/HMM
基于深度学习	LAC, BERT	BiLSTM+CRF
大模型	ChatGPT/Claude	语义理解

工具	原理	金融专业词	使用建议
jieba	词典+Trie树+HMM	需自定义词典	通用首选
pkuseg	CRF+深度学习	较好	学术场景
HanLP	BiLSTM+CRF	金融预训练	金融推荐
LAC (百度)	BiGRU+CRF	通用	快速场景

方法	原理	示例	金融影响
Stemming	规则砍后缀	"investing"→"invest"	可能丢失信息
Lemmatization	词典+词性→原形	"worse"→"bad"	保持语义
金融专用	映射到统一实体	"AAPL"/"Apple Inc"/"苹果"→AAPL	必需

实体类型	示例	难度
公司名	"阿里巴巴""Alibaba""BABA" → 同一实体	高（多名称映射）
人名	"马云""Jack Ma" → 同一实体	中
金额	"10亿元""$1.5B""一千五百万元"	中（单位转换）
日期	"2024Q1""24年一季度""FY2024"	低
百分比	"同比增长15%""+15% YoY"	低
金融产品	"雪球""沪深300ETF""IO2406-C-5800"	高

数据类型	实证发现	信号衰减
卫星图像	停车场数据预测零售销售 (R²≈0.7)	6-12个月
信用卡消费	实时消费追踪 vs 官方统计 (领先2-3周)	3-6个月
社交媒体	Reddit情绪预测短期反转	1-3个月
招聘数据	岗位增长→未来营收增长	12-24个月

任务	传统方法	LLM方法
分词/词性标注	jieba + HMM	LLM可选任何方式
命名实体识别	BiLSTM-CRF	"请提取公司名、人名、金额"
关系抽取	管道式(pipeline)	"找出公司A和公司B的关系"
情感分类	训练集微调	"请判断该新闻的情感倾向"
文本摘要	T5/BART微调	"请用3句话总结这篇财报"

文档	内容
d1	"美联储加息银行股上涨"
d2	"银行股下跌美联储降息"
d3	"科技股上涨美联储加息"

词	TF(d1)	TF(d2)	TF(d3)
美联储	1/3 ≈ 0.33	1/3 ≈ 0.33	1/3 ≈ 0.33
加息	1/3 ≈ 0.33	0	1/3 ≈ 0.33
银行股	1/3 ≈ 0.33	1/3 ≈ 0.33	0
上涨	1/3 ≈ 0.33	0	1/3 ≈ 0.33
下跌	0	1/3 ≈ 0.33	0
降息	0	1/3 ≈ 0.33	0
科技股	0	0	1/3 ≈ 0.33

词	DF(文档频率)	IDF
美联储	3	log(3/3) = 0
加息	2	log(3/2) ≈ 0.18
银行股	2	log(3/2) ≈ 0.18
上涨	2	log(3/2) ≈ 0.18
下跌	1	log(3/1) ≈ 0.48
降息	1	log(3/1) ≈ 0.48
科技股	1	log(3/1) ≈ 0.48

步骤	操作	说明
1	1-gram + 2-gram	同时提取单词和双词组合
2	停用词过滤	移除高频无信息词（约500个）
3	词形还原	将词还原为标准形式（running→run）
4	低频词去除	出现次数 < 5 的词移除
5	按月聚合	将每篇文章的词频按月汇总

主题编号	Top-5关键词	主题标签
Topic 23	recession, unemployment, jobless, layoff, downturn	"经济衰退"
Topic 45	profit, revenue, earnings, quarterly, growth	"企业盈利"
Topic 67	fed, rate, interest, monetary, inflation	"货币政策"
Topic 89	oil, energy, crude, opec, production	"能源市场"
Topic 112	china, trade, tariff, import, export	"中美贸易"

类别	具体类型	数据来源	分析技术	金融应用
图表图像	K线图、成交量图、技术指标图	行情软件截图	CNN+模式识别	技术形态自动识别
文档图像	财报PDF、合同扫描件、发票	公司公告/交易所	OCR+NLP	财务数据自动提取
交易界面	订单簿截图、交易终端	交易系统	模板匹配+CV	交易行为分析
卫星图像	停车场、农田、港口、油罐	商业卫星公司	CNN+语义分割	另类数据alpha
消费图像	门店排队、商品货架	众包数据采集	目标检测(YOLO)	消费趋势预测

数据源	可观测指标	预测目标	准确性
停车场卫星图	车辆数变化	零售门店营收	80-90%
农田多光谱图	植被指数(NDVI)	农产品期货价格	70-85%
港口卫星图	集装箱/船舶数	贸易量/航运价格	75-90%
油罐阴影测量	原油储量变化	原油期货	80-85%
工地进度	建筑阶段	地产公司收入确认	70-80%

窗口	预测	CNN2D层数	CNN1D层数	图像尺寸
I5 (5天)	R5 (周)	2层	1层	15×32
I20 (20天)	R20 (月)	3层	2层	60×64
I60 (60天)	R60 (季)	4层	3层	180×96

实验	训练数据	测试数据	方法
美国基准	US 1993-2000	US 2001-2019	直接训练
国际直接迁移	US 1993-2000	25国 2001-2019	冻结所有层
国际微调	US预训练	25国	冻结底层，训练FC层
时间尺度迁移	I5/R5	I20/R20, I60/R60	冻结底层，训练FC层

核心步骤（简化版，约1.5小时）：

# ========== Step 1: 加载数据 ==========
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
from PIL import Image

# 使用预计算的投资组合收益数据（CACHE_DIR中）
# 或从CRSP数据生成图像（需要原始数据）
portfolio_returns = pd.read_csv(
    "CACHE_DIR/cnn1d_and_linear_model_portfolio_returns/cnn2d_i20_r5_ew.csv"
)

# ========== Step 2: 图像生成（简化版） ==========
def generate_chart_image(ohlc_data, window=20, img_width=64, img_height=60):
    """将OHLC数据渲染为灰度图像"""
    img = Image.new('L', (img_width, img_height), color=255)
    pixels = img.load()

    bar_width = img_width // window
    for i in range(min(window, len(ohlc_data))):
        o, h, l, c = ohlc_data[i]
        x = i * bar_width
        # 归一化价格到图像高度
        for y in range(img_height):
            price_level = (y / img_height) * (h - l) + l
            if l <= price_level <= h:
                for dx in range(bar_width):
                    if x + dx < img_width:
                        pixels[x + dx, y] = 0  # 黑色

    return np.array(img)

# ========== Step 3: CNN模型（简化版） ==========
class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=(5,3), padding=(2,1))
        self.bn1 = nn.BatchNorm2d(32)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=(5,3), padding=(2,1))
        self.bn2 = nn.BatchNorm2d(64)
        self.pool = nn.MaxPool2d((2,1))
        self.dropout = nn.Dropout(0.5)
        self.fc = nn.Linear(64 * 15 * 16, 2)  # 2类: 上涨/下跌

    def forward(self, x):
        x = self.pool(torch.relu(self.bn1(self.conv1(x))))
        x = self.pool(torch.relu(self.bn2(self.conv2(x))))
        x = x.view(x.size(0), -1)
        x = self.dropout(x)
        return self.fc(x)

# ========== Step 4: 投资组合分析 ==========
# 使用论文预计算的结果
ew_returns = pd.read_csv("CACHE_DIR/.../cnn2d_i20_r5_ew.csv")
vw_returns = pd.read_csv("CACHE_DIR/.../cnn2d_i20_r5_vw.csv")

# 计算十分位收益
decile_returns = ew_returns.mean(axis=0)
sharpe = decile_returns.mean() / decile_returns.std() * np.sqrt(252)
print(f"H-L组合年化Sharpe: {sharpe:.2f}")

# 可视化累计收益
cumulative = (1 + ew_returns['decile_10'] - ew_returns['decile_0']).cumprod()
cumulative.plot(title='CNN多空组合累计收益')

维度	定义	检验方法	金融影响
准确性	值与真实一致	交叉验证多数据源	错误数据→错误信号
完整性	无缺失必要字段	缺失率统计	缺失非随机→偏差
及时性	数据可获取的时间	Point-in-Time标记	前视偏差风险
一致性	跨源数据可对齐	MD5/数据指纹	不同源矛盾→无法决策

维度	LDA	BERTopic
文档表示	词袋 (Bag-of-Words)	预训练Transformer嵌入
语义理解	忽略词序和上下文	深层语义
主题数量	需预指定	自动确定
主题质量	混合词可能不连贯	语义连贯性高
速度
适用场景	长文档、大规模	短文本、语义重要
金融适配	研报分类(词分布明确)	新闻/推文(语义依赖)

特性	标准LDA	Online LDA
训练数据	全量语料	逐月累积
前视偏差	存在	无
适用场景	描述性分析	预测性分析
计算效率	低（全量重训）	高（增量更新）
主题稳定性	高	逐渐收敛

宏观变量	最强预测主题	新闻解释方差
产出(GDP)	衰退关注(Recession)	25%
就业	劳动力市场	18%
股市回报	综合新闻情绪	25%
IPO数量	新股发行/科技	32%
LBO数量	杠杆收购/私募	58%

资源	类型	说明
TuShare / AkShare	行情/财务数据	A股全量数据 (免费)
yfinance	全球行情	美股/港股/外汇 (免费)
Wind / Choice	综合金融终端	机构级数据 (付费)
CSMAR / CNRDS	学术数据库	高校常用 (高校采购)
巨潮资讯 (cninfo)	公告/财报	上市公司公告原文
Kaggle金融数据集	竞赛/分析	各类金融NLP/预测任务
SEC EDGAR	SEC文件	美股财报全文
新浪财经/东方财富	实时行情	网页抓取 (注意合规)
Quandl / Nasdaq Data	另类数据	宏观经济、替代数据
JHU COVID-19 Data	宏观经济	疫情对经济影响研究

Week 4 金融大数据分析

Big Data Analytics in Finance

本周内容概览

4.1.1 大数据技术生态详解

4.1.2 金融数据仓库设计

4.1.3 实时数据处理

4.1.4 时间序列数据库

4.2.1 命名实体识别(NER)在金融中的应用

4.2.2 关系抽取与知识图谱

4.3.1 情感分析方法对比实验

4.3.2 Loughran-McDonald词典详解

4.3.3 情感因子构建与回测

4.3.4 情感分析在中国市场的特殊挑战

4.4.1 动态主题演化分析

4.4.2 BERTopic实战详解

4.5.1 多模态金融分析

4.5.2 语音情感分析

4.5.3 OCR在金融文档处理中的应用

4.5.4 另类数据：网络爬虫与API

4.5.5 数据质量与清洗

4.6.1 数据可视化最佳实践

4.6.2 LLM增强数据标注

4.1 大数据分析框架

Big Data Architecture

金融大数据分析整体框架

金融数据特征

4.2 文本分析管线

Text Analytics Pipeline

中文分词

文本向量化

中文分词技术对比

词干提取 vs 词形还原：英文金融文本

LDA主题模型直观解释

NER与关系抽取在金融中的特殊需求

LDA主题模型直观解释

另类数据实证与合规

金融文本分析端到端实战

LLM增强的NLP管线

TF-IDF手工计算示例

Word2Vec实战

论文案例：WSJ文本的文档-词矩阵构建

论文案例：LDA主题模型训练与主题解读

4.3 情感分析

Sentiment Analysis

金融情感分析的意义

基于词典的情感分析

LLM情感分析

案例：财报电话会议情感分析

4.4 主题建模

Topic Modeling

LDA (Latent Dirichlet Allocation)

BERTopic

金融主题发现案例

4.5 图像分析

Image Analytics

金融图像数据分类体系

迁移学习：用预训练CNN进行金融图像分类

另类数据：卫星图像的金融价值

论文案例：CNN价格趋势识别

CNN2D与CNN1D架构详解

CNN投资组合分析与迁移学习

4.6 实践环节

情感分析+主题建模

实践项目A：基于新闻文本的经济周期度量

实践项目B：基于CNN的股票价格趋势预测

实践报告要求

大数据金融分析实战要点

BERTopic vs LDA 深度对比

论文案例：Online LDA避免前视偏差

论文案例：主题注意力与经济活动匹配

论文案例：叙事检索——从冲击到新闻标题

本周总结

延伸阅读