金融大数据

文本与图像分析

在大数据时代,能从噪音中提取信号的分析师——无论是从文字还是像素中——都将获胜。


该版为机翻版本,未经人工校对,建议配合原版使用。

Big Data in Finance · Text and Image Analytics

大纲

Big Data in Finance · Text and Image Analytics

第1部分 · 引言:大数据与金融概述

  • 大数据概念与金融数据格局
  • 替代数据类型:聚焦文本与图像
  • 机遇、风险与治理
Big Data in Finance · Text and Image Analytics

大数据:5V框架

大数据的五个维度:

  • 容量(Volume) — 从TB到PB级数据
  • 速度(Velocity) — 实时流处理与更新
  • 多样性(Variety) — 结构化、非结构化、半结构化
  • 准确性(Veracity) — 数据质量与可靠性
  • 价值(Value) — 可行动的决策洞察
pie title Financial Data Mix
    "Structured" : 20
    "Text" : 45
    "Images" : 25
    "Other" : 10
Big Data in Finance · Text and Image Analytics

结构化数据与非结构化数据

类型 示例 挑战
结构化 价格、交易量、财务数据 信息范围有限
非结构化文本 新闻、文件、社交媒体 歧义性、上下文依赖性
非结构化图像 卫星图像、文档、图表 高维度、噪音

关键洞察: ~80%的金融数据是非结构化的。
来源:IDC、Gartner和Merrill Lynch的共识估计

Big Data in Finance · Text and Image Analytics
Big Data in Finance · Text and Image Analytics

金融大数据分析总体框架

  • 完整数据分析工作流程

    graph LR A[问题定义] --> B[数据获取] B --> C[数据预处理] C --> D[特征工程] D --> E[模型构建] E --> F[结果评估] F --> G[决策支持] F -.-> A
  • 金融领域典型应用场景

    应用场景 数据类型 常用方法
    风险管理 市场数据、文本、图像 预测性建模、异常检测
    投资决策 财务报告、新闻、社交媒体 情感分析、主题建模
    欺诈检测 交易记录、行为数据 图神经网络、时间序列分析
    市场预测 价格数据、宏观指标、文本 深度学习、强化学习

Big Data in Finance · Text and Image Analytics

替代数据类型

文本数据来源:

  • 金融新闻与通讯社
  • SEC文件(10-K、10-Q、8-K)
  • 财报电话会议记录
  • 社交媒体(Twitter、Reddit)
  • 央行通讯

图像数据来源:

  • 卫星和航拍图像
  • 扫描的金融文档
  • 交易界面截图
  • 街景和消费场景
  • 图表和统计图像
Big Data in Finance · Text and Image Analytics

为什么文本和图像包含超额收益信息

替代数据的信息优势:

  • 前瞻性信号 — 情感先于价格变动
  • 未定价信息 — 尚未纳入市场共识
  • 行为洞察 — 揭示投资者心理
  • 实时更新 — 比官方发布更快

示例: 对冲基金结合新闻情感+卫星数据进行宏观现势跟踪(来源:Katona等,2022)

Big Data in Finance · Text and Image Analytics

机遇、风险与治理

机遇:

  • 增强收益预测
  • 改进风险管理
  • 自动合规监控
  • 实时市场监测

风险与挑战:

  • 模型风险 — 过拟合、非平稳性
  • 数据风险 — 偏见、泄露、质量问题
  • 监管 — 隐私、可解释性
  • 伦理 — 公平性、透明度
Big Data in Finance · Text and Image Analytics

金融AI的监管格局

主要监管考量:

  • 欧盟AI法案 — 基于风险的AI系统分类
  • SEC指导 — 交易策略中AI的披露要求
  • ESMA — 算法交易要求
  • 模型风险管理 — SR 11-7指南

最佳实践:

  • 记录模型开发和验证过程
  • 确保关键决策中的人工监督
  • 监控模型漂移和性能退化
Big Data in Finance · Text and Image Analytics

第2部分 · 金融中的文本分析

  • 金融文本数据格局与NLP流程
  • 词袋模型、TF-IDF和文本回归
  • 词嵌入、主题模型及其他技术
  • 金融应用:资产定价、风险和政策分析
Big Data in Finance · Text and Image Analytics

金融文本数据:类型、来源和分析价值

金融文本数据的主要类别:

  • 公司披露和报告: 年度和季度报告、盈利预测
  • 监管文件: SEC文件、政策、法规
  • 专业新闻和分析: 彭博社、路透社、金融媒体
  • 社交媒体内容: Twitter、雪球、Reddit等
  • 央行通讯: 货币政策报告、FOMC会议记录

金融文本数据的分析价值:

  • 提取市场情绪和投资者预期
  • 识别潜在风险和机会
  • 量化定性信息用于投资决策
  • 预测股价走势和市场趋势

关键数据来源和应用:

来源 更新频率 主要用例
新闻通讯社 实时 情感分析、事件检测
SEC文件 季度/年度 风险因素提取、MD&A分析
财报电话会议 季度 语气分析、管理层指引
社交媒体 持续 零售投资者情绪、谣言追踪
央行通讯 定期 政策预期分析
Big Data in Finance · Text and Image Analytics

NLP 1.0:三步路线图

金融文本的经典NLP流程:

原始文本 → 数值表示 → 信息检索 → 分析
  1. 数值表示 — 将文档转换为向量
  2. 信息检索 — 降维、选择
  3. 因果/预测分析 — 回归、分类

此流程构成了大多数计量经济学文本分析的基础(来源:Gaillac & L'Hour, 2024

graph TD A[金融文本分析] --> B[基础处理方法] A --> C[表示学习方法] A --> D[高级分析方法] B --> B1[分词与词性标注] B --> B2[停用词过滤] B --> B3[词形还原] B --> B4[实体识别] C --> C1[词袋模型/TF-IDF] C --> C2[词嵌入] C --> C3[预训练语言模型] C2 --> C2A[Word2Vec] C2 --> C2B[GloVe] C3 --> C3A[BERT] C3 --> C3B[FinBERT] C3 --> C3C[大语言模型] D --> D1[情感分析] D --> D2[主题模型] D --> D3[事件抽取] D --> D4[因果关系分析]
Big Data in Finance · Text and Image Analytics

文本预处理技术和流程

1. 文本清洗(标准化)

  • 移除HTML标签、特殊字符、数字
  • 标准化大小写、检测URL
  • 拼写校正和标准化

2. 分词

  • 英文: 按空格和标点分割
  • 中文: 词典/统计分词(如jieba、THULAC)
  • 处理特定领域术语("CPI"、"量化宽松")

3. 停用词移除

  • 通用停用词("the"、"is"、"and")
  • 特定领域金融停用词("公司"、"股份")

4. 词干提取和词形还原

  • 词干提取:
    • "running" → "run","jumped" → "jump"
    • 算法:Porter、Snowball
  • 词形还原:
    • "better" → "good","mice" → "mouse","is/are/was" → "be"
    • 基于词典的还原

流程总结

步骤 描述 示例
标准化 大小写和格式标准化 "Apple" → "apple"
分词 将文本分割为标记 "股票价格" → ["股票","价格"]
停用词移除 过滤无信息词 移除"的"、"是"、"和"
词干提取
/词形还原
还原为基本形式 "running" → "run"

常用工具: NLTK、spaCy、scikit-learn

Big Data in Finance · Text and Image Analytics

文档-词项矩阵(DTM)

词袋表示法:

  • 假设词序不重要
  • 每个文档 = 词频向量
  • 矩阵维度:(文档 × 词汇表)

DTM示例:

风险 增长 利润 亏损
文档1 3 1 0 2
文档2 0 4 2 0
文档3 5 0 1 3

挑战: 极度稀疏且高维

Big Data in Finance · Text and Image Analytics

TF-IDF加权

词频-逆文档频率:

其中:

  • = 词项在文档中的频率
  • = 文档总数
  • = 包含词项的文档数

效果: 提升罕见、有区分度的词的权重;降低常见词的权重

Big Data in Finance · Text and Image Analytics

余弦相似度

测量文档相似性:

特性:

  • 范围:
  • 对齐向量 → 分数 = 1
  • 正交向量 → 分数 = 0
  • 相反向量 → 分数 = −1

为何在NLP中首选? 关注方向(主题),而非大小(长度)

Big Data in Finance · Text and Image Analytics

金融情感词典

金融领域专用词典:

词典 描述 示例词
Loughran-McDonald 金融专用情感词典 "liability"(负债)、"litigation"(诉讼)(−)
Harvard GI 通用情感 "good"(好)(+)、"bad"(坏)(−)
VADER 优化用于社交媒体 处理表情符号、俚语

关键洞察: 通用词典错误分类金融术语

Big Data in Finance · Text and Image Analytics

Loughran & McDonald (2011)

Big Data in Finance · Text and Image Analytics

参考文献:When Is a Liability Not a Liability Textual Analysis, Dictionaries, and 10-Ks

Big Data in Finance · Text and Image Analytics

文本回归框架

使用文本特征进行预测:

其中:

  • = 结果变量(收益率、风险、违约)
  • = 公司/时期的文档-词项向量
  • 高维度:个解释变量

维度问题的解决方案:

  • 惩罚回归(LASSO、岭回归、弹性网络)
  • 随机森林用于变量选择
  • 使用词典进行情感聚合
Big Data in Finance · Text and Image Analytics

高维文本/因子回归:通用流程

  • 个文档和个词汇的语料库开始;预处理(标准化、分词、停用词移除、词干提取/词形还原),使每个文档变成序列
  • 构建高维表示:
    • 文档-词项矩阵,包含词频或TF-IDF
    • 或从SVD、主题模型或嵌入得到的低维因子
  • 可选压缩:选择列(词典、情感指数)或将词嵌入平均为文档级向量
  • 将文本特征与结构化协变量堆叠形成
  • 估计预测或因果模型,如:
    • 使用高维机器学习(惩罚回归、决策树、神经网络)拟合,在样本外评估,然后解释系数或因子。
Big Data in Finance · Text and Image Analytics

高维稀疏建模和交叉拟合

  • 在文本/因子回归中,特征维度(词、n-gram、主题、嵌入)通常超过样本量;文档-词项矩阵是高维且稀疏的
  • OLS不适用,因此使用稀疏建模
    • Lasso/弹性网络选择少量信息丰富的特征
    • 惩罚似然(如惩罚logit)用于分类
    • 正则化控制当时的方差和过拟合问题
  • 降维作为结构化稀疏性:
    • 低秩因子模型(SVD)或主题模型(LDA)将分解为少量潜在因子
  • 对于因果参数,将机器学习与交叉拟合结合:
    • 将数据分成折;在其他折上估计干扰成分(基于文本的控制变量、倾向性、结果模型)
    • 将预测插入保留折上的正交/去偏估计方程
    • 在各折间聚合,在大数据环境中提供有效推断。
Big Data in Finance · Text and Image Analytics

大型高维数据的预测与因果关系

  • 该流程天然是预测性的:将文本转化为特征并使用灵活的机器学习估计,通过样本外损失(MSE、AUC等)评估性能
  • 因果问题则针对结构性效应(政策、处理、潜在概念)。文本可以作为:
    • 控制混淆的高维变量
    • 潜在变量的代理(语气、意识形态、不确定性)
  • 高维机器学习有助于近似干扰函数,但不能创造识别性;假设仍来自设计(无混淆性、工具变量、自然实验)
  • 混淆预测和因果关系的风险:
    • 高预测力的文本特征可能捕捉选择或预期,而非因果渠道
    • 过拟合可能产生虚假的"重要词汇"
  • 原则性工作流程区分:
    • 用于预测/调整的机器学习(控制变量、倾向性)
    • 用于因果参数的计量经济学方法,采用正交矩和交叉拟合以减少偏差。
Big Data in Finance · Text and Image Analytics

案例:新闻情感与股票收益

研究发现:

来自新闻和社交媒体的实时情感指数可以预测:

  • 日内波动性
  • 短期收益反转
  • 盈利公告后漂移

在市场压力期间效应最强。

交易应用:

基于情感的策略在盈利公告前后表现优异。

Big Data in Finance · Text and Image Analytics

独热编码的局限性

稀疏词向量的问题:

  1. 存储效率低 — 每个文档维度为
  2. 无语义相似性 — 所有不同词的距离相等

  1. 维度灾难 — 联合概率估计失败

解决方案: 学习密集、低维的词嵌入

Big Data in Finance · Text and Image Analytics

词嵌入:分布式假设

核心思想:

"通过一个词的伙伴可以了解这个词" — J.R. Firth

词嵌入:

  • 低维空间中的密集向量(
  • 相似词 → 相似向量
  • 数学关系 ≈ 语言意义

著名示例:

Big Data in Finance · Text and Image Analytics

Word2Vec:Skip-gram模型

从目标词预测上下文:

训练目标: 最大化观察到的上下文词的概率

上下文:"The [___] reported quarterly earnings"
目标词:"company"

计算技巧: 负采样避免全词汇表求和

Big Data in Finance · Text and Image Analytics

Word2Vec:CBOW模型

从上下文预测目标(Skip-gram的反向):

其中 = 上下文词向量的平均值

对比:

模型 方法 最适合
Skip-gram 目标→上下文 罕见词、小数据集
CBOW 上下文→目标 常见词、快速训练
Big Data in Finance · Text and Image Analytics

Word2Vec Example

import numpy as np
from gensim.models import Word2Vec
import matplotlib.pyplot as plt

# 准备训练语料
sentences = [
    ['机器学习', '是', '人工智能', '的', '重要', '分支'], ['深度学习', '是', '机器学习', '的', '高级', '方法'],
    ['神经网络', '是', '深度学习', '的', '基础', '架构'], ['人工智能', '正在', '快速', '发展'],
    ['数据科学', '依赖', '机器学习', '技术']
]

# 训练Word2Vec模型
model = Word2Vec(
    sentences, 
    vector_size=5,    # 降低维度
    window=3,         # 上下文窗口大小
    min_count=1,      # 最小词频
    epochs=100        # 训练轮数
)

# 查看词向量
print("'机器学习'的词向量:")
print(model.wv['机器学习'])

# 词语相似度
print("\n与'机器学习'最相似的词:")
similar_words = model.wv.most_similar('机器学习', topn=5)
for word, score in similar_words:
    print(f"{word}: {score}")

# 获取所有词语和对应向量
words = list(model.wv.key_to_index.keys())
vectors = [model.wv[word] for word in words]

# 简单的2D散点图
plt.figure(figsize=(10, 8))
# 只使用前两个维度
x = [v[0] for v in vectors]
y = [v[1] for v in vectors]
plt.scatter(x, y)

# 标注词语
for i, word in enumerate(words):
    plt.annotate(word, (x[i], y[i]))

plt.title('词向量简单可视化')
plt.xlabel('第一维')
plt.ylabel('第二维')
plt.show()

# 词向量运算
try:
    result = model.wv.most_similar(
        positive=['人工智能', '技术'], 
        negative=['机器学习']
    )
    print("\n语义推理:")
    for word, score in result:
        print(f"{word}: {score}")
except Exception as e:
    print("语义推理可能需要更大的语料库")
'机器学习'的词向量:
[-0.01202206  0.00593786  0.10435627  0.17965294 -0.18674973]

与'机器学习'最相似的词:
数据科学: 0.9527133703231812
的: 0.4597879648208618
发展: 0.33608755469322205
是: 0.21078188717365265
人工智能: 0.11742815375328064
Big Data in Finance · Text and Image Analytics

Mikolov et al. (2013)

Big Data in Finance · Text and Image Analytics

参考文献:Efficient Estimation of Word Representations in Vector Space

Big Data in Finance · Text and Image Analytics

主题模型:潜在狄利克雷分配

发现文档集合中的潜在主题:

  • 每个文档 = 主题的混合
  • 每个主题 = 词的分布
  • 无监督学习 — 不需要标注数据

生成过程:

  1. 对每个文档,抽取主题比例
  2. 对每个词位置,采样主题
  3. 从主题-词分布中采样词

估计方法: 吉布斯采样或变分EM算法

Big Data in Finance · Text and Image Analytics

金融文本的主题建模技术

混合主题模型

  • 相关主题模型(CTM)
    • 特点:捕捉主题间的相关性
    • 金融应用:分析风险因素之间的相互关系
  • 结构化主题模型(STM)
    • 特点:整合元数据效应(如时间、来源)
    • 金融应用:研究不同市场阶段的主题变化
  • 神经主题模型
    • 将神经网络与传统主题建模相结合
    • 例如:Neural-LDA、ProdLDA

金融应用

  • 识别和追踪中央银行政策主题
  • 分析企业年度报告中的风险因素
  • ESG主题演变分析
  • 公众情绪监测和投资者情绪量化
  • 从分析师报告中提取和量化主题

BERTopic代码示例

from bertopic import BERTopic  
import pandas as pd  
# 加载金融新闻数据  
df = pd.read_csv("financial_news.csv")  
docs = df['content'].tolist()  
# 创建并训练BERTopic模型  
topic_model = BERTopic(embedding_model="all-MiniLM-L6-v2")  
topics, probs = topic_model.fit_transform(docs)  
# 检索主题表示  
topic_info = topic_model.get_topic_info()  
print(topic_model.get_topic(0))  # 查看主题0的关键词  
Big Data in Finance · Text and Image Analytics

参考文献:商业新闻与商业周期

Big Data in Finance · Text and Image Analytics

案例:FOMC透明度研究

研究问题: 透明度是否改变了美联储的审议过程?

方法:

  • 对46,169份FOMC文件进行LDA主题建模
  • 自然实验:1993年录音公开事件

发现:

  • 透明度提高后,委员会成员表现出从众行为
  • 相对于主席观点的不同意见减少

启示: 透明度可能降低审议质量

来源:Hansen, McMahon & Prat, 2017

Big Data in Finance · Text and Image Analytics

Hansen, McMahon & Prat (2017)

Big Data in Finance · Text and Image Analytics

参考文献:FOMC内部的透明度与审议 - 计算语言学方法

Big Data in Finance · Text and Image Analytics

嵌入在金融中的应用

使用词嵌入的金融研究:

研究 方法 发现
Hoberg & Phillips (2016) 10-K余弦相似度 数据驱动的行业定义
Kozlowski等 (2019) 文化嵌入 文本中的性别/阶级关联
Ash等 (2025) 法官嵌入 司法性别歧视测量

关键洞察: 嵌入能捕捉文本中未明确表达的潜在概念

Big Data in Finance · Text and Image Analytics

金融文本应用概览

资产定价:

  • 新闻情感→收益预测
  • 财报电话会议语气→盈利公告后漂移
  • 分析师报告语言→推荐

风险管理:

  • 10-K风险因素→波动性预测
  • 贷款申请→信用评分
  • 社交媒体→欺诈检测
Big Data in Finance · Text and Image Analytics

Kozlowski等 (2019)

Big Data in Finance · Text and Image Analytics

参考文献:文化的几何 - 通过词嵌入分析阶级的含义

Big Data in Finance · Text and Image Analytics

Ash等 (2025)

Big Data in Finance · Text and Image Analytics

参考文献:观念产生后果 - 法律与经济学对美国司法的影响

Big Data in Finance · Text and Image Analytics

案例:财报电话会议与公司不确定性

从会议记录构建不确定性指数:

  1. 提取财报电话会议的MD&A部分
  2. 识别不确定性语言(模糊表达、情态动词)
  3. 构建公司层面的不确定性指数
  4. 验证与实际波动性的关系

结果:

  • 文本不确定性预测未来股票波动性
  • 增量于标准风险指标
  • 对期权定价和风险管理有用
Big Data in Finance · Text and Image Analytics

FinBERT:领域特定语言模型

在金融文本上微调的BERT:

  • 训练语料库:新闻、SEC文件、分析师报告
  • 比通用BERT准确率提高5-10%

变体:

模型 专业化
FinBERT-tone 情感分析
FinBERT-SEC 监管文件
FinBERT-ESG ESG披露分析

注: 变换器细节将在后续讲座中介绍

Big Data in Finance · Text and Image Analytics

金融NLP的实际挑战

关键实施问题:

  • 标注 — 专家标注成本高昂
  • 领域适应 — 通用模型表现不佳
  • 语言变化 — 金融术语不断演变
  • 评估 — 真实标准往往不可得

最佳实践:

  • 使用领域特定的预处理
  • 在金融样本外数据上验证
  • 随时间监控模型性能
Big Data in Finance · Text and Image Analytics

NLP 2.0:金融领域的大语言模型革命

从特定任务模型→通用金融智能

核心范式转变:

  • 在海量金融语料库上预训练+微调
  • 提示工程取代特征工程
  • 无需重新训练即可跨任务泛化
  • **检索增强生成(RAG)**链接文本+数据

NLP 1.0 vs NLP 2.0

维度 NLP 1.0 NLP 2.0 (大语言模型)
架构 词袋模型/LSTM Transformer
训练 每个任务监督学习 自监督预训练
输入 手工制作的特征 原始文本+提示
输出 单任务预测 多任务生成
知识 特定任务 世界+领域知识

金融大语言模型用例:

  • 监管分析
    提示:总结10-K文件中的风险因素
  • 财报电话会议问答
    提示:从第三季度会议记录中提取看跌语气
  • ESG报告起草
    提示:根据指标生成可持续性部分

示例:
BloombergGPT (2023)、FinGPT (2024)、DeepFinLLM 2.0 (2025)

Big Data in Finance · Text and Image Analytics

第3部分 · 金融中的图像分析

  • 图像数据和计算机视觉基础
  • 遥感和卫星图像
  • 文档图像分析和OCR
  • 基于图像的风险、欺诈和ESG分析
Big Data in Finance · Text and Image Analytics

什么是图像?数据视角

图像作为数值数组:

  • 像素 — 图像信息的基本单位
  • 通道 — RGB(3)、灰度(1)、多光谱(N)
  • 分辨率 — 宽×高×通道数

示例: 1024×768的RGB图像 = 236万个数值

金融图像类型:

  • 卫星图像(多光谱)
  • 扫描文档(灰度/二值)
  • 图表和统计图(RGB)
Big Data in Finance · Text and Image Analytics

核心计算机视觉任务

任务 描述 金融应用
分类 将图像分配到类别 文档类型识别
检测 定位图像中的对象 停车场汽车计数
分割 像素级标注 图表区域提取
识别 识别特定实例 KYC的人脸验证
Big Data in Finance · Text and Image Analytics

卷积神经网络(CNNs)

关键组件:

  1. 卷积层 — 用滤波器提取局部特征
  2. 池化层 — 降低空间维度
  3. 激活函数(ReLU) — 引入非线性
  4. 全连接层 — 最终分类/回归

优势:

  • 局部感受野 — 捕捉空间模式
  • 权重共享 — 参数效率
  • 层次化特征 — 低级→高级抽象
  • 平移不变性 — 位置无关检测
Big Data in Finance · Text and Image Analytics

CNN架构直观理解

输入图像 → [卷积 → ReLU → 池化] × N → 展平 → 全连接 → 输出

层级进展:

学习内容
早期卷积 边缘、纹理
中期卷积 形状、模式
后期卷积 物体、场景
全连接层 任务特定决策

流行架构: VGG、ResNet、EfficientNet、Inception

Big Data in Finance · Text and Image Analytics

金融图像的迁移学习

利用预训练模型:

  1. 特征提取 — 冻结预训练层,训练新分类器
  2. 微调 — 解冻顶层,在金融数据上重新训练

为什么选择迁移学习?

  • 金融图像数据集较小
  • ImageNet特征可泛化到多个领域
  • 显著减少训练时间和数据需求

挑战: 金融图像与自然图像不同

  • 解决方案:逐层解冻
Big Data in Finance · Text and Image Analytics

金融图像数据类型

市场与交易:

  • K线/蜡烛图
  • 热图和树状图
  • 订单簿可视化

文档:

  • 财务报表
  • 发票和收据
  • 合同和协议

遥感:

  • 卫星图像
  • 航空/无人机照片
  • 夜间灯光数据

生物识别与安全:

  • 身份证件
  • KYC人脸图像
  • 签名验证
Big Data in Finance · Text and Image Analytics

卫星图像用于经济信号

从太空捕捉实际经济活动:

数据源 经济指标
夜间灯光 (VIIRS, DMSP) GDP、城市化
停车场 零售销售、客流量
油罐阴影 原油库存水平
船舶流量 贸易流动、供应链
农业用地 作物产量、商品价格

优势: 实时、无偏见、全球覆盖

Big Data in Finance · Text and Image Analytics

案例:停车场汽车计数

方法:

  1. 获取日常卫星图像
  2. 应用对象检测(汽车)
  3. 按零售商聚合计数
  4. 预测季度销售

结果:

  • 信号提前2-4周到达
  • 预测盈利惊喜
  • 显著异常回报

交易策略:

对冲基金分析67,000家零售店的480万张图像。

准确的销售预测使盈利定位成为可能。

来源:Katona等,2025

Big Data in Finance · Text and Image Analytics

Katona等 (2025)

Big Data in Finance · Text and Image Analytics

参考文献:大数据对资本市场影响的证据 - 来自外太空的视角

Big Data in Finance · Text and Image Analytics

卫星图像分析流程

端到端工作流程:

图像获取 → 切片 → 预处理 → 特征提取 → 聚合

步骤:

  1. 获取 — 商业提供商(Planet、Maxar)
  2. 切片 — 将大图像分割为可管理的小块
  3. 预处理 — 云层去除、标准化
  4. 特征提取 — CNN或手动特征
  5. 聚合 — 时间和空间聚合

挑战: 天气影响、获取频率、空间对齐

Big Data in Finance · Text and Image Analytics

案例:油罐库存监测

预测原油库存:

  • 浮顶油罐投下可测量的阴影
  • 阴影长度指示填充水平
  • 每日图像→连续库存估计

应用:

  • 预测EIA周度库存报告
  • 在公告前交易原油期货
  • 监控地缘政治供应中断

准确性: 比官方数据提前2-3天

Big Data in Finance · Text and Image Analytics

文档图像分析概述

处理扫描金融文档:

阶段 任务 方法
获取 扫描、拍照 移动捕获、批量扫描仪
预处理 纠偏、降噪、二值化 图像处理技术
OCR 文本提取 Tesseract、云API
版面分析 结构理解 深度学习模型
字段提取 键值对 命名实体识别、模板匹配
Big Data in Finance · Text and Image Analytics

金融运营中的OCR

光学字符识别应用:

  • KYC/AML — 身份证件验证
  • 信贷审批 — 从税表中提取收入
  • 应付账款 — 发票处理自动化
  • 审计 — 合同和收据数字化

流程:

扫描 → 纠偏 → OCR → 字段提取 → 验证 → 集成

益处: 成本降低、速度提高、错误最小化

Big Data in Finance · Text and Image Analytics

案例:自动化贷款申请处理

中小企业贷款自动化:

  1. 上传扫描的财务报表、税务文件
  2. OCR提取文本和表格
  3. NLP解析财务指标
  4. 验证交叉检查提取的数据
  5. 评分输入信用模型

结果:

  • 处理时间:天→分钟
  • 人工审核减少70%
  • 错误率显著降低
Big Data in Finance · Text and Image Analytics

金融图表识别

从图表图像自动提取:

任务:

  • 图表类型分类 — 线图、柱状图、蜡烛图、饼图
  • 坐标轴检测 — 霍夫变换、边缘检测
  • 数据提取 — 点/柱测量
  • 模式识别 — 技术分析模式

可检测的技术模式:

  • 头肩顶/底
  • 双顶/双底
  • 三角形、旗形、楔形
Big Data in Finance · Text and Image Analytics

案例:(重新)想象价格趋势

股票价格图表上的机器学习:

方法:

  • 在标记的价格图表图像上训练CNN
  • 学习预测性视觉模式(非预定义)
  • 提取预测收益的特征

主要发现:

  • 模式比传统因子产生更准确的预测
  • 短期模式在更长时间尺度上有效
  • 美国学习的模式在国际上有效

来源:Jiang, Kelly & Xiu, JF 2023

Big Data in Finance · Text and Image Analytics

Jiang, Kelly & Xiu (2023)

Big Data in Finance · Text and Image Analytics
Big Data in Finance · Text and Image Analytics

基于图像的欺诈检测

金融领域的视觉异常检测:

应用 方法 目标
支票欺诈 签名验证 伪造签名
身份验证 人脸匹配+活体检测 合成身份
文档篡改 像素分析 篡改发票
假冒检测 纹理分析 伪造文件

模型: CNN-transformer混合模型用于异常检测

Big Data in Finance · Text and Image Analytics

金融中的生物识别认证

身份验证工作流程:

  1. 捕获 — 人脸和身份证件照片
  2. 提取 — 人脸检测、文档解析
  3. 匹配 — 将实时人脸与身份证照片比对
  4. 活体检测 — 检测演示攻击
  5. 决策 — 接受/拒绝/人工审核

考虑因素:

  • 隐私 — 生物识别数据保护法规
  • 偏见 — 人口统计性能差异
  • 可解释性 — 决策审计跟踪
Big Data in Finance · Text and Image Analytics

基于图像的财产和气候风险

保险和房地产应用:

  • 财产估值 — 航空图像用于状况评估
  • 灾害建模 — 灾前/灾后比较
  • 气候风险 — 洪水、火灾、风暴暴露映射
  • 理赔处理 — 自动化损害评估

示例:
保险公司使用无人机图像处理飓风后理赔。
灾前图像使准确损失估计成为可能。

Big Data in Finance · Text and Image Analytics

基于图像的金融伦理问题

关键伦理考量:

  • 隐私 — 图像收集和使用的同意
  • 监控 — 平衡安全与公民自由
  • 偏见 — 识别准确性的人口统计差异
  • 透明度 — 受监管决策的可解释AI

最佳实践:

  • 定期进行跨人口统计的偏见审计
  • 明确披露基于AI的决策
  • 高风险应用的人工监督
Big Data in Finance · Text and Image Analytics

第4部分 · 整合、实施和展望

  • 结合文本、图像和结构化数据
  • 实用项目工作流程
  • 局限性、伦理和研究前沿
Big Data in Finance · Text and Image Analytics

金融多模态学习

结合多种数据模态:

文本特征 ─┐
          ├─→ 融合层 → 预测
图像特征 -┘

融合策略:

策略 描述
早期融合 连接原始特征
晚期融合 组合模型预测
注意力融合 学习模态重要性

示例: 结合新闻情感+卫星信号+基本面数据

Big Data in Finance · Text and Image Analytics

案例:多信号股票模型

综合替代数据方法:

输入:

  • 分析师报告(文本情感)
  • 网络流量数据(消费者兴趣)
  • 卫星停车场数据(销售代理)
  • 传统基本面(结构化)

模型:

  • 每个模态的特征提取
  • 具有学习权重的晚期融合
  • 输出:股票选择信号

优势: 多样化的信号来源减少模型风险

Big Data in Finance · Text and Image Analytics

实用项目工作流程

从想法到部署:

阶段 关键活动
1. 问题构建 定义业务问题、成功指标
2. 数据收集 获取、清洗、验证数据集
3. 标注 专家标注或弱监督
4. 建模 特征工程、模型选择
5. 评估 回测、样本外验证
6. 部署 集成、监控、维护
Big Data in Finance · Text and Image Analytics

最佳实践清单

文档和可重复性:

  • [ ] 代码和数据的版本控制
  • [ ] 实验追踪(MLflow、W&B)
  • [ ] 清晰的数据血缘文档
  • [ ] 包含性能指标的模型卡片

团队协作:

  • 量化分析师 ↔ 领域专家 ↔ 工程师 ↔ 风险管理人员
  • 定期模型评审会议
  • 明确的所有权和上报路径
Big Data in Finance · Text and Image Analytics

学生项目创意

可行的学期论文/毕业项目:

项目 数据 方法
新闻情感分析 金融新闻API TF-IDF、VADER、FinBERT
财报电话会议语调 SEC EDGAR会议记录 情感、主题建模
发票OCR系统 合成发票 Tesseract+字段提取
图表模式检测器 雅虎财经图表 CNN分类

工具: Python、scikit-learn、PyTorch、spaCy、Tesseract

Big Data in Finance · Text and Image Analytics

文本和图像分析的局限性

主要挑战:

  • 数据质量 — 噪音、缺失数据、不一致性
  • 样本选择 — 幸存者偏差、覆盖缺口
  • 非平稳性 — 市场和语言不断演变
  • 模型稳健性 — 对抗攻击、分布偏移

缓解措施:

  • 严格的样本外测试
  • 集成方法提高稳定性
  • 持续监控和重新训练
Big Data in Finance · Text and Image Analytics

伦理和法律考量

金融领域负责任的AI:

问题 考虑因素
隐私 数据最小化、同意管理
公平性 人口统计平等、机会均等
透明度 模型可解释性、审计跟踪
责任 明确所有权、人工监督

监管趋势:

  • 对贷款决策中AI的审查增加
  • 对算法影响评估的要求
Big Data in Finance · Text and Image Analytics

研究前沿

金融AI的新兴主题:

  • 稳健大语言模型 — 领域适应的大语言模型
  • 合成数据 — 增强稀缺金融数据集
  • 人在环路 — 混合AI-人类决策系统
  • 因果机器学习 — 从预测转向因果关系
  • 多模态基础模型 — 统一文本-图像-表格数据

阅读列表: 请参阅课程网站获取最新综述

Big Data in Finance · Text and Image Analytics

总结和关键要点

核心信息:

  1. 文本和图像对金融分析越来越有价值
  2. NLP流程 — 从预处理到嵌入再到预测
  3. 计算机视觉 — 卫星、文档、图表提供独特信号
  4. 整合 — 多模态方法增强稳健性
  5. 责任 — 伦理、偏见和治理至关重要

"未来属于能从所有数据模态中提取洞察的分析师。"

Big Data in Finance · Text and Image Analytics

Further Reading

Recommended resources:

Surveys on AI in Finance:

Big Data in Finance · Text and Image Analytics

Others

Katona, Z., Painter, M., Patatoukas, P., & Zeng, J. (2025). On the Capital Market Consequences of Big Data: Evidence from Outer Space. Journal of Financial and Quantitative Analysis, 58(4), 1123‑1154.
Loughran, T., & McDonald, B. (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10‑Ks. Journal of Finance, 66(1), 35‑65.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
Hansen, S., McMahon, M., & Prat, A. (2017). Transparency and Deliberation within the FOMC: A Computational Linguistics Approach. Quarterly Journal of Economics, 133(2), 801‑870.
Hoberg, G., & Phillips, G. M. (2016). Text‑Based Network Industries and Endogenous Product Differentiation. Journal of Political Economy, 124(5), 1423‑1465.
Kozlowski, A. C., Taddy, M., & Evans, J. A. (2019). The Geometry of Culture: Analyzing Meaning through Word Embeddings. American Sociological Review, 84(5), 905‑949.
Ash, E., Chen, D. L., Naidu, S., & Rhode, P. W. (2025). Ideas Have Consequences: The Impact of Law and Economics on American Justice.* Quarterly Journal of Economics.

Big Data in Finance · Text and Image Analytics

问题与讨论

讨论话题:

  1. 随着时间推移,文本/图像信号可能如何被套利消除?
  2. 基于卫星的交易有哪些公平性影响?
  3. 监管机构是否应要求披露替代数据的使用?
  4. 如何评估情感指标的质量?
Big Data in Finance · Text and Image Analytics

谢谢

金融大数据:文本与图像分析


欢迎提问!

Big Data in Finance · Text and Image Analytics

<small>Total duration: 4 hours (240 minutes)</small>

**Duration: 30 minutes**

### Financial Data Ecosystem

**Duration: 90 minutes**

replace this page

^[Source: Mikolov et al., 2013]

可滚动代码区域

replace

^[Sources: Du et al., 2025 *NLP in Finance* [ref 3]; Kong et al., 2024 *Investment Management* [ref 6]; Jadhav et al., 2025 *Frontiers AI* [ref 2].]

**Duration: 90 minutes**

replace

replace

**Duration: 30 minutes**