|
词频-逆文档频率: 其中:
效果: 提升罕见、有区分度的词的权重;降低常见词的权重 |
|
|
测量文档相似性: 特性:
为何在NLP中首选? 关注方向(主题),而非大小(长度) |
|
金融领域专用词典:
| 词典 | 描述 | 示例词 |
|---|---|---|
| Loughran-McDonald | 金融专用情感词典 | "liability"(负债)、"litigation"(诉讼)(−) |
| Harvard GI | 通用情感 | "good"(好)(+)、"bad"(坏)(−) |
| VADER | 优化用于社交媒体 | 处理表情符号、俚语 |
关键洞察: 通用词典错误分类金融术语
使用文本特征进行预测:
其中:
维度问题的解决方案:
|
研究发现: 来自新闻和社交媒体的实时情感指数可以预测:
在市场压力期间效应最强。 |
交易应用: 基于情感的策略在盈利公告前后表现优异。 |
稀疏词向量的问题:
解决方案: 学习密集、低维的词嵌入
|
核心思想:
词嵌入:
著名示例: |
|
|
从目标词预测上下文: 训练目标: 最大化观察到的上下文词的概率
计算技巧: 负采样避免全词汇表求和 |
|
|
从上下文预测目标(Skip-gram的反向): 其中 对比:
|
|
|
|
|
发现文档集合中的潜在主题:
生成过程:
估计方法: 吉布斯采样或变分EM算法 |
|
|
混合主题模型
|
金融应用
BERTopic代码示例
|
研究问题: 透明度是否改变了美联储的审议过程?
方法:
发现:
启示: 透明度可能降低审议质量
使用词嵌入的金融研究:
| 研究 | 方法 | 发现 |
|---|---|---|
| Hoberg & Phillips (2016) | 10-K余弦相似度 | 数据驱动的行业定义 |
| Kozlowski等 (2019) | 文化嵌入 | 文本中的性别/阶级关联 |
| Ash等 (2025) | 法官嵌入 | 司法性别歧视测量 |
关键洞察: 嵌入能捕捉文本中未明确表达的潜在概念
|
资产定价:
|
风险管理:
|
从会议记录构建不确定性指数:
结果:
在金融文本上微调的BERT:
变体:
| 模型 | 专业化 |
|---|---|
| FinBERT-tone | 情感分析 |
| FinBERT-SEC | 监管文件 |
| FinBERT-ESG | ESG披露分析 |
注: 变换器细节将在后续讲座中介绍
关键实施问题:
最佳实践:
从特定任务模型→通用金融智能
核心范式转变:
|
|
|
NLP 1.0 vs NLP 2.0
|
金融大语言模型用例:
示例: |
|
图像作为数值数组:
示例: 1024×768的RGB图像 = 236万个数值 金融图像类型:
|
|
| 任务 | 描述 | 金融应用 |
|---|---|---|
| 分类 | 将图像分配到类别 | 文档类型识别 |
| 检测 | 定位图像中的对象 | 停车场汽车计数 |
| 分割 | 像素级标注 | 图表区域提取 |
| 识别 | 识别特定实例 | KYC的人脸验证 |
关键组件:
优势:
输入图像 → [卷积 → ReLU → 池化] × N → 展平 → 全连接 → 输出
层级进展:
| 层 | 学习内容 |
|---|---|
| 早期卷积 | 边缘、纹理 |
| 中期卷积 | 形状、模式 |
| 后期卷积 | 物体、场景 |
| 全连接层 | 任务特定决策 |
流行架构: VGG、ResNet、EfficientNet、Inception
利用预训练模型:
为什么选择迁移学习?
挑战: 金融图像与自然图像不同
|
市场与交易:
文档:
|
遥感:
生物识别与安全:
|
从太空捕捉实际经济活动:
| 数据源 | 经济指标 |
|---|---|
| 夜间灯光 (VIIRS, DMSP) | GDP、城市化 |
| 停车场 | 零售销售、客流量 |
| 油罐阴影 | 原油库存水平 |
| 船舶流量 | 贸易流动、供应链 |
| 农业用地 | 作物产量、商品价格 |
优势: 实时、无偏见、全球覆盖
|
方法:
结果:
|
端到端工作流程:
图像获取 → 切片 → 预处理 → 特征提取 → 聚合
步骤:
挑战: 天气影响、获取频率、空间对齐
预测原油库存:
应用:
准确性: 比官方数据提前2-3天
处理扫描金融文档:
| 阶段 | 任务 | 方法 |
|---|---|---|
| 获取 | 扫描、拍照 | 移动捕获、批量扫描仪 |
| 预处理 | 纠偏、降噪、二值化 | 图像处理技术 |
| OCR | 文本提取 | Tesseract、云API |
| 版面分析 | 结构理解 | 深度学习模型 |
| 字段提取 | 键值对 | 命名实体识别、模板匹配 |
光学字符识别应用:
流程:
扫描 → 纠偏 → OCR → 字段提取 → 验证 → 集成
益处: 成本降低、速度提高、错误最小化
中小企业贷款自动化:
结果:
从图表图像自动提取:
任务:
可检测的技术模式:
股票价格图表上的机器学习:
方法:
主要发现:
金融领域的视觉异常检测:
| 应用 | 方法 | 目标 |
|---|---|---|
| 支票欺诈 | 签名验证 | 伪造签名 |
| 身份验证 | 人脸匹配+活体检测 | 合成身份 |
| 文档篡改 | 像素分析 | 篡改发票 |
| 假冒检测 | 纹理分析 | 伪造文件 |
模型: CNN-transformer混合模型用于异常检测
身份验证工作流程:
考虑因素:
保险和房地产应用:
示例:
保险公司使用无人机图像处理飓风后理赔。
灾前图像使准确损失估计成为可能。
关键伦理考量:
最佳实践:
结合多种数据模态:
文本特征 ─┐
├─→ 融合层 → 预测
图像特征 -┘
融合策略:
| 策略 | 描述 |
|---|---|
| 早期融合 | 连接原始特征 |
| 晚期融合 | 组合模型预测 |
| 注意力融合 | 学习模态重要性 |
示例: 结合新闻情感+卫星信号+基本面数据
综合替代数据方法:
输入:
模型:
优势: 多样化的信号来源减少模型风险
从想法到部署:
| 阶段 | 关键活动 |
|---|---|
| 1. 问题构建 | 定义业务问题、成功指标 |
| 2. 数据收集 | 获取、清洗、验证数据集 |
| 3. 标注 | 专家标注或弱监督 |
| 4. 建模 | 特征工程、模型选择 |
| 5. 评估 | 回测、样本外验证 |
| 6. 部署 | 集成、监控、维护 |
文档和可重复性:
团队协作:
可行的学期论文/毕业项目:
| 项目 | 数据 | 方法 |
|---|---|---|
| 新闻情感分析 | 金融新闻API | TF-IDF、VADER、FinBERT |
| 财报电话会议语调 | SEC EDGAR会议记录 | 情感、主题建模 |
| 发票OCR系统 | 合成发票 | Tesseract+字段提取 |
| 图表模式检测器 | 雅虎财经图表 | CNN分类 |
工具: Python、scikit-learn、PyTorch、spaCy、Tesseract
主要挑战:
缓解措施:
金融领域负责任的AI:
| 问题 | 考虑因素 |
|---|---|
| 隐私 | 数据最小化、同意管理 |
| 公平性 | 人口统计平等、机会均等 |
| 透明度 | 模型可解释性、审计跟踪 |
| 责任 | 明确所有权、人工监督 |
监管趋势:
金融AI的新兴主题:
阅读列表: 请参阅课程网站获取最新综述
核心信息:
"未来属于能从所有数据模态中提取洞察的分析师。"
Recommended resources:
Surveys on AI in Finance:
Others
Katona, Z., Painter, M., Patatoukas, P., & Zeng, J. (2025). On the Capital Market Consequences of Big Data: Evidence from Outer Space. Journal of Financial and Quantitative Analysis, 58(4), 1123‑1154.
Loughran, T., & McDonald, B. (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10‑Ks. Journal of Finance, 66(1), 35‑65.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
Hansen, S., McMahon, M., & Prat, A. (2017). Transparency and Deliberation within the FOMC: A Computational Linguistics Approach. Quarterly Journal of Economics, 133(2), 801‑870.
Hoberg, G., & Phillips, G. M. (2016). Text‑Based Network Industries and Endogenous Product Differentiation. Journal of Political Economy, 124(5), 1423‑1465.
Kozlowski, A. C., Taddy, M., & Evans, J. A. (2019). The Geometry of Culture: Analyzing Meaning through Word Embeddings. American Sociological Review, 84(5), 905‑949.
Ash, E., Chen, D. L., Naidu, S., & Rhode, P. W. (2025). Ideas Have Consequences: The Impact of Law and Economics on American Justice.* Quarterly Journal of Economics.
讨论话题:
欢迎提问!
<small>Total duration: 4 hours (240 minutes)</small>
**Duration: 30 minutes**
### Financial Data Ecosystem
**Duration: 90 minutes**
replace this page
^[Source: Mikolov et al., 2013]
可滚动代码区域
replace
^[Sources: Du et al., 2025 *NLP in Finance* [ref 3]; Kong et al., 2024 *Investment Management* [ref 6]; Jadhav et al., 2025 *Frontiers AI* [ref 2].]
**Duration: 90 minutes**
replace
replace
**Duration: 30 minutes**