Lecture 06

LLMs and AI Agents in Finance

Explore how LLMs and AI agents can interpret financial information, automate workflows, and support decision-making—while managing risk and ensuring control.

Financial Machine Learning · Lecture 06

Outlines

Financial Machine Learning · Lecture 06

Part 1 · Large Language Models

Financial Machine Learning · Lecture 06
Transformer基础架构与核心原理
1. 基础架构
  • Transformer架构
    • 多头自注意力机制
    • 编码器-解码器结构
    • 位置编码
    • 残差连接与层归一化
2. 核心技术原理
  • 预训练过程
    输入:大规模文本语料 → 词元化处理 → 注意力计算 
          → 上下文表示 → 输出:语言模型
    
  • 推理过程
    用户输入 → Token化 → 上下文编码 
    → 概率预测 → 文本生成
    
Financial Machine Learning · Lecture 06
金融领域应用场景
  • 金融分析与研究
    场景示例:
    - 财报自动分析
    - 投资研报生成
    - 市场趋势预测
    - ESG报告撰写
    
  • 金融智能助手
    应用示例:
    - 投资顾问对话机器人
    - 财务规划助手
    - CFA考试辅导工具
    - 金融政策解读助手
    
  • 金融数据处理
    具体应用:
    - 交易数据分析报告
    - 财务数据可视化
    - 风险指标监测
    - 量化策略生成
    
金融工程专业应用案例
  • 量化投资
    - 策略回测代码生成
    - 因子挖掘与分析
    - 多资产配置模型
    - 交易信号识别
    
  • 风险管理
    - VaR模型构建
    - 压力测试场景设计
    - 信用风险评估
    - 合规监控辅助
    
  • 金融产品设计
    - 结构化产品定价
    - 衍生品条款生成
    - 产品特性分析
    - 投资者适合度评估
    
Financial Machine Learning · Lecture 06

OpenAI(GPT 系列):综合最均衡

强项

  • 写作、代码、数学推理、工具调用/多模态:整体强且均衡
  • 适合把研究想法快速变成原型(清洗 → 特征 → 回测 → 报告)
  • 复杂任务编排:分解任务、迭代改稿、生成可维护代码更稳

更适合的金融任务

  • 论文/研报写作与结构化
  • 研究方案设计、实证与回测代码(Python/R/SQL)
  • “口头需求 → 可执行实现”的端到端落地

注意

  • 最新数据/公告需要检索或你提供数据源;避免“无来源数字”
Financial Machine Learning · Lecture 06

Anthropic(Claude 系列):长文档与审慎写作

强项

  • 长文档阅读/归纳/对比突出(年报、招股书、条款)
  • 措辞更克制,合规意识强,风险提示更自然

更适合的金融任务

  • 尽调材料提炼:风险点、关键假设、条款差异
  • 会议纪要整理、研究框架梳理、“论证链”检查
  • 对外文本:更稳健的表述与免责声明草拟

注意

  • 工程化代码细节可能需要更多迭代;可与更偏工程模型搭配
Financial Machine Learning · Lecture 06

Google(Gemini 系列):多模态与文档生态

强项

  • 多模态处理:图表、PPT、图片、表格、文档汇总更顺
  • 与 Google 生态工具结合时效率高(取决于你使用入口/权限)

更适合的金融任务

  • 图表 + 文字 + 表格的材料汇总与讲稿生成
  • 课堂/组会材料快速生成
  • 截图财报图、宏观图等多模态理解场景

注意

  • 同家族下“轻量/旗舰”差异大:选型要看你实际能用到哪一档
Financial Machine Learning · Lecture 06

DeepSeek(DeepSeek 系列):性价比与批处理

强项

  • 成本友好,适合高频调用与规模化处理
  • 代码/技术任务常表现突出(视具体版本)

更适合的金融任务

  • 大规模文本清洗、抽取、标注流水线
  • 批量生成因子/特征计算脚本、ETL 自动化
  • 内部工具/Agent 的低成本部署与跑批

注意

  • 高风险结论需更严格校验:交叉验证、单测、规则约束、人工复核
Financial Machine Learning · Lecture 06

根据具体任务选择模型

A. 写论文/做研报/读大量文献与年报

首选:Anthropic 或 OpenAI

  • Anthropic:长文档归纳、尽调条款梳理、论证链检查更强
  • OpenAI:读 → 做 → 写 → 复现闭环更顺(尤其带代码)

建议

  • 先用 Anthropic 做材料拆解与提要
  • 再用 OpenAI 做结构化写作与实验/复现

B. 实证研究:清洗、回归、因子、回测、可复现

首选:OpenAI

  • 研究设计 + 代码骨架 + 调参迭代:整体最省心

预算敏感 / 需要跑批:DeepSeek(配合严格测试)

  • DeepSeek:批量脚本与流水线
  • 关键结论:用 OpenAI/Claude 复核推理与解释
Financial Machine Learning · Lecture 06

C. 多模态材料:图表/PPT/截图财报 + 快速汇总

首选:Google 或 OpenAI

  • Google:在文档生态内联动强
  • OpenAI:通用、多模态理解 + 写作落地一体

建议

  • 先“抽取图表要点 + 关键数字出处”
  • 再“形成可讲述的故事线(宏观 → 行业 → 公司/因子)”

D. 做 AI Agent:爬取-清洗-分析-写报告-分发

原型期:OpenAI

  • 任务编排与工具调用更强,适合快速把链路跑通

规模化:DeepSeek + 规则/测试/审计

  • 跑批降成本:日志、版本、监控要齐全

合规与风控文本:Anthropic

  • 最终措辞与风险提示,减少“过度确定性表达”
Financial Machine Learning · Lecture 06

推荐组合:OpenAI(主模型)+ Anthropic(长文档/合规)+ DeepSeek(批处理)

OpenAI:主模型

  • 定研究问题、写代码骨架、搭实验、出初稿

Anthropic:长文档与对外文本

  • 年报/公告/条款:抽风险点、假设、关键条款
  • 润色最终文字与风险提示

DeepSeek:批处理与降成本

  • 清洗/抽取/标注/批量脚本与流水线自动化

关键结论的“最低校验配置”

  1. 两模型交叉验证(同一结论让不同模型复核)
  2. 数据/代码单元测试(边界条件、缺失值、异常值)
  3. 规则约束(禁止无来源数字、禁止确定性收益承诺等)
  4. 人工复核(对外发布、投资建议、合规相关必做)
Financial Machine Learning · Lecture 06

注意事项

不把模型当“决策者”,而当“研究助理/工程助理”

  • 避免让模型直接输出“可交易的确定性结论”
  • 任何数字与引用:必须可追溯(出处/原始数据)
  • 任何研究结果:必须可复现(代码/参数/随机种子)
  • 任何对外材料:必须可审计(日志/版本/审批链)

高风险场景要更保守

典型高风险输出:

  • 投资建议与收益承诺
  • 信用结论、合规解释、对外披露材料
  • 涉及敏感数据、客户信息、内部策略细节

做法:

  • 强制加免责声明与不确定性表述
  • 引入人工审批与合规流程
  • 保留证据链:数据 → 过程 → 结论
Financial Machine Learning · Lecture 06
Financial Machine Learning · Lecture 06
金融领域提示词工程示例

1. 目标与成功标准(Goal + Success Criteria)

  • 原理:先讲清楚“要解决什么问题”以及“什么样算做得好”,减少跑偏与幻觉
  • 示例:
❌ 差:"分析美团的财报。"

✅ 好:
目标:为投资研究讨论准备要点(5分钟可讲完)
成功标准:给出可验证的关键数字、口径说明、同业对比与风险点;不确定处标注“需核实”
材料:我将粘贴美团2023Q4财报要点(或提供链接/摘录)

任务:作为互联网行业卖方分析师,分析美团2023年Q4业绩,重点:
1) 营收增长驱动(分业务,如到店/外卖/新业务)
2) 毛利率/经营利润率变化的原因(价格、补贴、履约成本)
3) 经营现金流与资本开支
4) 竞争格局与管理层指引
5) 与Uber同季度的关键指标对比(口径差异需说明)

输出要求:
- 先给“结论摘要”5条(每条≤25字)
- 再给“数据表”(指标/本期/同比/环比/口径说明/出处)
- 最后给“风险与待验证清单”

Financial Machine Learning · Lecture 06

2. 指令清晰 + 约束(Do/Don’t + Constraints)

  • 原理:用可执行动词 + 明确边界(字数、受众、格式、是否给代码、是否引用来源)
  • 示例:
❌ 差:"讲讲量化投资。"

✅ 好:
受众:金融工程大三学生(有概率统计与Python基础)
范围:只讲动量因子(不展开其他因子)
输出结构:
A. 数学定义(含符号说明)≤150字
B. 3种常见实现方法:时间序列动量/横截面动量/行业中性动量(各≤120字)
C. A股 vs 美股差异:数据频率、交易成本、做空约束、极端行情(≤180字)
D. Python片段:用pandas计算12-1动量并构造分组收益(可运行、含注释)
约束:
- 不编造历史收益结论;如需举例用“示意数据/假设”
- 术语首次出现给一句解释
Financial Machine Learning · Lecture 06

3. 结构化输出 + 可追溯引用(Structure + Citations/Traceability)

  • 原理:强制结构能显著提升可读性;金融内容要尽量“可追溯”(来源/口径/假设)
  • 示例:
❌ 差:"比较CAPM和Fama-French三因子模型。"

✅ 好:
请用Markdown表格对比CAPM与Fama-French三因子模型,维度包括:
- 理论假设
- 数学表达式(用LaTeX)
- 风险因子含义与构造
- 实证优缺点(避免给具体数值,除非我提供文献)
- 主要局限
- 适用场景(研究/风控/绩效归因)

附加要求:
1) 表格后给“学习提示”3条(常见误区)
2) 如果引用经典论文,请列出作者-年份-标题(不确定则标注“需核实”)
Financial Machine Learning · Lecture 06
金融应用最佳实践(按厂商建议补强:示例驱动、校验、拒答边界)

1. Few-shot 示例(含标签定义 + 不确定性处理)

  • 原理:先定义标签口径;允许“信息不足/需更多上下文”以降低误判
任务:将金融新闻分类为【利好 / 利空 / 中性 / 信息不足】

标签定义:
- 利好:大概率提升相关资产现金流或降低折现率
- 利空:大概率损害现金流或提高不确定性/折现率
- 中性:影响有限或已充分预期
- 信息不足:缺少主体、幅度、时间、适用范围等关键要素

示例1:
新闻:"央行宣布下调存款准备金率0.5个百分点"
分类:利好
理由:流动性改善,融资成本下行(宏观层面)
示例2:
新闻:"某科技公司季度营收符合预期,但利润率略有下滑"
分类:中性
理由:一好一坏且幅度未知,需看指引与成本结构

现在分类:
新闻:"监管部门对多家互联网金融平台启动反垄断调查,最高或面临年收入10%的罚款"
输出格式:
- 分类:
- 影响路径(≤3条):
- 关键信息缺口(如有):
- 需要进一步核实的数据点:
Financial Machine Learning · Lecture 06

2. 金融角色提示(加入“先提问再回答”与“合规边界”)

  • 原理:厂商普遍建议:信息不足时先问澄清问题;高风险内容给风险提示并避免确定性措辞
❌ 差:"讲解期权定价。"

✅ 好:
你是资深期权交易员,面向金融工程实习生讲解期权定价。流程:
Step 1:先问我3个澄清问题(标的类型/到期/是否分红/利率环境/用途:定价还是对冲)
Step 2:在假设明确后再输出内容:

请包含:
1) 用类比解释Black-Scholes关键假设,并说明何时失效
2) 波动率微笑的三类机制(偏度风险、跳跃、供需/仓位)
3) 二叉树定价Python简化示例(可运行,含参数注释)
4) Delta、Gamma在对冲与风险限额中的用法(给一个小例子)

约束:
- 不提供“保证盈利”的交易建议
- 所有公式符号清晰定义;关键结论附一句风险提示
Financial Machine Learning · Lecture 06

3. 迭代优化(加入“自检清单/反证/可复现”)

  • 原理:厂商建议用“分步迭代 + 自我校验”;尤其金融要加“可复现与证据链”
- 初始提示:
"分析比特币价格"

- 第一次优化(补时间范围与视角):
"分析2024年比特币价格走势及主要驱动因素(宏观、链上、市场结构)"

- 最终优化(加结构 + 证据 + 约束 + 复现):
你是量化分析师,请写一份2024年比特币技术分析备忘录。要求:

输入:
- 我将提供BTC日频价格数据(CSV)与关键事件清单(如ETF、减半时间)
- 若缺数据,请先列出你需要的字段与频率
输出结构:
1) 结论摘要(5条,每条≤20字)
2) 关键位:支撑/阻力(说明方法:斐波那契+历史高低点;给出计算步骤)
3) 趋势信号:10/50/200日均线交叉(给出发生日期与后验表现需标注“仅回溯不代表未来”)
4) 动量指标:RSI、MACD解释 + 当前读数(如无数据则给计算方式)
5) 资金流:ETF资金流(若我未提供则列“需数据源”)
6) 减半机制:用供给变化路径解释,不做确定性价格预测
7) 风险提示:流动性、监管、极端波动、尾部风险

代码要求:
- 给出可运行Python代码片段:读取CSV→计算指标→输出最近一日信号
自检清单(输出末尾):
- 是否有无来源数字?有则标“需核实”
- 是否把相关性当因果?如有,加入反例或替代解释
- 结论是否可复现(数据/参数/窗口)?
Financial Machine Learning · Lecture 06
可选加页:通用“防跑偏”提示模板(适用于金融作业/研报)
在回答前请先输出:
1) 你对任务的理解(≤3句)
2) 你将采用的步骤(列表)
3) 你需要我补充的数据/假设(如有)

在回答后请输出:
- 关键假设与口径
- 不确定点与待核实清单
- 若用于投资决策的风险提示
Financial Machine Learning · Lecture 06

金融应用关键提示:


  1. 金融提示要点:
    • 指定具体金融角色
    • 明确分析维度
    • 要求数据支持
    • 设定风险说明
  1. 注意事项:
    • 避免模糊金融术语
    • 明确时间与市场范围
    • 要求多角度分析
    • 指定可执行的代码格式
  1. 金融应用优化:
    • 使用专业金融框架
    • 加入监管合规提示
    • 要求多情景分析
    • 建立金融领域提示库
Financial Machine Learning · Lecture 06
Financial Machine Learning · Lecture 06
1. 金融应用硬件配置参考

配置等级 GPU 内存 存储 适用金融场景
入门级 RTX 3060 12GB 16GB 256GB SSD 个人投资分析、课程项目开发
推荐级 RTX 4080 16GB 32GB 512GB SSD 量化策略回测、小型团队研究
专业级 RTX 4090 24GB 64GB 1TB SSD 多资产模型训练、高频数据处理
Financial Machine Learning · Lecture 06
2. 金融专用模型选择建议
模型名称 最小显存 金融能力 部署难度 推荐场景 特点
LLaMA-2-7b 8GB 一般 中等 基础分析 可微调为金融专用,社区支持好
BloombergGPT 10GB 优秀 复杂 专业分析 金融领域专训,术语理解精准
FinGPT 8GB 优秀 中等 A股分析 中文财经优化,适合本土市场
Qwen-7B-Chat 8GB 良好 简单 综合应用 中英双语优秀,金融工具调用强
DeepSeek-Math 8GB 优秀 中等 金融建模 数学推理能力强,适合复杂定价
Mistral-7b-Instruct 8GB 良好 简单 投资助手 轻量高效,适合个人投研
FinMA 8GB 优秀 中等 金融分析 针对金融领域微调,术语理解准确
Phi-2 3GB 一般 简单 小型应用 超轻量,适合基础金融计算
Financial Machine Learning · Lecture 06
3. 金融应用部署方式对比
部署方式 优势 劣势 适用金融场景
全量精度 精确度最高 资源占用大 衍生品定价、风险模型
半精度(FP16) 性能平衡 轻微精度损失 日常量化分析、投研报告
INT8量化 资源占用低 复杂计算精度降低 市场情绪分析、初筛股票
CPU部署 无需GPU 速度慢、难处理大数据 课堂演示、概念验证
Financial Machine Learning · Lecture 06
1. 主流金融应用部署框架对比
框架名称 金融特性 部署难度 性能表现 主要金融应用场景
Ollama - 快速部署金融模型
- 金融模型一键安装
- 本地私有部署
极简 良好 个人投研,课程项目开发
vLLM - 高性能金融分析
- 处理大规模市场数据
- 企业级稳定性
中等 极佳 机构级量化分析,高频数据处理
LangChain - 金融数据接入
- 多源数据链接
- 工具调用框架
中等 良好 多数据源分析,复杂金融应用
FastChat - OpenAI接口兼容
- 多金融模型支持
- 量化策略API
简单 良好 量化交易接口,研究原型
FinNLP - 金融NLP专用
- 情感分析优化
- 财报处理功能
中等 良好 财经文本分析,舆情监控
Financial Machine Learning · Lecture 06
2. 金融应用特性对比
功能特性 Ollama vLLM LangChain FastChat FinNLP
一键部署 × ×
量化支持
金融API集成 ×
数据隐私保护
多模型协作 ×
时序数据处理 × × ×
金融知识增强 × × ×
性能监控 × ×
Financial Machine Learning · Lecture 06
3. 金融开发框架选择

部署便捷性

Ollama > FastChat > Text Gen WebUI > LangChain > vLLM

金融分析性能

vLLM > LangChain > FinNLP > FastChat > Ollama

数据集成能力

LangChain > FinNLP > vLLM > FastChat > Ollama

学习曲线

Ollama > FastChat > Text Gen WebUI > LangChain > FinNLP
Financial Machine Learning · Lecture 06

金融工程应用选型建议

1. 应用场景分类

课程项目开发

  • 首选框架:Ollama
  • 备选框架:FastChat
  • 选择理由:
    • 快速上手简单
    • 满足课程需求
    • 资源要求低
    • 适合课程展示

量化研究原型

  • 首选框架:LangChain
  • 选择理由:
    • 金融数据集成
    • 多模型协作
    • 工具链丰富
    • 适合迭代开发

产业实习应用

  • 首选框架:vLLM/FinNLP
  • 选择理由:
    • 企业级性能
    • 专业金融功能
    • 安全性和稳定性
    • 可扩展性好
Financial Machine Learning · Lecture 06
2. 金融应用决策树

根据金融应用规模

个人课程项目 → Ollama
小组研究项目 → FastChat/LangChain
实验室研究 → LangChain/FinNLP
企业级应用 → vLLM + LangChain

根据金融应用场景

基础市场分析 → Ollama
量化策略开发 → LangChain
财经文本分析 → FinNLP
高性能交易支持 → vLLM
3. 框架组合应用

入门级金融应用

  • Ollama + Python金融库
    • 投资组合分析
    • 基础技术指标计算

进阶金融应用

  • LangChain + FinNLP
    • 多因子模型构建
    • 财经新闻情感分析

金融工程实践

  • 量化模型验证
    • 经典策略回测
    • 风险指标计算
    • 多周期信号测试
  • 实用案例生成
    • 模拟交易系统
    • 投研报告自动化
Financial Machine Learning · Lecture 06
Financial Machine Learning · Lecture 06
1. 主要参数总览

参数名称 取值范围 默认值 作用描述
Temperature 0.0-2.0 0.7 控制随机性/创造性
Top_p (核采样) 0.0-1.0 0.9 控制累积概率阈值
Top_k 0-100 50 限制候选词数量
Presence Penalty -2.0-2.0 0.0 抑制已出现内容
Frequency Penalty -2.0-2.0 0.0 抑制高频内容
Max Tokens 1-∞ 模型相关 限制生成长度
Stop Sequences 自定义 终止生成标记
Financial Machine Learning · Lecture 06
2. 参数效果对比
  • 采样策略参数
策略 优势 劣势 适用场景
纯Temperature 控制简单直观 可能出现低概率词 通用场景
Top_p采样 动态概率阈值 参数较难调优 需要稳定性
Top_k采样 限制选择范围 可能损失好的候选 受限场景
混合策略 更精细的控制 调参复杂 专业应用
  • 惩罚项参数
参数类型 低值效果 高值效果 使用建议
Presence惩罚 允许重复 鼓励新内容 长文生成
Frequency惩罚 允许常用词 倾向用词多样 创意写作
Financial Machine Learning · Lecture 06
3. 常用参数组合推荐

场景化配置

学术/专业问答:
- Temperature: 0.2
- Top_p: 0.8
- Presence_penalty: 0.1
- Max_tokens: 1000
创意写作:
- Temperature: 0.8
- Top_p: 0.95
- Frequency_penalty: 0.5
- Presence_penalty: 0.2
代码生成:
- Temperature: 0.1
- Top_k: 40
- Presence_penalty: 0.0
- Max_tokens: 2000
对话聊天:
- Temperature: 0.7
- Top_p: 0.9
- Frequency_penalty: 0.3
- Presence_penalty: 0.3
Financial Machine Learning · Lecture 06
4. 高级应用技巧

参数动态调整

情况 调整建议
重复内容多 提高Presence_penalty
用词单一 提高Frequency_penalty
答非所问 降低Temperature和Top_p
回答过短 增加Max_tokens
生成不完整 调整Stop_sequences

特殊应用场景

  • 多轮对话优化
  • 长文本生成
  • 格式化输出
  • 创意内容生成
Financial Machine Learning · Lecture 06
5. 最佳实践建议

参数调优步骤

  1. 确定基础配置
  2. 单参数调优
  3. 组合验证
  4. 效果反馈
  5. 持续优化
问题 解决方案
输出不连贯 - 降低Temperature
- 调整Top_p
- 检查Max_tokens
内容重复 - 增加惩罚项参数
- 调整Top_k
- 优化提示词
生成过长/短 - 调整Max_tokens
- 设置Stop_sequences
- 优化输入提示
风格不一致 - 固定Temperature
- 统一参数配置
- 标准化提示词
Financial Machine Learning · Lecture 06
Financial Machine Learning · Lecture 06
背景分析
  • 数字技术与金融的融合加

    • 计算能力指数级提升使复杂模型训练成为可能
    • 数据处理能力的革命性进步为金融分析提供基础
    • 麦肯锡报告:AI到2025年将为全球银行业创造约1万亿美元价值
  • 大模型技术的突破性进展

    • 能力边界拓展:从GPT-3到GPT-4o,Claude 3.5的质的飞跃
    • 多模态融合:文本、图像、表格数据的统一处理能力
    • 工具调用能力:代码执行、数据分析等实际操作功能
  • 金融业数字化转型
    • 传统金融机构大规模投入数字基础设施
    • 数据驱动决策已成为行业共识
    • 自动化程度提高,对精准分析需求增加
    • 金融科技公司崛起,重塑服务形态和客户体验
Financial Machine Learning · Lecture 06
金融行业人才能力新要求
  • 跨学科融合能力

    • 金融专业知识与数据科学能力深度结合
    • 对AI工具的理解和应用能力
    • 经济学、金融学与计算机科学的交叉理解
    • 在多学科交叉处发现创新点的能力
  • 技术素养升级

    • 编程能力:从"加分项"变为"必备项"
    • 数据分析:从"了解概念"到"实际应用"
    • 模型理解:从"使用现成工具"到"自主优化调整"
    • AI素养:从"一般了解"到"精通应用",包括对局限的认知
  • 持续学习与创新思维

    • 建立终身学习习惯,跟踪行业技术前沿
    • 培养在不确定性中识别机会的敏锐度
    • 善于利用新兴工具解决传统问题
    • 保持对新技术的开放态度和批判性思考
Financial Machine Learning · Lecture 06
大模型技术特点及金融应用价值
  • 核心技术特点
    • 语境理解能力:理解复杂金融概念和专业术语
    • 推理能力:处理金融建模、风险分析的多步骤推理
    • 代码生成能力:生成和优化金融分析代码
    • 知识整合能力:融合多学科知识解决金融问题
    • 多模态处理:分析财报图表、市场数据可视化
    • 长上下文理解:处理完整财报、研究论文等长文本
  • 金融应用特定价值
    • 信息处理效率:快速汇总分析海量金融信息
    • 知识民主化:降低金融专业知识获取门槛
    • 工作流自动化:简化常规分析流程
    • 决策辅助能力:提供多角度分析参考
    • 教育培训价值:个性化金融知识传授
Financial Machine Learning · Lecture 06
大模型核心局限性
  • 幻觉问题
    • 事实性错误:可能生成虚构的金融数据、市场事件或法规
    • 公式错误:复杂金融模型推导可能出现错误
    • 伪专业性:以自信口吻提供错误金融知识
    • 表面连贯性:生成看似合理但逻辑有缺陷的金融分析
    • OpenAI在GPT-4技术报告中指出,幻觉问题在依赖精确性的金融领域尤为突出
  • 时效性限制:
    • 训练数据截止问题:无法获取最新市场事件、政策变化
    • 最新研究缺失:可能缺少对最新金融学术研究的了解
    • 法规更新滞后:无法反映最新金融监管框架变化
  • 数值和定量能力局限:
    • 数学推理不稳定:在复杂金融建模中可能出现计算错误
    • 精度问题:在要求高精度的金融计算中可能不够准确
    • 统计推断弱点:可能错误应用统计方法
  • 深度专业知识不足
    • 细分领域专业度:对特定金融工具或市场的专业知识深度不足
    • 区域性金融环境:对不同国家和地区金融体系的特性理解有限
    • 金融理论前沿:对最前沿金融理论的掌握不全面
    • 实操经验缺乏:缺少实际金融操作经验导致建议可能脱离实际

Financial Machine Learning · Lecture 06
金融工程应用场景详析:大学生学习场景
  • 概念理解与课程辅导

    • 深度解析复杂金融理论
    • 公式推导辅助
    • 个性化学习路径设计
    • 概念验证检查
  • 编程技能提升

    • 金融算法代码生成
    • 代码解释与优化
    • 编程问题排查
    • 代码逻辑验证
  • 实践项目支持

    • 创新性金融工程项目构思
    • 数据分析流程指导
    • 研究设计辅助
    • 结果合理性检验
  • 学术写作辅助

    • 论文结构规划
    • 文献综述支持
    • 专业表达优化
    • 引用确认机制
Financial Machine Learning · Lecture 06
金融工程应用场景详析:专业人士工作场景
  • 金融分析与建模

    • 量化策略设计:技术指标、基本面交易策略
    • 风险评估模型:VaR模型、压力测试场景
    • 资产定价应用:CAPM、APT、Fama-French模型
    • 结构化产品设计:复杂衍生品定价模型
    • 模型验证流程:建立严格的输出验证机制
  • 数据处理与可视化

    • 数据清洗自动化:处理金融时间序列异常值、缺失值
    • 高级数据可视化:生成复杂金融数据图表代码
    • 大规模数据分析:简化海量市场数据处理流程

报告与文档生成

  • 投资研究报告:生成结构化市场分析报告
  • 风险评估文档:编写合规要求的风险评估文件
  • 客户沟通材料:转化复杂金融分析为客户可理解内容
  • 监管合规文档:协助编写符合监管要求的文档
  • 事实核查流程:建立严格的报告内容验证机制
Financial Machine Learning · Lecture 06
金融工程应用场景详析:学术研究场景
  • 研究设计与方法论

    • 研究问题形成:精炼金融研究问题,构建研究假设
    • 研究方法选择:为特定金融问题选择适合的实证方法
    • 创新点识别:在已有研究基础上发现创新空间
    • 方法论局限分析:探讨研究方法的潜在缺陷
  • 高级技术实现

    • 金融模型实现:将理论模型转化为可执行代码
    • 实证分析工具:开发面板数据、时间序列等分析工具
    • 大规模数据处理:设计高效金融大数据处理流程
    • 代码和结果验证:建立系统性验证生成代码的有效性
  • 学术成果产出

    • 研究论文撰写:协助学术论文各部分写作
    • 文献引用管理:组织和格式化学术引用
    • 同行评议回应:协助准备审稿意见的回应
    • 会议演示材料:准备研究成果展示材料
    • 内容交叉验证:确保生成内容的准确性
Financial Machine Learning · Lecture 06
应对大模型局限的策略:幻觉问题
  • 多源验证法

    • 交叉检查原则:通过多个独立来源验证模型提供的金融信息
    • 一级文献优先:直接参考原始学术论文、监管文件核实关键结论
    • 权威来源确认:使用官方金融机构网站、数据库验证数据和法规
  • 批判性接收策略

    • 零信任原则:对模型提供的所有金融数据和公式持怀疑态度
    • 假设性采用:将模型输出视为假设而非结论
    • 一致性测试:通过重复和变形问题测试回答一致性
Financial Machine Learning · Lecture 06
应对大模型局限的策略:时效性问题
  • 信息更新机制

    • 时间标记意识:明确识别模型知识的截止日期
    • 增量信息补充:向模型提供训练截止日后的关键金融事件
    • 差异化分析:对比模型输出与最新情况的差异
  • 实时数据融合

    • 工具链接合机制:结合实时金融数据API与模型使用
    • 最新数据引导:在提示中包含最新的关键数据点
    • 数据时效性标记:明确区分历史数据与最新数据
Financial Machine Learning · Lecture 06
应对大模型局限的策略:数值和计算能力
  • 专业工具协同

    • 计算任务分离:复杂金融计算交给专业软件(MATLAB、R、Python)
    • 结果验证机制:使用多种工具交叉验证计算结果
    • 模块化处理:将数值处理与概念分析任务分离
  • 精度控制框架

    • 精度要求前置:明确指定所需的计算精度
    • 单位一致性检查:验证金融计算中的单位一致性
    • 边界条件测试:测试模型在边界条件下的计算可靠性
Financial Machine Learning · Lecture 06
应对大模型局限的策略:专业深度问题
  • 专业知识补充

    • 专业背景提供:向模型提供具体金融细分领域的专业背景
    • 术语精确定义:明确定义专业金融术语的使用范围
    • 最新研究引入:引入最新研究成果作为参考点
  • 人机协作体系

    • 专家审核环节:建立专业人员审核模型输出的固定环节
    • 互补能力分工:明确人类专家与模型各自负责的领域
    • 决策责任明确:保持人类对关键金融决策的最终责任
Financial Machine Learning · Lecture 06
最佳实践建议:大学生
  • 学习增强策略

    • 概念递进学习法:先基础解释,再逐步深入复杂内容
    • 主动提问训练:培养提出高质量问题的能力
    • 知识验证习惯:交叉验证模型提供的金融知识点
    • 幻觉识别训练:学习识别模型输出中的不准确内容
  • 技能构建方法

    • 代码解释先于复制:要求模型解释生成的金融算法代码
    • 项目迭代法:利用模型反馈多次优化学习项目
    • 混合资源学习:结合教材、模型指导和实践的多维度学习
    • 错误分析能力:培养识别和纠正模型错误的能力
Financial Machine Learning · Lecture 06
最佳实践建议:专业人士
  • 工作流优化

    • 任务分解策略:将复杂金融分析任务分解为模型可处理单元
    • 人机协作流程:明确划分人类判断与AI辅助环节
    • 专业提示词库:构建金融专业领域的高效提示词集
    • 风险控制体系:制定AI辅助决策的风险防范措施
  • 专业能力提升

    • 工具互补原则:结合专业金融软件与大模型各自优势
    • 定制化使用模式:根据具体金融业务场景调整使用方式
    • 局限性映射:明确识别模型在特定金融任务中的局限
Financial Machine Learning · Lecture 06
最佳实践建议:学术研究
  • 研究辅助策略

    • 创意激发技术:使用模型进行研究思路头脑风暴
    • 多角度分析法:获取对研究问题的多维度解读
    • 文献整合框架:构建研究领域知识图谱
    • 幻觉防控机制:系统化检验模型生成的研究内容
  • 学术伦理实践

    • 贡献明确区分:清晰区分AI与研究者贡献
    • 透明使用原则:在论文方法部分明确说明AI辅助情况
    • 人类主导决策:保持研究方向和关键判断的人类主导性
    • 研究诚信维护:确保AI辅助不影响学术诚信标准
Financial Machine Learning · Lecture 06
金融工程领域AI伦理
  • 学术诚信与归因

    • 明确标注AI辅助内容,特别是在学术论文中
    • 维护创作和研究的真实性与原创性
    • 遵循学校、学术期刊关于AI使用的具体政策
  • 数据安全与隐私

    • 避免向公共模型提交敏感金融数据
    • 考虑使用本地部署模型处理机密信息
    • 预防模型训练数据污染风险
  • 负责任使用原则

    • 人类保持关键决策的最终责任
    • 建立AI辅助结果的验证机制
    • 避免过度依赖导致的技能退化
  • 公平与包容性

    • 警惕模型可能强化金融行业既有偏见
    • 注意可能的市场操纵或不公平优势问题
    • 确保AI辅助不扩大信息不对称和资源差距
Financial Machine Learning · Lecture 06
未来展望与挑战
  • 技术演进趋势

    • 模型能力边界:金融推理和计算能力将持续提升
    • 专业化程度:针对金融工程领域的专用模型将出现
    • 幻觉问题改善:模型准确性和可靠性将逐步提高
    • 工具生态整合:与专业金融软件的无缝集成
  • 潜在风险与挑战

    • 能力错估风险:高估模型能力导致的金融决策失误
    • 系统性风险:广泛采用相似模型可能导致的统一行为

    • 技能替代担忧:基础分析技能的潜在退化
    • 监管适应挑战:监管框架需适应AI辅助金融实践
  • 发展机遇

    • 教育模式变革:金融工程教育方法的根本性转变
    • 研究效率提升:加速金融创新周期
    • 专业门槛调整:重新定义金融专业能力标准
    • 跨学科整合:促进金融与计算科学的深度融合

Financial Machine Learning · Lecture 06

Part 2 · AI Agents

Financial Machine Learning · Lecture 06

为什么需要AI Agent?

LLM的局限性:

  • 单轮对话,缺乏持续性
  • 无法执行实际操作(交易、数据获取)
  • 知识截止于训练时间
  • 无法验证和迭代改进

Agent解决的问题:

  • 自主性:能够独立规划和执行复杂任务
  • 工具使用:连接真实世界的数据和系统
  • 持续性:维护记忆和状态
  • 适应性:根据反馈调整策略
Financial Machine Learning · Lecture 06

AI技术演进路径

[规则系统] → [机器学习] → [深度学习] → [LLM] → [AI Agent]
   ↓             ↓            ↓          ↓          ↓
  固定逻辑    特征工程     端到端学习   通用理解   自主行动

Agent的核心突破:

  • 从"理解"到"行动"的跨越
  • 从"单次响应"到"多步规划"的转变
  • 从"被动问答"到"主动探索"的进化

"Agent是LLM从'会说话'到'会做事'的关键一步" — OpenAI

Financial Machine Learning · Lecture 06

金融领域的Agent应用前景

应用场景 传统方式 Agent方式 价值提升
研报生成 分析师手工撰写(数天) FinRpt-Gen(3-4分钟) 效率提升100倍+
量化策略 规则系统+人工调参 FinAgent自主编排 风险控制更优
时序预测 单模型+人工特征 TSci多Agent流水线 MAE降低38.3%
科研探索 周级文献调研 SciAgents知识图谱 分钟级假设生成

关键数据点(来自案例研究):

  • FinRpt-Gen:人工评估一致性达90%
  • FinAgent:Sharpe比率2.63(vs SPY 1.86)
  • TSci:相对LLM基线MAE平均降低38.3%
Financial Machine Learning · Lecture 06

Agent的正式定义

OODA循环(Observe-Orient-Decide-Act):

Environment ←──→ [Observe] → [Orient] → [Decide] → [Act] → Tools/APIs
     ↑                                                        ↓
     └─────────────────── Feedback Loop ──────────────────────┘

Agent的四个必要能力:

  1. 观察能力:感知环境变化(工具返回、用户反馈)
  2. 定向能力:根据观察更新内部状态模型
  3. 决策能力:在多个可能动作中做出选择
  4. 行动能力:执行决策并获得反馈

缺失任何一环,系统就退化为传统Workflow

Financial Machine Learning · Lecture 06

Workflow vs Agent:本质区别

维度 Workflow(确定性管道) Agent(自适应系统)
状态管理 预定义条件函数(if-else) LLM推理动态决定
决策机制 编译时确定 运行时生成
错误处理 静态重试逻辑 自我诊断+策略调整
典型案例 FinRpt-Gen的9节点流水线 AI Scientist-v2的Debug Loop

判断标准:

  • 流程图是DAG(无回路)→ Workflow
  • 流程图有"若失败则..."的自循环 → Agent
  • 跳转逻辑由LLM动态决定 → Agent
Financial Machine Learning · Lecture 06

实例对比:FinRpt-Gen vs AI Scientist-v2

FinRpt-Gen(Workflow):

News提取 → Income分析 → Balance分析 → Cash分析 
    ↓           ↓            ↓           ↓
    └────────→ 综合分析 → 预测 → 报告生成
  • 9个Agent节点,固定流水线
  • 价值在于"分工"而非"决策"

AI Scientist-v2(Agent):

代码生成 → 执行 → [成功?] 
              ↓ 否        ↓ 是
        读取Traceback    进入下一阶段
              ↓
        调整策略重试(最多N次)
  • 包含Debug Loop:错误时自主修正
  • 体现"面对错误时的自主修正能力"

Financial Machine Learning · Lecture 06

核心设计维度:三元权衡

              自治性 (Autonomy)
                    ▲
                   /|\
                  / | \
                 /  |  \
                /   |   \
               /    |    \
              /     |     \
             /      |      \
            /       |       \
           ▼        ▼        ▼
     可控性              可观测性
   (Control)          (Observability)

核心问题:

  • 给Agent多少决策权?
  • 如何保证行为可追踪?
  • 出错时如何干预?
Financial Machine Learning · Lecture 06

维度一:自治性 vs 可控性

强自治系统(高熵模式):

特征 示例:SciAgents
决策权 每个Agent独立动作空间
协调机制 知识图谱共享+消息传递
适用场景 探索性任务、科研选题
风险 状态空间爆炸、成本失控

强可控系统(低熵模式):

特征 示例:FinAgent
决策权 中央控制器(Orchestrator)统一调度
协调机制 MCP协议+心跳监控+超时熔断
适用场景 生产环境、合规要求
风险 灵活性不足
Financial Machine Learning · Lecture 06

真实案例:FinAgent的可控设计

核心控制机制:

### MCP控制消息结构
control_message = {
    "node_type": "alpha_generation",
    "task_id": "uuid-xxx",
    "declared_inputs": {"schema": "..."},
    "policy_flags": {...},
    "timeout": 300,  ### 秒
    "retry_budget": 3
}

安全特性:

  • 心跳监控:检测Agent健康状态
  • UUID审计:每个决策唯一标识,支持全链路追踪
  • 数据隔离:隐藏realized returns,防止信息泄漏
  • Walk-forward验证:严格分离训练/回测/实时数据
Financial Machine Learning · Lecture 06

维度二:单体 vs 多体(认知负荷分解)

多体协作的核心优势:

优势 说明 案例
认知分工 每个Agent专注有限上下文 TSci的4角色流水线
并行处理 多Agent同时处理子任务 DeepResearchAgent
故障隔离 单Agent失效不导致系统崩溃 FinAgent的Agent池

设计模式选择:

  • Sequential Pipeline:有明确依赖关系(TSci)
  • Parallel Ensemble:需多视角分析(MoMoE)
  • Hierarchical Tree:复杂问题分解(SciAgent)
Financial Machine Learning · Lecture 06

真实案例:TSci的四Agent流水线

┌──────────┐     ┌──────────┐     ┌────────────┐     ┌──────────┐
│ Curator  │ ──→ │ Planner  │ ──→ │ Forecaster │ ──→ │ Reporter │
│ 数据治理  │     │ 模型选择  │     │  预测执行   │     │ 报告生成  │
└──────────┘     └──────────┘     └────────────┘     └──────────┘
     ↓                ↓                 ↓                 ↓
  清洗数据        选择模型组合        执行预测        生成解释性报告
  特征工程        超参优化           集成策略        可视化输出
  可视化          验证评估

设计亮点:

  • Leakage-safe:集成权重仅依赖验证集
  • 可解释性:自然语言解释每个决策
  • 性能提升:MAE相对LLM基线降低38.3%
Financial Machine Learning · Lecture 06

维度三:显式控制 vs 涌现协作

Graph-based控制流(LangGraph风格):

from langgraph.graph import StateGraph

graph = StateGraph(AgentState)
graph.add_node("think", think_node)
graph.add_node("act", act_node)
graph.add_node("respond", respond_node)

graph.add_edge("think", "act")
graph.add_conditional_edges("act", should_continue, {...})
  • 状态机思维,每个转移可追踪
  • 适合生产环境

Conversation-based涌现(AutoGen风格):

  • Agent通过自然语言消息协作
  • 复杂行为从简单规则涌现
  • 适合头脑风暴,但易失控

Financial Machine Learning · Lecture 06

多Agent系统协作模式一:Crew/Role/Task(SOP驱动)

核心思想: 将复杂任务分解为标准化角色和职责

Task Definition → Role Assignment → I/O Schema → Quality Gates

TSci实现示例:

角色 职责 输出
Curator 数据清洗、特征工程 标准化时序数据
Planner 基于特征选择模型 模型配置
Forecaster 执行预测计算 数值结果+置信区间
Reporter 生成可解释报告 结构化文档

关键设计决策:

  • 接口契约:定义角色间数据Schema
  • 质量网关:每环节设置验证Agent
  • 并行优化:识别无依赖关系的角色
Financial Machine Learning · Lecture 06

多Agent系统协作模式二:ReAct(推理-行动循环)

核心架构:

Thought → Action → Observation → Thought → ...

DeepAnalyze-8B的五动作Token实现:

Token 功能 说明
⟨Analyze⟩ 规划、推理、反思 决策思考阶段
⟨Understand⟩ 结构化数据理解 处理表格、数据库
⟨Code⟩ Python代码生成 数据交互实现
⟨Execute⟩ 环境执行+反馈 获取执行结果
⟨Answer⟩ 最终输出 生成答案

创新点: 动作内化到模型Token中,无需外部编排框架

Financial Machine Learning · Lecture 06

多Agent系统协作模式三:层级路由(Hierarchical Routing)

SciAgent的三层架构:

                    ┌──────────────┐
                    │ Coordinator  │  ← 元推理:域判断+难度评估+路由
                    │    Agent     │
                    └──────────────┘
                           │
           ┌───────────────┼───────────────┐
           ↓               ↓               ↓
    ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
    │Math Worker  │ │Physics Worker│ │Chem Worker │  ← 领域专家
    │  System     │ │   System    │ │   System   │
    └─────────────┘ └─────────────┘ └─────────────┘
           │               │               │
     Sub-agents      Sub-agents      Sub-agents     ← 具体执行

性能数据: IMO 2025得分36/42,超过金牌均值35.94

Financial Machine Learning · Lecture 06

多Agent系统协作模式四:批判-改进循环(Critique-Revision)

Denario的Idea模块实现:

┌─────────────┐         ┌─────────────┐
│  Idea Maker │ ──────→ │  Idea Hater │
│   生成创意    │         │   批判评估   │
└─────────────┘         └─────────────┘
       ↑                       │
       └───────── 改进 ────────┘

循环机制:

  1. Idea Maker生成研究创意
  2. Idea Hater批判可行性、科学价值
  3. Idea Maker根据反馈修订
  4. 重复N次迭代

应用场景: 质量控制、减少幻觉、提升一致性

Financial Machine Learning · Lecture 06

多Agent系统协作模式五:并行集成(Ensemble/MoA)

MoMoE架构:

          Input Prompt
               │
     ┌─────────┼─────────┐
     ↓         ↓         ↓
┌─────────┐┌─────────┐┌─────────┐
│ LLaMoE  ││ GPT-4o  ││DeepSeek │  ← 并行处理
└─────────┘└─────────┘└─────────┘
     │         │         │
     └────┬────┴────┬────┘
          ↓
    ┌───────────┐
    │Final Agent│  ← 综合决策
    │  (GPT-4o) │
    └───────────┘

性能: 金融情绪分类SOTA(Acc 75.5%, F1 76.6%)

风险: "多数错误偏置"——两个Agent同错会影响最终决策

Financial Machine Learning · Lecture 06

框架流派概览

流派 核心特征 代表案例 适用场景
A. 严谨编排派 状态机、审计、可回滚 FinAgent, LangGraph 金融交易、企业流程
B. 角色流水线派 清晰SOP、标准I/O FinRpt-Gen, TSci 研报生成、ETL
C. 自主研究平台派 端到端、试错、自我批判 AI Scientist-v2, Denario 科研实验、代码开发
D. 模型内生派 Action训练入Token DeepAnalyze-8B 高频低延迟任务
Financial Machine Learning · Lecture 06

流派A:严谨编排派(Orchestrated Graph)

代表:FinAgent

核心组件:

┌─────────────┐    ┌──────────────┐    ┌─────────────┐
│ MCP Gateway │───▶│ Agent Pool   │───▶│ Memory Agent│
│  (协议层)    │    │ (A2A通信)    │    │  (审计日志)  │
└─────────────┘    └──────────────┘    └─────────────┘

关键特性:

  • MCP协议:标准化Agent与环境交互
  • 心跳监控:检测健康状态,自动故障转移
  • UUID审计:每个决策唯一标识,全链路追踪
  • Walk-forward:严格数据隔离,防止泄漏

适用场景: 需要100%合规与可追溯的金融交易

Financial Machine Learning · Lecture 06

流派B:角色流水线派(Role-based Crew)

代表:FinRpt-Gen

9 Agent分工架构:

Information Extraction → Domain Analysis → Prediction
         ↓                     ↓               ↓
┌─────────────────┐    ┌─────────────┐    ┌──────────┐
│ News Extraction │    │Finance Anal │    │Prediction│
│ Income Extract  │ →  │ News Anal   │ →  │  Agent   │
│ Balance Extract │    │ Status Anal │    └──────────┘
│ Cash Extraction │    │ Risk Anal   │
└─────────────────┘    └─────────────┘

性能数据:

  • 生成效率:3-4分钟/报告
  • 人评一致性:90%与分析师一致
  • 推荐准确率:55%
Financial Machine Learning · Lecture 06

流派C:自主研究平台派(Autonomous Platform)

代表:The AI Scientist-v2

四阶段实验管理:

阶段 内容 停止条件
Stage 1 初步调查 最小原型成功执行
Stage 2 超参调优 训练曲线收敛
Stage 3 研究议程执行 计算预算耗尽
Stage 4 消融研究 完成组件重要性评估

Agentic Tree Search:

  • 节点包含:代码、错误、指标、图表、VLM反馈
  • 扩展策略:Best-first + Debug优先
  • 验证机制:Replication + Aggregation节点

成果: 首篇完全AI生成的同行评审接收论文

Financial Machine Learning · Lecture 06

流派D:模型内生派(Model-Native)

代表:DeepAnalyze-8B

核心创新: 将动作训练进模型Token

### 五动作Token示例
response = model.generate(
    "分析数据集...",
    actions=["⟨Analyze⟩", "⟨Understand⟩", "⟨Code⟩", 
             "⟨Execute⟩", "⟨Answer⟩"]
)
### 模型自动在动作间切换,无需外部编排

训练方法:

  1. 课程学习:单能力微调 → 多能力训练
  2. 轨迹合成:推理轨迹 + 交互轨迹
  3. 强化学习:GRPO + 混合奖励

性能: DataSciBench得分59.91,超过大多数专有模型

Financial Machine Learning · Lecture 06

案例一:FinAgent量化交易系统

  • 定位:从 raw data → signal → risk → portfolio → execution → audit 的完整交易系统
  • 架构:多 agent pools(data/alpha/risk/portfolio/execution…)由 orchestrator 通过 MCP 控制;池内协作用 A2Amemory agent 记审计状态
  • 机制:MCP 控制消息含 task_id/schema/timeout/retry/heartbeat;walk-forward 回测;隐藏 realized returns 等防泄漏;UUID 记录可回放
  • 亮点:强治理、强可追溯、强防泄漏;数值计算与 LLM 推理分离
  • 局限:可能牺牲部分收益换风控(股票实验 EW 回报高于 agentic);BTC 评估窗口短

系统架构:

Raw Data → Data Agents → Alpha Agents → Risk Agents 
    ↓           ↓            ↓             ↓
  清洗对齐    信号构建     风险计算      约束检查
                                           ↓
                 ← Portfolio Agents ← Execution
                        ↓
                   组合构建      订单执行

实验结果(股票交易,2024.04-2025.01):

指标 FinAgent S&P 500 等权组合
总收益 20.42% 16.60% 47.46%
波动率 11.83% 13.49% 22.54%
Sharpe 2.63 1.86 3.37
最大回撤 -3.59% -8.89% -16.21%

关键洞察: Agent策略牺牲部分收益换取更严格的风险控制

Financial Machine Learning · Lecture 06

案例一续:FinAgent的安全设计

数据泄漏防护机制:

### 上下文协议:严格排除敏感数据
context_protocol = {
    "exclude": [
        "raw_price_series_test_period",
        "future_timestamps_labels",
        "evaluation_window_objectives"
    ],
    "include_only": [
        "published_literature",
        "training_window_summaries"
    ]
}

UUID记忆机制:

UUID = SHA256(role || task || params || time)
### 支持:不可变性、身份匹配、安全检索、命名空间隔离
Financial Machine Learning · Lecture 06

案例二:FinRpt-Gen研报生成

任务定义: ERR (Expert Recommendation Rationale) 生成

  • 定位:研报/投顾“推荐理由(ERR)”生成与评测基准(FinRpt)
  • 架构:三段式:信息抽取→综合分析→预测;9 个角色(新闻/三表抽取、财务/新闻/经营/风险分析、预测)+ Judge
  • 机制:采集数据 (S=[O,F,A,N,P,M]);Judge Agent(GPT-4o)pairwise 对比+交换顺序算 Adjusted Win Rate
  • 亮点:数据增强三件套(Rating Corrector / ERR Corrector / Polisher);11 指标评测;3–4 分钟/报告
  • 局限:多 API/爬虫链路;优化与评测仍含自动指标与 LLM judge 偏差风险
Financial Machine Learning · Lecture 06

数据收集模块(6类数据):

数据类型 符号 来源
概况信息 O 公司基本面
财务指标 F 财务报表
公告信息 A 公司公告
新闻资讯 N 财经新闻
股价历史 P 行情数据
市场指数 M 指数数据

数据增强模块:

  • Recommendation Rating Corrector
  • Expert-written ERRs Corrector
  • LLM Polisher
Financial Machine Learning · Lecture 06

案例二续:FinRpt-Gen评估体系

评估指标:

类别 指标 说明
基础 CompletionRate 格式完成率
基础 Accuracy 推荐准确率
文本 BERTScore 语义相似度
文本 ROUGE-L 文本重叠度
数值 NumberRate 数值引用率
LLM FN/News/CMI/Invest/Risk/Writing 6项质量评分

Judge Agent评估:

  • 使用GPT-4o进行Pairwise比较
  • 交换顺序判断消除偏差
  • 计算Adjusted Win Rate
Financial Machine Learning · Lecture 06

案例三:TSci时序预测

创新点:首个LLM驱动的通用时序预测框架

Curator的数据处理:

Q = {
    "statistics": {"mean", "std", "min", "max", "trend"},
    "missing_info": M,
    "outlier_info": O,
    "process_strategy": π
}

V = {
    "time_series_overview",      ### 移动平均+标准差
    "decomposition_analysis",    ### 趋势/季节/残差
    "autocorrelation_analysis"   ### ACF/PACF
}

Leakage-safe设计:

  • 集成权重仅依赖验证集
  • 滚动窗口估计统计量
  • 水平方向固定权重
Financial Machine Learning · Lecture 06

案例三续:TSci性能表现

基准测试结果(8个公开数据集):

数据集 TSci MAE GPT-4o MAE 改进幅度
ETTh1 2.02 2.01e1 90.0%
ETTh2 4.91 1.82e1 73.0%
ETTm1 2.73 5.75 52.5%
Weather 2.91e1 6.13e1 52.5%
Exchange 4.50e-2 1.60e-1 71.9%
ILI 1.41e5 2.17e5 35.0%

平均改进:相对LLM基线MAE降低38.3%

Financial Machine Learning · Lecture 06

案例四:SciAgents科研假设生成

  • 定位:基于本体知识图谱的科研假设/提案生成 + 新颖性评估
  • 架构:Human/Planner/Assistant/GroupChatManager + Ontologist/Scientist/Critic + 多个字段扩写专用 agent
  • 机制:从 KG 路径采样(含随机 waypoint)生成子图上下文;产出 7 字段 JSON(hypothesis/outcome/…);Semantic Scholar API 评 Novelty/Feasibility(1–10)
  • 亮点:把“知识图→多代理扩写→批判→文献新颖性校验”做成可复用流水线
  • 局限:偏 ideation/plan,闭环验证仍依赖外部仿真/实验引擎与资源
Financial Machine Learning · Lecture 06

知识图谱驱动:

  • 33,159节点 + 48,753边
  • 来自约1,000篇生物材料论文
  • 92个社区(主题聚类)

多Agent协作流程:

Human → Planner → Ontologist → Scientist 1 → Scientist 2 → Critic
  ↓         ↓          ↓            ↓              ↓          ↓
 提问    规划步骤    定义关系     生成假设       扩展细节    批判改进

新颖性评估:

  • Novelty Assistant调用Semantic Scholar API
  • 检索相关文献,评估重叠度
  • 输出Novelty/Feasibility评分(1-10)
Financial Machine Learning · Lecture 06

OpenAI:构建Agent的三层架构

Agent = Model + Tools + Instructions

┌─────────────────────────────────────┐
│           Instructions              │  ← 行为约束和目标定义
│  (系统提示、安全护栏、输出格式)       │
├─────────────────────────────────────┤
│              Tools                  │  ← 能力扩展
│  (函数调用、API集成、代码执行)       │
├─────────────────────────────────────┤
│              Model                  │  ← 推理核心
│  (GPT-4、Claude、Gemini等)          │
└─────────────────────────────────────┘

关键原则:

  1. 从简单开始,逐步增加复杂性
  2. 验证和升级机制不是可选的
  3. 使用guardrails确保安全可靠
Financial Machine Learning · Lecture 06

OpenAI:何时使用Agent?

适合Agent的场景:

  • ✅ 复杂决策,规则系统难以覆盖
  • ✅ 非结构化数据处理
  • ✅ 需要多步推理和规划
  • ✅ 传统自动化难以适应的工作流

不适合Agent的场景:

  • ❌ 简单、确定性的任务
  • ❌ 延迟要求极高的场景
  • ❌ 错误成本极高且无法人工介入
  • ❌ 已有成熟规则系统且运行良好

"Agents are suitable for complex decision-making, unstructured data, and workflows where traditional rule-based systems fall short." — OpenAI

Financial Machine Learning · Lecture 06

Anthropic:六种可组合模式

模式 描述 适用场景
Prompt Chaining 顺序处理,每步基于前步 多阶段文档处理
Routing 根据输入分类路由 客服分流、意图识别
Parallelization 并行处理后聚合 多视角分析、投票
Orchestrator-Worker 中央调度+专业执行 复杂项目管理
Evaluator-Optimizer 生成+评估迭代 内容优化、代码改进
Autonomous Agent 完全自主的循环 开放性研究任务

核心建议: 优先使用简单、可组合的模式

Financial Machine Learning · Lecture 06

Anthropic:有效上下文工程

上下文的四个维度:

┌─────────────────────────────────────────┐
│              Context Window             │
├──────────┬──────────┬──────────┬────────┤
│ System   │ Task     │ Memory   │ Tools  │
│ Prompt   │ Context  │ State    │ Info   │
│ 角色定义  │ 当前任务  │ 历史记忆  │ 工具说明│
└──────────┴──────────┴──────────┴────────┘

最佳实践:

  1. 精简系统提示:只包含必要的角色和约束
  2. 动态任务上下文:根据阶段调整信息量
  3. 结构化记忆:压缩历史,保留关键决策
  4. 清晰工具描述:明确输入输出格式
Financial Machine Learning · Lecture 06

Google:Agent的认知架构

三层认知模型:

┌─────────────────────────────────────┐
│        Orchestration Layer          │  ← 规划与协调
│     (ReAct, Plan-and-Execute)       │
├─────────────────────────────────────┤
│          Memory Layer               │  ← 状态与历史
│   (Short-term, Long-term, Entity)   │
├─────────────────────────────────────┤
│          Tools Layer                │  ← 环境交互
│   (APIs, Databases, Executors)      │
└─────────────────────────────────────┘

规划策略:

  • ReAct:交替思考和行动
  • Plan-and-Execute:先整体规划再执行
  • Self-Reflection:执行后反思改进
Financial Machine Learning · Lecture 06

行业共识:Agent开发最佳实践

1. 渐进式复杂性(Start Simple)

简单Prompt → Chain → Router → Multi-Agent

2. 强制性护栏(Guardrails)

  • 输入验证:过滤恶意或无效输入
  • 输出校验:检查格式和安全性
  • 行为约束:限制工具调用范围

3. 可观测性优先(Observability First)

  • 记录每个决策点
  • 追踪工具调用链
  • 支持状态回放和调试

4. 人在环设计(Human-in-the-Loop)

  • 关键决策需人工确认
  • 异常情况自动升级
  • 保留人工接管接口
Financial Machine Learning · Lecture 06

常见失败模式

1. 死循环与成本爆炸

### Denario的解决方案
config = {
    "nfails": 5,      ### 最大失败次数
    "nrounds": 20,    ### 最大对话轮次
    "timeout": 3600   ### 超时秒数
}

2. 多数偏置(MoMoE的教训)

  • 风险:多个Agent犯相同错误 → 最终决策被带偏
  • 对策:引入外部验证器(如Semantic Scholar API)

3. 幻觉传播

  • 单Agent幻觉 → 多Agent放大
  • 对策:分阶段验收 + Judge Agent
Financial Machine Learning · Lecture 06

状态管理:分布式一致性

FinAgent的Memory Agent设计:

class SystemState:
    def __init__(self):
        self.global_state = {}      ### 全局共享状态
        self.agent_states = {}      ### 各Agent私有状态
        self.message_queue = []     ### 消息队列
        self.checkpoint_stack = []  ### 状态快照栈
    
    def create_checkpoint(self, checkpoint_id: str):
        """创建状态检查点,支持回滚"""
        snapshot = {
            'id': checkpoint_id,
            'timestamp': time.now(),
            'global_state': deepcopy(self.global_state),
            'agent_states': deepcopy(self.agent_states)
        }
        self.checkpoint_stack.append(snapshot)
Financial Machine Learning · Lecture 06

熔断器模式(Circuit Breaker)

参考Denario的故障处理:

class CircuitBreaker:
    def __init__(self, failure_threshold=5, timeout=60):
        self.failure_count = 0
        self.state = 'CLOSED'  ### CLOSED, OPEN, HALF_OPEN
    
    def call(self, func, *args):
        if self.state == 'OPEN':
            if time.now() - self.last_failure < self.timeout:
                raise CircuitBreakerOpenException()
            self.state = 'HALF_OPEN'
        
        try:
            result = func(*args)
            self.on_success()
            return result
        except Exception as e:
            self.on_failure()
            raise e
Financial Machine Learning · Lecture 06

全链路追踪

追踪系统设计:

class ExecutionTrace:
    def start_span(self, agent_id: str, operation: str):
        span = {
            'span_id': generate_uuid(),
            'parent_span_id': self.current_span_id(),
            'agent_id': agent_id,
            'operation': operation,
            'start_time': time.now(),
            'context': deepcopy(self.context)
        }
        return span

关键追踪点:

追踪点 记录内容 用途
决策点 推理过程和依据 复盘和改进
工具调用 输入/输出/耗时 性能优化
状态变迁 每次状态变化 问题定位
错误处理 异常和恢复 可靠性分析
Financial Machine Learning · Lecture 06

可观测性度量体系

三层指标设计:

层级 指标示例 采集方式
系统级 吞吐量、延迟、错误率、资源利用率 Prometheus/Grafana
Agent级 决策质量、学习效率、协作效率、工具使用率 自定义埋点
业务级 任务完成率、用户满意度、成本效益比 业务系统

告警规则示例:

- alert: AgentHighErrorRate
  expr: agent_error_rate > 0.1
  for: 5m
  labels:
    severity: critical
Financial Machine Learning · Lecture 06

Agent技术的演进趋势一:小模型协作(Small Models, Big Collaboration)

从"一个大模型解决所有"到"多个专用小模型协作"

实践路径:

  1. 垂直领域微调

    • 针对代码生成、数据分析训练7B/8B专用模型
    • 示例:DeepAnalyze-8B在数据科学任务上超越GPT-4
  2. 模型蒸馏链

    • 大模型知识蒸馏到小模型
    • 保持性能同时降低成本
  3. 混合推理

    • 小模型处理常见场景
    • 大模型处理复杂边缘情况

TSci证明: 精心编排的专用Agent组合可以击败通用LLM

Financial Machine Learning · Lecture 06

Agent技术的演进趋势二:协议标准化(MCP & A2A)

Model Context Protocol (MCP):

┌─────────────┐         ┌─────────────┐
│  MCP Client │ ←─────→ │  MCP Server │
│  (Agent)    │         │  (工具/数据) │
└─────────────┘         └─────────────┘
  • Anthropic推出,已被主要AI实验室采用
  • 统一Agent与工具的交互接口
  • 已有约10,000个MCP服务器

Agent-to-Agent (A2A):

  • Google推出,Linux基金会托管
  • Agent间安全通信和协调
  • Agent Cards:描述能力和连接信息

FinAgent已率先采用MCP进行Agent编排

Financial Machine Learning · Lecture 06

Agent技术的演进趋势三:从Prompt工程到Flow工程

范式转变:

Prompt Engineering → Context Engineering → Flow Engineering
     ↓                      ↓                    ↓
   单次交互              多轮对话             多步工作流

Flow Engineering核心:

  1. 轨迹数据收集

    • 系统性收集高质量人机交互轨迹
    • DeepAnalyze-8B:DataScience-Instruct-500K
  2. 模式挖掘

    • 从交互数据提取成功的协作模式
    • 识别高效决策路径
  1. 自适应优化
    • 基于历史表现动态调整策略
    • 持续学习和改进
Financial Machine Learning · Lecture 06

Agent技术的演进趋势四:Agent评估与基准

新兴评估框架:

基准 评估维度 代表性
SWE-Bench 软件工程Agent 代码修复能力
GPQA 科学推理 专家级问答
DataSciBench 数据科学 端到端分析
DABStep 数据分析 真实世界任务

MLflow 3功能:

  • Agent性能追踪
  • 提示策略比较
  • 多步工作流评估

挑战: 开放性任务评估仍依赖LLM-as-Judge

Financial Machine Learning · Lecture 06

核心要点回顾

1. Agent定义

  • 具备OODA循环的自适应系统
  • 区分Workflow和Agent的关键:动态决策能力

2. 设计维度

  • 自治性 vs 可控性:根据场景选择
  • 单体 vs 多体:认知负荷分解
  • 显式 vs 涌现:工程化程度

3. 协作模式

  • Crew/Role/Task、ReAct、层级路由、批判-改进、并行集成

4. 框架选型

  • 严谨编排派(金融交易)→ 角色流水线派(报告生成)
  • 自主研究平台派(科研)→ 模型内生派(高频任务)
Financial Machine Learning · Lecture 06

选型决策框架

                    ┌─────────────────┐
                    │ 任务容错率如何? │
                    └────────┬────────┘
                             │
              ┌──────────────┴──────────────┐
              ↓                              ↓
        低容错(金融)                   高容错(研究)
              ↓                              ↓
     ┌────────┴────────┐          ┌─────────┴─────────┐
     │ 流程是否确定?  │          │ 需要多大自主性?  │
     └────────┬────────┘          └─────────┬─────────┘
              │                              │
        ┌─────┴─────┐                 ┌──────┴──────┐
        ↓           ↓                 ↓             ↓
     确定性      需要适应          强自主         可控自治
        ↓           ↓                 ↓             ↓
    FinRpt-Gen  FinAgent        AI Scientist    Denario
Financial Machine Learning · Lecture 06

场景-框架推荐表

场景 推荐框架 理由
合规量化交易 FinAgent MCP控制+审计回放+防泄漏
研报/投顾理由 FinRpt-Gen 9 Agent分工+Judge评估
时序预测+解释 TSci 4 Agent流水线+leakage-safe
科研实验自动化 AI Scientist-v2 4阶段+树搜索+VLM审阅
科研选题/假设 SciAgents KG路径采样+文献校验
数据分析Copilot DeepAnalyze-8B 动作Token+无编排
情感分类集成 MoMoE 并行专家+最终仲裁
Financial Machine Learning · Lecture 06

实践建议

给金融专业学生的建议:

  1. 从简单开始

    • 先掌握单Agent + 工具调用
    • 再学习多Agent编排
  2. 重视可靠性

    • 金融场景对错误零容忍
    • 审计、回滚、监控是必需品
  3. 理解权衡

    • 没有万能框架
    • 根据场景选择合适的自治度
  1. 关注协议标准

    • MCP和A2A是未来趋势
    • 提前学习标准化接口
  2. 持续学习

    • 领域快速演进
    • 关注OpenAI/Anthropic/Google的最新指南
Financial Machine Learning · Lecture 06

推荐资源

官方指南:

  • OpenAI: "A Practical Guide to Building Agents"
  • Anthropic: "Building Effective Agents"
  • Google: "Agents" White Paper

开发框架:

  • LangGraph(Python/JavaScript)
  • AutoGen(微软开源)
  • CrewAI(多Agent协作)

学术资源:

  • FinAgent、TSci、DeepAnalyze等论文
  • arXiv上的最新Agent研究

实践项目:

  • 从FRED数据Agent开始
  • 构建简单的研报生成流水线
Financial Machine Learning · Lecture 06

讨论问题

  1. 在你的研究领域,哪些任务最适合用Agent来解决?

  2. 强自治和强可控之间,金融应用应该如何权衡?

  3. 如何评估一个Agent系统的可靠性?

  4. 多Agent系统的"多数偏置"问题有什么好的解决方案?

  5. 未来2-3年,Agent技术会如何改变金融行业?

Financial Machine Learning · Lecture 06

附录A:关键术语表

术语 定义
Agent 具备感知-推理-行动循环的自主系统
MCP Model Context Protocol,Agent与工具的标准接口
A2A Agent-to-Agent,Agent间通信协议
ReAct Reasoning and Acting,推理-行动交替模式
Walk-forward 向前验证,严格时序数据分离
Guardrails 护栏,Agent行为约束机制
OODA Observe-Orient-Decide-Act循环
Financial Machine Learning · Lecture 06

附录B:框架对照表

框架 流派 优势 不足 成熟度
FinAgent 编排+协议 MCP控制、防泄漏 收益不一定最优
Denario 编排+科研 模块化、透明 可能幻觉
AI Scientist-v2 自主平台 端到端、树搜索 质量波动
SciAgent 层级协作 多域适应 部分领域未完善 中高
TSci 角色流水线 可解释、防泄漏 单变量
DeepAnalyze-8B 模型内生 无编排、高效 评估难
Financial Machine Learning · Lecture 06

Thank You

LLMs and AI Agents in Finance


Questions welcome!

Financial Machine Learning · Lecture 06

<small>Total duration: 4 hours (240 minutes)</small>

**Duration: 30 minutes**

-

<font size=5> <div align="center"> <table rules="none"> <tr> <td> <div style="width: 400pt"> <center> #### [大语言模型与金融工程](#内容概要) </center> </div> </td> <td> <div style="width: 400pt"> - [**大语言模型的基本原理**](#基础架构与核心原理) - [金融领域提示词工程](#金融领域提示词工程示例) - [金融应用本地部署方案](#1-金融应用硬件配置参考) - [金融模型关键参数](#1-主要参数总览) - [大语言模型辅助金融学习研究工作](#背景分析) </div> </td> </tr> </table> </div> </font> ---

**Duration: 30 minutes**

-