LLMs & AI Agents in Finance

3. 迭代优化（加入“自检清单/反证/可复现”）

原理：厂商建议用“分步迭代 + 自我校验”；尤其金融要加“可复现与证据链”

- 初始提示：
"分析比特币价格"

- 第一次优化（补时间范围与视角）：
"分析2024年比特币价格走势及主要驱动因素（宏观、链上、市场结构）"

- 最终优化（加结构 + 证据 + 约束 + 复现）：
你是量化分析师，请写一份2024年比特币技术分析备忘录。要求：

输入：
- 我将提供BTC日频价格数据（CSV）与关键事件清单（如ETF、减半时间）
- 若缺数据，请先列出你需要的字段与频率

输出结构：
1) 结论摘要（5条，每条≤20字）
2) 关键位：支撑/阻力（说明方法：斐波那契+历史高低点；给出计算步骤）
3) 趋势信号：10/50/200日均线交叉（给出发生日期与后验表现需标注“仅回溯不代表未来”）
4) 动量指标：RSI、MACD解释 + 当前读数（如无数据则给计算方式）
5) 资金流：ETF资金流（若我未提供则列“需数据源”）
6) 减半机制：用供给变化路径解释，不做确定性价格预测
7) 风险提示：流动性、监管、极端波动、尾部风险

代码要求：
- 给出可运行Python代码片段：读取CSV→计算指标→输出最近一日信号
自检清单（输出末尾）：
- 是否有无来源数字？有则标“需核实”
- 是否把相关性当因果？如有，加入反例或替代解释
- 结论是否可复现（数据/参数/窗口）？

配置等级	GPU	内存	存储	适用金融场景
入门级	RTX 3060 12GB	16GB	256GB SSD	个人投资分析、课程项目开发
推荐级	RTX 4080 16GB	32GB	512GB SSD	量化策略回测、小型团队研究
专业级	RTX 4090 24GB	64GB	1TB SSD	多资产模型训练、高频数据处理

模型名称	最小显存	金融能力	部署难度	推荐场景	特点
LLaMA-2-7b	8GB	一般	中等	基础分析	可微调为金融专用，社区支持好
BloombergGPT	10GB	优秀	复杂	专业分析	金融领域专训，术语理解精准
FinGPT	8GB	优秀	中等	A股分析	中文财经优化，适合本土市场
Qwen-7B-Chat	8GB	良好	简单	综合应用	中英双语优秀，金融工具调用强
DeepSeek-Math	8GB	优秀	中等	金融建模	数学推理能力强，适合复杂定价
Mistral-7b-Instruct	8GB	良好	简单	投资助手	轻量高效，适合个人投研
FinMA	8GB	优秀	中等	金融分析	针对金融领域微调，术语理解准确
Phi-2	3GB	一般	简单	小型应用	超轻量，适合基础金融计算

部署方式	优势	劣势	适用金融场景
全量精度	精确度最高	资源占用大	衍生品定价、风险模型
半精度(FP16)	性能平衡	轻微精度损失	日常量化分析、投研报告
INT8量化	资源占用低	复杂计算精度降低	市场情绪分析、初筛股票
CPU部署	无需GPU	速度慢、难处理大数据	课堂演示、概念验证

框架名称	金融特性	部署难度	性能表现	主要金融应用场景
Ollama	- 快速部署金融模型 - 金融模型一键安装 - 本地私有部署	极简	良好	个人投研，课程项目开发
vLLM	- 高性能金融分析 - 处理大规模市场数据 - 企业级稳定性	中等	极佳	机构级量化分析，高频数据处理
LangChain	- 金融数据接入 - 多源数据链接 - 工具调用框架	中等	良好	多数据源分析，复杂金融应用
FastChat	- OpenAI接口兼容 - 多金融模型支持 - 量化策略API	简单	良好	量化交易接口，研究原型
FinNLP	- 金融NLP专用 - 情感分析优化 - 财报处理功能	中等	良好	财经文本分析，舆情监控

功能特性	Ollama	vLLM	LangChain	FastChat	FinNLP
一键部署	✓	×	△	△	×
量化支持	✓	✓	△	✓	✓
金融API集成	×	△	✓	△	✓
数据隐私保护	✓	✓	✓	✓	✓
多模型协作	×	△	✓	✓	△
时序数据处理	×	×	✓	×	✓
金融知识增强	×	×	✓	×	✓
性能监控	×	✓	△	△	×

参数名称	取值范围	默认值	作用描述
Temperature	0.0-2.0	0.7	控制随机性/创造性
Top_p (核采样)	0.0-1.0	0.9	控制累积概率阈值
Top_k	0-100	50	限制候选词数量
Presence Penalty	-2.0-2.0	0.0	抑制已出现内容
Frequency Penalty	-2.0-2.0	0.0	抑制高频内容
Max Tokens	1-∞	模型相关	限制生成长度
Stop Sequences	自定义	无	终止生成标记

策略	优势	劣势	适用场景
纯Temperature	控制简单直观	可能出现低概率词	通用场景
Top_p采样	动态概率阈值	参数较难调优	需要稳定性
Top_k采样	限制选择范围	可能损失好的候选	受限场景
混合策略	更精细的控制	调参复杂	专业应用

参数类型	低值效果	高值效果	使用建议
Presence惩罚	允许重复	鼓励新内容	长文生成
Frequency惩罚	允许常用词	倾向用词多样	创意写作

应用场景	传统方式	Agent方式	价值提升
研报生成	分析师手工撰写（数天）	FinRpt-Gen（3-4分钟）	效率提升100倍+
量化策略	规则系统+人工调参	FinAgent自主编排	风险控制更优
时序预测	单模型+人工特征	TSci多Agent流水线	MAE降低38.3%
科研探索	周级文献调研	SciAgents知识图谱	分钟级假设生成

维度	Workflow（确定性管道）	Agent（自适应系统）
状态管理	预定义条件函数（if-else）	LLM推理动态决定
决策机制	编译时确定	运行时生成
错误处理	静态重试逻辑	自我诊断+策略调整
典型案例	FinRpt-Gen的9节点流水线	AI Scientist-v2的Debug Loop

优势	说明	案例
认知分工	每个Agent专注有限上下文	TSci的4角色流水线
并行处理	多Agent同时处理子任务	DeepResearchAgent
故障隔离	单Agent失效不导致系统崩溃	FinAgent的Agent池

Token	功能	说明
⟨Analyze⟩	规划、推理、反思	决策思考阶段
⟨Understand⟩	结构化数据理解	处理表格、数据库
⟨Code⟩	Python代码生成	数据交互实现
⟨Execute⟩	环境执行+反馈	获取执行结果
⟨Answer⟩	最终输出	生成答案

流派	核心特征	代表案例	适用场景
A. 严谨编排派	状态机、审计、可回滚	FinAgent, LangGraph	金融交易、企业流程
B. 角色流水线派	清晰SOP、标准I/O	FinRpt-Gen, TSci	研报生成、ETL
C. 自主研究平台派	端到端、试错、自我批判	AI Scientist-v2, Denario	科研实验、代码开发
D. 模型内生派	Action训练入Token	DeepAnalyze-8B	高频低延迟任务

阶段	内容	停止条件
Stage 1	初步调查	最小原型成功执行
Stage 2	超参调优	训练曲线收敛
Stage 3	研究议程执行	计算预算耗尽
Stage 4	消融研究	完成组件重要性评估

数据集	TSci MAE	GPT-4o MAE	改进幅度
ETTh1	2.02	2.01e1	90.0%
ETTh2	4.91	1.82e1	73.0%
ETTm1	2.73	5.75	52.5%
Weather	2.91e1	6.13e1	52.5%
Exchange	4.50e-2	1.60e-1	71.9%
ILI	1.41e5	2.17e5	35.0%

模式	描述	适用场景
Prompt Chaining	顺序处理，每步基于前步	多阶段文档处理
Routing	根据输入分类路由	客服分流、意图识别
Parallelization	并行处理后聚合	多视角分析、投票
Orchestrator-Worker	中央调度+专业执行	复杂项目管理
Evaluator-Optimizer	生成+评估迭代	内容优化、代码改进
Autonomous Agent	完全自主的循环	开放性研究任务

层级	指标示例	采集方式
系统级	吞吐量、延迟、错误率、资源利用率	Prometheus/Grafana
Agent级	决策质量、学习效率、协作效率、工具使用率	自定义埋点
业务级	任务完成率、用户满意度、成本效益比	业务系统

基准	评估维度	代表性
SWE-Bench	软件工程Agent	代码修复能力
GPQA	科学推理	专家级问答
DataSciBench	数据科学	端到端分析
DABStep	数据分析	真实世界任务

场景	推荐框架	理由
合规量化交易	FinAgent	MCP控制+审计回放+防泄漏
研报/投顾理由	FinRpt-Gen	9 Agent分工+Judge评估
时序预测+解释	TSci	4 Agent流水线+leakage-safe
科研实验自动化	AI Scientist-v2	4阶段+树搜索+VLM审阅
科研选题/假设	SciAgents	KG路径采样+文献校验
数据分析Copilot	DeepAnalyze-8B	动作Token+无编排
情感分类集成	MoMoE	并行专家+最终仲裁

术语	定义
Agent	具备感知-推理-行动循环的自主系统
MCP	Model Context Protocol，Agent与工具的标准接口
A2A	Agent-to-Agent，Agent间通信协议
ReAct	Reasoning and Acting，推理-行动交替模式
Walk-forward	向前验证，严格时序数据分离
Guardrails	护栏，Agent行为约束机制
OODA	Observe-Orient-Decide-Act循环

框架	流派	优势	不足	成熟度
FinAgent	编排+协议	MCP控制、防泄漏	收益不一定最优	高
Denario	编排+科研	模块化、透明	可能幻觉	中
AI Scientist-v2	自主平台	端到端、树搜索	质量波动	中
SciAgent	层级协作	多域适应	部分领域未完善	中高
TSci	角色流水线	可解释、防泄漏	单变量	中
DeepAnalyze-8B	模型内生	无编排、高效	评估难	中

Lecture 06

LLMs and AI Agents in Finance

Outlines

Part 1 · Large Language Models

Transformer基础架构与核心原理

1. 基础架构

2. 核心技术原理

金融领域应用场景

金融工程专业应用案例

OpenAI（GPT 系列）：综合最均衡

Anthropic（Claude 系列）：长文档与审慎写作

Google（Gemini 系列）：多模态与文档生态

DeepSeek（DeepSeek 系列）：性价比与批处理

根据具体任务选择模型

推荐组合：OpenAI（主模型）+ Anthropic（长文档/合规）+ DeepSeek（批处理）

注意事项

大语言模型与金融工程

金融领域提示词工程示例

金融应用最佳实践（按厂商建议补强：示例驱动、校验、拒答边界）

可选加页：通用“防跑偏”提示模板（适用于金融作业/研报）

大语言模型与金融工程

1. 金融应用硬件配置参考

2. 金融专用模型选择建议

3. 金融应用部署方式对比

1. 主流金融应用部署框架对比

2. 金融应用特性对比

3. 金融开发框架选择

金融工程应用选型建议

1. 应用场景分类

2. 金融应用决策树

3. 框架组合应用

大语言模型与金融工程

1. 主要参数总览

2. 参数效果对比

3. 常用参数组合推荐

4. 高级应用技巧

5. 最佳实践建议

大语言模型与金融工程

背景分析

金融行业人才能力新要求

大模型技术特点及金融应用价值

大模型核心局限性

金融工程应用场景详析：大学生学习场景

金融工程应用场景详析：专业人士工作场景

金融工程应用场景详析：学术研究场景

应对大模型局限的策略：幻觉问题

应对大模型局限的策略：时效性问题

应对大模型局限的策略：数值和计算能力

应对大模型局限的策略：专业深度问题

最佳实践建议：大学生

最佳实践建议：专业人士

最佳实践建议：学术研究

金融工程领域AI伦理

未来展望与挑战

Part 2 · AI Agents

为什么需要AI Agent？

AI技术演进路径

金融领域的Agent应用前景

Agent的正式定义

Workflow vs Agent：本质区别

实例对比：FinRpt-Gen vs AI Scientist-v2

核心设计维度：三元权衡

维度一：自治性 vs 可控性

真实案例：FinAgent的可控设计

维度二：单体 vs 多体（认知负荷分解）

真实案例：TSci的四Agent流水线

维度三：显式控制 vs 涌现协作

多Agent系统协作模式一：Crew/Role/Task（SOP驱动）

多Agent系统协作模式二：ReAct（推理-行动循环）

多Agent系统协作模式三：层级路由（Hierarchical Routing）

多Agent系统协作模式四：批判-改进循环（Critique-Revision）

多Agent系统协作模式五：并行集成（Ensemble/MoA）

框架流派概览

流派A：严谨编排派（Orchestrated Graph）

流派B：角色流水线派（Role-based Crew）

流派C：自主研究平台派（Autonomous Platform）

流派D：模型内生派（Model-Native）

案例一：FinAgent量化交易系统

案例一续：FinAgent的安全设计

案例二：FinRpt-Gen研报生成