Big Data in Finance: Text and Image Analytics

Type	Examples	Challenges
Structured	Prices, volumes, financials	Limited information scope
Unstructured Text	News, filings, social media	Ambiguity, context-dependence
Unstructured Images	Satellite, documents, charts	High dimensionality, noise

Application Scenario	Data Type	Common Methods
Risk Management	Market data, text, images	Predictive modeling, anomaly detection
Investment Decisions	Financial reports, news, social media	Sentiment analysis, topic modeling
Fraud Detection	Transaction records, behavioral data	Graph neural networks, time-series analysis
Market Forecasting	Price data, macro indicators, text	Deep learning, reinforcement learning

	risk	growth	profit	loss
Doc 1	3	1	0	2
Doc 2	0	4	2	0
Doc 3	5	0	1	3

Dictionary	Description	Example Words
Loughran-McDonald	Finance-specific sentiment	"liability", "litigation" (−)
Harvard GI	General sentiment	"good" (+), "bad" (−)
VADER	Social media optimized	Handles emojis, slang

Word2Vec Example

 
import numpy as np
from gensim.models import Word2Vec
import matplotlib.pyplot as plt

# 准备训练语料
sentences = [
    ['机器学习', '是', '人工智能', '的', '重要', '分支'], ['深度学习', '是', '机器学习', '的', '高级', '方法'],
    ['神经网络', '是', '深度学习', '的', '基础', '架构'], ['人工智能', '正在', '快速', '发展'],
    ['数据科学', '依赖', '机器学习', '技术']
]

# 训练Word2Vec模型
model = Word2Vec(
    sentences, 
    vector_size=5,    # 降低维度
    window=3,         # 上下文窗口大小
    min_count=1,      # 最小词频
    epochs=100        # 训练轮数
)

# 查看词向量
print("'机器学习'的词向量:")
print(model.wv['机器学习'])

# 词语相似度
print("\n与'机器学习'最相似的词:")
similar_words = model.wv.most_similar('机器学习', topn=5)
for word, score in similar_words:
    print(f"{word}: {score}")

# 获取所有词语和对应向量
words = list(model.wv.key_to_index.keys())
vectors = [model.wv[word] for word in words]

# 简单的2D散点图
plt.figure(figsize=(10, 8))
# 只使用前两个维度
x = [v[0] for v in vectors]
y = [v[1] for v in vectors]
plt.scatter(x, y)

# 标注词语
for i, word in enumerate(words):
    plt.annotate(word, (x[i], y[i]))

plt.title('词向量简单可视化')
plt.xlabel('第一维')
plt.ylabel('第二维')
plt.show()

# 词向量运算
try:
    result = model.wv.most_similar(
        positive=['人工智能', '技术'], 
        negative=['机器学习']
    )
    print("\n语义推理:")
    for word, score in result:
        print(f"{word}: {score}")
except Exception as e:
    print("语义推理可能需要更大的语料库")

'机器学习'的词向量:
[-0.01202206  0.00593786  0.10435627  0.17965294 -0.18674973]

与'机器学习'最相似的词:
数据科学: 0.9527133703231812
的: 0.4597879648208618
发展: 0.33608755469322205
是: 0.21078188717365265
人工智能: 0.11742815375328064

Study	Method	Finding
Hoberg & Phillips (2016)	10-K cosine similarity	Data-driven industry definitions
Kozlowski et al. (2019)	Cultural embeddings	Gender/class associations in text
Ash et al. (2025)	Judge embeddings	Judicial sexism measurement

Model	Specialization
FinBERT-tone	Sentiment analysis
FinBERT-SEC	Regulatory filings
FinBERT-ESG	ESG disclosure analysis

Task	Description	Financial Application
Classification	Assign image to category	Document type identification
Detection	Locate objects in image	Car counting in parking lots
Segmentation	Pixel-level labeling	Chart region extraction
Recognition	Identify specific instances	Face verification for KYC

Layer	Learns
Early conv	Edges, textures
Middle conv	Shapes, patterns
Late conv	Objects, scenes
FC layers	Task-specific decisions

Data Source	Economic Indicator
Night lights (VIIRS, DMSP)	GDP, urbanization
Parking lots	Retail sales, foot traffic
Oil tank shadows	Crude inventory levels
Shipping traffic	Trade flows, supply chain
Agricultural land	Crop yields, commodity prices

Stage	Task	Methods
Acquisition	Scanning, photography	Mobile capture, bulk scanners
Preprocessing	Deskew, denoise, binarize	Image processing techniques
OCR	Text extraction	Tesseract, cloud APIs
Layout analysis	Structure understanding	Deep learning models
Field extraction	Key-value pairs	NER, template matching

Application	Method	Target
Check fraud	Signature verification	Forged endorsements
ID verification	Face matching + liveness	Synthetic identities
Document tampering	Pixel analysis	Altered invoices
Counterfeit detection	Texture analysis	Fake documents

Strategy	Description
Early fusion	Concatenate raw features
Late fusion	Combine model predictions
Attention fusion	Learn modality importance

Phase	Key Activities
1. Problem framing	Define business question, success metrics
2. Data collection	Source, clean, validate datasets
3. Labeling	Expert annotation or weak supervision
4. Modeling	Feature engineering, model selection
5. Evaluation	Backtest, out-of-sample validation
6. Deployment	Integration, monitoring, maintenance

Project	Data	Methods
News sentiment analysis	Financial news API	TF-IDF, VADER, FinBERT
Earnings call tone	SEC EDGAR transcripts	Sentiment, topic modeling
Invoice OCR system	Synthetic invoices	Tesseract + field extraction
Chart pattern detector	Yahoo Finance charts	CNN classification

Issue	Consideration
Privacy	Data minimization, consent management
Fairness	Demographic parity, equal opportunity
Transparency	Model explainability, audit trails
Accountability	Clear ownership, human oversight

Lecture 05

Big Data in Finance: Text and Image Analytics

Outlines

Big Data: The 5V Framework

Structured vs Unstructured Data

Overall Framework of Financial Big Data Analysis

Alternative Data Types

Why Text and Images Carry Alpha

Opportunities, Risks, and Governance

Regulatory Landscape for AI in Finance

Financial Text Data: Types, Sources, and Analytical Value

NLP 1.0: The Three-Step Roadmap

Text Preprocessing Techniques and Pipeline

Document-Term Matrix (DTM)

TF-IDF Weighting

Cosine Similarity

Financial Sentiment Dictionaries

Loughran & McDonald (2011)

Text Regression Framework

High‑Dimensional Text / Factor Regression: General Pipeline

High‑Dimensional Sparse Modeling and Cross‑Fitting

Prediction vs Causality with Big, High‑Dimensional Data

Case: News Sentiment and Stock Returns

Limitations of One-Hot Encoding

Word Embeddings: Distributional Hypothesis

Word2Vec: Skip-gram Model

Word2Vec: CBOW Model

Word2Vec Example

Mikolov et al. (2013)

Topic Models: Latent Dirichlet Allocation

Topic Modeling Techniques for Financial Texts

Case: FOMC Transparency Study

Hansen, McMahon & Prat (2017)

Embedding Applications in Finance

Financial Text Applications Overview

Kozlowski et al. (2019)

Ash et al. (2025)

Case: Earnings Calls and Firm Uncertainty

FinBERT: Domain-Specific Language Model

Practical Challenges in Financial NLP

NLP 2.0: The LLM Revolution in Finance

What is an Image? Data Perspective

Core Computer Vision Tasks

Convolutional Neural Networks (CNNs)

CNN Architecture Intuition

Transfer Learning for Financial Images

Financial Image Data Types

Satellite Imagery for Economic Signals

Case: Parking Lot Car Counting

Katona et al. (2025)

Satellite Image Analysis Pipeline

Case: Oil Tank Inventory Monitoring

Document Image Analysis Overview

OCR in Financial Operations

Case: Automated Loan Application Processing

Financial Chart Recognition

Case: (Re-)Imag(in)ing Price Trends

Jiang, Kelly & Xiu (2023)

Image-Based Fraud Detection

Biometric Authentication in Finance

Image-Based Property and Climate Risk

Ethics in Image-Based Finance

Multimodal Learning in Finance

Case: Multi-Signal Equity Model

Practical Project Workflow

Best Practices Checklist

Student Project Ideas

Limitations of Text and Image Analytics

Ethical and Legal Considerations

Research Frontiers

Summary and Key Takeaways

Further Reading

Questions and Discussion

Thank You

Big Data in Finance: Text and Image Analytics