DeepSeek-OCR 2#
DeepSeek 于 2026 年发布的文档理解模型,核心创新是 DeepEncoder V2——用级联因果推理实现二维图像的一维理解。
核心创新#
视觉因果流(Visual Causal Flow)#
传统视觉编码器按固定顺序(左上→右下)扫描图像,而人类阅读遵循语义驱动的因果逻辑。DeepSeek-OCR 2 通过 DeepEncoder V2 模拟这种因果流:
- 视觉 token:双向注意力(保持全局感受野)
- 因果流 query:因果注意力(可学习的重排 token)
graph LR
A[图像] --> B[视觉 Tokenizer]
B --> C[视觉 Token]
C --> D[DeepEncoder V2]
D --> E[因果流 Query]
E --> F[DeepSeek-MoE 解码器]
F --> G[输出]
架构设计#
| 组件 | 说明 |
|---|---|
| 视觉 Tokenizer | SAM-base + 卷积层(80M 参数),16X token 压缩 |
| DeepEncoder V2 | 基于 Qwen2-0.5B,替换原有 CLIP |
| 解码器 | DeepSeek-MoE 3B(激活 500M) |
| 输出 token 数 | 256-1120(对标 Gemini-1.5 Pro) |
技术要点#
注意力掩码#
┌─────────────────┬─────────────────┐
│ 双向注意力 │ 因果注意力 │
│ (视觉 token) │ (因果流 query) │
│ 全 1 矩阵 │ 下三角矩阵 │
└─────────────────┴─────────────────┘
- 视觉 token 之间:双向可见(类 ViT)
- 因果流 query:只能看到前序 token(类 LLM Decoder)
- 每个 query 可关注所有视觉 token + 前序 query
级联因果推理#
- 编码器:通过因果流 query 对视觉 token 进行语义重排
- 解码器:对重排后的序列进行自回归推理
这种设计弥合了「二维空间结构」与「一维因果语言建模」的鸿沟。
性能表现#
- 在 OmniDocBench v1.5 上相比 DeepSeek-OCR 有显著提升
- 视觉阅读逻辑能力大幅增强
- 保持高倍率 token 压缩效率