DeepSeek-OCR 2#

DeepSeek 于 2026 年发布的文档理解模型，核心创新是 DeepEncoder V2——用级联因果推理实现二维图像的一维理解。

核心创新#

视觉因果流（Visual Causal Flow）#

传统视觉编码器按固定顺序（左上→右下）扫描图像，而人类阅读遵循语义驱动的因果逻辑。DeepSeek-OCR 2 通过 DeepEncoder V2 模拟这种因果流：

视觉 token：双向注意力（保持全局感受野）
因果流 query：因果注意力（可学习的重排 token）

graph LR
    A[图像] --> B[视觉 Tokenizer]
    B --> C[视觉 Token]
    C --> D[DeepEncoder V2]
    D --> E[因果流 Query]
    E --> F[DeepSeek-MoE 解码器]
    F --> G[输出]

架构设计#

组件	说明
视觉 Tokenizer	SAM-base + 卷积层（80M 参数），16X token 压缩
DeepEncoder V2	基于 Qwen2-0.5B，替换原有 CLIP
解码器	DeepSeek-MoE 3B（激活 500M）
输出 token 数	256-1120（对标 Gemini-1.5 Pro）

技术要点#

注意力掩码#

┌─────────────────┬─────────────────┐
│  双向注意力      │  因果注意力      │
│  (视觉 token)   │  (因果流 query) │
│  全 1 矩阵       │  下三角矩阵      │
└─────────────────┴─────────────────┘

视觉 token 之间：双向可见（类 ViT）
因果流 query：只能看到前序 token（类 LLM Decoder）
每个 query 可关注所有视觉 token + 前序 query

级联因果推理#

编码器：通过因果流 query 对视觉 token 进行语义重排
解码器：对重排后的序列进行自回归推理

这种设计弥合了「二维空间结构」与「一维因果语言建模」的鸿沟。

性能表现#

在 OmniDocBench v1.5 上相比 DeepSeek-OCR 有显著提升
视觉阅读逻辑能力大幅增强
保持高倍率 token 压缩效率

DeepSeek-OCR 2#

核心创新#

视觉因果流（Visual Causal Flow）#

架构设计#

技术要点#

注意力掩码#

级联因果推理#

性能表现#

相关链接#