DeepSeek-OCR 2#

DeepSeek 于 2026 年发布的文档理解模型,核心创新是 DeepEncoder V2——用级联因果推理实现二维图像的一维理解。


核心创新#

视觉因果流(Visual Causal Flow)#

传统视觉编码器按固定顺序(左上→右下)扫描图像,而人类阅读遵循语义驱动的因果逻辑。DeepSeek-OCR 2 通过 DeepEncoder V2 模拟这种因果流:

  • 视觉 token:双向注意力(保持全局感受野)
  • 因果流 query:因果注意力(可学习的重排 token)
graph LR
    A[图像] --> B[视觉 Tokenizer]
    B --> C[视觉 Token]
    C --> D[DeepEncoder V2]
    D --> E[因果流 Query]
    E --> F[DeepSeek-MoE 解码器]
    F --> G[输出]

架构设计#

组件 说明
视觉 Tokenizer SAM-base + 卷积层(80M 参数),16X token 压缩
DeepEncoder V2 基于 Qwen2-0.5B,替换原有 CLIP
解码器 DeepSeek-MoE 3B(激活 500M)
输出 token 数 256-1120(对标 Gemini-1.5 Pro)

技术要点#

注意力掩码#

┌─────────────────┬─────────────────┐
│  双向注意力      │  因果注意力      │
│  (视觉 token)   │  (因果流 query) │
│  全 1 矩阵       │  下三角矩阵      │
└─────────────────┴─────────────────┘
  • 视觉 token 之间:双向可见(类 ViT)
  • 因果流 query:只能看到前序 token(类 LLM Decoder)
  • 每个 query 可关注所有视觉 token + 前序 query

级联因果推理#

  1. 编码器:通过因果流 query 对视觉 token 进行语义重排
  2. 解码器:对重排后的序列进行自回归推理

这种设计弥合了「二维空间结构」与「一维因果语言建模」的鸿沟。


性能表现#

  • 在 OmniDocBench v1.5 上相比 DeepSeek-OCR 有显著提升
  • 视觉阅读逻辑能力大幅增强
  • 保持高倍率 token 压缩效率

相关链接#