arXiv: DeepSeek@Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan精选55DocAtlas 是一个多语言文档理解框架,覆盖 82 种语言和 9 项评估任务,解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成(针对从右到左书写系统)来构建高保真 OCR 数据集,无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化(DPO)以渲染生成的真实数据作为正信号,实现了稳定的多语言适配,在域内和域外准确率分别提升 1.9% 和 1.8%,而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。论文多语言文档理解OCR低资源语言DPO/直接偏好优化DocAtlas推荐理由:做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架,低资源语言场景可以直接用 DPO 方法提升效果,建议点开看具体实现。