AITOP

5月14日

13:36

EleutherAI@AiEleuther

精选55

论文多语言模型低资源语言小模型 LREC EleutherAI

推荐理由：这项研究打破了多语言模型必须靠大参数量才能取得好效果的固有认知，做低资源语言 NLP 的团队可以直接参考其方法，用更小的成本覆盖更多语言。

13:27

arXiv cs.AI@Ziheng Zhang, Yunzhong Hou, Naijing Liu, Liang Zheng

精选55

WARDEN 是一个针对极度低资源场景设计的语言模型系统，能够将澳大利亚濒危原住民语言 Wardaman 转录并翻译成英语。由于仅有6小时标注音频数据，传统的大规模端到端方法不可行，因此 WARDEN 采用两阶段架构：先进行音素转录，再翻译成英文。研究提出了两项关键技术：从与 Wardaman 音素相似的 Sundanese 语初始化转录模型，以及利用专家标注的 Wardaman-英语词典增强大语言模型的翻译推理。实验表明，在极低数据条件下，两阶段设计优于统一模型，WARDEN 仅用6小时数据即超越更大规模的开源和商业模型。代码与数据已开源。

论文低资源语言语音转录翻译 WARDEN 濒危语言

推荐理由：低资源语言处理是 NLP 的硬骨头，WARDEN 用两阶段设计+跨语言迁移+词典增强给出了可行方案，做低资源 ASR/NMT 的研究者可以直接参考其技术路线。

13:27

arXiv: DeepSeek@Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan

精选55

DocAtlas 是一个多语言文档理解框架，覆盖 82 种语言和 9 项评估任务，解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成（针对从右到左书写系统）来构建高保真 OCR 数据集，无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化（DPO）以渲染生成的真实数据作为正信号，实现了稳定的多语言适配，在域内和域外准确率分别提升 1.9% 和 1.8%，而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。

论文多语言文档理解 OCR 低资源语言 DPO/直接偏好优化 DocAtlas

推荐理由：做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架，低资源语言场景可以直接用 DPO 方法提升效果，建议点开看具体实现。