AITOP

5月14日

18:37

IT之家（博客/媒体）

58

在联发科天玑开发者大会（MDDC 2026）上，OPPO推出了行业首个端侧AIGC光影处理引擎，基于自研DiT架构生成式大模型，用户无需联网即可在手机本地优化暗光、逆光等复杂光线下的照片，效果接近云端模型水平。同时，OPPO还展示了基于天玑9500芯片的端侧AI翻译技术，出词速率达每秒300个token，以及业界首个端侧全模态Omni模型，支持视频、语音、文本三种输入。此外，手机超级助手“小布Claw”能基于本地数据提供个性化建议，所有敏感能力需用户授权，确保数据不出设备。这些技术标志着端侧AI在影像、翻译和多模态交互上的重要突破。

AI产品 OPPO 端侧AI AIGC光影处理 AI翻译多模态模型

推荐理由：OPPO把专业级AI调色能力塞进手机本地，摄影爱好者不用联网也能拯救逆光废片，建议喜欢手机拍照的试试这个功能。

13:37

百川智能 Baichuan@BaichuanAI

47

百川智能发布了Baichuan-Omni-1.5模型，在视觉、语音和多模态流处理方面超越了GPT-4o mini。该模型在多模态医疗应用领域表现尤为突出，显示出更强的专业能力。这一进展表明国产多模态模型在特定垂直领域已具备国际竞争力。

AI模型百川智能多模态模型 GPT-4o mini 医疗AI 视觉/语音

推荐理由：多模态模型在医疗场景的突破值得关注，做AI医疗应用或跨模态处理的团队可以看看百川的进展，对比GPT-4o mini的性价比可能更高。

5月12日

19:11

arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen

65

研究者推出BenchCAD，一个统一的基准测试，用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序，涵盖106个工业零件系列，如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务，BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示，当前前沿模型能恢复大致几何形状，但在精确参数和工业设计操作上常失败，如用简单拉伸替代扫掠、放样等关键操作。

论文代码生成多模态模型 CAD/设计基准测试工业自动化

推荐理由：该基准揭示了现有模型在工业级CAD生成上的显著不足，为模型优化和工业自动化提供了明确的评估标准。