AITOP

5月12日

19:11

arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen

65

研究者推出BenchCAD，一个统一的基准测试，用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序，涵盖106个工业零件系列，如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务，BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示，当前前沿模型能恢复大致几何形状，但在精确参数和工业设计操作上常失败，如用简单拉伸替代扫掠、放样等关键操作。

论文代码生成多模态模型 CAD/设计基准测试工业自动化

推荐理由：该基准揭示了现有模型在工业级CAD生成上的显著不足，为模型优化和工业自动化提供了明确的评估标准。