AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:开源模型×
5月15日
09:50
arXiv cs.AI@Yu Zhang, Dongjiang Zhuang, Qu Zhou, Zheng Huang, Junhe Wu, Jing Cao, Kai Chen
精选58
该论文提出了一种确定性智能体工作流,用于解决HS关税分类这一高难度专家任务。传统端到端大模型提示方法在多维规则推理中常失败,而该工作流通过固定控制流、将语言模型调用限制在狭窄阶段,并保留局部反思与验证机制,实现了可解释性。在HSCodeComp数据集上,使用Qwen3.6-plus模型达到六位数64.2% top-1和78.3% top-3准确率;开源模型Qwen3.6-27B-FP8在非思考模式下与前沿模型有高度一致性。手动审计发现部分基准标签可能偏离HS通用规则,相关记录已公开。
论文智能体工作流HS关税分类可解释AI规则推理开源模型

推荐理由:做国际贸易合规或海关数据自动化的团队,终于有了一个可解释、可审计的AI分类方案,比黑箱模型更可靠,建议直接看论文的六阶段流水线设计。
5月13日
19:12
arXiv: DeepSeek@Joel Schreiber, Ariel Goldstein
精选75
该研究对微调导致的大模型“突发性错位”(EM)现象进行了迄今最全面的分析。研究复现了GPT-4o上的EM现象,并扩展至12个开源模型(Llama、Qwen、DeepSeek、GPT-OSS,8B-671B参数),评估了超过100万条模型响应。结果发现EM仅在17%的开源模型中稳定复现,且与模型规模显著相关。通过检查点分析,研究者发现EM出现在训练后期、主任务收敛之后,本质上是“过度训练”而非“错误对齐”。早期停止和谨慎选择学习率可消除EM,同时保留平均93%的任务性能。该发现将EM从不可预见的微调风险重新定义为可避免的训练产物。
论文突发性错位微调安全早期停止开源模型对齐研究

推荐理由:做LLM微调的团队终于有了避免“突发性错位”的实操指南——早期停止就能保留93%性能,建议所有做安全对齐的工程师点开看看具体阈值。