arXiv: DeepSeek@Pengyun Zhu, Yuqi Ren, Zhen Wang, Lei Yang, Deyi Xiong精选58当前大语言模型(LLM)通常使用粗粒度的国家标签进行多元价值对齐,但这会忽略国家内部的价值异质性,导致对齐松散。DVMap 提出从国家标签转向多维人口统计约束,通过世界价值观调查(WVS)构建包含 56,152 样本的高质量对齐语料库,并引入结构化思维链(CoT)机制引导模型推理人口与价值的关系。实验表明,Qwen3-8B-DVMap 在跨人口统计测试中达到 48.6% 准确率,超越 DeepSeek-v3.2(45.1%),并展现出强泛化性和鲁棒性。该框架解决了宏观标签无法捕捉群体内价值差异的问题,为 LLM 的多元对齐提供了更精细的解决方案。论文大语言模型价值对齐人口统计思维链泛化性推荐理由:做 LLM 价值对齐的研究者终于有了从人口统计维度精细建模的方法——DVMap 用结构化 CoT 和 GRPO 实现了跨群体泛化,比国家标签更准,建议做 AI 伦理和可控生成的团队点开看看。
arXiv cs.LG@Chen Li, Xiaoling Hu, Songzhu Zheng, Jiawei Zhou, Chao Chen45大语言模型在回答错误时仍可能表现出高置信度,这限制了其在实际场景中的可靠部署。现有方法将答案生成与置信度估计联合优化,可能导致置信度对齐干扰答案准确性。ORCE 提出解耦框架:先生成答案,再基于固定问答对估计置信度,避免直接扰动答案生成过程。通过多次采样构建正确性似然代理,并采用基于排序的强化学习目标,使置信度与正确性概率对齐。实验表明,该方法在保持答案准确性的同时,显著提升了校准和失败预测性能。论文大语言模型置信度校准强化学习排序对齐ORCE推荐理由:ORCE 解决了 LLM 置信度校准中的关键矛盾——既要准确又要可靠,做模型部署或安全评估的团队值得关注这个解耦思路。
arXiv cs.LG@Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu精选60Pion 是一种用于大语言模型训练的新型优化器,通过左右正交变换更新权重矩阵,在整个训练过程中保持其奇异值不变。与 Adam 和 Muon 等加法优化器不同,Pion 在固定权重矩阵谱范数的同时调节其几何结构,提供了一种稳定的优化机制。实验表明,Pion 在 LLM 预训练和微调中均能作为标准优化器的稳定且有竞争力的替代方案。论文优化器大语言模型谱保持正交变换Pion推荐理由:Pion 解决了传统优化器在训练中破坏权重矩阵谱结构的问题,做 LLM 训练的研究者和工程师值得关注,尤其适合追求训练稳定性和模型质量的团队。
arXiv: DeepSeek@Gabriel Garcia70该研究揭示了当前思维链(CoT)忠诚度评估中的系统性问题:标准损坏研究(通过替换步骤为错误来测量准确性)实际上检测的是答案文本出现的位置,而非计算发生的位置。实验表明,在GSM8K数据集中,仅移除答案语句(保留所有推理步骤)即可将后缀敏感性降低约19倍(3B模型)。冲突答案实验显示,模型在消费时会系统性地遵循显式答案文本,即使推理过程中未提前确定答案(早期承诺低于5%)。该效应在14B规模下仍明显(8.5倍比率),但在32B时趋于消失。研究提出了三项前提条件作为最低标准:仅问题控制、格式表征、全位置扫描。论文推理模型思维链评估方法认知科学大语言模型推荐理由:该发现对当前CoT忠诚度评估方法的可靠性提出根本性质疑,提醒研究者注意数据格式的混淆效应,对评估模型推理能力具有方法论指导意义。
arXiv cs.AI@Huynh Trung Kiet, Dao Sy Duy Minh, Tuan Nguyen, Chi-Nguyen Tran, Phu-Hoa Pham, Nguyen Lam Phu Quy, The Anh Han, Long Tran-Thanh35研究发现大语言模型在道德判断上并非文化中立。现有方法需特定国家偏好数据或模型白盒访问。本文提出DISCA方法,利用世界价值观调查数据构建国家化人格智能体面板,在推理时将内部观点分歧转化为无偏、损失规避的logit校正来引导模型输出。在20个国家和7个开源模型上,DISCA减少了10-24%的文化对齐错误,提升了推理时文化校准的可扩展性。该方法无需微调、公开数据可用,为服务全球多元道德偏好的长期需求提供了可行方案。论文大语言模型文化对齐推理时校准人格智能体World Values Survey推荐理由:该工作首次在推理阶段解决多国文化对齐问题,面向API黑盒场景,且仅依赖公开调查数据,对AI产品的全球化部署具有实用参考价值。
arXiv: DeepSeek(学术论文)45意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型,采用16B参数MoE架构(3B活跃参数)。在国际基准测试(ARC-Challenge、GSM8K、MMLU等)中,该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比,EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B,但落后于GPT-OSS-20B。在意大利语数据集ITALIC上,模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。论文大语言模型MoE意大利语EngGPT2基准测试推荐理由:该评测展示了意大利本土LLM的最新进展,对关注多语言模型(尤其是意大利语)的研究者和开发者具有参考价值,也反映了MoE架构在中等参数规模下的实际性能水平。