AITOP

5月12日

19:11

arXiv: DeepSeek@Gabriel Garcia

70

该研究揭示了当前思维链(CoT)忠诚度评估中的系统性问题：标准损坏研究（通过替换步骤为错误来测量准确性）实际上检测的是答案文本出现的位置，而非计算发生的位置。实验表明，在GSM8K数据集中，仅移除答案语句（保留所有推理步骤）即可将后缀敏感性降低约19倍（3B模型）。冲突答案实验显示，模型在消费时会系统性地遵循显式答案文本，即使推理过程中未提前确定答案（早期承诺低于5%）。该效应在14B规模下仍明显（8.5倍比率），但在32B时趋于消失。研究提出了三项前提条件作为最低标准：仅问题控制、格式表征、全位置扫描。

论文推理模型思维链评估方法认知科学大语言模型

推荐理由：该发现对当前CoT忠诚度评估方法的可靠性提出根本性质疑，提醒研究者注意数据格式的混淆效应，对评估模型推理能力具有方法论指导意义。