arXiv: DeepSeek@Gabriel Garcia70该研究揭示了当前思维链(CoT)忠诚度评估中的系统性问题:标准损坏研究(通过替换步骤为错误来测量准确性)实际上检测的是答案文本出现的位置,而非计算发生的位置。实验表明,在GSM8K数据集中,仅移除答案语句(保留所有推理步骤)即可将后缀敏感性降低约19倍(3B模型)。冲突答案实验显示,模型在消费时会系统性地遵循显式答案文本,即使推理过程中未提前确定答案(早期承诺低于5%)。该效应在14B规模下仍明显(8.5倍比率),但在32B时趋于消失。研究提出了三项前提条件作为最低标准:仅问题控制、格式表征、全位置扫描。论文推理模型思维链评估方法认知科学大语言模型推荐理由:该发现对当前CoT忠诚度评估方法的可靠性提出根本性质疑,提醒研究者注意数据格式的混淆效应,对评估模型推理能力具有方法论指导意义。