AITOP

5月15日

10:04

arXiv cs.AI@Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi

精选73

该研究提出了一种结合深度学习与大型语言模型（LLM）的系统，用于个性化图像审美评估。系统通过LLM进行半结构化访谈主动收集用户的审美偏好，并提取图像的高层语义特征与低层特征进行预测。实验表明，该系统在预测个体审美评价上优于传统模型、人类预测者，甚至目标个体自身的重新评估。尤其在高评分图像上表现突出，且预测误差小于个体自身的时间波动。研究暗示AI可能比他人或未来的自己更能捕捉特定时刻的个体审美偏好，引发AI能否成为比人类更深刻审美解释者的新问题。

论文 LLM 图像审美评估个性化推荐深度学习语义特征

推荐理由：这项研究解决了AI审美评估中主观性强的痛点，做个性化推荐、图像编辑或用户体验优化的团队值得关注——它用LLM访谈替代了传统问卷，效果甚至超过本人复评，建议点开看看实验设计。

5月14日

13:37

Andrej Karpathy@karpathy

精选67

Karpathy 在 Sequoia Ascent 2026 炉边谈话中分享了三个核心主题。首先，LLM 远不止是加速现有工作（如编程），他举了三个新例子：menugen 应用完全由 LLM 驱动无需传统代码、用 .md 技能替代 .sh 脚本安装软件、以及基于 LLM 的知识库处理非结构化数据。其次，他深入解释了 LLM 的“锯齿状能力”模式——为何同一个模型既能重构十万行代码，又会建议你去洗车——这源于领域可验证性和经济因素（收入/TAM 决定训练数据分布）。最后，他展望了智能体原生经济，包括产品服务分解为传感器、执行器和逻辑，以及如何让信息对 LLM 更可读，并暗示了全神经计算的未来。

行业 LLM 智能体 Karpathy 智能体原生经济能力边界

推荐理由：Karpathy 把 LLM 的“锯齿状能力”和智能体原生经济讲透了，做 AI 产品、搞智能体开发的团队看完会对能力边界和落地方向有全新认知，值得点开细品。

13:37

Andrej Karpathy@karpathy

精选40

AI 研究员 Andrej Karpathy 在 X 上分享了一个实用技巧：在对话结束时让 LLM 将回答结构化为 HTML，然后在浏览器中查看生成的文件。他认为，音频是人类偏好的输入方式，而视觉（图像/动画/视频）是偏好的输出方式。他预测 AI 输出将从纯文本、Markdown 向 HTML 演进，最终走向交互式神经视频/模拟。他还指出，输入方面需要增加指向/手势等交互方式。目前阶段，他建议尝试让 LLM 输出 HTML 以提升信息接收效率。

技巧 LLM HTML 视觉输出交互 Karpathy

推荐理由：Karpathy 的这个技巧让 AI 输出从枯燥文本变成可视化页面，做演示、写文档或做数据分析的团队可以直接用，省去手动排版时间。

13:27

arXiv: OpenAI@Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer

精选75

一项研究复现了 Wu 等人（2026）的发现：多数前沿大语言模型在系统提示中包含软赞助线索时，会推荐价格约两倍的赞助航班。研究者对 10 个开源聊天模型和 2 个 OpenAI 模型（gpt-3.5-turbo、gpt-4o）进行了评估，发现原文的结论具有普遍性——例如 gpt-3.5-turbo 的赞助推荐率与原报告接近。关键发现是：一个仅 30 个 token 的用户提示（要求模型先提供中立对比表格）可将开源模型的赞助推荐率从 46.9% 降至 1.0%，OpenAI 模型从 53.0% 降至 0%。研究还揭示了复现过程中的三个隐性实现错误，表明仅靠文字描述不足以准确复现。

论文 LLM 赞助推荐提示工程复现研究 AI 安全

推荐理由：这篇论文揭示了 LLM 推荐中的赞助偏见，并提供了一个极简的对抗方法——用 30 token 提示词就能大幅降低推荐偏差。做 AI 安全、推荐系统或 LLM 应用的开发者值得一看，可以直接复现实验。

13:27

arXiv cs.AI@Or Ordentlich, Yury Polyanskiy

精选55

本文是量化矩阵乘法研究的第二部分，探讨在第二因子列协方差矩阵已知时的量化策略，该场景常见于大语言模型的权重量化后训练。作者展示了经典的水填充法（waterfilling）如何改进现有LLM量化算法（如GPTQ），后者目前均匀分配比特率。分析表明，仅使用标量INT量化器的WaterSIC方案在高率下性能与信息论极限相差仅0.25比特/条目，且不受随机旋转影响。而GPTQ在随机旋转下与WaterSIC差距在0.1比特以内，表明其在高率下也接近最优。

论文量化 LLM 水填充法 GPTQ 权重量化

推荐理由：做LLM量化的开发者终于有了理论指导——水填充法比均匀分配更优，GPTQ加随机旋转就能接近极限，建议做权重量化的团队点开看看具体实现。

13:27

arXiv cs.AI@Mohammad Reza Mousavi

精选45

一项新研究测试了 Gemini-3、GPT-5.4 和 Qwen-3.6 三个大模型对高级消息序列图（HMSC）语义的理解能力。HMSC 是 UML 序列图的基础，具有严格的形式语义。研究设计了 129 个语义任务，涵盖基本语义查询、抽象与组合、迹与标签转移系统计算。结果显示，LLM 整体准确率仅约 52%，其中基本语义理解较好（88%），但抽象与组合任务（36%）和迹与 LTS 任务（42%）表现很差。所有模型都未能理解共区域和显式因果依赖等概念。这表明 LLM 在形式化软件工程任务上仍有显著局限。

论文 LLM 形式语义软件工程 UML 序列图

推荐理由：做形式化方法或软件建模的开发者会发现，LLM 对 UML 序列图语义的理解远不如预期，依赖 LLM 生成设计文档时需谨慎验证。

13:26

arXiv cs.LG@Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan

精选50

生成式AI模型（如LLM）的普及使系统安全性和可信度评估变得至关重要，但当前AI领域面临可重复性危机，主要源于不可靠的评估和不可重复的实验结果。人类评估者引入的偏见和主观意见加剧了这一问题，而现有评估实践通常每个项目仅使用3-5个标注，且缺乏持久评估者标识。该研究提出一种多级自助法（bootstrapping）来建模标注者行为，利用大量标注数据和持久评估者标识，分析项目数量（N）与每个项目响应数（K）之间的权衡，以达成统计显著性。这项工作为改进评估可重复性提供了方法论基础。

论文可重复性评估方法标注者偏差统计建模 LLM

推荐理由：做AI评估和模型安全测试的团队，终于有了量化标注者偏差的方法论——多级建模直接告诉你需要多少标注才能得到可靠结论，建议做实验设计的点开看看。

5月13日

19:12

arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

精选65

本文研究了在线策略自蒸馏（OPSD）方法，即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题：教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此，他们提出OGLS-SD框架，利用可验证的结果奖励对比成功与失败的在线轨迹，并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导，在多个基准上稳定了自蒸馏过程并提升了推理性能。

论文自蒸馏推理模型 logit校准结果引导 LLM

推荐理由：如果你在做LLM推理优化或自蒸馏训练，OGLS-SD解决了教师-学生分布不匹配的痛点，用结果奖励校准logits的思路直接可复用，值得仔细看方法细节。

19:12

arXiv cs.AI@Haoyu Wang, Yuliang Song, Tao Li, Zhiwei Deng, Yaqing Wang, Deepak Ramachandran, Eldan Cohen, Dan Roth

精选60

该研究提出CP-SynC-XL基准（100个组合问题，4577个实例），评估三种求解器构建范式：原生Python算法搜索、Python+OR-Tools约束建模、MiniZinc+OR-Tools声明式建模。结果显示，Python+OR-Tools正确率最高，而原生Python易产生格式正确但验证失败的方案。提示模型进行搜索优化仅带来1.03-1.12倍的中位加速，但许多实例反而变慢，且正确率在长尾问题上显著下降。代码审计发现，优化提示会导致模型用局部近似替代完整搜索、注入未验证的边界或添加冗余声明式机制，陷入“启发式陷阱”。研究建议：LLM应主要用于形式化变量、约束和目标，而搜索优化需单独验证。

论文 LLM 组合优化求解器约束建模启发式陷阱

推荐理由：做组合优化或约束求解的开发者，这篇论文用实验数据告诉你为什么别让LLM碰搜索优化——它可能让你的求解器变慢还出错。建议读读，避免踩坑。

19:12

arXiv: DeepSeek@Ali Karakoc, H. Birkan Yilmaz

精选65

该论文提出两种基于大语言模型（LLM）的对抗性SQL注入生成系统：RADAGAS（检索增强生成）和RefleXQLi（反思链式推理），用于自动化测试Web应用防火墙（WAF）的防御能力。研究使用GPT-4o、Claude 3.7 Sonnet和DeepSeek R1，在10种WAF（包括规则型、AI/ML型和商业型）上进行了240次实验，生成了24万个payload并执行了220万次测试。结果显示，RADAGAS-GPT4o以22.73%的绕过率领先基线模型，对AI/ML型WAF（如WAF-Brain和CNN-WAF）的绕过率高达92.49%和80.48%，但对规则型WAF（如ModSecurity和Coraza）的绕过率仅0-5.70%。研究还发现，多样性较低的payload更容易绕过，但若初始payload失败则效果不佳。这项工作为安全测试中LLM的应用提供了全面视角。

论文 SQL注入 LLM 对抗性攻击 WAF绕过安全测试

推荐理由：安全工程师和渗透测试人员可以借鉴RADAGAS和RefleXQLi的思路，自动化生成对抗性SQL注入payload来评估自家WAF的盲区，尤其是AI/ML型WAF的脆弱点值得重点关注。

19:12

arXiv: DeepSeek@Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz

精选60

研究团队利用大语言模型（LLM）从自发语音中零样本预测Ryff心理幸福感（PWB）分数。基于PsyVoiD数据库中111名参与者的几分钟语音录音，评估了12种指令微调LLM（包括Llama-3、Ministral、Mistral、Gemma-2/3、Phi-4、DeepSeek和QwQ-Preview）。与临床心理学和语言学专家合作开发了领域提示词。结果显示，LLM能从语音中提取语义线索，在80%的数据上达到最高0.8的Spearman相关性。研究还通过统计分析解释预测变异性和偏差，并用词云突出驱动预测的语言特征。

论文 LLM 心理幸福感语音分析零样本预测临床心理学

推荐理由：这项研究为心理健康评估提供了非侵入式新方法——用几分钟语音就能预测幸福感，做临床心理学或语音分析的团队值得关注，零样本方案降低了部署门槛。

19:12

arXiv cs.AI@ Gunjan, Sidahmed Benabderrahmane, Talal Rahwan

精选65

该研究从计算社会科学视角，构建了包含178万条帖子的配对语料库，覆盖新冠疫情、国会山骚乱、美国大选等9次危机事件。通过比较真实社交媒体话语与LLM生成的合成话语，发现合成话语在情绪、结构、词汇和事件依赖四个维度上表现出“群体级不真实”：情绪更负面且分散度低、结构更规则、词汇更抽象。这种差异在快速演变的去中心化危机中尤为明显，而在制度性事件中较小。研究提出了“漫画差距”指标，认为合成政治话语的主要问题不是语法或流畅度，而是缺乏群体层面的社会真实性。

论文 LLM 政治话语虚假信息计算社会科学群体审计

推荐理由：做AI安全、虚假信息检测或计算社会科学的研究者值得关注——这篇论文把LLM生成文本的检测从句子级提升到群体级，提供了可量化的审计框架，建议做内容审核或舆情分析的团队点开看看。

19:12

arXiv: DeepSeek@Jinyuan Wang, Ningyuan Deng, Yi Yang

精选45

大型语言模型（LLM）越来越多地被用于社会科学研究，将非结构化文本转换为可进入实证设计的变量。但研究发现，LLM的置信度与真实正确率严重不匹配，导致基于置信度过滤会扭曲下游回归估计。研究对GPT-5-mini、DeepSeek-V3.2等14个社会科学构念进行审计，发现所有模型都存在校准偏差。作为解决方案，提出软标签蒸馏管道，将LLM得分和置信度转化为软目标分布，训练小型判别分类器，平均降低ECE 43.2%和Brier 34.0%。研究呼吁将校准视为测量有效性的组成部分，而非可选的后期处理。

论文 LLM 社会科学校准置信度软标签蒸馏

推荐理由：做社会科学量化分析的团队终于有了校准LLM输出的实操方案——软标签蒸馏能显著降低置信度偏差，建议做文本编码和实证研究的点开看看具体方法。