AlphaSignal@AlphaSignalAI精选73研究人员提出Embedded Language Flows方法,让扩散模型在文本生成任务上仅需传统方法十分之一的数据量即可达到更优性能。该方法全程在连续嵌入空间操作,仅在最后一步将向量转换为单词,无需单独的解码器。通过预测干净嵌入而非噪声,并在训练中应用无分类器引导,该方法在语言基准测试中困惑度更低,并在翻译和摘要任务上超越自回归模型。这一成果挑战了“连续扩散在语言领域行不通”的普遍认知。论文扩散模型文本生成连续嵌入Embedded Language FlowsNLP推荐理由:扩散模型终于能高效处理文本了,做NLP或生成式AI的团队可以关注这个新范式——数据需求降低10倍,性能反而更好,值得一试。
AK@_akhaliq精选67AnyFlow 是一种新型视频扩散模型,支持任意步长的生成,通过策略流图蒸馏技术提升效率。该方法解决了传统视频扩散模型在步长选择上的限制,允许用户根据需求灵活调整生成速度和质量。关键创新在于在线策略流图蒸馏,使模型在训练和推理时都能适应不同步长。这项研究有望降低视频生成的计算成本,同时保持高质量输出。论文视频生成扩散模型蒸馏AnyFlow策略流图推荐理由:视频生成开发者终于有了灵活控制步长的方案——AnyFlow 让生成速度和质量可调,做视频 AI 的团队值得关注,能显著降低推理成本。
IT之家(博客/媒体)58据路透社报道,微软正积极物色人工智能初创企业,为未来减少对OpenAI的依赖做准备。潜在收购旨在储备AI人才并打造顶尖模型,曾考虑收购代码生成公司Cursor但因监管担忧放弃。微软还与斯坦福团队创立的Inception洽谈,该公司采用扩散模型技术研发文本生成,估值期望超10亿美元。微软对OpenAI的累计投入已超1000亿美元,但双方矛盾渐显,近期协议已放宽限制。收购竞争激烈,SpaceX等对手也在争夺同一标的。行业微软OpenAI收购AI初创企业扩散模型推荐理由:微软的收购动向直接反映AI行业格局变化,做AI战略或投资的读者值得关注——这可能是微软自研模型的关键一步,也暗示OpenAI合作关系的松动。
arXiv cs.LG@Zhonghao Li, Chaoyu Liu, Qian Zhang精选45Di-BiLPS 是一种新型神经网络框架,专门解决在观测数据极度稀疏(低至3%)时偏微分方程(PDE)的正向和逆向问题。它结合了变分自编码器压缩高维输入、潜变量扩散模块处理不确定性,以及对比学习对齐表征,所有操作在紧凑的潜空间中进行,大幅提升推理效率。实验表明,在多个PDE基准上,Di-BiLPS在极稀疏输入下达到最先进性能,同时计算成本显著降低。此外,该框架支持零样本超分辨率,可在连续时空域进行预测。论文PDE求解稀疏观测潜变量模型扩散模型零样本超分辨率推荐理由:PDE求解在稀疏观测场景下一直是个难题,Di-BiLPS用潜空间扩散和对比学习解决了精度和效率的双重瓶颈。做科学计算或物理模拟的开发者,尤其是处理传感器数据稀疏的团队,值得关注这个新范式。
arXiv cs.LG@Zijie Wu, Lixin Xu, Puhua Jiang, Sicong Liu, Chunchao Guo, Xiang Bai精选55R-DMesh 提出了一种解决视频引导3D动画中姿态错位问题的统一框架。传统方法在用户提供的静态网格与参考视频起始帧姿态不匹配时,会导致几何扭曲或动画失败。R-DMesh 通过引入新型 VAE 将输入解耦为条件基础网格、相对运动轨迹和矫正跳跃偏移,并利用 Triflow Attention 机制确保物理一致性和局部刚性。该方法基于 Rectified Flow 的扩散 Transformer 从预训练视频中迁移时空先验,并构建了包含50万动态网格序列的 Video-RDMesh 数据集。实验表明,R-DMesh 有效解决了姿态对齐问题,并支持姿态重定向和整体4D生成等下游应用。论文3D动画姿态对齐扩散模型动态网格视频引导推荐理由:做3D动画和内容生成的团队终于有了解决姿态错位痛点的方案——R-DMesh 能自动矫正网格姿态对齐视频,避免手动调整的繁琐,建议做动态资产制作的开发者点开看看。
arXiv cs.AI@Guohui Zhang, XiaoXiao Ma, Jie Huang, Hang Xu, Hu Yu, Siming Fu, Yuming Li, Zeyue Xue, Lin Song, Haoyang Huang, Nan Duan, Feng Zhao精选65OmniNFT 提出了一种面向联合音视频生成的扩散强化学习框架,解决了多目标强化学习中优势不一致、梯度失衡和信用分配不均三大问题。该方法通过模态级优势路由、层级梯度手术和区域级损失重加权,显著提升了音频和视频的感知质量、跨模态对齐和音视频同步。在 JavisBench 和 VBench 基准测试中,基于 LTX-2 骨干的 OmniNFT 实现了全面性能提升。该工作为多模态生成任务中的强化学习应用提供了新范式。论文扩散模型强化学习多模态生成音视频对齐OmniNFT推荐理由:做多模态生成或音视频联合建模的团队,终于有了一个能同时优化模态内质量和跨模态对齐的 RL 框架,值得关注其方法论对自家任务的迁移潜力。
arXiv cs.LG@Wei Chow, Linfeng Li, Xian Sun, Lingdong Kong, Zefeng Li, Qi Xu, Hang Song, Tian Ye, Xian Wang, Jinbin Bai, Shilin Xu, Xiangtai Li, Junting Pan, Shaoteng Liu, Ran Zhou, Tianshu Yang, Songhua Liu40最近,研究者提出了一种基于掩码生成Transformer(MGT)的图像编辑新方法EditMGT,这是首个MGT编辑框架。与主流的扩散模型不同,MGT的局部化预测机制能天然将修改限制在目标区域,避免编辑结果扩散到其他部分。该方法通过多层注意力合并和区域保持采样实现精准编辑,并构建了包含200万高分辨率样本的数据集CrispEdit-2M。在多个基准测试中,EditMGT在仅96亿参数下实现了领先的图像相似度,编辑速度快了6倍。这表明MGT是扩散模型编辑的有力替代方案。论文图像编辑掩码生成Transformer扩散模型编辑数据集局部编辑推荐理由:这项工作为图像编辑提供了一个全新思路,其局部化编辑特性和显著速度优势可能推动实用编辑工具的开发,值得关注。
arXiv cs.AI@Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He40研究者提出ELF(Embedded Language Flows)模型,将连续流匹配应用于语言建模。与现有主要在离散词元上操作的扩散语言模型不同,ELF在连续嵌入空间中运行,仅在最后一步通过共享权重网络映射为离散词元。该方法可简单适配图像扩散领域的成熟技术(如无分类器引导)。实验显示,ELF在生成质量和采样步数上均显著优于当前领先的离散和连续扩散语言模型,为高效连续语言模型提供了新方向。论文流匹配扩散模型语言建模连续嵌入ELF推荐理由:ELF展示了连续扩散模型在语言建模中的有效性,简化了技术迁移路径,可能降低语言生成模型的设计复杂度。其较少的采样步数有利于实际应用效率,值得关注。
arXiv cs.AI@Md. Sultan Al Rayhan, Maheen Islam35本文提出一种基于自信度引导的扩散增强框架,用于改善低分辨率孟加拉手写复合字符识别。该框架结合类别条件扩散建模与分类器引导,合成高质量手写样本。在U-Net结构中加入Squeeze-and-Excitation残差块提升生成质量,并采用自信度过滤机制保留高一致性样本。在AIBangla数据集上,ResNet50、DenseNet121、VGG16和Vision Transformer均取得一致提升,最佳模型准确率达89.2%,大幅超越此前基准。这表明质量感知的扩散增强能有效提升低资源语种文字识别性能。论文低资源语种手写识别扩散模型数据增强孟加拉语推荐理由:该研究为低资源语种手写识别提供了一种实用的数据增强思路,结合扩散模型与自信度过滤,方法通用且效果显著,对同类任务有参考价值。
AK@_akhaliq40该论文提出了一种连续潜在扩散语言模型(Continuous Latent Diffusion Language Model),将扩散模型应用于语言建模的潜在空间。与传统自回归模型不同,该方法在连续潜在空间中进行迭代去噪,可能提升生成质量和效率。论文展示了模型在文本生成任务上的初步结果,为语言建模提供了新的研究方向。这一工作将视觉领域成功的扩散模型扩展到自然语言处理,具有重要的理论意义和实践潜力。论文扩散模型语言模型论文文本生成推荐理由:这是扩散模型应用于语言建模的又一探索,为NLP领域提供了非自回归的新思路,值得关注其在文本生成和编辑等场景的后续进展。
AK@_akhaliq60MARBLE(Multi-Aspect Reward Balance for Diffusion RL)提出了一种新方法,旨在解决扩散模型强化学习中多个奖励信号之间的平衡问题。通过动态调整不同奖励方面的权重,该方法能在图像生成等任务中同时优化多个目标,如质量和多样性。论文展示了在多个基准测试上的改进效果,表明该方法能有效提升生成质量并减少模式崩溃。这对扩散模型的微调和可控生成具有实际意义。论文扩散模型强化学习多目标优化图像生成推荐理由:该方法直接回应了扩散模型RL中多目标优化的核心挑战,为提升生成质量和多样性提供了一种实用平衡策略。
AK@_akhaliq55该研究提出了一种连续时间分布匹配方法,用于改进扩散模型的蒸馏效率。传统扩散模型需要多步采样,而该方法通过优化连续时间分布匹配损失,实现了仅需几步即可生成高质量样本。实验表明,该方法在图像生成任务上显著加速推理,同时保持生成质量,对实时应用场景具有重要意义。论文提供了理论分析和实验结果。论文扩散模型蒸馏图像生成推理加速推荐理由:该方法为扩散模型加速推理提供了新思路,可能降低生成式AI的部署成本,值得关注后续应用拓展。
arXiv cs.LG(学术论文)55PET-Adapter是一种针对PET图像重建的测试时域自适应框架,用于生成式PET重建模型。该框架仅需在体模数据上预训练,即可适配到不同解剖结构、示踪剂和扫描仪的临床数据集,无需配对真值。它通过逐层低秩解剖条件调制和基于有序子集期望最大化的热启动,将扩散步骤从50步减少到2步,显著提升计算效率。在多个临床数据集上的实验表明,该方法在全角度和有限角度设置下均实现了优越的3D重建性能,验证了其临床可行性和计算优势。论文图像重建PET-Adapter测试时自适应扩散模型医学影像推荐理由:该研究通过测试时自适应解决了深度学习PET重建模型的泛化困境,显著降低了计算成本,为临床实时部署提供了可行方案。
arXiv cs.LG(学术论文)38字节级语言模型(BLT)虽匹配词元级模型性能,但逐字节自回归生成速度慢。本文提出三种加速方法:BLT Diffusion(BLT-D)用辅助扩散目标并行生成多个字节;BLT Self-speculation(BLT-S)通过推测解码扩展补丁边界并验证;BLT Diffusion+Verification(BLT-DV)结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%,消除字节级模型实用化障碍。论文字节级模型推理加速扩散模型推测解码无分词器推荐理由:该工作直接解决字节级LLM的核心效率瓶颈,提出的混合推理策略(扩散+推测解码)为无分词器模型走向实际应用提供了可行路径。
arXiv cs.LG(学术论文)60本研究提出 Normalizing Trajectory Models (NTM),一种新型生成模型框架。传统扩散模型假设多步高斯去噪,在少步采样时失效;现有少步方法依赖蒸馏、一致性训练或对抗目标,但放弃了似然框架。NTM 将每个逆向步骤建模为条件标准化流,并用深层并行预测器连接整个轨迹。该模型可通过预训练流匹配模型初始化,利用精确轨迹似然进行自蒸馏,仅需四步即可生成高质量文本到图像样本。在基准测试中,NTM 在四步内匹配或超越了强基线模型,同时保留了可计算的似然。论文标准化流扩散模型少步生成文本到图像似然训练推荐理由:NTM 通过将标准化流与轨迹建模结合,在少步生成和无似然性能间取得平衡,为扩散模型加速提供了新思路。对需要快速推理且关注可解释性的应用(如实时图像生成)具有实际意义。