AITOP

5月15日

14:41

阿里云 Alibaba Cloud@alibaba_cloud

阿里云展示了由AI智能体主导制作的K-POP音乐视频《SPECTRA》，使用Wan2.7和HappyHorse工具，智能体负责生成、迭代和编辑。阿里云MVP @GhostyAIpp 仅负责质量把关和重拍，实现了接近零人工干预的AI视频制作流程。这标志着AI在创意内容生产领域迈出了重要一步，尤其对音乐视频制作行业具有示范意义。

AI产品 AI智能体视频生成 K-POP Wan2.7 HappyHorse

推荐理由：AI智能体已能主导K-POP MV制作，做视频创作或音乐行业的团队值得关注，看看AI如何接近零人工干预完成创意作品。

11:07

arXiv cs.LG@Xiang Fan, Yuheng Wang, Bohan Fang, Zhongzheng Ren, Ranjay Krishna

精选58

RefDecoder 是一种参考条件视频 VAE 解码器，通过将高保真参考图像信号直接注入解码过程来改善视频生成中的细节丢失和不一致问题。它使用轻量级图像编码器将参考帧映射为高维 token，并在解码器每个上采样阶段与去噪后的视频潜在 token 协同处理。在 Inter4K、WebVid 和 Large Motion 基准测试上，RefDecoder 相比无条件基线实现了最高 +2.1dB PSNR 的提升。该方法可直接替换现有视频生成系统中的解码器而无需额外微调，并在 VBench I2V 基准上全面提升了主体一致性、背景一致性和整体质量分数。此外，RefDecoder 还能泛化到风格迁移和视频编辑优化等多种视觉生成任务。

论文视频生成 VAE解码器条件解码参考注意力 Wan 2.1

推荐理由：视频生成中解码器长期被忽视，RefDecoder 用轻量级条件注入解决了细节丢失的痛点，做视频生成或编辑的团队可以直接替换现有系统试试，效果立竿见影。

10:54

arXiv cs.AI@Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou

精选58

生成式视频模型常被当作隐式世界模型，但现有评估方法依赖人工判断或学习评分器，难以诊断几何错误。研究者提出PDI-Bench框架，通过分割、点跟踪和单目重建，将生成视频中的物体提升到3D世界坐标，计算尺度-深度对齐、3D运动一致性和3D结构刚性三个维度的残差。配套的PDI-Dataset覆盖多种几何约束场景，测试发现当前最先进的视频生成器存在一致的几何特定失败模式，这些模式不被常见感知指标捕获。该框架为迈向物理可信的视频生成提供了诊断信号。

论文视频生成世界模型几何一致性评估框架 3D重建

推荐理由：视频生成模型常被当作世界模型，但几何一致性是硬伤——PDI-Bench用定量方法暴露了现有模型在3D结构上的系统性失败，做视频生成或世界模型研究的团队值得用它来诊断自己的模型。

10:51

arXiv cs.AI@Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez

精选58

多镜头视频生成面临跨镜头实体（角色、物体、场景）一致性难题，现有评估方法覆盖有限且指标简单。研究者推出 EntityBench 基准，包含 140 个剧集（2491 个镜头），按难易分三档，最长 50 个镜头、13 个跨镜头角色、8 个场景、22 个物体，并设计三支柱评估套件（画质、指令遵循、跨镜头一致性），仅通过保真门控的实体才计入一致性评分。作为基线，提出 EntityMem 记忆增强系统，在生成前将已验证的实体视觉参考存入持久记忆库。实验表明现有方法跨镜头一致性随镜头间隔急剧下降，而 EntityMem 在角色保真度（Cohen's d = +2.33）和出现率上最优。代码和数据已开源。

论文视频生成实体一致性基准测试记忆增强多镜头叙事

推荐理由：视频生成领域终于有了严肃的实体一致性基准，做多镜头叙事生成的研究者可以直接用这套评估体系，EntityMem 的记忆方案也值得复现试试。

00:24

AK@_akhaliq

精选67

AnyFlow 是一种新型视频扩散模型，支持任意步长的生成，通过策略流图蒸馏技术提升效率。该方法解决了传统视频扩散模型在步长选择上的限制，允许用户根据需求灵活调整生成速度和质量。关键创新在于在线策略流图蒸馏，使模型在训练和推理时都能适应不同步长。这项研究有望降低视频生成的计算成本，同时保持高质量输出。

论文视频生成扩散模型蒸馏 AnyFlow 策略流图

推荐理由：视频生成开发者终于有了灵活控制步长的方案——AnyFlow 让生成速度和质量可调，做视频 AI 的团队值得关注，能显著降低推理成本。

5月13日

09:11

Runway ML@runwayml

Runway宣布其AI视频生成技术已进化到只需用户提供视角即可将创意变为现实。过去需要奇迹才能实现的电影、广告等创意，现在可通过Runway平台生成。Runway Academy提供学习资源，帮助用户掌握这一工具。这标志着AI视频生成从实验性工具向大众化创作平台的转变。

AI产品视频生成 Runway AI创作创意工具

推荐理由：Runway降低了视频创作门槛，让非专业人士也能快速生成高质量视频内容，对创意行业具有实际应用价值。

09:11

Runway ML@runwayml

Runway 宣布其 AI 创作平台现已登陆 Android 和 iOS 设备，用户可在手机和平板上使用其视频生成、图像编辑等功能。这意味着创作者不再受限于桌面端，能更灵活地利用移动设备进行内容创作。此举扩大了 Runway 的用户覆盖范围，可能推动 AI 视频生成工具的普及。

AI产品视频生成 Runway 移动端

推荐理由：Runway 移动端上线，让 AI 视频创作更便捷，适合内容创作者和移动办公用户。

09:11

Runway ML@runwayml

Runway推出Characters功能，可将单张图片转化为实时视频智能体，以24帧/秒的HD画质流式输出，端到端延迟仅1.75秒。该技术实现了从静态图像到表情丰富、可对话视频的即时转换，标志着视频生成进入实时交互阶段。这一突破将推动虚拟角色、直播和客户服务等场景的AI应用。

AI产品视频生成智能体实时交互 Runway

推荐理由：Runway Characters将视频生成延迟降至1.75秒，实现实时交互，为AI视频智能体在对话和直播领域的落地提供了关键技术基础。

00:33

MiniMax: News（资讯）

AI产品 MiniMax 多模态文本生成语音合成视频生成

推荐理由：此次更新体现了 MiniMax 在 AI 多模态领域的持续投入，特别是 M2.7 和 Speech 2.8 的推出可能带来文本理解和语音合成性能的提升，值得关注其在开放平台上的实际表现。

5月12日

18:40

阶跃星辰 Stepfun@StepFun_ai

StepFun团队在社交媒体上预告，其将于明日（当地时间）在加州圣马特奥举办线下活动，邀请用户与开发者直接交流。此举意在回应外界对其AI模型基准测试表现的好奇与疑问，当前该团队的可灵AI模型在视频生成等领域已引起广泛关注。活动具体时间为下午5:30，预计可现场体验模型能力并获取最新进展。

AI产品视频生成可灵AI 线下活动 StepFun 社区交流

推荐理由：提供直接接触顶尖AI视频生成团队的机会，对关注可灵AI进展的从业者而言是难得的交流窗口。

18:07

快手可灵 Kling@Kling_ai

Kling AI 宣布其平台现已提供视频创作模板，用户可直接使用模板快速生成视频内容。该功能降低了视频创作门槛，使非专业用户也能轻松制作高质量视频。模板涵盖多种场景和风格，进一步拓展了 AI 视频生成的应用范围。此举标志着 AI 视频工具从单纯生成向模板化普及演进，可能加速 AI 在内容创作领域的落地。

AI产品视频生成 AI产品/工具模板化

推荐理由：Kling AI 的模板功能将视频生成从技术门槛中解放，对内容创作者和普通用户均有实用价值，预示 AI 视频工具从试用到常态化的转变。

17:19

歸藏(guizang.ai)@op7418

OpenAI 推出了GPT-image-2.0图像生成模型，同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升，支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展，为创意行业和内容生产提供了更强大的工具。

AI模型图像生成视频生成 GPT-image-2.0 Seedance 2.0 多模态

推荐理由：对于AI生成领域从业者，GPT-image-2.0和Seedance 2.0的发布代表了图像和视频生成技术的最新进展，值得关注其在实际应用中的表现和潜在影响。

17:19

歸藏(guizang.ai)@op7418

据消息，谷歌即将发布新一代视频生成模型 Veo 4（可能另有名称）。该模型支持类似 Seedance 2.0 的全能参考功能，可实现视频内容的修改与替换。在文字生成视频质量上略优于 Seedance 2.0，清晰度和细节也有提升，但整体差异不明显。

AI产品视频生成谷歌 Veo 4 内容编辑

推荐理由：此消息表明谷歌正加速迭代视频生成模型，Veo 4 的全能参考功能或将为创意工作者提供更高效的视频编辑工具。

5月11日

22:18

岚叔@lufzzliz

一段视频展示了一个动作表演，通过连续转体720度并完成变身。该内容可能涉及特效或AI生成技术，引起网友关注。虽然具体细节不详，但此类创意内容常与AI视频生成或特效编辑相关。视频链接指向Twitter平台。

AI产品视频生成特效创意内容 AI生成

推荐理由：反映了当前AI视频生成或特效技术的创意应用趋势，对内容创作者和AI视频领域从业者有参考价值。

22:17

快手可灵 Kling@Kling_AI

Kling AI在母亲节发布了一段由AI生成的萌宠视频，展示宠物用爪子制作母亲节礼物，传递温馨祝福。视频通过AI技术模拟宠物行为，体现情感表达。该内容旨在推广AI视频生成能力，并借助节日氛围吸引用户关注。

AI产品视频生成 Kling AI 母亲节情感化AI

推荐理由：Kling AI利用节日热点展示其视频生成技术，能有效降低AI视频创作门槛，对内容创作者有参考价值。

22:17

快手可灵 Kling@Kling_AI

AI视频生成公司Kling AI在Twitter上宣布关闭，其推文以“我们长大了，然后分开了”表达告别。该公司曾提供AI视频生成服务，但未说明关闭具体原因。此举给AI视频生成领域带来不确定性，用户需寻找替代服务。

行业视频生成公司动态行业淘汰 AI安全

推荐理由：Kling AI的关闭反映了AI初创公司在商业化与竞争中的生存压力，提示行业关注可持续商业模式和用户数据迁移风险。

22:17

快手可灵 Kling@Kling_AI

Kling AI发布了一段由Kling 4K生成的4K视频，设想阿兹特克帝国从未灭亡、现代特诺奇蒂特兰在2026年的样貌。视频由CPP @maxescu创作，展示了高度细节化的架空历史场景。这体现了AI视频生成在历史想象与视觉叙事领域的应用潜力，也标志着Kling在4K分辨率视频生成上的技术进展。

AI产品视频生成 Kling 4K 创意视觉

推荐理由：该案例展示了AI视频生成在创意视觉叙事中的能力，对内容创作者和AI视频应用开发者具有参考价值，同时表明视频生成模型在分辨率和细节表现上的持续提升。

22:17

快手可灵 Kling@Kling_AI

Kling AI 正在招募精英创作者计划（Elite Creators Program），参与者可获得Kling Pro计划和专属权益。该计划与创意合作伙伴计划（CPP）不同，主要面向影响力仍在增长的创作者，无需大量社交媒体粉丝。当前精英创作者无需重新申请。这为AI视频生成领域的创作者提供了获取高端工具和资源的机会，有助于推动内容创新。

AI产品 Kling AI 视频生成创作者计划 AI工具

推荐理由：该计划为缺乏高粉丝量的AI视频创作者提供了获取专业工具和资源的渠道，有助于降低创作门槛，鼓励更多人尝试生成式AI内容。

22:17

快手可灵 Kling@Kling_AI

Kling AI发布了一则演示视频，展示了其AI工具如何生成逼真的棒球比赛场景。视频中，从球员动作到球场细节均被精细渲染，体现了Kling AI在视频生成领域的进步。这一技术可能为影视制作、游戏开发等场景提供高效的内容创作方案。

AI产品视频生成 Kling AI产品

22:17

歸藏(guizang.ai)@op7418

抖音上流行的“法天象地”效果（将户外照片转化为奇幻场景）最近非常火爆。用户@op7418 发现，直接生成视频比图片效果更佳。他通过优化提示词，使用 GPT-Image-2.0 和 C-Down 3.0 模型组合，实现了高质量的视频生成。提示词已附在视频后。这一方法展示了多模型协作在创意视频生成中的潜力。

AI产品视频生成 GPT-Image-2.0 C-Down 3.0 提示词优化

推荐理由：该案例提供了生成式AI在短视频特效中的应用思路，适合内容创作者和AI视频工具爱好者参考，展示了模型组合的实用价值。

22:15

AK@_akhaliq

MACE-Dance 提出了一种运动-外观级联专家框架，用于音乐驱动的舞蹈视频生成。该方法通过分离运动与外观特征，利用级联专家网络分别建模舞蹈动作和视觉风格，从而生成更自然、多样化的舞蹈视频。实验结果表明，MACE-Dance 在舞蹈视频生成质量上优于现有方法。

论文视频生成音乐驱动舞蹈生成级联专家运动与外观解耦

推荐理由：该框架创新性地解耦了运动与外观，为舞蹈视频生成领域提供了新的技术路径，对音乐驱动的AIGC应用具有参考价值。

22:15

阿里云 Alibaba Cloud@alibaba_cloud

阿里云宣布其AI视频生成模型HappyHorse在Model Studio上线，声称在基准测试中排名第一，具备高速生成和原生音视频同步能力。该模型强调无需排队等待，相比其他模型渲染更高效。这标志着阿里云在视频生成领域的重大进展，可能推动AI视频生成在实时应用中的普及。

AI产品视频生成阿里云 HappyHorse 基准测试音视频同步

推荐理由： HappyHorse的发布表明阿里云在视频生成赛道上的快速跟进，其高速和音视频同步特性对直播、短视频等场景有实际价值，但需关注其与Sora等产品的实际性能对比及商用门槛。

22:15

阿里云 Alibaba Cloud@alibaba_cloud

阿里云宣布推出AI视频生成引擎HappyHorse，该模型在物理逻辑和资产审查方面表现出色，能够处理复杂的物理交互并生成原生1080p唇同步视频。HappyHorse在生成式AI视频引擎中排名第一，专注于高质量、可直接用于生产的内容创作。目前已在阿里云模型即服务平台上开放使用。

AI产品视频生成阿里云物理模拟唇同步

推荐理由：HappyHorse在物理逻辑和唇同步方面的优化，可能为视频行业提供更可靠的AI生成工具，值得从业者关注其实际表现。

11:18

Ethan Mollick@emollick

一篇关于AI视频生成技术的新进展被报道，展示了更高效的视频生成方法。该技术能够生成更高质量、更连贯的视频内容，降低了创作门槛。这对内容创作者和视频制作行业具有潜在影响，可能改变视频生产和消费方式。具体细节需查看原文。

AI产品视频生成 AI应用内容创作

推荐理由：该技术进展可能影响视频生成领域的发展方向，值得关注其实际效果和应用落地情况。