生因素钟级的长视频,只需要和短视频相称的资本?
字节 Seed 与斯坦福等机构的预计东谈主员一齐推出的新模子,能让长视频生成的缠绵量裁减 85%。
而且质料不减,还或者保捏东谈主物和场景的连贯性。
请看 VCR:
团队以为,长视频生资骨子上是一个长凹凸文缅念念问题,将视频生成再行界说成了凹凸文检索任务。
为此,团队提议了一种新的疏淡提防力机制—— Mixture of Contexts(MoC)——当作灵验的耐久缅念念检索引擎。
低资本生因素钟级视频
先来看用这项本事生成的长视频恶果。
率先是写实场景,这段视频长度 56 秒,展示的是一老一少两个男东谈主坐在咖啡馆中交谈的场景。
从中不错看出,两个东谈主的外貌和穿着特征在经过屡次视角切换之后仍是保捏一致,桌子上的咖啡亦然如斯。
换成卡通场景,也能在长达一分半的时间之内保捏前后一致性。
要津是,生成这么万古期一致的视频资本,被 MoC 打下了一个数目级。
使用 MoC 机制生成一分钟的 480P 视频,仅需花费 2.32 × 10 ¹² FLOPs 的缠绵量,而基线模子需要 1.66 × 10 ¹³ FLOPs,MoC 将缠绵量削减了 85%。
关于短片来说,MoC 也相同能兑现降本恶果。
多镜头 64 秒(8 × 8 秒)的 480P 视频中,基线为 1.7 × 10 ¹³ FLOPs,而 MoC 只用 2.3 × 10 ¹² FLOPs,相同简单约 86%。
况且主题一致性、布景一致性、动作连贯性、图像质料等性能观点弥漫优于基线模子。
单镜头 8 秒的 320 × 192 短片测试里,基线 1.9 × 10 ¹ ⁰ FLOPs,MoC 为 4.1 × 10 ⁹ FLOPs,缠绵量减少约 78%。
那么,MoC 递次是如何兑现的呢?
将长视频生成重构为信息检索
作家以为,长视频生成主若是受制于跨时域缅念念的高效调取,为打破这一瓶颈,他们提议了名为 Mixture of Contexts(MoC)的疏淡凹凸文检索层,将生成经由重构为一次里面信息检索。
而 MoC 的核神思制,是,具体来说,先把跨模态序列切谚语义同质的内容块,然后让每个查询 token 只与最联系的少数块成立提防力联接。
这一系列操作不调动扩散 Transformer 骨干,仅以疏淡检索的风景把缠绵结合在的确穷苦的历史。
"可教导疏淡路由"
MoC 的第一步是"内容对王人分块"——论文指出视频序列在三维时空上高度非均匀,如果浅薄按固定长度滑窗切片,会把远离的场景混入合并窗口,导致均值池化后的块样貌符失去判别力。
因此,作家依据帧、镜头、模态领域动态切块,让每个块在三维位置上局部且语义一致,从起源上提高了检索精度,也幸免了毋庸的缠绵糟践。
随后参预"动态 top-k 路由",关于每个查询 qi,模子用均值池化得到的块样貌符缠绵点积相似度,只保留得分最高的 k 个块参与提防力,再把必选锚点加入掩码中。
这一步完全无参数,却在反向传播中通过梯度诊疗投影矩阵,使查询与块样貌符不停自允洽,最终把浅薄的"均值 +top-k "教导成高抒发力的检索器。
为了注视提醒漂移和局部恶浊,作家在路由前硬性加入两类强制边:
其一是"跨模态"相连,保证扫数视觉 token 耐久可看望好意思满文本提醒,维系主题一致且强化可剪辑性;
其二是"镜头内"相连,使每个 token 至少存眷自身镜头领域内的块,既为疏淡图提供相识下界,又让疏淡预算的确用于跨镜头长依赖。
另外,疏淡图本人易形成闭环,酿成信息淹留。作家通过在路由阶段加入严格时间掩码,蹂躏任何查询看望我方或之后的块,把扫数这个词图敛迹为 DAG,从结构上阻绝轮回并权臣擢升长程动态平滑性与教导相识性。
除了机制本人,在工程兑现方面,MoC 回把选中的键值一次性打包进 FlashAttention 可变长核,兑现对数千万 token 的线性伸缩且访存连气儿,在 GPU 上可充分并行。
论文地址:
https://arxiv.org/abs/2508.21058
神志主页:
https://primecai.github.io/moc/
一键三连「点赞」「转发」「注意心」
接待在驳斥区留住你的念念法!
— 完 —
专属 AI 产物从业者的实名社群,只聊 AI 产物最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」请求入群~
进群后,你将径直取得:
� � 最新最专科的 AI 产物信息及分析 � �
� � 不依期披发的热点产物内测码 � �
� � 里面专属内容与专科谋划 � �
� � 点亮星标 � �
科技前沿证实逐日见J9九游会