
这项由香港大学、京东探索磋磨院、清华大学、北京大学和浙江大学纠合完成的磋磨,以技艺论述花样发布于2026年4月,论文编号为arXiv:2604.25427,有有趣有趣深入了解的读者可通过该编号查询完整原文。 你有莫得试过用AI视频生成器具,终端出来的东西跟你态状的竣工对不上号?或者生成的东谈主物手指长得奇奇怪怪,画面前后须臾是白昼须臾是暮夜,悉数这个词视频看起来像是免强出来的?这不是你的问题,这是当今简直悉数视频生成AI都靠近的老浩劫窘境。 来自香港大学和京东探索磋磨院等机构的磋磨团队,决定系

这项由香港大学、京东探索磋磨院、清华大学、北京大学和浙江大学纠合完成的磋磨,以技艺论述花样发布于2026年4月,论文编号为arXiv:2604.25427,有有趣有趣深入了解的读者可通过该编号查询完整原文。
你有莫得试过用AI视频生成器具,终端出来的东西跟你态状的竣工对不上号?或者生成的东谈主物手指长得奇奇怪怪,画面前后须臾是白昼须臾是暮夜,悉数这个词视频看起来像是免强出来的?这不是你的问题,这是当今简直悉数视频生成AI都靠近的老浩劫窘境。
来自香港大学和京东探索磋磨院等机构的磋磨团队,决定系统性地责罚这个问题。他们把这套责罚有谋划称为"视频生成后教诲框架",浅薄来说,即是给照旧学会"生成视频"的AI,再上一套成心让它"生成好视频"的课程。
**预教诲的AI,就像刚毕业的新职工**
要理解这项磋磨的价值,先得明白一个真谛:AI生成视频分两个大阶段。第一阶段叫"预教诲",模子会看海量的视频和笔墨,学会"视频长什么样"这件事,有点像一个大学生花四年时期读了好多书、看了好多案例。第二阶段叫"后教诲",针对确凿责任环境里的具体问题作念休养,就像这个大学生入职以后要资历试用期培训、导师辅导、名堂磨真金不怕火,才能确凿上手干活。
现时大多数视频AI只完成了第一阶段就径直上岗了,终端暴深入三个典型问题:第一,对用户输入的态状极其敏锐,你换个词、换个语序,生成终端可能天壤之隔;第二,视频在时期上不连贯,归拢个物体前后帧之间会痛苦其妙地变形、隐没或者抖动;第三,臆测本钱极高,生成一段视频要等很万古期,根底不符合大限度商用。
这个磋磨团队瞎想了一套完整的"后教诲"课程,把悉数这个词经过分红四个递进的阶段,每个阶段各司其职,协力责罚上头三个问题。
一、打地基:先用优质数据让AI学会"好好话语"
悉数这个词课程的第一步,叫作念"监督微调",英文缩写是SFT。这一步的中枢谋划不是让AI变得多横暴,而是让它变得"靠谱"。
用一个更直不雅的类比来理解:假定你要教诲一个厨师助手机器东谈主。它可能照旧看过几百万谈菜的食谱,表面学问满分,但实质操作起来,可能会把盐和糖搞混,或者炒一半霎时不动了。这时候你要作念的第一件事,不是坐窝让它挑战米其林菜单,而是让它先把最基本的操作作念对——正确识别调料、按规矩完成才略、不出安全事故。
磋磨团队在这一阶段作念的,即是用一批悉心筛选的高质料视频-笔墨配对数据,成心针对AI最常常出现的严重失误进行改良。这些失误包括:竣工闭幕实践某些指示(就像厨师助手霎时歇工)、生成逻辑芜杂的内容(就像作念菜作念到一半最先往锅里倒洗洁精)、以及产出不安全的内容。
经过这一步,AI就从一个"智力强但举止不彊壮"的景色,变成了一个"听话、矫健、有基本判断力"的景色。这个矫健的景色相当热切,因为它是后续悉数进阶教诲的基础。如果跳过这一步径直作念背面更复杂的优化,AI可能在优化过程中"跑偏",出现多样奇怪的退化满足。磋磨团队非常强调:这一步还有一个额外克己,即是让AI在尝试不同生成战术时有更大的"探索空间",为后续教诲提供更好的素材。
二、用赏罚机制作念清雅打磨:让AI追求确凿的"顺眼"
AI学会了基本操作之后,下一步是教它追求更高的圭表。这一阶段叫作念"基于东谈主类响应的强化学习",缩写是RLHF,用的具体步履叫GRPO。
用赏罚机制教诲AI这件事,可以用驯犬来类比。狗学会了"坐下"这个基本指示之后,你思让它学会更复杂的举止,就需要用零食奖励它作念对的,用无为的立场申诉它作念错的。不同的是,AI的"零食"是由一批成心的评分系统给出的分数。
这个磋磨里,团队构建了四个成心的评分系统,折柳追究评估不同维度的质料。第一个追究评估全体视频好意思学,包括光影、色调搭配、构图是否顺眼、前后帧是否像一部电影。第二个追究评估单帧图像质料,也即是截出即兴一帧看,显著度和细密度是否过关。第三个追究评估通顺质料,物体的迁移是否当然流通,有莫得抖动、跳帧、霎时变形之类的问题。第四个追究评估语义一致性,也即是生成的视频内容和用户态状的笔墨是否对得上。
可是,同期让这四个评委打分、然后概述他们的想法来决定是否"奖励"AI,远比听起来复杂。因为这四个维度或然候会相互打破。比如追求视觉上非常丽都,可能会让画面变得夸张不当然,反而和用户的笔墨态状对不上;而追求笔墨对都,或然候生成的画面又会显得无为痴呆。磋磨团队花了大批元气心灵瞎想评分的合并战术和各维度的权重比例,确保最终的优化所在是"全体最佳"而不是"某一项非常极点"。
在具体的技艺已矣上,团队面对的是视频生成专有的挑战:生成一段视频需要多个联贯的臆测才略,而奖励只在终末一步给出。这就像是厨师花了两小时作念了全部菜,终端评委只在终末试吃一口的时候才给分。若何把这一口的感受反推且归,带领每一步的烹调操作,是个技艺难题。
磋磨团队选拔了一种叫"同步时期步分组"的战术来责罚这个问题。浅薄说,即是把生成过程中的不同时期节点分给不同的教诲批次,每次只在特定节点引入就地探索(技艺上叫SDE采样),其余时期保持细则性操作(ODE采样)。这么一来,每次臆测的本钱缩短了,但AI依然或者通过就地探索发现更好的生成战术。团队还引入了"时序梯度校正"机制,用一个数学公式对不同时期步的学习信号强度进行圭表化,幸免某些时期步的影响过大或过小。
经过这一阶段的教诲之后,在实质评测中,视频全体质料的东谈主工评分提高了31%。视觉质料和通顺流通度的提高最为显耀,笔墨语义对都方面的提高则相对有限——磋磨团队坦承,这主如果因为面前笔墨-视频对都的评分系统本人还不够准确,终端了这方面的优化终端。
三、从泉源脱手:教诲一个成心"帮你态状"的助手
前两个阶段责罚的是AI生成视频的质料问题,但还有一个问题莫得责罚:用户给出的态状时时太浅薄、太隐隐。如果用户只输入"一只猫在玩耍",AI能作念的最多即是生成一只在玩耍的猫,但光影、场景、格调、动作细节全靠AI我方猜。
这一阶段的解法,是教诲一个成心的"教导词增强"语言模子,充任用户和视频AI之间的翻译官。用户输入浅薄态状,这个翻译官把它推论、润色、补充细节,然后再交给视频AI处理。
这个翻译官的教诲方式,和第二阶段的视频AI教诲不谋而合——相同用赏罚机制,只不外被教诲的对象从视频AI变成了语言模子,奖励谋划也略有休养。这里的评分系统有三个维度:生成的视频和原始用户态状的语义是否依然吻合(防患翻译官乱加内容,把"一只猫"变成"一条狗");视频全体视觉质料是否更好;以及增强后的态状花样是否表率、长度是否合适、AI能否平时理解实践。
这个有谋划的一个热切优点在于:教诲翻译官的时候,视频生成AI本人是被冻结的、不参与教诲。这意味着教诲本钱大大缩短,况兼归拢套翻译官可以给不同的视频AI使用,生动性很高。
实测终端自满,加入教导词增强之后,视频全体东谈主工评分在已有31%提高的基础上,又额外提高了20%。提高的主要开始依然是视觉质料和通顺质料,而语义对都基本保持矫健——阐明翻译官在帮用户把态状说得更丰富的同期,莫得偏离用户的原始意图。
四、提速:让慢吞吞的好视频变得快起来
经过前三个阶段,AI生成的视频质料照旧大幅提高。但还有一个践诺问题没责罚:视频生成太慢了。现时主流的视频AI使用的是"双向夺目光"机制,浅薄理解即是:生成第10秒的内容时,它需要同期参考第1秒到终末一秒的悉数信息。这就像写一篇著述,每写一个字都要把整篇著述重新到尾看一遍,遵守极低。
更高效的有谋划是"自归来"架构,也即是像话语一样,只看照旧说过的内容,次第往青年景。这么可以边生成边播放,大幅缩短恭候时期。但问题在于,径直教诲一个自归来视频模子,很容易出现"舛误积贮"问题——生成第二帧时用第一帧的内容,生成第三帧时用前两帧,一朝某一帧出了点小错,这个失诬陷被一直带下去,越来越大,到终末视频竣工崩掉。
磋磨团队用了一套三步走的蒸馏有谋划来责罚这个问题。第一步,先用一种叫"漫衍匹配蒸馏"的技艺,把正本阿谁慢但质料高的双向模子,压缩成一个才略更少的双向学生模子,保留它高质料生成的智力,同期减少臆测量。第二步,给这个学生模子装上"时期遮拦"机制,让它学会只看畴昔的帧来揣度异日的帧,完成从双向到单向的架构调度。这一步径直上手教诲很容易崩,是以团队瞎想了一套成心的运行化战术来稳住教诲过程。第三步,用"自立迫蒸馏"步履作念最终打磨——在教诲时,让AI确凿模拟上线后的责任景色:生成每一帧时,只依赖我方之前确凿生成的内容,而不是圭表谜底里的齐备数据。通过这种方式,AI学会了如安在确凿舛误存在的情况下依然生成好内容,而不是在"理思条款"下弘扬好、一到确凿场景就垮掉。
这套有谋划还商量到了音视频同步生成的场景,成心瞎想了非对称的时期对都机制和音频处理方式,确保音画同步可以位。
**从评分系统到评测左券,磋磨的憨厚之处**
悉数这个词磋磨体系中,评分系统的构建本人即是一项热切责任。磋磨团队参考了HPSv3的教诲范式,用Qwen3.5视觉语言模子当作特征索求主干,相助一个多层感知机输出最终分数,并引入了"不细则性感知排序蚀本"来提高评分的可靠性。他们为此网罗了涵盖视频好意思学、笔墨-视频对都、图像好意思学、笔墨-图像对都四个维度的标注数据。
在东谈主工评测方面,团队选拔了"好-持平-差"三类相比左券,而莫得强迫评测东谈主员在每对视频中必须选出一个更好的。这种瞎想很实用,因为好多时候两段视频真实差未几,强迫取舍只会引入噪声。评测维度掩饰了视觉质料、通顺质料和笔墨对都三个方面。
磋磨团队在论断中也坦诚地指出了现时框架的局限:笔墨对都方面的提高终详察对有限,根底原因在于现存的笔墨-视频对都评分系统准确性还不够高,导致这个维度的奖励信号本人就弗成靠。他们明确把"开发更准确的笔墨对都评分系统"列为异日责任的重心所在。
**这对普通东谈主意味着什么**
说到底,这项磋磨作念的事情,是把一个"能用但不好用"的视频AI,系统性地改形成一个"好用、快用、还能对得上你思要的终端"的器具。四个阶段各自责罚一类问题:第一阶段保矫健,第二阶段提质料,第三阶段责罚用户态状智力不及的问题,第四阶段责罚速率瓶颈。
关于普通用户来说,这意味着异日用AI生成视频时,不再需要心劳计绌思若何态状才能取得思要的终端;不再需要对着诡异的手指或者跳帧的画面执狂;也不再需要恭候漫长的生成时期。关于企业来说,这套框架提供了一个可复用的后教诲蓝图,可以运用于不同的基础视频模子,缩短了把实验室模子曲折为居品的门槛。
磋磨团队本人也承认,这不是荒谬。教导词增强只优化了输入端,视频AI只优化了输出端,而两者之间的深度协同、以及如安在更长视频、更复杂场景下保持矫健,都还有好多责任要作念。但当作一套系统化的工程实践总结,这项磋磨为悉数这个词行业提供了一个防碍的完整参考。
有有趣有趣进一步了解技艺细节的读者,可以通过arXiv编号2604.25427查阅原始论文。
Q&A
Q1:视频生成AI的后教诲框架和预教诲有什么区别?
A:预教诲阶段,AI通过看海量视频和笔墨学会"视频长什么样",非常于大学四年学表面。后教诲框架则是针对实质部署中的具体问题作念休养,比如改良生成失误、提高画面质料、加速生成速率,非常于入职后的实战培训。这篇论文瞎想的四阶段后教诲框架,中枢谋划即是弥补预教诲模子和确凿用户需求之间的落差。
Q2:GRPO赏罚机制教诲视频AI时,奖励分数是若何给出来的?
A:磋磨团队构建了四个成心的评分系统:视频全体好意思学评分系统、单帧图像质料评分系统、通顺流通度评分系统,以及笔墨-视频语义一致性评分系统。这四个系统概述给出奖励分数,带领AI朝着视觉质料和笔墨对都同期提高的所在优化,但四者的权重需要悉心调配,防患某一项过度主导优化所在。
Q3:教导词增强模子为什么不会把用户的原始风趣改掉?
A:教导词增强模子在教诲时开发了成心的"笔墨-视频对都"奖励维度,确保增强后的态状和用户原始输入在语义上保持一致。如果翻译官把"一只猫在玩耍"改成了竣工不干系的内容,这个奖励分数就会很低,模子就不会学习这种作念法。实测数据也自满,加入教导词增强后开云kaiyun体育,笔墨对都的评分基本保管矫健,莫得因为推论态状而跑偏。