AI视频“闪烁”难题攻破！轻松改变视频风格，北大校友一作

奥莱乒乓汇高万华 · 发表于 2023-6-15 13:51:27

萧箫发自凹非寺
量子位 | 公众号 QbitAI
AI拍视频，竟然已经丝滑到这个程度了吗？
输入一段视频，念上一段“咒语”，AI瞬间就能秒懂，并当场给你把视频重画一遍：

不仅完美hold住各类风格，最关键的是，帧帧丝滑流畅。
就连建筑物这种细节较多的视频，也几乎看不出“AI出品”的bug：

目前，无论是拍视频还是制作动画，依靠的都是“关键帧”。如果帧与帧之间联系不紧密，就会出现这种诡异的“闪烁画风”——

而这也是AI生成视频最大的瓶颈之一。
现在，来自南洋理工大学的团队，终于解决了这个问题，研究在推特上掀起了不小热度：

那么，这究竟是如何做到的？
如何让AI拍的视频不“闪烁”？

AI生成视频会“闪烁”，本质上是前后帧不连贯导致的。
举个例子，这是同一个视频中截取的两帧画面：

用AI根据这两帧“重绘”图像，乍一看问题不大，细节上却有不少差异。
例如，一帧生成的人物头上有“金色发带”，另一帧中却消失了：

这样一来，看似AI生成的几十帧图像风格差不多，连起来细节差异却非常大，视频也就容易出现闪烁现象：

为此，研究人员提出了一种新框架，，核心是提升AI生成视频时帧与帧之间的连贯性。
这个框架包含关键帧翻译（key frame translation）和完整视频翻译（full video translation）两部分。
第一部分基于扩散模型生成关键帧，基于跨帧约束加强这些关键帧之间的一致性；第二部分则通过基于时间感知的匹配算法将其他帧与关键帧“连接”起来。
框架的核心，在于第一部分。
研究人员给这部分提出了一种新的分层跨帧一致性约束方法，在原视频基础上，利用光流来约束帧与帧之间的关系。
其中，第一帧相当于整个视频的“锚点”，用于控制视频的整体走向；后续的每一帧，则都会以前一帧作为参考，防止生成的图像偏离最初的风格、形状、纹理和颜色等。
至于视频生成模型，核心采用的则是Stable Diffusion+ControlNet的组合，但经过了改进。
如下图所示，红色虚线是原本Stable Diffusion等扩散模型采样过程，黑色线条则是经过调整后的过程：

当然，在不同的采样阶段，跨帧约束也不一样，包括形状感知、像素感知等。
相比之前的AI视频生成模型，这个框架最大的优势在于，当输入一个新视频的时候，它不需要再用这个视频材料重新进行训练，换而言之就是零样本学习。
只需要输入一段提示词+一段视频，框架就能自动将视频“翻译”出你想要的效果。
例如，这是团队利用改进后的框架，重新生成的一段相同风格视频，和改进前的扩散模型相比，几乎看不出闪烁了：

14秒生成一张关键帧

所以，生成一段视频是否需要很长时间？
至少从生成帧的效率来看，速度还是不慢的，其中关键帧和Stable Diffusion出图的速度差不多，平均在14.23秒左右；非关键帧就非常快了，每帧只需要1.49秒。

如果视频不长、甚至只有十几帧的话，不到一分钟就能搞定一段视频的转换。
作者们将这个新框架和之前的几类文生视频框架进行了对比，包括FateZero、vid2vid-zero、Pxi2Video和Text2Video-Zero等，显然新框架目前是最流畅、鬼影也最少的：

不仅仅是单纯的“视频翻译”，作者们还展示了提示词对于视频生成的控制效果。
例如在相同输入下，只要更改一段提示词中的“关键字”，AI就能在几乎不改动其他元素的情况下，生成一段新的视频，例如换个发型、换种风格，或是将狗头换成狐狸头：

除此之外，作者们还请来了23名志愿者，对新框架生成的视频质量进行了综合评分，评估指标有三个，分别是提示词和输入帧的关联度、时间一致性和视频整体质量。
结果显示，这个框架在“人类评分”中均取得了不错的水平：

一作北大校友

四位作者均来自南洋理工大学。

一作杨帅，南洋理工大学助理教授，本科和博士毕业于北京大学，目前的研究方向是基于人像的编辑、文本风格化、图像翻译等。
周弈帆，南洋理工大学研究工程师，本科毕业于北京理工大学，拿过ACM-ICPC金牌，研究方向包括文本挖掘、基于机器学习重建入射光场等。
刘子纬，南洋理工大学助理教授，香港中文大学博士，研究方向是计算机视觉、机器学习和计算机图形学等。
Chen Change Loy，南洋理工大学和香港中文大学副教授，他的研究兴趣集中在计算机视觉和深度学习方向，包括图像、视频恢复和生成，以及表征学习等。
目前这个项目的代码还没开源，不过论文表示“会有的”。

实测效果如何，我们可以期待一波。
项目地址：
https://anonymous-31415926.github.io/
论文地址：
https://arxiv.org/abs/2306.07954

上一篇：美国专利排行榜，IBM霸榜近30年，直到去年被这家公司取代
下一篇：拼多多：在618狂欢中独树一帜

中级会员	积分	兔币	帖子
中级会员, 积分 410, 距离下一级还需 90 积分	410	226	184
在线时间：0 小时	最后登录：2024-6-4

[科技] AI视频“闪烁”难题攻破！轻松改变视频风格，北大校友一作

五星红旗在月球背面升起由玄武岩纤维制成

印度股市盘中暴跌逾8%！发生了什么？

终于，郑州涨跌已定！

多地中小银行再降存款利息仍有长期定存利

居民医保和职工医保有哪些区别？

庆余年第三季：范闲林婉儿感情差点破裂！婉

广州一地政府出手，收购2万平方米商品房！

消息称苹果 iPhone 16 Pro Max 边框厚度 1.

斯坦福AI团队承认抄袭清华模型，公开道歉并

昨晚，纽交所差点让巴菲特“被死亡”，历史

事关巴菲特！美股突发：数只股票大跌98%

五星红旗在月球背面升起由玄武岩纤维制成

印度大选投票结束　出口民调预测莫迪有望连

金价狂飙、金债压顶！几年前借黄金买房，如

印度股市盘中暴跌逾8%！发生了什么？

拜登搞“闭关锁国”，新加坡前外长警告：继

年内首家非ST退市股“诞生”，正源股份面值

立案前吃了13个跌停！深圳老牌金融支付公司

王传福亲自交车，比亚迪秦L DM-i首批车主正

具俊晔再曝23年前往事，大S送的大衣一直被

广州300亿巨无霸旧改表决通过，周边二手房

学罗永浩带货还债？贾跃亭宣布将开启个人IP

268元引争议，《黑神话：悟空》不得不走这

败者组半决赛，KSG4比1拿下TTG，和狼队争夺

斯洛伐克总理遇刺细节，现场传出5声枪响，

今晚《非诚勿扰》用“心跳”说话，“最强男

被严重低估的一个产业，这是最国际的中国供

潘达利亚活动官方完整介绍视频！国服要是玩

普京启程访华前，先定下了俄罗斯的二把手，

重磅！类人速度超快语音响应！OpenAI推出新

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸