当前位置:首页  音频音响  行情快递  厂商曝光音频正文

Google应用多模态大型语言模型解决视频生成任务

发布时间:12-23 编辑:Google

Google披露最新多模态大型语言模型VideoPoet,该语言模型能够执行各种视频生成任务,包括文本转视频、图片转视频、视频风格化,视频补绘与扩绘,甚至是视频转音频等。该模型特别之处在于VideoPoet是一个大型语言模型,有别于目前大多基于扩散模型的视频生成模型。

Google应用多模态大型语言模型解决视频生成任务




Google指出,即使是目前最先进的视频生成模型,也只能生成小幅度的动作,在生成大动作的时候,就会出现明显的破绽。Google探索大型语言模型在视频生成领域的应用,开发出VideoPoet,这是一个能够执行各种视频生成、任务的大型语言模型,研究人员指出,诸如Imagen Video等视频生成模型,都是以扩散模型为基础。


由于大型语言模型目前在各个领域,包括语言、程序代码和声音等,都具有极强的处理能力,Google认为大型语言因为在多种模态上优秀的学习能力,已经成为重要的技术标准。因此不同于该领域的其他模型,VideoPoet将视频生成能力集成到单一大型语言模型中,而非依赖各项针对性任务训练的独立组件。

91529822720e0cf3c4489731f3b8ba12bc09aa4d.webp.jpg

视频生成任务采用大型语言模型的优势,在于可以利用现有的高效训练基础设施,但研究人员也指出,大型语言模型的本质上是处理离散的标记(Token),而这对于生成视频是一个挑战。因此研究人员开发了专用的视频和音频标记器(Tokenizer),将视频和音频剪辑片段编码为离散的标记串行,而这个离散的标记串行也能够被转换回原始表示。


VideoPoet借由使用多种标记器,学习处理视频、图像、音频和文本等不同模态。当模型根据特定上下文条件生成相对应的标记后,这些标记就可以通过标记器转换回可查看的表示形式,生成视频和音频内容。


VideoPoet适应短视频格式默认生成纵向视频,并在进行视频风格化时,能够预测光流(Optical Flow)以及深度资讯(下图)。同时VideoPoet也可以生成音频,通过先从模型生成2秒的音频片段,接着就可在没有文本指引的情况下,预测接下来的音频。而这也让VideoPoet单一模型,就可生成视频和配音。



VideoPoet能以前一秒的视频预测下1秒的视频,以连续预测的方式达到生成更长视频的目的,而这种方法不只可以有效延长视频,而且经过多次迭代后仍能保持视频主体的外观不变。VideoPoet生成的视频也能够以互动的方式编辑,像是改变视频中物体的运动,使其执行不同的动作,且编辑会从视频的第一个影格,或是中段的影格开始,提供了高度可编辑控制性。用户也可以通过文本提示,添加需要的摄影机运动方式,借此精确地控制摄影机的移动。


经过评估,VideoPoet能够良好的执行视频生成任务,在多项基准测试中,VideoPoet较其他模型表现更好。研究人员要求评估者根据偏好选择,在文本准确度方面,平均24%-35%VideoPoet的范例被认为更符合指令描述,而其他模型的比例则为8%-11%。评估者还更倾向选择VideoPoet范例,认为其中41%-54%范例呈现出更有趣的运动方式,相较于其他模型比例只有11%-21%(下图)。


d50735fae6cd7b897a9bb0c5f6da0aaadb330e89.webp.jpg

VideoPoet的研究贡献在于展示大型语言模型的能力,也具有生成高度竞争力视频的能力,特别是在高品质的动作表现方面。研究人员指出,对于未来研究,他们的框架会朝向支持任意形式生成任意形式内容的方向发展。


声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布

最新音频交流