当前位置:首页音频音响行情快递厂商曝光音频正文

Google应用多模态大型语言模型解决视频生成任务

发布时间：12-23 编辑：Google

Google披露最新多模态大型语言模型VideoPoet，该语言模型能够执行各种视频生成任务，包括文本转视频、图片转视频、视频风格化，视频补绘与扩绘，甚至是视频转音频等。该模型特别之处在于VideoPoet是一个大型语言模型，有别于目前大多基于扩散模型的视频生成模型。

Google指出，即使是目前最先进的视频生成模型，也只能生成小幅度的动作，在生成大动作的时候，就会出现明显的破绽。Google探索大型语言模型在视频生成领域的应用，开发出VideoPoet，这是一个能够执行各种视频生成、任务的大型语言模型，研究人员指出，诸如Imagen Video等视频生成模型，都是以扩散模型为基础。

由于大型语言模型目前在各个领域，包括语言、程序代码和声音等，都具有极强的处理能力，Google认为大型语言因为在多种模态上优秀的学习能力，已经成为重要的技术标准。因此不同于该领域的其他模型，VideoPoet将视频生成能力集成到单一大型语言模型中，而非依赖各项针对性任务训练的独立组件。

91529822720e0cf3c4489731f3b8ba12bc09aa4d.webp.jpg

视频生成任务采用大型语言模型的优势，在于可以利用现有的高效训练基础设施，但研究人员也指出，大型语言模型的本质上是处理离散的标记（Token），而这对于生成视频是一个挑战。因此研究人员开发了专用的视频和音频标记器（Tokenizer），将视频和音频剪辑片段编码为离散的标记串行，而这个离散的标记串行也能够被转换回原始表示。

VideoPoet借由使用多种标记器，学习处理视频、图像、音频和文本等不同模态。当模型根据特定上下文条件生成相对应的标记后，这些标记就可以通过标记器转换回可查看的表示形式，生成视频和音频内容。

VideoPoet适应短视频格式默认生成纵向视频，并在进行视频风格化时，能够预测光流（Optical Flow）以及深度资讯（下图）。同时VideoPoet也可以生成音频，通过先从模型生成2秒的音频片段，接着就可在没有文本指引的情况下，预测接下来的音频。而这也让VideoPoet单一模型，就可生成视频和配音。

VideoPoet能以前一秒的视频预测下1秒的视频，以连续预测的方式达到生成更长视频的目的，而这种方法不只可以有效延长视频，而且经过多次迭代后仍能保持视频主体的外观不变。VideoPoet生成的视频也能够以互动的方式编辑，像是改变视频中物体的运动，使其执行不同的动作，且编辑会从视频的第一个影格，或是中段的影格开始，提供了高度可编辑控制性。用户也可以通过文本提示，添加需要的摄影机运动方式，借此精确地控制摄影机的移动。

经过评估，VideoPoet能够良好的执行视频生成任务，在多项基准测试中，VideoPoet较其他模型表现更好。研究人员要求评估者根据偏好选择，在文本准确度方面，平均24%-35%VideoPoet的范例被认为更符合指令描述，而其他模型的比例则为8%-11%。评估者还更倾向选择VideoPoet范例，认为其中41%-54%范例呈现出更有趣的运动方式，相较于其他模型比例只有11%-21%（下图）。

d50735fae6cd7b897a9bb0c5f6da0aaadb330e89.webp.jpg