视频生成无需GANVAE,谷歌用扩散模

北京皮肤科医院网站 http://m.39.net/baidianfeng/a_4770025.html
机器之心报道编辑：杜伟、陈萍扩散模型正在不断的「攻城略地」。

扩散模型并不是一个崭新的概念，早在年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。

那么它在视频领域表现如何？先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。

在视频生成领域，研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑，显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展，它可以从图像和视频数据中进行联合训练，研究发现这可以减少小批量梯度的方差并加快优化速度。

为了生成更长和更高分辨率的视频，该研究引入了一种新的用于空间和时间视频扩展的条件采样技术，该技术比以前提出的方法表现更好。