10月8日消息,近日,Meta AI 的研究人员给生成AI做了一个超进化。Make-A-Video,可让静态生成动态。给它几个单词或几行文字,就能生成这个世界上其实并不存在的视频画面,掌握的风格还很多元。
Make-A-Video的工作原理:先静态图像,再生成视频。从数据的角度来说,就是 DALL・E 等静态图像生成模型的训练数据,是成对的文本-图像数据。然后依然靠文本-图像对数据,来让 AI 学会根据文字复现画面。
具体到模型架构上,Make-A-Video 主要由三部分组成:文本图像生成模型 P,时空卷积层和注意力层,用于提高帧率的帧插值网络和两个用来提升画质的超分网络。
值得一提,目前Make-A-Video 尚未公开,不过官方表示会推出一个Demo 让大家可以实际上手体验。