如同最近一年 DALL-E 2、Stable Diffusion 等文本生成图像模型发展一样,用文本来生成视频的 AI 工具也正变得越来越多。

继 Meta 的 Make-A-Video 之后,谷歌也接连发布了两款视频模型 Imagen Video 和 Phenaki。两者分别强调视频的质量和长度等不同功能。

日前,在人工智能活动上,首次发布了由 Imagen Video 和 Phenaki 一同生成的视频。该视频结合了 Phenaki 生成长视频能力和 Imagen 的高分辨率细节。

(来源:谷歌)

“我认为使用一系列提示,创造这样的超分辨率长视频令人难以置信,这是一种讲故事的新方式,”谷歌研究中心首席科学家兼谷歌大脑团队研究总监道格拉斯·埃克()在活动中分享说,“很期待电影人或视频故事讲述者如何利用我们的技术。”

在官方博客中表示,Imagen Video 和 Phenaki 的结合是一项重要突破,它正在努力打造领先行业、能生成高质量影响的工具。AI 驱动的生成模型有着无限的创造力,可帮助人们借助视频、图像工具,以他们之前无法做到的方式充分表达自身想法。

再分别简单介绍下 Imagen Video 和 Phenaki。

据了解,Imagen Video 基于级联视频扩散模型来生成高清视频。如输入文本提示后,基本视频扩散模型和多个时间超分辨率(Temporal Super-Resolution,TSR)及空间超分辨率(Spatial Super-Resolution,SSR)模型,分别以 40×24 像素和 3 帧/秒速度生成 16 帧视频、以 1280×768 像素和 24 帧/秒的速度采样,最终得到 5.3 秒的高质量视频。

推荐内容