城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

图像生成卷腻了,谷歌全面转向文字视频生成,挑战分辨率和长度

3月7日 终不悔投稿
  机器之心报道
  编辑:张倩、杜伟
  谷歌、Meta等科技巨头又挖了一个新坑。
  在文本转图像上卷了大半年之后,Meta、谷歌等科技巨头又将目光投向了一个新的战场:文本转视频。
  上周,Meta公布了一个能够生成高质量短视频的工具MakeAVideo,利用这款工具生成的视频非常具有想象力。
  当然,谷歌也不甘示弱。刚刚,该公司CEOSundarPichai亲自安利了他们在这一领域的最新成果:两款文本转视频工具ImagenVideo与Phenaki。前者主打视频品质,后者主要挑战视频长度,可以说各有千秋。
  下面这个洗盘子的泰迪熊就是用ImagenVideo生成的,可以看到,画面的分辨率和连贯性都有一定的保障。
  ImagenVideo:给出文本提示,生成高清视频
  生成式建模在最近的文本到图像AI系统中取得了重大进展,比如DALLE2、Imagen、Parti、CogView和LatentDiffusion。特别地,扩散模型在密度估计、文本到语音、图像到图像、文本到图像和3D合成等多种生成式建模任务中取得了巨大成功。
  谷歌想要做的是从文本生成视频。以往的视频生成工作集中于具有自回归模型的受限数据集、具有自回归先验的潜变量模型以及近来的非自回归潜变量方法。扩散模型也已经展示出了出色的中等分辨率视频生成能力。
  在此基础上,谷歌推出了ImagenVideo,它是一个基于级联视频扩散模型的文本条件视频生成系统。给出文本提示,ImagenVideo就可以通过一个由frozenT5文本编码器、基础视频生成模型、级联时空视频超分辨率模型组成的系统来生成高清视频。
  论文地址:https:imagen。research。googlevideopaper。pdf
  在论文中,谷歌详细描述了如何将该系统扩展为一个高清文本转视频模型,包括某些分辨率下选择全卷积时空超分辨率模型以及选择扩散模型的v参数化等设计决策。谷歌还将以往基于扩散的图像生成研究成果成功迁移到了视频生成设置中。
  谷歌发现,ImagenVideo能够将以往工作生成的24fps64帧128128视频提升至128帧1280768高清视频。此外,ImagenVideo还具有高度的可控性和世界知识,能够生成多样化艺术风格的视频和文本动画,还具备了3D对象理解能力。
  让我们再来欣赏一些ImagenVideo生成的视频,比如开车的熊猫:
  遨游太空的木船:
  更多生成视频请参阅:https:imagen。research。googlevideo
  方法与实验
  整体而言,谷歌的视频生成框架是七个子视频扩散模型的级联,它们相应执行文本条件视频生成、空间超分辨率和时间超分辨率。借助整个级联,ImagenVideo能够以每秒24帧的速度生成128帧1280768的高清视频(约1。26亿像素)。
  与此同时,在渐进式蒸馏的帮助下,ImagenVideo的每个子模型中仅使用八个扩散步骤就能生成高质量视频。这将视频生成时间加快了大约18倍。
  下图6展示了ImagenVideo的整个级联pipeline,包括1个frozen文本编码器、1个基础视频扩散模型以及3个空间超分辨率(SSR)和3个时间超分辨率(TSR)模型。这七个视频扩散模型共有116亿参数。
  在生成过程中,SSR模型提高了所有输入帧的空间分辨率,同时TSR模型通过在输入帧之间填充中间帧来提高时间分辨率。所有模型同时生成一个完整的帧块,这样SSR模型不会遭受明显的伪影。
  ImagenVideo构建在视频UNet架构之上,具体如下图7所示。
  在实验中,ImagenVideo在公开可用的LAION400M图像文本数据集、1400万个视频文本对和6000万个图像文本对上进行训练。结果正如上文所述,ImagenVideo不仅能够生成高清视频,还具备一些纯从数据中学习的非结构化生成模型所没有的独特功能。
  下图8展示了ImagenVideo能够生成具有从图像信息中学得的艺术风格的视频,例如梵高绘画风格或水彩画风格的视频。
  下图9展示了ImagenVideo对3D结构的理解能力,它能够生成旋转对象的视频,同时物体的大致结构也能保留。
  下图10展示了ImagenVideo能够可靠地生成各种动画样式的文本,其中一些使用传统工具很难来制作。
  更多实验细节请参阅原论文。
  Phenaki:你讲故事我来画
  我们知道,虽然从本质上讲,视频就是一系列图像,但生成一个连贯的长视频并没有那么容易,因为在这项任务中,可用的高质量数据非常少,而且任务本身的计算需求又很大。
  更麻烦的是,像之前那种用于图像生成的简短文本prompt通常不足以提供对视频的完整描述,视频需要的是一系列prompt或故事。理想情况下,一个视频生成模型必须能够生成任意长度的视频,并且要能根据某个时刻t的prompt变化调节生成的视频帧。只有具备这样的能力,模型生成的作品才能称之为视频,而不是移动的图像,并开启在艺术、设计和内容创作方面的现实创意应用之路。
  谷歌等机构的研究人员表示,据我们所知,基于故事的条件视频生成之前从未被探索过,这是第一篇朝着该目标迈进的早期论文。
  论文链接:https:pubbede3007802c4858abc6f742f405d4ef。r2。devpaper。pdf项目链接:https:phenaki。github。iointeractive
  由于没有基于故事的数据集可以拿来学习,研究人员没有办法简单地依靠传统深度学习方法(简单地从数据中学习)完成这些任务。因此,他们专门设计了一个模型来完成这项任务。
  这个新的文本转视频模型名叫Phenaki,它使用了文本转视频和文本转图像数据联合训练。该模型具有以下能力:
  1、在开放域prompt的条件下生成时间上连贯的多样化视频,即使该prompt是一个新的概念组合(见下图3)。生成的视频可以长达几分钟,即使该模型训练所用的视频只有1。4秒(8帧秒)
  2、根据一个故事(即一系列prompt)生成视频,如下图1和图5所示:
  从以下动图中我们可以看到Phenaki生成视频的连贯性和多样性:
  要实现这些功能,研究人员无法依赖现有的视频编码器,因为这些编码器要么只能解码固定大小的视频,要么独立编码帧。为了解决这个问题,他们引入了一种新的编码器解码器架构CViViT。
  CViViT可以:利用视频中的时间冗余来提高每帧模型的重构质量,同时将视频token的数量压缩40或更多;在给定因果结构的情况下,允许编码和解码可变长度视频。
  PHENAKI模型架构
  受之前自回归文本转图像、文本转视频研究的启发,Phenaki的设计主要包含两大部分(见下图2):一个将视频压缩为离散嵌入(即token)的编码器解码器模型和一个将文本嵌入转换为视频token的transformer模型。
  获取视频的压缩表示是从文本生成视频的主要挑战之一。之前的工作要么使用perframe图像编码器,如VQGAN,要么使用固定长度视频编码器,如VideoVQVAE。前者允许生成任意长度的视频,但在实际使用中,视频必须要短,因为编码器不能及时压缩视频,并且token在连续帧中是高度冗余的。后者在token数量上更加高效,但它不允许生成任意长度的视频。
  在Phenaki中,研究者的目标是生成可变长度的视频,同时尽可能压缩视频token的数量,这样就可以在当前的计算资源限制下使用Transformer模型。为此,他们引入了CViViT,这是ViViT的一种因果变体,为视频生成进行了额外的架构更改,它可以在时间和空间维度上压缩视频,同时保持时间上的自回归。该功能允许生成任意长度的自回归视频。
  为了得到文本嵌入,Phenaki还用到了一个预训练的语言模型T5X。
  具体细节请参见原论文。
投诉 评论 转载

高层地漏反味怎么办地漏,是连接排水管道系统与室内地面的重要接口,作为住宅中排水系统的重要部件,它的性能好坏直接影响室内空气的质量,对卫浴间的异味控制非常重要。高层地漏反味怎么办?下面本站小编就为……什么是儿童精神分裂症什么是儿童精神分裂症Psy525。cn精神分裂症是一种比较常见而严重的精神疾病,它也可能在少年儿童期发病,当这一疾病发生在这一时期便称为儿童精神分裂症。由于心理年龄特征的……国庆游玉溪通海大树社区摸鱼节,你去了吗?吉祥献瑞迎佳宾乡村旅游促振兴10月4日中午通海县秀山街道大树社区举办第四届摸鱼节八方游客纷至沓来感受乡野田趣品尝生态美食尽享快乐……法国历史上有哪些诺贝尔文学奖得主说起诺贝尔奖,相信大家都非常熟悉了,这是除了数学以外各种奖项中最高奖项之一,若是得了诺贝尔奖那就证明你在除了数学之外是某个领域的权威。法国是诺贝尔文学奖得主最多的国家,因为法语……从设计思维转变为产品思维需要面对的个挑战因为身边有过转产品想法的同学比较多,自己也认识很多小伙伴是新人产品经理,所以今天想先和大家探讨一下如果要一个优秀的产品经理、从设计思维转变为产品思维,需要面对的几个挑战。……中华好家风爱国如爱家,爱家如爱国,人讲精气神,国讲正清和;家风连国风,国风兴家风每当听到这首《中华好家风》,我就想到了那一次,妈妈对我的教导。以前,我每次吃完了东西都会随手一扔,不……密码回到家,登上QQ,看到自己的QQ满目疮痍,不要说,又是父母偷看了我的手机,难道我的聊天记录那么好看么!从同学那里告知我父母用我的QQ跟他了解我的情况时,我就对父母有了另一……山西20处最美地质遗迹公布近日,省自然资源厅举行山西最美地质遗迹授牌仪式,包括偏关老牛湾黄河蛇曲、浑源恒山碳酸盐岩地貌、五台山夷平面、大同火山群等在内的20处地质遗迹获得山西最美地质遗迹美誉。此举旨在向……供电所所长个人述职报告共篇第1篇:供电所所长个人述职报告一、工作履职情况2018年,以所委会为中心,带领全体员工坚持以人民电业为人民为工作主线,以安全生产、营销指标、电网建设、队伍稳定为中心……车子在高速上失控脚刹失灵时拧车钥匙关拧钥匙熄火后是很可怕的,这样瞬间失去助力,即使是10kmh的低速也只能看着撞,方向盘你根本把不动,千万不要这样做,甚至也不要按STOP键熄火,因为熄火就意味着断电,油泵等不工作……图像生成卷腻了,谷歌全面转向文字视频生成,挑战分辨率和长度机器之心报道编辑:张倩、杜伟谷歌、Meta等科技巨头又挖了一个新坑。在文本转图像上卷了大半年之后,Meta、谷歌等科技巨头又将目光投向了一个新的战场:文本转视……老人吃不下饭怎么办老年人的体质大不如从前,连食欲也降低了很多,然而老年人增强体质是需要补充营养的,食欲差不想吃饭这可怎么行?老年人没食欲怎么办?来看看下文的介绍,推荐8个小妙招可以改善老年人食欲……
电子手表电子手环都是鸡肋印尼严重球迷冲突致129死180伤中国球迷的评论更是发人深省新海南财经观察丨海南精心雕琢环岛旅游公路与驿站被低估的杨元庆,正在证明自己是一位合格的CEO加拿大在世界杯回归中证明无畏,将比利时推到悬崖边美锦赛63击败加拿大男篮这年头的演员,只剩性别是真的了NASAArtemisI延期至5或6日发射如若错过将要等到1许多年前写的,缅怀一下过去陨石携带大量氨基酸,生命真的来自外太空吗?生命起源简析9月更新!达芬奇18。1正式稳定版来袭!可以卸载掉AEPRF人生最好的状态应该是什么样的?记住三不过,四要懂

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找