出品开源中国 自2021年初以来,AI领域推出大量基于文本到图像的模型(例如DALLE2、StableDiffusion和Midjourney等)。近日,谷歌也公开了一款名为Muse的基于文本生成图像的模型,声称可以实现最先进的图像生成性能。 下图均为Muse的基于文本生成的图像 一群鱼在海里拼成MUSE字样 嘴里叼着MUSE牌子的威尔士柯基 带有Muse的拿铁咖啡 壁炉中的火焰呈现MUSE字样 Muse在离散标记空间中接受掩蔽建模任务的训练:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,训练Muse以预测随机掩蔽的图像标记。使用预训练的LLM可以实现细粒度的语言理解,转化为高保真图像生成以及对视觉概念(例如对象)的理解,比如空间关系、姿势、基数等。 总体来说,MUSE的优势在于其FID和CLIP分数更高、生成效率比其他同类模型快得多,且支持开箱即用的蒙版编辑功能(即支持通过蒙版继续编辑已生成的图片)。 分数更高:MUSE模型获得了出色的FID和CLIP分数,可定量衡量图像生成质量、多样性和与文本的对齐情况。数据方面,MUSE的900M参数模型在CC3M上实现了新的SOTA,FID得分为6。06。Muse3B参数模型在零样本COCO评估中实现了7。88的FID,以及0。32的CLIP分数。 生成效率:由于使用压缩的、离散的潜在空间和并行解码,MUSE模型比其他同类模型快得多。与Imagen和DALLE2等像素空间扩散模型相比,Muse使用离散标记,且需要的采样迭代更少,因此生成效率显著提高;与谷歌自己的Parti等自回归模型相比,Muse使用了并行解码,生成效率也更高。 编辑功能:MUSE支持基于蒙版的编辑功能,比如下图,通过在左图创建蒙版并输入热气球,便可生成右边的新图片。 另外,Muse团队指出,当今语言和图像人工智能系统的用例存在一些潜在的危害,例如社会偏见或传播错误信息。出于这个原因,该团队并未发布MUSE的源代码和任何公开的Demo演示。 在MUSE主页可以看到更多基于MUSE的图像作品,下图为部分MUSE作品预览:
造句:谷歌推出新的文本生成图像模型声称性能为同类最佳
造句:谷歌推出新的文本生成图像模型声称性能为同类最佳