目前,深度学习已在计算机视觉和自然语言处理等AI领域获得巨大的成功。例如,ResNets在图像分类方面已经超越了人类的表现,RoBERTa模型在GLUE基准测试的自然语言理解任务中也优于人类。然而,现有的AI技术大多只关注图像分类、语言理解以及关系推理等单一认知层面的任务。 图文继荣(来源:文继荣) 近日,由中国人民大学高瓴人工智能学院院长文继荣教授牵头、卢志武教授为主的团队采用弱语义相关数据以及自监督学习的方式对基础模型进行预训练,带来了一种具有极大逻辑想象力的多模态通用AI模型BriVL,能够高效地处理各类下游认知任务。 图卢志武(来源:卢志武) 该团队称,我们的工作朝着通用人工智能(ArtificialGeneralIntelligence,简称AGI)迈出了变革性的一步,从我们常见的弱或狭义AI转变到强或广义AI的实践。 图孙浩(来源:孙浩) 相关论文以《通过多模态基础模型走向人工智能》(TowardsArtificialGeneralIntelligenceviaaMultimodalFoundationModel)为题发表在NatureCommunications上,中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授担任共同通讯作者,中国人民大学高瓴人工智能学院费楠益为第一作者〔1〕。 图采用弱训练数据假设的BriVL模型的总体框架(来源:NatureCommunications) 据了解,现有的多模态基础模型在快速学习转移和跨模态理解任务方面有所成就,但其中涉及的输入图像文本对大多都是强语义相关的;也就是说,图像中的对象与文本中的单词需达到精确匹配的程度,这严重限制了模型的泛化能力。物体检测器和单塔体系结构是两种常用的方法,但都具有较高的计算成本,因此限制了实际应用。 针对上述问题,该团队决定通过自监督学习来开发大规模的多模态基础模型。 首先,在建立模型预训练的数据集时,研究人员选择采用互联网上爬取的弱语义相关数据。据悉,他们总共从网络中爬取了6。5亿个图文对,其中很多数据蕴含了众多复杂且抽象的人类情感和思想。 图BriVL的神经元可视化,展示其想象力(来源:NatureCommunications) 该团队表示,与以往通过直接图像到文本翻译来建模强语义关联数据相比,这种通过图像文本弱语义关联数据进行建模的方式更有利于他们学习到更强的认知模型。 其次,在设计网络架构时,他们放弃耗时的物体检测器,转而选择了图像划分格子的表示方式并采用更为简单高效的双塔架构,该架构利用两个单独的编码器处理图像和文本,在推理过程中的效率上较高,可满足现实应用中的延迟要求。 接着,为建模弱图像文本相关性并学习全局级图像文本嵌入对齐的统一语义空间,该团队设计了一种跨模态对比学习(CL,ContrastiveLearning)算法,CL是一种特殊的自监督学习形式,其最初是在单模态模型中发展起来的。 图更清晰的文本到图像生成示例(来源:NatureCommunications) 最后,研究人员采用BriVL对各种下游认知任务进行了广泛的实验,证明了该模型强大的跨模态理解能力、跨领域学习转移能力以及逻辑想象力。该团队称,虽然我们的BriVL只是预先训练了图像文本匹配学习目标,但它强大的泛化能力已经初步满足了AGI系统应该具备的一些关键特性。 近年来,OpenAI的CLIP和谷歌的ALIGN作为热门的多模态大模型掀起一阵多模态学习的风潮,BriVL与这两个模型存在明显区别。 一是,BriVL遵循弱语义关联假设来构建从互联网爬取的巨大数据集,收集的数据只过滤了色情敏感数据;而CLIP只保留词频较高的图像文本对,ALIGN还通过一些规则排除了词频极低的文本以及过长、过短的文本;相比之下,BriVL的数据集保留了更接近现实世界的数据分布。 二是,BriVL在维护负样本训练框架时,所用到的是momentum动量算法,因此拥有较大的负样本量,所需的批处理大小相对较小,在算力资源有限时也能完成模型预训练;而CLIP和ALIGN在每个训练批处理中都使用负样本,需要较大的批处理大小,模型预训练的算力要求更高。 三是,BriVL模型在可解释性上开始了初步的探索,而这在其他相关工作中基本没有予以考虑。 总体而言,这项研究表明,多模态预训练基础模型已经初步取得了出色的成就。随着更多的感官模式用于多模式预训练,并进一步探索更先进的基础模型,研究人员将更有可能接近AGI,并最终对包括神经科学、医疗保健和生物医学在内的各种AI领域产生广泛的影响。 例如,医疗保健方面,多模态基础模型能够通过分析多模态的病例数据做出更准确的疾病诊断;在神经科学中,多模态基础模型可以当作一个辅助工具,用于发现人脑中多模态数据连接和融合的机制。 不过,该团队表示,当前大规模多模态基础模型的理解和分析研究还只是个开始。今后,为更好地理解这类基础模型,他们还将开发出更多新颖的可解释分析工具。例如,由于图像可以被视为一种普遍理解的语言,利用包含多种语言的更大数据集可能会得到作为多模态预训练副产品的更强语言翻译模型。 此外,研究人员还可以探索视频和音频等模式,以预训练出更强的AI模型,从而一步步地接近真正的AGI。 参考资料: 1。Fei,N。,Lu,Z。,Gao,Y。etal。Towardsartificialgeneralintelligenceviaamultimodalfoundationmodel。NatCommun13,3094(2022)。https:doi。org10。1038s41467022307612