城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

再次刷新单模型纪录!快手登顶多模态理解权威榜单VCR

10月10日 小米粒投稿
  机器之心报道
  编辑:蛋酱
  多模态理解领域的权威排行榜纪录,又被来自国内的技术团队刷新了。
  近日,多模态理解领域国际权威榜单VCR(视觉常识推理,VisualCommonsenseReasoning)刷新了排名,来自国内短视频平台快手研究团队MMU(Multimediaunderstanding)自研的VLUA多模态模型以两个单项成绩82。3、87。0和总成绩72。0的分数登上榜首。
  快手自研VLUA多模态模型登顶VCR榜单。
  近年来,多模态理解技术在视频内容社区、电商等领域有着广泛的应用场景,VCR榜单由华盛顿大学等研究机构于2018年发起,基于大规模图文多模态数据集,旨在将图像和自然语言理解二者结合,验证多模态模型高阶认知和常识推理的能力,让机器拥有看图说话的能力,是多模态理解领域最权威的排行榜之一。
  VCR任务设置了问答(questionanswering)和解释(rationale)两个子任务。具体而言,在问答任务中,给定一张图片,计算机要回答一个用自然语言描述的和图片相关的问题;在解释任务中,计算机将在给出答案的基础上,给出为什么选择这个答案的原因。
  比如在上图示例中,第一轮需要选出person4为什么指着person1的答案,第二轮则需要解释选择的理由。
  一直以来,国内外众多企业和学术机构都围绕这一领域开展了深入的研究工作。因此,榜单自发布起成绩不断被刷新,来自百度、腾讯、英特尔、卡内基梅隆大学、加州大学伯克利分校等企业和研究机构都在围绕榜单做技术探索。
  如图所示,分别为机器眼中的世界、人眼中的世界,以及通过VLUA后机器眼中世界的变化。
  快手自研VLUA,有何过人之处?
  快手团队自主研发的VLUA(VisionandLanguageUnderstandingviaaUnifiedArchitecture)多模态算法模型采用单流的transformer结构,针对视觉特征和文本特征输入的多样性,设计了统一的多模态特征处理模块,构建了图像背景和前景的信息互补策略,支持局部、全局、浅层、高层等各个维度的特征抽取。
  相比目前主流的多模态算法模型,VLUA设计了自适应的预训练任务范式单元,不仅能够支持多模态混合训练,也能够支持单模态的独立训练。预训练任务上包含文本预训练任务、视觉预训练任务及跨模态对比学习,VLUA改进了模型的训练流程,通过隐性地引入代表图像全局的抽象信息以及多任务学习,使得模型可以从不同视角学习数据的特征,从而避免模型陷入局部最优解和过拟合。在训练方式上,VLUA使用了噪声对抗学习,进一步提高了模型的鲁棒性。
  快手研究团队将基于大规模图文多模态和单模态数据训练得到的VLUA预训练模型在VCR数据集上进行迁移学习。现有的VCR方法均使用BUTD算法提取的前景特征作为视觉特征,除了前景信息,快手的研究者们认为背景信息对于理解图片内容也具有至关重要的作用。在实践中,VLUA使用网格特征对图片的整体信息进行提取,让模型可以更好地理解图片内容。
  VLUA通过统一化的输入特征及模型架构设计,不仅能够支持视觉、文本模态的融合,也支持音频、用户行为等更多跨域的模态特征融合。除了能够应用在视觉常识推理的任务上,VLUA在视觉问答,跨模态检索、caption生成等任务上都能够快速的迁移及获得效果的提升,最终以82。3,87。0,72。0的成绩登顶VCR榜单。
  世界纪录背后,是一支什么样的队伍?
  VLUA来自快手的MMU(Multimediaunderstanding)团队。作为国民级的短视频社区平台,快手每天有海量的短视频上传、直播开播,MMU是快手的核心的AI技术团队,使命是通过多模态内容理解技术,让机器像人类一样理解视频内容及用户生产的各种内容,理解内容后会应用在搜索、推荐、广告、垂类运营、生态分析、内容安全等多个场景。
  面向快手生态下内容的规模庞大、多模态、高实时性、形式丰富等多种特点,MMU在多个技术领域广泛布局,比如视觉方向,在视频、直播、图像的分析和理解、视觉检索、视频生成等技术上有成熟应用和投入;音频方向,在语音识别合成、音乐理解与生成、音频前端与分类等技术上达到行业先进水平,同时也有知识图谱、NLP、智能创作、内容商业价值理解等多种能力,为实现跨模态内容理解奠定坚实基础。
  目前,VLUA已应用于快手视频审核、推荐、搜索、创作等多个业务场景,能够根据应用场景的不同灵活的产出子模型及不同维度的多模态特征。在视频审核业务中,基于VLUA产出的视频内容质量理解模型将视频内容质量进行分层,精确的识别了劣质视频和优质视频,极大了提升了视频审核的效率和社区内优质内容的供给;在视频推荐业务中,以冷启动场景为例,基于VLUA产出的多模态内容理解特征,大幅提升了冷启动的效率,帮助更多的优质内容及优质作者在社区内获得更好的成长;在视频搜索场景,通过VLUA提供的视觉文本对齐的多模态特征,大幅提升了搜索召回的相关性;在视频创作方面,通过VLUA对视频多模态信息实现高层次的理解,为智能创作过程提供更加精准的素材检索能力,提升生成内容的流畅性及可读性。例如在直播场景,定位直播中的精彩片段,混剪形成有趣、高密度的短视频;在商业化场景,通过分析广告主广告素材或者挖掘站内优质素材,混剪形成新的创意广告,丰富广告数量。
  据统计,MMU团队有数百名算法工程师,博士占比15,硕士及以上占比95,拥有人工智能领域专利394件,每年发表论文数十篇。
  如果你也希望和这些业内顶尖的技术人才共事,并且向往简单、开放、追求卓越的技术氛围,欢迎加入快手MMU团队,成为人工智能领域的探索者和先行者。
  招聘邮箱:zhangyelingmeikuaishou。com
投诉 评论 转载

千元档手机的反击,荣耀play3堪称性价比之王如果想买一个千元以内的手机,还想要超高的性能,这是不是在痴人说梦话呢?确实,我们都知道一分价钱一分货,千元档的手机要想获得万元手机的性能,这一定是不可能的。但如果在这个档次达到……高仿华为Mate40手机参数很厉害今天小编在逛淘宝时,无意看到一款与华为之前发布的Mate40极度相似,尤其是手机后背拥有高度识别度,手机后置摄像系统采用圆形设计。这款山寨机型搭载的是高通骁龙865旗舰处……将红色基因灌注到干事创业的行动之中一代人有一代人的青春,一代人有一代人的芳华。人生有可为之事,也有不可为之事。青年干部处在一个大有可为的时代,应当赓续红色血脉、永葆政治本色、涵养为民情怀,以青春之为浇灌时代之花……贵州女贩与城管起争执,樱桃撒一地,街边小贩为何屡屡知法犯法?车水马龙的城市,鲜少有城市人还能见到农村的样子,唯有路边卖菜卖水果的农民小摊贩还能让城市人感觉到过去农村的气息。然而这些街边小贩似乎总是会踩着城市秩序的规定,与当地城管经常都会……为何找不到外星人?除了黑森林法则外,另一种理论更让人害怕当伽利略的天文望远镜中第一次出现月球环形坑时,人类对宇宙的认识便进入了新的阶段。在几百年的探索中,宇宙渐渐褪去了自己神秘的面纱,开始向人类展示其波澜壮阔的一面。而与此同时……再次刷新单模型纪录!快手登顶多模态理解权威榜单VCR机器之心报道编辑:蛋酱多模态理解领域的权威排行榜纪录,又被来自国内的技术团队刷新了。近日,多模态理解领域国际权威榜单VCR(视觉常识推理,VisualComm……老板娘刚进去徽州宴老板又摊上事,半年只交税100块,该查查了嗨,这里是辣条一起唠嗑啦徽州宴老板娘事件如今算是进了尾声,但是徽州宴老板的事情又有些抬头。为什么呢?徽州宴老板名下的餐饮店有问题。徽州宴的老板早先也是穷苦人,……明知没有任何证据,为何依然有许多物理学家痴迷弦理论?最近在读《弯曲的旅行》,作者是美国国家科学院院士、哈佛大学理论物理学教授丽莎兰道尔。看着这一大串闪亮的名头,很难想象在这样一本科普读物中竟然充斥着的巫术思维,老郭绝不敢苟同。在……科技三分钟亚洲第一!台积电市值超腾讯阿里1。台积电市值超腾讯为亚洲第一8月18日报道,台积电市值目前已超过腾讯,位列亚洲第一。截至18日上午的数据,台积电目前在亚洲公司中市值最高,超过5380亿美元。腾讯位居第……孟晚舟案进入最后庭审,本人穿着一袭蓝裙,大方微笑与记者打招呼根据《北京晚报》报道,等了两年多,孟晚舟案件终于进入了最后庭审。开庭当日,孟晚舟本人穿着一袭蓝裙,走出家门后,大方微笑与各国记者打招呼。与此同时,华为作出回应:坚信孟晚舟是无辜……光速测量方法通过光学现象观察,光速可变实际不用检测都是确切无疑的。可是,人们需要实验证明,才肯接受。故此,我设计一个测量光速的方法,可以消除光速不变的执念。方法简单易行,有条件的朋友不妨动……前沿技术体内固化的可注射脑电极获取更多信息,请关注我们受美国国防高级研究计划局、美海军信息战中心太平洋分部等资助,威斯康辛大学麦迪逊分校的研究人员研发出一种侵入性小、性价比高的可注射脑电极,可用于施加……
如何带孩子做有关于空气的有趣科学实验?小小珍珠鸟育儿熬了七天,我整理出的必背诵国学经典索赔100亿!停售苹果iPhone?上海一公司出手跨界交友?家犬与小熊庭院玩成一片饲主监视器看傻眼储能产业生态图谱(电网侧储能风光储)卖房子也要交中介费了?有城市开始实施了,啥情况?有哪些城市景观堪称惊艳?形位公差的选择办公室健康恶习大盘点法国拟在2028年前逐步禁用华为设备formnext深圳展金属3D打印粉末参展企业抢先看校服裤子怎么穿好看配小白鞋特有青春范7个克服恐惧的终极技巧明天清明,记得拒3物,忌3事,家人无病,身体康健投资风险协议描写人的作文400字草帽警察经典观后感集关于陪伴的记叙作文不良心理作祟让你外交能力下降快乐的笑声作文小石潭记的教学设计2毛主席为红军电台发愁,一国军俘虏站了出来,25年后成开国中将清明节为什么要踏青?(清明节为什么要去踏青呢?)

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找