城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

NLP任务非Transformer不可?谷歌研究发现预训练卷

11月3日 观潮阁投稿
  选自arXiv
  机器之心编译
  编辑:Panda
  在当前NLP领域,基于Transformer的模型可谓炙手可热,其采用的大规模预训练方法已经为多项自然语言任务的基准带来了实质性的提升,也已经在机器翻译等领域得到了实际应用。但之前却很少有研究者思考:预训练是否也能提升卷积在NLP任务上的效果?近日,资源雄厚的GoogleResearch的一项大规模实证研究填补了这一空白。结果发现,在许多NLP任务上,预训练卷积模型并不比预训练Transformer模型更差。本文将重点关注该研究的实验结果和相关讨论,具体实验设置请参阅论文。
  论文地址:https:arxiv。orgpdf2105。03322。pdf
  在这个预训练已成为惯用方法的现代,Transformer架构与预训练语言模型之间似乎已经有了密不可分的联系。BERT、RoBERTa和T5等模型的底层架构都是Transformer。事实上,近来的预训练语言模型很少有不是基于Transformer的。
  尽管基于上下文的表征学习历史丰富,但现代预训练语言建模却是始于ELMo和CoVE等基于循环架构的模型。尽管它们取得了巨大成功,但使用这些架构的研究已经减少了很多,因为Transformer已经偷走了NLP社区的心,而且NLP社区也已经将它(可能较为隐式地)看作是在前代架构上明确无疑的进步。
  近来有研究展现了全卷积模型的潜力并质疑了Transformer等自注意力架构的必要性。举个例子,康奈尔大学博士FelixWu等人在2019年提出的卷积式seq2seq模型在机器翻译和语言建模等一系列规范基准任务上都取得了优于Transformer的表现。在这些发现的基础上,我们自然会有疑问:我们是否应该考虑Transformer之外的预训练模型?
  尽管卷积模型早期取得了一些成功,但在预训练语言模型时代,卷积是否仍然重要还是一个有待解答的问题。研究者表示,之前尚未有研究工作在预训练微调范式下对卷积架构进行严格评估。这正是本研究的主要目的。具体而言,这篇论文的目标是通过实证方式验证预训练卷积模型在一系列任务上是否能与预训练的Transformer相媲美。
  预训练方案与模型架构之间的交互关系这一主题所得到的研究仍旧不足。只有Transformer能从预训练大量获益吗?如果我们使用一种不同架构的归纳偏置(inductivebias),预训练是否也能带来显著增益?预训练的卷积模型能在某些情况中取得更优表现吗?这篇论文研究了这些问题。
  基于卷积的模型有一些明显的优势。第一,卷积不会有自注意力那种二次内存复杂度的问题这是一个重大问题,甚至足以催生出一类全新的高效Transformer架构;第二,卷积在本地执行,并不依赖位置编码作为模型的顺序信号。话说回来,卷积也有许多缺点。举个例子,卷积无法获取全局信息,这意味着这样的模型无法执行一种跨多个序列的跨注意力形式。
  本文将展示一种预训练的序列到序列模型,即Seq2Seq。卷积模型的训练使用了基于跨度的序列到序列去噪目标,其类似于T5模型使用的目标。研究者在原始范式(无预训练)和预训练微调范式下对多种卷积变体模型进行了评估,比如扩张模型、轻量模型和动态模型。这些评估的目标是理解在预训练时代卷积架构的真正竞争力究竟如何。
  实验结果表明,在毒性检测、情感分类、新闻分类、查询理解和语义解析合成概括等一系列NLP任务上,预训练卷积能与预训练Transformer相媲美。此外,研究者发现在某些情况下,预训练的卷积模型在模型质量和训练速度方面可以胜过当前最佳的预训练Transformer。而且为了平衡考虑,研究者也描述了预训练卷积并不更优或可能不适用的情况。
  本文的主要贡献包括:在预训练微调范式下对卷积式Seq2Seq模型进行了全面的实证评估。研究者表示,预训练卷积模型的竞争力和重要性仍还是一个仍待解答的问题。研究者还得出了几项重要观察结果。具体包括:(1)预训练能给卷积模型和Transformer带来同等助益;(2)在某些情况下,预训练卷积在模型质量与训练速度方面与预训练Transformer相当。研究者使用8个数据集在多个领域的许多任务上执行了广泛的实验。他们发现,在8项任务的7项上,预训练卷积模型优于当前最佳的Transformer模型(包括使用和未使用预训练的版本)。研究者比较了卷积和Transformer的速度和操作数(FLOPS),结果发现卷积不仅更快,而且还能更好地扩展用于更长的序列。
  研究问题和讨论
  研究者主要关注了以下研究问题(RQ):RQ1:预训练能否为卷积和Transformer带来同等助益?RQ2:卷积模型(不管是否使用预训练)能否与Transformer模型媲美?它们在什么时候表现较好?RQ3:相比于使用Transformer模型,使用预训练卷积模型是否有优势,又有哪些优势?相比于基于自注意力的Transformer,卷积模型是否更快?RQ4:预训练卷积不适用于哪些情况?哪些情况需要警惕?原因是什么?RQ5:是否有某些卷积模型变体优于另一些模型?
  实验结果
  下表2是在毒性检测、情感分类、问题分类和新闻分类上,预训练卷积和预训练Transformer的表现比较。所有模型都是12层的seq2seq架构,都有大约2。3亿个参数。可以看到,预训练对卷积也有所助益,并且总是优于使用和没使用预训练的Transformer模型。
  结果总结
  实验发现,在多个领域的7项任务上,(1)相比于没使用预训练的Transformer,没使用预训练的卷积是具有竞争力的,而且常常更优;(2)预训练卷积在7项任务中的6项上都优于预训练Transformer。这是问题RQ2的答案。
  实验还发现预训练能给卷积带来助益,其产生助益的方式类似于助益基于自注意力的模型的方式。因此,预训练的优势并不是Transformer模型独占的。这是问题RQ1的答案。
  研究者还发现,在这些预训练卷积模型中,扩张卷积和动态卷积通常优于轻量卷积,这回答了问题RQ5。
  最后,研究者观察到,使用预训练后,模型的相对性能(即排名)会改变。这说明使用预训练来构建架构肯定会有某种效果。这种效果的直接影响是不使用预训练时表现好(相对而言)的模型并不一定在使用预训练后表现最佳。因此,除了将架构与预训练方案组合到一起使用之外,我们也需要注意不同的架构在使用预训练后可能会有不同的行为。
  讨论和分析
  下面将通过详细的分析和讨论对结果进行扩展讨论。其中将讨论预训练卷积的优劣和预训练对性能的影响,并将为广大社区给出一些建议。
  1。预训练卷积在哪些情况下不管用?
  根据实验结果,我们可以观察到卷积模型相较于完善的预训练Transformer的潜在优势,并且在某些情况下还能获得质量上的提升。但是,进一步理解卷积的缺陷可能会有所助益。
  预训练卷积的一个明显缺点是它们缺乏跨注意力的归纳偏置,而在Transformer编码器中,使用自注意力可以自然而然地获得这一能力。因为这个原因,对于需要建模两个或更多序列的关系的任务而言,不宜使用预训练卷积。为了验证这一点,研究者在SQuAD和MultiNLI上执行了实验,结果发现,正是由于缺少归纳偏置,预训练卷积的表现远远不及Transformer。在检查和评估模型时,我们应该能清楚地区分这一点,就像早期的SNLI排行榜能清楚地区分使用和不使用跨注意力的模型一样。
  之前在SQuADMNLI等基准上的评估表明,预训练卷积模型确实乏善可陈。举个例子,在MultiNLI上,卷积仅能实现约75的准确度,而Transformer能轻松达到约84。类似地,卷积在SQuAd上能达到70左右,而Transformer则可达约90。这完全在意料之中,因为前提问题无法与假设上下文交互(RQ4)。但是,研究者通过实验发现,这种现象的原因只是单纯地缺乏这种跨注意力属性。当在编码器中使用单层跨注意力增强卷积时,结果发现预训练卷积能在MultiNLI等数据集上达到与预训练Transformer非常相近的水平,实现约83的准确度。
  话虽如此,跨注意力归纳偏置是否真的重要,还需要实践者进一步证明。研究者强调,在扩大规模时,连接句子对的模式并不一定是必要的,因为这需要对句子对的每种排列进行推理。因为这个原因,在实践中,使用双编码器设置来执行快速嵌入空间查找是更为实际和可行的做法。鉴于卷积在一系列编码任务上的强劲表现,可以期待预训练卷积在双编码器设置中的出色效果。
  2。相比于预训练Transformer,预训练卷积有何优势?
  基于实验结果可知,相比于使用Transformer,使用卷积能获得一些质量提升。下面讨论其它优势。在处理长序列时,卷积速度更快,扩展更好。
  图1:在一个seq2seq掩码语言建模任务上,序列长度对处理速度的影响。结果是使用16块TPUv3芯片在C4预训练上通过基准测试得到的。结果以对数标度展示。
  上图1展示了在一个序列到序列任务上,卷积(LightConvs)与Transformer的训练速度。输入长度的取值为{64,128,256,512,1024,2048,4096}。结果发现,卷积不仅速度总是更快(序列更短时也更快),而且扩展性能也更好。卷积会线性扩展到更长的序列,而Transformer无法扩展。卷积的FLOPs效率更高
  研究者测算了当序列长度增大时卷积与Transformer的FLOPs的数量。下图2展示了不同序列长度下的结果。总体而言,在所有序列长度上,卷积在浮点运算数量上都比Transformer更加高效。
  图2:在一个seq2seq掩码语言建模任务上,序列长度对FLOPs数量(爱因斯坦求和的操作数)的影响。结果是使用16块TPUv3芯片在C4预训练上通过基准测试得到的。结果以对数标度展示。
  整体而言,不管是时钟,还是FLOPs,卷积都更快一些,这解答了问题RQ3。此外,研究者还发现卷积的FLOPs效率在不同序列长度上延展得也更好。
  3。是否建议用卷积完全替代Transformer?
  尽管Transformer已经主导了NLP研究社区,但这篇论文认为卷积的一些优势被忽视了,比如模型质量、速度、FLOPs和扩展性。此外,此前我们并不知道预训练是否能助益卷积。这篇论文表明,在某些任务上,预训练能给卷积模型带来与给Transformer模型带来的类似增益。但是,研究者也着重指出,卷积难以应付需要跨注意力的任务,也难以建模在同一序列中有多个句子或文档的情况。研究者认为这是一个值得实践者探索的研究方向,并有望发掘出Transformer之外的新架构。
  4。不要将预训练与架构的发展进步混为一谈
  这篇论文还表明,轻量、动态和扩张卷积都能从预训练获益,其带来的增益程度不比给Transformer带来的增益少。
  在当前的研究图景中,预训练总是与Transformer架构紧密相关。因此,人们总是将BERT的成功、Transformer和大规模语言模型这三者混为一谈。尽管到目前为止确实只有Transformer会使用大规模预训练,但可以相信其它架构也可能有类似潜力。
  基于实验结果,研究者相信在架构和预训练的组合效果方面还有进一步的研究空间。这项研究本身也有望提升卷积模型在NLP领域的竞争力。他们表示,在探索解决NLP任务时,不要总是局限于当前最佳的Transformer,也应积极地探索其它替代框架。
投诉 评论 转载

酒店住房记录泄露(酒店住房记录泄露)酒店住房记录泄露(酒店住房记录泄露)求真实验室〕小伙伴刷视频经常会看到那些教你所谓的手机小技巧,就是装模作样在通话界面输入几个号码,跳转到一个设置界面,调了几个设置或数字就能召……特朗普家族遍布全球的产业,为什么唯独中国没有网友其实一直都有作为一个家产30亿美元的人,对于我们普通人来说,特朗普真的是很富有了,只是这个富有对于特朗普家族而言,还是不那么够平均分的,所以特朗普就把自己的产业开始慢慢的,逐渐遍布了整个世……2500年前提出无中生有,是时候要讲清楚它的机理了佰战铭承:来吧!都讨论这么久要不要建对撞机了,谁有时间解释一下为什么会有半衰期的存在。本老拳:可能全衰期不好测吧。佰战铭承:本老拳谁问这个了,我想知道为什么会发生半……微信如何查更久的聊天记录(如何恢复微信聊天记录)微信如何查更久的聊天记录(如何恢复微信聊天记录)微信现已成为我们最常用的谈天东西,因为微信的运用率十分高,我们也常常会收拾一下微信谈天记载和其他软件的缓存文件来腾出手机空……最早的生命形式可能是多细胞,比我们所意识到的更像动物一项新的研究表明,早期生命可能远比我们想象的更像动物,细菌也可以像胚胎一样发育。当细菌聚集在一起时,它们渗出一个保护性的黏液家园,形成繁盛密集的菌落,称为生物膜。这些微小……若可控核聚变成为现实,世界将会变成什么样?在科技发达的当下,可控核聚变早已不是什么新鲜的东西,但仍然有许多人好奇人类为什么要发展可控核聚变,而这要从能量开始说起。目前为止,满足人类生活和生产所需的能量大都来源于太……NLP任务非Transformer不可?谷歌研究发现预训练卷选自arXiv机器之心编译编辑:Panda在当前NLP领域,基于Transformer的模型可谓炙手可热,其采用的大规模预训练方法已经为多项自然语言任务的基准……75年前的日本,45年前的越南,都被美国胖揍过,为何现在最亲当年支援越南最多的是我国,免除日本二战赔款的也是我国,同时这两个国家被美国打的也是最狠,为何越南和日本最亲美,而不那么和我国亲近?这一点很值得深思!其实日本,越南亲美,各……来自每个人脑海中的思考宇宙我想每个人都想过我们自己生存的地方宇宙究竟有多大?宇宙的边界离我们有多远?宇宙星空中又是怎么构成的呢?要了解这些问题首先就得知道我们在宇宙中的地址是什么:地球地址银……感悟伟大征程,开创美好未来一百年来,中国共产党从小到大、由弱到强,经历腥风血雨,却一次次绝境重生。我党的一百年,是矢志践行初心使命的一百年,是一部党与人民心连心、同呼吸、共命运的历史。人无精神则不……双鱼座男生(双鱼座男性是什么样子的?)双鱼座男生(双鱼座男性是什么样子的?)神秘的双鱼座男人通常很难理解,他们对很多人有吸引力,但却很少亲近别人。黄道十二宫的第十二宫是双鱼的星座,由海王星统治。了解双鱼座男性……央行发布新通知!3月6日起,存款利息被叫停,与每个人息息相关我国一直是最大的储蓄国,每个人都愿意在银行存钱,因为可以享受利息。众所周知,不同的银行和存款方式,可以获得不同的利息。因此,为了获得更多的利息,人们会选择利率更高的存钱方法。央……
华为MateX2重磅袭来,折叠屏太香,折叠旗舰行业标准世界10大最贵的香水,第一名仅瓶子就3千颗宝石,贫穷限制了我IP防护等级测试和防水IPX18级测试设备首见我军远火打击海上目标,精准毁伤,可随舰机动大范围封锁不易长胖的天赋真的存在怀孕时的运动,让后代更容易保持身材公平正义才是人类社会的普世价值智能门锁检测设备成功交付国家五金工具及门类检验中心(永康)星途TXL限时优惠2000元欢迎试乘试驾SpaceX公司成功发射第二十二批次星链卫星天玑800U处理器加持的RedmiNote9手工焊接,二进制写码,B站Up主手搓CPU爆火出圈华为又有新动作

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁