城市直播房产教育博客汽车
快传网
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

挑战单卡单日训练BERT,ViT作者推荐

4月20日 乔了了投稿
  Pine发自凹非寺
  量子位公众号QbitAI
  单个GPU,只花一天时间,能把BERT训练成什么样?
  现在,终于有研究人员做这件事了,在有限的计算条件之下看看语言模型的真实性能如何。
  要知道在以往,大多数专业人员的关注点都在极端计算的条件下的语言模型性能。
  但这样的语言训练模型环境,对很多研究人员和从业人员是不可能存在的。
  因此这个单天单个GPU的挑战,就有网友称是一个最希望看到的基准。
  连ViT作者,谷歌大脑研究员LucasBeyer都发文推荐,称这是一个令人耳目一新的转变。
  具体的过程和结果如何,一起来看看~挑战过程
  这次研究的目标也很明确,就是反其道行之:缩小语言训练模型的算力,在有限的计算量的情况下如何达到BERT的性能水平。
  既然要缩小计算量,那第一步肯定是对模型作出一些限定。
  这也还是之前提到的,限定时间和GPU个数:单天单个GPU。
  关于GPU,研究人员分别选取了3个进行测试,即rtx2080ti、rtxa4000和rtxa6000,每个单元有4个CPU核和32GB内存。
  在限定计算量之后,就要对模型的其他参数进行一些调整,以进一步对BERT的实际适用性进行评估。
  这些调整包括初始数据设置、模型架构、训练以及数据集的改进。
  并且在调整的过程中,整体基调都是围绕实际使用进行的,避免跳转到专业的设置,为此,研究人员将所有内容都保持在PyTorch框架的实现级别上。
  先来说说初始数据设置,这部分可以简单概括为以下几点:将标记化的数据打包成长度为128的随机序列,不相关的片段用分割;删除cls标记,因为在训练前训练中加入它并没有对性能产生多大影响;将序列长度为64到96微小批量累积到大批量再处理。
  然后是对架构的修改,下图显示了不同模型在随着token数量的增加MLM任务损失的变化。
  结果很显然,一个模型损失的衰减很大程度地取决于模型的大小,而不是模型的类型。
  并且,因为每个token的性能与模型大小之间的关系紧密耦合,若想通过改变Transformer模型的大小和类型来获得巨大性能增益是不太可能的。
  不过对于同大小的所有模型,每个梯度效率是几乎保持不变的,因此可以在保证模型大小不变的情况下,选择能够通过快速搜索加速计算的架构。
  具体的优化和其他调整如下:减少注意力头的数量来降低梯度成本:禁用所有QKV偏差;禁用所有线性层偏差,通过加速梯度计算,不会对模型大小产生明显影响;实现比例正弦位置嵌入,相较于学习或非比例正弦嵌入有增量收益;LN的预标准化比后LN更有益;去除非线性头部并无影响。
  接下来便要对训练进行设置,具体也就不再赘述,直接来看相关调整:优化器依旧是A设定LearningRate计划和批量大小;丢掉Dropout环节。(因为Dropout会导致每秒更新的净减少)
  而在数据集方面,研究团队采用了两种基于数据的途径来更好地缩小规模,分别是以各种方式过滤、处理或排序现有的数据和交换数据源,具体可以看下表。
  性能接近最初的BERT
  在调整完各种参数后,这个单卡一天的BERT性能到底如何?直接看看最终的数据!
  在下游性能评估时是通过GLUE来进行的,下表能够看到在3个不同显卡上的得分,非常接近最初的BERT。
  而当模型训练计算量为16倍时,即(2天,在8个GPU),依旧是一样的数据和设置,最终得到的结果比最初的BERT提高了很多,达到了RoBERTa的性能水平。
  如果想了解更多,可以点击下面链接查看论文原文~
  论文原文:
  https:arxiv。orgabs2212。14034
  参考链接:
  https:twitter。comgiffmanastatus1608568387583737856
  完
  量子位QbitAI头条号签约
  关注我们,第一时间获知前沿科技动态
投诉 评论 转载

健康享晚年丨老年人用药,要远离十大误区老年人常同时患有多种慢性疾病,以高血压、糖尿病、冠心病、卒中、慢性阻塞性肺疾病、慢性肾脏病最为常见,患有多种疾病常常使用多种药物。此外,老年患者还常常出现衰弱、营养不良、睡眠障……被自己反复欺负的下属离职了,领导会是什么感受?根据我的亲身经历告诉你们是什么感觉。我之前在一家国企,女领导就是爱欺负人的性格,尤其是见不得别人过的比她好。单位里关系户多,只有我一个人是正常招聘进来的,所以她特别……短款毛呢外套怎么搭好看?我是时尚号作者,平时喜欢研究服装穿搭,希望回答对您有帮助!要说今年最火的外套,并非是以往的长款外套,反而是短款羊羔毛外套和毛呢外套,这种长度的上衣不挑身高,即使是小个子女……女人第一次怀孕,会感到恐惧忐忑么?该怎么调整?你好,很高兴回答你的问题,我是小河马的精分爸爸感谢邀请,虽然我是一个男的,但是作为朝夕相处的夫妻,整个孕期老婆的那种不安跟忐忑我都能深深的体会到。老婆怀孕的时候有一……得语文者得天下!学好语文的三大法宝这几天,各省高考成绩陆续出炉。而纵观那些高分考生,你会发现学霸们的数学、英语、理科综合都是趋向于满分。而拉开这些学霸差距的主要是语文。四川考生梁钧天,高考成绩……推荐五部2022值得一看的欧美恐怖电影,建议准备好男朋友X2022大尺度恐怖片它来了,1979年,一支颜色电影剧组租用了德克萨斯州的一栋乡村小屋,房东是一对行为诡异隐居在此的老夫妇,他们似乎对年轻的客人特别感兴趣,总是在远处偷……农民能写出点小文章表达农民意愿的是些什么人?比起其他行业的人来,应该说农民这个群体真正能写小文章,表达自己意愿的还是不多。但也有这么一些人,几十年身处农村,既经历过艰苦卓绝,顽强奋斗的公社集体生活,交公粮,修公路,修水库……是不是年龄大的人,比如六七十岁的人都不承认自己老了?心态我今年八十有一,你能说我还不老吗?老了!可比起那些高寿的的人,我又算得了老几。想当年年轻力壮时,讲气力,200斤多斤的石头能翻动,100多斤的人揹起能跑3km,都不在……乐山及周边11个滑雪好去处,让你耍个痛快!元旦假期怎么玩?耍雪可以考虑一下啊!去雪地里打滚,一跃而下,快乐又刺激!今天给大家汇总了全川11个滑雪场,地址、门票、车程、周边景点都给梳理好了,看看有你中意的没滑……解码中国式现代化丨这是物质文明和精神文明相协调的现代化视频加载中。。。习近平总书记在党的二十大报告中强调,以中国式现代化全面推进中华民族伟大复兴。中国式现代化,是中国共产党领导的社会主义现代化,既有各国现代化的共同特征,更有……彭老总受批判后,开国少将李钟奇因为什么原因,对老首长动了粗?上世纪五十年代的抗美援朝战争,众所周知我军司令员为彭总,但其实彭总并未一直在朝鲜前线指挥作战,1952年便回到北京主持军委工作,朝鲜战事后来主要是邓华将军实际负责,并在1953……挑战单卡单日训练BERT,ViT作者推荐Pine发自凹非寺量子位公众号QbitAI单个GPU,只花一天时间,能把BERT训练成什么样?现在,终于有研究人员做这件事了,在有限的计算条件之下看看语言模型……
古墓里挖出来的千秋和万岁特斯拉降价促销,领克新车上市第一财经汽车日评为什么刺激战场和平精英很多男玩家用女角色?离开华为后,荣耀12512G敢卖到7999,值吗?千辆坦克开往波兰,韩国军火趁机扩大出口要帮助美军加固国防上合峰会最大看点,俄乌冲突下的中俄关系为什么李世民敢向李渊造反,而朱棣却不敢向朱元璋造反?从小就喜欢江南,现在退休了,想去江浙一带养老,有什么小镇可以展示非凡成就共创美好未来国产汽车缘何海外逆风飞翔?人到中年,失业了,没有一技之长,怎么养活自己及家人呢?华为全新推出数字站点产品组合方案
倩碧什么值得买?倩碧明星产品有哪些五千年悬案李莲英为何身首异处怎样加快脸部血液循环呢?顾川为姜小宁放了一首叫marryme的歌,这是求婚的前奏吗防汛通知就工伤私了有哪些赔偿?EDG官宣AD离队,人情味转会让RNG被嘲讽,央视夸赞EDG瘦腿最有效的方法是什么怎么快速瘦腿鸡山隐居我就是我购买土地使用权有哪些税?直发膏和软化膏是一样的吗直发膏使用时要注意

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁