城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

囿于数据少?PaddleDetection少样本迁移学习助你

1月9日 赤雷榭投稿
  目标检测是非常基础和重要的计算机视觉任务,在各行业有非常广泛的应用。然而,在很多领域的实际落地过程中,由于样本稀缺、标注成本高或业务冷启动等困难,难以训练出可靠的模型。
  在目标检测这类较为复杂的学习任务上,样本不足带来的挑战更加棘手,因为模型复杂度高意味着对训练数据量有更高的要求,否则很容易导致模型过拟合。应对这类问题,一类常见的思路是迁移学习,即依赖资源丰富的源数据集或强大的预训练模型,为下游任务提供额外引导。而少样本学习是一类特殊的迁移学习任务,其针对的是每个标注类型仅有几十甚至几个样本的情况。
  为了解决这个问题,飞桨联合百度研究院大数据实验室,发布两种少样本迁移学习的新算法,从不同角度应对标注不足的挑战,提升模型学习效果。
  跨领域LabelCotuning算法
  该方法的主要思路是充分利用预训练模型的语义空间,挖掘其与下游任务的关联,计算出类别之间的关系作为下游任务的辅助语义标签,作为原始onehot类别标签的补充。
  领域内ContrastiveTuning算法
  对比学习是一种通用的表征学习思路,可以学习样例级的判别特征,也可视为一种有效的数据增强策略。该算法针对目标检测的任务特性,实现patch级别的对比学习,以强化目标领域的表征学习效果。
  快速体验
  您可以下载PaddleDetection最新代码体验我们的算法。
  https:github。comPaddlePaddlePaddleDetectiontreedevelop
  上述少样本学习算法在套件中高度封装,接口简单,只需使用我们提供的配置样例,或在原配置文件中添加少样本学习算法,即可使用算法训练。
  具体可参照我们的使用说明
  https:github。comPaddlePaddlePaddleDetectiontreedevelopconfigsfewshot
  接下来,本文将从跨领域LabelCotuning算法和领域内ContrastiveTuning算法两个方面来解读PaddleDetection少样本迁移学习新算法的方案技术。
  01hr跨领域LabelCotuning算法
  算法原理
  少样本学习的一个普遍思路是在预训练模型基础上进行微调,然而这种直接的方式面临明显的挑战。
  挑战一:当下游任务样本量太少时,很容易导致模型在目标数据集上过拟合,最终,微调后的模型泛化能力差。
  挑战二:在微调过程中,如果直接将预训练任务的分类头舍弃,重新初始化,会导致大量预训练模型所学到的信息丢失。而这些信息可能对于预训练模型知识迁移至目标数据集很重要。
  针对以上的问题,清华大学的KaichaoYou等人在NeurIPS2020发表了LabelCotuning〔1〕算法,该算法是一种针对图像分类任务的迁移学习算法。其主要思路是对预训练类别空间Ys和目标任务类别空间Yt的关联进行建模。在微调之前,预先学习预训练类别ysYs和ytYt之间的条件概率分布,即p(ysyt),作为目标类别的一种辅助语义标签。这样可以有效的降低少量目标样本过拟合其标签的风险,同时预训练模型的分类头也将被重用,提供目标数据在Ys类别空间的预测结果,充分挖掘了预训练模型的迁移潜力。
  以下为一个直观的例子,演示为何LabelCotuning方法能够有效。如果我们的预训练数据集是具有1000类物体的ImageNet,而下游目标任务是COCO图像分类。此时,上下游任务之间存在大量有关联但又不完全相同的类别。如COCO中有大象这一类别,而ImageNet则粒度更细,包含印度象和非洲象。
  由于不同数据集中,图像本身的视觉特征也存在一定差异,那么即使在类别的语义概念上有明显重合,其真实关联多数情况下也是比较隐晦、复杂,难以通过人工经验来指定。所以比较严谨的方式是通过学习的方式,建立起Ys和Yt两个完整类别空间的概率分布关系。如下图所示。
  学习到这种类别关系后,对于每个目标数据集的样本(xi,yi),我们在微调过程中除了要拟合其原始的onehot类别标签yi外,还会利用一个额外的预训练任务分类头拟合辅助语义标签p(ysytyi),这个辅助标签的长度和预训练分类数相同,是一个softlabel。
  算法实现
  我们对该原型算法进行了改造和扩展,使其适合目标检测任务,并在PaddleDetection的经典结构FasterRCNN上添加了对LabelCotuning算法的支持。在上下游类别关系矩阵的计算中,考虑到目标检测任务的特点,我们使用每个patch,而非每张图片作为一个样本。具体而言,需要从目标任务的训练数据中,直接提取出boundingbox的标注,并在前向计算中获得该groundtruth区域在预训练分类头上的预测结果,同时结合其自身标注的目标类别,来一起计算关系矩阵签p(ysyt)。需要注意的是,LabelCotuning虽然利用了完整的预训练模型,但并不需要预训练任务的数据集,关系矩阵是完全利用目标任务训练集计算出来的。
  同样的,在微调过程中,我们也在boundingbox粒度上应用辅助语义标签。对于每一个需要预测的检测框,我们除了拟合原始的类别标签和位置外,还会额外的拟合其在预训练语义空间上的softlabel。
  02hr领域内ContrastiveTuning算法
  算法原理
  对比学习是一种很有潜力的自监督表征学习方式,一般被用于预训练阶段学习图像的通用的视觉表征。而近期的一些研究表明,在常规的监督学习任务中,合理引入对比学习也能提升模型的判别效果,如分类、检测、分割等。基于这一思路,南加州大学的BoSun等人实现了检测框粒度上的自监督学习方法〔2〕,可以显著提升少样本目标检测效果,并将成果发表在CVPR2021。
  该算法本质上有别于通常的样本级对比学习,通常的对比学习选择将每个样本的不同变换作为正例,其他样本作为负例。而在检测任务上,该方法引入了类别级的对比学习,但以每个boundingbox为样本单元,即属于同类别的检测框之间互为正例,而不同类别则作为负例。
  通过这样一种类别对比的方式,算法在微调过程中引入额外的loss来引导模型对同类patch学习更加紧密的表征,而不同类patch的表征则区别更加明显,如下图所示。
  算法实现
  和LabelCotuning算法相比,这种ContrastiveTuning的方法更加通用,虽然没有改进对预训练模型的复用,但其优点是对任务所做的假设更少,例如不需要依赖预训练任务和目标任务之间的潜在关联。在原始论文中,该算法仅适用于二阶段的FasterRCNN模型。我们对算法进行了扩展和改进,使其能够应用于PaddleDetection最新的PPYOLOE系列模型。
  PPYOLOE系列模型具备非常出色的精度和效率,同时模型结构也大为精炼。但对于ContrastiveTuning来说,这种单阶段模型由于简化了Anchor生成和筛选的过程,使得中间过程中存在大量无效的patch,增加对比学习的计算负担。
  针对此问题,我们引入了一种均衡策略,从采样和损失两方面对ContrastiveTuning的计算效率进行优化,同时不影响计算精度。具体来说,在前向计算的采样过程中,我们只对正样本patch全部保留,而对负样本patch选择随机采样,来保持正负样本的合理配比。在计算Contrastiveloss时,我们根据当前patch的IoU得分来设定阈值,仅对得分高于阈值的样本点进行loss回传。
  03hr算法效果
  项目传送门
  PaddleDetection少样本学习算法体验
  https:github。comPaddlePaddlePaddleDetectiontreedevelopconfigsfewshot
  PaddleDetection官方库
  https:github。comPaddlePaddlePaddleDetection
  欢迎大家扫描下方二维码加入PaddleDetection官方技术交流群
  飞桨公众号后台回复关键词:PaddleDetection,获取更多学习资料包。
  参考文献
  〔1〕You,Kaichao,etal。Cotuningfortransferlearning。AdvancesinNeuralInformationProcessingSystems33(2020):1723617246。
  〔2〕Sun,Bo,etal。Fsce:Fewshotobjectdetectionviacontrastiveproposalencoding。ProceedingsoftheIEEECVFConferenceonComputerVisionandPatternRecognition。2021。
投诉 评论 转载

2023DPC中国联赛第一赛季海选报名开始经过了漫长的休赛期,2023年DPC中国联赛第一赛季的比赛即将开启,英雄们早已摩拳擦掌,跃跃欲试,准备在新一年的DPC联赛中大展拳脚。但在这以前,我们的A级联赛中,仍然还缺少了……詹姆斯之后的19个状元现状,有人已无球可打,有人疯狂辱华做了2003年,詹姆斯当选为NBA新科状元,那么在他之后的19位状元,现都在干些啥?我们回看历史,倒序盘点完其他19位状元,你就会发现,詹姆斯真不愧是历史第一状元!难道詹姆斯……2022云计算产业盘点新玩家新焦点新生态一汽红旗新能源工厂焊装车间使用云技术实现操作2022年对于云计算的发展而言,是特殊的一年。这一年,工信部数据显示,中国云计算产业规模超过3000亿元,全球市场占比达14。……房价不涨,谁还买房?2022的房地产,从政策的方面来说,就是一个字救。降低首付比例、降低贷款利率、限购取消等等利好持续放出。政策出台之密集,用药之猛烈,放在前些年,每一条都可以是重磅消息,足……涨!涨!涨!记者获悉受国际金价上涨的影响目前福州市场上黄金及黄金制品的价格比两个月前上涨不少部分金饰品价格比两个月前上涨了两三千元部分黄金饰品。资……9胜3负!中国斯诺克大获全胜,连赢六场外战,仅三人输掉德比出2023年1月9日,斯诺克六红球世锦赛继续进行,资格赛第二轮结束,中国选手9胜3负,六场外战全胜,仅雷佩凡、斯佳辉、吴宜泽输掉德比出局,整体表现超过预期,带来新的惊喜。六……糖尿病人晚餐应该怎么吃?糖友的晚餐不仅会影响餐后血糖,还会直接影响第二天的空腹血糖,所以对于糖尿病人来说晚餐很重要!今天快来跟着稳糖君一起来学习晚餐怎么吃更有利于平稳血糖吧!常见晚餐误区1……该放就放,再想也没有用,傻傻等待,他也不会回来命里有时终须有,命里无时到底无。天下多少痴情人,莫作醉汉欲强求。一hr宫崎骏说:一个人如果真的爱你,就算吵架再狠,删除多少次,他都会来找你,因为吵架是为了更好的在一……囿于数据少?PaddleDetection少样本迁移学习助你目标检测是非常基础和重要的计算机视觉任务,在各行业有非常广泛的应用。然而,在很多领域的实际落地过程中,由于样本稀缺、标注成本高或业务冷启动等困难,难以训练出可靠的模型。在……小米剥离小贷业务,小米消金接盘财经新势力新春季近日,小米旗下小贷公司发生了工商变更,企业名称由原来的重庆市小米小额贷款有限公司变更为重庆融渝科技有限公司,公司经营范围变更为技术开发。小米这一举动……埃基蒂克为巴黎踢球没犯错余地,必须每分钟都处于好状态在今天凌晨结束的法国杯的比赛中,巴黎31击败对手,成功晋级法国杯32强。赛后,本场比赛为巴黎建功的前锋埃基蒂克接受了媒体的采访谈到了自己对本场比赛的看法以及自己的表现。关……3D打印周报462022年3D打印投融资报告,魔芯科技发布新2023年1月8日,《3D打印周报》第45期,以下是本周3D打印行业发生的事情,包括大事件行业动态趣制造融资上市新产品等内容。3D打印周报第46期,由资源库出品大事……
乌克兰的奇妙习俗,少女上街会湿身,男生不要错过农历新年前能够入手的骁龙8Gen2旗舰一加小米iQOO上榜自学编程的五大陷阱,里面肯定有你吧腾讯连下3个重磅功能男士腰带怎么选?这回一次告诉你多久能拿下华为认证?两性交往,婚外情发生之后,这几样东西无法挽回手持烟火以谋生,心怀诗意以谋爱,我马不停蹄,一意孤行被伤害是种毒药,还是解药女人想你了,不会直说,但是会忍不住这样做胆固醇大户被揪出,医生提醒能不吃就不吃,要听劝新基建要挑大梁,最大的亮点是这项工程影者星驰读后感字dns服务器未响应是什么意思解决方法介绍车轮胎容易卡石怎么处理斯托雷平改革,俄罗斯帝国最后的回光返照好学的爸爸教案设计范例换挡技巧(新手开车换档很慌张?)狄龙首次回应伤人,不爽科尔打破准则言论?名记还得向他道歉官宣新能源正式成立目标装机量提升至这里也是我的舞台2017绝美古风网名珍藏版怀孕四个月肚子疼怎么办?蚂蚁成立SaaS公司国联股份参与创投基金产业互联网周报

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找