城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

字节跳动下一代AB实验系统思考

7月23日 小米粒投稿
  导读:本文将介绍实验系统所面临的挑战,以及对未来的展望,主要讲解目前实验平台无法解决的一些问题,以及对下一代评估系统的一些想法和运用。
  今天的介绍会围绕以下两点展开:传统实验系统无法解决的问题对下一代实验系统的展望
  在互联网业务中经常会使用实验系统去做策略实验,以帮助决策。例如,测试不同的产品UI对用户的影响,进而决定使用哪种UI。在广告业务中通过实验寻找最佳的投放策略以期获得最大收益。诸如此类,实验系统都会客观地给出决策依据,仿佛它是一个高度智能的系统。但实际上,传统的实验系统建立在19世纪的科学上,在那个年代没有互联网,没有推荐算法,没有网购平台,传统的实验系统不可能完全解决现今互联网业务中遇到的种种问题。
  实验系统是如何工作的呢?实验的目标是评估某一个策略的效果,总结来说总是通过干预这个策略相关的变量,测量和收集实验对象的数据,对数据进行分析,最后验证效果是否显著。
  实验系统中三个最关键的环节是:干预、测量和分析。如果在其中的某一个环节失败了,那么整个流程都是走不下去的,而每个环节都是有可能会失败的。
  分享嘉宾Rex火山引擎AB测试研发工程师
  编辑整理李龙杰酷狗音乐
  出品社区DataFun
  01hr传统实验方法无法解决的问题
  1。无法干预
  实验理论源于医药行业或者生物行业,称为随机控制实验。实验的前提是一定要随机地将实验对象划分为A、B两组,并且随机性不应该受任何因素所影响。但在真实的生活中,有非常多的场景是无法实现这种过于理想化的前提的。在不能做一个清晰有效的随机分流的时候,如何去评估一个策略的效果呢?
  比如在短视频平台上投放某位明星的在线演唱会,会不会让用户更加喜欢这个产品呢?传统的实验方法是无法给这个假设做出定论的,因为不可能让一部分用户看演唱会,而不允许另外一部分人不看演唱会。
  这个场景下,也不能直接去比较观众与非观众的指标,因为这两类人群有各自的特征,通俗来说,他们是不可比的。
  那是否可以直接比较举办前和举办后的指标变化呢?答案是否定的,因为时间是一个最大的混杂,它可能会影响各种各样的东西,比如天气、工作日还是假期,又比如外部发生的新闻,这些被时间影响的同时,也影响着实验指标的因和果。通过时间前后来做比对分析,是难以有说服力的。
  再比如,产品准备上线保护未成年人的风控策略,是否可以去进行实验来验证策略效果?答案是否定的,如果故意地让一部分目标用户不要受到这个策略的保护,那么将产生高昂的道德成本。
  上述两个场景,与把短视频平台的UI变成白色会不会让人更喜欢用TA,到底有什么区别呢?把UI变成白色这件事情是非常容易的,通过随机抽取A、B两组用户,将一组的用户的UI变成白色,另一组不做任何处理,然后分别统计两组用户的次留,在线时长等指标,是可以轻而易举地得出结论的。
  2。无法测量
  传统实验方法中的测量样本是静态的,而在很多互联网业务场景中,测量样本是会动态变化的,或者发生倾轧效应。如果无法对动态变化所产生的效应进行测量、补偿,那么评估和决策是无从说起的。
  例如产品计划在APP上线聊天表情包的功能,用户在跟好友聊天的时候,可以发送表情包。在实验环节的时候,假如只能切1的流量来做这个实验的话,要怎么样去评估效果呢?简单实验会导致什么问题?首先,存在样本污染的潜在问题:1的实验组的人可以观察并使用这个功能,很可能发生实验组用户发送表情包给对照组用户,而对照组用户本不应该知道有这个功能的存在,而我们也并不能阻止这种行为的发生,如此一来便使得对照组收到了污染。其次,会产生社交氛围的偏差:这里存在两种可能性,当实验组的用户会发现只有他和很少的一部分人才可以使用这个功能的时候,会产生一种特权的感觉,此时他既可能疯狂地给所有人发这个表情包以展示特权感,导致过度地使用这个功能;也有可能他觉得发表情包是为了和好友进行互动,但他发了表情包而他的好友不能发,这个表情包功能的互动价值被削弱了,他也就不愿意使用了,导致过低估计功能的作用,总之这种不完全的社交氛围就会影响他对产品的体验,也会妨碍我们从实验中获得准确的估计
  又比如,在供求双方存在资源竞争的场景中,例如电商场景,我们决定对电商的推荐算法做调整,划分50的用户为实验组,大幅度提高某一商品的推荐力度,那么实验组用户看到该商品的可能性就会大幅度提高,因此大部分商品被实验组购买甚至买光。对于对照组的用户而言,因为库存的数量下降,那么推荐排序时该商品的分数被自然拉低,降低了该商品在对照组的曝光度,甚至在局部出现售罄,导致对照组成交下跌,实验组对对照组产生倾轧效应,使实验策略显示一个过于乐观的效果。在做实验时观察指标涨了很多,但上线之后会发现算法策略的效果甚微或者无效。这种情况不仅仅发生在电商场景,也有可能是在直播、信息流等类似于一供一求的场景。
  3。无法分析
  互联网公司的实验系统应用是从医药实验、生物实验所借用、改造而来的。但传统实验的分析方法,不能完全适用于互联网的复杂业务场景,有些业务场景的复杂程度已经没有办法通过人力去做分析。
  比如,在推荐系统中排序算法的计算公式中存在相当数量的超参数,当只需要调整某1个参数的值时,可以给这个参数设置不同的值,然后随机选取若干批用户进行实验,回收指标数据便可以很轻易地得出最优的参数值。但如果参数的数量变成三个、十个、一百个。。。,那么参数值的组合就出现爆炸性地增长,如果还是按照传统的实验方法进行实验分组测量和分析,那么实验的人力成本和线上流量成本就变得很高昂,以至于完全不可行。
  02hr对下一代实验系统的展望
  1。一个观察系统
  未来的实验系统应该是一个兼容观察的系统,而不仅仅是一个做干预的系统。换而言之,在无法进行干预的场景中,系统也应该要有方法去评估策略效果。这类方法通常被叫做观察性研究,是经济学和社会学经常去研究的内容。比如经济学家经常关心提高最低工资,拉长社保的最低缴纳年限,对社会可能会造成什么样的影响?这类问题和上述提到的问题有一个共同的特点,就是不能进行干预实验。例如在现实社会中,不可能说只给一部分人提高最低工资,另外一部分人就不管。这类问题在社会学和经济学的研究中,已经发展出了一套相当完善的理论体系。
  因此下一代实验平台,如果要做成一个观察系统,很可能会重新走上一代实验平台的老路,从经济学和社会学中去借鉴一些已经成熟的方法,再进行一定程度的标准化和民主化改造和移植。标准化是指通过系统去批量生产合格的分析,而民主化的意思是什么呢?观察性研究方法即使在今天也并不是人人都掌握的,只有少数研究经济学或者社会学背景的人,有可能经常接触并使用这类方法,但是潜在需要这类方法去做评估的业务场景却有很多,一个统一的、人人都能使用的、非专家也可以通过这个系统去完成合格的观察性研究的平台化系统才能满足现实场景的需求。
  2。一个动态系统
  越来越多的互动导致很多业务场景已经无法通过静态的角度去测量了,下一代的实验系统势必要站在动态的角度去进行估计。比如上述的聊天表情包案例中提到的实验组用户与对照组用户发生互动而导致的样本污染问题,一个比较常见的思路是基于社交关系图数据,将实验组用户和关联的好友全放到同一个池子中,来避免样本污染的情况。但这种思路实际上在应用中有许多问题,比如社交关系不稳定的问题怎么解决,一个成熟的社交网络中又存在多少这种符合要求的孤岛?这些问题不解决的话,对效果也会造成非常大的影响。
  3。一个决策系统
  在上述算法超参搜索的案例中,如何在多个参数构成的高维空间内找到一个最佳的点,传统方法的关键障碍在于人没有办法利用极为有限的数据,对这个高维空间进行有效的想象、推理和决策。解决这个问题的思路之一,便是使用系统去代替人进行决策。一个合理的想法是利用某个数学性质良好,拟合效果灵活的代理模型去近似高维目标,继而使用自动化的策略均衡探索和利用,代替分析人员决策下一步,然后根据收集到的数据不断完善模型,序列式地进行探索,最大化利用资源这是一个典型的贝叶斯优化框架。目前在一些我们的业务场景中,这种系统代替人去做决策的解决方案已经被证实已经远优于传统人工方法。
  今天的分享就到这里,谢谢大家。
  分享嘉宾
  Rex
  火山引擎AB测试研发工程师
  就职于字节跳动实验评估部门,统计科学和应用研究负责人。
  DataFun新媒体矩阵
  关于DataFun
  专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章800,百万阅读,15万精准粉丝。
投诉 评论 转载

身体感到不适多数患上亚健康身体应休息的个信号现在社会,三、四十岁之间的人群是社会的主力军,他们要承担起家庭和社会的双重责任,可见其压力有多大。在这个年龄段的人群中,最易出现亚健康。对于亚健康这个词,相信我们大家都听说过,……被动物咬伤后要怎么急救被咬伤后,应立即用消毒药清洗伤口,再以纱布包扎,就算伤口很小,也得接受诊疗。(1)狗咬可能会发生狂犬病,也可能引起破伤风,如果没有接受预防注射,要及时告诉医生。……字节跳动下一代AB实验系统思考导读:本文将介绍实验系统所面临的挑战,以及对未来的展望,主要讲解目前实验平台无法解决的一些问题,以及对下一代评估系统的一些想法和运用。今天的介绍会围绕以下两点展开:传统实……日本凭什么敢打美国日本有什么优势敢与美国开战1941年12月7日日本偷袭了美国珍珠港,成功将美国拖进了太平洋战争当中。要知道,当时的日本已经早早的开始全面侵华战争了,三个月灭亡中国的妄想早就已经破灭,深陷在中国战场上。在……美用什么新技术来诊断心脏病美用什么新技术来诊断心脏病呢?据外电报道,美国科学家说,磁共振成像仪中使用的一种新显像技术,可以发现大多数心动脉血管病症,从而使许多心脏病患者免受昂贵而不舒服并有副作用的测试。……抖音正能量开心的句子一、结婚证只能证明两个人躺在床上合不合法,却不能证明两个人适不适合。二、不登高山,不知山之高。不临险境,不知境之险。站的高,方能看得远。希望越大,风险也越大。生的路每个人……肉末茄子一蒸一炒,颜色漂亮,味道鲜香入味,好吃下饭大家好!我是和颖!你们爱吃茄子吗?反正我是超级爱吃。茄子有很多种颜色,吃得最多的还是紫色茄子。茄子也有很多种做法,比如咸鱼茄子煲、酿茄子、油炸茄盒、五花肉炒茄子等等……证书造句用证书造句大全61、在发奖完毕后,三位裁判走到仲裁桌前,取回了他们的国际裁判员证书62、这个月,跟着求职高峰期的快速迫临,很多求职者纷纷打开他们的抽屉,掸去落在他们证书上的灰尘。……华为官宣新本5nm骁龙8全球第二9月1日,华为官方宣布将在9月6日的新品发布会上,推出新款笔记本MateBookEGo,号称多姿、多彩、多能。官方海报透露的信息不多,只能看出是一款可拆卸键盘的二合一轻薄……韩星尹恩惠短发发型彰显干练气质齐肩短发别于耳后的发丝显得很是有知性感,三七分刘海凸显精致的脸蛋,时尚染色衬托白皙肤色,整体很是清新甜美。时尚的红棕色短卷发很是修颜,中分刘海搭配大波浪卷,起到很好的瘦脸……穆铁柱王治郅郑海霞等9人成为2022年中国篮球名人堂入堂人物中国篮球协会2日晚宣布,经过中国篮球名人堂终审委员会举荐、名人堂委员会审定,2022年中国篮球名人堂举荐入堂人物确定,穆铁柱、王治郅等9人入围。这9名入堂人物是男运动员穆……还在担心出门忘记喂宠物你可能需要这款智能喂食器不少年轻人都会饲养一些宠物作为生活的伴侣,这也让更多的年轻人开始成为宠物类产品的消费主力军。不过当我们出差或假期游玩的时候,喂养宠物就变得十分困难,所以处在智能时代的我们,自然……
生离造句用生离造句大全阿贾克斯惨案没想到结束的如此之快情绪文案希望我们冰释前嫌再也不想见异性造句用异性造句大全郁闷的时候蹲下来抱抱自己原谅别人也原谅自己谁是最有智慧的人曲曲造句用曲曲造句大全梦想四边造句用四边造句大全梅州客家总经理曹阳俱乐部工作人员仅十几人,没企业来谈合作金鱼吊兰怎么养五个要点让你的金鱼吊兰花繁叶茂男生面试穿着礼仪与技巧分享顺便跟她说老同学了打个折真不想他们老去,这9位大咖都老了,最大的71岁,最小的也59夏天养生做好这些事让你少生病青科大王磊赖建平教授无溶剂微波法合成铂基合金促进析氢反应清朝闭关锁国的根本原因是什么对不起,我们必须辞退你!春日私语怎样选择救生衣的大小计算机日新月异,对于当下忙于计算机毕业设计的我们该如何反思?描写教师的词语小店星期六:互联网如何助力小企业发展循证管理理论中医院管理的应用

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁