A/B测试在数字时代得到了升级
哪种电子邮件的主题更有可能说服潜在客户打开它:是带有感叹号的主题还是带有表情符号的主题呢?哪种主页可以为公司网站带来更多点击量:是文本较多的主页还是文本较少的主页呢?这些日常工作中经常遇到的问题,可能并没有显而易见的答案,但我们有一个简单的办法可以解决这类问题:A/B测试。
A/B测试模型帮助塑造了我们目前所知的网络世界,以及营销、网站设计和各种用户体验在其中运作的方式。“这种测试实验是大多数科技公司的支柱。” 斯坦福商学院运营、信息和技术 (OIT) 教授Gabriel Weintraub表示,“几乎每项功能都会经过这样的测试,以决定是否要在整个平台范围内推出。” 你每次上网时,可能都会在不知情的情况下成为A/B测试的参与者,因为设计师、工程师和营销人员会向不同的用户展示不同的场景,看看什么最能有效地说服你点击、购买或直播。
这种也被称为拆分测试的实验设计背后的概念其实很简单:例如,如果你想完善电子邮件的主题,就可以将收件人随机分为两组。A组收到主题中带有感叹号的电子邮件,B组收到主题中带有表情符号的电子邮件。然后,通过比较两组的平均打开率,我们就能发现哪种主题可以获得更多的点击。
“我们正在进行大量的A/B测试。”斯坦福商学院经济学教授Guido Imbens说。这其实是一个非常保守的说法:据报道,谷歌、微软和其他科技巨头每年都会进行超过一万次A/B测试。大量的研究和资料中都强调了A/B测试对于营销、广告和用户体验的重要性和有效性。“这向大家传达了一个这样的信息,即这种实验真的很容易。” Imbens说。
但是,日益复杂的在线平台开始暴露出了A/B测试方法的局限性。斯坦福商学院的研究者们通过大量合作和研究,正在试图超越传统的拆分测试,并突破线上和线下实验设计和分析的可能性界限。斯坦福因果科学中心的负责人Imbens表示:“有很多问题需要进行更复杂的实验,而我们实际上并不知道最佳做法是什么。” 他曾因自己关于实验设计和因果关系方面的研究成果分享了2021年诺贝尔经济学奖。“我们都应该意识到,除了标准实验之外,我们其实还可以做更多的事情。”
从地块到平台
尽管A/B测试作为一种使决策过程更加清晰的工具在互联网时代蓬勃发展,但它的出现其实比计算机还要早了几十年。A/B测试是简单随机对照试验 (RCT) 的另一个说法,该概念是由统计学家和遗传学家R. A. Fisher在其1925年出版的《研究人员统计方法》一书中编纂出来的。Fisher的许多实验都集中在农业领域:他在整个农田中随机分配肥料,然后通过比较来看哪一种能产出最健康的作物。当时,这种随机化而不是尽可能透明和严格管理的实验方式是革命性的。
随机对照试验很快在生物医学领域流行起来,成为测试药物有效性实验的首选试验方式。在这样的试验中,每组受试者会被随机分为两个亚组;一组接受药物(治疗组),而另一组(对照组)接受安慰剂。受试者并不知道他们被分配到哪个组。然后,对两组的结果进行观察、平均和比较。
到21世纪初期,随机对照试验已被证明对于吸引眼球和提高在线参与度至关重要。Google公司在2000年进行了第一次A/B测试,以确定向用户展示的最佳搜索结果的数量。到斯坦福商学院95届博士校友、经济学教授Susan Athey于2008年成为微软首席经济学家时,该公司Bing搜索引擎背后的工程师每年都会运行数千次的A/B测试来指导决策,例如 ,哪些结果应显示在页面的顶部。
然而一个很明显的问题是,随着A/B测试变得无处不在,它必须不断发展才能跟上那些需要评估的应用程序的复杂性。例如,Bing的实验以前都是侧重于测试短期变化会如何影响用户。但是Athey注意到,这种以用户为中心的实验其实不太适合用于研究广告商用户,而广告商是微软搜索业务的主要收入来源。“了解市场中的广告商—如何模拟他们的行为,他们需要多长时间来应对变化—这些挑战都是非常严峻的。” 她说。
诚然,关于广告商的实验要困难得多。作为样本,它们的多样性达到了难以处理的地步:有些是价值数十亿美元的公司,其团队致力于优化每个像素,而另一些则是小型企业,没有资源来专注于广告购买。更重要的是,他们还在互相竞争。在任职于Microsoft公司的剩余时间里,Athey提出了一系列的想法来解决传统随机实验的这一障碍和其他一些障碍。在2013年离开Microsoft公司后,她开始与包括斯坦福商学院同事在内的许多合著者一起合作,围绕这些新概念将数学和理论形式化,并提出了新的方法来进行更为复杂的实验。
不像A/B测试那么容易
各种平台上出现的最棘手的问题之一是干扰:当你在某个在线平台上对一组用户进行实验或“治疗”时,它也可能会影响到未接受“治疗”的用户。
以拼车应用程序为例:如果工程师想要测试一项是否要给予司机更高小费的政策,A/B测试模型将规定该项政策更改适用于某些司机而不是其他司机。在实验过程中,如果新政策使得驾驶变得更有利可图,从而使适用于新政策的司机在路上花费了更多的时间,这将同时影响到那些没有使用新政策的司机,因为他们在寻找乘客方面突然面临了更多的竞争。所以,A/B测试模型目前无法准确判断,如果新的小费政策适用于所有司机,会发生什么情况。
有很多问题需要进行更复杂的实验,而我们实际上并不知道最佳做法是什么。
– Guido Imbens
“了解干扰等偏见会如何影响实验结果和决策非常重要。” Weintraub说,他在为Airbnb提供解决市场设计难题的建议时就遇到了这个问题,这是他的专业领域之一。
他解释说,通常情况下,市场设计者都会寻求一个特定的目标—比如,最大限度地提高预订量。在尝试最佳方法时,平台可以控制一系列令人眼花缭乱的杠杆,例如调整费用或分享更多或更少的房产信息。更重要的是,像Airbnb这样的公司是双向平台,使卖家和客户能够直接互动以达成交易。这意味着可以同时观察到两组用户的决策过程。
Weintraub解释说,双向市场平台在使用A/B测试时,必须要在卖方随机或买方随机之间进行选择。但是,当平台进行实验时,例如,随机为某些出租房屋的用户添加更好的照片,处理后的网站页面会“蚕食”对照组的需求。Weintraub说,这种类型的干扰效应使实验结果变得混乱。“这违反了A/B测试中的一个关键假设:假设将一个单元分配给治疗组或控制组,不会影响任何其他单元的结果。”
实验者还注意到租房用户方面的干扰:例如,当他们随机将一些客户分配到房源价格更便宜的组时,就使对照组面临了更多的房源竞争—因为该组中的受试者无法选择已经被实验组抢走的房源。
我记得在走廊上与Guido的一次谈话,” Weintraub说,“我们意识到两方完全独立地同时提出了这个多边随机化的想法。
– Gabriel Weintraub
在试图解决这个难题的论文中,Weintraub和他的同事提出了一个模型,希望能够帮助实验者确定对市场的哪一方进行随机化,以最大限度地减少干扰和偏见。而且至关重要的是,他们补充说,如果供需基本平衡,就应该同时对买卖双方进行随机化,使用他们称之为“双向随机化”的新型实验设计。该方法并没有消除治疗组和对照组之间的竞争,但它可以大致观察其效果并将其纳入结果中。
Weintraub当时并不知道的是,他的斯坦福商学院同事,一直在担任亚马逊公司顾问的Imbens也独立地为同类型的在线平台提出了类似的想法。在他们的论文中,Imbens和他的合著者将这些实验结构称为“多重随机化设计”。两方的主要想法其实是一样的。“我记得在走廊上与Guido的一次谈话,” Weintraub说,“我们意识到两方完全独立地同时提出了这个多边随机化的想法。”
Imbens强调,这些新的随机化设计也可能会在数字市场之外发挥作用。例如,他提到了旨在追踪健康教育传播的发展经济学实验。在这些情况下,由于难以维持对照组,干扰可能会混淆结果。Imbens希望这种新型实验能够成为解决方案的一部分。
等式的另一边
斯坦福商学院围绕新型实验的大部分合作绝非偶然—事实上,OIT教授Kuang Xu和Stefan Wager表示,合作至关重要。Wager是一位统计学家,专注于因果推理、优化和统计学习的交叉领域。Kuang是一名运筹研究员和概率学家,他使用随机建模来捕捉信息稀缺的现实世界应用程序的动态。两人都表示,在各自的学科之间建立桥梁对于解决他们想要解决的问题类型至关重要。
Wager表示,这一点在疫情最严重的时候变得很明显。“在疫情期间,我觉得自己能够处理现有的项目,但没有任何新的想法出现。” 他回忆道,“因此,Kuang和我开始进行半定期的’研究远足’。实际上,Kuang最近发表的一篇关于在工程和统计学之间架起桥梁的论文就是这样开始的。”
公司或科学家不仅想知道某种治疗方法是否有效,还希望能了解它是否帮助了某些人而伤害了其他人,这一点非常重要。
– Susan Athey
当Kuang和Wager考虑如何改进实验方法时,他们主要从实验设计的另一个方面进行了研究。他们专注于研究如何处理实验中收集到的数据以获得更清晰的见解。“从数据中获取洞察显然需要两个方面的要素:如何收集数据,以及如何分析收集到的数据。” Kuang说,“当你进行创新并尝试解决新问题时,可以同时解决这两个方面的问题,也可以解决其中一个方面的问题。” 他说,“毕竟,改变你进行实验的方式可能很困难。所以,你可以仍然按照以前的方式收集数据,然后尝试用截然不同的方式去分析它们。” Kuang和Wager的合作研究还包括在线市场拥堵造成的实验干扰等课题。
在这个方面,另一个富有成果的合作领域是难以确定哪些类型的人可以从实验治疗中受益(或不受益)。 “公司或科学家不仅想知道某种治疗方法是否有效,” Golub Capital社会影响实验室主任Athey说道,“还希望能了解它是否帮助了某些人而伤害了其他人,这一点非常重要。如果你能够分析出来,就可以把治疗方法提供给那些会得到帮助的人,而不是那些会受到伤害的人。” 2016年,她和Imbens引入了一种数据驱动的方法,用于将经历不同“治疗效果”的人进行分组。在此过程中,他们为将侧重于预测的传统机器学习与估计随机实验结果的挑战联系起来奠定了一些基础。
大约在那个时候,Wager—用Athey的话来说,是当时“斯坦福大学统计系的明星博士生”—对这一领域产生了兴趣。他与Athey合作,开发了一种更灵活的方法来了解治疗效果的变化,证明了几十年来一直难以捉摸的随机森林算法的理论结果。他们于2018年和2019年发表的关于“因果森林”的论文是过去几年中被引用次数最多的统计论文之一。他们的方法已被学术界和工业界广泛采用,其中也包括了Airbnb和Uber等科技公司。
Wager在最近的一篇研究住院治疗对精神病患者影响的论文中提出了这项研究的新应用。Wager与他的合著者一起研究了美国退伍军人事务部五年来的数据,其中涉及超过十万名因自杀意念或自杀未遂而被送往急诊室的退伍军人。研究人员将重点放在那些随后住院接受治疗的患者身上,试图确定住院治疗对预防患者在接下来的一年中再次出现自杀企图的效果如何。
然而,至关重要的是,他们的研究结果不能在整个组中进行平均,以免忽视那些住院后自杀倾向增加的退伍军人。相反地,结果根据精神病诊断、既往病史和家庭情况等因素被细分为几个亚组。
“我们的研究证明,你可以明确地找出可以受益于住院治疗的患者群体和其他似乎因住院治疗而受到伤害的患者群体。” Wager说。他的团队使用机器学习工具帮助综合结果,发现个性化的治疗方法可以将患者在去医院就诊后12个月内的自杀企图减少16%,住院治疗后的自杀企图减少13%。“为了做到这一点,我们不能仅仅使用传统的因果推理方法,只观察治疗方法是否对每个人都有效,而是要进一步确定一些亚组。” Wager说。
他对超越一刀切的做法、实现更加个性化的结果,抱有很大的希望。“我们将这篇论文视为早期的概念验证,表明我们其实可以做一些事情。我们希望能够继续与退伍军人事务部合作,真正构建一个他们可以使用的工具。这就是本次活动的最终目标。”
合作者的社区
所有这些研究人员都同意,斯坦福大学作为实验设计和分析方法的研究中心正在蓬勃发展。Imbens指出,校园靠近硅谷是部分原因。他指出:“因为我们能够大量接触到科技公司所面临的各种问题,以及他们正在努力解决的各种问题。”
然而,正如他的同事对精神病患者和大学生的研究所表明的那样,这一研究课题的应用已经远远超出了简化应用程序和平台的范围。“最好的办法就是找到与科技公司相关的研究—同时意识到,这些问题实际上更为普遍,而且我们正在做的事情也与其他环境相关。” Imbens说。
这些领域加强合作的另一个结果是不同学科之间的隔阂消失,Athey强调这也是一种胜利。“这三个不同的领域—统计学、计量经济学和机器学习—以前并没有什么真正的交流。” 她说。然而,在这个多产的研究人员群体中,这些领域现在展开了很多密切的讨论。
“你可能会想,‘这些人怎么能成为同一件事(实验设计和分析)的先驱呢?” Athey说, “但斯坦福大学在很多方面都是开拓者。我们集合了一群对这些问题感兴趣的人,大家都聚集在这里并不是偶然的。”