Voices of Stanford GSB:许匡,运营、信息与技术副教授

在2020年初的几个月里,新冠疫情以令人震惊的速度席卷了整个美国,很多人都对随之而来的众多未知感到难以应付。许匡在这一刻意识到,民众需要他的特殊专业知识。作为一名专注于随机建模—对充满不确定性的系统进行数学描述—的研究人员,他并没有被这些未知因素吓倒。

“在什么紧急情况下,你会打电话给一位具有随机建模专业知识的运营、信息和技术教授呢?” 斯坦福商学院副教授许匡说,“当你必须在高度不确定的环境中做出很多决定,但又没有大量数据可供使用的时候。”

换句话说,就像是这次新冠疫情初起的那段时间一样,在人们对病毒及其传播方式的最基本了解也都非常有限以及不确定的情况下。

当时,许匡联系了自己的长期合作者、哥伦比亚商学院教授Carri Chan。Chan教授每天早上都会收听医院领导层的“情况通报”,以此了解纽约长老会医院系统的运作情况。在2020年3月份,Chan教授还亲身见证了纽约市医院内爆发的混乱局面。在全市范围内,共有超过3,000名患者因感染该病毒住院治疗,近300人死亡。

出生于中国苏州的许匡,与Carri Chan一起合作,仔细研究了来自中国的研究论文,希望能够从最早发现新冠病毒的国家找到更多的相关信息。他们从中了解到,由于大部分疫情的传播都是发生在家庭内部,武汉所采取的集中隔离政策可将感染率降低75%。

想象着类似的政策如何可以适应美国的情况,两位研究者开始考虑“隔离酒店”可能会带来的公共健康益处。在这种情况下,有症状或正在康复的患者可以自愿隔离以避免感染他人。他们在2020年4月与哥伦比亚商学院助理教授董静共同发表在Business Insider的一篇文章中,通过数学建模分析出,即使仅5%到10%的病毒感染者可以通过这种方式进行隔离,感染人数也将有显著地下降。

三人随后向纽约长老会医院的领导层介绍了他们的发现。两周后,纽约市政府就宣布了其新冠酒店房间隔离计划—这是一个令人振奋的进展,尽管研究人员可能永远不知道他们的工作是否对其有任何直接影响。

Chan教授认为,许匡就技术问题进行交流时的口才在当时特别有用。“他能够将自己的工作成果提炼成真正干净、核心、清晰的见解。” 她说,“我认为,对于我们围绕新冠所做的工作来说,这非常重要。”

在许匡的研究领域中,他认为最大的挑战是在“知识深度、概念清晰度和实际相关性”之间取得适当的平衡。研究成果的可访问性对他来说至关重要,这在很大程度上是因为他相信我们正在进入一个日益以信息为中心的时代。而且,他研究的核心问题就是如何最大限度地利用现有信息。

棘手的理论问题

当初在中国上高中时,许匡最喜欢的是物理课。直到现在,他笑着承认,自己仍然觉得数学很难。在就读伊利诺伊大学厄巴纳-香槟分校选择专业时,许匡的首要标准是实用性。他认为选择能够转化为体面工作的专业很重要。按照这个标准,他最终排除了过于不切实际的物理学专业,而是选择了似乎次佳的专业:电气工程。

但是,在大学学习期间,许匡却越来越被包括随机学在内的理论分支学科所吸引。“我变得更加理想主义。” 他回忆道,“当时,我不得不拒绝了一些条件非常优越的来自芝加哥和纽约私营交易公司的工作机会。但我真的很喜欢做研究,而且深入挖掘的魅力是如此神奇。”

现在,作为一名专注于多年前曾困扰过他的棘手的理论问题的研究人员,许匡在继续深入挖掘。他之所以选择信息作为核心研究主题,是因为他评估了在过去几十年中,尤其是随着互联网的兴起,信息在全球经济活动中所扮演角色的演变,以及它可能将如何塑造我们的未来。

许匡认为,信息并不是数据的同义词。他解释说,信息是“重要的数据”。它必须是可操作的,能够影响某人决策的数据。他所探索的一些重要问题包括:不完整信息的价值是什么?如何改进那些依赖于不完整信息的实验?如今,信息的作用正在不断扩大,将极大地改变医疗保健、保险、制造业和许多其他部门的运作方式,同时也对信息监管政策产生了紧迫的影响。

许匡解释说,纵观大部分经济史,信息一直是用于创造商品和服务的众多资源之一。例如,在20世纪的制造业系统中,生产商当然需要知道有关其产品需求的基本信息,但是关于石油、油漆和劳动力等资源的信息可以说更加重要。

直到计算机的发明以及随后互联网的出现,信息也开始成为经济活动中越来越重要的一部分。“在20世纪末和21世纪初,信息开始发挥更重要的作用。” 许匡提到, “比如说,你可以根据产品的需求量更快地调整自己的供应链。”

信息作为重要的核心经济要素的趋势只会继续下去。他相信这将形成一种“你所知道的比你所做的要更重要”的经济格局。

许匡举例说明了这可能是什么样的以及它是如何开始形成的。比如,个性化医疗会是一个复杂的过程,通过综合分析患者有关个人基因组的敏感信息,来快速制造必要的药物。而高度个性化保险,现在已经处于早期可用阶段,未来将可以取代更标准化的金融产品。

“如果未来的生产活动变得更加商品化,但它们所依据的信息是稀缺的,我们应该怎么办?” 许匡问,“这是我最终想要搞清楚的问题。”

信息的生命周期

许匡认为,如果信息变得越来越重要,那么它就需要被更仔细地研究。对他来说,这意味着从信息生命周期的角度来思考处于三个不同阶段的信息:生成、利用和保护。他在设计研究项目时会考虑到这个时间线,他的每项研究都涉及这些阶段中的一个或多个。

许匡最近在研究的项目,也是他感到最兴奋的项目 — 瞄准信息生成阶段,寻求找到更好的方法去了解公司和研究人员如何确定哪些信息对他们最有价值。他正在与合作者一起设计一种更好的强化学习算法,这将极大地改进为例如Netflix和Spotify等网站提供支持的推荐系统。这种算法对于未来的个性化医疗服务也将是必不可少的,可以帮助医生更好地在了解哪些药物对个体患者有效的长期需求与具备安全性和功能性的短期需求之间取得平衡。

许匡的另一个研究重点是使用随机建模来改进复杂的动态环境中的因果推理。例如,很多电子商务公司常常使用A/B测试的方法来确定哪些促销电子邮件会刺激更多人点击链接并进行购买。但是,正如许匡所解释的那样,当对一个人进行干预会影响到另一个人的结果时,普通的因果推理就可能会遇到问题。例如,拼车平台希望了解在需求激增时为司机提供有针对性的奖金的影响。这种奖励方式是否会增加平台的收入,还是只会增加成本?在这类问题中,由于环境过于复杂,通常无法使用传统的因果推理方法来解决。而随机建模则可以提供一套丰富的工具来捕捉这些相互作用的影响,从而找出更有效的算法和实验方式。许匡就曾与Uber和Shipt等公司合作,通过着眼于提高结果的准确性并降低成本,来设计更好、更高效的实验,帮助他们解决这些问题。

许匡还花费了大量时间研究围绕信息生命周期最后保护阶段的重大问题。这些研究已经超越了数据收集的范围,深入地探讨了更加微妙的关于他所谓的“行为驱动的隐私问题”:一个人是否会因其在互联网上的某些行为泄露有关其动机的信息,从而导致进一步的隐私泄露?

他的其中一项研究着眼于基因数据的保护,而另一项研究着眼于人们在考虑在线购物时可能会遵循的顺序流程的类型。许匡解释说,在这种情况下,“公司或个人可能会成为潜在的’窃听者’,通过监控来推断客户的潜在动机或秘密信息。” 例如,潜在的鞋子购买者可能会点击零售平台上的几十个不同选项。而该网站可以使用机器学习根据购物者最初的几次点击来预测他们的最终购买行为—“这赋予了平台据此信息进行促销甚至提高价格的极大可能性。”

许匡和他的合作者试图确定,这样一个购物者需要多长时间才能通过在他们购物时留下的信息线索中添加虚假点击来掩饰他们的真实意图。他认为,这个问题的答案同时具有道德和政策方面的含义。毕竟,如果消费者很容易掩盖他们的在线轨迹,那么公司就更容易放弃建立隐私保护的责任。然而,如果逃避这种类型的预测性或歧视性定价既困难又耗时,那么限制它的法律论据也就会更有分量。

“我们应该如何解决这些争论?很简单。从数学的角度来看:能做什么?” 许匡最终发现,购物者必须把他们的在线活动重复五次才能让“窃听者”远离他们的踪迹。“为了避免歧视性定价,需要让消费者把自己的购物轨迹重复五次,你觉得这是合理的么?当然不,这简直是不可能做到的。”

许匡看到了数学模型的巨大潜力,它可以消除那些看似令人眼花缭乱的不确定性,并指向正确的决策。作为一名随机建模领域的研究学者,他对于不确定性已经形成了一种“半杯满”的积极心态,而世界上大多数人都还是持有“半杯空”的消极观点。他说,与其将那些重大但不够确定的问题视为瘫痪,不如将这种混乱视为部分的确定性。“不要专注于你还不知道的事情,” 他说,“而应该专注于你已经知道了一些的事实。”

许匡教授简介及文中所提相关研究成果:

Faculty Profile:https://www.gsb.stanford.edu/faculty-research/faculty/kuang-xu

Gaussian Imagination in Bandit Learning: https://arxiv.org/abs/2201.01902

How to make (and keep) genetic data private:https://engineering.stanford.edu/magazine/kuang-xu-how-make-and-keep-genetic-data-private

Learner-Private Convex Optimization: https://arxiv.org/pdf/2102.11976.pdf

A New Way to Solve Genetic Mysteries—While Protecting People’s DNA Data: https://www.gsb.stanford.edu/insights/new-way-solve-genetic-mysteries-while-protecting-peoples-dna-data