修复大数据的盲点

如今,数据驱动的机器学习已经蔓延到学术界和工业界的许多角落,并开始协助处理公共政策问题。对于机器学习技术来说,像自动分类文字、语音或照片等复杂数据,或者预测明天的网站流量,都已经比较容易了。但是要求计算机找出如何提高最低工资可能会影响就业,或设计一种算法来为医院的每个患者分配最佳治疗方法,还不是那么简单的事情。

斯坦福商学院经济学教授Susan Athey表示,目前绝大多数机器学习的应用程序只是简单任务的高效运行版本。他们在很大程度上依赖于电脑特别擅长的事情:筛选广泛的数据,以识别数据间的相互联系和数据模型,从而做出准确的预测。预测问题很简单,因为在一个稳定的环境中,算法如何运行或为什么这样运行并不重要。通过查看程序在测试数据上的运行情况,我们可以很容易地衡量程序的性能表现。这意味着,您即使不是这方面的专家,也可以自信地运用这些算法。

尽管数据收集和计算能力不断增加,机器学习算法在区分相关性和因果关系方面还不是很好 – 确定数据模型之间的相互联系究竟是巧合,还是有一定的因果关系。 “有些问题仅仅依靠更多的数据或更复杂的算法是无法解决的。”Athey说。

如果希望利用机器学习技术来协助解决公共政策问题,Athey说,我们还需要开发新的方法,将其与因果推理方法结合在一起。 这样做将大大扩展大数据应用的潜力,提高我们设计,评估和改进公共政策工作的能力。

数据预测模型忽略了什么

当政府机构和其他公共部门团体运用大数据时,Athey表示,了解当前机器学习方法的局限性很重要。在最近发表在Science杂志上的一篇文章中,她总结了一些数据预测问题与因果推理问题之间的区别,以及常见的机器学习应用程序在哪些领域无法得到有用的结论。

Illustration by Raymond Biesinger

比如,一个常见的企业问题是,我们是否应该将资源用于挽留快要“流失”的客户,如提供折扣券或发送有针对性的电子邮件。现有的机器学习方法可以用来预测客户流失。 然而,真正的问题是如何计算资源的最佳配置。我们需要确定哪些客户是最容易被挽留的,而这是一件难以衡量的事情。公司可能需要进行随机实验,来了解哪些挽留方法效果最好。 Athey提到,最近的一项研究中,通过深入分析某家公司数据得到的结论,流失风险高的客户与挽留效果最好的客户之间只有50%是相同的。

再比如说,数据预测模型已经可以用来识别,哪些患者本可以进行髋关节置换手术,但由于可能会因其他疾病很快去世而不应该进行手术。 但这些模型无法解决的是,应该优先考虑为哪些患者进行手术,才可以使患者受益最多。

Athey表示:“如果在研究过程中,没有充分考虑混淆数据相关性和因果关系时可能出现的问题,您可能觉得利用更大的机器或更多的数据就能解决问题。但很多时候问题的答案并不在数据中。”

她说,在研究许多公共政策相关的现实问题时,尤其如此。

区分数据相关性和因果关系的最好办法是进行随机对照实验,可以对数据的因果关系进行相对直接的推断。这种实验通常用于测试新药的疗效:随机选择一组患有特定疾病的人分发药物,而对相同疾病的对照组只分发安慰剂。如果第一组人中的很大一部分病情好转,说明这种药物是有疗效的。

但这种实验在许多现实环境中是行不通的。 例如,为了研究最低工资在不同地点上升或下降时会发生什么,进行大规模的控制性实验,在政治上和实际操作上都是不可能的。因此,政策分析人员必须依赖于“观察性数据”,或者以其他方式生成的数据,来努力得出有用的结论。但这些数据经常不可靠或无法控制。这是数据预测模型无法解决的问题。

您可能觉得利用更大的机器或更多的数据就能解决问题。但很多时候问题的答案并不在数据中。                    -Susan Athey

这正是Athey希望她的研究将推动机器学习技术进一步发展的地方。 她说,将纯粹的预测与因果推理结合起来,将使我们更接近于解决真正困难的问题,找出因实施不同政策可能产生的所有后果。

“我们如何建立和改进真正能够充分利用大数据的新技术?” Athey问道,考虑到许多公共政策问题是以因果推理为核心的问题。 “这的确很困难,你必须谨慎地去考虑很多事情会产生的影响。 但这才是现实世界中发生最多的问题。”

计算能力的实际应用

虽然这些改进可能还没有实现,但Athey表示,学术研究和实际应用中大数据和机器学习的势头正变得越来越好。 她说:“过去不可逾越的研究与实践之间的差距正在消失。” “当我们的研究成果能够在几个月内就被真正采用时,这真是太酷了”。

她感到特别欣慰的是,目前普遍采用的数据预测方法,在不久前还是专门的数据专家才关注的领域。 Athey说:“以前,大部分人不会将电脑用于除文字处理之外的任何内容。现在,不仅仅是工程师,各大公司高管也都会对最新的研究成果感兴趣。因为他们认识到了能够使用数据优化决策和投资的好处。他们正在建立大数据模型和开源软件,运用最前沿的技术做出各项重要事务的预测。这个领域已经完全大众化了,我认为这是一个巨大的成功。”


原文:Fixing Big Data’s Blind Spot by Ian Chipman