一场正在进行中的学术研究革命

“我们看到生活因酗酒、残暴和恶行而被诅咒,到处都充斥着愚昧、无知和贫穷,工业体系的发展因盲目的内部斗争而陷入停滞,而教育体系仍在痛苦地建立过程中。” 1903年,英国航运业大亨Charles Booth在他所著的《Life and Labour of the People in London》一书中曾如此写道。这本书是对当时世界上最大城市生活条件的里程碑式的研究。

该出版物被认为是对社会问题进行的首批重要调查之一,其目的和方法都持续影响了整个20世纪的政府和学术研究人员。在时间允许的情况下,Booth经常在晚上和周末亲自进行采访,以收集报告数据。

这个项目花了他15年的时间才最终完成。

对于那些在Booth之后并以了解人们生活中的文化和经济细节为己任的人来说,数据收集的挑战依然存在。例如,在美国大萧条和新政时期,美国政府就曾派出调研人员到全国各地的城市和乡村,与居民进行面对面的交谈,以收集有关经济的信息。这并不是一件很容易做到的小事。二战期间,我们也曾见证过类似的时间和资源密集型的调研过程,尽管调查有时是通过邮件进行的。

与此相比,现在的研究人员需要做的事情就容易得多。斯坦福商学院的劳动经济学家兼高级副院长Paul Oyer想研究家族史如何影响企业家的发展轨迹时,他和他的同事只是下载了挪威每个处于工作年龄的公民数据—这一人口数与1900年的伦敦相当—并以特定的适用于他们课题的标准进行了排序,然后就可以根据得到的结果开始下一步的研究和分析。

“我们研究了这些公民自己所拥有的工作,他们的父亲所拥有的工作,他们总共赚了多少钱等等。” Oyer说,“因为在挪威有人已经收集了这些信息,我们可以直接使用它。这一事实,是社会科学研究领域的一大进步。”
 
一个细致且丰富的记录
 
这确实是一个长足的进步。数据的丰富性已经成为了我们这个时代的标志性特征。如今,网络上的数字信息字节数已经远远超过了可观测宇宙中的恒星数。我们生活中大量的数字足迹为每个人的行动提供了非常细致的记录。而且,所有这些信息都可以通过机器学习算法来进行解读。如果设计得当,我们就能够由此发现大量非结构化数据中的各种规律和相互关系,这是单靠人类自己完全无法完成的任务。

“这些工具使我们的研究课题可以扩展到很多以前无法研究的全新领域。” Oyer说,“人们一直对某些事情感到好奇,但是以前我们只能说:‘我们也没有办法知道。’ 而现在我们可以知道了。”

除了通过大规模的数据处理来回答新问题的能力之外,一些更深刻的改变也在进行中,不仅会改变旧的学术调研方法,而且可能也会改变学术调研的基本原理。

斯坦福商学院组织行为学副教授Amir Goldberg使用了庞大的数据集来探索制度文化。他说:“在某些方面,机器学习算法和大量数据的存在使我们能够重新思考科学研究的完成方式。”

几个世纪以来,科学研究的标准方法一直是首先提出某种假设,然后对特定样本进行测试,随后查看结果。如果你在测试结果中看到了自己所假设的情况,那么通过对随机数据进行一些统计分析,就可以验证这一假设的可靠性。

Goldberg在2015年发表的论文《捍卫法医社会学》中指出,这个过程其实很容易出错。就像有些侦探,因为已经认定了某个人有嫌疑,就容易在到达犯罪现场时只寻找和这个人有关的证据,从而去证实自己的直觉。在一些学科中,不够严谨的科学方法加上过于复杂的统计数据,导致很多过去已发表的研究结果都无法再次得到验证,这就像侦探将无辜的人认定成了罪犯一样。
 

在行政管理方面,我们试图构建一个引擎,使斯坦福大学能够成为进行这种基于大量数据的学术研究的最佳场所。
– Jonathan Levin

 
Goldberg说,机器学习的技术允许研究学者采取另一种更类似于法医的调查方法:检查所有可用的证据,然后通过权衡不同假设的可能性来找到可能性最大的那个假设。

Goldberg说:“与先想象出一个假设然后通过检测数据去验证假设是否成立的传统研究方法不同,现在你只需要先直接分析所有的数据,然后生成数百万个假设,最终找出与数据最一致的那个假设就好。虽然这种方法也并不完美,要考虑的缺陷和挑战很多,但是如果将其做到极致,它将从根本上改变我们原有的科学研究方法。”

 
逐步接近现实
 
过去,许多研究,尤其是对人类行为的研究,都建立在必要的技巧基础上。“在现实世界中记录某种人类行为极其困难,因此我们不得不在实验室中模拟要研究的课题所需的环境,然后进行由少数人组成的经过严格控制的实验。” 斯坦福商学院组织行为学副教授Michal Kosinski说。

但是这个过程是昂贵的,并且缺乏学者们所称的“生态有效性”,与现实之间仍然存在许多细微的差别。而且,出于实践条件和道德方面的考虑,许多重要的行为都无法进行研究,例如抑郁症和极端主义等等,因为这些现象在研究参与者中是无法诱发的。

“但是现在,我们几乎所有人都拥有了一些便携式的电子设备,可以全天候的记录每个人的生活。” Kosinski说。智能手机和笔记本电脑为研究者们打开了一个窗口,可以在不被人注意的情况下观察和测试以前被掩盖住的人类心理和行为。

Kosinski和另两位合著者在2015年曾进行过一项研究,仅使用某个人在Facebook上的点赞来分析内向、尽责和神经质等人格特质。Kosinski发现,电脑仅仅分析了10个“赞”,就可以比被分析者的同事更准确地确定他的性格;分析了70个“赞”以后,就可以比亲密朋友更了解他;而在分析了150个“赞”以后,就可以与配偶竞争。

海量的数据信息与机器学习所具有的分析各类型数据(例如文本、音频和图像)的能力,为学术研究者们提供了更加全面的世界概况。

在Goldberg的最新研究中,在招聘网站Glassdoor的允许下,他用计算机“阅读”了五十万名员工对其所在公司的评论,然后根据周边语境来识别和分析某些单词的含义,以推断不同公司的文化特征。

比如,公司员工更倾向于合作还是竞争?管理者更看重短期目标还是长期目标?公司团队是集合了某一种人还是各种各样的人?

该算法梳理了大量的非结构化文本,并从各自独立的评论中自动提取了这些细微的差别。比如,Goldberg在研究中发现,重视多样性会损害公司的效率,但同时也会提高创新能力。

Goldberg说,在机器学习技术出现以前的日子里,要详实地分析500,000条评论是不可能的。研究者只有两种选择,要么选择一个小得多的样本,然后人工将每个评论与预先设定的公司文化特征进行手动的匹配,要么就是使用“非常非常非常粗略”的关键字分析,而这时每个单词仅能对应某一种单一的文化特征。

第二种选择具有非常明显的缺陷,因为一个单词的含义经常会因上下文而不同:比如说“Shot”这个单词,在谈论医学时是指注射,在谈论篮球时就是指投篮,在谈论犯罪时指射击,而在谈论酒吧时就是一口酒的意思。因此,在仅使用关键字做分析时,这些不同的情况就会无法区分。

以Goldberg的研究为例,当员工对公司的评论包含“多样性”一词时,从基本的关键字分析中,并不能分清楚他们对公司的态度是喜欢还是讨厌。

Goldberg说:“这些机器学习算法虽然还不能像人类那样理解语言,但是它们具有更强的可扩展性,并且远胜于以前所用的关键字分析的方法。”
 
机器人研究员
 
使用机器学习分析大量数据的好处并不总是很明显的。斯坦福商学院教授Susan Athey曾在微软担任过六年的首席经济学家,与搜索技术工程师一道工作,涉足过机器学习领域。

她回到校园后曾宣传过这种工具的强大功能,但她那些研究社会科学的同事最初并不太感兴趣,因为他们认为这些技术无法回答他们想要研究的各种假设性的因果关系问题:如果还有更多创新,将会怎样?如果我们提高了最低工资,或者纽约市对通勤者实行了拥挤定价机制,或者公司税率提高了,都会发生些什么?

机器学习算法所擅长的是所谓的后向预测。Athey用一家酒店来举例说明这一点:假设你现在需要一种基于房价来预测酒店入住率的算法,如果使用历史数据进行算法训练,可能会得到一个高房价与高入住率相关的结论。这可能会是一个成功的预测模型,但却是一个糟糕的因果模型。因为两者相关并不意味着高房价是能带来高入住率的决定性因素之一。这时如果你想通过这个模型知道:“如果我提高房间价格,入住率会如何变化?” 该算法可能会导致你错误地认为,提高房价就能够提高入住率。

这正是Athey的同事没有立即加入的原因。Athey说:“在过去20年的社会科学研究中,我们对因果关系的实证研究要占到80%至90%,对预测和描述的实证研究仅占10%至20%。因此,现有的机器学习技术似乎并不适用于很大一部分社会科学研究的课题。”

但是,预测模型通常也是回答假设性问题的重要组成部分。因此,Athey希望自己能够找到应该如何将机器学习的好处运用于社会科学研究中的因果关系研究。

举例来说,如果她想研究当价格发生变化时,消费者对特定产品或产品类别的需求会发生什么变化。要回答这个问题,我们首先需要了解可能会影响消费者需求的基本因素:除价格以外,还会有哪些变量能够影响到它?它会随着季节波动吗?也许是每个星期中的某一天?也许是不同的天气类型?甚至是其他的更不寻常的变量,比如政治状况或天然气价格?

以前,Athey可能会考虑哪些变量是最重要的,然后设计一个模型来控制这些变量—考虑到变量的数量和人们可以合理考虑的关系的复杂性,这只能是一个很有限的模型。

而我们如果能够使用机器学习算法,就完全不一样了。

在过去的几年中,Athey和她的一些同事一直在使用机器学习算法来逐步改进计量经济学模型。结果是,他们的预测能力得到了普遍地提高。

她说:“我喜欢将其视为可以研究数千个变量中数十亿个功能关系并找到最有效变量的机器人研究分析师。虽然我们还不知道应该如何利用机器学习来研究概念性的课题,但是已经找到了能够使机器人助手工作得很好的方法。”

 


 
黑匣子困境
 
目前,机器学习算法的应用有一个公认的核心问题,就是研究人员常常无法解释算法是如何得出最终结果的。手工开发的预测模型,每一个中间步骤都是清晰可见的。但当计算机承担研究任务时,情况并非如此。这就是所谓的黑匣子困境。

对于Athey而言,这也是一个重要的学术挑战。“我们运行这些算法的目标,当然是得到最终的结论。” Athey问,“但是如果我不仅想要得到答案,还想了解得到答案的过程,应该怎么办呢?”

就像我们的中学数学老师让大家展示解题过程一样,Athey的研究课题的一部分就是希望找到如何能够展示出机器学习算法在得出结论时的解题过程。

这项工作也具有深远的实际意义。斯坦福商学院的运营、信息和技术学副教授Mohsen Bayati专门研究医疗保健领域。他发现机器学习算法在很多情况下,从疾病诊断到医院人员配置的各个领域,都能够提出难以置信的精确建议,甚至远远超过了许多经验丰富的医生。但是,在这个行业中,某个决策可能会立即导致生死攸关的后果。人们不希望在采取行动时,却不知道为什么要这样做。

“对于行为研究者而言,这是一个新的有趣的挑战。” Bayati说,“我们需要找到一种方法,向医院经理或临床医生介绍这一黑匣子建议的复杂性,以便她能够做出最明智的决定。”
 
孵化“新的重大事件”
 
这些新的工具不仅改变了学者们提出的问题种类和寻求答案的方法,同时也改变了像斯坦福商学院这样的研究部门的整个组织结构。

现在,很多教职员工都在重新构想他们充当导师和顾问的方式,并且摆脱了一次只与几个学生紧密合作的传统模式。因为获取、组织、清理然后深入研究大型的数据集合,需要一种不同的研究方法,会更类似于由主要研究者任项目负责人的自然科学实验室的模式。

例如,在Athey所领导的Golub Capital Social Impact Lab,研究学者们主要是通过机器学习帮助各社会组织的部门提高效率,依靠广泛的专业知识来实现其目标。实验室现已有八名博士后、二十四名博士生和二十几名硕士生,并且与研究市场营销、金融、经济学、工程学、计算机科学、教育和社会学等众多领域的教授都有合作。

斯坦福商学院院长Jonathan Levin表示:“许多社会科学的研究者都在试图朝这个方向转变,建立类似于自然科学实验室的组织结构。而且由于这些团体需要更多资源来获取数据以及与公司和政府机构合作,我们在行政方面也在尝试构建一种引擎,使斯坦福大学成为进行此类面向数据的研究的最佳场所。”

就像一棵大树的根系一样,Levin和斯坦福商学院的员工已经陆续建立了有助于大数据研究蓬勃发展的后台基础架构。这包括了一个可用于校园实验的行为实验室,一个可扩展的图书馆研究中心,以及一个可以协助研究的数据分析团队,该团队可以提供从代码优化到基于云的超级计算机上的时隙等一系列技术支持。

研究基金也设立了更灵活的标准,使教职员工可以与来自各个学院的博士生及博士后一起工作。而专门的数据获取团队则可以帮助学生和教授们与数据提供者、私营部门以及政府机构进行数据使用许可和合同的谈判,这也是大数据研究的一个最新组成部分。

Levin说:“有很多重要的问题都需要解决,例如,当你与使用专有数据的公司合作时,要如何确保研究的完整性和可信度。当我们与外部组织合作时,我们仍在研究什么样的框架结构才能确保研究结论是可复制的,但是同时又能充分保护数据的私密性和尽可能地保留学术自由。”

尽管存在很多挑战,但大家对于难得的革命性的新研究工具的出现,还是感到很兴奋。Levin指出,二战结束后社会科学研究开始采用形式化建模,四十年后又出现了因果关系研究中推理方法的发展。而现在,我们正在见证社会科学研究中大数据和机器学习的兴起。

Levin说:“每隔一段时间,世界上都会有新的重大事件发生,而这就是新的重大事件。”

相关文章:人工智能,文化多样性和巨大的“语言包”