血液是红色的,数学是蓝色的:人工智能可否像你我一样理解颜色?

数字3是什么颜色?愤怒是什么颜色?那虚构的词“gricker”呢?在最近的一项实验中,研究人员向人类和一个从未“见过”任何东西、只接触过海量文本的大语言模型(LLM)提出了这些问题。

他们的目标是揭示人类和人工智能如何理解颜色:其中有多少是基于语言,又有多少依赖感官体验?换句话说,要理解颜色,是否必须通过视觉去感知,还是只需要通过文字阅读就足够了呢?回答这个通常被概括为“具身观点”和“统计观点”之间争论的问题,能为生成式人工智能可以在多大程度上复制人类思维方式提供线索。

发表在《认知科学》期刊上的研究结果并不是非黑即白的答案。斯坦福商学院组织行为学助理教授Douglas Guilbeault说:“我们的研究结果表明,需要结合这两种不同的视角。基于统计的颜色推断能走得很远,但显然具身经验同样是人类认知的重要组成部分。”

Guilbeault和他的合作者进行了一系列关于颜色隐喻的实验,研究特定颜色所承载的联想与意义。他们招募了500多名视力正常的男性和150多名色盲男性。(他们之所以聚焦男性,是因为男性色盲率更高,这样能避免性别之间可能存在的色彩感知差异。)从一个包含12种颜色的列表中,参与者被要求挑选出最符合和最不符合各种词语的颜色。研究人员还要求由OpenAI开发的流行大语言模型GPT-3.5对这些相同的问题作答,每个问题重复超过100次。

像“草”和“血液”这样的词有着共同的颜色联想,但许多词并没有标准的颜色含义。这其中包括情绪(如羞耻和欲望)、学科(如数学和社会学)、数字(一到五的拼写与数字形式),以及虚构的词(如“ambous”和“smeex”)。

如果答案完全是统计性的,LLM应该能完美处理颜色隐喻。事实上,它们比人类差,因为人类的推理根植于对世界的感知。
— Ethan Nadler

在所有三组人群中,人们对抽象概念与颜色的对应选择表现出了惊人的一致性。大约20%到40%的正常视力和色盲参与者会选择相同的颜色来代表同一个词语。随机情况下这种一致性的概率只有8%。例如,最常与“数学”相关的颜色是蓝色,而“gricker”最常被选为灰色。

“我对普通人中如此强烈的联觉迹象感到惊讶。” Guilbeault说,他指的是人们会不自觉地将音乐或词语等感官输入与颜色联系起来。他认为这一发现支持了具身观点。“这种稳健的推理和认知模式需要解释,而这在很大程度上还是尚未探索的领域。”

数字与颜色

更让Guilbeault觉得“震撼”的是,LLM也展现出了一种稳定的词语与颜色之间的关联模式,即使这些并未体现在它的训练数据中。LLM将“数学”与蓝色的联系比人类更强烈,但却压倒性地把“gricker”与绿色联系在一起。

“我们目前还不太清楚为什么像GPT-3.5这种纯粹的统计引擎也会表现出类似联觉的现象。” 他说。这说明颜色的具身理解在认知中是基础性的,而这种基础被隐含在我们说话和写作的方式里:“它一定被深深嵌入在语言当中。”

然而,LLM在模拟人类对颜色的推理时依然有明显的局限。色盲者与正常视力者之间的关联性比他们与GPT-3.5的一致性更高,这表明即使是有限的颜色感官经验,对辨析颜色的意义依然至关重要。

论文合著者、加州大学圣地亚哥分校天文学教授Ethan Nadler说:“如果答案完全是统计性的,LLM应该能完美处理颜色的隐喻。但事实上,它们比人类差,因为人类推理根植于对世界的感知。我们的结果揭示了计算模型在模拟心智方面的局限性。”

当被要求指出抽象词语的“相反颜色”时,LLM的回答往往与人类差异很大。例如,人类最常选择粉色作为“数学”的反色,而LLM最常选择紫色。Guilbeault说:“它的答案常常毫无意义。LLM似乎没有明确的概念去理解‘相反颜色’是什么,因为它缺乏相关数据,而人类能够轻松应对,因为我们真正理解这个意思。”

在实验的第二部分,研究人员要求人类和LLM解释自己选择某种颜色的理由。这一次,人类样本中还包括了职业画家。Guilbeault说:“人类更可能使用具身化的推理方式,而这在画家群体中最为明显”,进一步支持了直接体验颜色的重要性。“如果具身化有助于理解颜色,那么在画家身上就应该表现得更强烈,因为他们更频繁地与颜色互动,并且更常思考颜色的意义。”

至于LLM是否能在处理颜色和其他具感官成分的概念时显著进步,仍是个悬而未决的问题。Guilbeault认为,仅靠更多文本训练不太可能奏效,因为GPT-3.5已经在几乎整个互联网的数据上训练过了。

他表示,引入图像、视频或传感器数据可能会改善LLM的表现。但他的研究团队的成果提供了一些证据,表明LLM或许永远无法完全接近人类的思维方式。“从语言本身来重现人类认知中具身化的部分,可能只能走到某个程度。” Guilbeault说。