人工智能“副驾驶”有助于减少威胁患者安全的处方错误

“吃两片阿司匹林,明早打电话给我。” 要是开药真的都这么简单就好了。

在现实中,处方的开具和执行会涉及到许多人和环节。每个细节都必须准确地书写、解读并反复核对,才能确保患者拿到正确的药物和剂量。

“从医生开出处方,到药房处理处方,再到患者服药的时刻,任何一个环节都有可能出错。” 斯坦福商学院运营、信息与技术学教授Mohsen Bayati说,“错误可能与所开的药本身有关,也可能出在给患者的用药说明上。”

“医生可能在开处方时就犯了错误,而药房没能发现。” 斯坦福医学院儿科助理教授Daniel Tawfik补充道,“也可能处方在送到药房时是正确的,但药剂师在配药时把它弄错了。甚至有可能只是因为手动录入时的简单输入错误,比如把毫克写成了微克。”

无论原因是什么,处方错误的后果都很严重:在美国,每年至少造成150万起可预防的不良事件,并带来约35亿美元的经济损失。为了发现这些错误,目前已有一些机制,例如撰写患者用药说明的标准化指南、基于规则的检测系统,以及药师的审核,尤其是对更容易出错的药物(如糖尿病药物二甲双胍)。但Bayati指出:“人工审核系统费时费力且成本高昂。”

正是这种高复杂性和高风险,引起了Bayati和Tawfik的兴趣。他们此前曾合作研究如何让医疗更高效、更安全。这一次,他们与亚马逊的多位合作者一起,开发了一种基于人工智能的处方翻译系统,以减少出错率。Bayati说:“人工智能在这个问题上是个不错的选择,因为它能识别处方数据中的模式,标记出可能出错的处方,并生成无错误的处方。”

研究团队将他们的处方翻译算法重点放在药房配药阶段,尤其是针对提供给患者的用药说明。Bayati解释说:“这是最常见的一类错误。假设药物本身选对了,还需要配上一份清晰的用药说明。” 他们开发的系统是一种名为MEDIC的大语言模型(LLM),在翻译医生的处方说明时,准确率显著高于现有系统和其他通用型 LLM。

书面处方非常适合LLM大规模执行的自然语言处理任务。但Bayati指出,仅仅让LLM自由翻译处方说明并不是最佳方法,因为“在训练过程中,这些模型对一些小错误(例如把‘每周一次’改成‘每天一次’)的惩罚不够严厉。” Tawfik也说:“处方中一个微小的语言变化,就可能会造成巨大的问题。”

呼叫MEDIC

研究人员在一组来自亚马逊药房的处方数据上测试了标准LLM,结果它们的翻译错误率比药房现有的基于规则的方法还高。“于是我们意识到必须结合两种方法的优点,既要利用LLM的能力,又要加入基于药房指南的安全防护。” Bayati说,“这是药学领域知识与LLM能力的结合。”

他们首先使用了亚马逊药房的数据样本来训练LLM,其中包括1000条经过专家标注、增强的处方说明,即由具备医药知识的人在原始处方数据基础上提供书面标签和输入。

团队随后以多种方式测试了他们称之为“药物说明副驾驶”的MEDIC系统。例如,他们将医生的原始处方说明输入系统让MEDIC翻译,并与药剂师的人工翻译进行对比,看看哪一方更接近标准答案。虽然MEDIC在这一指标上表现良好,但另外一个基于150万条处方训练的更通用的LLM在标准翻译准确率上表现更好。

Bayati说:“但这并不是正确的评判标准。从临床角度看,正确的标准是要比较哪种输出对患者更安全。” 他们通过让药剂师评估不同系统翻译结果中的临床错误来衡量这一点。结果显示,MEDIC的表现明显优于其他系统:其他LLM的错误率比MEDIC高50%到400%。

为了进一步验证MEDIC的效果,研究人员又将它引入了亚马逊药房的处方生成系统,测试它是否能避免打字错误、条目不完整等本该由药剂师审核发现的问题。Bayati指出:“这些‘险些出错’的情况,可以作为衡量错误的替代指标。”

MEDIC将此类“险些出错”的情况减少了约33%,大幅超越现有系统。Tawfik 说:“在患者安全领域,我们常用瑞士奶酪模型来描述。每个安全系统都有漏洞,没有一个是完美的。如果这些漏洞恰好排成一线,错误就可能穿过并真正影响到患者。如果能减少这些漏洞,就能大大提升安全性。这个案例就是个很好的例子。”

不是药剂师的替代品

像MEDIC这样的人工智能系统的一个重要价值在于,它可以避免人为错误,尤其是在更新电子病历和药房数据系统时因压力造成的错误。Bayati说:“当人们在超时工作或过度疲劳时,就很容易出错。” 他与Tawfik过去的研究揭示了繁重的病历系统与医护人员职业倦怠之间的联系。

Tawfik说:“这种流水线式的、把信息从一个系统抄到另一个系统的工作,很容易让人产生应付心理并导致职业倦怠。” 在未发表的研究中,他发现,医护人员每多工作5小时,犯错风险就增加约3%;如果连续工作4天或更长时间,风险还会进一步上升。

引入像MEDIC这样的系统,还可以让药剂师从例行的翻译和审核工作中解放出来,去专注于药物的作用机制和药代动力学等更高层次的任务。Tawfik说:“这样他们就能把精力放在更有技术含量的工作上,而不是单纯地从一个系统抄到另一个系统。” Bayati也同意:“我们可以用人工智能来替代那些具有重复性、智力要求低的任务,让临床人员更专注于照顾病人。这对他们来说也更有成就感。”

不过,研究人员也承认,开发并推广像MEDIC这样的系统会面临独特的挑战。

其中一个障碍是人力投入的规模和性质。Bayati说:“任何人工智能技术都需要临床医生与技术团队(如数据科学家和机器学习工程师)以及产品团队的密切合作,必须让这些专家坐在一起不断交换想法。但要激励这种紧密合作或建立合适的团队文化,并不容易。”

Tawfik提出了另一类挑战:“在医学这种复杂且高风险的领域,我们必须确保有人参与其中。药剂师依然可能发现一些人工智能无法察觉的问题。而且,目前我们还没有相关的监管框架来规定,如果人工智能犯错该怎么办。我们必须在机器与人之间找到合适的平衡。”