
背景图片取自CSTRSK (pixabay.com)
愈来愈多医院使用AI来转录(transcribe)门诊纪录,但一项研究发现,有超过1%经过OpenAI的Whisper模型录写的文字,包含AI幻觉(hallucination),可能对诊断或治疗造成影响。
由纽约大学、康乃尔大学及华盛顿大学学者组成的研究团队为了解广受医院採用的OpenAI语音转录模型Whisper是否存在常被讨论的AI幻觉,他们以TalkBank语言障碍(特别是失语症)的录音资料集作为分析对象。这些资料来自美国不同大学医院,涵括英文、中文、西语、希腊文等12种语言。
研究人员比较Whisper转录的语音档文字纪录,和人类录写的访谈纪录,以了解转录的正确性。研究团队分别在2023年4、5月,以及同年11月各做一次研究。
研究团队发现,在2023年春天,他们187段录音中有312则录写纪录发生幻觉,佔了总体资料集的1.4%。幻觉类型包括加入暴力、死亡、性别或年龄刻板印象等情节(19%)、13%包括不正确的人事物关联(捏造的地点、人名、关係、或健康状态),8%是引述错误来源(引述主播、YouTuber或网站连结等)。例如一名受访者只说男孩可能拿着雨伞,但Whisper转录时加入了他可能拿了一把刀,或是凭空加入某人「十分野蛮」、自行加入某人「有残障」的描述、或是捏造名字、自己附加网址等等。研究人员指出,近40%的幻觉内容是有害或值得担忧的,像是强化歧视,或是暴力内容可能刺激受虐被害者。
研究人员发现,若说话者有较长时间的非语言停顿,像是失语症患者或是非裔美国人,Whisper转录出现幻觉的机会将提高。他们认为,这是发展转录语言模型的业者研发时需留意的偏差问题。
研究团队在同年12月又让Whisper对同样的语音资料集做了转录,错误减少到12则。此外,他们又在11月做了另一次研究,随机抽取250段录音档让Whisper录写,这次只有1则有幻觉,Whisper虚构了名字。研究团队认为,研究结果进步可能是因为OpenAI方面提供了升级,但是他们认为这还是有改善空间,因为牵涉医疗,再小的失误都可能对诊断造成不良影响。
OpenAI方面回应,将持续改善模型幻觉问题。但该公司也强调政策禁止在某些重大决策情境下使用Whisper,其开源使用模型规画也包含不建议用于高风险领域。