最新消息:关注人工智能 AI赋能新媒体运营

浙大推出沉浸式AI角色框架,告别机械交互

科技资讯 admin 浏览

当AI不再只是说话,而是“演”出一个世界

你有没有试过和一个“福尔摩斯”聊天,结果他只重复你刚说的那句话?或者在一场古宅探案中,明明地上有半截蜡烛,AI却对它视而不见?这不是技术不够好,而是我们一直用“问答模式”去对待本该是“戏剧”的体验。

最近,浙江大学和腾讯优图实验室做了一件真正让人眼前一亮的事——他们让AI不再只是“回答问题”,而是开始“导演一场戏”。这套系统叫 AdaMARP,不是炫技的论文玩具,而是让AI能像真人一样,在场景里走动、观察、犹豫、推门、低声说话,甚至在关键时刻,让一个你根本没想到的角色突然出现。

为什么你总觉得AI角色“假”?

现在的AI角色扮演,像一场没有布景的舞台剧。你问:“案发现场的地毯上有什么?”它答:“有灰尘。”你再问:“那蜡痕呢?”它愣一下:“我没注意。”——因为它根本“看不见”那块地毯。

真正的侦探不是靠背书破案的。他看脚印、闻气味、听呼吸的节奏,知道什么时候该沉默,什么时候该突然逼近。而现在的AI,连“沉默”都不会演。

更别提多角色互动了。你和林黛玉聊心事,她突然说:“等等,贾宝玉刚进屋了。”——你等了半天,AI却还在原地,连门都没开过。

AdaMARP:让AI学会“演戏”的四步法

这次,团队没再优化对话模型,而是重新设计了“表演流程”——每一轮互动,AI都要完成四个动作:

  • 思考(Thought):它心里在想什么?是怀疑证人撒谎?还是怕自己说错话惹怒对方?
  • 动作(Action):它做了什么?是拿起烛台靠近墙角?还是下意识摸了摸口袋里的怀表?
  • 环境(Environment):场景在变吗?风从破窗吹进来,烛火晃了三下,远处传来马蹄声。
  • 言语(Speech):最后,它才开口说话——而且说的话,必须和前面三步对得上。

举个例子:你走进一间书房,AI扮演的侦探没有直接问“你昨晚在哪?”,而是先低头看了眼地板——鞋印是新踩的,灰尘没被扫过。他拿起桌上的茶杯,闻了闻,皱眉。然后才说:“这茶,是刚泡的。你没睡,对吧?”

这不是AI“猜”出来的,是它“看见了、闻到了、感觉到了”,然后才说出来的。

谁在幕后操控这一切?那个“看不见的导演”

最狠的,是他们给AI加了一个“场景管理器”——一个不说话、但掌控全局的导演。

它知道:

  • 什么时候该把场景从凶案现场切换到证人卧室(因为线索断了)
  • 什么时候该让一个“失踪的女仆”突然推门进来,手里攥着一封没寄出的信
  • 什么时候该让烛光熄灭,让对话陷入黑暗,逼出真话

这不是预设脚本。系统会根据你之前的选择、情绪、线索的完整性,动态调整节奏。你拖得太久?它会让钟声敲响,暗示时间紧迫。你太急躁?它会让角色停顿,用沉默施压。

这就像你玩《极乐迪斯科》或《底特律:变人》,但这次,编剧、导演、演员,全是一个AI。

他们是怎么教会AI“演戏”的?

不是靠代码,是靠书。

团队从81本经典文学作品里,扒出了真实的人际互动——狄更斯笔下人物的犹豫、东野圭吾里沉默的张力、《红楼梦》里一句闲话背后的暗流。他们把这些变成训练数据,让AI学会“怎么说话才像人”。

同时,他们还人工设计了20种复杂情节:雨夜追凶、家族密会、密室遗书、双面间谍……每一种都要求AI在多个角色、多个场景、多个时间点之间无缝切换。

为了测试效果,他们还搞了个叫 AdaptiveBench 的评估系统——不看你答得对不对,而是看你“演得像不像”:

  • 角色前后性格一致吗?
  • 环境变化有逻辑吗?
  • 剧情推进是自然的,还是强行推进的?

结果?在“侦探推理”和“历史重演”两个高难度场景里,AdaMARP 的表现,比当前主流模型高出近40%。不是快,是“真”。

这不是未来,它已经能用了

这项研究刚被 ACL 2026 接收,但团队已经和几家独立游戏工作室合作,把这套系统用在了即将上线的沉浸式叙事游戏里。你可以在游戏中扮演一位19世纪的记者,走进一间维多利亚时代的报社,和记者、妓女、议员、黑帮打手对话——每个人都有记忆、有秘密、有情绪波动,而你,是唯一能改变结局的人。

这不是ChatGPT式的“你问我答”,这是你走进一部活的剧,而AI,是那些会呼吸的角色。

我们终于不用再和机器人聊天了。 我们开始和“人”演戏了。