最新消息:关注人工智能 AI赋能新媒体运营

微软发表Magma多模态AI代理基础模型,单一模型就具UI与机器人操作能力

科技智能 admin 浏览 评论

微软研究院发表Magma,这是一款针对多模态人工智慧代理设计的基础模型。Magma具备视觉与语言理解能力,能够直接执行UI操作与机器人控制,突破了传统视觉语言模型仅限于静态理解的限制。微软强调,Magma单一模型即可处理数位与物理环境中的互动任务,且不需特定领域微调,就展现出优于现有专用模型的性能。

Magma的核心技术是Set-of-Mark(SoM),透过标记可操作物件,如UI按钮或机器手臂,让人工智慧能够準确理解影像中的互动元素,进而做出适当动作,像是Magma能够在UI操作中辨识可点击的按钮,并执行指令来完成複杂的操作流程。在机器人领域,SoM让人工智慧能够判断环境中的物体位置与特性,控制机械手臂稳定执行物品抓取、移动等任务。

此外,Magma也运用Trace-of-Mark(ToM) 技术,该技术重点在于学习时序动作,藉由标记影像中的移动轨迹,让人工智慧理解物件在时间轴上的变化。ToM让Magma能够预测未来动作,例如判断机器手臂在操作过程中的最佳移动路径,或分析影片中人物的行为模式,更精确地规画下一步动作。相比传统逐帧预测方法,ToM使用更少的Token,但能捕捉更长时间範围的变化,提升人工智慧在动态场景中的决策能力,并降低环境杂讯的影响。

在多项基準测试中,Magma表现优于现有模型。在UI操作领域,在Mind2Web和AITW测试中达成高準确率,证明其能够操作複杂的网页与行动装置UI。在机器人操控方面,Magma在WidowX和LIBERO测试超越现有的机器人视觉语言模型OpenVLA,成功执行软件操控与拾取放置任务,并在已知与未知情境下展现良好的泛化能力。

Magma的强项在于零样本与少样本学习能力,能够直接应用于未见过的环境,而不需要额外微调。测试显示,Magma在UI操作与机器人任务中,都能够在零样本情境下执行完整任务。除了UI操作与机器人应用,Magma在视觉问答、时序推理等任务上也表现出色。在空间推理测试中,其表现超越GPT-4o,微软提到,空间推理评估对于GPT-4o来说仍然是具有挑战性的问题,但Magma儘管预训练资料少得多,却能更好地回答这类问题。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论