最新消息:关注人工智能 AI赋能新媒体运营

微软开发纯视觉GUI解析工具OmniParser,强化AI跨平台操作能力

科技智能 admin 浏览 评论

微软人工智慧纯视觉GUI代理程序OmniParser,能够提升多模态人工智慧模型,诸如GPT-4V在多平台环境的互动準确性和效率。OmniParser仰赖纯视觉技术,将萤幕截图转换为结构化资料,并运用语义标注技术,使得人工智慧能够自动辨识和操作GUI中的互动元素,替人机互动建立基础。

诸如GPT-4V等多模态人工智慧模型,在图像和文字方面展现了强大的处理能力,但是要应用在操作GUI,目前的多模态模型面临一些挑战。模型辨识GUI中可互动元素,像是按钮、图标、可点击连结上仍存在技术瓶颈,模型可能难以辨识每个互动元素的功能,或是无法在複杂的介面中,执行正确的动作。

针对这些操作问题,微软开发了OmniParser,这是一个纯视觉解析的工具。该工具透过互动区域侦测和语意标注技术两个步骤流程,大幅度提升GPT-4V操作GUI的能力。OmniParser侦测模型可以能够準确辨识介面上互动元素,并标记可点击的区域,由于侦测模型经过大量热门网页资料训练,即便是在複杂介面也能明确定位互动区域。

另外,OmniParser还结合光学字元辨识和语义标注模型,能够对GUI元素提供语义描述,协助人工智慧模型理解每个元素的功能和作用,在指令生成过程提供精準的操作建议。

OmniParser让人工智慧能够在多平台环境精确地执行互动操作,其无依赖性和高精确度的设计,使OmniParser成为客服、自动化资料处理等需大量重複操作工作的理想工具。藉由其跨平台的能力,OmniParser不需要仰赖HTML或是其他后设资料,即便在不同作业系统也可有效运作。

在数位助理和自动化操作需求日益增加的当前,不少人工智慧公司也投入GUI操作的研发,强化人工智慧在人机互动的能力。Anthropic近期也针对多模态人工智慧模型Claude 3.5 Sonnet开发了专属API,使该模型能够感知并操作电脑介面,将模型指令转换成为具体的电脑操作指令,执行诸如开启应用程序和填写表格等複杂任务。

随着GUI解析技术的成熟,人工智慧在跨平台操作中的灵活性将大幅提升,进一步扩展自动化任务的应用可能性。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论