苹果研究人员开发出可「看」到并理解萤幕内容的AI

根据週五发表的一篇论文，苹果研究人员已开发出一种新的人工智慧系统，可以理解对萤幕上实体的模糊参考，以及对话和背景上下文，进而实现与语音助手更自然的互动。

该系统名为ReALM（Reference Resolution As Language Modeling，基于语言模式的萤幕参考解析），利用大型语言模型参考解析的複杂任务（包括理解对萤幕上视觉元素的参考）转换为纯语言建模问题。这使得ReALM在参考解析任务上比现有方法取得了显着的性能提升。

「能够理解上下文，包括参考，对于对话助手来说是必不可少的，」苹果研究团队写道。「让使用者能够发出关于他们在萤幕上所看到内容的查询，是确保语音助手真正无需手动操作体验的关键一步。」

延伸阅读：苹果大模型MM1终于要加入战局了！高达300亿参数、多模态、MoE架构

增强对话助理

为了处理基于萤幕的参考，ReALM的一项关键创新是透过解析萤幕上的实体及其位置，重建萤幕并生成捕捉视觉布局的文字表示。研究人员证明，结合特别为参考解析微调语言模型，可以在这项任务上超越GPT-4。

研究人员写道:「我们展示了在不同类型的参考上，与具有类似功能的现有系统相比，可以获得大幅改进，我们最小的模型在萤幕参考上获得了超过5%的绝对增益。我们较大的模型显着优于GPT-4。」

▲ Apple 的 AI 系统 ReALM 可以参考萤幕上的资料并理解，例如在这个範例中显示的「260 个样品销售」列表，进而实现与语音助理的更自然的互动。（图片来源：arxiv.org）

这项研究凸显了专门的语言模型在生产系统中处理参考解析等任务的潜力，因为由于延迟或运算限制，无法使用大型端到端模型。透过发表这项研究，苹果暗示了其将继续投资这项研究，使Siri和其他产品更加善于对话和理解上下文。

不过，研究人员警告，仅依赖于自动解析萤幕存在局限性。处理更複杂的视觉参考，如区分多个图像，可能需要结合电脑视觉和多模态技术。

延伸阅读：苹果论文透露可将大型语言模型装进快闪记忆体，日后iPhone可直接流畅跑AI模型

儘管苹果在快速发展的 AI 领域落后于竞争对手，但它正悄悄地在人工智慧研究方面取得重大进展。

从融合视觉和语言的多模态模型，到人工智慧动画工具，再到使用低成本构建高性能专用 AI 的技术，苹果研究实验室的稳步突破表明，其 AI 雄心正在迅速扩大。

但这个以保密着称的科技巨头正面临着来自Google、微软、亚马逊和 OpenAI 等公司的激烈竞争，这些公司已经在搜寻、办公软体、云端服务等领域积极将生成式人工智慧产品化。

苹果长期以来一直是快速跟随者而非先行者，现在它正面临着一个由人工智慧以前所未有的速度改变的市场。该公司备受关注的全球开发者大会将在 6 月举行，预计届时将推出新的大型语言模型框架、「Apple GPT」聊天机器人以及其生态系统中其他的人工智慧功能。

「我们很高兴能在今年晚些时候分享我们在人工智慧方面正在进行的工作细节，」首席执行长提姆·库克最近在一次财务电话会议上暗示。儘管苹果很少正面回答任何问题，但很明显，其在人工智慧的努力範围很广。

然而，随着人工智慧主导权争夺战的升温，这家 iPhone 製造商的姗姗来迟使其处于一种非同寻常的弱势地位。雄厚的资金、品牌忠诚度、顶尖的工程技术和紧密整合的产品组合使其有机会获胜，但是在这场高风险的竞争中，没有什么东西是可以确定的。

一个普遍存在、真正智慧计算的新时代即将到来。到了6月，我们将看到苹果是否已做好足够準备，确保能在塑造这个新时代中扮演一个角色。

延伸阅读：急起直追？库克：苹果将在生成式 AI 领域「开闢新天地」，外界推估 WWDC 2024 见真章延伸阅读：考虑中国法规，苹果选择百度作为苹果在中国的AI技术合作伙伴延伸阅读：库克终于脱口对生成式AI表态：苹果早就已经上车，最好的AI PC是Mac

资料来源：

Apple researchers develop AI that can ‘see’ and understand screen context