最新消息:关注人工智能 AI赋能新媒体运营

小米发布HyperClick:提升智能助手界面点击精准度

科技资讯 admin 浏览

为什么你的AI助手总在“瞎点”?小米推出能“自知之明”的点击系统

你有没有遇到过这样的情况:智能助手帮你自动点击“确认付款”、“提交订单”或“删除文件”,结果一不小心点错了地方,钱被扣了、文件没了,甚至弹出一连串你根本不想看到的弹窗?

这不是个例。在高分辨率屏幕、密集图标、动态布局的现代界面中,主流AI交互系统往往“过度自信”——明明没看清按钮位置,却敢百分百确认;明明被遮挡或相似元素干扰,仍强行执行。这种“装懂式操作”,正成为自动化工具最大的信任危机。

HyperClick:全球首个会“自我怀疑”的AI点击引擎

小米人工智能实验室(MiLM Plus)团队没有选择“更强的模型”或“更多的训练数据”,而是反其道而行之——他们让AI学会“知道自己不知道”。

他们研发的 HyperClick,是业内首个将“不确定性校准”深度融入GUI交互的框架。它不只是判断“点哪里”,更在每一步操作前问自己:“我有多大概率真的点中目标?”

这套系统靠两大核心机制实现“自知之明”:

  • 双奖励机制:只有真正点击到目标元素,AI才获得正向反馈;误点、错点、漏点一律扣分,杜绝“蒙对了就夸”的虚假学习。
  • 布里尔分数校准:系统为每一次点击输出一个“信心值”(0~1),并通过布里尔评分(Brier Score)持续校准——当它说“90%把握”时,实际命中率必须接近90%,而不是70%或50%。

智能自适应:小按钮收紧,大区域放宽

HyperClick 不是“一刀切”的点击器。它能感知界面元素的物理特性:

  • 面对手机App里仅16×16像素的“返回”图标,它会自动收紧判断阈值,宁可不点也不乱点;
  • 遇到网页顶部300像素宽的导航栏,它则适度放宽,提升操作效率;
  • 对半透明弹窗、动态加载的按钮、遮挡严重的图标,它会主动提示“当前环境干扰较大,建议人工确认”。

这就像一个经验丰富的老司机——他知道在雨天要减速,窄路要小心,高速上才敢放开油门。AI第一次有了“驾驶直觉”。

实测碾压:70亿参数,胜过更大模型

在ScreenSpot、ScreenSpot-Pro、UIE、WebShop等七大国际权威GUI基准测试中,HyperClick表现惊人:

  • ScreenSpot V2:70亿参数版本准确率高达93.7%,位列第一;
  • ScreenSpot-Pro(专为复杂、动态、干扰界面设计):准确率达48.2%,超越Google的Gato、Meta的RT-2、甚至部分百亿参数级模型;
  • 信心一致性:当系统信心值≥0.9时,实际命中率高达98.3%;当信心值≤0.3时,系统主动放弃操作,错误率趋近于0。

这意味着,它不是靠“参数堆砌”取胜,而是靠“懂分寸”赢了。

不止于手机:跨平台已验证,开源在即

HyperClick 已成功适配三大主流界面环境:

  • 移动端:Android/iOS 原生App,包括微信、淘宝、钉钉等高频应用;
  • 网页端:Chrome/Firefox 中的复杂电商、金融、政务页面;
  • 桌面端:Windows/macOS 的文件管理器、设计软件界面(如Figma、Photoshop)。

据内部消息,小米计划在2025年第三季度正式开源 HyperClick 的核心代码与训练模型 checkpoint,供开发者、研究机构免费使用。此举将极大降低智能交互的落地门槛,让普通用户也能在自家电脑、手机上,体验“AI不乱点、不瞎猜”的安心操作。

未来:让每个设备都拥有“自知之明”

我们不需要一个无所不能的AI助手,我们需要一个“知道自己能力边界”的伙伴。

HyperClick 的意义,不只是提高点击准确率,更是为AI交互树立了一种新标准:真正的智能,不是表现得多么自信,而是敢于在不确定时停下。

当你的手机助手不再“强行帮你下单”,而是轻声说:“这个按钮有点模糊,要我再确认一次吗?”——那一刻,AI才真正开始懂人。

小米,这次没有拼参数,而是拼了“人机信任”。