小米发布HyperClick：提升智能助手界面点击精准度

为什么你的AI助手总在“瞎点”？小米推出能“自知之明”的点击系统

你有没有遇到过这样的情况：智能助手帮你自动点击“确认付款”、“提交订单”或“删除文件”，结果一不小心点错了地方，钱被扣了、文件没了，甚至弹出一连串你根本不想看到的弹窗？

这不是个例。在高分辨率屏幕、密集图标、动态布局的现代界面中，主流AI交互系统往往“过度自信”——明明没看清按钮位置，却敢百分百确认；明明被遮挡或相似元素干扰，仍强行执行。这种“装懂式操作”，正成为自动化工具最大的信任危机。

小米人工智能实验室（MiLM Plus）团队没有选择“更强的模型”或“更多的训练数据”，而是反其道而行之——他们让AI学会“知道自己不知道”。

他们研发的 HyperClick，是业内首个将“不确定性校准”深度融入GUI交互的框架。它不只是判断“点哪里”，更在每一步操作前问自己：“我有多大概率真的点中目标？”

这套系统靠两大核心机制实现“自知之明”：

双奖励机制：只有真正点击到目标元素，AI才获得正向反馈；误点、错点、漏点一律扣分，杜绝“蒙对了就夸”的虚假学习。
布里尔分数校准：系统为每一次点击输出一个“信心值”（0~1），并通过布里尔评分（Brier Score）持续校准——当它说“90%把握”时，实际命中率必须接近90%，而不是70%或50%。

HyperClick 不是“一刀切”的点击器。它能感知界面元素的物理特性：

这就像一个经验丰富的老司机——他知道在雨天要减速，窄路要小心，高速上才敢放开油门。AI第一次有了“驾驶直觉”。

在ScreenSpot、ScreenSpot-Pro、UIE、WebShop等七大国际权威GUI基准测试中，HyperClick表现惊人：

ScreenSpot V2：70亿参数版本准确率高达93.7%，位列第一；
ScreenSpot-Pro（专为复杂、动态、干扰界面设计）：准确率达48.2%，超越Google的Gato、Meta的RT-2、甚至部分百亿参数级模型；
信心一致性：当系统信心值≥0.9时，实际命中率高达98.3%；当信心值≤0.3时，系统主动放弃操作，错误率趋近于0。

这意味着，它不是靠“参数堆砌”取胜，而是靠“懂分寸”赢了。

HyperClick 已成功适配三大主流界面环境：

据内部消息，小米计划在2025年第三季度正式开源 HyperClick 的核心代码与训练模型 checkpoint，供开发者、研究机构免费使用。此举将极大降低智能交互的落地门槛，让普通用户也能在自家电脑、手机上，体验“AI不乱点、不瞎猜”的安心操作。

我们不需要一个无所不能的AI助手，我们需要一个“知道自己能力边界”的伙伴。

HyperClick 的意义，不只是提高点击准确率，更是为AI交互树立了一种新标准：真正的智能，不是表现得多么自信，而是敢于在不确定时停下。

当你的手机助手不再“强行帮你下单”，而是轻声说：“这个按钮有点模糊，要我再确认一次吗？”——那一刻，AI才真正开始懂人。

小米，这次没有拼参数，而是拼了“人机信任”。