AI初创公司Anthropic上周五(4月24日)公布了一项名为Project Deal的内部实验,首次验证了AI代理可在无人干预的情况下完成真实交易,并显示出模型能力差异会直接转化为经济结果。
Anthropic在旧金山办公室打造了一个类似闲鱼的分类交易市场,邀请69名员工参与。实验先由Claude与每位员工访谈其欲出售或购买的物品、价格及谈判风格,建立专属AI代理,并为每个代理提供100美元预算用于交易。所有代理在Slack上自主发布信息、报价和议价,全程无任何人工干预;同时在四个市场中并行运行,以比较不同模型对交易结果的影响。
这四个市场采用并行设计,其中Run A与Run D均完全使用Claude Opus 4.5,分别作为实际交易和重复实验;Run B与Run C为混合配置,参与者以约50%的概率随机分配使用Opus或较小模型Haiku 4.5。Anthropic未设置全Haiku市场,实验重点在于观察强弱模型在同一市场中竞争时的差异。
需要注意的是,虽然同一商品会在四个市场中同时被AI代理进行交易,但只有Run A的结果被采纳为实际交易依据,参与者最终仅依据此结果完成实物交换,其余市场仅用于模拟与数据分析。
在实际市场(Run A)中,AI共促成186笔交易,涵盖500多件商品,总成交金额超过4000美元,表明AI代理已具备完整的交易能力。
进一步对混合市场(Run B与Run C)分析发现,模型能力对交易结果影响显著。使用Claude Opus 4.5的代理平均多完成约2笔交易,且在相同商品条件下,售价平均高出3.64美元;作为卖家可多赚约2.68美元,作为买家则可少花约2.45美元。在平均商品价格约20美元的情境下,差距达15%至20%,极端案例甚至高达70%。
尽管交易价格存在明显差异,但参与者几乎无法察觉这种不平等,对交易公平性的评价在不同模型间几乎一致。
Anthropic指出,该实验表明AI代理已具备代表人类在市场中进行交易的能力,且模型性能差距会带来可量化的交易优势;处于劣势的一方可能难以察觉自身交易结果较差。不过,随着AI代理逐步进入真实市场,其相关影响仍有待进一步观察。