
去年成立的AI新创Yupp日前正式推出人类评估系统,邀请使用者协助评估全球逾500个大型语言模型,包括ChatGPT、Claude、Gemini、DeepSeek、Grok及Llama 等,也涵盖了必须付费订阅的各种Pro与Max模型,并根据使用者的回馈制定Yupp AI VIBE(Vibe Intelligence BEnchmark)排行榜。
曾于Twitter共事的Pankaj Gupta与Gilad Mishne是在2024年6月共同创立了Yupp,当时获得了由Andreessen Horowitz(a16z)领投的3,300万美元的种子资金,也有超过40名科技业的天使投资人参与,包括Twitter共同创办人Biz Stone、Google首席科学家Jeff Dean、Perplexity AI 执行长Aravind Srinivas,以及Coinbase法务长Paul Grewal等。
当使用者在Yupp上问问题时,系统会提供两个不同模型的答案供使用者比较,并列出优、劣原因供使用者勾选,亦允许使用者直接输入意见,回答后系统就会出现「积分刮刮乐」,让使用者刮出积分,这些积分可用来持续使用模型,或是用来兑换加密货币及法币,目前新注册的使用者可直接获得5,000积分。
图片来源/Yupp
系统所提供的模型可能是随机的、符合提示需求的、匿名的,但使用者也可指定特定模型来回答,一个问题最多可测试6个模型,但如果一直问问题却不提供比较结果,就可能会被系统踢出去。
Yupp执行长Gupta说明,该平台透过Yupp积分运作,每个人在注册时都会收到积分,以用来使用各种AI模型,也会因为回馈而获得积分,回馈的品质愈高,积分就愈多;使用者的提示永远是私密的,除非使用者选择对外分享。
Gupta表示,回馈有助于打造个人化AI,也可帮助AI社群建置更好的模型。来自一个用户的意见或许不够可靠,但凝聚全球数百万用户的资料便会产生强大的讯号,让AI模型供应商可以使用这些讯号来改善它们的系统及代理人。
至于Yupp AI VIBE提供了使用者最喜爱的模型、最快的模型、最好的低价模型、最好的开源模型、最好的图像生成模型、最好的推理模型、最好的即时模型、最好的文字模型,以及最常被否决的模型的列表供外界参考。