人类AI评估系统Yupp上线，可测试逾500个大型语言模型

去年成立的AI新创Yupp日前正式推出人类评估系统，邀请使用者协助评估全球逾500个大型语言模型，包括ChatGPT、Claude、Gemini、DeepSeek、Grok及Llama 等，也涵盖了必须付费订阅的各种Pro与Max模型，并根据使用者的回馈制定Yupp AI VIBE（Vibe Intelligence BEnchmark）排行榜。

曾于Twitter共事的Pankaj Gupta与Gilad Mishne是在2024年6月共同创立了Yupp，当时获得了由Andreessen Horowitz（a16z）领投的3,300万美元的种子资金，也有超过40名科技业的天使投资人参与，包括Twitter共同创办人Biz Stone、Google首席科学家Jeff Dean、Perplexity AI 执行长Aravind Srinivas，以及Coinbase法务长Paul Grewal等。

当使用者在Yupp上问问题时，系统会提供两个不同模型的答案供使用者比较，并列出优、劣原因供使用者勾选，亦允许使用者直接输入意见，回答后系统就会出现「积分刮刮乐」，让使用者刮出积分，这些积分可用来持续使用模型，或是用来兑换加密货币及法币，目前新注册的使用者可直接获得5,000积分。

图片来源／Yupp

系统所提供的模型可能是随机的、符合提示需求的、匿名的，但使用者也可指定特定模型来回答，一个问题最多可测试6个模型，但如果一直问问题却不提供比较结果，就可能会被系统踢出去。

Yupp执行长Gupta说明，该平台透过Yupp积分运作，每个人在注册时都会收到积分，以用来使用各种AI模型，也会因为回馈而获得积分，回馈的品质愈高，积分就愈多；使用者的提示永远是私密的，除非使用者选择对外分享。

Gupta表示，回馈有助于打造个人化AI，也可帮助AI社群建置更好的模型。来自一个用户的意见或许不够可靠，但凝聚全球数百万用户的资料便会产生强大的讯号，让AI模型供应商可以使用这些讯号来改善它们的系统及代理人。

至于Yupp AI VIBE提供了使用者最喜爱的模型、最快的模型、最好的低价模型、最好的开源模型、最好的图像生成模型、最好的推理模型、最好的即时模型、最好的文字模型，以及最常被否决的模型的列表供外界参考。

CB科技站

人类AI评估系统Yupp上线，可测试逾500个大型语言模型

与本文相关的文章