最新消息:关注人工智能 AI赋能新媒体运营

人类AI评估系统Yupp上线,可测试逾500个大型语言模型

科技智能 admin 浏览 评论

去年成立的AI新创Yupp日前正式推出人类评估系统,邀请使用者协助评估全球逾500个大型语言模型,包括ChatGPT、Claude、Gemini、DeepSeek、Grok及Llama 等,也涵盖了必须付费订阅的各种Pro与Max模型,并根据使用者的回馈制定Yupp AI VIBE(Vibe Intelligence BEnchmark)排行榜。

曾于Twitter共事的Pankaj Gupta与Gilad Mishne是在2024年6月共同创立了Yupp,当时获得了由Andreessen Horowitz(a16z)领投的3,300万美元的种子资金,也有超过40名科技业的天使投资人参与,包括Twitter共同创办人Biz Stone、Google首席科学家Jeff Dean、Perplexity AI 执行长Aravind Srinivas,以及Coinbase法务长Paul Grewal等。

当使用者在Yupp上问问题时,系统会提供两个不同模型的答案供使用者比较,并列出优、劣原因供使用者勾选,亦允许使用者直接输入意见,回答后系统就会出现「积分刮刮乐」,让使用者刮出积分,这些积分可用来持续使用模型,或是用来兑换加密货币及法币,目前新注册的使用者可直接获得5,000积分。

图片来源/Yupp

系统所提供的模型可能是随机的、符合提示需求的、匿名的,但使用者也可指定特定模型来回答,一个问题最多可测试6个模型,但如果一直问问题却不提供比较结果,就可能会被系统踢出去。

Yupp执行长Gupta说明,该平台透过Yupp积分运作,每个人在注册时都会收到积分,以用来使用各种AI模型,也会因为回馈而获得积分,回馈的品质愈高,积分就愈多;使用者的提示永远是私密的,除非使用者选择对外分享。

Gupta表示,回馈有助于打造个人化AI,也可帮助AI社群建置更好的模型。来自一个用户的意见或许不够可靠,但凝聚全球数百万用户的资料便会产生强大的讯号,让AI模型供应商可以使用这些讯号来改善它们的系统及代理人。

至于Yupp AI VIBE提供了使用者最喜爱的模型、最快的模型、最好的低价模型、最好的开源模型、最好的图像生成模型、最好的推理模型、最好的即时模型、最好的文字模型,以及最常被否决的模型的列表供外界参考。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论