
photo by Nima Owji on X
由马斯克(Elon Musk)所创办的AI新创xAI在本周二(8/13)释出了Grok-2 测试版(Beta),包括Grok-2与Grok-2 mini,新版支援图像生成能力,并已可供X平台上的订阅用户使用。Grok-2在LMSYS平台上的测试结果优于Claude 3.5 Sonnet及GPT-4-Turbo,不过,许多已开始试用Grok-2的使用者发现,该版本的安全护栏并不牢靠,允许他们生成许多不当内容,例如生成美国总统候选人川普(Donald Trump)拿着两把枪开火的画面。
xAI曾经以sus-column-r为名在盲测的LMSYS聊天机器人平台上进行测试,在1.2万名社群成员的投票中,它取得了第三名,排名仅次于ChatGPT-4o的最新版、Gimini-1.5 Pro,并与今年5月出炉的GPT-4o相当。且其表现优于Claude 3.5 Sonnet与GPT-4。
图片来源/Large Model Systems Organization
xAI也採用一系列的学术基準来评估Grok-2,发现Grok-2与Grok-2 mini明显优于Grok-1.5,在研究生水準科学知识(GPQA)、常识(MMLU、MMLU-Pro)及数学竞赛问题(MATH)等领域可与GPT-4 Turbo、Claude 3 Opus及Gemini Pro 1.5等模型比美,并在视觉数学推理(MathVista)及基于文件的问题(DocVQA) 上提供了最先进的性能。
付费的X Premium与Premium+用户可率先存取Grok-2与Grok-2 mini。xAI表示,Grok-2在各种任务上都更为直觉,也更通用及更容易操作,亦整合来自X平台上的即时资讯,而Grok-2 mini为一精简版模型,以于速度及品质间取得平衡。xAI亦计画于8月透过新的企业API平台释出Grok-2与Grok-2 mini。
不过,已经有人发现Grok-2图像生成功能的安全护栏不太牢靠,例如AI开发人员Benjamin De Kraker不仅利用Grok-2生成了拿着两把枪的川普, 也用它生成正在吸毒的美国前总统布希(George Bush)。
The Verge的测试则发现,即使Grok-2承诺它具备安全护栏,可避免生成色情、暴力、仇恨或危险图片,但事实上它并未拒绝许多涉及暴力、吸毒或名人裸露的图像生成要求。不过,缺乏护栏的图像生成模型并不只Grok-2,开源的Stable Diffusion对于危险内容的生成也几乎毫无防备。