
XAI
马斯克(Elon Musk)的xAI公司本周发布多模语言模型Grok-1.5 Vision,并预告很快将提供预览版供研究及开发人员测试。
这是继3月间开源Grok的基础LLM Grok-1、4月初的Grok-1.5后,xAI公司最新AI研发成果发表。Grok-1.5 Vison(或称Grok-1.5V)是xAI第一代多模语言模型,除了具有文字理解能力,Grok聊天机器人现在也能处理多种视觉资讯,包括文件、图表、示意图、萤幕撷图、相片等。按照之前的纪录,Grok-1.5V可能几周之内就会开放早期测试人员或现有Grok用户使用。
图片来源/xAI
xAI表示,Grok-1.5V从跨学科推论到理解文件、科学示意图、图表、撷图和相片等多方面都不输现有多模语言模型。该公司也列出标竿测试数据,显示在数学、文字理解、真实世界图片理解能力上,超越OpenAI GPT-4、Google Gemini Pro 1.5、或Anthropic的Claude 3系列。示意图理解能力则仅仅落后Claude 3 Sonnet模型。
xAI正持续提升Grok-1.5V的多模理解及生成能力,预计未来几个月内其图片、影片和声音等模态资讯的理解及生成能力,都会再进一步精进。xAI也公告旧金山办公室扩编徵人消息。