
Physical Intelligence
Hugging Face宣布,新创公司Physical Intelligence开发的π0(念作Pi-Zero)机器人模型已可整合到Hugging Face的开发套件LeRobot。
π0(以下将称Pi0)与π0-FAST是LeRobot储存库的第一批机器人基础模型,使Hugging Face生态系有了通用机器智慧(generalist robotic intelligence)模型。
人形机器人新创公司Physical Intelligence成员来自Google DeepMind、Tesla和X,公司宗旨是开发出能结合通用人工智慧(AGI)的机器人,让用户透过AI助理下指令代为执行任务。这家新创公司在最新募资中获得4亿美元投资,使公司市值来到了24亿美元。最新一批金主包括了OpenAI和Jeff Bezos及数家投资银行。
最新发表的Pi0是一种为通用型机器人控制而设定的视觉语言行为(Vision-Language Action,VLA)模型。VLM和VLA模型都是以transformer为基础,最大差别在行为表现。VLM虽也可处理和生成多模态(图片和文字)表现,但欠缺和真实世界的互动。VLA则是以机器人资料训练的模型。该公司的通用型机器人模型进一步以不同种机器人资料训练而成,可提升模型的适应性、效率和效能。
Physical Intelligence说明,Pi0在预训练的VLM模型上使用新的流匹配(flow-matching)架构,以承袭Internet规模的语义知识来生成行为,使机器人可以不同形貌执行灵巧的操作任务。明确而言,Pi0以7种机器平台和68种不同任务的资料训练。而且在预训练后具有强大的零样本和微调效能,它能依据人类语言指令和高阶VLM策略(policy),以及微调来学习新技能。以Pi0模型为基础的机器人可执行複杂的真实世界任务,像是摺叠衣服、清理桌面、将商品装袋、组合纸箱或收拾物体。
图片来源/Physical Intelligence
Hugging Face执行长Clement Delangue指出,这是第一次机器人基础模型透过开源平台开放大众使用。该公司希望藉此模型改变机器人学习和执行任务的作法。
π0与其自动迴归版的π0-FAST(Frequency-space Action Sequence Tokenization)模型,都已可在Hugging Face LeRobot储存库存取。