
Nvidia于CES发表全新Cosmos平台,加速实体人工智慧(Physical AI),特别是机器人和自动驾驶领域的发展。Cosmos集结了先进的生成式世界基础模型、高效能视觉分词器(Tokenizer)、安全性防护机制以及影片处理工作管线,提供相关领域开发者强大的开发工具。
过去实体人工智慧的发展始终受限于高昂的开发成本、庞大的资料需求以及繁琐的测试流程。Nvidia现在推出Cosmos平台,期望大幅解决这些问题,降低技术门槛,让更多开发者能够跨进实体人工智慧开发领域。Cosmos平台的核心则是Cosmos世界基础模型(World Foundation Model,WFM),这些模型能够生成基于物理原理且极为逼真的合成资料,提供机器人和自动驾驶系统训练与测试所需的模拟环境。同时,开发者还可利用自身的资料集,对这些模型进行微调,以符合特定应用需求。
Nvidia执行长黄仁勋在CES演讲提到,Cosmos是第一个世界基础模型,他们利用2,000万小时的影片资料训练,专注于捕捉物理动态物体,从自然景象到人类行为,这些影片涵盖了行走、手部动作,甚至快速相机运动等主题,教导人工智慧理解真实世界中的动态变化,进而让人工智慧能够更精确地模拟和预测物理世界的行为。
除了强大的世界基础模型之外,Cosmos还整合了部分Nvidia特有的技术。其中,採用Nvidia Cosmos Tokenizer作为视觉分词器,能将影像与影片高效转换成电脑可处理的Token,Nvidia指出,Nvidia Cosmos Tokenizer与目前最先进的编码器相比,总压缩率提高至8倍,处理速度则提升为12倍。
此外,藉由Nvidia NeMo Curator提供的影片处理加速工作管线,开发者可在短时间内处理并标记大量的影片资料,短短14天的时间处理、整理和标记2,000万小时的影片资料,而传统仅使用CPU的处理方式则需要三年多的时间。Nvidia强调,Cosmos平台的效能相较于传统仅使用CPU的处理方式,有着大幅度提升,可缩短开发周期。
Nvidia採用开放模型授权的方式,鼓励产业共同参与,目前已有机器人和汽车等多家公司採用Cosmos技术,包涵1X、Agile Robots、Agility、Figure AI、Foretellix,叫车服务Uber也与Nvidia合作,透过结合丰富的驾驶资料与Cosmos平台,及Nvidia DGX Cloud运算能力,助自动驾驶产业的合作伙伴高效建立人工智慧模型。