
Ollama推出Turbo云端服务,将资料中心等级的运算资源整合进现有产品线,协助用户提升开源大型语言模型的推论效率,并解决本地端硬件资源不足造成的效能瓶颈。该服务初期支援gpt-oss-20b及gpt-oss-120b等开源模型,採订阅制收费模式,让使用者以相对平价的方式,获得稳定且高速的云端推论能力。
Ollama定位是提供本地部署开源语言模型的平台,让开发者能在Mac、Windows及Linux等环境,快速安装并执行多种开源人工智慧模型。Ollama强调用户资料隐私与模型运算自主控制,因此在企业内部或法规要求较高的应用场景具有一定市场需求。不过,随着语言模型规模成长,参数数量动辄数十亿上百亿,超越多数消费级GPU的记忆体与算力负荷,这使得模型执行与推论速度大幅下降,甚至无法在标準个人电脑上正常运作。
Ollama推出Turbo云端服务回应上述挑战,让用户可直接透过Ollama App、CLI或API切换至Turbo模式,由远端资料中心负责模型推论运算。这一设计降低了本地端设备的运算压力,提升大型模型的推论速度,并减少软硬件升级所需的成本与时间。
Turbo服务所有服务器皆设置于美国,官方明确表示不会储存或记录用户查询内容,维持原有的隐私承诺。服务现阶段以固定月费方式提供,并设有小时与每日使用配额,以确保系统稳定运作。后续预计引入用量计费模式,以因应不同类型用户的弹性需求。
Turbo云端服务让开发团队不必再受限个人设备的GPU规格,即可评估、部署与测试大型开源语言模型,这对于中小型企业、教育机构或个人开发者降低进入人工智慧领域的门槛,并加速模型在实际专案中的落地。随着支援的模型类型增加,将可涵盖更多语言模型及生成式人工智慧应用场景。