Ollama推出Turbo云端服务，加速开源模型推论并支援大型模型

Ollama推出Turbo云端服务，将资料中心等级的运算资源整合进现有产品线，协助用户提升开源大型语言模型的推论效率，并解决本地端硬件资源不足造成的效能瓶颈。该服务初期支援gpt-oss-20b及gpt-oss-120b等开源模型，採订阅制收费模式，让使用者以相对平价的方式，获得稳定且高速的云端推论能力。

Ollama定位是提供本地部署开源语言模型的平台，让开发者能在Mac、Windows及Linux等环境，快速安装并执行多种开源人工智慧模型。Ollama强调用户资料隐私与模型运算自主控制，因此在企业内部或法规要求较高的应用场景具有一定市场需求。不过，随着语言模型规模成长，参数数量动辄数十亿上百亿，超越多数消费级GPU的记忆体与算力负荷，这使得模型执行与推论速度大幅下降，甚至无法在标準个人电脑上正常运作。

Ollama推出Turbo云端服务回应上述挑战，让用户可直接透过Ollama App、CLI或API切换至Turbo模式，由远端资料中心负责模型推论运算。这一设计降低了本地端设备的运算压力，提升大型模型的推论速度，并减少软硬件升级所需的成本与时间。

Turbo服务所有服务器皆设置于美国，官方明确表示不会储存或记录用户查询内容，维持原有的隐私承诺。服务现阶段以固定月费方式提供，并设有小时与每日使用配额，以确保系统稳定运作。后续预计引入用量计费模式，以因应不同类型用户的弹性需求。

Turbo云端服务让开发团队不必再受限个人设备的GPU规格，即可评估、部署与测试大型开源语言模型，这对于中小型企业、教育机构或个人开发者降低进入人工智慧领域的门槛，并加速模型在实际专案中的落地。随着支援的模型类型增加，将可涵盖更多语言模型及生成式人工智慧应用场景。

CB科技站

Ollama推出Turbo云端服务，加速开源模型推论并支援大型模型

与本文相关的文章