红帽OpenShift AI 3.4强化模型即服务，纳入AI推理网关与令牌配额管控

随着企业AI应用逐渐从概念验证进入正式环境，模型不再只是单一团队测试使用，而是可能被多个部门、开发团队或应用系统共同访问，随之而来的是模型访问控制、推理端点审批、用量管理与合规所需的用量报告，成为新的管理课题。

企业开源解决方案供应商红帽（Red Hat）近日介绍了企业AI平台OpenShift AI 3.4的模型即服务（Models-as-a-Service，MaaS）能力，能够将AI模型作为内部可共享资源，通过API端点提供给不同团队使用，减少各团队自行搭建与管理模型所造成的分散治理问题。

在OpenShift AI 3.4中，MaaS已作为可用于生产环境的企业功能，内置AI推理网关（AI inference gateway），企业无需额外引入网关工具，也不必单独管理一套生命周期，可降低模型服务上线后的部署与运维复杂度。该能力由用于连接、控制与管理应用流量的Red Hat Connectivity Link核心技术栈支持，涵盖策略管理、token配额、速率限制与API密钥自助服务，并基于代理服务器Envoy、API策略管理项目Kuadrant以及开源服务网格Istio等开源技术构建。

红帽表示，管理员可通过Kubernetes原生的自定义资源定义（Custom Resource Definition，CRD）设置各团队的速率限制与token用量，降低预算超支风险。开发者可自行生成API密钥，并限定在特定订阅资源范围内使用。OpenShift AI通过订阅绑定访问权限与用量规则，API密钥可在创建时完成绑定，也可实时撤销。

部分功能目前仍处于技术预览阶段，包括集成于OpenShift AI仪表板中的成本分摊（showback）功能，可展示内部成本与用量归属，按模型与订阅组追踪token消耗量；在企业身份认证方面，OpenShift AI可通过开源授权服务Authorino控制用户访问模型服务的权限，并支持采用OpenID Connect身份验证标准的登录机制，可对接微软企业身份服务Microsoft Azure AD、身份管理服务Okta，以及开源身份管理系统Keycloak。

此外，OpenShift AI 3.4还提供技术预览阶段的外部模型路由能力，可通过兼容OpenAI Chat Completions API的/v1/chat/completions端点，将请求导向不同模型来源，包括通过大型语言模型推理框架vLLM运行的本地托管模型，或AWS托管式基础模型服务Amazon Bedrock、Microsoft Azure OpenAI，以及AI模型厂商Anthropic等外部模型服务。

对于已在企业内部使用API网关或第三方代理工具管理AI流量的组织，红帽表示，企业无需替换既有API网关或代理工具，仍可将这些工具作为前端流量入口，将模型请求导向OpenShift AI托管的模型端点。该公司也发布了第三方AI代理工具LiteLLM与AI网关服务Portkey AI Gateway两项参考集成案例，说明第三方代理工具如何连接OpenShift AI托管模型端点，并搭配LlamaStack等框架处理代理式工作流，以及按团队进行成本归属。

CB科技站

红帽OpenShift AI 3.4强化模型即服务，纳入AI推理网关与令牌配额管控

与本文相关的文章