最新消息:关注人工智能 AI赋能新媒体运营

红帽OpenShift AI 3.4强化模型即服务,纳入AI推理网关与令牌配额管控

科技资讯 admin 浏览

随着企业AI应用逐渐从概念验证进入正式环境,模型不再只是单一团队测试使用,而是可能被多个部门、开发团队或应用系统共同访问,随之而来的是模型访问控制、推理端点审批、用量管理与合规所需的用量报告,成为新的管理课题。

企业开源解决方案供应商红帽(Red Hat)近日介绍了企业AI平台OpenShift AI 3.4的模型即服务(Models-as-a-Service,MaaS)能力,能够将AI模型作为内部可共享资源,通过API端点提供给不同团队使用,减少各团队自行搭建与管理模型所造成的分散治理问题。

在OpenShift AI 3.4中,MaaS已作为可用于生产环境的企业功能,内置AI推理网关(AI inference gateway),企业无需额外引入网关工具,也不必单独管理一套生命周期,可降低模型服务上线后的部署与运维复杂度。该能力由用于连接、控制与管理应用流量的Red Hat Connectivity Link核心技术栈支持,涵盖策略管理、token配额、速率限制与API密钥自助服务,并基于代理服务器Envoy、API策略管理项目Kuadrant以及开源服务网格Istio等开源技术构建。

红帽表示,管理员可通过Kubernetes原生的自定义资源定义(Custom Resource Definition,CRD)设置各团队的速率限制与token用量,降低预算超支风险。开发者可自行生成API密钥,并限定在特定订阅资源范围内使用。OpenShift AI通过订阅绑定访问权限与用量规则,API密钥可在创建时完成绑定,也可实时撤销。

部分功能目前仍处于技术预览阶段,包括集成于OpenShift AI仪表板中的成本分摊(showback)功能,可展示内部成本与用量归属,按模型与订阅组追踪token消耗量;在企业身份认证方面,OpenShift AI可通过开源授权服务Authorino控制用户访问模型服务的权限,并支持采用OpenID Connect身份验证标准的登录机制,可对接微软企业身份服务Microsoft Azure AD、身份管理服务Okta,以及开源身份管理系统Keycloak。

此外,OpenShift AI 3.4还提供技术预览阶段的外部模型路由能力,可通过兼容OpenAI Chat Completions API的/v1/chat/completions端点,将请求导向不同模型来源,包括通过大型语言模型推理框架vLLM运行的本地托管模型,或AWS托管式基础模型服务Amazon Bedrock、Microsoft Azure OpenAI,以及AI模型厂商Anthropic等外部模型服务。

对于已在企业内部使用API网关或第三方代理工具管理AI流量的组织,红帽表示,企业无需替换既有API网关或代理工具,仍可将这些工具作为前端流量入口,将模型请求导向OpenShift AI托管的模型端点。该公司也发布了第三方AI代理工具LiteLLM与AI网关服务Portkey AI Gateway两项参考集成案例,说明第三方代理工具如何连接OpenShift AI托管模型端点,并搭配LlamaStack等框架处理代理式工作流,以及按团队进行成本归属。