
Red Hat发布Red Hat AI 3,强化企业级AI生产环境支持
Red Hat(红帽)发布Red Hat AI 3,作为该公司企业级人工智能平台的新一代版本,旨在将推理工作负载推进到可预测、可治理的生产环境。此次更新以OpenShift AI 3.0为核心平台,内置已正式发布的llm-d,推理层则由可独立部署的Red Hat AI Inference Server 3.2提供企业级vLLM与异构加速器支持。
llm-d为Kubernetes原生推理框架,将vLLM从单机高效推理扩展为分布式运行、可预测的服务架构,能够根据工作负载特性智能调度模型,降低延迟并提升吞吐量,更贴近企业在生成式人工智能应用中对SLA与成本管控的实际需求。
在推理性能方面,Red Hat AI Inference Server 3.2分支进一步扩大异构硬件支持,涵盖Nvidia CUDA、AMD ROCm、Google TPU与IBM Spyre等加速器。企业可在不同加速器之间保持部署灵活性,同时结合vLLM与模型优化能力,提升吞吐量与成本效率。
OpenShift AI 3.0引入模型即服务(Models as a Service,MaaS)开发者预览版,为内外部用户提供一致的模型调用体验。企业IT可集中托管常用模型,使人工智能工程师与应用按需访问,同时满足无法接入公有云场景下的数据主权与隐私需求,形成平台工程与应用团队的协同作业界面。
代理式人工智能是另一项更新重点,OpenShift AI 3.0提供基于Llama Stack的统一API层与MCP支持,两者目前均处于预览阶段,可简化模型与外部工具及数据源的连接,并为后续大规模代理系统奠定接口与治理的一致性基础。OpenShift AI 3.0同时提供AI Hub与Gen AI Studio两类工具,分别面向平台工程师与人工智能工程师,前者用于资产治理,后者用于实验与原型开发,实现模型与工具在同一平台上完成注册、部署与测试。
Red Hat AI 3推出更模块化的定制化工具链,涵盖数据导入、合成数据生成、微调到评测等环节,均可独立使用,并通过Docling等开源项目增强非结构化文档处理能力,使组织能够沿用熟悉的Python工作流,逐步提升领域效果,避免被单一工具绑定。
Red Hat扩展了经过第三方验证与优化的模型组合,并通过Hugging Face的Red Hat AI仓库及自有生态目录提供可扫描、可追溯的容器化成品,有助于在统一的供应与治理流程中导入和更新模型,降低兼容性与安全风险。