IBM发布Granite 4.0混合式小模型，强调高效率与企业级治理

IBM发布Granite 4.0语言模型家族，主打高效能混合架构

IBM发布Granite 4.0语言模型家族，主打以Mamba-2与Transformer结合的混合式（Hybrid）架构，目标在长上下文与高并发情境下，降低内存占用并维持输出品质。官方将此系列定位为可在一般数据中心与边缘环境稳定部署的小型模型，适用于多工具代理、客服自动化与长文档处理等企业工作流程，同时保持开源与治理强度。

Granite 4.0的核心变化是采用混合设计，以Mamba-2层为主，周期性穿插Transformer自注意力层，两者约9比1串联。Mamba能以线性计算方式处理输入，避免Transformer在长上下文中的平方级（Quadratic）资源消耗的计算特性，搭配不依赖位置编码（Positional Encoding）的做法，主要应对长上下文与大批量需求，Transformer则用于补强局部语境判断。

IBM强调Granite 4.0在长上下文与多批次并行时，可较传统Transformer模型大幅降低内存需求，并在相同硬件上维持较高吞吐能力，特别适合成本敏感的自建运算集群与多会话服务。官方同时指出，模型可在更平价的GPU上实现可用的延迟与产出，降低导入门槛，混合系列兼容AMD Instinct MI300X，有利于在内存密集型工作负载下扩展。

Granite 4.0的目标是以更小参数量，接近或优于同级别开源模型的表现，特别是在指令遵循、工具调用与复杂RAG任务方面。IBM表示，H-Small型号在Stanford HELM的IFEval与Berkeley Function Calling v3等基准测试中具备竞争力，并计划在年内补充更大与更小的型号，以及独立的推理能力强化变体。

Granite 4.0采用Apache 2.0授权，模型可在IBM watsonx.ai与多个平台获取与运行，包括Hugging Face、LM Studio、Nvidia NIM和Ollama等。在推理框架与执行端，vLLM与Hugging Face Transformers已提供对Granite 4 Hybrid架构的完整支持，而llama.cpp与MLX的吞吐优化仍在持续进行，便于开发者使用现有技术栈快速验证与上线。

治理与供应链信任方面，Granite 4.0所有检查点均提供数字签名（model.sig）以供来源与完整性验证，IBM同时与HackerOne合作启动漏洞奖励计划，聚焦越狱与其他对抗手段的实际风险通报。IBM并表示Granite是首个获得ISO/IEC 42001（2023版）认证的开源语言模型家族，将安全、隐私与可解释性等要求纳入人工智能管理体系流程，目标支持高监管与关键任务场景的采用决策。

CB科技站

IBM发布Granite 4.0混合式小模型，强调高效率与企业级治理

IBM发布Granite 4.0语言模型家族，主打高效能混合架构

与本文相关的文章