微软扩大MAI模型布局，补齐语音与影像能力

微软周三（4月2日）在官方博客宣布，在Microsoft Foundry推出三款自研AI模型，包括语音识别模型MAI-Transcribe-1、语音生成模型MAI-Voice-1，以及文本生成图像模型MAI-Image-2，表明其正扩大MAI模型体系，补齐语音与图像能力，迈向多模态AI布局。

Microsoft Foundry最初名为Azure AI Foundry，定位为Azure上的AI开发服务。随着功能从模型访问扩展至工具与应用整合，微软后续逐步更名为Microsoft Foundry，转为整体AI平台品牌。微软亦于2025年8月通过Microsoft AI部门发布首批自研模型，包括语言模型MAI-1-preview与语音生成模型MAI-Voice-1，作为其自建基础模型体系的起点。

此次发布的MAI-Transcribe-1是微软首款语音转文字模型，支持25种语言，主打企业级识别准确度，并强调相较同类模型可降低约50%的GPU成本，适用于会议逐字记录、客服通话分析与语音数据归档等场景。MAI-Voice-1则可在单张GPU上一秒内生成长达60秒的语音内容，强调语音自然度与情感表达能力，适用于语音助手、客服应答与音视频配音等应用。

MAI-Image-2为文本生成图像模型，侧重写实风格、版面控制与图像中文字呈现能力，可用于营销素材制作、设计辅助与内容生成，显示微软正补齐图像生成能力，并强化跨模态生成布局。

这三款模型已整合至微软自家产品体系，包括Copilot、Bing与PowerPoint，并通过Azure Speech与Foundry平台对外开放，让开发者可构建语音交互、内容生成与多媒体应用。微软指出，语音与图像正逐渐成为AI代理的重要交互界面。

外界认为，此举显示微软正强化自研模型布局，并在语音与图像等领域与OpenAI、Google等厂商竞争；此外，自研模型也有助于提升产品灵活性与成本控制能力。

微软语音识别 MAI模型影像处理

CB科技站

微软扩大MAI模型布局，补齐语音与影像能力

与本文相关的文章