微软周三(4月2日)在官方博客宣布,在Microsoft Foundry推出三款自研AI模型,包括语音识别模型MAI-Transcribe-1、语音生成模型MAI-Voice-1,以及文本生成图像模型MAI-Image-2,表明其正扩大MAI模型体系,补齐语音与图像能力,迈向多模态AI布局。
Microsoft Foundry最初名为Azure AI Foundry,定位为Azure上的AI开发服务。随着功能从模型访问扩展至工具与应用整合,微软后续逐步更名为Microsoft Foundry,转为整体AI平台品牌。微软亦于2025年8月通过Microsoft AI部门发布首批自研模型,包括语言模型MAI-1-preview与语音生成模型MAI-Voice-1,作为其自建基础模型体系的起点。
此次发布的MAI-Transcribe-1是微软首款语音转文字模型,支持25种语言,主打企业级识别准确度,并强调相较同类模型可降低约50%的GPU成本,适用于会议逐字记录、客服通话分析与语音数据归档等场景。MAI-Voice-1则可在单张GPU上一秒内生成长达60秒的语音内容,强调语音自然度与情感表达能力,适用于语音助手、客服应答与音视频配音等应用。
MAI-Image-2为文本生成图像模型,侧重写实风格、版面控制与图像中文字呈现能力,可用于营销素材制作、设计辅助与内容生成,显示微软正补齐图像生成能力,并强化跨模态生成布局。

这三款模型已整合至微软自家产品体系,包括Copilot、Bing与PowerPoint,并通过Azure Speech与Foundry平台对外开放,让开发者可构建语音交互、内容生成与多媒体应用。微软指出,语音与图像正逐渐成为AI代理的重要交互界面。
外界认为,此举显示微软正强化自研模型布局,并在语音与图像等领域与OpenAI、Google等厂商竞争;此外,自研模型也有助于提升产品灵活性与成本控制能力。