
微软人工智慧部门MAI发表首款语音生成模型MAI-Voice-1,已整合至Copilot Daily应用。(图片来源/微软)
微软AI(Microsoft AI,MAI)周四(8/28)发表两款自製AI模型,分别是语音生成模型MAI-Voice-1与基础模型MAI-1-preview。前者已整合至Copilot Daily、Podcasts与Copilot Labs,后者则于LMArena进行公开测试,并将逐步导入Copilot文字应用。
其中的MAI-Voice-1在单个GPU上不到1秒就能生成1分钟的语音,标榜拥有自然的声线,带有情感及抑扬顿挫,同时支援单人或多人对话场景。外界认为MAI-Voice-1的问世代表微软想把文字助理进化成语音伙伴,让使用者不只是看文字,而是能听到更自然的交流。
MAI-1-preview则是个基于混合专家(MoE)结构的模型,可于不同任务中调用专有模型,藉由资料挑选及开源技术,它仅以1.5万颗的Nvidia H100 GPU进行训练,远低于採用10万颗以上GPU的xAI Grok。MAI-1-preview的专长为指令遵循,可用来回答日常问题。
MAI负责人Mustafa Suleyman在接受Semafor採访时解释,微软是全球最大的公司之一,需要内部能力来建立顶级模型,原因包括AI在未来数十年的战略重要性令微软不得缺席,且微软也想要更多的模型选择权。Suleyman表示,未来微软会持续强化与OpenAI的合作关係,这并不代表双方的关係会疏远或冷却。
此外,MAI也已经着手开发下一代的MAI-2模型,它的规模更大,设定将有所调整,可能会利用微软正在建立的超大型GB200/GB300丛集进行训练。