近日,微软AI研究实验室(Microsoft AI)发布了三款全新的基础型AI模型,可分别生成文本、语音和图像,标志着微软在多模态AI领域的持续布局,并进一步强化与其他AI实验室的竞争,同时仍保持与OpenAI的合作关系。
其中,MAI-Transcribe-1支持将25种语言的语音转为文字,其速度是微软Azure Fast的2.5倍;MAI-Voice-1是一款音频生成模型,能够在1秒内生成60秒音频,同时支持用户创建定制化声音;MAI-Image-2则可生成视频内容。值得注意的是,MAI-Image-2最早于3月19日在MAI Playground上线测试,而现在三款模型均已在Microsoft Foundry发布,语音转录和语音生成模型也在Playground提供使用。
这三款模型由微软MAI超级智能团队(MAI Superintelligence Team)开发,该团队由微软AI CEO Mustafa Suleyman领导,于2025年11月成立。Suleyman在博客中表示,微软AI致力于打造“以人为本的AI”,强调以人类交流需求为中心进行优化,并注重实用性训练。他透露,未来还会有更多模型在Foundry及微软产品中上线。
在竞争激烈的大型语言模型(LLM)市场,微软的另一卖点是价格优势:MAI-Transcribe-1每小时起价0.36美元,MAI-Voice-1每100万字符22美元,MAI-Image-2每100万文本令牌5美元,每100万图像令牌33美元,相比Google和OpenAI的产品更具成本竞争力。
尽管推出自有模型,Suleyman在接受媒体采访时重申微软对OpenAI合作的承诺。他表示,最近对合作协议的重新谈判,使微软能够更独立地推进超级智能研究。微软已在AI研究实验室投资超过130亿美元,并通过多年合作将模型应用于自家产品,同时在芯片供应上采取“自研与外购并行”的策略。









苏公网安备32021302001419号