微软发布自研语音模型MAI-Voice-1与通用模型MAI-1-preview

🤖 由 文心大模型 生成的文章摘要

8月29日,微软人工智能部门(Microsoft AI,简称 MAI)正式推出两款自主研发的人工智能模型——MAI-Voice-1语音模型和MAI-1-preview通用模型。这一举措标志着微软在人工智能领域的自主研发进程中迈出了重要一步,展现了其致力于为用户提供更强大、高效 AI 工具的决心。​

MAI-Voice-1语音模型展现出了令人瞩目的效率。微软表示,该模型仅需单块GPU,即可在短短1秒内生成时长1分钟的音频。这一速度使其成为当前极为高效的语音生成系统之一。​

在实际应用中,MAI-Voice-1 已经被融入到多项微软的功能中。在 “Copilot Daily” 功能里,AI 主持人借助该模型为用户播报当日的热点新闻,让用户能够及时了解重要资讯;同时,它还能生成播客风格的对话内容,帮助用户深入理解各类复杂话题。对于普通用户而言,可在Copilot Labs平台亲身体验MAI-Voice-1的魅力。用户不仅能输入希望AI表达的内容,还能自由地自定义语音音色与说话风格,极大地满足了个性化需求。无论是新闻播报、播客对谈,还是故事讲述、冥想引导等场景,MAI-Voice-1 都能应对自如。用户可从9种不同的语音中进行选择,还能挑选多达31种不同的情绪和播报场景,甚至可以让模型扮演激情四溢的体育解说员,生动地诠释赛事。​

MAI-1-preview则是微软AI首个实现端到端内部训练的自研基础模型。该模型在训练过程中动用了约1.5万块英伟达H100 GPU。目前,它在LMArena文本任务榜单上排名第13位。虽然落后于一些主要AI玩家的模型,如DeepSeek、谷歌、OpenAI和xAI等,但微软AI掌门人、DeepMind联合创始人Mustafa Suleyman认为,该模型的表现远超其硬件规模,具备巨大的潜力。​

MAI-1-preview专为特定需求用户设计,具备出色的指令遵循能力,能够针对日常咨询提供实用、有效的回应。微软计划在未来几周内,将MAI-1-preview逐步应用于Copilot的部分文本场景中,通过收集用户反馈来进一步优化和改进模型,为用户带来更优质的体验。

「93913原创内容,转载请注明出处」