blog details

2024年7月5日

34

213

8人小团队半年仿出GPT-4o,还开源了

在当前大型语言模型开发领域,法国一个名为Kyutai的仅有8人的非营利性AI研究团队,通过半年时间成功仿制了GPT-4,并推出了名为Moshi的多模态AI模型。Moshi不仅实现了听、说、看的多模态功能,还特别针对理解和表达情感进行了优化。这对于AI定制开发和AI解决方案市场来说,无疑是一次重大的技术进步。

Moshi模型具有显著的多模态功能,能够流利地回答问题、进行日常交流,还能准确猜测提问者的意图。其设计目的是为了能够更加自然地理解和表达情感,例如,以不同的口音说话、保持文本思维的无缝流动等。Moshi的技术优势也让它成为ChatGPT开发以及AI企业解决方案的新选择。

Moshi的特色与功能

Moshi的一个突出特点是它能同时处理两个音频流,实现同时聆听与说话的能力。这种实时交互基于文本和音频混合的联合预训练技术,使其在教培行业AI应用和教育行业AI解决方案中的应用前景广阔。Moshi依赖于Helium,Kyutai开发的70亿参数语言模型,并进行了合成文本数据的训练。

Moshi 可以非常流利地回答人们提出的问题,进行日常对话交流,甚至可以猜出提问者的意图。

“机器之心”

Moshi的微调过程涉及使用文本到语音技术转换的10万个“口语风格”合成对话,使它成为税务AI咨询和税务行业知识问答AI等领域理想的AI助手。

Kyutai团队强调负责任的AI使用,通过嵌入水印来检测AI生成的音频,这一功能目前仍在开发中。将Moshi作为开源项目发布,展示了Kyutai对透明度和AI社区协作开发的承诺。这样做不仅有助于提升企业AI开发的透明度,同时也为市场上的其他AI定制化开发提供了一个值得借鉴的模型。

如有侵权,请联系删除。

Related Articles