人工智能

1100+语言的语音识别和语音合成技术新突破

Facebook AI研究团队推出了一项新的多语言语音识别和语音合成技术,支持1100多种语言。这项技术基于大规模多语言语音(MMS)项目,利用公开可用的宗教文本进行自我监督学习,实现了语音到文本、文本到语音以及语言识别等功能。这一突破将为全球更多语言使用者提供信息获取的便利。

Read more

CoDi:多模态任意输入输出

了解可组合扩散(CoDi)生成模型,能够从任意组合的输入模态生成任意组合的输出模态,包括图像、视频、音频和文本等,适用于联合模态生成。了解更多信息请点击。

Read more