Meta 推出 Seamless Communication AI 翻译新模型:支持近百种语言输入

Meta 推出 Seamless Communication AI 翻译新模型:支持近百种语言输入

AIBetas消息,11月29日,Meta 宣布开发了一套名为“无缝通信(Seamless Communication)”的新模型,可以在 100 多种语言之间翻译语音和文本,同时保留说话者的声音、情感和风格。

图片[1] - Meta 推出 Seamless Communication AI 翻译新模型:支持近百种语言输入 - AIBetas

根据官方介绍,Seamless是第一个公开可用的模型,能够实时实现跨语言的富有表现力的沟通。为了构建Seamless,Meta开发了SeamlessExpressive,一个用于在语音到语音翻译中保留表达的模型,以及SeamlessStreaming,一个提供大约两秒延迟的流式翻译模型,均取得了最先进的结果。所有这些模型都是基于在八月发布的最新版基础模型SeamlessM4T v2构建。

图片[2] - Meta 推出 Seamless Communication AI 翻译新模型:支持近百种语言输入 - AIBetas

SeamlessM4T v2在自动语音识别、语音到语音、语音到文本和文本到语音能力方面展示了性能提升。与之前在表现性语音研究中的努力相比,SeamlessExpressive解决了某些韵律方面的未被探索的方面,比如为了节奏而调整的语速和停顿,同时也保留了情感和风格。该模型目前能够在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中保留这些元素。

SeamlessStreaming通过在说话人仍在讲话时生成翻译,实现了与说不同语言的人实时对话。与传统系统在说话人完成句子后才进行翻译不同,SeamlessStreaming在说话人还在讲话时就进行翻译。这意味着他们交谈的人可以更接近实时地听到翻译——延迟几秒钟——而不是等到说话人完成句子。SeamlessStreaming支持将近100种输入和输出语言的自动语音识别和语音到文本翻译,以及将近100种输入语言和36种输出语言的语音到语音翻译。

目前Meta已经公开发布了所有四个模型,以便研究人员可以在此基础上进行构建。

Seamless Communication AI 官网

Seamless Communication介绍https://ai.meta.com/blog/seamless-communication/

Seamless Paper: https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

Expressive translation demo: https://seamless.metademolab.com/expressive

Hugging Face demohttps://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724

Seamless Communication Githubhttps://github.com/facebookresearch/seamless_communication

Seamless Website: https://ai.meta.com/research/seamless-communication

© 版权声明
THE END
喜欢就支持一下吧
点赞38分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容