Meta发布新一代实时人工智能翻译大模型SeamlessM4T v2:支持100多种语言,延迟不到2秒

2025-03-26 来源|AI图库吧

AI奇点网12月4日报道丨当地时间12月2日,Meta对外发布了新一代Seamless翻译大模型的新版本—— SeamlessM4T v2,这是一项新的多任务语音转换技术。SeamlessM4T v2 能够同时将语音转换成多种语言,并且能够保持语音的流畅度和自然度。

SeamlessM4T v2 在多种语言转换任务上都取得了优异的效果。例如,在英语到法语的转换任务上,SeamlessM4T v2 的准确率达到了 98%。在英语到中文的转换任务上,SeamlessM4T v2 的准确率达到了 97%。

Meta透露,SeamlessM4T第二代的改进包括跨语言更加精准地保留表达的原意,并将延迟降低到约两秒。

在世界各地,语言差异可能成为沟通的障碍,翻译系统可以使来自不同语言背景的人更无缝地分享知识和经验。然而,如今许多这些系统并不能保留人类沟通所具有的关键要素。此外,语调、停顿和强调都传递着帮助人们沟通情感和意图的重要信号。

AI大模型模仿的是人类口译员的工作模式,人类的语音和翻译对于诸如轮流发言和时间控制等微妙之处也非常敏感。例如,想象一下人类口译员的工作方式:他们在低延迟和准确翻译之间找到了恰到好处的平衡。等待时间过长会阻碍沟通的流畅进行,而速度过快则会影响翻译的整体质量。能够实现真实对话的翻译系统应该在所有这些沟通要素上都能够交付。

SeamlessM4T v2 支持以下任务:

语音到语音翻译(S2ST)语音到文本翻译(S2TT)文本到语音翻译(T2ST)文本到文本翻译(T2TT)自动语音识别(ASR)

Meta进行了大量的人工智能研究,旨在表达丰富、快速和高质量的人工智能翻译来消除语言障碍。Seamless Streaming模型可以实现最快2秒的延迟内进行语音和文本的翻译。任何人都可以通过SeamlessM4T v2 实现语音和文本的相互转换与翻译,实现更轻松的跨语言交流。

Meta已经在官网发布了一系列的开源模型,以促进开放研究和合作。如果你感兴趣使用这款翻译大模型的话,它是免费体验的,点击下方的卡片即可:

体验地址:

https://seamless.metademolab.com/expressive

最新
更多

Meta发布新一代实时人工智能翻译大模型SeamlessM4T v2:支持100多种语言,延迟不到2秒

12月2日,Meta对外发布了新一代Seamless翻译大模型的新版本——Seamless M4T v2,这是一项新的多任务语音转换技术,翻译的延迟速度降至2秒以内。

阿里发布辅助电商出图的AI设计生态工具(鹿班AI、堆友、Pic Copilot),用AI设计服务全球大小商家

第六届中国国际工业设计博览会上,阿里国际数字商业集团面向全球用户发布了3款AI赋能的设计生态工具:堆友、Pic Copilot、鹿班AI。

微软Copilot聊天对话服务全面上线丨打乱文字顺序并不会影响GPT-4语义理解丨向GPT-4提供“小费”,它回复更多

【AI奇点网2023年12月5日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

OpenAI首席运营官:AIGC无法在一夜之间给世界带来实质性的商业变革(为你赚到大钱)

OpenAI首席运营官Brad Lightcap在接受采访时表示,提醒企业的大老板们,不要期望应用了ChatGPT之流的AIGC技术能迅速改变他们的业务状态。

meta发布新模型_Emu Video怎么使用_Emu Video下载地址

随着扩散模型的飞速发展,诞生了Midjourney、DALL·E 3、Stable Difusion等一大批出色的文生图模型。近日社交巨头Meta则提出了一种全新的文生视频模型Emu Video。该模型使用了分解式生成方法,先生成一张图像,再以该图像和文本作为条件生成视频,不仅生成的视频逼真符合文本描述,算力成本也非常低。

开源AI图生视频_Animate Anyone:一张图片生成一段毫无破绽的舞蹈视频

分享一个超级厉害的开源AI项目——Animate Anyone,只需要一张图片和一些姿势指导,就可以为任何人快速制作视频或直播。它可能会部分甚至完全改变短视频 直播领域。

网站地图