首页 资讯 正文

阿里通义音频生成大模型FunAudioLLM开源

7月8日消息,最近,阿里通义实验室开源了名为FunAudioLLM的音频生成大模型项目,旨在提升人类与大型语言…

7月8日消息,最近,阿里通义实验室开源了名为FunAudioLLM的音频生成大模型项目,旨在提升人类与大型语言模型(LLMs)间的自然语音交互体验。

据悉,该项目包含SenseVoice和CosyVoice两个模型。

CosyVoice专注于自然语音生成,具备多语言支持、音色和情感控制功能,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

CosyVoice采用了超过15万小时数据训练,支持中英日粤韩五种语言。还能够极速模拟音色,并提供富文本或自然语言的细粒度控制。

SenseVoice则致力于高精度多语言语音识别、情感辨识和音频事件检测。

采用40万小时数据训练,支持超过50种语言,识别效果优于Whisper模型,尤其在中文和粤语上提升超过50%。他还具备情感识别和声音事件检测能力,以及快速的推理速度。

FunAudioLLM支持多种人机交互应用场景,如多语言翻译、情绪语音对话、互动播客和有声读物等。

本文来自网络,不代表随客网立场,转载请注明出处。