8月13日消息,阿里通义开源Qwen2系列模型Qwen2-Audio。
Qwen2-Audio是一款大型音频语言模型,能够接受各种音频信号输入,并执行音频分析或根据语音指令直接进行文字响应。其具备语音聊天和音频分析两种交互模式。
语音聊天模式下,用户可以通过语音向模型发出指令,不需要通过自动语音识别(ASR)模块;而音频分析模式下,模型能够根据用户提供的音频和文本指令分析音频信息。Qwen2-Audio能够自动实现两种模式的切换。
在多个权威测评中,Qwen2-Audio都显著超越先前的最佳模型。该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。
此外,通义团队还同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本Qwen2-Audio-7B-Instruct 。