阿里云开源通义千问多模态大模型Qwen-VL：新增视觉定位、图像中文字理解等

风起 2023年8月25日下午4:37 237 0

8月25日消息，今天，阿里云推出大规模视觉语言模型Qwen-VL，并对其直接开源。Qwen-VL以通义千问70…

8月25日消息，今天，阿里云推出大规模视觉语言模型Qwen-VL，并对其直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入。

相较于此前的VL模型，Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力，可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。

官方表示，用户可从魔搭社区直接下载模型，也可通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat，阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

本文来自网络，不代表随客网立场，转载请注明出处。

Apple Intelligence不再锁定美国区域：但国行版iPhone依旧无缘