通义千问开源大规模视觉语言模型 Qwen-VL - AIBetas

通义千问开源大规模视觉语言模型 Qwen-VL

2年前更新

036226

AIBetas消息，2023年8月26日，阿里云推出开源大规模视觉语言模型Qwen-VL。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。

Qwen-VL是支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的VL模型，Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

图片[1] - 通义千问开源大规模视觉语言模型 Qwen-VL - AIBetas

视觉是人类的第一感官能力，也是研究者首先想赋予大模型的多模态能力。继此前推出M6、OFA系列多模态模型之后，阿里云通义千问团队又开源了基于Qwen-7B的大规模视觉语言模型（Large Vision Language Model, LVLM）Qwen-VL。Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope魔搭社区，开源、免费、可商用。

Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。

以图像问答能力举例：一位不懂中文的外国游客到医院看病，不知怎么去往对应科室，他拍下楼层导览图问Qwen-VL“骨科在哪层”“耳鼻喉科去哪层”，Qwen-VL会根据图片信息给出文字回复；

图片[2] - 通义千问开源大规模视觉语言模型 Qwen-VL - AIBetas

以视觉定位能力为例：输入一张上海外滩的照片，让Qwen-VL找出东方明珠，Qwen-VL能用检测框准确圈出对应建筑，这是视觉定位能力。

图片[3] - 通义千问开源大规模视觉语言模型 Qwen-VL - AIBetas

在四大类多模态任务（Zero-shot Caption/VQA/DocVQA/Grounding）的标准英文测评中，Qwen-VL取得了同等尺寸开源LVLM的最好效果。为了测试模型的多模态对话能力，通义千问团队构建了一套基于GPT-4打分机制的测试集“试金石”，对Qwen-VL-Chat及其他模型进行对比测试，Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

8月初，阿里云开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat，成为国内首个加入大模型开源行列的大型科技企业。

Qwen-VL开源信息

ModelScope魔搭社区：

Qwen-VL：https://modelscope.cn/models/qwen/Qwen-VL/summary

Qwen-VL-Chat：https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

魔搭社区模型体验：

https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary

HuggingFace：

Qwen-VL：https://huggingface.co/Qwen/Qwen-VL

Qwen-VL-Chat：https://huggingface.co/Qwen/Qwen-VL-Chat

GitHub：

https://github.com/QwenLM/Qwen-VL

技术论文地址：

https://arxiv.org/abs/2308.12966

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

AI新闻
# 通义千问 # 阿里云 # 通义大模型

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容