AIBetas消息,2023年8月26日,阿里云推出开源大规模视觉语言模型Qwen-VL。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。
Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
视觉是人类的第一感官能力,也是研究者首先想赋予大模型的多模态能力。继此前推出M6、OFA系列多模态模型之后,阿里云通义千问团队又开源了基于Qwen-7B的大规模视觉语言模型(Large Vision Language Model, LVLM)Qwen-VL。Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope魔搭社区,开源、免费、可商用。
Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。
以图像问答能力举例:一位不懂中文的外国游客到医院看病,不知怎么去往对应科室,他拍下楼层导览图问Qwen-VL“骨科在哪层”“耳鼻喉科去哪层”,Qwen-VL会根据图片信息给出文字回复;
以视觉定位能力为例:输入一张上海外滩的照片,让Qwen-VL找出东方明珠,Qwen-VL能用检测框准确圈出对应建筑,这是视觉定位能力。
在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文测评中,Qwen-VL取得了同等尺寸开源LVLM的最好效果。为了测试模型的多模态对话能力,通义千问团队构建了一套基于GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。
8月初,阿里云开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat,成为国内首个加入大模型开源行列的大型科技企业。
Qwen-VL开源信息
ModelScope魔搭社区:
Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary
Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
魔搭社区模型体验:
https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary
HuggingFace:
Qwen-VL:https://huggingface.co/Qwen/Qwen-VL
Qwen-VL-Chat:https://huggingface.co/Qwen/Qwen-VL-Chat
GitHub:
https://github.com/QwenLM/Qwen-VL
暂无评论内容