当前位置：首页 > 人工智能 > 正文

阿里云推出具备图文理解能力的两款开源《Qwen-VL》及《Qwen-VL-Chat》大规模视觉语言模型

2023-08-28 17:28:26　来源：激光网原创　

　　阿里云宣布推出两款大规模视觉语言模型Qwen-VL及Qwen-VL-Chat，支持中英文图文输入，并具备多模态讯息理解能力，目前已在其开源小区魔搭（ModelScope）及AI协作平台Hugging Face上架，促进开源生态发展。 Qwen-VL和Qwen-VL-Chat是支持中英文语言的视觉语言模型，以阿里云之前开源的通义千问70亿参数模型Qwen-7B为基础语言模型研发，除具备中英文图文识别、描述和问答对话能力，更新增视觉定位和图像文字理解能力。

　　Qwen-VL及基于这一模型微调的对话模型Qwen-VL-Chat可用于知识问答、图像标题生成、图像问答、文件问答、细粒度视觉定位等多种场景。例如用户可拍下医院楼层导览图，问Qwen-VL Chat：「外科在哪层？」、「耳鼻喉科去哪层？」，Qwen-VL会根据图片消息给出文字回复。

　　为进一步助力AI技术普惠，全球学术、研究及商业机构均可免费获取上述模型的代码、模型权重和文件。对于商业应用需求，月活跃用户少于1亿的公司可免费使用模型，用户数超过该量级的企业可向阿里云申请许可证。

　　Qwen-VL和Qwen-VL-Chat以Qwen-7B为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，并通过设计训练过程，让模型具备对视觉信号的细粒度感知和理解能力。 Qwen-VL支持的图像输入分辨率为448，此前开源的LVLM模型通常仅支持224分辨率。在Qwen-VL的基础上，通义千问团队使用对齐机制，打造基于LLM的视觉AI助手Qwen-VL-Chat，可让开发者快速搭建具备多模态能力的对话应用。

　　在四大类多模态任务（Zero-shot Caption / VQA / DocVQA / Grounding）的标准英文测评中，Qwen-VL取得同等尺寸开源VL模型中的最好效果。为了测试模型的多模态对话能力，通义千问团队构建一套基于GPT-4算分机制的测试集「试金石」，对Qwen-VL-Chat及其他模型进行对比测试，Qwen-VL-Chat在中英文的对齐评测中均取得开源LVLM最好结果。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com