激光网
当前位置: 首页 > 人工智能 > 正文

阿里云推出具备图文理解能力的两款开源《Qwen-VL》及《Qwen-VL-Chat》大规模视觉语言模型

2023-08-28 17:28:26  来源:激光网原创    

  阿里云宣布推出两款大规模视觉语言模型Qwen-VL及Qwen-VL-Chat,支持中英文图文输入,并具备多模态讯息理解能力,目前已在其开源小区魔搭(ModelScope)及AI协作平台Hugging Face上架,促进开源生态发展。 Qwen-VL和Qwen-VL-Chat是支持中英文语言的视觉语言模型,以阿里云之前开源的通义千问70亿参数模型Qwen-7B为基础语言模型研发,除具备中英文图文识别、描述和问答对话能力,更新增视觉定位和图像文字理解能力。

  Qwen-VL及基于这一模型微调的对话模型Qwen-VL-Chat可用于知识问答、图像标题生成、图像问答、文件问答、细粒度视觉定位等多种场景。 例如用户可拍下医院楼层导览图,问Qwen-VL Chat:「外科在哪层?」 、「耳鼻喉科去哪层?」 ,Qwen-VL会根据图片消息给出文字回复。

  为进一步助力AI技术普惠,全球学术、研究及商业机构均可免费获取上述模型的代码、模型权重和文件。 对于商业应用需求,月活跃用户少于1亿的公司可免费使用模型,用户数超过该量级的企业可向阿里云申请许可证。

  Qwen-VL和Qwen-VL-Chat以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,并通过设计训练过程,让模型具备对视觉信号的细粒度感知和理解能力。 Qwen-VL支持的图像输入分辨率为448,此前开源的LVLM模型通常仅支持224分辨率。 在Qwen-VL的基础上,通义千问团队使用对齐机制,打造基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

  在四大类多模态任务(Zero-shot Caption / VQA / DocVQA / Grounding)的标准英文测评中,Qwen-VL取得同等尺寸开源VL模型中的最好效果。 为了测试模型的多模态对话能力,通义千问团队构建一套基于GPT-4算分机制的测试集「试金石」,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得开源LVLM最好结果。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com