激光网
当前位置: 首页 > 人工智能 > 正文

北京智源推出通用视觉AI模型SegGPT 具备上下文推理能力

2023-05-31 15:19:08  来源:IT之家    

  在 2023 年中关村论坛人工智能大模型发展论坛中,北京智源人工智能研究院推出了旗下通用分割模型 SegGPT(Segment Everything In Contex)。

  据称,SegGPT 模型是智源通用视觉模型 Painter 的衍生模型,具备上下文推理能力,在训练完成后只需要提供示例即可推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等,都可以利用视觉提示词(Prompt)完成分割任务。

  SegGPT 也拥有支持任意数量视觉提示的推理能力。能够以第一帧图像和对应的物体掩码作为上下文示例进行自动视频分割,并且可以用掩码的颜色作为物体的 ID,进行自动追踪。

  IT之家经过查询知悉,此前 Meta 也发布了其基于 AI 的 Segment Anything Model (SAM)模型 ,具有识别和分离图像和视频中特定对象的能力。而威斯康辛麦迪逊、微软、港科大等机构的研究人员也推出 SEEM 模型,通过不同的视觉提示和语言提示,一键分割图像、视频。IT之家的小伙伴们可以从这里访问模型的论文链接。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com