激光网
当前位置: 首页 > 人工智能 > 正文

谷歌推出多模态VLOGGER AI:允许用户将静止图像转换为栩栩如生、可控的头像

2024-03-19 16:02:29  来源:激光网原创    

激光网3月19日消息,在人工智能领域,谷歌再次取得了重大飞跃,推出了其最新的创新技术——VLOGGER AI。这项突破性的技术是谷歌新双子座模型的一部分,将彻底改变我们与头像和多媒体内容互动的方式。谷歌最近在其 GitHub 页面上发表了一篇博文,介绍了 VLOGGER AI 模型。用户只需输入人像照片和音频内容即可。该模型可以使这些角色“移动”并具有面部表情。图像还可以大声朗读音频内容。

谷歌的 VLOGGER AI 是一项开创性的作品,它允许用户将静止图像转换为栩栩如生、可控的头像。这个创新模型建立在扩散架构之上,该架构以其在文本到图像、视频和 3D 建模方面的实力而闻名。通过加入额外的控制机制,VLOGGER 将头像创建的概念提升到了新的高度。

VLOGGER 的核心是通过一系列复杂的步骤处理音频文件和静止图像来运作的。它采用3D运动生成过程,然后采用“时间扩散”模型来确定时间和运动。然后,模型会优化输出,将其放大以创建最终的逼真头像。通过预测面部表情、身体手势等的动作,VLOGGER 以非凡的准确性使化身栩栩如生。

VLOGGER AI 是一种适用于虚拟人像的多模态扩散模型。它使用 MENTOR 数据库进行训练,该数据库包含超过 800000 张肖像和超过 2200 小时的视频。这允许 VLOGGER 生成不同种族和年龄的图像。它还可以生成不同衣服和姿势的人像视频。该公司表示“与之前的多模态模型相比,VLOGGER的优势在于它不需要对每个人进行训练,不依赖于面部检测和裁剪,并且可以生成完整的图像,并考虑到广泛的场景,这对于正确合成交际人类至关重要”。

虽然 VLOGGER 代表了人工智能技术的显着进步,但必须承认其局限性。作为研究预览,VLOGGER 可能并不总是完美地复制个人的自然运动。该模型虽然复杂,但在大型运动、多样化环境和处理较长视频方面可能会遇到挑战。这些局限性凸显了人工智能领域所需的持续发展和完善。

谷歌的研究人员为VLOGGER AI设想了无数的应用程序。确定的主要用例之一是它有可能彻底改变 Teams 或 Slack 等通信平台。通过使用户能够从静止图像创建动画头像,VLOGGER为虚拟空间中的个性化和引人入胜的交互开辟了新的途径。

谷歌将VLOGGER视为迈向“通用聊天机器人”的一步,人工智能可以通过语音、手势和眼神交流自然地与人类互动。

VLOGGER的应用场景还包括报道、教育领域和旁白。它还可以编辑现有视频。如果您对视频中的表情不满意,可以进行调整。

总之,谷歌在 Gemini 模型中推出的多模态 VLOGGER AI 代表了人工智能技术的重大进步。这项创新为人工智能驱动体验的新时代奠定了基础,从创建栩栩如生的化身到推进语言理解和视觉推理。随着 Google 不断突破人工智能功能的界限,未来在各个领域的变革性应用前景广阔。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com