当前位置：首页 > 人工智能 > 正文

谷歌推出多模态VLOGGER AI：允许用户将静止图像转换为栩栩如生、可控的头像

2024-03-19 16:02:29　来源：激光网原创　

激光网3月19日消息，在人工智能领域，谷歌再次取得了重大飞跃，推出了其最新的创新技术——VLOGGER AI。这项突破性的技术是谷歌新双子座模型的一部分，将彻底改变我们与头像和多媒体内容互动的方式。谷歌最近在其 GitHub 页面上发表了一篇博文，介绍了 VLOGGER AI 模型。用户只需输入人像照片和音频内容即可。该模型可以使这些角色“移动”并具有面部表情。图像还可以大声朗读音频内容。

谷歌的 VLOGGER AI 是一项开创性的作品，它允许用户将静止图像转换为栩栩如生、可控的头像。这个创新模型建立在扩散架构之上，该架构以其在文本到图像、视频和 3D 建模方面的实力而闻名。通过加入额外的控制机制，VLOGGER 将头像创建的概念提升到了新的高度。

VLOGGER 的核心是通过一系列复杂的步骤处理音频文件和静止图像来运作的。它采用3D运动生成过程，然后采用“时间扩散”模型来确定时间和运动。然后，模型会优化输出，将其放大以创建最终的逼真头像。通过预测面部表情、身体手势等的动作，VLOGGER 以非凡的准确性使化身栩栩如生。

VLOGGER AI 是一种适用于虚拟人像的多模态扩散模型。它使用 MENTOR 数据库进行训练，该数据库包含超过 800000 张肖像和超过 2200 小时的视频。这允许 VLOGGER 生成不同种族和年龄的图像。它还可以生成不同衣服和姿势的人像视频。该公司表示“与之前的多模态模型相比，VLOGGER的优势在于它不需要对每个人进行训练，不依赖于面部检测和裁剪，并且可以生成完整的图像，并考虑到广泛的场景，这对于正确合成交际人类至关重要”。

虽然 VLOGGER 代表了人工智能技术的显着进步，但必须承认其局限性。作为研究预览，VLOGGER 可能并不总是完美地复制个人的自然运动。该模型虽然复杂，但在大型运动、多样化环境和处理较长视频方面可能会遇到挑战。这些局限性凸显了人工智能领域所需的持续发展和完善。

谷歌的研究人员为VLOGGER AI设想了无数的应用程序。确定的主要用例之一是它有可能彻底改变 Teams 或 Slack 等通信平台。通过使用户能够从静止图像创建动画头像，VLOGGER为虚拟空间中的个性化和引人入胜的交互开辟了新的途径。