激光网
当前位置: 首页 > 人工智能 > 正文

谷歌轻量化脸部编辑GAN模型 低端手机也可实时生成高质量输出

2023-09-19 15:27:22  来源:激光网原创    

  谷歌在MediaPipe平台推出脸部编辑功能,运用轻量化的脸部风格生成对抗网络,可在手机实时运作,模型虽小但是输出质量不输复杂大模型。

  谷歌针对生成对抗网络的高运算复杂度提出解决方案,将原本需要在服务器执行的脸部编辑模型轻量化,推出可在手机上运作的少样本脸部风格模型MediaPipe FaceStylizer,提供高质量脸部图片生成,并且透过MediaPipe平台公开, 让用户能够自定义部署到移动设备上。

  生成对抗网络是一种深度学习模型,其包含生成器和识别器两部分,生成器负责生成图像,而识别器的任务则是分辨图像是不是真实的,也就是发现该图像是否由生成器所产生。 而MediaPipe FaceStylizer针对脸部风格化设计,具有脸部生成器和脸部编码器两个主要组件。 脸部编码器的主要功能用于生成对抗网络反转,将图像映射到生成器的潜在码中。

  生成对抗网络反转是指用于寻找导致模型输出的输入,这个输入再经过生成对抗网络的生成器时,会产生特定图像,换句话说,当存在一张图片,想要知道生成对抗网络的生成器中,可以产生该张图片的潜在码,这个过程便称为生成对抗网络反转。 脸部编码器便是找出潜在码的角色,以便脸部生成器可以再次使用该潜在码,生成相同或是类似的脸部图像。

  除此之外,研究人员为了优化生成器,特别设计了一些损失函式,并且结合常用的生成对抗网络损失函式,藉以最小化生成器的错误,他们从一个较为复杂的StyleGAN模型,提炼出一个更轻量的生成器BlazeStyleGAN。 轻量生成器虽然容量小、执行快,但生成的图片质量仍然很高。 下图研究结果显示,BlazeStyleGAN生成的图像质量很好,而且因为研究人员在损失函式的设计,进一步减少了StyleGAN可能产生的瑕疵和伪影。

  从参数数量和计算FLOPs评估模型复杂度,与StyleGAN拥有3340万参数相比,BlazeStyleGAN的复杂度大幅降低,在输出图片分辨率为256x256的情况下,仅需要约200万参数和1.28G FLOPs的BlazeStyleGAN模型。 当输出分辨率为1024x1024,BlazeStyleGAN-1024可减少95%运算复杂度,而且输出图像质量与StyleGAN-1024模型没有明显差异,甚至抑制来自StyleGAN模型的伪影。

  研究人员在高性能的设备上,对MediaPipe FaceStylizer的推论时间进行基准测试,BlazeStyleGAN-256和BlazeStyleGAN-512在所有拥有GPU的设备上都能达到实时运算,在更高阶手机的运行时间甚至不到10毫秒。 BlazeStyleGAN-256还可以在 iOS 设备上以 CPU 实时生成结果。

  谷歌将会透过MediaPipe平台,向用户公开MediaPipe FaceStylizer。 BlazeStyleGAN模型经过训练之后,只需要几行代码,就能透过MediaPipe Tasks FaceStylizer API部署已导出的TFLite模型到各平台的应用程序。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com