当前位置：首页 > 人工智能 > 正文

谷歌轻量化脸部编辑GAN模型低端手机也可实时生成高质量输出

2023-09-19 15:27:22　来源：激光网原创　

　　谷歌在MediaPipe平台推出脸部编辑功能，运用轻量化的脸部风格生成对抗网络，可在手机实时运作，模型虽小但是输出质量不输复杂大模型。

　　谷歌针对生成对抗网络的高运算复杂度提出解决方案，将原本需要在服务器执行的脸部编辑模型轻量化，推出可在手机上运作的少样本脸部风格模型MediaPipe FaceStylizer，提供高质量脸部图片生成，并且透过MediaPipe平台公开，让用户能够自定义部署到移动设备上。

　　生成对抗网络是一种深度学习模型，其包含生成器和识别器两部分，生成器负责生成图像，而识别器的任务则是分辨图像是不是真实的，也就是发现该图像是否由生成器所产生。而MediaPipe FaceStylizer针对脸部风格化设计，具有脸部生成器和脸部编码器两个主要组件。脸部编码器的主要功能用于生成对抗网络反转，将图像映射到生成器的潜在码中。

　　生成对抗网络反转是指用于寻找导致模型输出的输入，这个输入再经过生成对抗网络的生成器时，会产生特定图像，换句话说，当存在一张图片，想要知道生成对抗网络的生成器中，可以产生该张图片的潜在码，这个过程便称为生成对抗网络反转。脸部编码器便是找出潜在码的角色，以便脸部生成器可以再次使用该潜在码，生成相同或是类似的脸部图像。

　　除此之外，研究人员为了优化生成器，特别设计了一些损失函式，并且结合常用的生成对抗网络损失函式，藉以最小化生成器的错误，他们从一个较为复杂的StyleGAN模型，提炼出一个更轻量的生成器BlazeStyleGAN。轻量生成器虽然容量小、执行快，但生成的图片质量仍然很高。下图研究结果显示，BlazeStyleGAN生成的图像质量很好，而且因为研究人员在损失函式的设计，进一步减少了StyleGAN可能产生的瑕疵和伪影。

　　从参数数量和计算FLOPs评估模型复杂度，与StyleGAN拥有3340万参数相比，BlazeStyleGAN的复杂度大幅降低，在输出图片分辨率为256x256的情况下，仅需要约200万参数和1.28G FLOPs的BlazeStyleGAN模型。当输出分辨率为1024x1024，BlazeStyleGAN-1024可减少95%运算复杂度，而且输出图像质量与StyleGAN-1024模型没有明显差异，甚至抑制来自StyleGAN模型的伪影。

　　研究人员在高性能的设备上，对MediaPipe FaceStylizer的推论时间进行基准测试，BlazeStyleGAN-256和BlazeStyleGAN-512在所有拥有GPU的设备上都能达到实时运算，在更高阶手机的运行时间甚至不到10毫秒。 BlazeStyleGAN-256还可以在 iOS 设备上以 CPU 实时生成结果。

　　谷歌将会透过MediaPipe平台，向用户公开MediaPipe FaceStylizer。 BlazeStyleGAN模型经过训练之后，只需要几行代码，就能透过MediaPipe Tasks FaceStylizer API部署已导出的TFLite模型到各平台的应用程序。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com