All

一些人脸重建的paper

  • Self-Supervised Multi-level Face Model Learning for Monocular Reconstruction at Over 250 Hz

 
 

本文由马克斯普朗克研究所和斯坦福大学等机构合作完成,是 CVPR 2018 oral 文章。为了提升单张图片重建 3D 脸部模型的效果,该论文采用了多层次的脸部结构重建方法,作者把传统的基于参数化 3D 可变形模型(3DMM)作为基础模型,在此之上引入纠正模型来增加模型的表达能力。实验表明纠正模型使得 3D 脸部重建效果更接近原图,而且能重建出更多细节。

 
 

 
 

正模型的基向量由神经网络直接学习得到。脸部的形状与纹理通过基础模型加上纠正模型来拟合。算法使用编码器来学习基础模型和纠正模型的组合参数。随后整合两个模型的结果,通过解码器得到渲染的 3D 脸部模型。然后,算法把 3D 模型成像,对比成像结果与输入图片的差异,目标是使差异变小,因此该方法是自监督的方式进行训练。此外,算法还限制了成像结果与输入图的脸部特征点要对齐。注意该方法中只有编码器是可学习的,而解码器和渲染器都是手工设计的可导层,不是可学习的。为了让模型更加鲁棒和训练过程更加稳定,作者在损失函数上加入额外调节项,用于提升纠正模型的平滑性、纹理的稀疏性和整体一致性。

 
 

 
 

 
 

  • Extreme 3D Face Reconstruction: Seeing Through Occlusions

 
 

本文由美国南加州大学和以色列公开大学合作完成,是 CVPR 2018 spotlight 文章。现有的基于单视角图像的 3D 人脸重建算法大多以接近正脸且没有遮挡的图片为输入。本论文提出了一种基于凹凸映射(bump mapping)的新算法,可用于解决被遮挡图像的 3D 人脸重建问题。该算法把脸部的重建分成两部分,一部分是基于 3DMM 的人脸基础形状和表情的重建,另一部分是局部细节纹理的重建。算法首先利用 BFM 的线性模型对全局形状和表情进行重建,对视角的估计采用了作者之前的工作 FasePoseNet。对于脸部细节的描述,作者使用了 CNN 来学习图片到凹凸图的转换,训练数据采用传统的 Shape from Shading 的方法计算得到。为了复现被遮挡住的细节,作者把非脸部区域看作丢失的信息并采用图像修复算法来填补。而成像角度而形成的自遮挡问题则通过软对称的机制完成。经过上述一系列步骤之后,算法可以获得细节逼真的结果且可以处理遮挡情况下的重建。

 
 

  • Unsupervised Training for 3D Morphable Model Regression

 
 

https://github.com/google/tf_mesh_renderer

 
 

本文由普林斯顿大学、谷歌和麻省理工学院合作完成,是 CVPR 2018 spotlight 文章。使用无监督训练的方法基于 3DMM 进行人脸三维重建。论文基于编码器和解码器模型,创新性地将人脸识别网络引入训练的损失函数,使得生成的 3D 人脸能很好地保留了输入图片的人脸个体特征。该模型旨在拟合形状和纹理,并没有学习姿态表情和光照。算法的编码器接受图像作为输入,输出用于 3DMM 模型的参数。解码器接受参数后合成 3D 人脸。为了使网络不仅能保持个体信息,还能生成自然真实的人脸,作者提出了 3 个新的损失函数,即批分布损失(batch distribution loss)、回环损失(loopback loss)和多视角身份损失(multi-view identity loss)。批分布损失可使每个批的统计量与 3DMM 的统计量一致。回环损失可保证生成的 3D 人脸模型的2D成像图片重新进入编码器得到的参数和原图的参数尽量一致。多视角身份损失能使得模型学习到独立于观察角度的个体特征。实验结果说明,模型不仅仅可以生成与输入图像高度相似的 3D 人脸,而且生成的人脸独立于输入的表情和姿态,甚至被遮挡的人脸也可以达到不错的生成效果。

 
 

 
 

 
 

  • Mesoscopic Facial Geometry Inference Using Deep Neural Networks

 
 

本文由南加州大学、谷歌和 Pinscreen 联合完成,是 CVPR 2018 spotlight 文章。本文提出了一个由散射人脸纹理图(diffusely-lit facial texture maps)合成 3D 人脸的算法。该算法结合了图像到图像的转换网络和超分辨率网络。其中图像到图像的转换网络分成两个子网络,分别学习高频和中频信息,使得模型可以捕捉更多细节。基于一系列不同角度拍摄的图像,算法首先计算出基础 mesh 1k 分辨率的纹理图。随后通过条件对抗生成网络把输入的纹理图转换成高频和中频两种位移图。高频的位移图通过超分辨率网络提升到 4k 分辨率,而中频的位移图通过升采样提升到 4k 分辨率。这两种频率的位移图整合结束后,把信息重新加到 mesh 上,得到最后的输出。

 
 

 
 

  • Modeling Facial Geometry Using Compositional VAEs

 
 

本文由瑞士洛桑联邦理工学院与 Facebook 联合完成,是 CVPR 2018 spotlight 文章。对人脸建模而言,保证鲁棒性是一个难点,抓住表情是另一个难点。为了解决这两个难点,该论文提出了基于多层次变分自编码器(compositional VAE)的深度神经网络模型。这个算法只需要少量样本就可以训练出一个可以推广到新个体和任意表情的模型。

 
 

 
 

 
 

 
 

现存的人脸建模算法大部分基于线性模型,而线性的假设限制了模型的表达能力。为了增加模型的表达能力,该算法使用神经网络对人脸进行非线性建模。它充分利用卷积神经网络对人脸进行整体和局部的多层次建模,其中高层网络抓住整体和低频信息,底层网络抓住局部和高频信息。模型采用了编码器和解码器结合的结构,并将 VAE 的思想融入 U-net 的跳转连接,使模型更具有鲁棒性。编码器的每层输出分成两部分,一部分作为下一层的输入,另一部分为该层隐变量后验分布的参数。解码器的每层输入包括了上一层的输出,以及由该层先验分布抽样得到的隐变量;它的输出包括了下一层的输入和下一册隐变量的先验分布参数。此外,为了更好地使用这个框架,论文提出了一种新的 mesh 表示方法,使二维图片上的近邻像素和三维拓扑的近邻保持一致。作者表示这个框架可以应用于很多具体任务,包括3D mesh 的对应、2D 的标志性特征拟合、深度图的重建等等。下图为算法对带噪声的深度图进行重建的结果,而训练数据只包括 16 个人。

 
 

 
 

  • Nonlinear 3D Face Morphable Model

 
 

https://github.com/tranluan/Nonlinear_Face_3DMM

 
 

本文由密西根州立大学完成,是 CVPR 2018 spotlight 文章。现有的基于 3DMM 的人脸重建方法大多是线性模型,线性模型的基向量通过对训练数据做 PCA 得到。由于计算基向量的样本量少,且线性模型的表达能力有限,所以生成效果提升会遇到瓶颈。本文提出了一个非线性人脸可变形模型,不需要采用事先已知的 3D Mesh 基向量,而是通过神经网络来将 3DMM 参数解码出 3D Mesh

 
 

 
 

该工作基于编码器解码器模型。其中编码器通过输入图片学习投影参数以及形状和纹理参数。解码器通过形状和纹理参数直接学习 3D 的形状和纹理,因此可以看做是一种 3D 人脸的非线性可变形模型。随后,基于 z-buffer 算法,渲染层使用投影参数以及 3D 形状和纹理把 3D 模型渲染成一张 2D 图片。模型的目标是最小化 3D 人脸的 2D 投影与输入图片的像素级差异。为了让生成的人脸更加真实,作者引入了 patchGAN 来学习高质量的纹理和局部特征,还利用与特征标志对齐相关的损失函数来调节编码器。实验结果表示,解码器作为一种非线性变形模型有更强大的表示能力,可以重建出更多的人脸细节。

 
 

  • 3D Face Morphable Models “In-the-Wild”

 
 

https://github.com/menpo/itwmm

 
 

 
 

  • GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction (CVPR 2019)

 
 

https://github.com/barisgecer/ganfit

https://arxiv.org/pdf/1902.05978.pdf

 
 

In the past few years, a lot of work has been done towards reconstructing the 3D facial structure from single images by capitalizing on the power of Deep Convolutional Neural Networks (DCNNs). In the most recent works, differentiable renderers were employed in order to learn the relationship between the facial identity features and the parameters of a 3D morphable model for shape and texture. The texture features either correspond to components of a linear texture space or are learned by auto-encoders directly from in-the-wild images. In all cases, the quality of the facial texture reconstruction of the state-of-the-art methods is still not capable of modeling textures in high fidelity. In this paper, we take a radically different approach and harness the power of Generative Adversarial Networks (GANs) and DCNNs in order to reconstruct the facial texture and shape from single images. That is, we utilize GANs to train a very powerful generator of facial texture in UV space. Then, we revisit the original 3D Morphable Models (3DMMs) fitting approaches making use of non-linear optimization to find the optimal latent parameters that best reconstruct the test image but under a new perspective. We optimize the parameters with the supervision of pretrained deep identity features through our end-to-end differentiable framework. We demonstrate excellent results in photorealistic and identity preserving 3D face reconstructions and achieve for the first time, to the best of our knowledge, facial texture reconstruction with high-frequency details.

【在过去的几年中,通过利用深度卷积神经网络(DCNN)的力量,已经做了很多工作来从单个图像重建3D面部结构。在最近的作品中,使用可微分渲染器来学习面部特征特征与3D形状和纹理的可变形模型的参数之间的关系。纹理特征或者对应于线性纹理空间的组件,或者由自动编码器直接从野外图像中学习。在所有情况下,最先进方法的面部纹理重建的质量仍然不能以高保真度建模纹理。在本文中,我们采用了一种截然不同的方法,并利用生成对抗网络(GAN)和DCNN的力量,以便从单个图像重建面部纹理和形状。也就是说,我们利用GANUV空间中训练非常强大的面部纹理生成器。然后,我们重新审视原始的3D可变模型(3DMMs)拟合方法,利用非线性优化来找到最佳重建测试图像但在新视角下的最佳潜在参数。我们通过端到端的可区分框架监控预训练的深度身份特征来优化参数。我们在照片级真实感和身份保持3D面部重建方面展示了出色的效果,并且在我们所知的情况下,首次实现了具有高频细节的面部纹理重建。】

 
 

 
 

  • 3D Guided Fine-Grained Face Manipulation

 
 

https://arxiv.org/pdf/1902.08900.pdf

 
 

We present a method for fine-grained face manipulation. Given a face image with an arbitrary expression, our method can synthesize another arbitrary expression by the same person. This is achieved by first fitting a 3D face model and then disentangling the face into a texture and a shape. We then learn different networks in these two spaces. In the texture space, we use a conditional generative network to change the appearance, and carefully design input formats and loss functions to achieve the best results. In the shape space, we use a fully connected network to predict the accurate shapes and use the available depth data for supervision. Both networks are conditioned on expression coefficients rather than discrete labels, allowing us to generate an unlimited amount of expressions. We show the superiority of this disentangling approach through both quantitative and qualitative studies. In a user study, our method is preferred in 85% of cases when compared to the most recent work. When compared to the ground truth, annotators cannot reliably distinguish between our synthesized images and real images, preferring our method in 53% of the cases.

【我们提出了一种细粒度的脸部操作方法。给定具有任意表达式的面部图像,我们的方法可以由同一个人合成另一个任意表达。这是通过首先拟合3D面部模型然后将面部解开成纹理和形状来实现的。然后我们在这两个空间中学习不同的网络。在纹理空间中,我们使用条件生成网络来改变外观,并仔细设计输入格式和丢失函数,以达到最佳效果。在形状空间中,我们使用完全连接的网络来预测准确的形状,并使用可用的深度数据进行监督。两个网络都以表达系数而非离散标签为条件,允许我们生成无限量的表达式。我们通过定量和定性研究证明了这种解开方法的优越性。在用户研究中,与最近的工作相比,我们的方法在85%的案例中是首选。与基本事实相比,注释器无法可靠地区分我们的合成图像和真实图像,在53%的情况下更喜欢我们的方法。】

 
 

 
 

  • Large Scale Facial Model (LSFM)

 
 

https://github.com/menpo/lsfm

 
 

We present Large Scale Facial Model (LSFM) — a 3D Morphable Model (3DMM) automatically constructed from 9,663 distinct facial identities. To the best of our knowledge LSFM is the largest-scale Morphable Model ever constructed, containing statistical information from a huge variety of the human population. To build such a large model we introduce a novel fully automated and robust Morphable Model construction pipeline. The dataset that LSFM is trained on includes rich demographic information about each subject, allowing for the construction of not only a global 3DMM but also models tailored for specific age, gender or ethnicity groups. As an application example, we utilise the proposed model to perform age classification from 3D shape alone. Furthermore, we perform a systematic analysis of the constructed 3DMMs that showcases their quality and descriptive power. The presented extensive qualitative and quantitative evaluations reveal that the proposed 3DMM achieves state-of-the-art results, outperforming existing models by a large margin. Finally, for the benefit of the research community, we make publicly available the source code of the proposed automatic 3DMM construction pipeline. In addition, the constructed global 3DMM and a variety of bespoke models tailored by age, gender and ethnicity are available on application to researchers involved in medically oriented research.

【我们提出了大规模面部模型(LSFM一种3D变形模型(3DMM),由9,663个不同的面部身份自动构建。据我们所知,LSFM是有史以来规模最大的变形模型,包含来自各种人口的统计信息。为了构建如此大的模型,我们引入了一种新颖的全自动且强大的Morphable Model构造管道。 LSFM接受培训的数据集包括有关每个主题的丰富人口统计信息,不仅可以构建全球3DMM,还可以构建针对特定年龄,性别或种族群体的模型。作为应用示例,我们利用所提出的模型仅从3D形状执行年龄分类。此外,我们对构建的3DMM进行系统分析,展示其质量和描述能力。所提出的广泛的定性和定量评估表明,所提出的3DMM实现了最先进的结果,大大超过了现有模型。最后,为了研究界的利益,我们公开了所提出的自动3DMM施工管道的源代码。此外,构建的全球3DMM和各种按年龄,性别和种族定制的定制模型可应用于参与医学导向研究的研究人员。】

 
 

 
 

 
 

  • 3D Morphable Models as Spatial Transformer Networks

 
 

http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w17/Bas_3D_Morphable_Models_ICCV_2017_paper.pdf

https://github.com/anilbas/3DMMasSTN

 
 

In this paper, we show how a 3D Morphable Model (i.e. a statistical model of the 3D shape of a class of objects such as faces) can be used to spatially transform input data as a module (a 3DMM-STN) within a convolutional neural network. This is an extension of the original spatial transformer network in that we are able to interpret and normalise 3D pose changes and self-occlusions. The trained localisation part of the network is independently useful since it learns to fit a 3D morphable model to a single image. We show that the localiser can be trained using only simple geometric loss functions on a relatively small dataset yet is able to perform robust normalisation on highly uncontrolled images including occlusion, self-occlusion and large pose changes.

【在本文中,我们展示了如何使用3D变形模型(即一类物体(如面部)的3D形状的统计模型)将输入数据空间变换为卷积神经元内的模块(3DMM-STN) 网络。 这是原始空间变换器网络的扩展,因为我们能够解释和标准化3D姿态变化和自遮挡。 经过训练的网络本地化部分是独立有用的,因为它学会将3D可变形模型拟合到单个图像。 我们展示了可以在相对较小的数据集上仅使用简单的几何损失函数来训练定位器,但是能够对高度不受控制的图像执行稳健的归一化,包括遮挡,自遮挡和大的姿势变化。】

 
 

 
 

  • Unrestricted Facial Geometry Reconstruction Using Image-to-Image Translation

 
 

It has been recently shown that neural networks can recover the geometric structure of a face from a single given image. A common denominator of most existing face geometry reconstruction methods is the restriction of the solution space to some low-dimensional subspace. While such a model significantly simplifies the reconstruction problem, it is inherently limited in its expressiveness. As an alternative, we propose an Image-to-Image translation network that jointly maps the input image to a depth image and a facial correspondence map. This explicit pixel-based mapping can then be utilized to provide high quality reconstructions of diverse faces under extreme expressions, using a purely geometric refinement process. In the spirit of recent approaches, the network is trained only with synthetic data, and is then evaluated on “in-the-wild” facial images. Both qualitative and quantitative analyses demonstrate the accuracy and the robustness of our approach.

【最近已经表明,神经网络可以从单个给定图像恢复面部的几何结构。 大多数现有面部几何重建方法的共同点是将解空间限制到一些低维子空间。 虽然这种模型显着简化了重建问题,但其表现力本质上受到限制。 作为替代方案,我们提出了一种图像到图像转换网络,其将输入图像联合映射到深度图像和面部对应图。 然后,可以利用这种基于像素的显式映射,使用纯粹的几何细化过程,在极端表情下提供各种面部的高质量重建。 在最近的方法的精神中,网络仅用合成数据训练,然后在野外面部图像上进行评估。 定性和定量分析都证明了我们方法的准确性和稳健性。】

 
 

 
 

 
 

  • Synthesizing facial photometries and corresponding geometries using generative adversarial networks

 
 

Artificial data synthesis is currently a well studied topic with useful applications in data science, computer vision, graphics and many other fields. Generating realistic data is especially challenging since human perception is highly sensitive to non-realistic appearance. In recent times, new levels of realism have been achieved by advances in GAN training procedures and architectures. These successful models, however, are tuned mostly for use with regularly sampled data such as images, audio and video. Despite the successful application of the architecture on these types of media, applying the same tools to geometric data poses a far greater challenge. The study of geometric deep learning is still a debated issue within the academic community as the lack of intrinsic parametrization inherent to geometric objects prohibits the direct use of convolutional filters, a main building block of today’s machine learning systems.

【人工数据合成目前是一个研究得很好的主题,在数据科学,计算机视觉,图形和许多其他领域中具有有用的应用。 生成逼真的数据尤其具有挑战性,因为人类感知对非逼真的外观非常敏感。 最近,通过GAN培训程序和架构的进步,实现了新的现实水平。 然而,这些成功的模型主要用于定期采样数据,如图像,音频和视频。 尽管在这些类型的媒体上成功应用了该架构,但将相同的工具应用于几何数据会带来更大的挑战。 几何深度学习的研究仍然是学术界的一个争论问题,因为缺乏几何对象固有的内在参数化禁止直接使用卷积滤波器,这是当今机器学习系统的主要组成部分。】

 
 

In this paper we propose a new method for generating realistic human facial geometries coupled with overlayed textures. We circumvent the parametrization issue by imposing a global mapping from our data to the unit rectangle. This mapping enables the representation of our geometric data as regularly sampled 2D images. We further discuss how to design such a mapping to control the mapping distortion and conserve area within the mapped image. By representing geometric textures and geometries as images, we are able to use advanced GAN methodologies to generate new geometries. We address the often neglected topic of relation between texture and geometry and propose to use this correlation to match between generated textures and their corresponding geometries. In addition, we widen the scope of our discussion and offer a new method for training GAN models on partially corrupted data. Finally, we provide empirical evidence demonstrating our generative modelâĂŹs is ability to produce examples of new identities independent from the training data while maintaining a high level of realism, two traits that are often at odds.

【在本文中,我们提出了一种生成逼真的人脸几何与叠加纹理相结合的新方法。我们通过从数据到单位矩形强加全局映射来规避参数化问题。该映射使得我们的几何数据能够表示为定期采样的2D图像。我们进一步讨论如何设计这样的映射来控制映射失真并保留映射图像内的区域。通过将几何纹理和几何图形表示为图像,我们能够使用高级GAN方法生成新的几何图形。我们解决了纹理和几何之间经常被忽视的关系主题,并建议使用这种相关性来匹配生成的纹理和它们相应的几何。此外,我们扩大了讨论的范围,并提供了一种在部分损坏的数据上训练GAN模型的新方法。最后,我们提供经验证据证明我们的生成模型能够产生独立于训练数据的新身份的例子,同时保持高水平的真实感,这两个特征往往是不一致的。】