基于机器学习的样本多样性算法研究

时间：2021-10-09 18:41:07

关键字：卷积神经网络人脸识别大样本对抗生成网络

手机看文章

扫描二维码
随时随地手机看文章

[导读]摘要：当前，采用卷积神经网络进行图像目标检测和识别是一大研究热点，并取得了不少研究成果。这些成果在研究过程中使用大量有标签的训练样本作为训练集起了至关重要的作用。文章以人脸识别为例，阐述了多样本获取现状；讨论了基于传统方法的多样本算法研究现状和基于深度学习的多样本算法研究现状；最后展望了多样本算法未来的发展方向。

引言

近几年，基于大量训练数据的卷积神经网络（Convolutional Neural Networks，CNN）在目标检测、目标识别、显著性检测、行为识别、人脸识别和对象分割等计算机视觉领域取得了举世瞩目的成果。这些令人鼓舞的成绩主要归功于以下几点：

(1) 将大量有标签的数据作为训练集，学习出具有百万参数的模型，从而使卷积神经网络能够有效提取对象的本质特征；

(2) 不断改进性能优异的网络结构，如VeryDeepVGG Network[1]，Google Inception Network[2] 和 Deep Residual Networks[3] 等；

(3) 各种并行计算硬件设备（如 GPU）的支持，大大提高了CNN训练模型的效率。其中，将标签的大量数据作为训练集起着至关重要的作用。

本文以人脸识别为例，讨论和综述多样本算法的研究现状和发展方向。

有效的特征是目标识别的关键，对人脸识别问题来说亦如此。传统的主成分分析（Principal Component Analysis， PCA）[4,5]，线性区分分析（Linear Discriminant Analysis，LDA）[6]和局部二值模式化（Local Binary Pattern，LBP）[7,8]等取得了不错的成绩。基于传统特征的人脸识别受限于环境，此类特征作用在复杂或者背景多变的人脸图像时，其识别性能往往大幅下降，如在LFW 数据集上其识别率骤然下降[9]。

采用CNN 作为特征提取模型，主要考虑到该模型的所有处理层，包括像素级别的输入层，均可从数据中学习到可调节的参数。即 CNN 能自动从大数据中学习特征，无需人工设计特征。合理有效的特征需从大量数据和大量参数中自动学习获取，从而达到优秀的识别性能。基于卷积神经网络的世界领先方法均使用了上百万的数据，其中最具有代表性的如VGG-Face 网络需要 260 万个人脸图像样本进行训练 [10]， Facebook 的DeepFace 网络需要 440 万个有标签的人脸图像样本训练[11]。而Google 更使用了 2 亿样本数据来训练 FaceNet 网络[12]。

1 多样本获取现状

如引言所述，有效合理的特征是目标识别的关键，而CNN能从大量有标签的数据中自动学习图像的本质特征。获得图像特征的关键因素是有标签的大数据。因此许多研究的前提工作均聚焦在人工获取数据和给数据加标签方面。然而，获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理，然后给数据添加标签，耗费大量的人力物力。虽然也有一些公开免费的数据集，且收集该类数据相对比较容易，如 CASIA-WebFace[13]，有 49万个图像，但远少于Facebook 和Google的数据集。在这种情况下，缺乏大量样本直接阻碍了深度学习方法的使用，成为阻碍提高检测率和识别率的瓶颈。除了深度学习技术提取特征需要大量样本外，已有研究证明[14-19]，基于传统方法的技术同样需要大量样本作为支撑。在这种形势下，通过图像处理与机器学习技术自动增加样本集已成为必要手段。

无论基于传统方法的识别问题，还是基于深度学习的识别问题，大量有标签的数据作为训练集在算法中起着举足轻重的作用。如果样本不足，算法往往过拟合，无法提高算法的性能。为了获得更多样本，一些研究工作从网络上获取数据，例如在IMDb上，已经把 9万有标签的数据集扩大到了26万 [10]。除此之外，Facebook获取了440万个有标签的人脸进行 DeepFace网络训练[11]，而Google使用 2亿个数据训练FaceNet网络[12]。

目前获取方法具有如下局限：

(1) 现有方法耗时耗力，需要经费支持。获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理，然后给数据添加标签，耗费大量的人力物力。这种情况下，只有像Facebook和 Google这样的大公司会收集大量有标签的数据进行网络训练。而大多数情况下的数据收集涉及个人隐私与财力物力等问题，对于一般的小公司或科研院所而言，收集数据普遍难度较大。

(2) 收集特殊图片困难。对于一些特殊的图像，如医学图像，遥感图像，现实中数量本身就少，加之无法直接从网上获取，因此小样本很容易导致过拟合。

2 样本集扩大算法研究现状

2.1 基于传统方法的多样本算法研究现状

对于传统的样本生成算法，如果数据集中有足够的训练样本，均可得到比较满意的识别结果，但在现实的人脸数据库中，人脸的数据样本却是有限的。文献 [20] 表明，增加图像样本的数量可以较大幅度提高识别的准确率。

为了增加样本数量，提高识别准确率，科研工作者已做了大量工作。其中，借助原始样本产生虚拟样本是一种有效的增加数据集方法。这种方法大致分为如下几类：

(1) 通过人脸图像的对称性来得到原始样本的虚拟样本，如 Xu[14,15] 和Liu等[21] 提出借助原始图像的对称脸和镜像脸产生虚拟样本，从而扩大数据集并提高人脸识别的正确率，Song[22] 也提出相应的算法来改进人脸识别的性能；

(2) 通过改变图像的光照、姿势和表情等来产生虚拟样本，例如Boom等用一种称为VIG的方法对未知光照情况进行建模[16]，Abdolali[17] 和Ho[18] 等提出了类似的算法扩大数据集；

(3) 基于人脸图像自身的特征生成虚拟样本，Ryu等根据原始样本的分布来产生虚拟样本 [19]，Liu等也根据图像本身特性来产生虚拟样本[23]。

(4) 基于数学的多样本产生方法，如 Zhang等提出利用奇异值分解的方法获得基于原始样本的虚拟样本[24]。借助图像合成方法生成的新样本如图 1所示。

图1 借助图像合成方法生成新样本

除了借助图像处理方法获得原始样本的新样本外，还可以利用图像合成算法获取多样本，本研究做了相关实验，其结果如图1所示。假设数据集中有c类人脸图像，每类有ni个样本，令 xj! 0h) w表示第 i类中的第 j个样本，这里 i=1，2，，c，j=1，2，，n，h和 w分别代表样本 xj的高和宽（均为像素值）。

用 X=[X1，X2，…，Xc] 代表所有样本，则 Xi=[xi1，xi2，…，xini]， i=1，2，…，c 代表第 i 类样本。则有：

P^Xh=f^Xh=f^x1h5f^x2h5g5f^xnih,i=1,2,f,c其中，P（Xi）代表所生成的第 i类新样本，f（g）表示图像处理函数， 5代表多个样本的串联，即将多个样本联合起来得到一个类别的新样本。

2.2 基于深度学习的多样本生成算法研究现状

大量有标签的训练数据是机器学习成功的关键，尤其对于强大的深度学习技术，大数据集能提高CNN 的性能，防止过拟合[25]。为了扩充数据集，已有一些工作在不改变图像语义的情况下进行，如水平镜像 [26]、不同尺度的剪裁[27,28]、旋转[29] 和光照变化[27] 等传统方法。

DeepID[30] 采取了增大数据集手法来训练网络，只有大的数据集才能使得卷积神经网络训练得更加充分，该研究采用两种方法增大数据集：

(1) 选择采集好的数据，即映入CelebFaces数据集。

(2) 将原始数据集中的图片多尺度、多通道、多区域的切分，然后分别进行训练，再把得到的向量串联起来，即得到最后的向量。

以上方法仅局限于相对简单的图像处理技术，该类方法生成的多样本具有一定的局限性。比如，真正意义上的旋转应按一定的角度进行 3D 旋转，而不仅仅是图像本身的角度旋转。合成数据能一定程度上解决以上问题，如Shotton 等通过随机森林合成 3D 深度数据来估计人体姿势，Jaderberg 等使用合成数据来训练 CNN 模型识别自然场景下的文字[31]。这些研究的结果均优于使用剪裁，旋转等传统方法。但使用 3D 合成图像比较复杂，需要较多的前期工作。

近年来，借助生成对抗网络（Generative Adversarial Networks，GANs）来生成原始样本的方法吸引了很多学者。2014 年 6 月，Goodfellow 等发表了论文《Generative Adversarial Nets》[32]，文中详尽介绍了GANs 的原理、优点及其在图像生成方面的应用，标志着 GANs 的诞生。早期的GANs 模型存在许多问题，如GANs 网络不稳定，甚至有时该网络永远不会开始学习，生成的结果无法令人满意。文献 [32] 中生成器生成的图片十分模糊，针对此问题，Denton 等提出一个被称为 LAPGANs 的模型[33]，该模型用多个卷积神经网络连续生成图像，这些新图像的清晰度不断提高，最终得到高分辨率图像。GANs 除了基于图像生成图像外，还可以通过文字生成图像，如文献 [34] 搭起了文本到图像的桥梁，通过GANs 将文本直接转换成对应的图像。文献 [35] 将 GAN 应用于超分辨率中，该文献提出了全新的损失函数，使得 GANs 能对大幅降采样后的图像恢复其生动纹理和小颗粒细节。另i外，Radford等提出了名为 DCGANs的网络，该文献指出，用大数据集训练出的 GANs 能学习一整套层级的特征，并具有比其他无监督学习模型更好的效果。以上方法均为基于一大类原始样本生成另一大类图像。

基于 GAN 生成样本的过程如图 2 所示。首先将同类别的原始图像输入到生成对抗网络 GAN 的生成器网络 G 中，生成假冒图像 G1 和 G2，接着借助判别器D 来判断输入的图像是真实图像还是假冒图像。生成器 G 努力生成类似原始样本的图像，力争判别器D 难以区分真假；而判别器 D 应不断提高自身性能，有能力鉴别出由生成器 G 生成的图像为赝品。生成器 G 和判别器D 的价值函数如下：

基于机器学习的样本多样性算法研究

生成器 G 最小化 log（1－D（G（z））），判别器 D 最大化 logD（x），使得最大概率按照训练样本的标签分类，生成模型 G 隐式定义了一个概率分布 Pg，希望 Pg 收敛到数据真实分布 Pdata。

图 2 GAN 生成新样本示意图

3 结语

综上所述，基于原始样本的多样本生成算法是一个值得深入研究探索的问题，具备清晰而明确的理论意义和现实应用意义。虽然研究人员已经对相关问题进行了一些研究，取得了一系列成果，但是多样本的产生方法缺乏全面、深入的理解，尚未出现具有里程碑意义的研究成果。具体而言，本文认为，基于原始样本的多样本生成问题需要在如下几个方面展开深入的研究：

（1）在研究多样本生成算法时，保留原始样本的本质特征，如在人脸识别中，抛弃不必要信息（光照、表情和姿势）的影响是一项十分有意义的工作。

（2）在合成新样本时，设计合理有效的构造元素，使合成的新表示更接近自然亦是一个值得研究的方向。

（3）基于生成对抗网络，研究某一类对象的生成新样本的核心算法是一项有意义的工作。