人脸检测算法设置彻底改变图像搜索
2019-03-06 次 早在2001年,两位计算机科学家Paul Viola和Michael Jones就引发了计算机人脸检测领域的一场革命。经过多年的停滞,他们的突破是一种可以实时识别图像中的面部的算法。实际上,所谓的Viola-Jones算法非常快速和简单,很快就被内置到标准的傻瓜相机中。
他们的部分诀窍是忽略面部识别中更加困难的问题,而只关注检测。他们也只关注从正面看的面孔,忽略了从一个角度看到的任何面孔。鉴于这些界限,他们意识到鼻梁通常形成一条垂直线,比附近的眼窝更亮。他们还注意到眼睛经常处于阴影中,因此形成了较暗的水平带。
因此,Viola和Jones构建了一种算法,该算法首先查找可能是鼻子的图像中的垂直亮带,然后查找可能是眼睛的水平暗带,然后查找与脸相关的其他一般模式。
由他们自己检测,这些特征都没有强烈暗示面部。但是当它们在级联中一个接一个地被检测到时,结果是图像中的面部的良好指示。因此,这个过程的名称:探测器级联。由于这些测试都很简单,因此生成的算法可以快速实时运行。
但是,虽然Viola-Jones算法对于从正面看到的面部是一种启示,但它无法从任何其他角度精确地发现面部。这严重限制了它如何用于面部搜索引擎。
这就是雅虎对此问题感兴趣的原因。今天,加利福尼亚州雅虎实验室的Sachin Farfade和Mohammad Saberian以及斯坦福大学附近的Li-Jia Li,揭示了一种解决问题的新方法,即使在部分遮挡的情况下也可以在某个角度发现面部问题。他们说他们的新方法比其他方法更简单,但却达到了最先进的性能。
Farfade和co使用一种根本不同的方法来构建他们的模型。他们利用近年来在一种称为深度卷积神经网络的机器学习上取得的进步。我们的想法是使用大量带注释的示例数据库来训练多层神经网络,在这种情况下,从多个角度拍摄人脸照片。
为此,Farfade和co创建了一个包含200,000张图像的数据库,其中包括各种角度和方向的面部以及另外2000万张没有面部的图像。然后他们在50,000次迭代中以128个图像批量训练他们的神经网络。
结果是一种算法,即使在部分遮挡的情况下也可以从各种角度发现面部。它可以非常精确地在同一图像中发现许多面部。
该团队称这种方法为Deep Dense Face Detector,并称它与其他算法相比较。“我们使用其他基于深度学习的方法评估了所提出的方法,并表明我们的方法可以获得更快,更准确的结果,”他们说。
更重要的是,他们的算法在颠倒时能够更好地识别面部,其他方法还没有完善。并且他们说,使用包含更多颠倒面的数据集可以做得更好。“我们计划使用更好的采样策略和更复杂的数据增强技术,以进一步提高所提出的检测遮挡和旋转面部方法的性能。”
这是一项有趣的工作,展示了人脸检测的快速进展。深度卷积神经网络技术本身只有几年的历史,已经在对象和人脸识别方面取得了重大进展。
这种算法的巨大希望在于图像搜索。目前,可以直接搜索在特定地点或特定时间拍摄的图像。但很难找到特定人物拍摄的照片。这是朝这个方向迈出的一步。在不远的将来,这种能力不可避免地会伴随我们。
当它到来时,世界将变得更小。这不仅仅是将来可以搜索的图片,而是数字化图像的整个历史,包括大量的视频和CCTV镜头。无论如何,这将成为一股强大的力量。
他们的部分诀窍是忽略面部识别中更加困难的问题,而只关注检测。他们也只关注从正面看的面孔,忽略了从一个角度看到的任何面孔。鉴于这些界限,他们意识到鼻梁通常形成一条垂直线,比附近的眼窝更亮。他们还注意到眼睛经常处于阴影中,因此形成了较暗的水平带。
因此,Viola和Jones构建了一种算法,该算法首先查找可能是鼻子的图像中的垂直亮带,然后查找可能是眼睛的水平暗带,然后查找与脸相关的其他一般模式。
由他们自己检测,这些特征都没有强烈暗示面部。但是当它们在级联中一个接一个地被检测到时,结果是图像中的面部的良好指示。因此,这个过程的名称:探测器级联。由于这些测试都很简单,因此生成的算法可以快速实时运行。
但是,虽然Viola-Jones算法对于从正面看到的面部是一种启示,但它无法从任何其他角度精确地发现面部。这严重限制了它如何用于面部搜索引擎。
这就是雅虎对此问题感兴趣的原因。今天,加利福尼亚州雅虎实验室的Sachin Farfade和Mohammad Saberian以及斯坦福大学附近的Li-Jia Li,揭示了一种解决问题的新方法,即使在部分遮挡的情况下也可以在某个角度发现面部问题。他们说他们的新方法比其他方法更简单,但却达到了最先进的性能。
Farfade和co使用一种根本不同的方法来构建他们的模型。他们利用近年来在一种称为深度卷积神经网络的机器学习上取得的进步。我们的想法是使用大量带注释的示例数据库来训练多层神经网络,在这种情况下,从多个角度拍摄人脸照片。
为此,Farfade和co创建了一个包含200,000张图像的数据库,其中包括各种角度和方向的面部以及另外2000万张没有面部的图像。然后他们在50,000次迭代中以128个图像批量训练他们的神经网络。
结果是一种算法,即使在部分遮挡的情况下也可以从各种角度发现面部。它可以非常精确地在同一图像中发现许多面部。
该团队称这种方法为Deep Dense Face Detector,并称它与其他算法相比较。“我们使用其他基于深度学习的方法评估了所提出的方法,并表明我们的方法可以获得更快,更准确的结果,”他们说。
更重要的是,他们的算法在颠倒时能够更好地识别面部,其他方法还没有完善。并且他们说,使用包含更多颠倒面的数据集可以做得更好。“我们计划使用更好的采样策略和更复杂的数据增强技术,以进一步提高所提出的检测遮挡和旋转面部方法的性能。”
这是一项有趣的工作,展示了人脸检测的快速进展。深度卷积神经网络技术本身只有几年的历史,已经在对象和人脸识别方面取得了重大进展。
这种算法的巨大希望在于图像搜索。目前,可以直接搜索在特定地点或特定时间拍摄的图像。但很难找到特定人物拍摄的照片。这是朝这个方向迈出的一步。在不远的将来,这种能力不可避免地会伴随我们。
当它到来时,世界将变得更小。这不仅仅是将来可以搜索的图片,而是数字化图像的整个历史,包括大量的视频和CCTV镜头。无论如何,这将成为一股强大的力量。