Multi-task shape preserving face alignment
- Valle Fernández, Roberto
- Luis Baumela Molina Doktorvater/Doktormutter
- José Miguel Buenaposada Biencinto Co-Doktorvater/Doktormutter
Universität der Verteidigung: Universidad Politécnica de Madrid
Fecha de defensa: 21 von Februar von 2020
- Luis M. Bergasa Pascual Präsident/in
- Daniel Manrique Gamo Sekretär/in
- Pedro Enrique López de Teruel Alcolea Vocal
- Dan Casas Guix Vocal
- José Luis Alba Castro Vocal
Art: Dissertation
Zusammenfassung
Esta tesis aborda el problema de la estimación robusta y precisa de la configuración de rostros humanos en imágenes. Esto implica la localización en la imagen de un conjunto de puntos de referencia fiduciales que representan la combinación de los componentes rígidos y no rígidos de la configuración de un rostro. Este es un problema relevante y abierto en el campo de la visión por computador, cuando analizamos rostros sin restricciones en su captura; es decir, incluyendo poses extremas, expresiones faciales exageradas, iluminación arbitraria, oclusiones parciales, baja resolución, etc. Para este fin, empleamos un enfoque basado en una cascada de regresores que refinan iterativamente sus estimaciones hasta llegar a una solución final. Abordamos primeramente el problema de estimar la orientación de la cabeza, porque es el más simple y, además, porque, una vez que se conoce el componente rígido del rostro, la deformación de la cara es más fácil de calcular. Es muy difícil establecer el estado del arte en este área, pues no hay una metodología comúnmente acordada para la evaluación del rendimiento. En la tesis presentamos un conjunto de datos, unos algoritmos y unos resultados de base para realizar dicha evaluación. Para estimar la deformación no rígida de la cara empleamos un esquema de regresores en cascada. Primero consideramos la estrategia tradicional, basada en el entrenamiento de una secuencia de árboles de regresión mediante un algoritmo de "Gradient Boosting" (ERT). Aquí presentamos una nueva arquitectura de refinado progresivo que aborda la explosión combinatoria que se produce al considerar las posibles deformaciones de todas las partes de la cara. También evaluamos el enfoque más habitual en este momento, que consiste en la construcción de una cascada de redes de neuronas convolucionales (CNNs). Introducimos una solución basada en combinar dos CNNs con una nueva capa final para estimar las coordenadas de los puntos de referencia. Finalmente, presentamos una nueva solución híbrida basada en la combinación de una CNN y un ERT de refinado progresivo. Nuestro enfoque funciona en presencia de puntos de referencia ocluidos o no etiquetados en el conjunto de entrenamiento. Esto nos ha permitido realizar experimentos cruzando bases de datos, que revelan la existencia de un sesgo significativo en los conjuntos de datos de entrenamiento. Lo cual, sin duda, limita la capacidad de generalización de los regresores entrenados con dichas bases de datos. Hasta donde sabemos, ésta es la primera vez que se ha planteado este problema en el contexto de la alineación del rostro. En nuestra propuesta final presentamos un enfoque unificado para inferir la orientación de la cabeza, los puntos de referencia del rostro y sus visibilidades. Dicha propuesta está basada en la combinación de una red neuronal multi-tarea (MNN) que simultáneamente estima la orientación de la cabeza, la posición de los puntos de referencia y sus visibilidades, junto con un ERT de refinado progresivo. La arquitectura de la MNN, cómo la entrenamos, y cómo combinamos sus predicciones con el ERT son novedosos. En los experimentos realizados evaluamos el rendimiento de nuestras propuestas y las comparamos con los mejores algoritmos que existen en la literatura, utilizando las bases de datos más relevantes.