untitled

Reconocimiento de acciones en videos de profundidad


Action recognition in depth videos

Ubalde, Sebastián

Director(a):
Mejail, Marta Estela
 
Institución otorgante:
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Fecha:
2016-03-22
Tipo de documento: 
Tesis Doctoral
 
Formato:
text; pdf
Idioma:
Inglés
Temas:
Computación / Reconocimiento de Patrones - VIDEO DE PROFUNDIDAD - APRENDIZAJE MULTI INSTANCIA - CITATION-KNN - EDIT DISTANCE ON REAL SEQUENCE - INSTANCIA-A-CLASE
Descripción:
El problema de reconocer automáticamente una acción llevada a cabo en un video está recibiendo mucha atención en la comunidad de visión por computadora, con aplicaciones que van desde el reconocimiento de personas hasta la interacción persona-computador. Podemos pensar al cuerpo humano como un sistema de segmentos rígidos conectados por articulaciones, y al movimiento del cuerpo como una transformación continua de la configuración espacial de dichos segmentos. La llegada de cámaras de profundidad de bajo costo hizo posible el desarrollo de un algoritmo de seguimiento de personas preciso y eficiente, que obtiene la ubicación 3D de varias articulaciones del esqueleto humano en tiempo real. Esta tesis presenta contribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto plantea varios desafíos. En primer lugar, la posición 3D estimada para las articulaciones suele ser imprecisa. En segundo lugar, las acciones humanas presentan gran variabilidad intra-clase. Esta variabilidad puede encontrarse no sólo en la configuración de los esqueletos por separado (por ejemplo, la misma acción da lugar a diferentes configuraciones para diestros y para zurdos) sino tambión en la dinámica de la acción: diferentes personas pueden ejecutar una misma acción a distintas velocidades; las acciones que involucran movimientos periódicos (como aplaudir) pueden presentar diferentes cantidades de repeticiones de esos movimientos; dos videos de la misma acción puede estar no-alineados temporalmente; etc. Por último, acciones diferentes pueden involucrar configuraciones de esqueleto y movimientos similares, dando lugar a un escenario de gran similaridad inter-clase. En este trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Real sequence (EDR), una medida de similaridad entre series temporales robusta y precisa. Proponemos dos mejoras clave a EDR: una función de costo suave para el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamiento temporal de las secuencias comparadas, no requiere aprendizaje de parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificación de secuencias, sobre todo en casos de alta variabilidad intra-clase y pocos datos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativos en una secuencia puede ser baja. Los esqueletos restantes pueden ser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo, la configuración correspondiente a un esqueleto sentado e inmóvil) u ocurrir en instantes de tiempo poco comunes para la acción del video. Por lo tanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clase a la que pertenece. Un bag etiquetado con una determinada clase contiene instancias que son características de la clase, pero puede (y generalmente así ocurre) también contener instancias que no lo son. Siguiendo esta idea, representamos los videos como bags de descriptores de esqueleto con marcas de tiempo, y proponemos un framework basado en MIL para el reconocimiento de acciones. Nuestro enfoque resulta muy tolerante al ruido, la variabilidad intra-clase y la similaridad inter-clase. El framework propuesto es simple y provee un mecanismo claro para regular la tolerancia al ruido, a la poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicas capturadas con cámaras de profundidad. En todos los casos, se trata de bases desafiantes. Los resultados muestran una comparación favorable de nuestras propuestas respecto al estado del arte.
Identificador:
http://digital.bl.fcen.uba.ar/gsdl-282/cgi-bin/library.cgi?a=d&c=tesis&d=Tesis_5922_Ubalde
Identificador único:
http://repositoriouba.sisbi.uba.ar/h/3006
Derechos:
info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-nd/2.5/ar/
Licencia de uso:
Licencia Creative Commons

Descargar texto: Tesis_5922_Ubalde.oai

Cita bibliográfica:

Ubalde, Sebastián  (2016-03-22).     Reconocimiento de acciones en videos de profundidad.  (Tesis Doctoral).    Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires.    [consultado:  ] Disponible en el Repositorio Digital Institucional de la Universidad de Buenos Aires:  <http://digital.bl.fcen.uba.ar/gsdl-282/cgi-bin/library.cgi?a=d&c=tesis&d=Tesis_5922_Ubalde>