PeopleSansPeople de Unity: Generador de datos humanos

La visión por computadora centrada en el ser humano ha visto grandes avances en los últimos años, ayudada por datos humanos etiquetados a gran escala. Sin embargo, las preocupaciones serias e importantes de privacidad, legales, de seguridad y éticas limitan la captura de datos humanos. Los conjuntos de datos existentes también conllevan sesgos introducidos en el momento de la recopilación de datos y la anotación de datos, que afectan negativamente a los modelos entrenados con dichos datos. Además, la mayoría de los datos humanos existentes no proporcionan un análisis adecuado de la diversidad de contenido, las actividades y poses humanas y el agnosticismo de dominio. Una alternativa emergente al uso de datos del mundo real que puede ayudar a aliviar algunos de estos problemas son los datos sintéticos. Sin embargo, la creación de generadores de datos sintéticos es un desafío, lo que ha impedido que la comunidad de visión por computadora aproveche los datos sintéticos. Además, los investigadores se han estado preguntando si los datos sintéticos pueden ayudar a reemplazar o complementar los datos existentes del mundo real, principalmente debido a la falta de un generador de datos altamente paramétrico y manipulable que pueda usarse como parte del entrenamiento del modelo en sí.

Motivado por los desafíos anteriores, Unity presenta PeopleSansPeople, que es un generador de datos centrado en el ser humano que contiene activos humanos 3D altamente paramétricos y listos para la simulación, iluminación parametrizada y sistema de cámara, generadores de entorno parametrizados y aleatorizadores de dominio totalmente manipulables y extensibles. PeopleSansPeople puede generar imágenes RGB con un cuadro delimitador 2D/3D perfecto para subpíxeles, puntos clave humanos compatibles con COCO y máscaras de segmentación semántica/de instancia en archivos de anotación JSON. Usando PeopleSansPeople se realizó un entrenamiento de datos sintéticos de referencia utilizando una variante Detectron2 Keypoint R-CNN. Se encontró que el entrenamiento previo de una red que utiliza datos sintéticos y el ajuste fino de los datos del mundo real objetivo (transferencia de pocas tomas a subconjuntos limitados de tren de personas COCO) dio como resultado un punto clave AP de 60.37±0.48 (en COCO test-dev2017) superando a los modelos entrenados con los mismos datos reales solos (punto clave AP de 55.80) y preentrenados con ImageNet (punto clave AP de 57.50).

PeopleSansPeople permitirá acelerarar la investigación sobre la utilidad de los datos sintéticos para la visión por computadora centrada en el ser humano. Se creó PeopleSansPeople teniendo en cuenta la necesidad de los investigadores de usar datos sintéticos con aleatorización de dominio en tareas que involucran a personas como parte de la clase objetivo. Se amplió el espacio de las capacidades del simulador en dominios existentes y nuevos, como conducción autónoma y estimación de pose humana, reconocimiento de acciones y seguimiento. Se anticipó que la línea de investigación más emocionante con los datos de PeopleSansPeople implicará generar datos sintéticos que conecten la simulación con el aprendizaje de transferencia real (sim2real) y abordar la brecha de dominio entre los datos sintéticos y reales.

PeopleSansLanzamiento de People

Unity ha lanzado dos versiones de PeopleSansPeople:

1. Los archivos binarios ejecutables de macOS y Linux. Se pueden usar para generar conjuntos de datos a gran escala (1M+) con un archivo JSON de configuración variable. Incluye:

· 28 modelos humanos 3D de diferentes edades y etnias, con diferentes prendas de vestir (21.952 texturas de ropa únicas de 28 albedos, 28 máscaras y 28 normales).

· 39 clips de animación, con colocación, tamaño y rotación humanoides totalmente aleatorios, para generar diversos arreglos de personas.

· Ajustes de iluminación (posición, color, ángulo e intensidad) y cámara (posición, rotación, campo de visión, distancia focal) totalmente parametrizados.

· Un conjunto de primitivas de objetos para actuar como distractores y oclusores con texturas variables.

· Un conjunto de 1600 imágenes naturales del conjunto COCO sin etiquetar para actuar como fondos y texturas para objetos.

2. Proyecto de plantilla de Unity. Ayuda a reducir la barrera de entrada para la comunidad, permitiéndoles crear su propia versión de un generador de datos centrado en el ser humano. Los usuarios pueden traer sus propios activos 3D de origen a este entorno y aumentar sus capacidades, modificando los aleatorizadores de dominio ya existentes o definiendo otros nuevos. Este entorno viene con las funcionalidades completas descritas para los archivos binarios anteriores:

· 4 ejemplos de modelos humanos 3D con diferentes colores de ropa.

· 8 clips de animación de ejemplo, con colocación, tamaño y rotación humanoides totalmente aleatorios, para generar diversos arreglos de personas.

· Un conjunto de 529 imágenes naturales de artículos de comestibles del paquete Unity Perception para actuar como fondos y texturas para objetos.