PeopleSansPeople de Unity: Generador de datos humanos
La visión por computadora centrada en el ser humano ha visto grandes avances en los últimos años, ayudada por datos humanos etiquetados a gran escala. Sin embargo, las preocupaciones serias e importantes de privacidad, legales, de seguridad y éticas limitan la captura de datos humanos. Los conjuntos de datos existentes también conllevan sesgos introducidos en el momento de la recopilación de datos y la anotación de datos, que afectan negativamente a los modelos entrenados con dichos datos. Además, la mayoría de los datos humanos existentes no proporcionan un análisis adecuado de la diversidad de contenido, las actividades y poses humanas y el agnosticismo de dominio. Una alternativa emergente al uso de datos del mundo real que puede ayudar a aliviar algunos de estos problemas son los datos sintéticos. Sin embargo, la creación de generadores de datos sintéticos es un desafío, lo que ha impedido que la comunidad de visión por computadora aproveche los datos sintéticos. Además, los investigadores se han estado preguntando si los datos sintéticos pueden ayudar a reemplazar o complementar los datos existentes del mundo real, principalmente debido a la falta de un generador de datos altamente paramétrico y manipulable que pueda usarse como parte del entrenamiento del modelo en sí.
Motivado por los desafíos anteriores, Unity presenta PeopleSansPeople, que es un generador de datos centrado en el ser humano que contiene activos humanos 3D altamente paramétricos y listos para la simulación, iluminación parametrizada y sistema de cámara, generadores de entorno parametrizados y aleatorizadores de dominio totalmente manipulables y extensibles. PeopleSansPeople puede generar imágenes RGB con un cuadro delimitador 2D/3D perfecto para subpíxeles, puntos clave humanos compatibles con COCO y máscaras de segmentación semántica/de instancia en archivos de anotación JSON. Usando PeopleSansPeople se realizó un entrenamiento de datos sintéticos de referencia utilizando una variante Detectron2 Keypoint R-CNN. Se encontró que el entrenamiento previo de una red que utiliza datos sintéticos y el ajuste fino de los datos del mundo real objetivo (transferencia de pocas tomas a subconjuntos limitados de tren de personas COCO) dio como resultado un punto clave AP de 60.37±0.48 (en COCO test-dev2017) superando a los modelos entrenados con los mismos datos reales solos (punto clave AP de 55.80) y preentrenados con ImageNet (punto clave AP de 57.50).
PeopleSansPeople permitirá acelerarar la investigación sobre la utilidad de los datos sintéticos para la
visión por computadora centrada en el ser humano. Se creó PeopleSansPeople
teniendo en cuenta la necesidad de los investigadores de usar datos sintéticos
con aleatorización de dominio en tareas que involucran a personas como parte de
la clase objetivo. Se amplió el espacio de las capacidades del simulador en
dominios existentes y nuevos, como conducción autónoma y estimación de pose
humana, reconocimiento de acciones y seguimiento. Se anticipó que la línea de
investigación más emocionante con los datos de PeopleSansPeople implicará
generar datos sintéticos que conecten la simulación con el aprendizaje de
transferencia real (sim2real) y abordar la brecha de dominio entre los datos
sintéticos y reales.
PeopleSansLanzamiento de People
Unity ha lanzado dos versiones de
PeopleSansPeople:
1. Los
archivos binarios ejecutables de macOS y Linux. Se pueden usar para generar
conjuntos de datos a gran escala (1M+) con un archivo JSON de configuración
variable. Incluye:
· 28 modelos humanos 3D de diferentes edades y
etnias, con diferentes prendas de vestir (21.952 texturas de ropa únicas de 28
albedos, 28 máscaras y 28 normales).
· 39 clips de animación, con colocación, tamaño y rotación humanoides totalmente aleatorios, para generar diversos arreglos de personas.
· Ajustes de iluminación (posición, color, ángulo e intensidad) y cámara (posición, rotación, campo de visión, distancia focal) totalmente parametrizados.
· Un conjunto de primitivas de objetos para actuar como distractores y oclusores con texturas variables.
· Un conjunto de 1600 imágenes naturales del conjunto COCO sin etiquetar para actuar como fondos y texturas para objetos.
2. Proyecto
de plantilla de Unity. Ayuda a reducir
la barrera de entrada para la comunidad, permitiéndoles crear su propia versión
de un generador de datos centrado en el ser humano. Los usuarios pueden traer
sus propios activos 3D de origen a este entorno y aumentar sus capacidades,
modificando los aleatorizadores de dominio ya existentes o definiendo otros
nuevos. Este entorno viene con las funcionalidades completas descritas para los
archivos binarios anteriores:
·
4 ejemplos de modelos humanos 3D con diferentes
colores de ropa.
· 8 clips de animación de ejemplo, con colocación,
tamaño y rotación humanoides totalmente aleatorios, para generar diversos
arreglos de personas.
· Un conjunto de 529 imágenes naturales de
artículos de comestibles del paquete Unity Perception para actuar como fondos y
texturas para objetos.
No hay comentarios.