IA responsable y formación mejorada de modelos en Unity

Unity Muse le ayuda a explorar, idear e iterar con potentes funciones de IA. Dos de estas capacidades son Texture y Sprite, que transforman el lenguaje natural y las entradas visuales en activos utilizables.
La introducción de la IA en el editor de Unity con Muse le ofrece la posibilidad de hacer realidad su visión con mayor facilidad al poder transformar rápidamente las ideas en algo tangible. También puede ajustar e iterar con indicaciones de texto, patrones, color y bocetos que pueden transformarse en resultados reales y listos para el proyecto.
Con el fin de proporcionar resultados útiles que sean seguros, responsables y respetuosos con los derechos de autor de otros creadores, nos retamos a nosotros mismos a innovar en nuestras técnicas de entrenamiento para los modelos de IA que impulsan la generación de sprites y texturas de Muse.
En esta entrada de blog, compartimos cómo Muse genera resultados, explicamos nuestras metodologías de formación de modelos y presentamos nuestros dos nuevos modelos básicos.
Al tiempo que estrenamos las funciones de texturas y sprites de Muse, también estamos desarrollando dos modelos de difusión a medida, cada uno de ellos entrenado desde cero a partir de datos propiedad de Unity o bajo licencia.
Una técnica clave que empleamos para aumentar la escala y la variedad de nuestros conjuntos de datos es el aumento de datos, que nos permite producir muchas variaciones a partir de muestras de datos originales de Unity. Esto enriquece considerablemente nuestros conjuntos de entrenamiento y mejora la capacidad de los modelos para generalizar a partir de muestras limitadas. También utilizamos técnicas como transformaciones geométricas, ajustes del espacio de color, inyección de ruido y variaciones de muestras con modelos generativos, como Stable Diffusion, para ampliar sintéticamente nuestro conjunto de datos.
Recientemente, la difusión estable ha suscitado preocupaciones éticas porque el modelo se entrenó originalmente con datos extraídos de Internet. Hemos limitado nuestra dependencia de modelos preentrenados, ya que hemos creado las funciones de texturas y sprites de Muse entrenando una arquitectura de modelo de difusión latente desde cero, en conjuntos de datos originales que Unity posee y ha conservado de forma responsable. Al utilizar mínimamente el modelo de difusión estable como parte de nuestras técnicas de aumento de datos, pudimos aprovechar con seguridad este modelo para ampliar nuestra biblioteca original de activos propiedad de Unity y convertirla en un repositorio sólido y diverso de resultados que son únicos, originales y no contienen ningún estilo artístico protegido por derechos de autor. Además, hemos aplicado otras medidas de mitigación que describiremos a continuación. Nuestros conjuntos de datos de entrenamiento para los modelos de difusión latente en los que se basan las funciones Texture y Sprite de Muse no incluyen datos extraídos de Internet.
A continuación se ofrecen algunos ejemplos de contenidos ampliados mediante las técnicas de aumento descritas anteriormente.


Tras ampliar los datos existentes, seguían existiendo lagunas en una serie de temas que debíamos cubrir. Para ello, entrenamos Stable Diffusion con nuestros propios contenidos hasta que su comportamiento cambió significativamente. A partir de estos modelos derivados, creamos datos sintéticos totalmente nuevos utilizando una lista prefiltrada de sujetos. La lista de temas se sometió a una revisión humana y a un filtrado automatizado adicional mediante un gran modelo de lenguaje (LLM) para asegurarnos de que no intentábamos crear ninguna imagen sintética que pudiera violar nuestros principios rectores e ir en contra de lo que intentábamos conseguir: un conjunto de datos completamente desprovisto de estilos artísticos reconocibles, materiales protegidos por derechos de autor y contenidos potencialmente nocivos.
El resultado fueron dos grandes conjuntos de datos de imágenes aumentadas y totalmente sintéticas, en los que teníamos una gran confianza de que no contendrían conceptos no deseados. Sin embargo, por muy seguros que estuviéramos, queríamos añadir aún más filtros para garantizar la seguridad de nuestros modelos.
Dado que nuestras principales prioridades eran la seguridad, la privacidad y garantizar que nuestras herramientas le ayudaran sin repercusiones negativas, desarrollamos cuatro modelos de clasificación independientes que se encargaban de filtrar los conjuntos de datos adicionales. Estos modelos ayudaron a garantizar que todos los contenidos del conjunto de datos cumplían las normas que establecimos con nuestros principios rectores de la IA, así como comprobaciones adicionales de la calidad de las imágenes.
Juntos, los modelos revisores se encargaron de determinar que las imágenes sintéticas:
- No contenía los rasgos de ningún humano reconocible
- No contenía estilos artísticos no genéricos
- No contenía caracteres ni logotipos de propiedad intelectual
- tenían un nivel de calidad aceptable
Si una imagen no superaba el umbral de alta confianza exigido por alguno de los cuatro modelos de revisor, se descartaba de nuestro conjunto de datos. Decidimos pecar de precavidos y ponderar nuestros modelos hacia el rechazo, de modo que sólo las imágenes con la mayor confianza pasaran los filtros y llegaran al conjunto de datos final.
En Unite, anunciamos el acceso anticipado a las funciones de texturas y sprites de Muse. Las primeras iteraciones de los modelos que hacen funcionar estas herramientas se denominan internamente Photo-Real-Unity-Texture-1 y Photo-Real-Unity-Sprite-1. Estos modelos están diseñados para tener sólo una comprensión básica de la estilización y se centran principalmente en el fotorrealismo.
Además, si desea guiar a los modelos para que se ajusten a un estilo existente en su proyecto, puede enseñar a nuestros modelos a crear contenido en un estilo artístico específico proporcionando a nuestro sistema de formación de estilo un puñado de sus propios activos de referencia. Así se crea un pequeño modelo secundario que funciona en tándem con el modelo principal para orientar sus resultados. Este pequeño modelo secundario es privado para usted o su organización como sus formadores, y nunca utilizaremos este contenido para formar a nuestros modelos principales.
Como nuestros modelos se centran en el fotorrealismo, no tuvimos que entrenar nuestros modelos principales en innumerables estilos diferentes. Esta arquitectura facilita el entrenamiento de los modelos principales manteniendo nuestro compromiso con la IA responsable y, al mismo tiempo, ofreciéndole un profundo nivel de control artístico.
Estos modelos de hoy son sólo el principio. Esperamos que Muse siga haciéndose más inteligente y proporcionando mejores resultados, y guiaremos a los modelos en este camino con nuestras hojas de ruta de mejora de modelos.

Por el momento, nuestro modelo de textura es bastante capaz en todos los aspectos. Conoce una cantidad significativa de conceptos, y puede mezclar libremente conceptos completamente inconexos y lograr resultados hermosos, como "limo metálico" o "rocas de cristal azul", como se muestra arriba.
Aunque el modelo es bastante capaz en su estado actual, después de aprender cómo responde a diferentes indicaciones y métodos de entrada, hemos observado que puede ser difícil alcanzar conceptos materiales avanzados con indicaciones de una sola palabra. Existen métodos adicionales para ayudar a guiar al modelo a alcanzar su visión, pero queremos seguir dándole más control, tanto en términos de precisión de las indicaciones básicas como añadiendo nuevos métodos para guiar al modelo.
En el futuro, tenemos previsto añadir un selector de colores, patrones de guía prefabricados adicionales, un sistema mejorado para crear sus propios patrones de guía y otros métodos nuevos de entrada visual, con los que estamos experimentando actualmente.
De cara al futuro, nuestro principal objetivo para Photo-Real-Unity-Texture-1 es identificar los conceptos materiales débiles y seguir mejorando la calidad y la capacidad generales mediante el reentrenamiento frecuente del modelo. Sus comentarios a través del sistema de calificación de la herramienta son fundamentales para ayudarnos a crear la mejor herramienta posible, ya que nos ayudan a identificar los puntos débiles de las capacidades del modelo. Combinado con nuestro frecuente programa de formación, estamos mejorando rápidamente el modelo, haciéndolo más fácil de usar y más conocedor del mundo material.

De forma similar a Photo-Real-Unity-Texture-1, nuestro modelo de sprite fundacional es en general muy capaz y conoce muchos conceptos. Dado que la herramienta aún no incorpora funciones de animación, hemos optado por centrar nuestros esfuerzos iniciales en maximizar la calidad de los conceptos de sprite estático más utilizados. Puede ver los resultados brutos del modelo base en la imagen superior. En un uso normal, se guiarían por un modelo entrenado por el usuario para ajustarse a un estilo artístico específico.
Aunque los objetos estáticos ya son bastante fiables, seguimos trabajando para mejorar la precisión anatómica de animales y humanos. Es posible obtener buenos resultados en este tipo de sujetos, aunque puede encontrarse con casos de extremidades sobrantes o faltantes o rostros distorsionados. Este es un efecto secundario de nuestro compromiso con la IA responsable y de tener limitaciones estrictas sobre qué datos se pueden utilizar. Nos tomamos muy en serio la privacidad y la seguridad, incluso a expensas de la calidad de algunos temas en nuestra versión inicial de acceso anticipado.
Este es un efecto secundario de nuestro compromiso con la IA responsable y de tener limitaciones estrictas sobre qué datos se pueden utilizar. Nos tomamos muy en serio la privacidad y la seguridad, incluso a expensas de la calidad de algunos temas en nuestra versión inicial de acceso anticipado.
También puede darse el caso de que un sprite generado esté completamente en blanco. Esto se debe a nuestro filtro de moderación de contenido visual. Hemos optado por ser excesivamente cautos durante nuestro lanzamiento inicial en lo que se refiere al filtrado de salida en Photo-Real-Unity-Sprite-1 y, como resultado, algunos estilos artísticos pueden provocar falsos positivos en el filtro. Tenemos la intención de suavizar las restricciones con el tiempo a medida que sigamos recibiendo sus comentarios y mejorando nuestro filtro de contenidos.
Esperamos que la calidad de todos los temas en general aumente rápidamente a medida que recibamos comentarios y sigamos obteniendo más datos de forma responsable. Tenemos la intención de someter a Photo-Real-Unity-Sprite-1 a un programa de entrenamiento tan riguroso como el de Photo-Real-Unity-Texture-1.
Unity Muse es nuestro primer paso para aportar un mayor control creativo a nuestra comunidad con el poder de la IA generativa de la forma más responsable y respetuosa posible. Hemos creado este producto pensando primero en el usuario, y nuestro objetivo es seguir cambiando y mejorando en función de sus comentarios.
Reconocemos el impacto potencial de la IA generativa en la industria creativa, y nos lo tomamos muy en serio. Nos hemos tomado nuestro tiempo a la hora de desarrollar estas herramientas para asegurarnos de que no sustituimos a los creadores, sino que potenciamos sus capacidades. Creemos que el mundo es un lugar mejor con más creadores en él, y con Unity Muse y los modelos que lo impulsan, seguimos apoyando esta misión.
Permanezca atento a futuras noticias sobre Unity Muse y el desarrollo de IA. Si tiene alguna pregunta sobre estos productos, consulte las preguntas frecuentes en nuestro sitio web, o visite Discusiones para charlar directamente con nosotros.
Si ha llegado aquí desde Unite 2023, en las próximas semanas compartiremos las grabaciones de las sesiones del evento. Puede encontrar la cobertura completa aquí.
