Responsable de l'IA et de l'amélioration de la formation des modèles chez Unity

SYLVIO DROUIN Anonymous

Nov 16, 2023|13 Min

Responsable de l'IA et de l'amélioration de la formation des modèles chez Unity

Cette page a été traduite automatiquement pour faciliter votre expérience. Nous ne pouvons pas garantir l'exactitude ou la fiabilité du contenu traduit. Si vous avez des doutes quant à la qualité de cette traduction, reportez-vous à la version anglaise de la page web.

Cliquez ici.

Unity Muse vous permet d'explorer, d'idéaliser et d'itérer grâce à de puissantes capacités d'IA. Deux de ces capacités sont Texture et Sprite, qui transforment le langage naturel et les entrées visuelles en actifs utilisables.

L'introduction de l'IA dans l'éditeur Unity avec Muse vous offre la possibilité de réaliser votre vision plus facilement en transformant rapidement vos idées en quelque chose de tangible. Vous pouvez également ajuster et itérer avec des invites textuelles, des motifs, des couleurs et des croquis qui peuvent se transformer en résultats réels et prêts à être utilisés dans le cadre d'un projet.

Afin de fournir des résultats utiles qui soient sûrs, responsables et respectueux des droits d'auteur des autres créateurs, nous nous sommes mis au défi d'innover dans nos techniques d'entraînement pour les modèles d'IA qui alimentent la génération de sprites et de textures de Muse.

Dans ce billet de blog, nous expliquons comment Muse génère des résultats, nous dévoilons nos méthodologies de formation aux modèles et nous présentons nos deux nouveaux modèles de base.

Formation de modèles d'IA

Tout en développant les capacités de Muse en matière de textures et de sprites, nous sommes également en train de mettre au point deux modèles de diffusion sur mesure, chacun étant formé à partir de zéro sur des données exclusives appartenant à Unity ou sous licence.

Élargir notre bibliothèque de contenus propres

L'une des techniques clés que nous employons pour améliorer l'échelle et la variété de nos ensembles de données est l'augmentation des données, qui nous permet de produire de nombreuses variations à partir d'échantillons de données originaux appartenant à l'unité. Cela permet d'enrichir considérablement nos ensembles de formation et d'améliorer la capacité des modèles à se généraliser à partir d'échantillons limités. Nous utilisons également des techniques telles que les transformations géométriques, les ajustements de l'espace colorimétrique, l'injection de bruit et les variations d'échantillons avec des modèles génératifs, tels que la diffusion stable, afin d'élargir synthétiquement notre ensemble de données.

Récemment, la diffusion stable a fait l'objet de préoccupations éthiques parce que le modèle a été formé à l'origine à partir de données extraites d'Internet. Nous avons limité notre dépendance à l'égard des modèles pré-entraînés, car nous avons développé les capacités de Muse en matière de textures et de sprites en entraînant une architecture de modèle de diffusion latente à partir de zéro, sur des ensembles de données originaux dont Unity est propriétaire et qu'il a conservés de manière responsable. En utilisant le modèle de diffusion stable de manière minimale dans le cadre de nos techniques d'augmentation des données, nous avons pu exploiter ce modèle en toute sécurité pour élargir notre bibliothèque originale d'actifs appartenant à l'Unité en un référentiel robuste et diversifié de résultats qui sont uniques, originaux et ne contiennent aucun style artistique protégé par des droits d'auteur. Nous avons également appliqué des mesures d'atténuation supplémentaires que nous décrivons ci-dessous. Nos ensembles de données d'entraînement pour les modèles de diffusion latente qui sous-tendent les fonctionnalités Texture et Sprite de Muse ne comprennent aucune donnée récupérée sur Internet.

Vous trouverez ci-dessous quelques exemples de contenus enrichis grâce aux techniques d'enrichissement décrites ci-dessus.

Un échantillon de données originales (en haut à gauche) et les variations synthétiques obtenues grâce à un mélange de techniques d'augmentation, à la fois basées sur les perturbations (ajustements de l'espace colorimétrique, de haut en bas) et basées sur la génération (de gauche à droite).

Autres échantillons de données originales (colonnes de gauche) et leurs variations synthétiques résultantes.

Après avoir enrichi nos données existantes, nous avons constaté qu'il restait des lacunes à combler dans un certain nombre de domaines. Pour ce faire, nous avons entraîné la diffusion stable sur notre propre contenu jusqu'à ce que son comportement soit modifié de manière significative. À l'aide de ces modèles dérivés, nous avons créé des données synthétiques entièrement nouvelles en utilisant une liste de sujets préfiltrés. La liste des sujets a fait l'objet d'un examen humain et d'un filtrage automatisé supplémentaire à l'aide d'un grand modèle de langage (LLM) afin de garantir que nous n'avons pas tenté de créer des images synthétiques qui violeraient nos principes directeurs et iraient à l'encontre de ce que nous essayons de réaliser : un ensemble de données totalement dépourvu de styles artistiques reconnaissables, de matériel protégé par des droits d'auteur et de contenu potentiellement préjudiciable.

Il en est résulté deux grands ensembles de données d'images augmentées et entièrement synthétiques, dont nous étions convaincus qu'elles ne contiendraient pas de concepts indésirables. Cependant, aussi confiants que nous soyons, nous voulions encore ajouter un filtrage supplémentaire pour garantir la sécurité de nos modèles.

Filtrage supplémentaire des données pour des résultats sûrs et utiles

Nos principales priorités étant la sécurité, la protection de la vie privée et la garantie que nos outils vous aident sans avoir d'impact négatif, nous avons développé quatre modèles de classification distincts chargés de filtrer les ensembles de données supplémentaires. Ces modèles ont permis de s'assurer que l'ensemble du contenu de la base de données répondait aux normes que nous avons définies dans nos principes directeurs en matière d'intelligence artificielle, ainsi qu'à des contrôles supplémentaires de la qualité des images.

Ensemble, les modèles d'évaluation ont permis de déterminer que les images synthétiques :

ne présentait pas les caractéristiques d'un être humain reconnaissable
Ne contenait aucun style artistique non générique
Ne contenait aucun caractère ou logo de propriété intellectuelle
étaient d'un niveau de qualité acceptable

Si une image ne passait pas le seuil de confiance élevé requis par l'un des quatre modèles d'évaluateurs, elle était éliminée de notre ensemble de données. Nous avons décidé de pécher par excès de prudence et avons pondéré nos modèles en fonction du rejet, afin que seules les images les plus fiables passent les filtres et soient intégrées à l'ensemble de données final.

Présentation de nos modèles : Photo-Real-Unity-Texture-1 et Photo-Real-Unity-Sprite-1

Lors de la conférence Unite, nous avons annoncé un accès anticipé aux fonctionnalités Texture et Sprite de Muse. Les premières itérations des modèles qui alimentent ces outils sont appelées en interne Photo-Real-Unity-Texture-1 et Photo-Real-Unity-Sprite-1. Ces modèles sont conçus pour n'avoir qu'une compréhension de base de la stylisation et sont principalement axés sur le photoréalisme.

En outre, si vous souhaitez que les modèles correspondent à un style existant dans votre projet, vous pouvez leur apprendre à créer du contenu dans un style artistique spécifique en fournissant à notre système de formation une poignée de vos propres ressources de référence. Cela crée un petit modèle secondaire qui travaille en tandem avec le modèle principal pour guider ses résultats. Ce petit modèle secondaire est réservé à vous ou à votre organisation en tant que formateurs, et nous n'utiliserons jamais ce contenu pour former nos modèles principaux.

Nos modèles étant axés sur le photoréalisme, nous n'avons pas eu besoin d'entraîner nos principaux modèles sur un nombre incalculable de styles différents. Cette architecture facilite la formation des principaux modèles tout en maintenant notre engagement en faveur d'une IA responsable et en vous offrant un contrôle artistique approfondi.

Les modèles présentés aujourd'hui ne sont qu'un début. Nous nous attendons à ce que Muse continue à devenir plus intelligent et à fournir de meilleurs résultats, et nous guiderons les modèles sur cette voie grâce à nos feuilles de route d'amélioration des modèles.

Feuille de route de Photo-Real-Unity-Texture-1

Exemples de résultats de notre première version de Photo-Real-Unity-Texture-1. De gauche à droite : slime métallique, roches en cristal bleu, tissu rouge, fourrure d'ours.

Pour l'instant, notre modèle de texture est assez performant. Il connaît un grand nombre de concepts, et vous pouvez librement mélanger des concepts qui n'ont rien à voir entre eux et obtenir de beaux résultats, tels que "metal slime" ou "blue crystal glass rocks", comme illustré ci-dessus.

Bien que le modèle soit tout à fait capable dans son état actuel, après avoir appris comment il réagit à différentes invites et méthodes de saisie, nous avons observé qu'il peut être difficile d'obtenir des concepts matériels avancés avec des invites d'un seul mot. Il existe d'autres méthodes pour aider le modèle à atteindre votre vision, mais nous voulons continuer à vous donner plus de contrôle, à la fois en termes de précision des invites de base et en ajoutant de nouvelles méthodes pour guider le modèle.

À l'avenir, nous prévoyons d'ajouter un sélecteur de couleurs, d'autres modèles de guidage préétablis, un système amélioré pour créer vos propres modèles de guidage et d'autres nouvelles méthodes de saisie visuelle, que nous sommes en train d'expérimenter.

À l'avenir, notre objectif principal pour Photo-Real-Unity-Texture-1 est d'identifier tous les concepts matériels faibles et de continuer à améliorer la qualité et la capacité globales par le biais d'un recyclage fréquent du modèle. Votre retour d'information par le biais du système d'évaluation de l'outil est essentiel pour nous aider à construire le meilleur outil possible en nous aidant à identifier les points faibles dans les capacités du modèle. Combiné à notre programme de formation fréquent, nous améliorons rapidement le modèle, le rendant plus facile à utiliser et mieux informé sur le monde matériel.

Feuille de route de Photo-Real-Unity-Sprite-1

Exemples de résultats de notre première version de Photo-Real-Unity-Sprite-1. De gauche à droite : un arbre vert, un rocher, une épée, un tonneau

Comme Photo-Real-Unity-Texture-1, notre modèle de sprite fondamental est globalement très performant et connaît de nombreux concepts. Comme l'outil ne dispose pas encore de capacités d'animation intégrées, nous avons choisi de concentrer nos efforts initiaux sur l'optimisation de la qualité des concepts de sprites statiques les plus couramment utilisés. Vous pouvez voir les résultats bruts du modèle de base dans l'image ci-dessus. Dans le cadre d'une utilisation normale, ces derniers seraient guidés par un modèle formé par l'utilisateur pour correspondre à un style artistique spécifique.

Si les objets statiques sont déjà assez fiables, nous travaillons encore à l'amélioration de la précision anatomique des animaux et des humains. Il est possible d'obtenir de bons résultats sur ces types de sujets, mais vous pouvez rencontrer des cas de membres supplémentaires ou manquants ou de visages déformés. Il s'agit d'un effet secondaire de notre engagement en faveur d'une IA responsable et d'une limitation stricte des données pouvant être utilisées. Nous prenons le respect de la vie privée et la sécurité au sérieux, même au détriment de la qualité pour certains sujets dans notre version initiale d'accès anticipé.

Il s'agit d'un effet secondaire de notre engagement en faveur d'une IA responsable et d'une limitation stricte des données pouvant être utilisées. Nous prenons le respect de la vie privée et la sécurité au sérieux, même au détriment de la qualité pour certains sujets dans notre version initiale d'accès anticipé.

Il peut également arriver qu'un sprite généré soit complètement vide. Ce problème est dû à notre filtre de modération des contenus visuels. Nous avons choisi d'être trop prudents lors de notre lancement initial en ce qui concerne le filtrage de sortie sur Photo-Real-Unity-Sprite-1, et, par conséquent, certains styles d'art peuvent déclencher des faux positifs sur le filtre. Nous avons l'intention d'assouplir les restrictions au fur et à mesure que nous recevons vos commentaires et que nous améliorons notre filtre de contenu.

Nous nous attendons à ce que la qualité de tous les sujets augmente rapidement au fur et à mesure que nous recevons des informations en retour et que nous continuons à obtenir davantage de données de manière responsable. Nous avons l'intention de soumettre Photo-Real-Unity-Sprite-1 à un programme d'entraînement aussi rigoureux que Photo-Real-Unity-Texture-1.

La voie responsable d'Unity vers un développement optimisé par l'IA

Unity Muse est notre première étape pour apporter un plus grand contrôle créatif à notre communauté avec la puissance de l'IA générative de la manière la plus responsable et la plus respectueuse possible. Nous avons conçu ce produit en mettant l'accent sur l'utilisateur, et nous souhaitons continuer à le modifier et à l'améliorer en fonction de vos commentaires.

Nous sommes conscients de l'impact potentiel de l'IA générative sur l'industrie créative, et nous prenons cela très au sérieux. Nous avons pris le temps de développer ces outils afin de nous assurer que nous ne remplaçons pas les créateurs, mais que nous améliorons au contraire vos capacités. Nous pensons que le monde est meilleur s'il y a plus de créateurs, et avec Unity Muse et les modèles qui l'alimentent, nous continuons à soutenir cette mission.

Restez à l'écoute des nouvelles concernant Unity Muse et le développement de l'IA. Si vous avez des questions sur ces produits, consultez la FAQ sur notre site web, ou visitez le site Discussions pour discuter directement avec nous.

Si vous êtes venu ici après avoir assisté à Unite 2023, nous partagerons les enregistrements des sessions de l'événement dans les semaines à venir. Vous pouvez consulter l'intégralité de la couverture ici.