Verantwortliche KI und verbessertes Modelltraining bei Unity

SYLVIO DROUIN Anonymous

Nov 16, 2023|13 Min.

Verantwortliche KI und verbessertes Modelltraining bei Unity

Diese Website wurde aus praktischen Gründen für Sie maschinell übersetzt. Die Richtigkeit und Zuverlässigkeit des übersetzten Inhalts kann von uns nicht gewährleistet werden. Sollten Sie Zweifel an der Richtigkeit des übersetzten Inhalts haben, schauen Sie sich bitte die offizielle englische Version der Website an.

Klicken Sie hier.

Unity Muse unterstützt Sie mit leistungsstarken KI-Funktionen bei der Erkundung, Ideenfindung und Iteration. Zwei dieser Funktionen sind Texture und Sprite, die natürliche Sprache und visuelle Eingaben in verwertbare Assets umwandeln.

Die Einführung von KI in den Unity-Editor mit Muse bietet Ihnen die Möglichkeit, Ihre Visionen leichter umzusetzen, indem Sie Ideen schnell in etwas Greifbares verwandeln können. Sie können auch mit Textanweisungen, Mustern, Farben und Skizzen arbeiten, die sich in reale und projektreife Ergebnisse verwandeln lassen.

Um nützliche Ergebnisse zu liefern, die sicher und verantwortungsbewusst sind und die Urheberrechte anderer Urheber respektieren, haben wir uns selbst herausgefordert, unsere Trainingsmethoden für die KI-Modelle, die die Sprite- und Texturerzeugung von Muse unterstützen, zu erneuern.

In diesem Blog-Beitrag erfahren Sie, wie Muse Ergebnisse generiert, wie wir unsere Modellschulung durchführen und wie wir unsere beiden neuen Grundmodelle vorstellen.

Training von AI-Modellen

Mit der Einführung der Textur- und Sprite-Funktionen von Muse leisten wir auch Pionierarbeit bei zwei maßgeschneiderten Diffusionsmodellen, die jeweils von Grund auf mit proprietären Daten trainiert werden, die Unity gehören oder lizenziert sind.

Erweiterung unserer Bibliothek mit eigenen Inhalten

Eine Schlüsseltechnik, die wir einsetzen, um den Umfang und die Vielfalt unserer Datensätze zu vergrößern, ist die Datenerweiterung, die es uns ermöglicht, viele Variationen aus den ursprünglichen Datenproben der Einheit zu erzeugen. Dadurch werden unsere Trainingssätze erheblich erweitert und die Fähigkeit der Modelle zur Verallgemeinerung aus begrenzten Stichproben verbessert. Wir verwenden auch Techniken wie geometrische Transformationen, Farbraumanpassungen, Rauschinjektion und Stichprobenvariationen mit generativen Modellen, wie z. B. Stable Diffusion, um unseren Datensatz synthetisch zu erweitern.

Kürzlich wurde Stable Diffusion zum Gegenstand ethischer Bedenken, weil das Modell ursprünglich auf Daten aus dem Internet trainiert wurde. Wir haben uns nur begrenzt auf vortrainierte Modelle verlassen, da wir die Textur- und Sprite-Funktionen von Muse durch das Trainieren einer latenten Diffusionsmodellarchitektur von Grund auf auf Originaldatensätzen aufgebaut haben, die Unity besitzt und verantwortungsvoll kuratiert hat. Durch den minimalen Einsatz des Stable-Diffusion-Modells als Teil unserer Datenerweiterungstechniken konnten wir dieses Modell sicher nutzen, um unsere ursprüngliche Bibliothek von Assets im Besitz von Unity in ein robustes und vielfältiges Repository von Outputs zu erweitern, die einzigartig und originell sind und keine urheberrechtlich geschützten künstlerischen Stile enthalten. Darüber hinaus haben wir weitere Abhilfemaßnahmen getroffen, die wir weiter unten beschreiben werden. Unsere Trainingsdatensätze für die latenten Diffusionsmodelle, die den Textur- und Sprite-Funktionen von Muse zugrunde liegen, bestehen nicht aus Daten, die aus dem Internet stammen.

Nachfolgend finden Sie einige Beispiele für Inhalte, die durch die oben beschriebenen Augmentierungstechniken erweitert wurden.

Ein Beispiel für Originaldaten (oben links) und die sich daraus ergebenden synthetischen Variationen, die durch eine Mischung von Augmentierungstechniken erhalten wurden, die sowohl auf Störungen (Farbraumanpassungen, von oben nach unten) als auch auf Generierung (von links nach rechts) basieren.

Weitere Beispiele für Originaldaten (linke Spalten) und die daraus resultierenden synthetischen Variationen.

Nachdem wir unsere vorhandenen Daten ergänzt hatten, gab es immer noch Lücken in einer Reihe von Themen, die wir füllen mussten. Zu diesem Zweck haben wir Stable Diffusion mit unseren eigenen Inhalten trainiert, bis sich das Verhalten signifikant verändert hat. Mit diesen abgeleiteten Modellen haben wir völlig neue synthetische Daten mit einer vorgefilterten Liste von Probanden erstellt. Die Liste der Themen wurde sowohl von Menschen überprüft als auch mit Hilfe eines großen Sprachmodells (LLM) automatisch gefiltert, um sicherzustellen, dass wir keine synthetischen Bilder erstellen, die gegen unsere Leitprinzipien verstoßen und das Gegenteil von dem bewirken würden, was wir erreichen wollten: einen Datensatz ohne erkennbare künstlerische Stile, urheberrechtlich geschütztes Material und potenziell schädliche Inhalte.

Das Ergebnis waren zwei große Datensätze mit sowohl augmentierten als auch vollsynthetischen Bildern, bei denen wir sicher sein konnten, dass sie keine unerwünschten Konzepte enthalten würden. Doch so zuversichtlich wir auch waren, wir wollten noch mehr Filter hinzufügen, um die Sicherheit unserer Modelle zu gewährleisten.

Zusätzliche Datenfilterung für sichere und nützliche Ausgaben

Da unsere Hauptprioritäten Sicherheit, Datenschutz und die Sicherstellung, dass unsere Tools Ihnen ohne negative Auswirkungen helfen, waren, haben wir vier separate Klassifizierungsmodelle entwickelt, die für die zusätzliche Filterung von Datensätzen verantwortlich waren. Mit Hilfe dieser Modelle konnte sichergestellt werden, dass alle im Datensatz enthaltenen Inhalte den Standards entsprechen, die wir mit unseren KI-Leitprinzipien festgelegt haben, und dass die Bildqualität zusätzlich überprüft wurde.

Gemeinsam waren die Gutachtermodelle für die Bestimmung der synthetischen Bilder verantwortlich:

enthielt nicht die Merkmale eines erkennbaren Menschen
Enthielt keine nicht-generischen künstlerischen Stile
Enthielt keine IP-Zeichen oder -Logos
ein akzeptables Qualitätsniveau aufwiesen

Wenn ein Bild die von einem der vier Gutachtermodelle geforderte hohe Vertrauensschwelle nicht erreichte, wurde es aus unserem Datensatz entfernt. Wir beschlossen, vorsichtig zu sein und gewichteten unsere Modelle in Richtung Ablehnung, so dass nur die Bilder mit dem höchsten Vertrauen die Filter passieren und in den endgültigen Datensatz gelangen würden.

Wir stellen Ihnen unsere Modelle vor: Photo-Real-Unity-Texture-1 and Photo-Real-Unity-Sprite-1

Auf der Unite haben wir einen frühen Zugriff auf die Textur- und Sprite-Funktionen von Muse angekündigt. Die ersten Iterationen der Modelle, die diese Werkzeuge unterstützen, werden intern als Photo-Real-Unity-Texture-1 und Photo-Real-Unity-Sprite-1 bezeichnet. Diese Modelle sind so konzipiert, dass sie nur ein grundlegendes Verständnis von Stilisierung haben und in erster Linie auf Fotorealismus ausgerichtet sind.

Wenn Sie die Modelle so anleiten möchten, dass sie zu einem bestehenden Stil in Ihrem Projekt passen, können Sie unseren Modellen beibringen, wie sie Inhalte in einem bestimmten Kunststil erstellen, indem Sie unserem Stilschulungssystem eine Handvoll Ihrer eigenen Referenz-Assets zur Verfügung stellen. So entsteht ein kleines sekundäres Modell, das mit dem Hauptmodell zusammenarbeitet und dessen Ergebnisse steuert. Dieses kleine sekundäre Modell ist nur für Sie oder Ihre Organisation als Ausbilder bestimmt, und wir werden diese Inhalte niemals für die Ausbildung unserer Hauptmodelle verwenden.

Da unsere Modelle auf Fotorealismus ausgerichtet sind, mussten wir unsere Hauptmodelle nicht auf unzählige verschiedene Stile trainieren. Diese Architektur erleichtert das Trainieren der wichtigsten Modelle, während wir gleichzeitig unser Engagement für verantwortungsvolle KI beibehalten und Ihnen ein hohes Maß an künstlerischer Kontrolle bieten.

Die heutigen Modelle sind nur der Anfang. Wir erwarten, dass Muse weiterhin intelligenter wird und bessere Ergebnisse liefert, und wir werden die Modelle auf diesem Weg mit unseren Modellverbesserungsplänen begleiten.

Photo-Real-Unity-Texture-1 roadmap

Beispielausgaben unserer ersten Version von Photo-Real-Unity-Texture-1. Von links nach rechts: Metallschleim, blaue Kristallglasfelsen, roter Stoff, Bärenfell

Im Moment ist unser Texturmodell rundherum recht leistungsfähig. Es kennt eine beträchtliche Anzahl von Begriffen, und Sie können völlig unzusammenhängende Begriffe beliebig mischen und schöne Ergebnisse erzielen, wie z. B. "Metallschleim" oder "blaue Kristallglasfelsen", wie oben gezeigt.

Das Modell ist in seinem jetzigen Zustand zwar recht leistungsfähig, aber nachdem wir gelernt haben, wie es auf verschiedene Eingabeaufforderungen und Eingabemethoden reagiert, haben wir festgestellt, dass es schwierig sein kann, fortgeschrittene Materialkonzepte mit Ein-Wort-Eingabeaufforderungen zu erreichen. Es gibt zusätzliche Methoden, um das Modell so zu lenken, dass es Ihren Vorstellungen entspricht, aber wir möchten Ihnen weiterhin mehr Kontrolle geben, sowohl in Bezug auf die Genauigkeit der grundlegenden Eingabeaufforderungen als auch durch neue Methoden zur Steuerung des Modells.

Für die Zukunft planen wir eine Farbauswahl, zusätzliche vorgefertigte Orientierungsmuster, ein verbessertes System zur Erstellung eigener Orientierungsmuster und andere neue Methoden der visuellen Eingabe, mit denen wir derzeit experimentieren.

In Zukunft wird unser Hauptaugenmerk bei Photo-Real-Unity-Texture-1 darauf liegen, schwache Materialkonzepte zu identifizieren und die Gesamtqualität und -fähigkeit durch häufiges Nachtrainieren des Modells weiter zu verbessern. Ihr Feedback über das werkzeuginterne Bewertungssystem ist entscheidend für die Entwicklung des bestmöglichen Werkzeugs, da es uns hilft, Schwachstellen in den Fähigkeiten des Modells zu erkennen. In Verbindung mit unseren häufigen Schulungen verbessern wir das Modell rasch, so dass es einfacher zu bedienen ist und mehr Kenntnisse über die materielle Welt vermittelt.

Photo-Real-Unity-Sprite-1 roadmap

Beispielausgaben unserer ersten Version von Photo-Real-Unity-Sprite-1. Von links nach rechts: ein grüner Baum, ein Felsbrocken, ein Schwert, ein Fass

Ähnlich wie bei Photo-Real-Unity-Texture-1 ist unser grundlegendes Sprite-Modell insgesamt sehr leistungsfähig und kennt viele Konzepte. Da das Tool noch nicht über integrierte Animationsfunktionen verfügt, haben wir uns zunächst darauf konzentriert, die Qualität der am häufigsten verwendeten statischen Sprite-Konzepte zu optimieren. Die Rohdaten des Basismodells sind in der obigen Abbildung zu sehen. Im Normalfall werden diese durch ein vom Benutzer trainiertes Modell gesteuert, um einem bestimmten Kunststil zu entsprechen.

Während statische Objekte bereits recht zuverlässig sind, arbeiten wir noch daran, die anatomische Genauigkeit von Tieren und Menschen zu verbessern. Es ist möglich, bei dieser Art von Motiven gute Ergebnisse zu erzielen, allerdings kann es vorkommen, dass zusätzliche oder fehlende Gliedmaßen oder verzerrte Gesichter auftreten. Dies ist ein Nebeneffekt unseres Engagements für verantwortungsvolle KI und der strengen Beschränkung der Datenverwendung. Wir nehmen den Schutz der Privatsphäre und die Sicherheit ernst, auch wenn dies bei einigen Themen in unserer ersten Early-Access-Version zu Lasten der Qualität geht.

Dies ist ein Nebeneffekt unseres Engagements für verantwortungsvolle KI und der strengen Beschränkung der Datenverwendung. Wir nehmen den Schutz der Privatsphäre und die Sicherheit ernst, auch wenn dies bei einigen Themen in unserer ersten Early-Access-Version zu Lasten der Qualität geht.

Es können auch Fälle auftreten, in denen ein generiertes Sprite völlig leer ist. Dies wird durch unseren Filter zur Moderation visueller Inhalte verursacht. Wir haben uns entschieden, bei der anfänglichen Markteinführung übermäßig vorsichtig zu sein, wenn es um die Ausgabefilterung von Photo-Real-Unity-Sprite-1 geht, und daher können einige Kunststile falsche Positivmeldungen für den Filter auslösen. Wir beabsichtigen, die Beschränkungen im Laufe der Zeit zu lockern, da wir weiterhin Ihr Feedback erhalten und unseren Inhaltsfilter verbessern.

Wir gehen davon aus, dass die Qualität aller Themen in allen Bereichen rasch zunehmen wird, da wir Feedback erhalten und weiterhin mehr Daten auf verantwortungsvolle Weise beschaffen. Wir beabsichtigen, Photo-Real-Unity-Sprite-1 einem ähnlich strengen Trainingsplan zu unterziehen wie Photo-Real-Unity-Texture-1.

Der verantwortungsvolle Weg von Unity zur KI-gestützten Entwicklung

Unity Muse ist der erste Schritt auf dem Weg zu einer größeren kreativen Kontrolle für unsere Community mit der Kraft der generativen KI auf die verantwortungsvollste und respektvollste Art und Weise. Bei der Entwicklung dieses Produkts haben wir uns auf die Benutzer konzentriert, und wir möchten es auf der Grundlage Ihres Feedbacks weiter verändern und verbessern.

Wir sind uns der potenziellen Auswirkungen der generativen KI auf die Kreativbranche bewusst und nehmen sie sehr ernst. Wir haben uns bei der Entwicklung dieser Tools viel Zeit genommen, um sicherzustellen, dass wir die Ersteller nicht ersetzen, sondern Ihre Fähigkeiten verbessern. Wir glauben, dass die Welt ein besserer Ort ist, wenn es mehr Kreative in ihr gibt, und mit Unity Muse und den Modellen, die es antreiben, unterstützen wir weiterhin diese Mission.

Bleiben Sie dran für zukünftige Neuigkeiten über Unity Muse und KI-Entwicklung. Wenn Sie Fragen zu diesen Produkten haben, sehen Sie sich die FAQ auf unserer Website an, oder besuchen Sie Discussions, um direkt mit uns zu chatten.

Wenn Sie von der Unite 2023 hierher gekommen sind, werden wir in den kommenden Wochen Aufzeichnungen von Sitzungen der Veranstaltung veröffentlichen. Die vollständige Berichterstattung finden Sie hier.