在 Unity 负责人工智能和增强模型培训

SYLVIO DROUIN Anonymous

Nov 16, 2023|13 Min

为方便起见，此网页已进行机器翻译。我们无法保证翻译内容的准确性或可靠性。如果您对翻译内容的准确性有疑问，请参阅此网页的官方英文版本。

请点击这里。

Unity Muse利用强大的人工智能功能帮助您进行探索、构思和迭代。其中两项功能是 Texture 和 Sprite，可将自然语言和视觉输入转化为可用资产。

通过将人工智能引入 Muse 的Unity 编辑器，您可以更轻松地实现自己的愿景，将创意快速转化为有形的东西。您还可以通过文字提示、图案、颜色和草图进行调整和迭代，将其转化为可用于项目的真实输出。

为了提供安全、负责、尊重其他创作者版权的有用输出，我们挑战自己，在为 Muse 的精灵和纹理生成提供动力的人工智能模型的训练技术方面进行创新。

在这篇博文中，我们将分享 Muse 如何生成结果，解读我们的模型训练方法，并介绍我们的两个新基础模型。

训练人工智能模型

在首次推出 Muse 的 "纹理 "和 "雪碧 "功能的同时，我们还率先推出了两个定制的扩散模型，每个模型都是根据 Unity 拥有或授权的专有数据从头开始训练的。

扩展我们的自有内容库

为扩大数据集的规模和多样性，我们采用了一项关键技术，即数据扩增技术。这极大地丰富了我们的训练集，增强了模型从有限样本中归纳的能力。我们还利用几何变换、色彩空间调整、噪声注入和样本变化等技术，以及稳定扩散等生成模型，来合成扩展我们的数据集。

最近，"稳定扩散 "引起了道德方面的关注，因为该模型最初是根据从互联网上搜刮来的数据进行训练的。我们限制了对预训练模型的依赖，因为我们是在 Unity 拥有并负责任地管理的原始数据集上，通过从头开始训练潜在扩散模型架构来构建 Muse 的纹理和雪花精灵功能的。通过将稳定扩散模型作为我们数据扩充技术的一部分，我们能够安全地利用这一模型，将我们原有的统一资产库扩充为一个强大而多样化的输出库，这些输出是独一无二的、原创的，并且不包含任何受版权保护的艺术风格。在此基础上，我们还采用了其他缓解措施，下文将对此进行介绍。我们为 Muse 的 "纹理 "和 "雪碧 "功能所支持的潜在扩散模型提供的训练数据集不包括任何从互联网上搜刮的数据。

以下是通过上述增强技术扩展内容的一些例子。

原始数据样本（左上），以及通过混合使用基于扰动（色彩空间调整，从上到下）和基于生成（从左到右）的增强技术获得的合成变化。

在扩充现有数据后，我们仍需填补一系列主题方面的空白。为此，我们对自己的内容进行了稳定扩散训练，直到其行为发生显著变化。利用这些衍生模型，我们创建了全新的合成数据，使用的是经过预过滤的受试者名单。受试者名单经过了人工审核和使用大型语言模型（LLM）进行的额外自动过滤，以确保我们不会试图创建任何合成图像，从而违反我们的指导原则和我们试图实现的目标：一个完全没有可识别艺术风格、版权材料和潜在有害内容的数据集。

最终，我们得到了两个包含增强图像和全合成图像的大型数据集，我们坚信这两个数据集不会包含不需要的概念。不过，尽管我们很有信心，但我们仍然希望增加更多的过滤功能，以确保模特的安全。

附加数据过滤功能，实现安全有用的输出

由于我们的首要任务是安全、隐私，并确保我们的工具在帮助您的同时不会产生负面影响，因此我们开发了四个独立的分类器模型，负责额外的数据集过滤。这些模型有助于确保数据集中包含的所有内容都符合我们根据人工智能指导原则制定的标准，并对图像质量进行额外检查。

审查员模型共同负责确定合成图像：

不包含任何可识别人类的特征
不包含任何非通用的艺术风格
不包含任何知识产权字符或徽标
质量达到可接受水平

如果一幅图像没有通过四个审稿人模型中任何一个模型所要求的高置信度阈值，我们就会将其从数据集中剔除。我们决定谨慎行事，将我们的模型加权为剔除模型，这样只有置信度最高的图像才能通过过滤器，进入最终数据集。

介绍我们的模型照片-真实-统一-纹理-1 和照片-真实-统一-尖晶石-1

在 Unite 大会上，我们宣布 Muse 的纹理和雪花膏功能可以提前使用。为这些工具提供动力的第一批迭代模型在内部被称为 "Photo-Real-Unity-Texture-1"和"Photo-Real-Unity-Sprite-1"。这些模型的设计仅对造型有基本了解，主要侧重于逼真。

此外，如果您希望引导模型与您项目中的现有风格相匹配，您可以向我们的风格培训系统提供一些您自己的参考资产，教我们的模型如何以特定的艺术风格创建内容。这就创建了一个小型辅助模型，与主模型协同工作，指导其输出。这个小型辅助模型是您或您的组织作为其培训师的私有财产，我们绝不会将这些内容用于培训我们的主要模型。

由于我们的模型侧重于逼真度，因此我们不必在无数不同风格的模型上训练我们的主要模型。这种架构使主要模型的训练变得更容易，同时保持了我们对负责任的人工智能的承诺，并为您提供了深层次的艺术控制。

今天的这些模型只是一个开始。我们希望 Muse 能够继续变得更加智能，提供更好的输出，我们将通过模型改进路线图来引导模型走上这条道路。

照片-真实-统一-纹理-1 路线图

第一版 Photo-Real-Unity-Texture-1 的输出样本。从左至右：金属粘液、蓝色水晶玻璃石、红色织物、小熊毛皮

目前，我们的纹理模型在各方面都相当出色。它知道大量的概念，你可以随意混合完全不相关的概念，并获得美丽的结果，如上图所示的 "金属粘液 "或 "蓝色水晶玻璃岩石"。

虽然该模型在目前的状态下能力很强，但在了解了它对不同提示和输入方法的反应后，我们发现单词提示可能很难实现高级材料概念。还有一些其他方法可以帮助引导模型实现您的愿景，但我们希望继续为您提供更多控制权，包括基本提示的准确性，以及增加引导模型的新方法。

未来，我们计划添加颜色选择器、更多预制引导模式、用于创建自己的引导模式的改进系统，以及其他新的视觉输入方法，目前我们正在进行试验。

展望未来，我们对 "Photo-Real-Unity-Texture-1 "的主要关注点是找出任何薄弱的材料概念，并通过对模型进行频繁的再训练来继续提高整体质量和能力。您通过工具内评级系统提供的反馈意见至关重要，它可以帮助我们找出模型功能中的薄弱环节，从而打造出最好的工具。再加上我们频繁的培训计划，我们正在快速改进模型，使其更易于使用，更了解物质世界。

Photo-Real-Unity-Sprite-1 roadmap

第一版 Photo-Real-Unity-Sprite-1 的输出样本。从左到右：一棵绿树、一块巨石、一把剑、一个木桶

与《Photo-Real-Unity-Texture-1》类似，我们的基础精灵模型总体上能力很强，知道很多概念。由于该工具尚不具备内置动画功能，我们选择将初期工作重点放在最大限度地提高最常用的静态精灵概念的质量上。您可以在上图中看到基本模型的原始输出结果。在正常使用中，这些将由用户训练的模型引导，以匹配特定的艺术风格。

虽然静态物体已经相当可靠，但我们仍在努力提高动物和人类的解剖精确度。在拍摄这类题材时有可能获得不错的效果，但可能会出现肢体多出或缺失或脸部变形的情况。这是我们致力于负责任的人工智能以及严格限制使用数据的副作用。我们非常重视隐私和安全问题，甚至不惜牺牲初期发布的某些主题的质量。

这是我们致力于负责任的人工智能以及严格限制使用数据的副作用。我们非常重视隐私和安全问题，甚至不惜牺牲初期发布的某些主题的质量。

您还可能遇到生成的精灵完全空白的情况。这是我们的视觉内容审核过滤器造成的。在最初推出时，我们对 "Photo-Real-Unity-Sprite-1 "的输出过滤过于谨慎，因此某些艺术风格可能会在过滤器上触发误报。随着我们不断收到您的反馈并改进内容过滤器，我们打算逐步放宽限制。

随着我们获得反馈并继续以负责任的方式获取更多数据，我们预计所有科目的质量都将迅速提高。我们打算让 Photo-Real-Unity-Sprite-1 接受与 Photo-Real-Unity-Texture-1 类似的严格训练。

Unity 负责任的人工智能强化开发之路

Unity Muse 是我们迈出的第一步，我们将以最负责任、最尊重他人的方式，借助人工智能的力量，为我们的社区带来更大的创意控制权。我们的产品以用户至上为宗旨，并将根据您的反馈意见不断改进和完善。

我们认识到生成式人工智能对创意产业的潜在影响，并对此非常重视。我们在开发这些工具时花了很多时间，以确保我们不会取代创作者，而是提高您的能力。我们相信，有更多的创作者在，世界会变得更美好，而通过 Unity Muse 及其支持的模型，我们将继续支持这一使命。

敬请关注有关Unity Muse和人工智能开发的未来新闻。如果您对这些产品有任何疑问，请查看我们网站上的常见问题，或访问讨论区与我们直接对话。

如果您是从 Unite 2023 来这里的，我们将在未来几周内分享活动的会议录音。您可以在这里找到完整的报道。