IA responsável e treinamento de modelo aprimorado na Unity

SYLVIO DROUIN Anonymous
Nov 16, 2023|13 Min
IA responsável e treinamento de modelo aprimorado na Unity
Esta página da Web foi automaticamente traduzida para sua conveniência. Não podemos garantir a precisão ou a confiabilidade do conteúdo traduzido. Se tiver dúvidas sobre a precisão do conteúdo traduzido, consulte a versão oficial em inglês da página da Web.

O Unity Muse ajuda você a explorar, idealizar e iterar com poderosos recursos de IA. Dois desses recursos são o Texture e o Sprite, que transformam a linguagem natural e as entradas visuais em ativos utilizáveis.

A introdução da IA no Unity Editor com o Muse oferece a você a opção de realizar sua visão com mais facilidade, podendo transformar rapidamente as ideias em algo tangível. Você também pode ajustar e iterar com prompts de texto, padrões, cores e esboços que podem se transformar em resultados reais e prontos para o projeto.

Para fornecer resultados úteis que sejam seguros, responsáveis e respeitem os direitos autorais de outros criadores, nós nos desafiamos a inovar em nossas técnicas de treinamento para os modelos de IA que alimentam a geração de sprite e textura do Muse.

Nesta postagem do blog, compartilhamos como o Muse gera resultados, desvendamos nossas metodologias de treinamento de modelos e apresentamos nossos dois novos modelos básicos.

Treinamento de modelos de IA

À medida que estreamos os recursos de textura e sprite do Muse, também estamos sendo pioneiros em dois modelos de difusão personalizados, cada um deles treinado do zero em dados proprietários que pertencem ou são licenciados pela Unity.

Expansão de nossa biblioteca de conteúdo próprio

Uma das principais técnicas que empregamos para aumentar a escala e a variedade de nossos conjuntos de dados é o aumento de dados, que nos permite produzir muitas variações a partir de amostras de dados originais de propriedade da Unity. Isso enriquece significativamente nossos conjuntos de treinamento e aumenta a capacidade dos modelos de generalizar a partir de amostras limitadas. Também utilizamos técnicas como transformações geométricas, ajustes de espaço de cores, injeção de ruído e variações de amostras com modelos generativos, como o Stable Diffusion, para expandir sinteticamente nosso conjunto de dados.

Recentemente, o Stable Diffusion foi objeto de preocupações éticas porque o modelo foi originalmente treinado com dados extraídos da Internet. Limitamos nossa dependência de modelos pré-treinados à medida que desenvolvemos os recursos de textura e sprite do Muse treinando uma arquitetura de modelo de difusão latente do zero, em conjuntos de dados originais que a Unity possui e que foram curados de forma responsável. Ao usar minimamente o modelo Stable Diffusion como parte de nossas técnicas de aumento de dados, conseguimos aproveitar com segurança esse modelo para expandir nossa biblioteca original de ativos de propriedade da Unity em um repositório robusto e diversificado de resultados que são exclusivos, originais e não contêm nenhum estilo artístico protegido por direitos autorais. Além disso, aplicamos mitigações adicionais que descreveremos a seguir. Nossos conjuntos de dados de treinamento para os modelos de difusão latente que sustentam os recursos Texture e Sprite do Muse não incluem nenhum dado extraído da Internet.

Abaixo estão alguns exemplos de conteúdo expandido por meio das técnicas de aumento descritas acima.

Uma amostra de dados originais (canto superior esquerdo) e variações sintéticas resultantes obtidas por meio de uma combinação de técnicas de aumento, tanto baseadas em perturbação (ajustes de espaço de cores, de cima para baixo) quanto em geração (da esquerda para a direita).
Uma amostra de dados originais (canto superior esquerdo) e variações sintéticas resultantes obtidas por meio de uma combinação de técnicas de aumento, tanto baseadas em perturbação (ajustes de espaço de cores, de cima para baixo) quanto em geração (da esquerda para a direita).
Outras amostras de dados originais (colunas da esquerda) e suas variações sintéticas resultantes.
Outras amostras de dados originais (colunas da esquerda) e suas variações sintéticas resultantes.

Depois de aumentar nossos dados existentes, ainda havia lacunas em uma série de assuntos que precisávamos preencher. Para isso, treinamos o Stable Diffusion em nosso próprio conteúdo até que seu comportamento fosse significativamente alterado. Usando esses modelos derivados, criamos dados sintéticos totalmente novos usando uma lista pré-filtrada de assuntos. A lista de assuntos passou por revisão humana e filtragem automatizada adicional usando um modelo de linguagem grande (LLM) para garantir que não tentássemos criar nenhuma imagem sintética que violasse nossos princípios orientadores e fosse contra o que estávamos tentando alcançar: um conjunto de dados completamente desprovido de estilos artísticos reconhecíveis, materiais protegidos por direitos autorais e conteúdo potencialmente prejudicial.

O resultado foram dois grandes conjuntos de dados de imagens aumentadas e totalmente sintéticas, nos quais tínhamos grande confiança de que não conteriam conceitos indesejados. No entanto, por mais confiantes que estivéssemos, ainda queríamos adicionar ainda mais filtros para garantir a segurança de nossos modelos.

Filtragem adicional de dados para obter resultados seguros e úteis

Como nossas principais prioridades são a segurança, a privacidade e a garantia de que nossas ferramentas o ajudem sem impactos negativos, desenvolvemos quatro modelos de classificadores separados que foram responsáveis pela filtragem adicional do conjunto de dados. Esses modelos ajudaram a garantir que todo o conteúdo contido no conjunto de dados atendesse aos padrões que definimos com nossos princípios orientadores de IA, além de verificações adicionais da qualidade da imagem.

Juntos, os modelos dos revisores foram responsáveis por determinar essas imagens sintéticas:

  • Não continha as características de nenhum ser humano reconhecível
  • Não continha nenhum estilo artístico não genérico
  • Não continha nenhum caractere ou logotipo de IP
  • Apresentavam um nível de qualidade aceitável

Se uma imagem não ultrapassasse o limite de alta confiança exigido por qualquer um dos quatro modelos de revisores, ela seria descartada do nosso conjunto de dados. Decidimos errar por excesso de cautela e ponderamos nossos modelos no sentido da rejeição, de modo que somente as imagens com maior confiança passassem pelos filtros e entrassem no conjunto de dados final.

Apresentando nossos modelos: Photo-Real-Unity-Texture-1 e Photo-Real-Unity-Sprite-1

Na Unite, anunciamos o acesso antecipado aos recursos de textura e sprite do Muse. As primeiras iterações dos modelos que alimentam essas ferramentas são chamadas internamente de Photo-Real-Unity-Texture-1 e Photo-Real-Unity-Sprite-1. Esses modelos são projetados para ter apenas um entendimento básico de estilização e se concentram principalmente no fotorrealismo.

Além disso, se quiser orientar os modelos para que correspondam a um estilo existente em seu projeto, você poderá ensinar nossos modelos a criar conteúdo em um estilo artístico específico, fornecendo ao nosso sistema de treinamento de estilo um punhado de seus próprios ativos de referência. Isso cria um pequeno modelo secundário que funciona em conjunto com o modelo principal para orientar seus resultados. Esse pequeno modelo secundário é privado para você ou sua organização como instrutores, e nunca usaremos esse conteúdo para treinar nossos modelos principais.

Como nossos modelos se concentram no fotorrealismo, não tivemos que treinar nossos modelos principais em inúmeros estilos diferentes. Essa arquitetura facilita o treinamento dos modelos principais, mantendo nosso compromisso com a IA responsável e, ao mesmo tempo, oferecendo um nível profundo de controle artístico.

Esses modelos atuais são apenas o começo. Esperamos que o Muse continue a ficar mais inteligente e a fornecer melhores resultados, e estaremos orientando os modelos nesse caminho com nossos roteiros de aprimoramento de modelos.

Roteiro do Photo-Real-Unity-Texture-1
Exemplos de resultados de nossa primeira versão do Photo-Real-Unity-Texture-1. Da esquerda para a direita: lodo metálico, pedras de cristal azuis, tecido vermelho, pele de urso
Exemplos de resultados de nossa primeira versão do Photo-Real-Unity-Texture-1. Da esquerda para a direita: lodo metálico, pedras de cristal azuis, tecido vermelho, pele de urso

No momento, nosso modelo de textura é bastante capaz em todos os aspectos. Ele conhece uma quantidade significativa de conceitos, e você pode misturar livremente conceitos completamente não relacionados e obter belos resultados, como "limo metálico" ou "pedras de vidro de cristal azul", conforme mostrado acima.

Embora o modelo seja bastante capaz em seu estado atual, depois de aprender como ele responde a diferentes prompts e métodos de entrada, observamos que pode ser difícil obter conceitos avançados de materiais com prompts de uma única palavra. Existem métodos adicionais para ajudar a orientar o modelo para alcançar a sua visão, mas queremos continuar a oferecer mais controle, tanto em termos de precisão dos prompts básicos quanto pela adição de novos métodos de orientação do modelo.

No futuro, planejamos adicionar um seletor de cores, outros padrões de orientação predefinidos, um sistema aprimorado para criar seus próprios padrões de orientação e outros novos métodos de entrada visual, que estamos experimentando no momento.

No futuro, nosso foco principal para o Photo-Real-Unity-Texture-1 é identificar quaisquer conceitos de materiais fracos e continuar a melhorar a qualidade e a capacidade gerais por meio do retreinamento frequente do modelo. Seu feedback por meio do sistema de classificação na ferramenta é fundamental para nos ajudar a construir a melhor ferramenta possível, ajudando-nos a identificar pontos fracos nos recursos do modelo. Combinado com nosso cronograma de treinamento frequente, estamos aprimorando rapidamente o modelo, tornando-o mais fácil de usar e com maior conhecimento do mundo material.

Roteiro do Photo-Real-Unity-Sprite-1
Exemplos de resultados de nossa primeira versão do Photo-Real-Unity-Sprite-1. Da esquerda para a direita: uma árvore verde, uma pedra, uma espada, um barril
Exemplos de resultados de nossa primeira versão do Photo-Real-Unity-Sprite-1. Da esquerda para a direita: uma árvore verde, uma pedra, uma espada, um barril

Semelhante ao Photo-Real-Unity-Texture-1, nosso modelo de sprite básico é, em geral, muito capaz e conhece muitos conceitos. Como a ferramenta ainda não tem recursos de animação integrados, optamos por concentrar nossos esforços iniciais na maximização da qualidade dos conceitos de sprite estático mais comumente usados. Você pode ver os resultados brutos do modelo básico na imagem acima. Em uso normal, eles seriam guiados por um modelo treinado pelo usuário para corresponder a um estilo de arte específico.

Embora os objetos estáticos já sejam bastante confiáveis, ainda estamos trabalhando para melhorar a precisão anatômica de animais e seres humanos. É possível obter bons resultados com esses tipos de objetos, mas você pode encontrar casos de membros extras ou ausentes ou rostos distorcidos. Esse é um efeito colateral de nosso compromisso com uma IA responsável e com limitações rigorosas sobre quais dados podem ser usados. Estamos levando a privacidade e a segurança a sério, mesmo às custas da qualidade de alguns assuntos em nossa versão inicial de acesso antecipado.

Esse é um efeito colateral de nosso compromisso com uma IA responsável e com limitações rigorosas sobre quais dados podem ser usados. Estamos levando a privacidade e a segurança a sério, mesmo às custas da qualidade de alguns assuntos em nossa versão inicial de acesso antecipado.

Você também pode ter casos em que um sprite gerado fica completamente em branco. Isso é causado pelo nosso filtro de moderação de conteúdo visual. Optamos por ser excessivamente cautelosos durante nosso lançamento inicial no que diz respeito à filtragem de saída no Photo-Real-Unity-Sprite-1 e, como resultado, alguns estilos de arte podem acionar falsos positivos no filtro. Pretendemos diminuir as restrições com o tempo, à medida que continuamos a receber seus comentários e a aprimorar nosso filtro de conteúdo.

Esperamos que a qualidade de todos os assuntos em geral aumente rapidamente à medida que recebemos feedback e continuamos a obter mais dados de forma responsável. Pretendemos submeter o Photo-Real-Unity-Sprite-1 a um cronograma de treinamento rigoroso semelhante ao do Photo-Real-Unity-Texture-1.

O caminho responsável da Unity para o desenvolvimento aprimorado por IA

O Unity Muse é o nosso primeiro passo para levar maior controle criativo à nossa comunidade com o poder da IA generativa da maneira mais responsável e respeitosa possível. Criamos este produto com foco no usuário e pretendemos continuar a mudar e melhorar com base no seu feedback.

Reconhecemos o impacto potencial da IA generativa no setor criativo e levamos isso muito a sério. Dedicamos nosso tempo ao desenvolver essas ferramentas para garantir que não estamos substituindo os criadores, mas aprimorando suas habilidades. Acreditamos que o mundo é um lugar melhor com mais criadores e, com o Unity Muse e os modelos que o alimentam, continuamos a apoiar essa missão.

Fique atento às futuras notícias sobre o Unity Muse e o desenvolvimento de IA. Se tiver dúvidas sobre esses produtos, consulte as perguntas frequentes em nosso site ou visite as Discussões para conversar conosco diretamente.

Se você veio da Unite 2023, compartilharemos as gravações das sessões do evento nas próximas semanas. Você pode encontrar a cobertura completa aqui.