O Project Genie Google, uma iniciativa inovadora da Google DeepMind, está agora acessível a assinantes do Google AI Ultra nos EUA. Esta ferramenta de inteligência artificial permite aos usuários criar mundos de jogos interativos a partir de descrições textuais ou imagens, marcando um avanço significativo na área de IA e entretenimento.
Como Funciona o Project Genie Google
Geração de Mundos e Personagens
Os usuários iniciam o processo com um “esboço de mundo”, fornecendo prompts de texto para o ambiente e para um personagem principal. O modelo Nano Banana Pro, parte integrante do sistema, gera uma imagem baseada nesses prompts. Essa imagem serve como ponto de partida para o Project Genie criar um mundo interativo, onde o personagem pode ser manobrado em primeira ou terceira pessoa. As modificações na imagem original são possíveis, embora o modelo possa apresentar algumas inconsistências.
Uso de Fotos Reais
É possível utilizar fotografias da vida real como base para a construção do mundo. No entanto, os resultados podem variar, com a ferramenta se saindo melhor em alguns casos do que em outros, dependendo da complexidade e do estilo da imagem fornecida.
Remix e Exploração de Mundos Existentes
O Project Genie oferece a capacidade de remixar mundos já criados, adicionando novos prompts para gerar interpretações diferentes. Uma galeria de mundos curados e uma ferramenta de randomização também estão disponíveis para inspiração. Os usuários podem baixar vídeos dos mundos que exploram.
Limitação de Tempo
Atualmente, a geração e navegação de mundos são limitadas a 60 segundos por sessão. Essa restrição se deve a questões orçamentárias e de capacidade computacional, visto que o Genie 3, um modelo auto-regressivo, exige recursos computacionais dedicados para cada usuário. A equipe de pesquisa afirma que estender o tempo além desse limite não traria um valor incremental significativo para os testes.
Whimsy versus Realismo
Os modelos do Project Genie demonstram um desempenho excepcional na criação de mundos com estilos artísticos, como aquarela, anime ou estética de desenho animado clássico. Contudo, a geração de mundos fotorrealistas ou cinematográficos ainda é um desafio, muitas vezes resultando em ambientes que se assemelham mais a jogos digitais do que a cenários da vida real. O modelo também não respondeu de forma consistente ao tentar criar mundos a partir de fotos reais com fidelidade exata.
Interatividade e Navegação
A interatividade do Project Genie é um ponto de foco para a DeepMind. Embora o modelo tenha conseguido animar um brinquedo de pelúcia navegando por um espaço e ocasionalmente fazendo outros objetos reagirem, ainda existem desafios. Personagens podem atravessar paredes ou objetos sólidos. A navegação, realizada com as teclas W-A-S-D e setas, pode ser inconsistente e desafiadora para usuários não-gamers.
Memória do Modelo
Uma característica notável do Genie 3 é sua arquitetura auto-regressiva, que permite ao modelo “lembrar” o que foi gerado. Isso foi testado ao retornar a partes previamente geradas do ambiente, e o modelo, em grande parte, conseguiu manter a consistência, embora com raras exceções.
O Futuro dos Modelos de Mundo de IA
Feedback e Desenvolvimento Experimental
Os pesquisadores da DeepMind enfatizam o caráter experimental do Project Genie Google, buscando feedback dos usuários para aprimorar a ferramenta. O objetivo é melhorar o realismo e as capacidades de interação, incluindo um maior controle do usuário sobre ações e ambientes.
Modelos de Mundo como Chave para AGI
Os modelos de mundo são sistemas de IA que criam uma representação interna de um ambiente, permitindo prever resultados futuros e planejar ações. Muitos líderes em IA, incluindo a DeepMind, consideram os modelos de mundo um passo crucial para alcançar a Inteligência Artificial Geral (AGI). A curto prazo, a visão é aplicar esses modelos em videogames e outras formas de entretenimento, expandindo posteriormente para o treinamento de agentes incorporados (robôs) em simulações.
Cenário Competitivo
A corrida pelos modelos de mundo está se intensificando. World Labs, de Fei-Fei Li, lançou seu produto comercial Marble. A Runway, startup de geração de vídeo por IA, também introduziu seu modelo de mundo. Além disso, a AMI Labs, startup de Yann LeCun, ex-cientista-chefe da Meta, focará no desenvolvimento desses modelos.
Segurança e Direitos Autorais
O modelo incorpora salvaguardas de segurança, impedindo a geração de conteúdo inadequado ou protegido por direitos autorais. Isso inclui restrições a temas como nudez e material relacionado à Disney, após incidentes anteriores de violação de direitos autorais.
Fonte: Artigo Original


