Google Deepmind es nuevo Genio 3 El sistema crea entornos virtuales a partir de comandos de texto simples y permite a las personas explorarlos como videojuegos. Más interesante, el modelo de inteligencia synthetic (AI) puede recordar dónde se colocan los objetos en el entorno durante más de unos pocos segundos.
El modelo mundial representa un salto importante de su predecesor, Genie 2, que solo podía mantener entornos estables durante 10 a 20 segundos. Genie 3 extiende el tiempo de interacción a varios minutos a una resolución de 720p y 24 cuadros por segundo, en tiempo actual.
“Genie 3 es nuestro primer modelo mundial para permitir la interacción en tiempo actual, al tiempo que mejora la consistencia y el realismo en comparación con Genie 2”, dijo Shlomi Fruchter, directora de investigación de DeepMind, durante una sesión informativa de prensa.
Tipo de “almacén con montacargas” y en cuestión de segundos, los usuarios caminarán por una instalación realista. Agregue “Make It Wet” y el clima cambia instantáneamente sin reiniciar la simulación.
Las capacidades de memoria del sistema lo distinguen de los modelos anteriores. Cuando los usuarios pintan paredes o colocan objetos, estos cambios persisten incluso cuando miran hacia otro lado y regresan más tarde. Esta consistencia permite que la IA desarrolle una comprensión de la física sin ser programada explícitamente con reglas físicas.
“El modelo es automático, lo que significa que genera un cuadro a la vez”, explicó Fruchter. “Tiene que mirar hacia atrás en lo que se generó antes para decidir qué va a pasar después”.
Google ve el mayor potencial en los robots de entrenamiento. Los almacenes virtuales podrían enseñar a las máquinas cómo navegar en las instalaciones reales antes de que abandonen el laboratorio.
“Creemos que los modelos mundiales son clave en el camino hacia la AGI (inteligencia basic synthetic), específicamente para agentes encarnados, donde simular escenarios del mundo actual es particularmente desafiante”, dijo Jack Parker-Holder, científico investigador del equipo de Deepmind.
La compañía probó este enfoque con su agente SIMA AI, que completó con éxito tareas como encontrar equipos específicos en entornos simulados. La IA aprendió estas habilidades completamente dentro de los mundos generados por el Genie 3.
Los límites actuales incluyen opciones de interacción básicas y problemas para crear texto legible. El sistema tampoco puede replicar perfectamente ubicaciones del mundo actual o manejar múltiples personajes que se mueven simultáneamente.
Genie 3 permanece en una vista previa de investigación limitada, disponible solo para académicos y creadores seleccionados. Google no ha anunciado cuándo podría estar disponible públicamente, citando la necesidad de estudiar riesgos potenciales y medidas de seguridad apropiadas.
El desarrollo se produce en medio de una intensa competencia en el modelado mundial de IA. Openai recientemente bromeó lo que parece ser GPT-5, mientras que otras compañías corren para crear tecnologías de simulación similares.
El equipo de DeepMind’s World Fashions incluye a los ex desarrolladores de Operai Sora, que muestran cuán en serio ambas empresas ven esta tecnología para avanzar en las capacidades de IA.
La compañía espera que Genie 3 desempeñe un papel elementary, ya que los agentes de IA asumen tareas más autónomas en entornos del mundo actual.