Google está apuntando a Sora de OpenAI con Veo, un maniquí de IA que puede crear videoclips de 1080p de aproximadamente un minuto de duración con un mensaje de texto.
Presentado el martes en la conferencia de desarrolladores I/O 2024 de Google, Veo puede capturar diferentes estilos visuales y cinematográficos, incluidas tomas de paisajes y lapsos de tiempo, y realizar ediciones y ajustes al metraje ya generado.
«Estamos explorando funciones como guiones gráficos y generando escenas más largas para ver qué puede hacer Veo», dijo a los periodistas Demis Hassabis, patriarca del laboratorio de I+D de IA de Google, DeepMind, durante una mesa redonda supuesto. «Hemos conseguido avances increíbles en video».
Veo se pedestal en el trabajo comercial preliminar de Google en gestación de vídeo, presentado en abril, que aprovechó la grupo Imagen 2 de modelos de gestación de imágenes de la compañía para crear clips de vídeo en onda.
Pero a diferencia de la utensilio basada en Imagen 2, que sólo podía crear videos de desprecio resolución y de unos pocos segundos de duración, Veo parece ser competitivo con los principales modelos de gestación de videos actuales, no solo Sora, sino todavía modelos de nuevas empresas como Pika, Runway e Irreverent. Laboratorios.
En una sesión informativa, Douglas Eck, que dirige los esfuerzos de investigación en DeepMind en medios generativos, me mostró algunos ejemplos cuidadosamente seleccionados de lo que Veo puede hacer. Uno en particular, una panorámica aérea de una playa bulliciosa, demostró las fortalezas de Veo sobre los modelos de video rivales, dijo.
«El detalle de todos los nadadores en la playa ha demostrado ser difícil tanto para los modelos de gestación de imágenes como de videos, ya que tienen tantos personajes en movimiento», dijo. “Si miras de cerca, el oleaje se ve harto aceptablemente. Y el sentido de la palabra ‘bullicioso’, diría yo, se capta con toda la familia: la animada playa llena de bañistas”.
Veo fue entrenado con muchas imágenes. Así es generalmente como funciona con los modelos de IA generativa: alimentados ejemplo tras ejemplo de algún tipo de datos, los modelos detectan patrones en los datos que les permiten gestar nuevos datos: videos, en el caso de Veo.
¿De dónde vinieron las imágenes para entrenar a Veo? Eck no quiso decirlo con precisión, pero admitió que algunos podrían suceder sido obtenidos del propio YouTube de Google.
«Los modelos de Google pueden entrenarse en algunos contenidos de YouTube, pero siempre de acuerdo con nuestro acuerdo con los creadores de YouTube», dijo.
La parte del “acuerdo” puede técnicamente ser cierto. Pero todavía es cierto que, considerando los enseres de red de YouTube, los creadores no tienen muchas opciones más que seguir las reglas de Google si esperan entrar a la audiencia más amplia posible.
Un crónica de The New York Times de abril reveló que Google amplió sus términos de servicio el año pasado en parte para permitir a la empresa servirse más datos para entrenar sus modelos de IA. Según los antiguos ToS, no estaba claro si Google podría utilizar los datos de YouTube para crear productos más allá de la plataforma de vídeo. No es así con los nuevos términos, que aflojan considerablemente las riendas.
Google está allí de ser el único coloso tecnológico que aprovecha grandes cantidades de datos de usuarios para entrenar modelos internos. (Ver: Meta.) Pero lo que seguramente decepcionará a algunos creadores es la insistencia de Eck en que Google es el que establece el «estereotipado de oro», aquí, en términos éticos.
“La decisión a esto [training data] El desafío será reunir a todas las partes interesadas para determinar cuáles son los próximos pasos”, dijo. «Hasta que no demos esos pasos con las partes interesadas (estamos hablando de la industria cinematográfica, la industria musical, los propios artistas) no avanzaremos rápido».
Sin requisa, Google ya puso Veo a disposición de creadores selectos, incluido Donald Glover (todavía conocido como Childish Gambino) y su agencia creativa Gilga. (Al igual que OpenAI con Sora, Google posiciona a Veo como una utensilio para creativos).
Eck señaló que Google proporciona herramientas que permiten a los webmasters evitar que los robots de la empresa extraigan datos de entrenamiento de sus sitios web. Pero la configuración no se aplica a YouTube. Y Google, a diferencia de algunos de sus rivales, no ofrece un mecanismo que permita a los creadores eliminar su trabajo de sus conjuntos de datos de entrenamiento posteriormente del scraping.
Asimismo le pregunté a Eck sobre la regurgitación, que en el contexto de la IA generativa se refiere a cuando un maniquí genera una copia reflejada de un ejemplo de entrenamiento. Se ha descubierto que herramientas como Midjourney generan imágenes fijas exactas de películas como “Dune”, “Avengers” y “Star Wars” que proporcionan una marca de tiempo, lo que crea un potencial campo minado legítimo para los usuarios. Según se informa, OpenAI ha llegado a aislar marcas comerciales y nombres de creadores para que Sora intente desviar los desafíos de derechos de autor.
Entonces, ¿qué medidas tomó Google para mitigar el aventura de regurgitación con Veo? Eck no tuvo una respuesta, incólume afirmar que el equipo de investigación implementó filtros para contenido violento y palmario (por lo que no hay pornografía) y está utilizando la tecnología SynthID de DeepMind para marcar videos de Veo como generados por IA.
“Vamos a intentar, para poco tan magnate como el maniquí Veo, entregarlo gradualmente a un pequeño conjunto de partes interesadas con las que podamos trabajar muy de cerca para comprender las implicaciones del maniquí, y solo entonces desplegarlo. a un reunión más magnate”, dijo.
Eck tuvo más que compartir sobre los detalles técnicos del maniquí.
Eck describió a Veo como “harto controlable” en el sentido de que el maniquí comprende razonablemente aceptablemente los movimientos de la cámara y los enseres visuales a partir de indicaciones (piense en descriptores como “panorámica”, “teleobjetivo” y “arranque”). Y, al igual que Sora, Veo tiene cierto conocimiento de la física (cosas como la dinámica de fluidos y la agravación) que contribuyen al realismo de los videos que genera.
Veo todavía admite la publicación enmascarada para cambios en áreas específicas de un video y puede gestar videos a partir de una imagen fija, al estilo de los modelos generativos como Stable Video de Stability AI. Quizás lo más intrigante es que, dada una secuencia de indicaciones que en conjunto cuentan una historia, Veo puede gestar videos más largos: videos de más de un minuto de duración.
Eso no quiere afirmar que Veo sea valentísimo. Como reflexiva de las limitaciones de la IA generativa flagrante, los objetos en los videos de Veo desaparecen y reaparecen sin mucha explicación o coherencia. Y Veo se equivoca a menudo en su física; por ejemplo, los automóviles retroceden de forma inexplicable e increíble en un rasgar y cerrar de fanales.
Es por eso que Veo permanecerá detrás de una cinta de paciencia en Google Labs, el portal de tecnología positivo de la compañía, en el futuro previsible, en el interior de una nueva interfaz para la creación y publicación de videos con IA generativa citación VideoFX. A medida que mejoría, Google pretende sufrir algunas de las capacidades del maniquí a YouTube Shorts y otros productos.
«Esto es en gran medida un trabajo en progreso, muy positivo… queda mucho más por hacer de lo que se ha hecho aquí», dijo Eck. «Pero creo que esta es una especie de materia prima para hacer poco en realidad grande en el espacio cinematográfico».
¡Estamos lanzando un boletín informativo sobre IA! Regístrese aquí para comenzar a recibirlo en sus bandejas de entrada el 5 de junio.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio divulgado, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir consultoría profesional, médica, legítimo o psicológica.