El nuevo modelo de IA de Google para cualquier cosa es una locura

El año pasado falsifiqué el animal de peluche de mi bebé para que pareciera que su ciervo de peluche estaba de vacaciones.

Fue un experimento para ver si podía recrear los eventos descritos en el anuncio de Gemini que Google estaba publicando, y nunca le había mostrado los videos de las aventuras de Buddy el ciervo a mi hijo de cuatro años. Pero fue un ejercicio revelador que me hizo pensar mucho en la diferencia entre una diversión inofensiva con IA generativa y una regresión completa. ¡Quizás este diagrama de Venn sea un círculo perfecto! Quizás no. Pero lo que sí sé con seguridad es que las herramientas para crear vídeos realistas son sorprendentemente buenas y requieren muy poco esfuerzo y conocimiento. Esta tendencia continúa en la era Omni en Géminis.

Omni es una nueva familia de modelos generativos que algún día podrá convertir cualquier tipo de entrada (imágenes, videos, texto) en cualquier otra cosa. Pero para empezar, se trata simplemente de crear un vídeo. Omni Flash es el primero de estos modelos lanzado por Google y ahora está disponible en la plataforma de edición y creación de videos con IA de la compañía, Flow. Aún puedes usar el modelo anterior, Veo, si lo deseas, pero Omni mejora a Veo en varios aspectos.

Con Omni, puedes subir un vídeo y utilizarlo junto con un mensaje de texto como punto de partida para la creatividad generada por IA. Google también afirma que Omni incorpora más conocimiento del mundo real al producir videos y, como resultado, puede hacer un mejor trabajo al mantener los personajes consistentes a lo largo del video. Sólo había una forma de descubrir si estas afirmaciones eran realmente ciertas: traje a AI Buddy para que empacara sus mochilas generadas por IA para otra aventura.

Los resultados son tan heterogéneos que resultan desconcertantes. Algunas cosas eran muy buenas y eran más coherentes y fieles a mis afirmaciones que cuando probé Veo cinco meses antes. Pero incluso los mejores clips que Omni preparó para mí todavía contienen algunos sobresaltos de IA, como cuando Buddy cambia repentinamente de dirección mientras salta en paracaídas.

En otro vídeo, le di a Omni cierta libertad artística. «Crea un montaje de Buddy empacando para las vacaciones y partiendo en un crucero hacia unas vacaciones tropicales. El ambiente es lindo y divertido. Buddy empaca algo divertido en su maleta que se reproduce más adelante en el clip». Tenía a Buddy empacando un tarro de miel; Más adelante en el clip, lo alcanza como si fuera una botella de protector solar. “Ah”, dice el personaje mientras espolvorea miel en su casco.

Sinceramente, no está nada mal. Sin embargo, la botella de miel cambia constantemente a lo largo del video, de un frasco a una botella con atomizador transparente llena de agua, y luego de nuevo a una botella exprimible llena de miel. Y ni siquiera puedo empezar a describir cómo se le ocurrió al modelo el fotograma final del vídeo, casi como si hubiera juntado un montón de elementos de la secuencia que acababa de crear.

Puedes usar mensajes de texto para sugerir ediciones en tus videos, y le daré crédito a Google: esto funciona mejor con Omni que cuando probé Veo 3. Pero los resultados fueron… malo Con Veo, era tan malo que me resultaba más fácil renderizar un vídeo nuevo desde cero cada vez que quería cambiar algo. El Omni tendrá en cuenta sus ajustes, pero los resultados no siempre son visibles.

Le pedí que enfatizara las reacciones faciales de Buddy en sus clips de vacaciones y los resultados terminaron luciendo extraños. También le dará cuernos a Buddy de vez en cuando, los cuales él no tiene. amigo es niñoMuchas gracias. Cuando le pedí que quitara los cuernos que aparecían en una escena, accedió y luego añadió los cuernos en todas las demás escenas.

La cuestión es que nada de esto es gratis. Crear videos cuesta entre 15 y 40 créditos dependiendo de la duración de la escena y los «componentes» con los que comienzas. Una ronda de modificaciones cuesta 40 créditos. Tengo el plan AI Pro de $20 al mes que viene con 1000 puntos cada mes. Después de crear unos 20 clips y algunos ajustes, llegué a 145 clips. Si tiene ideas específicas sobre el vídeo que desea que Omni cree, es posible que deba realizar muchos cambios costosos en el modelo para obtener un vídeo que se acerque a su visión.

Honestamente puedo decir que no estaba preparado para lo que vi.

Una de las supuestas fortalezas de Omni es agregar objetos generados por IA a videos reales, así que le di un respiro a Buddy e hice el deepfake yo mismo. Comenzando con un video de selfie con una expresión neutral, hice que Omni creara videos de mí comiendo un plato de espaguetis, sentado en el asiento de un avión, parado frente a la Torre Eiffel y dando un mordisco a una baguette. Y puedo decir honestamente que no estaba preparado para lo que vi.

Hay historias de IA en mis videos falsos. El sonido del tenedor al golpear el plato de pasta es un poco artificial. Hay una mujer al fondo del vídeo del avión que aparece dos veces. Pero aparte de esos pequeños errores y la sensación vagamente vaga, es muy convincente.

Le mostré a mi marido el clip de pasta; Sabía que estaba probando una herramienta de vídeo con IA, pero no le dije qué había generado la IA en la escena. Sin saber qué había generado la IA al respecto, creyó que yo estaba sentado frente a la cámara comiendo pasta y dijo que su única pista de que algo estaba pasando era que el cuenco no le parecía familiar. Comer pasta parecía lo suficientemente real como para convencerlo. mi marido. El chico que básicamente me admiraba en la vida real. Todos los días durante la última década.

Otros deepfakes tienen distintos niveles de «lo suficientemente buenos como para engañar a la gente en las redes sociales». Algunos de los clips de la Torre Eiffel parecen un poco caricaturescos, pero uno es lo suficientemente convincente como para que tengas que volver a verlo varias veces para asegurarte de que es IA. I Sé que no soy yo cuando la IA gira la cabeza y revela su cabello recogido en una cola de caballo. Pero no estoy seguro de que alguien más pueda notar la diferencia y eso me hace sentir raro.

Definitivamente estamos en lo profundo del valle inquietante.

Estoy un poco agotado por todo esto, para ser honesto. Cuando probé el Veo 3 me sorprendió el realismo que puede producir. Me ha sorprendido lo fácil que es fotografiar a personas falsas en fotografías falsas una y otra vez durante los últimos años. Probablemente a mí también me sorprenda el Omni, y creo que sí, pero el efecto se ha disipado.

Todavía no es tan fácil crear una obra maestra cinematográfica generada por IA como a Google le gustaría hacernos creer. Pero Omni mejora a Veo en algunos aspectos bien conocidos. Si tienes una cuenta de Google y una tarjeta de crédito, puedes grabarte un vídeo sentado en casa y hacer que parezca que estás de viaje a Maui sin apenas esfuerzo. No creo que estemos exactamente en las «estribaciones de la singularidad», pero ciertamente estamos en lo profundo del valle inquietante.

Todas las imágenes y videos de esta historia fueron creados por Google Gemini.

Seguir temas y autores De esta historia para ver más como esto en el feed personalizado de su página de inicio y recibir actualizaciones por correo electrónico.


(etiquetas para traducción) AI