Parado en medio de los pasillos de un asentamiento, rodeado de casillas de ladrillo hueco y construcciones improvisadas, Sam Altman, CEO de OpenAI, mira a cámara con la seguridad de quien nació ahí. Viste una gorra con visera, campera deportiva, cadena cubana, zapatillas blancas impecables y una riñonera que le cruza el torso. “Esto es cumbia villera, papá”, dice, con la vista clavada en el lente, antes de tirarse unos pasos. A su alrededor, una banda de pibes lo arenga y grita “daleeee”, en una escena perfecta, con la crudeza de la marginalidad y de una autenticidad brutal.

También es completamente falsa.

El video fue generado íntegramente por inteligencia artificial. Altman nunca pisó esa villa, nunca pronunció esas palabras en español y nunca bailó cumbia. Pero ahí está, moviéndose con naturalidad en un mundo que no existe, fabricado fotograma por fotograma por los mismos algoritmos que su empresa ayudó a crear. Este universo paralelo tiene un nombre: Sora, la nueva aplicación de los creadores de ChatGPT, lanzada públicamente el 30 de septiembre y disponible inicialmente solo en EE.UU. y Canadá a través de un sistema por invitación que recuerda a los primeros días de Gmail.

Como TikTok pero solo de vídeos generados por IA, la app funciona como un ecosistema que combina la última versión del motor de generación de video de OpenAI, Sora 2, con una plataforma social de scroll infinito. Así, vídeos de pocos segundos de duración, pero con un realismo sin precedentes que incluyen audio y efectos de sonido sincronizados, se suceden uno tras otro en un feed personalizable que captura la atención como un agujero negro digital del que es imposible apartar la mirada. 

Sam Altman, de CEO de OpenAI, tirando unos pasos. Realidad y ficción al ritmo de cumbia

Sin embargo, la característica principal de la aplicación no es la capacidad de ver y crear videos a partir de indicaciones de texto, sino la posibilidad de insertar la propia imagen y voz en cualquier escena generada por Sora, convirtiéndonos en los protagonistas de historias imposibles. Para esto, los usuarios deben completar una grabación de audio y video durante el proceso de registro, repitiendo números y frases y moviendo la cabeza, para capturar la apariencia y verificar la identidad. Este escaneo biométrico cumple una doble función, por un lado entrena al modelo para replicar fielmente nuestros rasgos, mientras que por el otro actúa como barrera contra el robo de perfiles, evitando que alguien se haga pasar por nosotros en la plataforma.

A diferencia de TikTok o Instagram, la aplicación no apuesta al consumo pasivo sino a la creatividad colaborativa. Los usuarios pueden crear sus propios vídeos desde cero o tomar el video de otro y remezclarlo, cambiando personajes, agregando escenas o transformando el ambiente. No existe límite para la imaginación ni se necesitan conocimientos técnicos. Cualquiera puede convertirse en actor, director y editor con solo describir lo que quiere ver.

Sora es la cara más visible de una competencia feroz en el campo del video generativo por IA, una verdadera batalla por capturar nuestra atención que está liderando el tridente de gigantes tecnológicos formado por OpenAI con Sora, Google con Veo 3 y Meta con Vibes, cada uno con una estrategia diferente para retener a los usuarios, y especialmente sobre cómo y dónde integrar sus poderosos modelos de generación de video.

OpenAI optó por crear una plataforma social desde cero, metiéndose de lleno en el terreno del video corto donde TikTok marca el ritmo y poniendo al usuario en el centro como protagonista de escenas imposibles. Google, en cambio, avanza con cautela, incorporando gradualmente a Veo 3 en YouTube Shorts (el formato de video corto de la plataforma), en su aplicación Gemini y en la plataforma Vertex AI, orientada a empresas y desarrolladores. Es una apuesta muy potente desde el plano técnico, pero con escasa visibilidad y llegada para el público masivo. A esto se suma el temor de la compañía por el uso indebido de deepfakes, que vuelve prácticamente imposible insertarse a uno mismo -o a cualquier otra persona- en el material generado, ya sea en fotos o en video.

Por el momento, el acceso a Sora es limitado y no está abierto a todo el público

Meta, por su parte, lanzó Vibes el pasado 25 de septiembre, aunque el anuncio pasó casi desapercibido. Se trata de un feed exclusivo de vídeos generados por inteligencia artificial, accesible tanto desde la app Meta AI como desde la web, que también pueden compartirse en Instagram y Facebook. Como en el caso de Sora, permite crear clips desde cero o “remixar” los ya existentes cambiando la música, el estilo visual o las animaciones. 

Sin embargo, lejos de generar entusiasmo, Vibes fue recibido con una mezcla de apatía y escepticismo. Por un lado se enfrenta a la fragmentación del contenido, ya que al tratarse de una función dentro de la aplicación de Meta AI, los usuarios no lo integran de manera natural a sus plataformas principales, donde ya están acostumbrados a consumir video. Pero el punto más débil es el más evidente: la falta de conexión humana. Un feed repleto de clips visualmente espectaculares pero completamente artificiales, creados a partir de una simple instrucción de texto y sin el toque de la creatividad humana, no tiene ningún atractivo real. Ahí es donde OpenAI hizo foco para marcar la diferencia. Puso a la persona en el centro de la experiencia.

Recientemente Meta presentó Vibes, su apuesta por los videos generados con IA

El futuro de esta tecnología va mucho más allá del entretenimiento casual, y sus implicancias son tan vastas como inquietantes. Para Sam Altman, el salto a Sora 2 equivale en el terreno del video a lo que supuso pasar de GPT-1 a GPT-3.5 en el lenguaje, un cambio de escala que abre otra dimensión. El desarrollo técnico ya no se conforma con imitar la realidad, sino que busca reproducir las leyes del mundo físico con total fidelidad, desde la dirección de la luz hasta el movimiento de los fluidos. Mientras tanto, los rumores en torno a Google Veo 4, actualmente en pruebas internas y con lanzamiento previsto para diciembre, aseguran que supera ampliamente a Sora 2. Para la misma fecha, Meta planea comenzar a personalizar la publicidad en todas sus plataformas con anuncios donde los modelos replican el cuerpo y la cara de los usuarios, generados al vuelo por inteligencia artificial.

Veo 3, el modelo de video de Google, puede producir clips que parecen sacados de la vida real

La competencia entre OpenAI, Google y Meta no es ya solo por quién logra el video más realista, sino por quién controla la próxima pantalla donde pasaremos nuestras horas. La capacidad de la IA para fabricar vídeos hipnóticos que combinan realismo y fantasía incrementará la adicción a las pantallas y el doomscrolling, ese consumo compulsivo y sin fin de redes sociales que ya genera el contenido humano. El problema no es haber llegado al punto donde no podemos distinguir lo real de lo falso, sino qué haremos cuando lo falso sea más convincente y atractivo que la propia realidad.