OpenAI, la compañía desarrolladora de ChatGPT, presentó este lunes la nueva versión de su modelo de Inteligencia Artificial (IA) con mejoras que, destacaron, le permiten "razonar a través de audio, visión y texto en tiempo real".

Esta iteración, llamada GPT-4o (la "o" es por "omni"), es una renovación del ya conocido GPT-4 y estará disponible para todos los usuarios de la herramienta, mientras que quienes tengan una suscripción activa tendrán "hasta cinco veces los límites de capacidad", según señaló Mira Murati, CTO de OpenAI, durante la transmisión de la presentación en la que lo describieron como un "omnimodelo" debido a su capacidad de interactuar, combinar, comprender y ofrecer respuestas en distintos formatos.

En su página oficial, la compañía tecnológica explicó que GPT-4o "es un paso hacia una interacción persona-computadora mucho más natural". Esto es posible gracias a que "acepta como entrada cualquier combinación de texto, audio e imagen" y genera respuestas también en cualquiera de esos tres formatos.

La mejora "significativa" del nuevo modelo insignia de OpenAI radica en sus capacidades de generación de respuestas "en texto en idiomas distintos al inglés", mientras que en ese idioma iguala el rendimiento de GPT-4 Turbo, su predecesor.

A la vez, destacaron, "es mucho más rápido y un 50% más económico en la API". "GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes", agregaron.

Una distinción técnica entre este nuevo modelo y las versiones anteriores se encuentra en la manera en la que está construido para su funcionamiento en modo de voz. Según detallaron sus desarrolladores, tanto GPT-3.5 como GPT-4 funcionan usando tres modelos: uno para transcribir el audio del usuario a texto, otro (GPT en sus distintas versiones) para analizar ese texto y generar otro como respuesta, y un tercer modelo simple que convierte ese texto a audio.

Esto representaba una limitación, dado que siguiendo esa lógica no era posible que la herramienta pudiera considerar directamente factores como el tono de voz o los ruidos de fondo del audio inicial, ni tampoco generar risas o expresar emociones. Y este es uno de los puntos que cambió con el nuevo modelo.

"Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie para explorar lo que el modelo puede hacer y sus limitaciones", dijeron desde OpenAI. Esto le permite al nuevo modelo generar respuestas en audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo que "es similar al tiempo de respuesta humano en una conversación".

Los ingenieros que trabajaron en el modelo también demostraron la capacidad de GPT-4o para interpretar en tiempo real imágenes capturadas a través de la cámara de un smartphone. De este modo, ChatGPT ayudó en la resolución de una ecuación lineal y detectó las emociones de una persona al ver su rostro.

Disponible para todos los usuarios

GPT-4o ya está disponible de manera gratuita para todos los usuarios de ChatGPT, y aquellos que tengan una suscripción activa tienen acceso a una versión con "límites de mensajes hasta cinco veces mayores". Las capacidades del modelo, aclararon, "se implementarán de forma iterativa". 

Además, anunciaron que durante las próximas semanas lanzarán "una nueva versión del Modo de Voz con GPT-4o en alfa dentro de ChatGPT Plus".

Los desarrolladores, por su parte, también pueden acceder a GPT-4o en la API como modelo de texto y visión, mientras que la compañía planea "lanzar soporte para las nuevas capacidades de audio y video de GPT-4o a un pequeño grupo de socios confiables en las próximas semanas".

Durante el evento, OpenAI también anunció el lanzamiento de una aplicación gratuita de ChatGPT para Mac.