GPT-4o traerá texto, voz y reconocimiento de imagen a ChatGPT

por Antonio Delgado 14/05/2024

OpenAI, la compañía detrás del modelo de lenguaje de IA GPT y de su chatbot "ChatGPT", ha anunciado su última versión, GPT-4o, con la que quieren potenciar su sistema de inteligencia artificial convirtiéndolo en el buque insignia y dotándolo de todo tipo de funciones.

La "o" de GPT-4o viene de "omni" y hace referencia a que es capaz de comunicarse de manera mucho más natural, no solo mediante texto, sino que también es capaz de reconocer voz, hablar con voz natural (y cantar) e incluso detecta a tiempo real imágenes, vídeos y anotaciones.

Todo ello combinado y procesado en la misma red neuronal, en vez de utilizar una para reconocimiento de visión, otra para audio y otra para texto.

Por el momento, ChatGPT con GPT-4o al completo no está disponible, pero pronto llegará a los usuarios de pago y gratuitos (con limitaciones) de la plataforma. La API será mucho más rápida y un 50% más barata que la actual.

Aun así, GPT-4o irá recibiendo las funcionalidades anunciadas poco a poco, por el momento, ChatGPT recibirá primero las funciones de texto e imagen, mientras que ChatGPT Plus recibirá en versión alfa el sistema de voz durante las próximas semanas. También se multiplicará por 5 el límite de mensajes de los usuarios gratuitos y de la tarifa PLUS.

Para los desarrolladores, la API de GPT-4o ya está disponible, pero las funciones de audio y video solo se lanzarán a un pequeño grupo de usuarios. Por tanto, parece que aún habrá que esperar para comprobar si todo lo que promete OpenAI funciona tal y como dicen.

Os dejamos con un vídeo realmente llamativo donde GPT-4o es capaz de enseñar paso a paso y dejando que el alumno vaya entendiendo conceptos.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!