OpenAI presenta a ChatGPT-4o: ahora cuenta con capacidades de voz y visión

La CTO de OpenAI, Mira Murati en la presentación de GPT-4o. / RR.SS.
La CTO de OpenAI, Mira Murati en la presentación de GPT-4o. / RR.SS.

La compañía dio a conocer un nuevo modelo de lenguaje que también podrá hablar para satisfacer las solicitudes de los usuarios, además de comprender contenido en vídeo y texto.

OpenAI presenta a ChatGPT-4o: ahora cuenta con capacidades de voz y visión

OpenAI ha presentado una actualización revolucionaria para ChatGPT, su popular chatbot, que cambiará por completo la forma en que los usuarios interactúan con la inteligencia artificial (IA). Con la llegada de GPT-4o, ChatGPT no solo responderá a través de texto, sino que también podrá hablar para satisfacer las solicitudes de los usuarios, además de comprender contenido en video y texto.

Durante el evento de presentación, la CTO de OpenAI, Mira Murati, destacó que esta actualización no solo ofrece una mayor velocidad, sino que también mejora las capacidades en texto, visión y audio. Esta nueva versión estará disponible de forma gratuita para todos los usuarios, ampliando así el alcance de las interacciones con ChatGPT.

Una de las características más destacadas de GPT-4o es su capacidad "nativamente multimodal", lo que significa que puede generar contenido o comprender comandos en voz, texto e imágenes. Esto abre un amplio abanico de posibilidades para la interacción entre humanos y la IA, proporcionando una experiencia más completa y versátil.

Antes del lanzamiento de GPT-4o, hubo especulaciones sobre los planes de OpenAI, que incluían desde la creación de un motor de búsqueda de IA hasta la introducción de un asistente de voz integrado en GPT-4. Sin embargo, la compañía decidió centrarse en mejorar la experiencia del usuario, ofreciendo las mismas capacidades de generación de contenido de la versión tradicional, pero ahora con la adición del soporte de voz.

Con la introducción de la voz, los usuarios pueden comunicarse de manera más intuitiva y natural con ChatGPT, que ahora puede procesar y generar respuestas en tiempo real, incluso captando la emoción en la voz del usuario. Además, OpenAI ha confirmado que GPT-4o estará disponible de forma gratuita para todos los usuarios de ChatGPT, con usuarios pagos disfrutando de capacidades cinco veces mayores a los gratuitos.

La implementación de la voz no solo mejora la experiencia del usuario, sino que también amplía significativamente las capacidades de la plataforma. Ahora, ChatGPT puede comprender y generar respuestas en función de comandos de voz, además de analizar imágenes o capturas de pantalla para proporcionar información relevante.

Además de la voz, GPT-4o también mejora las capacidades de ChatGPT en el ámbito de la visión. Ahora, el sistema puede analizar imágenes o capturas de pantalla y proporcionar información relevante o respuestas a consultas específicas.

Los desarrolladores también se beneficiarán de la disponibilidad de GPT-4o a través de la API (interfaz de programación de aplicaciones) de OpenAI, que ofrece acceso al modelo a mitad de precio y el doble de rapidez que GPT-4 Turbo. Esta API permitirá a los desarrolladores integrar la capacidad de voz en sus propias aplicaciones y sistemas, abriendo nuevas posibilidades en el desarrollo de aplicaciones de IA.

Durante la presentación, se demostraron varias aplicaciones prácticas de ChatGPT-4o, incluida la traducción en tiempo real, el análisis de imágenes y códigos de programación, y la charla casual. Estos ejemplos ilustran la versatilidad y el potencial de esta nueva generación de chatbots, que promete transformar la forma en que interactuamos con la inteligencia artificial. @mundiario

Comentarios