NOTICIASTECNO&VIRAL

Chat GPT-4o acepta cualquier combinación de texto, audio e imagen a una velocidad casi humana

OpenAI ha presentado su nuevo modelo de Inteligencia Artificial (IA) GPT-4o, que acepta cualquier combinación de texto, audio e imagen, y que puede responder a una entrada de voz en solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a un tiempo de respuesta humana.

GPT-4o (cuya “o” significa “omni”) es un modelo de lenguaje que admite distintas modalidades de forma nativa, esto es, que comprende y genera una combinación de entradas de texto, audio e imagen con gran velocidad, según ha explicado en su presentación la CTO de OpenAI, Mira Muratyi.

Para generar una respuesta a una entrada de audio, emplea un tiempo similar al que necesitan los humanos. Esto significa que puede responder en un mínimo 232 milisegundos, aunque registra un promedio de 320 segundos de tiempo de respuesta, según han podido comprobar los desarrolladores.

Para las entradas de texto en inglés, la nueva herramienta iguala el rendimiento de GPT-4 Turbo y ofrece una mejora “significativa” en entradas de texto de idiomas diferentes al inglés, que traduce en tiempo real, “siendo además mucho más rápido y un 50 por ciento más barato en la API”, según ha matizado.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

Cómo es la versión “o” de Chat GPT

Para OpenAI, esta herramienta, que se ha sometido a una serie de pruebas llevadas a cabo por expertos del conocido equipo rojo, “es un paso hacia una interacción persona-ordenador mucho más natural”.

La compañía también ha comentado la evolución de sus anteriores modelos para crear la versión GPT-4o. En primer lugar, ha señalado que hasta ahora era posible utilizar el “Modo voz” para conversar con ChatGPT con latencias de 2,8 segundos de media en el caso de la versión GPT-3.5 y 5,4 segundos en GPT-4.

Canlı çeviri. Mükemmel.
Chat-GPT4o anlık çeviri yapıyor. Heyecan verici. pic.twitter.com/jPWgMINWrM

— Atilla Uslu (@ativittta) May 14, 2024

Esto es posible porque se ejecuta una canalización de tres modelos separados. El primero de ellos transcribe el audio a texto. Después, el modelo GPT-3.5 o GPT-4 recoge el texto y lo emite para que un tercer modelo lo vuelva a convertir en audio.

Según la desarrolladora, en este proceso GPT-4 “pierde mucha información”, porque no puede observar el tono, varios interlocutores o ruidos de fondo. Tampoco puede generar risas, cánticos o expresar emociones.

Por ese motivo, se ha propuesto entrenar “un único modelo de principio a fin”, lo que quiere decir que todas las entradas y las salidas de texto, audio y voz son procesadas por la misma red neuronal, que combina todas estas modalidades para brindar una respuesta más realista.

La seguridad en GPTo

También ha aclarado que GPT-4o está desarrollado bajo el principio de seguridad por diseño mediante técnicas como el filtrado de datos; y que para su lanzamiento ha pasado por una fase de pruebas de las distintas versiones del modelo, que se ha ajustado y personalizado para obtener mejores resultados.

OpenAI también ha aclarado que ha contado con la supervisión de más de 70 especialistas en ámbitos como la psicología y la desinformación, a fin de identificar los riesgos que introducen o amplifican las nuevas modalidades añadidas a este modelo.

Debido a que la entrada de voz y audio “presenta diversos riesgos novedosos”, por el momento la tecnológica solo ha habilitado la entrada y salida tanto de texto como de imagen en su nuevo modelo. En las próximas semanas la tecnológica seguirá trabajando en la infraestructura técnica y la seguridad de GPT-4o para lanzar la modalidad restante.

GPT-4o se irá desplegando de forma “iterativa” y gratuita para los usuarios de la modalidad ChatGPT Plus. En las próximas semanas también lanzará la nueva versión alfa de la modalidad de voz con GPT-4o en esta misma suscripción. Por su parte, los desarrolladores ya pueden acceder a este modelo en la API para probar la modalidad de texto e imagen.

​La Voz

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: