open ai modelo nuevo de voz

La nueva IA de voz de OpenAI parece sacada de Star Trek y ya entiende más de 70 idiomas

La IA te escucha, te entiende y el idioma ya no importa

Los desarrollos de OpenAI son muchos y muy variados. Mientras se debate sobre su posible salida a bolsa, el valor de la compañía se estima en 800.000 millones de dólares. Es algo lógico, si tenemos en cuenta que la IA está destinada a dominarlo casi todo en nuestras vidas, como en su día ocurrió con la llegada de Google.

Mientras vemos qué nos depara el futuro, el presente nos lleva a un nuevo avance de OpenAI en materia de voz por IA. La compañía ha lanzado ahora tres nuevos modelos de audio que parecen sacados de la ciencia ficción y que están disponibles en su tienda de aplicaciones para ponerse al servicio de los desarrolladores.

Razonamiento y traducción a realizar

La gran novedad de OpenAI es que ahora muchas apps podrán integrar sus sistemas de voz, para que escuchen y entiendan mejor lo que se dice, pero también que traduzcan en tiempo real, transcriban mientras se habla y hasta que hagan tareas por sí mismos. Los tres modelos forman parte de su API Realtime, y son un movimiento importante para cualquiera que desarrolle aplicaciones impulsadas por voz. Los tres modelos son: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper.

We’re introducing three audio models in the APIWe’re introducing three audio models in the API

GPT-Realtime-2

Dentro de los tres, quizá la estrella del grupo es GPT-Realtime-2, porque permite llevar el razonamiento de nivel GPT-5 a las interacciones de voz en directo. Es decir, que es capaz de gestionar peticiones más complicadas sin perder el hilo de la conversación.

Se asemeja mucho más a lo que esperaríamos de una interacción con otro ser humano. Es capaz de utilizar varias herramientas al mismo tiempo e incluso narrar lo que está haciendo con frases como “comprobando tu calendario” o “déjame revisar eso”.

GPT-Realtime-Translate

No se queda atrás el llamado GPT-Realtime-Translate, similar al mítico Traductor Universal de Star Trek, pero en la vida real. Es decir, soporta traducción de voz en directo entre más de 70 idiomas de entrada y 13 idiomas de salida. Una persona puede unirse a la conversación con otra persona que hable otro idioma mientras GPT-Realtime-Translate no tiene problemas para traducir a ambos interlocutores al inglés o al idioma que sea, en tiempo real.

logo de open AI

GPT-Realtime-Whisper

Por su parte, GPT-Realtime-Whisper permite convertir la voz en texto mientras el usuario habla. La gran diferencia es que la mayoría de los modelos de voz esperan a que la persona termine de hablar antes de ofrecer la transcripción completa, pero esto va perfecto para streaming y, una vez más, romper la barrera de los idiomas.

¿Dónde veremos estas novedades?

Hay que dejar claro que OpenAI los ha lanzado únicamente para desarrolladores. Ellos son los que deben ahora idear sus aplicaciones para el mundo real e integrarlas en servicios de todo tipo. Podemos pensar en servicios de atención al cliente con bots de voz mucho más eficientes, traducción en tiempo real para un ámbito como el del turismo y la traducción en directo para reuniones o notas en el ámbito empresarial.

Total
0
Shares
Prev
El desconocido motivo por el que siempre se te gasta antes la batería de un auricular que de otro
Una persona utilizando auriculares

El desconocido motivo por el que siempre se te gasta antes la batería de un auricular que de otro

Así puedes evitarlo la próxima vez

Next
Qué es cómo funciona NewPipe, la polémica alternativa a YouTube
newpipe app

Qué es cómo funciona NewPipe, la polémica alternativa a YouTube

Tiene sus ventajas y sus inconvenientes

You May Also Like