Clona de forma fiable la voz humana con una muestra de tan solo 15 segundos. Eso es lo que consigue la última herramienta de inteligencia artificial creada por OpenAI, la firma que deslumbró al mundo con ChatGPT, su programa de lenguaje de IA generativa.
“Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala de un modelo llamado Voice Engine, que utiliza texto y una única muestra de audio de 15 segundos para generar un habla natural que se parece mucho al hablante original. Es destacable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”, afirmó en un comunicado la firma dirigida por Sam Altman.
Todo lo que el usuario tiene que hacer es proporcionar esa muestra. Una vez que el programa Voice Engine lo tenga, podrás hacer que lea cualquier texto que le proporciones con el timbre y tono de esa voz. Ni siquiera es necesario que el texto esté en el mismo idioma. Un hispanohablante puede proporcionar la muestra en su idioma y luego pedirle al programa que lea un texto en inglés, chino u otros idiomas con su voz.
También se puede utilizar directamente para la traducción de audio. Es más, cuando se utiliza para traducir, Voice Engine preserva el acento nativo del hablante original: por ejemplo, generar inglés con una muestra de audio de un hablante francés produciría un habla con acento francés.
Uso restringido
La empresa prefiere lanzar por el momento una prueba a pequeña escala en lugar de facilitar el acceso generalizado a la herramienta, como hizo con ChatGPT, consciente del riesgo de suplantación de identidad. Con la herramienta basta con grabar 15 segundos de alguien para hacerse con su voz.
«Estamos adoptando un enfoque cauteloso e informado para una publicación más amplia debido al potencial de uso indebido de voces sintéticas», dice OpenAI. “Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. “Con base en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a gran escala y cómo hacerlo”, añade.
OpenAI considera que antes de generalizar el acceso a la nueva herramienta hay que tomar decisiones sobre una serie de aspectos. Por ejemplo, pide eliminar progresivamente la autenticación por voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible, ya que dejaría de ser segura.
También considera necesario explorar políticas para proteger el uso de la voz de los individuos en la inteligencia artificial. El riesgo de manipulación y desinformación es especialmente marcado en el caso de figuras públicas, incluidos los políticos.
Por lo tanto, también exige educar al público para que comprenda las capacidades y limitaciones de las tecnologías de IA, incluida la posibilidad de contenido de IA engañoso.
Otra propuesta que pone sobre la mesa es acelerar el desarrollo y la adopción de técnicas para rastrear el origen de los contenidos audiovisuales, de modo que siempre quede claro cuándo se está interactuando con una persona real o con una IA.
“Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, ya sea que finalmente la implementemos ampliamente nosotros mismos o no. Esperamos seguir participando en conversaciones sobre los desafíos y oportunidades de las voces sintéticas con responsables políticos, investigadores, desarrolladores y creativos”, concluye OpenAI.
En su carrera de innovaciones, OpenAI ha lanzado herramientas no sólo para el lenguaje, sino también para la generación de imágenes y vídeos. El mes pasado presentó Sora, una revolucionaria herramienta de vídeo que sólo necesitaba texto para crear un vídeo corto con el contenido y estilo requeridos.
puedes seguir EL PAÍS Tecnología en Facebook y X o regístrate aquí para recibir nuestra boletín semanal.



