Ciencia

Escuche a Donald Trump generado por IA leer ‘Los tres cerditos’

Por

febrero 6, 2023

Los clips de sonido de Donald Trump leyendo en voz alta la canción infantil ‘Three Little Pigs’ y Tom Hanks recitando ‘Ezekiel 25:17’ de Pulp Fiction pueden parecer realistas, pero fueron generados por inteligencia artificial.

Un desarrollador creó una herramienta, denominada Tortoise TTS (Text-to-Speech), capaz de replicar la voz de una persona después de analizar 20 segundos de un clip de audio con ellos hablando.

Y DailyMail.com le pidió a la IA que clonara las voces del expresidente y actor.

Shashank jainistael creador de Tortoise TTS, dijo que su idea principal era crear una herramienta que nos permitiera generar podcasts basados en texto.

«Con la llegada de ChatGPT, podemos generar conversaciones en el formato que queramos, proporcionar el feed a la herramienta que creé y generar un podcast entre dos oradores de nuestra elección», dijo a DailyMail.com.

Los clips de sonido se crearon con una IA de texto a voz desarrollada por Shashank Jain, quien dijo que estaba diseñada para generar podcasts. DailyMail.com hizo que la IA generara la voz de Donald Trump para leer ‘Los tres cerditos’

Y así como Microsoft no está lanzando su clonación de voz VALL-E por temor a un uso indebido, Jain también planea mantener a Tortoise a salvo de los malos actores.

El uso de IA para escribir ensayos, crear música y replicar la voz de alguien alguna vez se vio como algo de una película de ciencia ficción, pero ahora se está convirtiendo en la forma del mundo.

Jain compartió su tecnología en Twitter, luego de que Microsoft anunciara su VALL-E; tuiteó que la tecnología ya existe.

Dijo que el texto se envía primero a ChatGPT, el popular chatbot de Microsoft, para generar una conversación textual entre los dos sobre este tema.

«Una vez hecho esto, el texto se envía a mi herramienta, que luego crea el podcast basado en muestras de audio de dos personajes (Musk y Hanks en este caso) y conversaciones de texto entre los dos», dijo Jain.

‘Mi razón principal era simplemente hacer esto como un pasatiempo y no hacer nada comercial con él.

‘Microsoft VALL-E promete hacer lo mismo y, en cuanto a la arquitectura, también utiliza la arquitectura subyacente de Transformers.

«Microsoft aún no ha hecho público su modelo, principalmente debido a preocupaciones sobre el mal uso de las voces».

La herramienta es capaz de replicar la voz de una persona después de analizar 20 segundos de un clip de audio con ellos hablando. DailyMail.com también le pidió a la IA que clonara la voz de Tom Hanks

La voz digital de Tom Hanks recita ‘Ezequiel 25:17’ de Pulp Fiction que fue dicho por el actor Samuel L Jackson en las películas de 1994

Microsoft anunció VALL-E en enero, promocionando su capacidad para clonar la voz de alguien después de analizar solo tres segundos de un clip de audio de ellos hablando.

La tecnología generó controversia entre el público, que teme que sea una herramienta para que los estafadores roben su voz.

Un estafador telefónico podría usar el sistema para capturar solo tres segundos de su voz y replicarla, lo que también incluiría su rango emocional y su entorno acústico.

Esto permitiría a los malos actores eludir los sistemas que usan su voz como contraseña.

Si bien la IA genera temor entre algunos usuarios, otros ven la tecnología como una forma de que las personas que perdieron la voz debido a una enfermedad de la garganta, ELA u otra lesión, recuperen el habla.

Sin embargo, algunos usuarios de Twitter han planteado una pregunta importante: ¿eres dueño del sonido de tu voz?

El equipo de Microsoft Vall-E ha abordado la cuestión ética con una declaración: ‘Los experimentos en este trabajo se llevaron a cabo bajo el supuesto de que el usuario del modelo es el orador objetivo y ha sido aprobado por el orador.

Sin embargo, cuando el modelo se generaliza a hablantes no vistos, los componentes relevantes deben ir acompañados de modelos de edición del habla, incluido el protocolo para garantizar que el hablante acepte ejecutar la modificación y el sistema para detectar el habla editada.’

VALLE recibió capacitación en 60.000 horas de inglés y Microsoft afirma que puede reproducir acentos estadounidenses, británicos y varios acentos europeos.

VALL-E solo puede convertir texto escrito en voz, pero esto es suficiente para que alguien use la tecnología para robar tu voz y ‘poner palabras en tu boca’.

Microsoft aún no lo ha lanzado al público, pero la compañía tiene grandes esperanzas en su IA: está a punto de revolucionar la forma en que escuchamos los audiolibros y los asistentes inteligentes.

Los creadores de VALL-E dijeron que la herramienta de inteligencia artificial está diseñada para aplicaciones de texto a voz de alta calidad.

Esto incluye editar el habla en una grabación de una persona, como un audiolibro.

VALL-E analiza cómo suena la persona en el clip de audio, divide esa información en diferentes componentes, luego usa sus datos de entrenamiento para encontrar algo similar y combina los dos.

Fuente