Loading...

Ingenieros de Facebook crean una red neuronal que imita a la perfección la voz de Bill Gates

Inteligencia artificial

Se trata de un ejemplo de los avances en Inteligencia artificial para imitar voces humanas

Bill Gates durante una conferencia en Londres el pasado 30 de enero de 2015

Suzanne Plunkett | Reuters

Ingenieros de Facebook han desarrollado una inteligencia artificial capaz de imitar la voz humana con gran perfección, y lo han demostrado con una sorprendente recreación de la voz del mismísimo Bill Gates.

Estos investigadores han presentado un audio con lo que parece ser el creador de Microsoft pronunciando unas frases inconexas, como “Un calambre no es un pequeño peligro al nadar” o “Escribe una nota de cariño al amigo que aprecias”. Pero en realidad se trata de unos clip de voz generados por un sistema de aprendizaje automático llamado MelNet, diseñado y creado por ingenieros en Facebook.

Bill Gates es solo uno de los personajes a los que MelNet puede imitar, ya que esta inteligencia artificial también puede hablar con el tono de voz de George Takei, Jane Goodall y Stephen Hawking, entre otros.

Para “educar” a MelNet, los investigadores han utilizado los datos de 452 horas de conversaciones TED. El resto de los datos de entrenamiento provienen de audiolibros.

La precisión de MelNet es una constatación de la forma cómo está avanzando la tecnología de imitación de voz por parte de la inteligencia artificial. Gran parte de este progreso se remonta a 2016 con la presentación de SampleRNN y WaveNet. Este último es un programa de aprendizaje automático de texto a voz creado por el laboratorio de inteligencia artificial con sede en Londres DeepMind de Google, que ahora funciona con su Asistente de voz.

Estos programas se alimentan literalmente de miles de datos y los utilizan para analizar los matices de una voz humana. La diferencia con MelNet de Facebook es que este usa un formato más rico y más informativo para aprender a hablar, el espectrograma.

Los investigadores de Facebook explican que si bien WaveNet produce una salida de audio de mayor fidelidad, MelNet es superior en la captura de “estructura de alto nivel”, es decir, las sutiles consistencias contenidas en la voz de un orador que, irónicamente, son casi imposibles de describir con palabras, pero que el oído es capaz de captar.

Esto se debe a que los datos capturados en un espectrograma son “órdenes de magnitud más compactos” que los que se encuentran en las formas de onda de audio. Esta densidad permite que los algoritmos produzcan voces más consistentes.

Sin embargo, el sistema también presenta, de momento, algunas limitaciones. Por ejemplo, de momento no puede replicar cómo una voz humana cambiará durante largos períodos de tiempo.