Muy Interesante

Microsoft presenta VALL-E, una IA que imita cualquier voz

Tras los textos y las imágenes, esta inteligencia artificial puede replicar tu voz o cualquiera que haya escuchado durante 3 segundos.

Microsoft ha lanzado recientemente una nueva herramienta de inteligencia artificial llamada VALL-E, que es similar a DALL-E (imágenes) pero para voces. Esta IA es tan avanzado que con solo escuchar tres segundos de audio, puede replicar cualquier voz.

El último generador de texto a voz

A diferencia de los generadores de voz (TTS) anteriores que sonaban robóticos, VALL-E suena naturalmente humano (¿espeluznante?). Si bien los generadores de voz permitieron comunicarse a genios como el físico Stephen Hawking, de un tiempo a esta parte, estas herramientas se utilizan habitualmente para leer mensajes del móvil o incluso para leer páginas de un libro, pero este tipo de productos no están destinados a imitar la voz de un usuario y necesitan innumerables horas de entrenamiento para poder hacerlo.
La IA de Microsoft ha dado un paso más allá: el nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante con tan solo escuchar 3 segundos de audio. Basado en EnCodec, el códec de audio de Meta, la IA analiza la voz de una persona e interpreta cómo sonaría esa voz con diferentes frases. Y, además, preservando la entonación y la emoción del hablante, según afirma la compañía.
Microsoft entrenó las funcionalidades de síntesis de voz de VALL-E utilizando la biblioteca de audio LibriLight de Meta. Incluye 60.000 horas de habla en inglés de más de 7.000 hablantes, provenientes principalmente de audiolibros de dominio público de LibriVox.
VALL-E genera códecs de audio discretos a partir de indicaciones de texto y audio y los usa para compararlo con lo que sabe sobre cómo sonaría la voz si pronunciara otras frases.

VALL-E genera códecs de audio discretos a partir de indicaciones de texto y audio y los usa para compararlo con lo que sabe sobre cómo sonaría la voz si pronunciara otras frases.iStock

Grandes capacidades

Así, una vez que ha aprendido una voz específica, VALL-E puede sintetizar el audio de esa persona y decir cualquier cosa intentando retener el tono emocional del hablante. Cuando se combina con otros modelos generativos de IA como GPT-3, sus creadores creen que se puede usar para aplicaciones de texto a voz de alta calidad, edición de voz en la que se puede editar y modificar una grabación de una persona a partir de una transcripción de texto (por ejemplo, haciéndoles decir algo que en realidad no han dicho), y creación de contenido de audio.
Hay varios ejemplos de audio de la herramienta en GitHub y, cuando funciona, funciona muy bien y eso que apenas son los primeros días de VALL-E, y está claro que mejorará con el tiempo. Esto hace que pensemos en las posibles consecuencias negativas de su uso: la tecnología también podría usarse para engañar a otro ser humano haciendo una llamada de socorro o accediendo a información confidencial que está bloqueada detrás de contraseñas habilitadas para voz...
Es importante comentar que, al contrario que ChatGPT de OpenAI, VALL-E no está disponible para el público, al menos no todavía.

La ventana a un mundo en constante cambio

Muy Interesante

Recibe nuestra revista en tu casa desde 39 euros al año

Suscríbete
Suscripciones a Muy Interesante
tracking