La nueva IA de Microsoft es capaz de copiar una voz humana a partir de solo tres segundos de grabación de audio

Microsoft anunció la creación de un nuevo tipo de IA que puede generar fácilmente un discurso que suene realista con todas las entonaciones necesarias. El instrumento se denominó “VALL-E”. Lo más curioso es que le basta con analizar tan solo 3 segundos de la grabación de audio de la voz de cualquier persona para copiarla a la perfección.

Microsoft no divulga los principios de la nueva IA, no va a cargar sus códigos fuente e incluso es poco probable que cree una herramienta comercial pública basada en VALL-E. Más bien, es un experimento, una etapa intermedia en el desarrollo de una adición a otro modelo de lenguaje: GPT-3. Es probable que el objetivo final de Microsoft sea un generador de voz universal que pueda reemplazar el trabajo de los humanos en la creación de contenido arbitrario.

La principal dificultad, y los desarrolladores no la ocultan, es la necesidad de crear unos marcadores que ayuden a distinguir la voz de la IA de las voces de personas reales. De lo contrario, dicha herramienta encontrará uso rápidamente entre los atacantes, ya que basta con ir a cualquier página en las redes sociales y “tomar prestadas” muestras de voz de numerosos videos personales de los usuarios. ¿Qué podemos decir sobre los discursos públicos de políticos y celebridades? Con esta IA, los estafadores pueden fácilmente llamar y hacerse pasar por una persona famosa con fines egoístas.

  ¿Te gusto la noticia? compártela en tus redes sociales.
error: