Todo lo que quería saber sobre VALL-E de Microsoft

Microsoft ha desarrollado VALL-E, un modelo de IA de conversión de texto a voz que imita cualquier voz con solo escuchar una muestra de audio de 3 segundos.

Antes de seguir leyendo, me gustaría dejar claro que VALL-E es diferente de WALL-E. Aunque algunos de nosotros pronunciaríamos ambas palabras exactamente igual, existe mucha diferencia entre ambas. WALL-E es una animación de Disney-Pixar lanzada en 2008, que incluía un lindo y amigable robot AI.

El factor AI es de hecho una similitud entre VALL-E y WALL- MI.

¿Qué sabemos sobre VALL-E?

En términos técnicos, Microsoft llama a VALL-E un "modelo de lenguaje de códec neuronal". En un lenguaje más simple, VALL-E es un modelo de inteligencia artificial que puede generar audio a partir de la entrada de texto, así como imitar la voz de cualquier muestra de audio proporcionada. Al escuchar una muestra vocal de tan solo tres segundos, puede imitar cualquier voz. VALL-E aún no es accesible al público en general. No sólo puede adaptarse a la voz sino también al estado de ánimo y la acústica del espacio. Hay problemas morales con esto, a pesar de que se puede aplicar de muchas maneras beneficiosas.

Modelos de entrenamiento –

Los investigadores afirman haber entrenado a VALL-E con 60.000 horas de hablantes de inglés, en comparación con más de 7.000 personas en la biblioteca de audio LibriLight de Meta. La voz del hablante objetivo debe parecerse mucho a los datos del entrenamiento para poder ser imitada. De esta manera, Al puede utilizar su 'entrenamiento' para intentar imitar la voz del hablante objetivo.

Imitar emociones –

Cabe destacar que el modelo Al puede simular la acústica de la sala, así como el tono emocional del hablante, además del tono, la cáscara y la textura. Por lo tanto, VALL-E imitará la voz objetivo como si tuviera una perturbación si la voz objetivo la tuviera.

Según el equipo de investigación de Microsoft, “Los hallazgos de los experimentos demuestran que VALL-E funciona mucho mejor en términos de naturalidad del habla y semejanza del hablante que el sistema TTS de disparo cero más avanzado. Además, descubrimos que VALL-E podría mantener la emoción del hablante y el contexto acústico del mensaje acústico durante la síntesis “.

Amenazas –

El Al El modelo se puede aplicar a la robótica, la producción de medios y aplicaciones personalizadas de conversión de texto a voz. Sin embargo, si se usa incorrectamente, podría representar una amenaza. La empresa advirtió que el modelo puede usarse indebidamente para suplantar o falsificar la identificación de voz porque VALL-E podría sintetizar el habla manteniendo la identidad del hablante.

VALL-E podría usarse, por ejemplo, para generar llamadas no deseadas que parecen ser legítimas para estafar a la gente. Los políticos o cualquier persona con una presencia social respetable también son susceptibles de suplantación, como lo demuestran los bulos. Las amenazas pueden llegar a los usuarios que utilizan aplicaciones que necesitan comandos de voz o contraseñas de voz. Además, VALL-E puede eliminar los trabajos de actores de doblaje.

Posición ética –

Además, el negocio incluye una declaración sobre ética que dice: "Las pruebas en este trabajo se llevaron a cabo bajo el supuesto de que el usuario del modelo es el hablante objetivo y ha sido aceptado por el hablante". El protocolo para garantizar que el hablante acepta ejecutar la alteración y el sistema para detectar el habla modificada deben incluirse en los modelos de edición de voz, afirmó, cuando el modelo se generaliza a todos los hablantes.

¿Cómo es VALL? -E ¿Diferente de DALL-E?

DALL-E es un modelo de aprendizaje automático creado por OpenAI que genera gráficos a partir de descripciones de texto. Las indicaciones se utilizan para describir estas descripciones de texto a imagen. Sólo una descripción de la escena es suficiente para que el algoritmo produzca imágenes realistas. DALL-E es una técnica de red neuronal que crea imágenes precisas a partir de palabras breves proporcionadas por el usuario. Aprende el lenguaje mediante descripciones textuales y a partir de datos de “aprendizaje” que los usuarios y desarrolladores han contribuido a sus conjuntos de datos.

¿Qué opinas de VALL-E?

Esperamos que ahora sepas todo sobre VALL-E (texto a sonido) en comparación con DALL-E (texto a imagen). No hay una fecha definitiva sobre cuándo VALL-E estará disponible para el acceso y uso del público en general. En lo que respecta a DALL-E, ya está disponible para todos.

Háganos saber en los comentarios a continuación si tiene alguna pregunta o recomendación. Estaremos encantados de ofrecerle una resolución. Con frecuencia publicamos consejos, trucos y soluciones a problemas comunes relacionados con la tecnología. También puede encontrarnos en Facebook, Twitter, YouTube, Instagram, Flipboard y Pinterest.

_{Leer: 0}

¿Qué sabemos sobre VALL-E?

¿Cómo es VALL? -E ¿Diferente de DALL-E?

Añadidos recientemente