VALL-E: Inteligência Artificial de síntese de voz

Hey Folks! Ainda não está preocupado? Tá na hora de ficar…

É meu querido… IA chegando com tudo…

Neste mês de janeiro de 2023 surgiu um modelo de aprendizado de Inteligência Artificial de síntese de voz, tremendamente eficaz, chamada VALL-E.

E com isso, uma nova onda de preocupação sobre a possibilidade de vozes deepfake feitas de forma rápida e fácil.

A replicação de voz tem sido objeto de intensa pesquisa há anos, e os resultados têm sido muito bons, o suficiente para fazer surgir diversas startups nesta área, como WellSaid, Papercup e Respeecher.

Este último está sendo usado até mesmo para criar reproduções de voz autorizadas de atores como James Earl Jones.

Sim! A partir de agora Darth Vader será gerado por IA.

Falando tecnicamente, o VALL-E criado pela Microsoft, é um “modelo de linguagem de codec neural” que usa uma abordagem diferente para renderizar vozes do que muitos antes dele.

Seu ambiente de treinamento e novos métodos permitem que ele crie “fala personalizada de alta qualidade” usando apenas três segundos de áudio de uma pessoa.

Ou seja, tudo o que você precisa é de um trecho de áudio extremamente curto como o seguinte (todos estes áudios foram cedidos como exemplo pela própria Microsoft):

Vozes Humanas:

VALL-E, Inteligência Artificial de síntese de voz sendo usada:

Como vocês podem ouvir, ele mantém o tom, o timbre, uma aparência de sotaque e até mesmo o “ambiente acústico” (por exemplo, uma voz comprimida em uma chamada de telefone celular).

Eu não me preocupei em rotulá-los porque você dificilmente vai saber diferenciar qual é a voz humana e qual é a da IA!

Inteligência Artificial de síntese de voz e seus perigos

Já estamos impressionados com as melhoras nas IA que geram imagens, como a DALL-E 2 e a MidJourney, ou em modelos de texto como o ChatGPT, sendo absolutamente transformador: um ano ou dois atrás, esse nível de conteúdo detalhado e convincente gerado por IA era impossível.

A preocupação (e o pânico) em torno desses modelos é compreensível e justificada.

O que isso poderá ser utilizado para golpes não está escrito…

Agora minha mãe vai pagar meu resgate mesmo quando receber a ligação da prisão…

E os dubladores coitados? Mais motoristas de Uber na praça…

James Betker, um engenheiro que trabalhou por um tempo em outro sistema de conversão de texto em fala, afirma que:

“Estou feliz que está ganhando alguma força, porque eu realmente quero que as pessoas estejam falando sobre isso. Eu realmente sinto que o discurso é um pouco conservador, a maneira como nossa cultura pensa sobre isso”.

Ele realmente parou de trabalhar em seu próprio modelo como resultado dessas preocupações.

Uso do VALL-E com o Samuel L. Jackson

Um Dali falso criado por DALL-E 2 não tem o mesmo efeito visceral para as pessoas que ouvir algo em sua própria voz, a de um ente querido ou de um ídolo.

O VALL-E nos aproxima um pouco mais da onipresença e, embora não seja o tipo de modelo que você executa em seu celular, isso não estará muito longe, especulou Betker.

Alguns anos, talvez, para executar algo parecido; como exemplo, ele enviou este áudio que ele gerou em seu próprio notebook usando o software Tortoise-TTS, com a voz de Samuel L. Jackson, com base em leituras de audiolivros dele:

VALL-E com o Samuel L. Jackson:

Bom, né?

Isso tudo é apenas para dizer que, o VALL-E da Microsoft é definitivamente notável, ele representa mais uma caminhada na longa jornada que os pesquisadores vêm percorrendo há mais de uma década.

Dá medinho, não?

Enquanto isso, os benefícios são potencialmente enormes – pense em pessoas que perdem a capacidade de falar devido a uma doença ou acidente.

Essas coisas acontecem com rapidez suficiente para que eles não tenham tempo de poder reproduzir a voz em softwares de aprendizado de áudio.

Mas com algo como VALL-E, tudo o que ele precisará é de alguns áudios de WhatsApp ou um vídeo de um brinde no jantar.

O potencial para essa tecnologia é enorme, mas também devemos ouvir nosso instinto coletivo, dizendo que há algo perigoso aqui.

Só não entre em pânico – ainda…