A Microsoft desenvolveu uma inteligência artificial capaz de replicar vozes humanas a partir de amostras de pelo menos três segundos. Treinada com mais de 60 mil horas de áudios em inglês, a IA VALL-E consegue simular criar falas a partir de texto simulando emoções, diferentes tons de voz e até criar expressões e falas inexistentes no áudio original.
O VALL-E é uma inteligência artificial text-to-speech (“texto para fala”, em português, ou TTS). Trata-se de um modelo de linguagem codec natural capaz de sintetizar falas personalizadas de alta qualidade com apenas gravações de três segundos.
A plataforma toma pequenas faixas de voz como exemplo e as modifica para ler um trecho pequeno de texto, com pausas e diferentes entonações dependendo da pontuação do trecho.
Assim como a geração de imagens a partir de referências, a IA VALL-E é significativamente perigosa. A ferramenta serviria perfeitamente para simular vozes de outras pessoas sem a devida autorização, apesar de o resultado não ser tão convincente em todos os cenários.
Por conta desse perigo, a VALL-E não está disponível para o público geral e somente pode ser conferida a partir das amostras divulgadas pela companhia.