A voz humana, com toda sua sutileza e nuance, está provando ser uma coisa excepcionalmente difícil de os computadores emularem. Usando um poderoso novo algoritmo, uma startup de inteligência artificial de Montreal desenvolveu um gerador de voz que consegue imitar virtualmente a voz de qualquer pessoa. O sistema não é perfeito, mas anuncia um futuro em que vozes, assim como fotos, poderão ser facilmente falsificadas.
Quando a Siri, a Alexa ou o nosso GPS fala conosco, é bastante óbvio que estamos ouvindo uma máquina. Isso porque, virtualmente, todo sistema de texto para fala no mercado conta com um conjunto pré-gravado de palavras, frases e enunciados (gravados por atores de voz), que são então juntados à la Frankenstein para produzir palavras e sentenças completas. O resultado final soa distintamente sem inspiração, robótico e, às vezes, risível. Essa abordagem para síntese de voz também significa que estamos presos, ouvindo a mesma voz pré-gravada repetidamente.
Em um esforço para colocar um pouco de vida nas vozes automáticas que vêm de nossos aplicativos, a startup de inteligência artificial Lyrebird desenvolveu um algoritmo que consegue imitar a voz de qualquer pessoa e ler qualquer texto com alguma emoção ou entonação pré-definidas. De maneira incrível, ele consegue fazer isso após analisar apenas umas dezenas de segundos de áudio pré-gravado. Para promover sua nova ferramenta, a Lyrebird produziu várias amostras de áudio, usando as vozes de Barack Obama, Donald Trump e Hillary Clinton.
As demonstrações da Lyrebird também exibem o catálogo virtualmente ilimitado de vozes e a capacidade do sistema de articular a mesma frase com diferentes entonações.
Tudo isso é possível por meio do uso de redes neurais artificiais, que funcionam de modo similar às redes neurais biológicas no cérebro humano. Essencialmente, o algoritmo aprende a reconhecer padrões na fala de uma pessoa em particular e então reproduz esses padrões durante a fala simulada.
“Treinamos nossos modelos com um conjunto de dados enorme, com milhares de pessoas falando”, Jose Sotelo, membro da equipe da Lyrebird e especialista em síntese de fala, contou ao Gizmodo. “Então, para cada nova pessoa, comprimimos sua informação em uma pequena chave que contém seu DNA de voz. Usamos essa chave para falar novas frases.”
O resultado final está longe de ser perfeito — as amostras ainda exibem rastros digitais, problemas de clareza e outras estranhezas —, mas existe pouca dúvida sobre quem está sendo imitado pelo gerador de fala. Mudanças na entonação também são discerníveis. Diferentemente de outros sistemas, a solução do Lyrebird exige menos dados por cada pessoa falante para produzir uma nova voz e funciona em tempo real. A empresa planeja oferecer sua ferramenta para empresas que precisem de soluções de síntese de fala.
“Atualmente, estamos levantando fundos e aumentando nossa equipe de engenharia”, disse Sotelo. “Estamos trabalhando para melhorar a qualidade do áudio, para torná-lo menos robótico, e esperamos começar os testes beta em breve.”
Nem precisa dizer que essa forma de síntese de fala apresenta uma série de problemas éticos e de preocupações de segurança. Eventualmente, uma versão refinada desse sistema poderia replicar a voz de uma pessoa com precisão incrível, tornando virtualmente impossível para um ouvinte humano discernir a original da emulação. Está chegando o dia em que discursos vocais, assim como imagens processadas no Photoshop, poderão ser manipulados sem nosso conhecimento. Indivíduos inescrupulosos poderiam falsificar uma fala de um político importante, acrescentando ainda mais uma camada ao emergente ambiente da pós-verdade. Hackers poderiam usar síntese de voz para engenharia social, enganando até mesmo os mais cuidadosos especialistas em segurança. As possibilidades são quase infinitas.
Esses potenciais impactos adversos não estão ausentes na Lyrebird, que afirma que a era em que podemos confiar em gravações de áudio está prestes a chegar a um fim.
“Levamos a sério as potenciais aplicações maliciosas de nossa tecnologia”, Sotelo contou ao Gizmodo. “Queremos que essa tecnologia seja usada para bons propósitos: devolver a voz a pessoas que a perderam por alguma doença, conseguir gravar você mesmo em diferentes estágios da sua vida e ouvir posteriormente etc. Já que essa tecnologia poderia ser desenvolvida por outros grupos com propósitos maliciosos, acreditamos que a coisa certa a se fazer é torná-lo público e bem conhecido para que deixemos de confiar em gravações de áudio [como evidências].”
Sem dúvidas, vamos ter que começar a duvidar em breve de gravações de áudio, mas soluções também podem ser desenvolvidas para averiguar a autenticidade de gravações de voz. Os humanos podem ser enganados por tais sistemas, mas computadores não serão, pelo menos não por algum tempo. Analisando a forma de onda e as frequências de uma fala humana, uma gravação em alta resolução pode emitir uma quantidade tremenda de dados para um computador analisar.
Vai levar muito, muito tempo para que um programa de síntese de fala consiga replicar cada aspecto da fala distinta de uma pessoa, como os maiores detalhes do timbre vocal (como a qualidade do discurso) e barulhos como respiração, som da língua e os lábios se tocando, ao ponto em que mesmo uma máquina não possa detectar a diferença. Há outros aspectos a se considerar em uma gravação também. Por exemplo, a ausência de sons de fundo, a presença de um espaço acústico falsificado e sons ambientes adicionais artificialmente devem ser facilmente detectáveis por uma máquina projetada para isso.
Eventualmente, no entanto, um programa de síntese de fala pode conseguir fingir todos esses aspectos. A essa altura, nossa capacidade de discernir verdade de fabricação será testada.
[Lyrebird via Scientific American]
FONTE: GIZMODO BRASIL
Comentários
Postar um comentário