Pular para o conteúdo principal

Este gerador de fala consegue falsificar a voz de qualquer um



A voz humana, com toda sua sutileza e nuance, está provando ser uma coisa excepcionalmente difícil de os computadores emularem. Usando um poderoso novo algoritmo, uma startup de inteligência artificial de Montreal desenvolveu um gerador de voz que consegue imitar virtualmente a voz de qualquer pessoa. O sistema não é perfeito, mas anuncia um futuro em que vozes, assim como fotos, poderão ser facilmente falsificadas.

Quando a Siri, a Alexa ou o nosso GPS fala conosco, é bastante óbvio que estamos ouvindo uma máquina. Isso porque, virtualmente, todo sistema de texto para fala no mercado conta com um conjunto pré-gravado de palavras, frases e enunciados (gravados por atores de voz), que são então juntados à la Frankenstein para produzir palavras e sentenças completas. O resultado final soa distintamente sem inspiração, robótico e, às vezes, risível. Essa abordagem para síntese de voz também significa que estamos presos, ouvindo a mesma voz pré-gravada repetidamente.

Em um esforço para colocar um pouco de vida nas vozes automáticas que vêm de nossos aplicativos, a startup de inteligência artificial Lyrebird desenvolveu um algoritmo que consegue imitar a voz de qualquer pessoa e ler qualquer texto com alguma emoção ou entonação pré-definidas. De maneira incrível, ele consegue fazer isso após analisar apenas umas dezenas de segundos de áudio pré-gravado. Para promover sua nova ferramenta, a Lyrebird produziu várias amostras de áudio, usando as vozes de Barack Obama, Donald Trump e Hillary Clinton.



As demonstrações da Lyrebird também exibem o catálogo virtualmente ilimitado de vozes e a capacidade do sistema de articular a mesma frase com diferentes entonações.









Tudo isso é possível por meio do uso de redes neurais artificiais, que funcionam de modo similar às redes neurais biológicas no cérebro humano. Essencialmente, o algoritmo aprende a reconhecer padrões na fala de uma pessoa em particular e então reproduz esses padrões durante a fala simulada.

“Treinamos nossos modelos com um conjunto de dados enorme, com milhares de pessoas falando”, Jose Sotelo, membro da equipe da Lyrebird e especialista em síntese de fala, contou ao Gizmodo. “Então, para cada nova pessoa, comprimimos sua informação em uma pequena chave que contém seu DNA de voz. Usamos essa chave para falar novas frases.”

O resultado final está longe de ser perfeito — as amostras ainda exibem rastros digitais, problemas de clareza e outras estranhezas —, mas existe pouca dúvida sobre quem está sendo imitado pelo gerador de fala. Mudanças na entonação também são discerníveis. Diferentemente de outros sistemas, a solução do Lyrebird exige menos dados por cada pessoa falante para produzir uma nova voz e funciona em tempo real. A empresa planeja oferecer sua ferramenta para empresas que precisem de soluções de síntese de fala.

“Atualmente, estamos levantando fundos e aumentando nossa equipe de engenharia”, disse Sotelo. “Estamos trabalhando para melhorar a qualidade do áudio, para torná-lo menos robótico, e esperamos começar os testes beta em breve.”

Nem precisa dizer que essa forma de síntese de fala apresenta uma série de problemas éticos e de preocupações de segurança. Eventualmente, uma versão refinada desse sistema poderia replicar a voz de uma pessoa com precisão incrível, tornando virtualmente impossível para um ouvinte humano discernir a original da emulação. Está chegando o dia em que discursos vocais, assim como imagens processadas no Photoshop, poderão ser manipulados sem nosso conhecimento. Indivíduos inescrupulosos poderiam falsificar uma fala de um político importante, acrescentando ainda mais uma camada ao emergente ambiente da pós-verdade. Hackers poderiam usar síntese de voz para engenharia social, enganando até mesmo os mais cuidadosos especialistas em segurança. As possibilidades são quase infinitas.

Esses potenciais impactos adversos não estão ausentes na Lyrebird, que afirma que a era em que podemos confiar em gravações de áudio está prestes a chegar a um fim.

“Levamos a sério as potenciais aplicações maliciosas de nossa tecnologia”, Sotelo contou ao Gizmodo. “Queremos que essa tecnologia seja usada para bons propósitos: devolver a voz a pessoas que a perderam por alguma doença, conseguir gravar você mesmo em diferentes estágios da sua vida e ouvir posteriormente etc. Já que essa tecnologia poderia ser desenvolvida por outros grupos com propósitos maliciosos, acreditamos que a coisa certa a se fazer é torná-lo público e bem conhecido para que deixemos de confiar em gravações de áudio [como evidências].”

Sem dúvidas, vamos ter que começar a duvidar em breve de gravações de áudio, mas soluções também podem ser desenvolvidas para averiguar a autenticidade de gravações de voz. Os humanos podem ser enganados por tais sistemas, mas computadores não serão, pelo menos não por algum tempo. Analisando a forma de onda e as frequências de uma fala humana, uma gravação em alta resolução pode emitir uma quantidade tremenda de dados para um computador analisar.

Vai levar muito, muito tempo para que um programa de síntese de fala consiga replicar cada aspecto da fala distinta de uma pessoa, como os maiores detalhes do timbre vocal (como a qualidade do discurso) e barulhos como respiração, som da língua e os lábios se tocando, ao ponto em que mesmo uma máquina não possa detectar a diferença. Há outros aspectos a se considerar em uma gravação também. Por exemplo, a ausência de sons de fundo, a presença de um espaço acústico falsificado e sons ambientes adicionais artificialmente devem ser facilmente detectáveis por uma máquina projetada para isso.

Eventualmente, no entanto, um programa de síntese de fala pode conseguir fingir todos esses aspectos. A essa altura, nossa capacidade de discernir verdade de fabricação será testada.

[Lyrebird via Scientific American]

FONTE: GIZMODO BRASIL

Comentários

Postagens mais visitadas deste blog

Uma Nova Etapa!

Passados dez anos, Ufos Wilson trocou de nome e plataforma! Agora nos chamamos Banco de Dados Ufológicos e Científicos (BDUC). Nosso conteúdo segue o mesmo, levando informações sérias com foco principal na Ufologia Científica, porém divulgando e abrangendo todas as disciplinas científicas! A seguir o link do site, compartilhem e divulguem: https://bancodedadosufologicosecientificos.wordpress.com/

O caso Roswell nordestino: Queda de UFO na Bahia, em Janeiro de 1995

Por Ufo Bahia: Nessa data, as 09:00 horas, uma in­formante do G-PAZ, "M" da TV BAHIA me ligou contando uma mirabolante his­tória de queda de um UFO em Feira deSantana(BA) a 112 Km de Salvador. Umfazendeiro de apelido Beto, tinha ligadopara TV SUBAÉ daquela cidade oferecen­do – em troca de dinheiro – um furo dereportagem; um disco voador tinha caído na sua fazenda e ele tinha provas e ima­gens do fato! Apenas depois do meio dia, conse­gui – por fim – falar com Beto, que apóssua proposta de negócio, ante minha (apa­rente) frieza, me contou com bastante de­talhes o acontecido. Soube que tambémtentara vender suas provas a TV BAHIA,onde procurou o repórter José Raimundo: "Ontem pela madrugada caiu algu­ma coisa na minha fazenda, dentro de umalagoa. Era do tamanho de um fusca; aqui­lo ficou boiando parcialmente submerso,perto da beirada. Tentei puxar como pude,trazendo para perto de mim, com uma vara.Aquilo parecia um parto... (quando seabriu uma porta) começou primeiro a s

Arquivo Ovni: Caso Jardinópolis

Jardinópolis esta distante 335 km da capital paulista, localizada na região de Ribeirão Preto foi palco de um acontecimento insólito na noite de 27 de dezembro de 2008, onde um grupo de adolescentes na época teriam presenciado a descida de luzes vermelhas e azuis num terreno baldio próximo de onde estavam, um dos garotos tomou uma imagem com seu celular, porém de baixa resolução. A seguir trecho extraído do blog feito por membros dos familiares dos jovens, contendo relatos e frame do vídeo feito. Relato dos envolvidos: "Por Luciene [AVISTAMENTO DE MEU FILHO] Sábado 27/12/2008, meu filho de 15 anos chega assustado em casa aproximadamente umas 23:45. Meu filho faz parte de um grupo de jovens da igreja católica, e acabando a missa, ele e seus amigos foram para uma pracinha. Essa pracinha fica em um bairro novo. E próximo daquele lugar tem uns terrenos baldios cheios de mato. Eles estavam conversando quando avistaram de longe luzes vermelhas e azuis no céu e logo essa luz