realidade

ROBÔS: Entenda como as IAs conseguem clonar a sua voz e saiba como identificar

Recentemente, uma influenciadora americana viralizou no Tik Tok após divulgar um vídeo onde usou a Inteligência Artificial (IA) para clonar a voz de seu namorado e descobrir uma traição. Esse episódio é só mais um diante de uma realidade cada vez mais abrangente. As IAs estão ficando cada vez mais populares e acessíveis para todos.

Foto: Marcelo Júnior / Polêmica Paraíba

Recentemente, uma influenciadora americana viralizou no Tik Tok após divulgar um vídeo onde usou a Inteligência Artificial (IA) para clonar a voz de seu namorado e descobrir uma traição. Esse episódio é só mais um diante de uma realidade cada vez mais abrangente. As IAs estão ficando cada vez mais populares e acessíveis para todos.

As IAs são capazes de emular vozes de seres humano, o que é bem diferente das falas robóticas de assistentes virtuais, como a Alexa, por exemplo. A nova tecnologia consegue reproduzir padrões de fala reais, dando entonação e colocando emoção no discurso.

 Entenda como essa tecnologia funciona:

Assim como os já populares chatbots, como o Bard e o ChatGPT, as inteligências artificiais que clonam a voz usam técnicas de aprendizagem profunda (do inglês Deep Learning) para estudar o padrão de fala humana e conseguir replicá-los. É uma enorme evolução das vozes sintéticas já conhecidas, como das assistentes virtuais do Google ou da Apple, que também conseguem transformar textos em fala, mas têm vozes são robóticas e sem qualquer entonação ou emoção.

A nova tecnologia combina as estratégias de aprendizado de máquina (do inglês Machine Learning) com uma rede neural artificial, método usado para treinar os computadores a processarem os dados da forma como o cérebro humano faria. Aliado a isso, os robôs ainda são alimentados com uma imensa quantidade de dados, como diferentes tipos de padrões de fala, características vocais, idiomas e sotaques distintos. Todas essas informações são processadas para criar um sistema chamado “síntese de fala”. Assim, essas IAs conseguem simular, de forma bastante realista, a fala humana, dando entonação ao texto e copiando emoções.

Alguns programas do gênero ainda permitem “clonar” a voz de qualquer ser humano de forma simples, bastando fazer o upload de um áudio curto para que o robô reproduza qualquer texto com a voz da pessoa. A Vall-E, inteligência artificial da Microsoft, por exemplo, consegue imitar a fala de alguém a partir de um áudio de apenas três segundos. A ferramenta foi alimentada com mais de 60 mil horas de fala humana e tem a capacidade de transformar texto em fala, simulando os padrões de fala e preservando os sons ambientes do áudio original. Apesar de serem baseados em amostras muito curtas, os resultados são bastante convincentes.

A LOVO é outra plataforma capaz de transformar texto em fala que entrega um resultado natural, sem parecer ter sido gerado por uma máquina. Essa inteligência artificial promete dar ao texto uma carga emocional, além de permitir que o usuário faça edições no áudio, mudando a velocidade, os tempos de pausa e destacando os pontos de ênfase da fala. Apesar de ter mais de 200 vozes semelhantes a de humanos em seu banco de dados, a LOVO também permite que o usuário crie conteúdos mais personalizados clonando a própria voz. No entanto, ao contrário da Vall-E, a LOVO precisa que o usuário leia um roteiro específico por 15 minutos para conseguir fazer a “clonagem”.

Quais são os possíveis usos das IAs que clonam voz?

Com a popularização das inteligências artificiais de síntese de voz, é inevitável pensar nas inúmeras possibilidades que esses recursos podem trazer para o dia a dia. A primeira diz respeito à acessibilidade: pessoas que perderam a capacidade de fala poderão utilizar a IA para se comunicar, transformando um texto escrito em sua própria voz. Da mesma forma, quem tem deficiência visual poderá usar essa ferramenta para ouvir textos ditados por vozes personalizadas e naturais.

Essa tecnologia também poderá ser usada para “conversar” com parentes que já morreram. Com uma pequena amostra da fala da pessoa, é viável reproduzir diálogos a partir de textos e, assim, eternizar essa parte do ente querido. De forma semelhante, também será possível “reviver” artistas. Na Internet já existem alguns exemplos da inteligência artificial sendo utilizada para “ressuscitar” artistas.

Nessa mesma linha, já é fácil encontrar exemplos práticos do uso do recurso de clonagem de voz espalhados pelas redes sociais. Como, por exemplo, a cantora Rihanna fazendo cover da música “Cut it Off” da Beyoncé ou a Ariana Grande cantando “Envolver” da Anitta. No entanto, nestes casos, existe uma discussão sobre os direitos autorais das músicas e também sobre o uso da voz de uma pessoa pública. Como não existem leis específicas para essas produções, o debate ainda gera muita polêmica, e tudo indica que esse tipo de procedimento precisará ser regulamentado por especialistas muito em breve.

Além disso, um dos usos mais controversos das inteligências artificiais que clonam a voz é a possibilidade de dublar um filme em diferentes línguas utilizando a performance do ator original ou, até mesmo, fazer animações com vozes totalmente eletrônicas. Essa alternativa, que vêm animando estúdios de todo o mundo, tem sido uma grande preocupação para os dubladores profissionais e gerou incertezas sobre os impactos que essa tecnologia pode causar na indústria audiovisual.

Quais são os riscos das IAs que clonam voz?

As IAs que conseguem realizar a síntese de fala podem trazer muitos benefícios para a humanidade, mas essa tecnologia também apresenta alguns riscos que precisam ser apontados. O primeiro é que essa ferramenta ser usada para disseminar desinformação, já que ela pode fazer uma pessoa pública, como um político ou um cientista, “reproduzir” notícias falsas e outros discursos alarmistas.

Além disso, essa tecnologia já está servindo para que criminosos apliquem golpes. O já conhecido “golpe do falso sequestro” ganhou um toque mais realista com as inteligências artificiais que clonam a voz. Em vez de os criminosos simularem a voz da suposta vítima, eles precisam apenas reproduzir a fala gerada pela IA, que conseguirá imitar a emoção da pessoa em uma situação de estresse. Para isso, basta que os criminosos peguem uma amostra vocal da pessoa, seja por meio das redes sociais, do YouTube ou de uma mensagem no WhatsApp.

Como identificar se uma voz foi gerada via IA?

Com os sistemas de síntese de fala ficando mais realistas, tem se tornado cada vez mais difícil identificar se a voz foi gerada por inteligência artificial ou por um ser humano. Porém, ainda existem algumas maneiras de reconhecer uma fala criada por IA. A primeira é tentando captar as falhas no discurso. Seres humanos, em geral, costumam cometer alguns “equívocos” enquanto falam, sejam eles pequenos “gaguejos”, uma falta de fluência ou pausas irregulares. Essas marcas de oralidade, contudo, não costumam estar presentes nos discursos das IAs

 

Fonte: Polêmica Paraíba com TechTudo
Créditos: Polêmica Paraíba