Em pesquisas da University College London, os seres humanos só conseguiram detectar que uma fala tinha sido gerada por IA (inteligência artificial) – ou seja, era deepfake – em 73% das vezes, tanto em inglês quanto mandarim.
Para quem tem pressa:
- Em pesquisas da University College London, os seres humanos só conseguiram detectar que uma fala era deepfake em 73% das vezes;
- Este estudo foi o primeiro a avaliar a capacidade humana de detectar fala gerada artificialmente num idioma diferente do inglês;
- Os próximos passos para os pesquisadores é desenvolver melhores detectores automatizados de fala;
- Embora áudio de IA generativa tenha seus benefícios, os temores sobre riscos dessa tecnologia tem aumentado.
Este estudo foi o primeiro a avaliar a capacidade humana de detectar fala gerada artificialmente num idioma diferente do inglês.
Os pesquisadores utilizaram um algoritmo de texto para fala treinado em dois conjuntos de dados disponíveis publicamente, um em inglês e outro em mandarim, para gerar 50 amostras de deepfake em cada idioma.
Essas amostras foram diferentes das utilizadas para treinar o algoritmo, para evitar a possibilidade de reproduzir a entrada original.
As amostras geradas artificialmente e as "de verdade" foram tocadas para 529 participantes para ver se eles conseguiam detectar o real do falso.
Os participantes só conseguiram identificar o discurso falso 73% das vezes, o que melhorou apenas um pouco depois de receberem treinamento para reconhecer aspectos do deepfake.
Os próximos passos para os pesquisadores é desenvolver melhores detectores automatizados de fala como parte dos esforços contínuos para criar capacidades de detecção e combater a ameaça de áudio e imagens geradas artificialmente.
Embora haja benefícios na tecnologia de áudio de IA generativa, como maior acessibilidade para aqueles com fala limitada ou que possam perder a voz devido a doenças, há crescentes temores de que essa tecnologia possa ser usada por criminosos e estados-nação para causar danos significativos a indivíduos e sociedades.
O professor Lewis Griffin, autor principal do estudo, afirmou que, com a tecnologia de inteligência artificial generativa ficando cada vez mais sofisticada e muitas dessas ferramentas disponíveis abertamente, estamos à beira de ver inúmeros benefícios, bem como riscos.
O pesquisador disse:
Seria prudente para governos e organizações desenvolverem estratégias para lidar com o abuso dessas ferramentas, certamente, mas também devemos reconhecer as possibilidades positivas que estão à nossa espera.
Deepfakes e humanos
Os deepfakes são mídias sintéticas destinadas a se assemelhar à voz ou aparência de uma pessoa real.
Eles se enquadram na categoria de inteligência artificial generativa, um tipo de aprendizado de máquina que treina um algoritmo para aprender os padrões e características de um conjunto de dados (por exemplo: vídeo ou áudio de uma pessoa real), para que ele possa reproduzir som ou imagens originais.
Embora algoritmos iniciais de deepfake possam ter exigido milhares de amostras da voz de uma pessoa para gerar áudio original, os algoritmos pré-treinados mais recentes podem recriar a voz de uma pessoa usando apenas um clipe de três segundos dela falando.
Algoritmos de código aberto estão disponíveis gratuitamente e, embora algum conhecimento especializado seja benéfico, seria viável para um indivíduo treiná-los em poucos dias.
A Apple, por exemplo, anunciou recentemente um software para iPhone e iPad que permite que o usuário crie uma cópia de sua voz usando 15 minutos de gravações. Neste caso, o recurso é voltado para acessibilidade.
Com informações de University College London (em inglês)