GPT-4 falha no teste de Turing: desafios permanecem no campo da conversação inteligente - Notícias de Reeman

ChatGPT, a superestrela da inteligência artificial, enfrenta uma questão à medida que avança: atendeu ao padrão de teste de Turing para gerar resultados indistinguíveis das respostas humanas? As pesquisas mais recentes sugerem que o ChatGPT, apesar do seu excelente desempenho, não parece ter ultrapassado totalmente esse limite.

Dois pesquisadores da Universidade da Califórnia, em San Diego, Cameron Jones, especialista em linguagem, semântica e aprendizado de máquina, e Benjamin Bergen, professor de ciências cognitivas, fizeram essa pergunta referindo-se ao trabalho de Turing há 70 anos. Turing propôs um processo para determinar se uma máquina poderia atingir um nível de inteligência e capacidade de conversação suficiente para enganar outros fazendo-os pensar que era humana.

O relatório deles é intitulado "O GPT-4 passa no teste de Turing?" Ele pode ser encontrado no servidor de pré-impressão arXiv. Para o estudo, eles reuniram 650 participantes para jogar 1.400 “jogos” nos quais os participantes tiveram uma breve conversa com outro modelo humano ou GPT e foram solicitados a determinar com quem estavam conversando.

O que os pesquisadores descobriram foi notável. O modelo GPT-4 enganou os participantes 41% das vezes, enquanto o GPT-3.5 os enganou apenas 5 a 14% das vezes. Curiosamente, os humanos só conseguiram convencer os participantes de que não eram máquinas em 63% dos ensaios.

"Não encontramos nenhuma evidência de que o GPT-4 tenha passado no teste de Turing", concluíram os pesquisadores. No entanto, observam que o Teste de Turing ainda tem valor na avaliação dos efeitos das conversas entre máquinas, como uma estrutura para medir interações sociais suaves e enganos, e na compreensão das estratégias humanas de adaptação a estes dispositivos.

No entanto, alertam também que, em muitos casos, os chatbots ainda conseguirão comunicar de forma convincente. “A taxa de sucesso de 41 por cento sugere que os modelos de IA podem já ter a capacidade de enganar, especialmente em situações em que os humanos estão menos alertas para a possibilidade de não estarem a falar com um humano”, observam os investigadores. Os modelos de IA que imitam os humanos de forma robusta podem ter amplas implicações sociais e económicas”.

Os pesquisadores observaram que os participantes que identificaram corretamente a IA com as pessoas focaram em vários fatores. Um modelo demasiado formal ou demasiado informal levanta suspeitas. Se a sua expressão for demasiado prolixa ou demasiado concisa, se a sua gramática ou pontuação for invulgarmente boa ou “pouco convincente” pobre, será também um factor chave para determinar se os participantes estão a interagir com humanos ou máquinas. Além disso, os participantes foram sensíveis a respostas que pareciam demasiado genéricas.

Os pesquisadores sugerem que o rastreamento de modelos de IA se tornará cada vez mais importante à medida que se tornarem mais fluidos e absorverem peculiaridades mais humanas. “Identificar os fatores que levam ao engano e estratégias para mitigá-lo se tornará cada vez mais importante”, disseram. O estudo revela que o campo da conversação inteligente ainda enfrenta desafios, mas também fornece informações úteis sobre como os modelos de IA podem ser melhorados.