Em 1950, Alan Turing propôs uma maneira elegantemente simples, mas profundamente desafiadora, de determinar se as máquinas poderiam ser ditas como “pensar”. Conhecido como Teste de Turing, essa medida de inteligência de máquina define humanos e máquinas na competição de conversação, desafiando os juízes humanos a distinguir entre inteligência artificial e genuína por meio de interações baseadas em texto.
Apesar de inúmeras tentativas, nenhum sistema artificial jamais passou de forma convincente neste teste. Até agora.
Cameron Jones e Benjamin Bergen, da Universidade da Califórnia, San Diego, se reuniram pela primeira vez evidências empíricas de que o GPT-4.5 da OpenAI, um modelo de grande linguagem sofisticado (LLM), passou com sucesso no teste de Turing. Não apenas o GPT-4.5 passou, mas em condições específicas, ele superou as contrapartes humanas em convencer os participantes de sua humanidade.
O trabalho tem implicações significativas para a compreensão da sociedade, ética e humanidade sobre a própria inteligência.
Máquina Vs Homem
O teste de Turing coloca um interrogador contra dois parceiros de conversação – uma máquina humana e uma – envolvendo ambas simultaneamente via texto. A tarefa do interrogador é simples: decidir qual parceiro de conversação é humano. Mas, apesar dos rápidos avanços na linguística computacional e no aprendizado de máquina, os sistemas de IA falharam consistentemente esse desafio aparentemente simples.
Para fazer o teste, Jones e Bergen recrutaram 284 participantes de diversas origens, incluindo estudantes de graduação e trabalhadores de origem da Prolific, uma empresa de tecnologia que emprega humanos para participar de experimentos relacionados à IA.
Os pesquisadores colocaram vários modelos contemporâneos de IA contra humanos-incluindo GPT-4O, LLAMA-3.1-405B e GPT-4.5. Curiosamente, o GPT-4.5 emergiu como o vencedor, mas apenas quando instruído a adotar uma “persona humana”. Nessas conversas, o GPT-4.5 foi considerado o humano 73% das vezes: significativamente mais frequentemente do que os interrogadores selecionavam o verdadeiro participante humano, diz Jones e Bergen, destacando uma mudança notável na capacidade da IA de imitar a conversa humana.
Os pesquisadores também usaram um chatbot mais antigo baseado em regras chamado Eliza para gerar texto e isso foi prontamente identificado como uma máquina pelos juízes. Da mesma forma, o GPT-4O, um modelo de geração anterior, também teve desempenho inferior, escolhido como humano em apenas 21% dos casos. “Os resultados constituem a primeira evidência empírica de que qualquer sistema artificial passa em um teste de Turing padrão de três partes”, diz Jones e Bergen.
Jones e Bergen atribuem parte do sucesso do GPT4.5 à criação cuidadosa de prompts projetados para orientar o modelo a adotar uma persona de que os humanos acham relacionável e convincentemente autêntico – especificamente, uma persona de um jovem introvertido fluente em gírias e cultura da Internet. A capacidade do GPT4.5 de fazer isso, dizem que os pesquisadores demonstram comando diferenciados sobre padrões de linguagem e sutilezas interativas anteriormente pensadas em humanos.
“É sem dúvida a facilidade com que os LLMs podem ser solicitados a adaptar seu comportamento a diferentes cenários que os tornam tão flexíveis: e aparentemente tão capazes de passar como humanos”, diz Jones e Bergen. Essa adaptabilidade, em vez de ser uma fraqueza, é precisamente o que ressalta sua inteligência emergente.
Obviamente, o trabalho também levanta a questão espinhosa sobre se o teste de Turing está medindo a inteligência de todas ou apenas medindo a capacidade de passar no teste. De qualquer maneira, o sucesso do GPT-4.5 desafia a sabedoria convencional de que a inteligência genuína deve incluir consciência ou compreensão profunda. Pode até solicitar uma reavaliação dos critérios usados para definir habilidades e intelectos cognitivos.
Inteligência em evolução
Esse é um resultado impressionante com implicações éticas, econômicas e sociais significativas. “Modelos com essa capacidade de enganar e se disfarçar de robustez, pois as pessoas podem ser usadas para engenharia social ou espalhar informações erradas”, dizem os pesquisadores, alertando o potencial de uso indevido de “humanos falsificados” em política, marketing e segurança cibernética.
Mas há também uma vantagem clara, embora com advertências importantes. Melhores agentes de conversação podem melhorar significativamente as interações humano-computador, melhorar os serviços automatizados, assistência virtual, companheirismo e ferramentas educacionais. Conseguir um equilíbrio entre utilidade e risco provavelmente exigirá regulamentação cuidadosamente considerada.
O trabalho também pode forçar os humanos a mudar a maneira como eles interagem entre si. Jones e Bergen imaginam uma ênfase cultural maior na interação humana autêntica, estimulada pela onipresença de contrapartes de IA capazes.
Esse embaçamento da distinção entre máquinas e humanos certamente fascinou até mesmo se unir.
Ref: Modelos de idiomas grandes passam no teste de Turing: arxiv.org/abs/2503.23674