Testes da Universidade Stanford comprovam grande aumento de erros do robô em perguntas de matemática e na geração de softwares; OpenAI suporta problemas, mas não explica os motivos; veja três hipóteses para a causa do algoritmo.
17077 é um número primo? É, sim: porque, como os demais números primos, só é divisível por 1 ou por ele mesmo. Em março deste ano, o ChatGPT responde a essa pergunta corretamente 97,6% das vezes. Mas, em junho, alguma coisa aconteceu – e o bot passou a acertar em apenas 2,4% das vezes. Errava quase sempre.
Seria um bug isolado? aparentemente não. Mais um exemplo: “dado um número inteiro n > 0, encontre a soma de todos os números inteiros na gama [1, n] que sejam divisíveis por 3, 5 ou 7”. Em março, o robô dava a resposta certa para esse problema em 52% dos casos. Em junho, apenas 10%.
Essas são algumas das descobertas de um estudo da Universidade de Stanford , cujo pesquisador subscreveu o ChatGPT a uma série de testes. Eles usam duas versões do robô: um baseado no algoritmo GPT-4 , que é mais avançado (e só está disponível para quem assina o ChatGPT Plus, a versão paga do serviço), e outro que roda o GPT-3.5 – a versão “ original” e grátis do ChatGPT, baseado num algoritmo que foi criado em 2020 e vem sendo refinado.
Com o GPT-3.5, aconteceu algo mais estranho ainda. Em março deste ano, ele ia muito mal na pergunta sobre 17077 ser um número primo: só dava a resposta correta em 7,4% dos casos. Em junho, melhorou muito, e passou a acertar em 86,8% das vezes. Bacana. O porém é que, no segundo teste, o algoritmo também se deteriorou. Em março, ele dava a resposta correta em 22% das vezes – mas o índice de acertos caiu para pífios 2% em junho.
Outra mudança intrigante apontada no estudo é que, a partir de junho, o ChatGPT parou de fornecer sua “linha de raciocínio”, ou seja, dizer quais etapas seguiram para chegar aos resultados dos testes de matemática – coisa que ele fazia, se o usuário pedisse, em março.
O estudo também revelou grande piora na qualidade do código de software escrito pelo ChatGPT. Em março, num teste realizado por cientistas, o GPT-4 produzido código executável (ou seja, que poderia ser utilizado sem a necessidade de correções) em 52% das tentativas, e o GPT-3.5 conseguiu fazer isso em 22% dos casos. Em junho, os índices de sucesso caíram para 10% e 2%, respectivamente.
Por que essas coisas são identificáveis? Ninguém sabe ao certo, mas há três hipóteses.
Os mistérios do ChatGPT
A primeira é que os problemas são culpa da OpenAI, a criadora do ChatGPT. A empresa não revela quais alterações fazem em seus algoritmos, mas é provável que incluam a chamada “sintonia fina” : um processo em que a IA é retreinado, analisando conjuntos específicos de dados, para tentar melhorar sua precisão. Isso pode ter efeitos colaterais, como aumentar o índice de erros em outras respostas.
A segunda possibilidade é algum tipo de drift , ou desvio. A cada vez que você entra no ChatGPT e digita alguma coisa, é como se o algoritmo estivesse partindo do zero: ele não se lembra das perguntas que você fez nas outras vezes em que usou o serviço. Mas a OpenAI está começando a mudar isso. Na semana passada ela anunciou uma nova função, chamada Custom Instructions , com a qual é possível fornecer alguns dados persistentes, dos quais o ChatGPT se lembrará sempre que você o acessar.
“Um professor que está fazendo um plano de lições não precisa mais repetir que dá aulas de ciência para a 3a série, por exemplo. Um desenvolvedor que prefere código numa linguagem que não seja Python – ele pode dizer isso uma vez, e pronto”, explica a OpenAI, que também cita um exemplo mais banal. Você pode informar que a sua família tem 6 pessoas, e o ChatGPT se lembrará disso sempre que você pedir a ele que faça uma lista de compras de supermercado.
A função Instruções personalizadas só foi liberada ao público recentemente. Mas é possível que a OpenAI já estivesse usando, internamente, alguma forma de persistência de dados nos algoritmos GPT. O problema é que essa persistência pode fazer com que o algoritmo acabe se auto-modificando, para melhor ou pior – o que levaria, no segundo caso, à queda na qualidade das respostas.
A terceira hipótese para explicar a motivação do ChatGPT tem a ver com a popularidade das IAs. Em maio, cientistas das universidades de Oxford e Cambridge publicaram um estudo mostrando que os grandes modelos de linguagem (LLMs), tipo de algoritmo que engloba a família GPT e outras inteligências artificiais, como o Google Bard , estão sujeitos ao chamado “colapso do modelo ”.
É o seguinte. Conforme os IAs passam a ser cada vez mais usados para gerar textos e respostas, isso acaba indo parar na internet: há cada vez mais curiosos, e até empresas jornalísticas , tentando usar IAs para produzir sites. A tendência é que, nos próximos anos, boa parte do conteúdo online seja gerada por inteligência artificial.
O problema, como os cientistas ingleses defenderam, acontece quando uma IA se alimenta de textos ou dados que foram gerados por outra IA.
Isso deve acontecer cada vez mais (pois os IAs são treinados com conteúdo da internet ). Mas causa uma degeneração progressiva e irreversível, em que o algoritmo fornece dados cada vez mais distorcidos e errados, e chega a um estado, o tal colapso, não qual se torna incapaz de melhorar.
A degradação do ChatGPT pode estar relacionada a um desses três fatores, ou a uma combinação deles. A OpenAI admitiu que o bot está pior em algumas tarefas. E disse, sem muitos detalhes, que está trabalhando para corrigir isso.
Fonte: Super Interessante
Créditos: Polêmica Paraíba