deu ruim?

ChatGPT está ficando mais “burro”, aponta estudo

Suedna Lima

26/07/2023 09:10

Testes da Universidade Stanford comprovam grande aumento de erros do robô em perguntas de matemática e na geração de softwares; OpenAI suporta problemas, mas não explica os motivos; veja três hipóteses para a causa do algoritmo.

17077 é um número primo? É, sim: porque, como os demais números primos, só é divisível por 1 ou por ele mesmo. Em março deste ano, o ChatGPT responde a essa pergunta corretamente 97,6% das vezes. Mas, em junho, alguma coisa aconteceu – e o bot passou a acertar em apenas 2,4% das vezes. Errava quase sempre.

Seria um bug isolado? aparentemente não. Mais um exemplo: “dado um número inteiro n > 0, encontre a soma de todos os números inteiros na gama [1, n] que sejam divisíveis por 3, 5 ou 7”. Em março, o robô dava a resposta certa para esse problema em 52% dos casos. Em junho, apenas 10%.

Essas são algumas das descobertas de um estudo da Universidade de Stanford , cujo pesquisador subscreveu o ChatGPT a uma série de testes. Eles usam duas versões do robô: um baseado no algoritmo GPT-4 , que é mais avançado (e só está disponível para quem assina o ChatGPT Plus, a versão paga do serviço), e outro que roda o GPT-3.5 – a versão “ original” e grátis do ChatGPT, baseado num algoritmo que foi criado em 2020 e vem sendo refinado.

Com o GPT-3.5, aconteceu algo mais estranho ainda. Em março deste ano, ele ia muito mal na pergunta sobre 17077 ser um número primo: só dava a resposta correta em 7,4% dos casos. Em junho, melhorou muito, e passou a acertar em 86,8% das vezes. Bacana. O porém é que, no segundo teste, o algoritmo também se deteriorou. Em março, ele dava a resposta correta em 22% das vezes – mas o índice de acertos caiu para pífios 2% em junho.

Outra mudança intrigante apontada no estudo é que, a partir de junho, o ChatGPT parou de fornecer sua “linha de raciocínio”, ou seja, dizer quais etapas seguiram para chegar aos resultados dos testes de matemática – coisa que ele fazia, se o usuário pedisse, em março.

O estudo também revelou grande piora na qualidade do código de software escrito pelo ChatGPT. Em março, num teste realizado por cientistas, o GPT-4 produzido código executável (ou seja, que poderia ser utilizado sem a necessidade de correções) em 52% das tentativas, e o GPT-3.5 conseguiu fazer isso em 22% dos casos. Em junho, os índices de sucesso caíram para 10% e 2%, respectivamente.

Por que essas coisas são identificáveis? Ninguém sabe ao certo, mas há três hipóteses.

Os mistérios do ChatGPT
A primeira é que os problemas são culpa da OpenAI, a criadora do ChatGPT. A empresa não revela quais alterações fazem em seus algoritmos, mas é provável que incluam a chamada “sintonia fina” : um processo em que a IA é retreinado, analisando conjuntos específicos de dados, para tentar melhorar sua precisão. Isso pode ter efeitos colaterais, como aumentar o índice de erros em outras respostas.

A segunda possibilidade é algum tipo de drift , ou desvio. A cada vez que você entra no ChatGPT e digita alguma coisa, é como se o algoritmo estivesse partindo do zero: ele não se lembra das perguntas que você fez nas outras vezes em que usou o serviço. Mas a OpenAI está começando a mudar isso. Na semana passada ela anunciou uma nova função, chamada Custom Instructions , com a qual é possível fornecer alguns dados persistentes, dos quais o ChatGPT se lembrará sempre que você o acessar.

“Um professor que está fazendo um plano de lições não precisa mais repetir que dá aulas de ciência para a 3a série, por exemplo. Um desenvolvedor que prefere código numa linguagem que não seja Python – ele pode dizer isso uma vez, e pronto”, explica a OpenAI, que também cita um exemplo mais banal. Você pode informar que a sua família tem 6 pessoas, e o ChatGPT se lembrará disso sempre que você pedir a ele que faça uma lista de compras de supermercado.

A função Instruções personalizadas só foi liberada ao público recentemente. Mas é possível que a OpenAI já estivesse usando, internamente, alguma forma de persistência de dados nos algoritmos GPT. O problema é que essa persistência pode fazer com que o algoritmo acabe se auto-modificando, para melhor ou pior – o que levaria, no segundo caso, à queda na qualidade das respostas.

A terceira hipótese para explicar a motivação do ChatGPT tem a ver com a popularidade das IAs. Em maio, cientistas das universidades de Oxford e Cambridge publicaram um estudo mostrando que os grandes modelos de linguagem (LLMs), tipo de algoritmo que engloba a família GPT e outras inteligências artificiais, como o Google Bard , estão sujeitos ao chamado “colapso do modelo ”.

É o seguinte. Conforme os IAs passam a ser cada vez mais usados para gerar textos e respostas, isso acaba indo parar na internet: há cada vez mais curiosos, e até empresas jornalísticas , tentando usar IAs para produzir sites. A tendência é que, nos próximos anos, boa parte do conteúdo online seja gerada por inteligência artificial.

O problema, como os cientistas ingleses defenderam, acontece quando uma IA se alimenta de textos ou dados que foram gerados por outra IA.

Isso deve acontecer cada vez mais (pois os IAs são treinados com conteúdo da internet ). Mas causa uma degeneração progressiva e irreversível, em que o algoritmo fornece dados cada vez mais distorcidos e errados, e chega a um estado, o tal colapso, não qual se torna incapaz de melhorar.

A degradação do ChatGPT pode estar relacionada a um desses três fatores, ou a uma combinação deles. A OpenAI admitiu que o bot está pior em algumas tarefas. E disse, sem muitos detalhes, que está trabalhando para corrigir isso.

Fonte: Super Interessante
Créditos: Polêmica Paraíba

Assuntos

Tecnologia

Mais notícias

Mais artigos

Realme

Vale a pena comprar um celular Realme? As melhores qualidades deste smartphone

Descubra se vale a pena comprar um celular Realme! Conheça as principais qualidades da marca, como custo-benefício, design inovador, desempenho eficiente e telas de alta qualidade, além de destaques como os modelos Realme GT 6T e Realme 12 Pro.

Inovação

Governo da Paraíba firma parceria internacional para avanços em tecnologia quântica e radioastronomia

O Governo da Paraíba, por meio da Secretaria de Estado da Ciência, Tecnologia, Inovação e Ensino Superior (Secties), celebrou na manhã desta quarta-feira (22) a assinatura de um Memorando de Entendimento com duas renomadas instituições chinesas: o 54º Instituto de Pesquisa do Grupo de Tecnologia Eletrônica da China (CETC54 Institute) e o Centro de Inovação […]

Novidade

WhatsApp será integrado ao Instagram e Facebook

A Meta anunciou nesta terça-feira (21) a integração do WhatsApp à Central de Contas, permitindo que usuários gerenciem configurações conjuntas e compartilhem status entre as plataformas WhatsApp, Instagram e Facebook. Com essa novidade, os usuários poderão acessar os três aplicativos com um único login, desde que utilizem apenas uma conta por pessoa. A nova funcionalidade […]

Entenda

Número de assinantes da TV paga, em queda livre, indica fundo do poço; diz site

A TV paga tem registrado contínuas quedas no número de assinantes conforme diz o Portal Léo Dias, não nos levando a acreditar, diante de tamanho descaso, em nenhuma transformação em seu status quo para os próximos tempos. Ao contrário: data hoje, não há nada que indique, nem para um pouco melhor, quaisquer alterações. O maior […]

Web Summit

João Azevêdo articula realização do maior evento de tecnologia do mundo em João Pessoa; confira

João Pessoa pode se tornar a próxima sede do ‘Web Summit’, o maior evento de tecnologia do mundo, em 2026. Atualmente, o encontro ocorre em apenas quatro cidades: Rio de Janeiro, Vancouver (Canadá), Doha (Catar) e Lisboa (Portugal). A inclusão da capital paraibana na rota do evento está sendo articulada pelo governador João Azevêdo. A […]

Bug

Usuários do iOS 18 relatam experiências com vozes misteriosas em seus iPhones

Usuários de iPhone têm relatado um bug incomum e preocupante: seus aparelhos estão transmitindo vozes estranhas, como conversas, gritos e barulhos de carro, sem uma explicação aparente. Há 3 dias eu estava fazendo trabalho de jardinagem e meu iPhone 15 estava sobre o deck. Eu me aproximei para pegá-lo para verificar que planta eu tinha acabado de […]