Usa IA e ela sempre se perde em conversas longas? A gente explica o motivo


Pesquisa revela que inteligência artificial perde o ‘fio da meada’ quando comandos e tarefas são apresentados em várias interações, em vez de uma única instrução completa; entenda Ferramentas de inteligência artificial (IA) ainda enfrentam dificuldades para manter o raciocínio durante conversas mais longas. É o que revela um estudo recente da Microsoft Research e da Salesforce. Conforme a pesquisa, modelos como Claude 3.5, Gemini 1.5 e GPT-4-turbo apresentaram queda de até 39% no desempenho quando os comandos (prompts) foram divididos em várias interações, em comparação com instruções apresentadas de uma só vez. Isso significa que, mesmo quando uma IA tem acesso a interações anteriores, nem sempre consegue inseri-las no contexto da conversa, o que pode levar a respostas inconsistentes ou incoerentes.
O principal motivo está na chamada “janela de contexto”, um limite técnico que define quantas informações o modelo consegue reter ao mesmo tempo. Ainda que IAs mais modernas tenham aumentado esse limite, o estudo evidencia que somente ampliar a capacidade de memória não resolve o problema da continuidade das conversas. A seguir, saiba mais sobre o experimento e entenda quais são os desafios atuais da IA para manter interações com coerência por mais tempo.
🔎Pedir respostas curtas para chatbots de IA pode gerar mais erros; entenda
🔔 Canal do TechTudo no WhatsApp: acompanhe as principais notícias, tutoriais e reviews
Estudo mostra que modelos de IA ‘perdem o raciocínio’ durante conversas longas; saiba mais
Reprodução/Canva
📝 Como usar o ChatGPT para melhorar a produtividade no trabalho? Veja no Fórum do TechTudo
O que diz o estudo?
A pesquisa Microsoft Research e da Salesforce revelou que até mesmo modelos avançados como GPT-4.1 e Gemini 2.5 Pro perdem precisão quando uma mesma tarefa é apresentada de forma fragmentada. A coerência das respostas pode ser reduzida pela metade e o desempenho varia entre acertos quase perfeitos e falhas evidentes.
Conversas em um único turno (à esquerda) geraram melhores resultados que comandos fragmentados (à direita)
Reprodução/arXiv
Para testar esse comportamento, os autores utilizaram uma técnica conhecida como sharding, que divide uma instrução completa em pequenos trechos e os revela em diferentes momentos, simulando o fluxo natural de uma conversa. Como explica o artigo da Unite.AI, é como comparar um cliente que faz um pedido completo de uma vez só em um restaurante com outro que vai pedindo aos poucos. Mesmo que o conteúdo final seja o mesmo, os modelos tendem a se perder no segundo caso.
Além disso, os pesquisadores notaram que as IAs insistem em seguir com respostas longas mesmo após perder “o fio da meada”. Por isso, em muitos casos, reiniciar a conversa com as mesmas informações pode gerar resultados melhores do que continuar um diálogo que já perdeu o rumo.
O que é a janela de contexto?
Modelos de linguagem trabalham com uma janela de contexto, ou seja, um espaço que comporta um número máximo de tokens (palavras, fragmentos ou caracteres) que a IA pode analisar em uma única entrada. No caso do GPT-4-turbo, por exemplo, esse limite é de até 128 mil tokens, o equivalente a cerca de 300 páginas de texto. No entanto, isso não garante que o modelo entenderá bem todas essas informações. A IA tende a priorizar as partes finais do conteúdo e pode ignorar ou distorcer detalhes que aparecem no início, prejudicando tarefas que dependem de memória acumulada.
Como o estudo testou a memória das IAs?
Para investigar essas limitações, os pesquisadores criaram cinco tipos de simulação, variando a maneira como a instrução era apresentada ao modelo:
Tipos de simulação de conversas utilizadas no estudo
Reprodução/arXiv
Completo: A IA recebe a tarefa inteira de uma só vez. Serve como base de comparação;
Fragmentado: A instrução é dividida e enviada aos poucos, simulando conversas reais;
Concatenado: Os fragmentos são reunidos antes da resposta, sem turnos de interação;
Recapitular: Após receber fragmentos, o modelo revisa todos os trechos antes de responder.
Acumulativo (Snowball): Cada nova interação relembrava o contexto da conversa, mantendo o histórico visível. Mesmo com essa retomada, os resultados se mostraram inconsistentes.
Modelos mais modernos e robustos também falham
Um dos achados do estudo é que ferramentas de IA com alto desempenho em tarefas específicas não têm necessariamente um bom resultado em conversas fragmentadas. Mesmo sistemas considerados de ponta, como Claude 3.7 Sonnet, Gemini 2.5 e GPT-4.1, por exemplo, apresentaram quedas de 30% a 40% no desempenho quando receberam comandos divididos em diversos turnos.
Os resultados foram parecidos com os de modelos menores, como Llama 3 e Phi-4. Esse resultado, no entanto, pode ser explicado em parte pelas métricas utilizados no estudo. Modelos mais simples já começam com pontuações menores e, por isso, têm menos margem para queda. Já os mais potentes, ao lidarem com tarefas fragmentadas, vão perdendo a vantagem já que dependem da memória e da contextualização para manter o padrão elevado.
Além disso, o desempenho das IAs também variou de acordo com tipo de tarefa solicitada. O Claude 3.7 e GPT-4.1 se destacaram em testes de programação, enquanto o Gemini 2.5 teve melhor desempenho em geração de texto a partir de dados. Já modelos especializados em raciocínio, como o Deepseek-R1, ficaram atrás, possivelmente por gerarem respostas mais longas que comprometem a continuidade da conversa.
IA moderna ainda esquece e confunde com facilidade
A pesquisa também demonstrou que dividir as tarefas em vários comandos afeta a estabilidade dos modelos. Os testes incluíram um simulador baseado no GPT-4o-mini, que atuava como um “usuário inteligente”, decidindo a cada turno qual parte da instrução seria revelada. O objetivo era simular o padrão de conversas reais. Mesmo sem perda de conteúdo, fragmentar as instruções em várias partes levou os modelos a gerar respostas confusas ou descontextualizadas.
O experimento utilizou um simulador baseado no modelo GPT-4o Mini, da Open AI, que atuou como usuário dos modelos de IA
Reprodução/Kangaroos.ai
Em alguns casos, uma mesma tarefa resultou em variações de até 50 pontos na avaliação, somente devido à ordem e do ritmo com que as instruções foram apresentadas. Nem mesmo ajustes na “temperatura” (parâmetro que controla a aleatoriedade das respostas) foram suficientes para corrigir essas incoerências. Isso sugere que o problema vai além do acaso e está ligado à forma como as IAs organizam e priorizam as informações ao longo do tempo de conversa.
Com informações de arXiv e Unite.IA.
Mais do TechTudo
Veja também: Essa é a IA mais humana lançada até hoje? Testamos a Manus — e vimos problemas
Essa é a IA mais humana lançada até hoje? Testamos a Manus — e vimos problemas

Recentes