Por que as ferramentas de IA estagnam após seis meses de uso?
Nos últimos meses, visitando clientes, deparei-me com donos de várias gráficas de pequeno e médio porte perguntando a mesma coisa: o assistente de cotação com IA ou o chatbot de atendimento no LINE, que eram impressionantes quando foram implementados no ano passado, parecem não ter evoluído e, às vezes, cometem erros ainda mais absurdos
Esse fenômeno é muito bem explicado em um artigo recente intitulado 《Scaling Laws for Agent Harnesses via Effective Feedback Compute》, escrito por Xuanliang Zhang e equipe. O material base que li foi a compilação em chinês de Wisely Chen
O artigo quantifica diretamente algo contraintuitivo: você acha que a IA ficará mais forte se "der mais poder computacional, mais ferramentas e mais execuções", mas na verdade não é assim
O artigo utiliza tokens brutos e chamadas de ferramenta (tool calls) para explicar a taxa de sucesso das tarefas, com coeficientes de correlação R² de apenas:
・0,33 a
・0,42
Traduzindo para o chão de fábrica da impressão: detalhar ao máximo os registros de conversas do chatbot, aumentar as tentativas de cálculo de cotação de uma para três ou integrar mais dois bancos de dados — essas ações de "eu fiz muita coisa" explicam apenas 30% a 40% dos resultados; os outros 60% não têm nada a ver com a quantidade de recursos consumidos
Comparo isso a treinar um aprendiz. Um mestre pede que o aprendiz imprima duzentas folhas de teste por dia, mas nunca aponta os erros nem explica onde a sobreposição de cores falhou; esse aprendiz, mesmo imprimindo dez mil folhas, continuará no mesmo nível. Ele não se tornou melhor, apenas ficou mais cansado

O que é, afinal, o EFC? E o que ele tem a ver com "treinar um aprendiz"?
O conceito central do artigo chama-se Effective Feedback Compute, ou EFC. Isso significa que nem todas as interações contam; apenas o "feedback eficaz" pode fazer a IA realmente evoluir
Ele define que um feedback eficaz deve atender simultaneamente a quatro condições. Vou aplicar uma por uma ao cenário da impressão:
・Informative (Informativo): O feedback traz informações novas. Se um cliente reclama que a cotação está cara, mas não especifica se é o papel ou o acabamento, isso é um feedback inútil
・Valid (Válido): O feedback é confiável, sem ruído ou suposições. Se um vendedor registra levianamente que "este cliente não se importa com o preço", mas a informação está incorreta, alimentar o sistema com esse erro é pior do que não alimentar nada
・Non-redundant (Não redundante): Não repita o que já se sabe. Se o sistema já registrou cem vezes que "o cliente quer papel couchê 100g", isso não traz informações novas
・Retained (Retido): Este é o ponto mais crítico. O feedback foi realmente incorporado à próxima decisão? Se o vendedor discutiu a decisão correta no grupo, mas ninguém a organizou dentro da lógica de cotação, é como se nada tivesse sido dito
O número mais crucial está aqui: o artigo realizou um experimento controlado onde, mantendo o orçamento de computação inalterado e apenas melhorando a qualidade do feedback, a taxa de sucesso da tarefa saltou de 27% para 90%
Sem gastar um centavo a mais, apenas tornando o feedback eficaz, a taxa de sucesso triplicou. Após o recalculo, o poder explicativo R² passou de:
・0,33 direto para
・0,94 a
・0,99
Essa abordagem é, na verdade, a "prática deliberada" (deliberate practice) pregada pela ciência da aprendizagem há décadas: o feedback deve ser específico, preciso e incorporado à próxima prática. Praticar sem revisar ou revisar sem corrigir é o mesmo que não praticar. A IA funciona da mesma forma que os humanos

Como projetar um ciclo de feedback para cotações, acompanhamento de pedidos e atendimento em gráficas?
Sabendo o princípio, a questão torna-se: como conectar esse ciclo no fluxo de trabalho de impressão? Aqui estão algumas práticas que podem ser iniciadas nesta semana
Primeiro, crie uma tabela de "respostas padrão". Identifique os vinte ou trinta itens mais cotados no último semestre — catálogos grampo canoa, livros brochura, adesivos, caixas de papel — e organize os códigos de material, papéis, acabamentos e faixas de preço razoáveis em uma "ground truth" (verdade fundamental). Se a cotação da IA não bater com essa lista, você não terá um "sinal de erro" para calibrar; caso contrário, ela errará e você nem saberá
Segundo, mantenha registros de cada erro da IA e identifique a causa raiz. Não registre apenas "cotação errada", mas sim "calculou papel cartão 250g como 200g" ou "esqueceu de incluir o custo de verniz". Isso corresponde à condição Informative: deve ser específico o suficiente para permitir uma ação
Terceiro, insira novamente os casos de falha periodicamente. Reserve uma hora por mês para pegar os casos em que a IA errou na cotação ou no atendimento e ajustar seus prompts ou regras. Este passo é o que garante o "Retained"; o feedback só é "fechado" se ele for incorporado. Registros de conversas que apenas passam pelo sistema não contam; eles só contam se forem organizados e usados para melhorar as regras
Quarto, antes de adicionar qualquer funcionalidade, passe-a pelo quarto critério do EFC. Se quiser integrar uma nova ferramenta ou habilitar uma resposta automática, pergunte-se: isso realmente mudará o próximo julgamento da IA? Se não, adicionar isso é apenas queimar dinheiro e aumentar a carga de manutenção
O mesmo vale para o design. Se você usa IA para auxiliar na geração de imagens, revisão de arquivos ou redação de propostas, os comentários de alteração de cada cliente são o seu sinal de feedback. Registre especificamente "por que o cliente rejeitou esta versão" e evite isso na próxima proposta para aumentar sua taxa de sucesso; se você apenas deixar o arquivo rejeitado de lado sem analisar o motivo, poderá fazer cem versões e continuará no mesmo lugar

Para implementar a função de memória na IA, primeiro instale um portão de controle
Algumas empresas promovem funcionalidades de memória como "a IA lembrará dos hábitos da sua empresa", o que parece fantástico. Mas o artigo traz um alerta com o qual concordo plenamente
A arquitetura de memória resolve o quarto critério, o mais difícil, que é o "retain" (reter), mas ela "apenas" resolve a capacidade de lembrar, sem ajudar você a filtrar se as três primeiras condições estão corretas ou se são redundantes
Em outras palavras, se você armazenar feedback incorreto, repetitivo e ruidoso sem qualquer critério, essas falsas memórias serão chamadas e usadas repetidamente, sendo mais tóxicas do que não ter memória alguma. Isso acaba ampliando o erro de um caso isolado para um erro permanente
Portanto, ao implementar qualquer funcionalidade de memória, você deve ter um "portão de entrada": essa informação é valiosa, confiável e não redundante? Só salve se passar. Para as gráficas, isso significa não deixar que as preferências dos clientes registradas de forma apressada pelos vendedores e sem verificação tornem-se automaticamente um "fato" do sistema
Também preciso ser honesto: este artigo não é uma solução milagrosa. Aquele limite de:
・0,94 a
・0,99
utiliza informações ideais (o que o artigo chama de Oracle-EFC), onde se conhece a resposta após o fato, o que sistemas reais não conseguem fazer. Portanto, esse é o teto teórico, não um número que você alcançará amanhã. E a condição de que "o feedback deve realmente mudar a decisão" é, por si só, difícil de julgar. Mas, mesmo fazendo esses descontos, concordo plenamente com a direção principal
A competição futura das ferramentas de IA não será sobre quem tem mais funcionalidades ou diálogos mais longos, mas sobre quem consegue fazer com que cada feedback seja realmente aproveitado. Um bom assistente de IA não deve ser apenas uma ferramenta para trabalhar mais, mas sim como um bom mestre, garantindo que a cada passo ela realmente aprenda algo novo

Resumo dos pontos principais
・Dar mais poder computacional e ferramentas à IA explica apenas 30% a 40% do sucesso (R²:
・0,33 a
・0,42), os outros 60% dependem da qualidade do feedback
・Com o mesmo poder computacional, apenas tornando o feedback eficaz, a taxa de sucesso pode saltar de 27% para 90%. A diferença está em "treinar corretamente", não em "treinar muito"
・Feedback eficaz deve ser simultaneamente: informativo, preciso, não redundante e ser realmente utilizado. Falhar no quarto critério é treinar em vão
・Funções de memória da IA apenas resolvem a "capacidade de lembrar" e não ajudam a filtrar erros; sem um portão de entrada, memórias erradas são mais tóxicas do que a falta de memória
・Realimentar mensalmente os casos de falha nas cotações e revisões de arquivos da IA é o passo fundamental para torná-la cada vez mais precisa
Reflexão complementar
Para gráficas e estúdios de design, o verdadeiro insight não é "devo ou não adotar a IA", mas sim "existe um mecanismo de revisão após a implementação?". A maioria das pessoas para no primeiro passo, tratando a conexão da ferramenta como o ponto final. Sugiro começar com algo pequeno: selecione um cenário de alta frequência, como cotações de catálogos ou consultas de provas de adesivos, construa primeiro uma tabela com trinta respostas padrão e agende uma hora de realimentação por mês, especificamente para corrigir as regras baseadas nos casos em que a IA respondeu errado. Quando esse ciclo estiver fluido, pense em adicionar funções de memória ou expandir o escopo. Para empresas que oferecem serviços integrados, essa também é uma forma de garantir retenção a longo prazo com o cliente: ao desenhar um ciclo de feedback eficaz para o seu cliente, o sistema tornar-se-á cada vez mais aderente às necessidades dele, em vez de ser descartado após seis meses por falta de precisão
Leitura complementar
FAQ
- Por que o sistema de cotação com IA torna-se cada vez menos preciso com o tempo?
- Geralmente não é uma questão de capacidade do modelo, mas de falta de um ciclo de feedback. Se não houver um feedback claro de acerto ou erro após cada cotação da IA, e se ninguém corrigir as regras periodicamente usando casos de erro, ela repetirá — e até ampliará — os mesmos julgamentos incorretos
- O que é Effective Feedback Compute (EFC)?
- EFC é um conceito que mede a qualidade do feedback da IA, indicando que o feedback só é eficaz se atender simultaneamente a quatro condições: ser informativo, preciso, não redundante e ser realmente utilizado. O artigo prova que, com o mesmo poder computacional, apenas elevando a qualidade do feedback, a taxa de sucesso das tarefas pode aumentar de 27% para 90%
- Para gráficas de pequeno e médio porte, qual é o primeiro passo para tornar a IA cada vez mais precisa?
- Crie primeiro uma tabela de respostas padrão, organizando os códigos de material, papéis, acabamentos e faixas de preço razoáveis para os vinte ou trinta itens mais cotados. Com essa "ground truth", você poderá detectar e corrigir quando a IA errar, o que é o ponto de partida para estabelecer um ciclo de feedback
- Vale a pena implementar a função de "memória" da IA?
- Vale, mas deve ser acompanhada por um portão de entrada para a escrita de dados. A função de memória apenas resolve a capacidade de "lembrar", sem filtrar informações incorretas ou repetitivas. Se ruídos e julgamentos errados forem armazenados, essas memórias falsas serão reutilizadas, sendo, na verdade, piores do que não ter memória
- Como fazer com que a IA, usada por designers para revisão de arquivos, entenda cada vez melhor o cliente?
- Registre e categorize os motivos específicos de cada rejeição de arquivo pelo cliente e evite-os na próxima proposta para aumentar a taxa de sucesso. Deixar os arquivos rejeitados de lado sem analisar o motivo levará a inúmeras revisões sem evolução; a diferença está em ter ou não um feedback fechado
Artigos relacionados
- Design da Memória de Trabalho de Agentes de IA: Usando estruturas de pastas para domar a IA e evitar que ela se perca
- Trocar hub por summarize: GitSummarize transforma qualquer repositório GitHub num centro de documentação com IA
- Seleção Arquitetônica do OCR de Recibos: Três Gerações de Evolução e a Filosofia de Separação Homem-Máquina
