为什么 AI 工具接上去半年,效果反而停滞?
我这一两个月拜访客户,遇到好几家中小印刷厂的老板问同一件事:去年导入的 AI 报价助手、自动回复的客服机器人,当初试用时效果惊艳,怎么用到现在感觉没进步,有时还越错越离谱
这个现象,最近一篇叫《Scaling Laws for Agent Harnesses via Effective Feedback Compute》的论文讲得很透彻,作者群是 Xuanliang Zhang 等人,原文我看的是 Wisely Chen 的中文整理
它直接量化了一件反直觉的事:你以为“多给算力、多挂工具、多跑几次”AI 就会变强,其实并没有
论文用 raw tokens 跟 tool calls 去解释任务成功率,相关系数 R² 只有:
・0.33 到
・0.42
翻成印刷现场的白话:你把 AI 客服的对话记录开到最详细、把报价重算次数从一次加到三次、再多串两个数据库进去,这些“我做了很多”的动作,大概只能解释三四成的成果,剩下六成跟你烧多少资源无关
我把这个对照到带徒弟。一个师傅让学徒一天印两百张练习稿,但印完从不挑毛病、不讲哪里套色不正,这学徒印一万张也还是那个水准。他不是更厉害了,他只是更累了

EFC 到底是什么?跟“带徒弟”有什么关系?
论文的核心概念叫 Effective Feedback Compute,简称 EFC。意思是:不是所有的互动都算数,只有“有效的反馈”才能让 AI 真正进步
它定义有效反馈要同时满足四个条件,我用印刷的场景一条条对:
・Informative(有料):反馈带来新信息。客户嫌报价贵,但没讲是贵在纸还是后道加工,这种就是废话反馈
・Valid(要正确):反馈可信,不是杂讯或瞎猜。业务随口记“这客人不在乎价格”结果根本记反了,这种错误反馈喂进去比不喂更糟
・Non-redundant(不重复):别把已经知道的再讲一遍。系统记了一百次“客户要 100 磅铜版纸”其实没有新信息
・Retained(要被用上):这条最关键。反馈真的进到下一次决策了吗?业务在群组讲了正确判断,但没人整理进报价逻辑,那等于没讲
最关键的数字在这里:论文做了一个对照实验,在算力预算完全不变的前提下,只去提升反馈的质量,任务成功率从 27% 拉到 90%
成本一毛没多花,只是把反馈变有效,成功率跳了三倍多。重新换算后,解释力 R² 从:
・0.33 一口气冲到
・0.94 至
・0.99
这套说法,其实就是学习科学讲了几十年的“刻意练习”(deliberate practice):反馈要具体、要正确、要进到下一次练习。练了不检讨、检讨了不改,等于没练。AI 跟人一样吃这套

印刷厂的 AI 报价、追单、客服,反馈闭环怎么设计?
知道原理之后,问题变成:在印务流程里,怎么把这个闭环真正接起来。我给几个可以这周就动手的做法
第一,先建一份“标准答案”对照表。找出过去半年最常报的二三十种品项,骑马钉画册、无线胶装书籍、贴纸、纸盒,把正确的料号、纸张、后道加工、合理报价区间整理成一份 ground truth。AI 报的价跟这份对不上,你才有“对错信号”可以校正,否则它报得不准你也不知道
第二,每次 AI 出错都留记录,而且要记到根因。不是记“报价错了”,是记“它把 250 磅卡纸算成 200 磅”“忘了算上光工艺的费用”。这对应就是 Informative 那条,要具体到能行动
第三,把失败案例定期回灌。每月花一小时,拿这个月 AI 报价偏差、客服答错的案例,去修它的提示词或规则。这步才是 Retained,反馈有没有“闭合”就看这里。飘过去的对话记录不算数,被整理、被改进规则,它才算数
第四,每加一个功能,先过 EFC 第四条。想多串一个工具、多开一个自动回复,先问自己:它会不会真正改变 AI 下一次的判断?如果不会,加了就是纯烧钱、纯增加维护负担
对设计端也一样。如果你用 AI 辅助出图、改稿、写提案,客户每次的修改意见就是你的反馈信号。把“客户为什么退这版”具体记下来,下次提案直接避开,你的命中率才会升;只把退稿档扔着、不归纳原因,改一百版也还在原地

想导入 AI 记忆功能,要先装一道闸门
有些厂商会推“AI 会记住你公司的习惯”这类记忆功能,听起来很美。但论文这里有个我很认同的提醒
记忆架构解决的是四条件里最难的第四条“retain”,但它“只”解决记得住,不会帮你过滤前三条对不对、重不重复
换句话说,如果你把错误的、重复的、杂讯般的反馈也一股脑存进去,这些错误记忆会被反复叫出来用,毒性比没记忆还大。等于把“越错越离谱”从单次,放大成永久
所以导入任何记忆功能,一定要配一道“写入闸门”:这条信息够有料、够可信、不重复吗?过了再存。对印刷厂来说,就是别让业务随手记的、没查证的客户偏好,自动变成系统的“事实”
也要诚实讲,这篇论文不是灵丹妙药。那个:
・0.94 到
・0.99 的上限,用的是事后才知道答案的理想信息(论文叫 Oracle-EFC),真实系统做不到,所以那是理论天花板,不是你明天就拿得到的数字。而“反馈有没有真正改变决策”这条,本身就难判断。但即使打了这些折扣,核心方向我很买单
未来 AI 工具的竞争,不会是谁挂的功能多、谁的对话框长,而是谁能让每一次反馈都真正被用上。好的 AI 助手,不是让它多干活,而是像个好师傅,让它每干一步都真正学到东西

重点整理
・多给 AI 算力跟工具,只能解释三四成成果(R²:
・0.33
・0
・42),剩下六成靠的是反馈质量
・算力不变、只把反馈变有效,成功率能从 27% 跳到 90%,差别在“练对”不在“练多”
・有效反馈要同时做到:有料、正确、不重复、被用上,缺第四条等于白练
・AI 记忆功能只解决“记得住”,不会帮你滤错;没装写入闸门,错误记忆比没记忆更毒
・把 AI 报价、改稿的失败案例每月回灌一次,才是让它越跑越准的关键动作
延伸思考
对印刷厂跟设计工作室,真正的启发不是“该不该导入 AI”,而是“导入后有没有设计检讨机制”。多数人卡在第一步就停了,把工具接上去当成终点。建议从一件小事开始:选一个高频场景,例如画册报价或贴纸打样询问,先建一份三十项的标准答案表,再排一个每月一小时的回灌时段,专门拿 AI 答错的案例去修规则。这个闭环跑顺了,再考虑上记忆功能或扩大范围。对做整合服务的厂商而言,这也是一个和客户长期绑定的切口:你帮客户把反馈闭环设计好,系统就会越用越贴合他的需求,而不是用半年就被嫌不准丢掉
延伸阅读
FAQ
- AI 报价系统用久了反而越来越不准,是什么原因?
- 通常不是模型能力问题,而是缺少反馈闭环。AI 每次报价后若没有明确的对错信号回馈,也没人定期拿错误案例去修正规则,它就会把同样的错误判断一直重复,甚至放大
- 什么是 Effective Feedback Compute(EFC)?
- EFC 是一个衡量 AI 反馈质量的概念,指只有同时做到“有料、正确、不重复、被真正用上”四个条件的反馈才算有效。论文证明,算力不变的情况下只提升反馈质量,任务成功率能从 27% 提升到 90%
- 中小印刷厂想让 AI 工具越用越准,第一步该做什么?
- 先建一份标准答案对照表,把最常报的二三十种品项的正确料号、纸张、后道加工、合理报价整理出来。有了这份 ground truth,AI 报价出现偏差时你才能发现并校正,这是建立反馈闭环的起点
- AI 的“记忆”功能值得导入吗?
- 值得,但必须配一道写入闸门。记忆功能只能解决“记得住”,不会帮你过滤错误或重复的信息。若把杂讯跟错误判断也存进去,这些错误记忆会被反复使用,反而比没有记忆更糟
- 设计师用 AI 辅助改稿,怎么让它越来越懂客户?
- 把客户每次退稿的具体原因记下来并归纳,下次提案直接避开,命中率才会提升。只把退稿档案扔着不分析原因,改再多版也是在原地空转,这就是反馈有没有闭合的差别
