麥思知識學院 MINDS Knowledge Academy
산업 인사이트7 분 읽기

AI 견적 도우미, 왜 쓸수록 엉뚱해질까? 핵심은 피드백

많은 인쇄소가 AI 고객센터나 자동 견적 시스템을 도입하고 방치합니다. 반년 후, AI는 똑똑해지기는커녕 같은 실수를 반복하죠. 'Effective Feedback Compute'에 관한 논문은 그 이유를 명확히 짚어주며, 인쇄 현장에서 AI를 점점 더 똑똑하게 길들이는 방법을 제시합니다

麥思知識學院 | Simon H.

AI 견적 도우미, 왜 쓸수록 엉뚱해질까? 핵심은 피드백

왜 AI 도구는 도입 후 반년이 지나도 효과가 정체될까?

최근 한두 달간 고객사를 방문하면서 여러 중소 인쇄소 사장님들로부터 같은 고민을 들었습니다. 작년에 도입한 AI 견적 도우미나 자동 응답 고객센터 챗봇이 처음에는 신기했는데, 지금은 별로 나아진 것 같지 않고 오히려 더 엉뚱한 실수를 한다는 것이죠

이 현상은 최근 발표된 《Scaling Laws for Agent Harnesses via Effective Feedback Compute》라는 논문에서 매우 명쾌하게 다뤄졌습니다. 저자는 Xuanliang Zhang 등이며, 저는 Wisely Chen이 정리한 내용을 바탕으로 보았습니다

이 논문은 우리의 직관을 거스르는 사실을 수치로 증명합니다. '연산 자원을 더 쏟아붓고, 도구를 더 많이 연결하고, 더 자주 돌리면' AI가 강해질 것이라 생각하지만, 실제로는 그렇지 않습니다

논문은 작업 성공률을 설명하기 위해 raw tokens와 tool calls를 사용했는데, 상관계수 R²는 고작 이 정도였습니다

・0.33에서

・0.42

인쇄 현장의 언어로 풀면 이렇습니다. AI 고객센터의 대화 기록을 아주 상세하게 남기고, 견적 계산 횟수를 1번에서 3번으로 늘리고, 데이터베이스를 두 개 더 연결해도, 이런 '열심히 했다'는 식의 행동으로는 결과의 3~4할 정도밖에 설명하지 못합니다. 나머지 6할은 자원을 얼마나 쏟아붓느냐와는 상관이 없다는 뜻입니다

이걸 도제식 교육에 대입해 보죠. 사부가 제자에게 하루에 연습 인쇄물을 200장씩 찍으라고 시키지만, 인쇄가 끝난 뒤 무엇이 잘못되었는지, 어디가 핀트가 안 맞았는지 전혀 알려주지 않는다면 제자는 1만 장을 찍어도 그 수준 그대로입니다. 제자가 실력이 는 것이 아니라, 그저 더 피곤해졌을 뿐입니다

為什麼 AI 工具接上去半年,效果反而停滯?|你的 AI 報價助手為什麼越用越歪?關鍵在反饋 段落重點

EFC란 도대체 무엇인가? '도제식 교육'과 무슨 관계인가?

논문의 핵심 개념은 Effective Feedback Compute, 줄여서 EFC입니다. 즉, 모든 상호작용이 다 유효한 것은 아니며, '유효한 피드백'만이 AI를 실질적으로 성장시킨다는 뜻입니다

논문은 유효한 피드백이 갖춰야 할 네 가지 조건을 정의하는데, 이를 인쇄 현장에 하나씩 대입해 보겠습니다

・Informative(유익함): 피드백이 새로운 정보를 가져와야 합니다. 고객이 견적이 비싸다고 불평하는데, 종이값 때문인지 후가공 때문인지 말하지 않는다면 그런 피드백은 무용지물입니다

・Valid(정확함): 피드백은 신뢰할 수 있어야 하며, 노이즈나 추측이 아니어야 합니다. 영업 담당자가 '이 고객은 가격에 민감하지 않다'고 대충 적어두었는데 실제로는 정반대라면, 이런 잘못된 피드백을 학습시키는 것은 아예 안 하느니만 못합니다

・Non-redundant(비중복): 이미 알고 있는 내용을 반복하지 마세요. 시스템이 '고객이 100파운드 아트지 원함'을 백 번 기록한다고 해도 새로운 정보는 없습니다

・Retained(반영됨): 이 조건이 가장 중요합니다. 피드백이 정말로 다음 의사결정에 반영되었나요? 영업 담당자가 단톡방에 올바른 판단을 말했더라도 견적 로직에 정리되지 않았다면, 말하나 마나입니다

가장 핵심적인 수치는 여기에 있습니다. 논문은 대조 실험을 통해 연산 자원 예산은 그대로 유지하면서 피드백의 품질만 향상시켰을 때, 작업 성공률이 27%에서 90%까지 치솟는 것을 확인했습니다

비용은 단 한 푼도 더 들지 않았는데, 피드백을 유효하게 바꿨을 뿐인데 성공률이 3배 이상 뛰었습니다. 다시 계산해 보니 R² 설명력은 다음과 같습니다

・0.33에서 단번에

・0.94에서

・0.99까지 상승했습니다

이 이론은 사실 학습 과학에서 수십 년간 강조해 온 '의도적 연습(deliberate practice)'과 같습니다. 피드백은 구체적이고 정확해야 하며, 다음 연습으로 연결되어야 합니다. 연습하고 검토하지 않거나, 검토하고도 고치지 않는다면 연습하지 않은 것과 같습니다. AI도 사람과 똑같이 이런 방식이 필요합니다

EFC 到底是什麼?跟「帶師傅」有什麼關係?|你的 AI 報價助手為什麼越用越歪?關鍵在反饋 段落重點

인쇄소의 AI 견적, 주문 관리, 고객 응대, 피드백 순환 구조는 어떻게 설계할까?

원리를 알았으니 문제는 실천입니다. 인쇄 작업 프로세스에서 이 순환 구조를 어떻게 연결할 것인가. 이번 주에 바로 실행할 수 있는 몇 가지 방법을 제안합니다

첫째, '표준 답변' 대조표를 만드세요. 지난 반년간 가장 많이 견적을 낸 품목 20~30가지를 골라 중철 카탈로그, 무선제본 책자, 스티커, 패키지 박스 등의 올바른 자재 정보, 종이 종류, 후가공 사양, 합리적인 견적 범위를 정리한 'ground truth'를 만드세요. AI가 낸 견적이 이 기준과 맞지 않을 때 비로소 '오류 신호'를 감지하고 수정할 수 있습니다. 그렇지 않으면 AI가 엉뚱한 견적을 내도 알 방법이 없습니다

둘째, AI가 실수할 때마다 기록을 남기고, 근본 원인까지 파악하세요. '견적 오류'라고만 적지 말고, '250g 카드지를 200g으로 계산함', '코팅 비용 계산 누락'처럼 구체적으로 적으세요. 이는 Informative(유익함) 조건에 해당하며, 구체적일수록 행동으로 옮길 수 있습니다

셋째, 실패 사례를 정기적으로 다시 학습시키세요. 매달 1시간을 할애하여 이번 달 AI가 엉뚱한 견적을 내거나 잘못 답변한 사례를 모아 프롬프트나 규칙을 수정하세요. 이 단계가 바로 Retained(반영됨)입니다. 피드백이 '닫혔는지'는 여기서 결정됩니다. 그냥 흘려보낸 대화 기록은 의미가 없고, 정리되어 규칙이 개선되었을 때만 비로소 가치가 있습니다

넷째, 기능을 하나 추가할 때마다 EFC의 네 번째 조건을 검토하세요. 새로운 도구를 연결하거나 자동 응답 기능을 추가하기 전에 스스로 질문해 보세요. '이것이 정말로 AI의 다음 의사결정을 바꿀 수 있는가?' 그렇지 않다면, 추가하는 것은 단순히 비용 낭비이자 관리 부담만 늘리는 일입니다

이는 디자인 작업에도 똑같이 적용됩니다. AI로 이미지 생성, 수정, 제안서 작성을 할 때, 고객의 수정 의견이 곧 당신의 피드백 신호입니다. '고객이 왜 이 버전을 반려했는지'를 구체적으로 기록하고, 다음 제안 시 이를 반영하면 성공률이 올라갑니다. 수정 파일을 그냥 방치하고 원인을 정리하지 않는다면, 100번을 수정해도 제자리걸음일 뿐입니다

印刷廠的 AI 報價、追單、客服,反饋閉環怎麼設計?|你的 AI 報價助手為什麼越用越歪?關鍵在反饋 段落重點

AI 메모리 기능 도입 전, 반드시 확인해야 할 장치

일부 업체는 'AI가 회사 업무 습관을 기억한다'는 식의 메모리 기능을 홍보하는데, 참 매력적으로 들립니다. 하지만 논문에서 매우 공감되는 주의사항이 하나 있습니다

메모리 아키텍처는 유효한 피드백의 네 가지 조건 중 가장 어려운 네 번째인 'retain'을 해결해 주지만, 정보가 올바른지, 중복되지 않는지 등의 앞선 세 가지 조건은 걸러주지 않습니다

바꿔 말해, 잘못되고 중복되며 잡음 같은 피드백을 그대로 저장하면, 이런 잘못된 기억이 반복적으로 불러와져 사용됩니다. 이는 기억 기능이 없을 때보다 훨씬 더 독이 됩니다. 즉, '엉뚱한 실수'를 일회성으로 끝내지 않고 영구적으로 고착화하는 셈입니다

따라서 메모리 기능을 도입하려면 반드시 '쓰기 게이트(write gate)'를 설치해야 합니다. '이 정보가 충분히 유익하고 신뢰할 수 있으며 중복되지 않는가?'를 검증한 후 저장하세요. 인쇄소라면, 영업 담당자가 대충 메모하거나 확인되지 않은 고객의 취향을 시스템의 '사실'로 자동 등록하지 않도록 주의해야 합니다

솔직히 말해, 이 논문이 모든 것을 해결해 주는 만병통치약은 아닙니다. 논문에서 언급된

・0.94에서

・0.99라는 상한선은 사후에 정답을 알고 있는 이상적인 정보(논문에서는 Oracle-EFC라고 함)를 사용한 결과이며, 실제 시스템에서는 구현 불가능한 이론적 천장입니다. '피드백이 정말로 의사결정을 바꾸었는가'를 판단하는 것 자체도 매우 어렵습니다. 그럼에도 불구하고 핵심 방향성은 매우 설득력 있습니다

미래의 AI 도구 경쟁은 얼마나 많은 기능을 연결하느냐, 대화창을 얼마나 길게 유지하느냐가 아니라, 얼마나 모든 피드백을 실질적으로 활용하느냐에 달려 있습니다. 좋은 AI 도우미는 더 많은 일을 시키는 것이 아니라, 유능한 사부처럼 일을 처리할 때마다 무언가를 학습하게 만드는 존재여야 합니다

想導入 AI 記憶功能,要先裝一道閘門|你的 AI 報價助手為什麼越用越歪?關鍵在反饋 段落重點

포인트 정리

・AI에게 연산 자원과 도구를 더 주는 것은 결과의 3~4할 정도밖에 설명하지 못하며(R²:

・0.33,

・0.42), 나머지 6할은 피드백 품질에 달려 있습니다

・자원은 그대로 두고 피드백만 효율화해도 성공률을 27%에서 90%까지 올릴 수 있습니다. 중요한 것은 '연습을 많이 하는 것'이 아니라 '제대로 연습하는 것'입니다

・유효한 피드백은 '유익함, 정확함, 비중복, 반영됨'의 4박자를 갖춰야 하며, 네 번째 조건이 빠지면 헛수고입니다

・AI 메모리 기능은 '기억'만 할 뿐 오류를 걸러주지 않습니다. '쓰기 게이트'를 설치하지 않으면 잘못된 기억이 더 큰 독이 됩니다

・AI 견적이나 수정 작업의 실패 사례를 매달 정기적으로 다시 학습시키는 것이야말로 AI를 점점 더 정확하게 길들이는 핵심입니다

확장적 사고

인쇄소와 디자인 스튜디오에 주는 진짜 교훈은 'AI를 도입할 것인가 말 것인가'가 아니라 '도입 후 검토 메커니즘을 설계했는가'입니다. 대부분의 사람들이 도구를 연결하는 첫 단추에서 멈추고 그것을 끝이라고 생각합니다. 작은 것부터 시작하세요. 빈번하게 발생하는 상황(예: 카탈로그 견적, 스티커 샘플 문의)을 선정하여 30개 정도의 표준 답변 표를 만들고, 매달 1시간씩 AI의 오류 사례를 수정하는 시간을 가지세요. 이 순환 구조가 익숙해지면 메모리 기능을 추가하거나 범위를 넓히는 것을 고려하세요. 통합 서비스를 제공하는 업체 입장에서도 이는 고객과 장기적으로 관계를 유지할 수 있는 기회입니다. 고객의 피드백 순환 구조를 잘 설계해 주면, 시스템을 사용할수록 고객의 요구사항에 딱 맞게 발전할 것이며, 반년 만에 부정확하다는 이유로 버려지는 일도 없을 것입니다

관련 읽을거리

FAQ

AI 견적 시스템을 오래 사용할수록 오히려 부정확해지는 이유는 무엇인가요?
대개 모델 자체의 능력 문제보다는 피드백 순환 구조가 결여되었기 때문입니다. AI가 견적을 낸 후 정확한 피드백 신호가 주어지지 않고, 주기적으로 오류 사례를 수정하지 않으면, AI는 동일한 잘못된 판단을 반복하거나 더 확대하게 됩니다
Effective Feedback Compute(EFC)란 무엇인가요?
EFC는 AI 피드백의 품질을 측정하는 개념으로, '유익하고 정확하며 중복되지 않고, 실제로 반영된' 피드백만이 유효하다고 정의합니다. 논문에서는 연산 자원이 일정하더라도 피드백 품질만 향상시키면 작업 성공률을 27%에서 90%까지 올릴 수 있음을 증명했습니다
중소 인쇄소에서 AI 도구를 쓸수록 정확하게 만들려면 첫 단계로 무엇을 해야 하나요?
가장 자주 견적을 내는 품목 20~30가지를 선정하여 표준 답변 표를 작성하세요. 올바른 자재 정보, 종이 종류, 후가공 사양, 합리적인 견적 범위를 정리하는 것입니다. 이러한 'ground truth'가 있어야 AI가 엉뚱한 견적을 냈을 때 이를 인지하고 수정할 수 있으며, 이것이 피드백 순환 구조의 시작입니다
AI의 '메모리' 기능은 도입할 가치가 있나요?
도입할 가치는 있지만, 반드시 '쓰기 게이트'를 설치해야 합니다. 메모리 기능은 '기억'만 해결해 줄 뿐 오류나 중복 정보를 걸러주지 않습니다. 잡음이나 잘못된 판단을 그대로 저장하면 잘못된 기억이 반복적으로 사용되어 오히려 역효과를 낼 수 있습니다
디자이너가 AI로 수정 작업을 할 때, AI가 고객을 더 잘 이해하게 하려면 어떻게 해야 하나요?
고객이 수정 요청을 하는 구체적인 이유를 기록하고 정리하여 다음 제안 시 이를 즉시 반영하세요. 수정 파일을 그냥 방치하고 원인을 분석하지 않으면 100번을 수정해도 제자리걸음일 뿐입니다. 바로 이 '피드백이 닫혔는지' 여부가 결과의 차이를 만듭니다
LINE Chat