Waarom stagneert het effect van AI-tools na een half jaar?
In de afgelopen maanden hoorde ik van eigenaren van diverse middelgrote drukkerijen hetzelfde verhaal: de AI-prijsassistent of de automatische klantenservice-bot die vorig jaar werd geïmplementeerd, was in het begin indrukwekkend, maar nu voelt het alsof er geen vooruitgang is en worden er soms zelfs vreemdere fouten gemaakt
Dit fenomeen wordt grondig geanalyseerd in de recente paper 'Scaling Laws for Agent Harnesses via Effective Feedback Compute' door Xuanliang Zhang e.a. (gebaseerd op een samenvatting door Wisely Chen)
De paper kwantificeert een contra-intuïtief inzicht: je denkt dat AI sterker wordt door meer rekenkracht, meer tools of meer iteraties toe te voegen, maar dat is niet het geval
De auteurs gebruikten 'raw tokens' en 'tool calls' om het succespercentage van taken te verklaren, maar de R²-correlatiecoëfficiënt was slechts:
・0,33 tot
・0,42
Vrij vertaald naar de praktijk in de drukkerij: het tot in detail loggen van AI-gesprekken, het verhogen van het aantal herberekeningen voor offertes, of het koppelen van meer databases – al die 'actieve' handelingen verklaren slechts zo'n 30 tot 40 procent van het resultaat. De overige 60 procent heeft niets te maken met hoeveel middelen je ertegenaan gooit
Ik vergelijk dit met het trainen van een leerling. Een meester laat een leerling 200 oefendrukken per dag maken, maar als de meester nooit wijst op fouten of onjuiste kleuroverloop, zal die leerling na 10.000 afdrukken nog steeds op hetzelfde niveau zitten. Hij is niet bekwamer geworden, alleen vermoeider

Wat is EFC precies? En wat heeft het met 'meesterschap' te maken?
Het kernconcept van de paper is 'Effective Feedback Compute', afgekort EFC. De essentie is: niet alle interactie telt; alleen 'effectieve feedback' zorgt ervoor dat AI werkelijk verbetert
De paper definieert vier voorwaarden voor effectieve feedback, die ik hieronder vertaal naar de drukkerij-context:
・Informative (Informatief): Feedback moet nieuwe informatie bevatten. Als een klant klaagt dat een offerte duur is, maar niet aangeeft of dat komt door het papier of de nabewerking, dan is die feedback zinloos
・Valid (Geldig): Feedback moet betrouwbaar zijn, geen ruis of giswerk. Als een verkoper terloops noteert dat 'deze klant niet op prijs let', maar dat eigenlijk precies verkeerd onthouden heeft, dan is het voeden van die foute informatie aan het systeem schadelijker dan helemaal geen feedback geven
・Non-redundant (Niet-overbodig): Herhaal niet wat al bekend is. Het systeem heeft al honderd keer opgeslagen dat de klant 100 grams kunstdrukpapier wil; dat is geen nieuwe informatie
・Retained (Gebruikt): Dit is de meest kritieke voorwaarde. Wordt de feedback daadwerkelijk verwerkt in de volgende beslissing? Als een verkoper in de groepschat een juiste inschatting maakt, maar niemand verwerkt dat in de prijslogica, dan is het alsof het nooit gezegd is
Het belangrijkste cijfer in de paper: in een experiment werd, bij een gelijkblijvend budget voor rekenkracht, alleen de kwaliteit van de feedback verhoogd. Het succespercentage steeg van 27% naar 90%
Geen cent extra uitgegeven, puur door de feedback effectief te maken. De R²-waarde voor de verklarende kracht steeg:
・van 0,33 in één klap naar
・0,94 tot
・0,99
Deze theorie is in feite 'deliberate practice' (bewust oefenen), iets waar de leerwetenschap al decennia over spreekt: feedback moet specifiek en correct zijn, en verwerkt worden in de volgende oefenronde. Oefenen zonder reflectie, of reflecteren zonder verbetering, is tijdverspilling. AI werkt net zo

Hoe ontwerp je een feedback-loop voor AI-offertes, opvolging en klantenservice?
Nu we het principe begrijpen, is de vraag: hoe integreer je deze feedback-loop in het drukwerkproces? Ik geef een aantal concrete stappen waar je deze week mee kunt beginnen
Ten eerste: bouw een 'standaard antwoorden'-tabel. Identificeer de 20 tot 30 meest voorkomende items van het afgelopen half jaar (garenloze brochures, geniete catalogi, stickers, verpakkingen) en verzamel de juiste artikelnummers, papiersoorten, nabewerkingen en redelijke prijsmarges als 'ground truth'. Pas als de AI-offerte niet overeenkomt met deze data, heb je een 'foutsignaal' om te corrigeren; anders merk je niet eens dat de AI scheef zit
Ten tweede: houd elke keer dat de AI een fout maakt een logboek bij, en noteer de oorzaak. Niet zomaar 'fout in offerte', maar specifiek: 'het rekende 250 grams karton als 200 grams' of 'vergat de kosten voor UV-lak mee te rekenen'. Dit correspondeert met de voorwaarde 'Informative': wees specifiek genoeg om actie te kunnen ondernemen
Ten derde: voer faalgevallen periodiek terug in het systeem. Besteed elke maand een uur aan het analyseren van de gevallen waarin de AI deze maand foutieve offertes maakte of klantvragen verkeerd beantwoordde, en pas de prompts of regels aan. Dit is de stap 'Retained'. Een feedback-loop is pas gesloten als er echt iets verbetert. De vluchtige gesprekshistorie telt niet; het is de georganiseerde verbetering van regels die telt
Ten vierde: toets elke nieuwe functie aan de vierde EFC-voorwaarde. Als je een nieuwe tool wilt koppelen of een extra automatische beantwoording wilt activeren, vraag je eerst af: gaat dit de besluitvorming van de AI de volgende keer echt veranderen? Zo nee, dan is het puur geldverbranding en extra onderhoudslast
Hetzelfde geldt voor de ontwerpfase. Als je AI gebruikt om visuals te genereren, wijzigingen door te voeren of voorstellen te schrijven, dan is de feedback van de klant je signaal. Noteer specifiek 'waarom de klant deze versie afwees' en vermijd dat de volgende keer. Alleen dan stijgt je hitrate. Als je de afgewezen bestanden laat liggen zonder de redenen te analyseren, sta je na honderd aanpassingen nog steeds op hetzelfde punt

Wil je AI-geheugenfuncties introduceren? Installeer eerst een poortwachter
Sommige leveranciers promoten geheugenfuncties, zoals 'AI onthoudt de gewoonten van jouw bedrijf'. Dat klinkt mooi, maar de paper bevat een waarschuwing die ik volledig onderschrijf
Geheugenarchitectuur lost de moeilijkste van de vier voorwaarden op: 'retain'. Maar het lost alleen het *onthouden* op, het filtert niet of de voorgaande drie voorwaarden (informatief, correct, niet-redundant) wel in orde zijn
Met andere woorden: als je foute, redundante en ruisachtige feedback klakkeloos opslaat, worden deze foutieve herinneringen herhaaldelijk opgeroepen en gebruikt. De giftigheid is groter dan zonder geheugen. Het vergroot een fout van een incidenteel probleem tot een permanent systeemprobleem
Introduceer daarom bij elke geheugenfunctie een 'schrijf-poort': is deze informatie nuttig, betrouwbaar en niet-redundant? Pas dan opslaan. Voor drukkerijen betekent dit: laat niet toe dat willekeurige notities van verkopers over klantvoorkeuren die niet zijn gecheckt, automatisch 'feiten' van het systeem worden
Eerlijkheidshalve moet gezegd worden dat deze paper geen wondermiddel is. De bovengrens van
・0,94 tot
・0,99
wordt behaald met ideale informatie die achteraf pas bekend was (in de paper 'Oracle-EFC' genoemd). In werkelijkheid is dat een theoretisch plafond dat je morgen nog niet bereikt. En de vraag of 'feedback de besluitvorming daadwerkelijk verandert' is sowieso moeilijk te bepalen. Maar zelfs met die kanttekeningen ben ik een groot voorstander van de kernrichting
De concurrentiestrijd tussen AI-tools zal niet gaan over wie de meeste functies heeft of wie de langste dialoogvensters heeft, maar over wie ervoor zorgt dat elke feedback daadwerkelijk wordt benut. Een goede AI-assistent is niet degene die meer werk verzet, maar degene die als een goede leermeester bij elke stap echt iets bijleert

Samenvatting
・AI meer rekenkracht en tools geven verklaart slechts 30-40% van de resultaten (R²: 0,33 - 0,42). De overige 60% hangt af van de kwaliteit van feedback
・Bij gelijke rekenkracht zorgt betere feedback voor een stijging in succespercentage van 27% naar 90%. Het gaat om 'juist oefenen', niet 'meer oefenen'
・Effectieve feedback moet voldoen aan: informatief, correct, niet-overbodig en benut worden (Retained). Zonder de vierde voorwaarde is het zinloos
・AI-geheugen lost alleen het 'onthouden' op, niet het filteren van fouten. Zonder 'schrijf-poort' zijn foutieve herinneringen gevaarlijker dan helemaal geen geheugen
・Het maandelijks terugvoeren van faalgevallen in AI-offertes en correcties is de cruciale actie om het systeem nauwkeuriger te maken
Verdere overdenking
Voor drukkerijen en ontwerpbureaus is de echte les niet 'moeten we AI introduceren', maar 'hebben we na introductie een evaluatiemechanisme ontworpen?'. De meesten stoppen bij de eerste stap en zien het installeren van de tool als het einddoel. Begin klein: kies één hoogfrequent scenario, zoals catalogusprijzen of sticker-proofs, bouw eerst een tabel met 30 standaardantwoorden en plan een uurtje per maand in voor 'terugvoeding' waarbij je specifiek de foutieve AI-antwoorden gebruikt om de regels bij te sturen. Zodra deze feedback-loop loopt, kun je geheugenfuncties of een grotere schaal overwegen. Voor leveranciers van geïntegreerde diensten is dit ook een uitgelezen kans om een langdurige klantrelatie op te bouwen: als jij de feedback-loop voor de klant ontwerpt, wordt het systeem naarmate het gebruik vordert steeds beter afgestemd op hun behoeften, in plaats van dat het na een half jaar wordt weggegooid wegens onnauwkeurigheid
Verder lezen
FAQ
- Wat is de reden dat AI-offertesystemen na verloop van tijd minder nauwkeurig worden?
- Meestal ligt dit niet aan de capaciteit van het model, maar aan het ontbreken van een feedback-loop. Als de AI na elke offerte geen duidelijke signalen krijgt of het klopt, en niemand periodiek de foutieve gevallen gebruikt om de regels bij te sturen, zal de AI dezelfde foutieve oordelen blijven herhalen, of zelfs versterken
- Wat is 'Effective Feedback Compute' (EFC)?
- EFC is een concept om de kwaliteit van AI-feedback te meten. Het stelt dat feedback alleen effectief is als deze tegelijkertijd voldoet aan de vier voorwaarden: 'informatief, correct, niet-overbodig en daadwerkelijk benut'. De paper bewijst dat bij gelijke rekenkracht het verhogen van de feedbackkwaliteit het succespercentage van taken kan verhogen van 27% naar 90%
- Wat is de eerste stap voor een middelgrote drukkerij om AI-tools effectiever te maken?
- Bouw eerst een tabel met 'standaard antwoorden' waarin je de correcte artikelnummers, papiersoorten, nabewerkingen en redelijke prijsmarges voor de 20 tot 30 meest voorkomende producten vastlegt. Met deze 'ground truth' kun je zien wanneer de AI ernaast zit en kun je corrigeren; dit is het startpunt voor een feedback-loop
- Is het de moeite waard om een 'geheugenfunctie' voor AI te introduceren?
- Ja, maar het moet worden uitgerust met een 'schrijf-poort'. Een geheugenfunctie lost alleen het onthouden op, het helpt niet bij het filteren van foutieve of redundante informatie. Als je ruis en verkeerde beslissingen opslaat, worden deze foutieve herinneringen herhaaldelijk gebruikt, wat schadelijker is dan helemaal geen geheugen
- Hoe zorg je dat AI die ontwerpers helpt bij revisies, de klant steeds beter begrijpt?
- Noteer specifiek de redenen waarom een klant een versie afwijst en structureer deze. Vermijd deze redenen bij het volgende voorstel, dan zal je hitrate stijgen. Als je alleen afgewezen bestanden achterlaat zonder de oorzaken te analyseren, blijf je na vele revisies nog steeds ter plaatse trappelen; dat is het verschil tussen wel of niet een gesloten feedback-loop hebben
