Hvorfor stagnerer effekten af AI-værktøjer efter et halvt år?
I løbet af de sidste par måneder har jeg besøgt flere ejere af små og mellemstore trykkerier, som alle spørger om det samme: De AI-tilbudsassistenter og automatiske LINE-kundeservicebots, de introducerede sidste år, virkede imponerende i starten, men hvorfor føles det som om, de ikke er blevet bedre – og nogle gange endda begår mere absurde fejl?
Dette fænomen bliver grundigt beskrevet i en nylig artikel med titlen 'Scaling Laws for Agent Harnesses via Effective Feedback Compute', skrevet af Xuanliang Zhang m.fl. Jeg læste den kinesiske opsummering af Wisely Chen
Den kvantificerer direkte noget kontra-intuitivt: Du tror måske, at AI bliver stærkere ved at 'give den mere regnekraft, flere værktøjer og lade den køre flere gange', men det gør den faktisk ikke
Artiklen bruger raw tokens og tool calls til at forklare opgave-succesraten, og korrelationskoefficienten R² er kun:
・0.33 til
・0.42
Oversat til trykkeribranchens sprog: At gøre dine AI-kundeservice-logfiler mere detaljerede, at øge antallet af genberegninger af tilbud fra én til tre, eller at tilknytte to ekstra databaser – alle disse 'jeg har gjort en masse'-handlinger – kan kun forklare omkring 30-40% af resultaterne. De resterende 60% har intet at gøre med, hvor mange ressourcer du brænder af
Jeg sammenligner det med at lære en lærling op. Hvis en mester lader lærlingen printe 200 prøvetryk om dagen, men aldrig påpeger fejl eller forklarer, hvor registeret er skævt, så vil lærlingen stadig være på samme niveau efter 10.000 tryk. Han er ikke blevet dygtigere, han er bare blevet mere træt

Hvad er EFC egentlig? Og hvad har det med mesterlære at gøre?
Kerneprincippet i artiklen kaldes Effective Feedback Compute, forkortet EFC. Det betyder: Ikke alle interaktioner tæller; kun 'effektiv feedback' kan få AI til at blive bedre
Den definerer fire betingelser for effektiv feedback, som jeg her vil relatere til trykkeriscenarier:
・Informative (skal have indhold): Feedbacken bringer ny information. Hvis kunden klager over prisen, men ikke nævner om det er papiret eller efterbehandlingen, der er dyr, er det ubrugelig feedback
・Valid (skal være korrekt): Feedbacken skal være troværdig, ikke støj eller gætteri. Hvis en sælger noterer 'kunden er ligeglad med prisen', men det viser sig at være stik modsat, er sådan en forkert feedback værre end ingen feedback
・Non-redundant (ikke-gentagende): Lad være med at sige det samme igen, som vi allerede ved. Hvis systemet har registreret 100 gange, at 'kunden vil have 100g bestrøget papir', indeholder det ikke ny information
・Retained (skal anvendes): Dette er det vigtigste punkt. Bliver feedbacken faktisk brugt i den næste beslutning? Hvis en sælger giver en korrekt vurdering i gruppen, men ingen sørger for at opdatere tilbudssystemet, er det som om, det aldrig er blevet sagt
Det vigtigste tal er her: Artiklen udførte et kontrolforsøg, hvor man, uden at ændre på regnekraften, kun forbedrede kvaliteten af feedbacken. Succesraten steg fra 27% til 90%
Omkostningerne steg ikke med en krone; ved blot at gøre feedbacken effektiv, blev succesraten tredoblet. Efter genberegning steg forklaringskraften R² fra:
・0.33 steg pludseligt til
・0.94 til
・0.99
Denne tilgang er i virkeligheden det, som læringsvidenskaben har kaldt 'bevidst træning' (deliberate practice) i årtier: Feedback skal være konkret, korrekt og integreres i den næste træningssession. At øve sig uden evaluering, eller evaluere uden at ændre adfærd, svarer til slet ikke at øve sig. AI fungerer på samme måde som mennesker

Hvordan designer man et feedback-loop til AI-tilbud, ordreopfølgning og kundeservice i trykkerier?
Når princippet er forstået, bliver spørgsmålet: Hvordan forbinder man dette feedback-loop i trykkeriets arbejdsgang? Her er nogle konkrete tiltag, du kan starte på i denne uge
For det første: Byg en 'standardfacitliste'. Identificer de 20-30 typer opgaver, I oftest giver tilbud på – sadelhæftede kataloger, limindbundne bøger, klistermærker, æsker – og saml de korrekte varenumre, papirtyper, efterbehandling og fornuftige prisintervaller i et 'ground truth'-dokument. Kun hvis du har dette, kan du sammenligne AI'ens tilbud og se, hvornår den tager fejl – ellers opdager du ikke engang, hvis den regner forkert
For det andet: Registrer hver gang AI'en begår en fejl, og noter årsagen. Det er ikke nok at skrive 'fejl i tilbud'. Noter 'den beregnede 250g karton som 200g' eller 'glemte omkostninger til lakering'. Dette svarer til punktet 'Informative' – det skal være konkret nok til at kunne handles på
For det tredje: Genindfør fejlene løbende. Brug en time hver måned på at tage de cases, hvor AI'en fejlede i kundeservice eller tilbudsgivning, og opdater systemets instruktioner eller regler. Det er her 'Retained'-delen sker – feedbacken 'lukker' kun, hvis den bliver behandlet og ændrer reglerne. At bare have dialoghistorikken liggende tæller ikke; den skal bearbejdes for at tælle
For det fjerde: Før du tilføjer en ny funktion, så test den mod EFC's fjerde regel. Hvis du vil tilføje et nyt værktøj eller en ny automatisk besked, så spørg dig selv: Vil dette reelt ændre AI'ens beslutning næste gang? Hvis ikke, er det spild af penge og øger kun vedligeholdelsesbyrden
Det samme gælder for design-siden. Hvis du bruger AI til at generere billeder, rette korrektur eller skrive forslag, er kundens rettelser din feedback. Noter specifikt 'hvorfor afviste kunden denne version', og undgå det i næste forslag – så stiger din succesrate. Hvis du bare gemmer rettelserne uden at analysere årsagen, vil du stadig være på bar bund efter 100 rettelser

Før du implementerer AI-hukommelsesfunktioner, skal du installere en port
Nogle leverandører promoverer funktioner som 'AI husker din virksomheds vaner', hvilket lyder fantastisk. Men artiklen har en advarsel, som jeg er meget enig i
Hukommelsesarkitekturen løser det sværeste af de fire punkter: 'Retained', men den løser kun selve huske-delen. Den hjælper dig ikke med at filtrere, om de første tre punkter (indhold, korrekthed, redundans) er opfyldt
Med andre ord: Hvis du blindt gemmer fejlbehæftet, redundant eller støjende feedback, vil disse forkerte minder blive hentet frem igen og igen, og deres toksiske effekt er værre end slet ikke at have en hukommelse. Det svarer til at tage 'fejl på fejl' og gøre det permanent
Derfor, når du implementerer en hukommelsesfunktion, skal du sørge for at have en 'skriveport': Er denne information værdifuld, troværdig og ikke-redundant? Gem den først, når den har bestået. For et trykkeri betyder det: Lad ikke sælgeres hurtige noter om kundepræferencer, som ikke er verificerede, automatisk blive til systemets 'fakta'
Det skal også siges ærligt, at denne artikel ikke er en mirakelkur. Den øvre grænse på:
・0.94 til
・0.99
er baseret på idealinformation (som artiklen kalder Oracle-EFC), hvor man kender svaret bagefter. Det kan virkelige systemer ikke opnå, så det er det teoretiske loft, ikke et tal du når i morgen. Og det er svært at vurdere, om feedbacken virkelig ændrede beslutningen. Men selv med disse forbehold, støtter jeg kernen i budskabet
Konkurrencen inden for fremtidige AI-værktøjer handler ikke om, hvem der har flest funktioner eller længste dialogbokse, men hvem der kan sikre, at hver eneste feedback rent faktisk bliver brugt. En god AI-assistent handler ikke om at lade den arbejde mere, men om at fungere som en god mester, der lærer noget nyt for hvert skridt

Opsummering
・At give AI mere regnekraft og flere værktøjer kan kun forklare 30-40% af resultaterne (R²:
・0.33
・0
・42), de resterende 60% afhænger af feedback-kvaliteten
・Ved samme regnekraft kan man hæve succesraten fra 27% til 90% ved blot at gøre feedbacken effektiv. Forskellen ligger i at 'træne korrekt', ikke 'træne mere'
・Effektiv feedback skal opfylde fire betingelser samtidigt: Informative, valide, ikke-redundante og anvendte. Hvis det fjerde punkt mangler, er træningen spildt
・AI-hukommelsesfunktioner løser kun 'at huske', de hjælper ikke med at filtrere fejl. Uden en 'skriveport' er forkerte minder mere skadelige end ingen minder
・Den vigtigste handling for at gøre AI mere præcis er at genindføre cases med fejl fra tilbud eller rettelser i systemet én gang om måneden
Yderligere overvejelser
For trykkerier og designstudier er den virkelige indsigt ikke 'skal vi implementere AI', men 'har vi designet en evalueringsmekanisme efter implementering?'. De fleste sidder fast ved det første skridt og ser det som et slutpunkt, når værktøjet er installeret. Jeg anbefaler at starte i det små: Vælg en højfrekvent opgave, f.eks. katalogtilbud eller forespørgsler om klistermærkeprøver. Byg først en tabel med 30 standardfacits, og planlæg en times genindføring hver måned, hvor I bruger de cases, AI'en svarede forkert på, til at rette reglerne. Når dette feedback-loop kører gnidningsfrit, kan I overveje hukommelsesfunktioner eller udvidelse af området. For leverandører af integrerede tjenester er dette også en måde at skabe langvarig kundebinding: Ved at designe kundens feedback-loop bliver systemet mere og mere tilpasset deres behov, i stedet for at blive kasseret efter et halvt år, fordi det ikke var præcist nok
Yderligere læsning
FAQ
- Hvorfor bliver AI-tilbudssystemer mere upræcise med tiden?
- Det er sjældent et problem med selve modellens evner, men skyldes mangel på et feedback-loop. Hvis AI'en ikke får tydelig bekræftelse på, om et tilbud var rigtigt eller forkert, og ingen løbende retter fejlene, vil den gentage de samme forkerte vurderinger – og nogle gange endda forstærke dem
- Hvad er Effective Feedback Compute (EFC)?
- EFC er et koncept til måling af kvaliteten af AI-feedback. Det definerer, at feedback kun er effektiv, hvis den opfylder fire betingelser samtidigt: Informativ, korrekt, ikke-redundant og faktisk anvendt. Artiklen viser, at man uden at ændre regnekraften kan øge succesraten fra 27% til 90% ved blot at forbedre feedback-kvaliteten
- Hvad er det første skridt for mindre trykkerier, der vil gøre deres AI-værktøjer mere præcise?
- Start med at opbygge en standardfacitliste. Saml de rigtige varenumre, papirtyper, efterbehandling og fornuftige prisintervaller for de 20-30 mest almindelige opgaver. Med dette 'ground truth' kan du opdage og rette AI'ens fejl, hvilket er startskuddet til at etablere et feedback-loop
- Er det værd at implementere en 'hukommelsesfunktion' i AI?
- Det er værdifuldt, men det kræver en 'skriveport'. Hukommelsesfunktioner løser kun opgaven med at 'huske', de filtrerer ikke fejl eller gentagelser. Hvis man gemmer støj og fejlagtige vurderinger, vil disse fejl blive brugt gentagne gange, hvilket er værre end slet ikke at have en hukommelse
- Hvordan gør designere deres AI-støttede rettelser mere forstående over for kundens ønsker?
- Noter de konkrete årsager til hver gang kunden afviser en rettelse, og brug denne indsigt til at undgå fejlen i fremtidige forslag. Hvis man bare gemmer rettelsesfilerne uden at analysere årsagen, vil man blive ved med at køre i ring. Forskellen ligger i, om feedback-loopet er lukket eller ej
