Miért stagnál az AI-eszközök hatékonysága fél év használat után?
Az elmúlt hónapokban több kis- és közepes méretű nyomda tulajdonosa tette fel ugyanazt a kérdést: a tavaly bevezetett AI árajánlat-készítő asszisztens és az automatikus ügyfélszolgálati chatbot kezdetben lenyűgöző volt, de mostanra miért nem látszik fejlődés, sőt, néha egyre abszurdabb hibákat vétenek?
Ezt a jelenséget egy nemrég megjelent tanulmány, a „Scaling Laws for Agent Harnesses via Effective Feedback Compute” tárgyalja alaposan (szerzők: Xuanliang Zhang és munkatársai). Én Wisely Chen kínai összefoglalóját olvastam róla
A tanulmány számszerűsíti azt az ellentmondásos jelenséget, hogy bár azt gondolnánk, a több számítási kapacitás, a több eszköz vagy a többszöri futtatás erősebbé teszi az AI-t, ez valójában nem így van
A tanulmány az „raw tokens” (nyers tokenek) és „tool calls” (eszközhívások) alapján vizsgálta a feladatok sikerességi arányát, ahol az R² korrelációs együttható mindössze:
・0.33 és
・0.42
Nyomdaipari nyelvre lefordítva: ha az AI ügyfélszolgálat beszélgetési naplóit a legrészletesebben rögzíted, a kalkulációk számát egyszer-háromszorosára növeled, vagy még két adatbázist kapcsolsz hozzá, ezek a „sokat tettem” típusú intézkedések csak kb. 30-40%-ban magyarázzák az eredményt. A maradék 60% független attól, mennyi erőforrást égetsz el
Ezt ahhoz hasonlítom, mintha egy tanulót tanítanál. Ha a mester hagyja, hogy a tanuló naponta kétszáz próbanyomatot nyomtasson, de soha nem mutat rá a hibákra, nem mondja meg, hol csúszott el a színillesztés, akkor a tanuló tízezer nyomat után is ugyanazon a szinten marad. Nem lett jobb, csak fáradtabb

Mi az az EFC, és mi köze van a "mester-tanuló" viszonyhoz?
A tanulmány központi koncepciója az „Effective Feedback Compute”, rövidítve EFC. Ez azt jelenti, hogy nem minden interakció számít; csak a „hatékony visszajelzés” segítheti az AI valódi fejlődését
A hatékony visszajelzés négy feltételt kell, hogy teljesítsen. Íme, a nyomdaipari példák rá:
・Informative (Tájékoztató jellegű): A visszajelzés új információt hordoz. Ha az ügyfél drágállja az árat, de nem mondja meg, hogy a papír vagy a kötészet miatt, az ilyen visszajelzés hasznavehetetlen
・Valid (Helyes): A visszajelzés megbízható, nem zaj vagy találgatás. Ha az értékesítő felelőtlenül feljegyzi, hogy „ez az ügyfél nem árérzékeny”, miközben az valójában pont fordítva igaz, az ilyen hibás visszajelzés többet árt, mintha semmit nem rögzítenénk
・Non-redundant (Nem redundáns): Ne ismételjük meg, amit már tudunk. Ha a rendszer százszor rögzíti, hogy „az ügyfél 100 fontos műnyomót kér”, az valójában nem új információ
・Retained (Hasznosuló): Ez a legkritikusabb pont. A visszajelzés valóban beépült a következő döntéshozatalba? Ha az értékesítő a csoportban helyes megállapítást tett, de senki nem építette be az árajánlat-készítési logikába, az olyan, mintha meg sem történt volna
Itt jön a legfontosabb adat: a tanulmány kontrollált kísérletet végzett, ahol a számítási kapacitás változatlansága mellett kizárólag a visszajelzések minőségét javították, amivel a feladatok sikerességi aránya 27%-ról 90%-ra emelkedett
Költségnövekedés nélkül, csupán a visszajelzések hatékonyabbá tételével a sikeresség több mint megháromszorozódott. Újraszámolva az R² érték:
・0.33-ról hirtelen
・0.94-re
・0.99-re
Ez az elmélet valójában a „tudatos gyakorlás” (deliberate practice) koncepciója, amelyet a tanuláselmélet évtizedek óta hirdet: a visszajelzésnek konkrétnak és helyesnek kell lennie, és be kell épülnie a következő gyakorlásba. Gyakorolni elemzés nélkül, vagy elemezni javítás nélkül egyenlő a nullával. Az AI-ra ugyanaz érvényes, mint az emberekre

Hogyan tervezzünk visszajelzési hurkot (feedback loop) a nyomdai árajánlat-készítés, utókövetés és ügyfélszolgálat AI-jához?
Miután ismerjük az elveket, a kérdés az: hogyan építsük be ezt a hurkot a nyomdai folyamatokba? Íme néhány lépés, amit akár már ezen a héten megtehetsz
Először is, hozz létre egy „standard válasz” táblázatot. Azonosítsd az elmúlt félév 20-30 leggyakoribb termékét (pl. irkafűzött katalógus, ragasztókötött könyv, matrica, doboz), és foglald össze a helyes termékkódokat, papírtípusokat, utómunkálatokat és az elfogadható ártartományt egy „alapigazság” (ground truth) dokumentumba. Ha az AI ára nem egyezik ezzel, lesz egy „helyes/helytelen” jelzésed, ami alapján korrigálhatsz, különben észre sem vennéd, ha pontatlan
Másodszor, minden alkalommal, amikor az AI hibázik, jegyezd fel, és keresd meg a kiváltó okot. Ne csak annyit írj, hogy „hibás ajánlat”, hanem pontosan: „250 grammos kartont 200-asként számolt”, „elfelejtette a lakkozás költségét”. Ez felel meg az „Informative” feltételnek, konkrétnak és cselekvésre ösztönzőnek kell lennie
Harmadszor, rendszeresen „tápláld vissza” a hibás eseteket. Szánj rá havonta egy órát, és az adott havi hibás AI ajánlatok vagy ügyfélszolgálati válaszok alapján módosítsd a promptokat vagy szabályokat. Ez a „Retained” lépés – itt dől el, hogy a visszajelzés valóban „lezárult-e”. A felületes beszélgetési naplók nem érnek semmit, csak azok számítanak, amiket rendszereztél és amikből új szabályokat alkottál
Negyedszer, minden új funkció bevezetésekor ellenőrizd az EFC negyedik pontját. Mielőtt új eszközt vagy automatikus válaszfunkciót adsz hozzá, kérdezd meg magadtól: vajon ez tényleg befolyásolja majd az AI következő döntését? Ha nem, akkor csak pénzpazarlás és plusz karbantartási teher
Ez a tervezésre is igaz. Ha AI-t használsz képgenerálásra, módosításokra vagy ajánlatkészítésre, az ügyfél minden módosítási javaslata a visszajelzési jel számodra. Jegyezd fel konkrétan, „miért utasította el az ügyfél ezt a verziót”, és a következő ajánlatnál kerüld el a hibát; csak így javul a találati arányod. Ha csak félreteszed az elutasított fájlokat anélkül, hogy levonnád a tanulságokat, száz módosítás után is ugyanott állsz

Ha AI memória funkciót szeretnél bevezetni, előbb építs be egy szűrőt
Egyes fejlesztők olyan memória funkciókat kínálnak, amelyek állítólag „megjegyzik a cég szokásait” – ez jól hangzik. A tanulmányban azonban van egy figyelmeztetés, amivel mélységesen egyetértek
A memória architektúra a négy feltétel közül a legnehezebbet, a negyedik „retain” (hasznosulás) lépést oldja meg, de „csak” a megjegyzést biztosítja, nem szűri ki, hogy az információ helyes-e (1. pont) vagy ismétlődő-e (3. pont)
Más szóval, ha a hibás, redundáns vagy zajos visszajelzéseket ömlesztve mented el, az AI ezeket az „emlékeket” folyamatosan használni fogja, ami károsabb, mint a memória hiánya. Ezzel a „hibák sorozata” alkalmi eseményből állandóvá válik
Ezért minden memória funkció bevezetésekor kötelező egy „írási kapu” (szűrő): Ez az információ elég informatív, hiteles és új? Ha igen, akkor menthető. A nyomdaipar számára ez azt jelenti: ne hagyd, hogy az értékesítők által futólag feljegyzett, nem ellenőrzött ügyfélkívánságok automatikusan a rendszer „tényeivé” váljanak
Őszintén szólva, ez a tanulmány sem csodaszer. Az az:
・0.94-től
・0.99-es felső határ elméleti információt használ (amit a tanulmány Oracle-EFC-nek nevez), amit egy valós rendszerben lehetetlen elérni; ez csak elméleti plafon, nem olyan szám, amit holnap elérhetsz. Emellett a „visszajelzés valóban megváltoztatta-e a döntést” kérdés önmagában is nehezen mérhető. De még ezekkel a megszorításokkal együtt is, az alapvető iránnyal teljesen egyetértek
A jövő AI-eszközeinek versenye nem arról fog szólni, kinek van több funkciója vagy hosszabb csevegőablaka, hanem arról, kinek sikerül minden visszajelzést valóban hasznosítani. A jó AI-asszisztens nem az, amelyik többet dolgozik, hanem az, amelyik egy jó mesterhez hasonlóan minden megtett lépésből tanul

Összefoglalás
・A több számítási kapacitás és több eszköz az AI-nak csak 30-40%-ban magyarázza az eredményeket (R²:
・0.33
・0.42). A maradék 60% a visszajelzések minőségétől függ
・Ha a számítási kapacitás változatlan, de a visszajelzéseket hatékonnyá teszed, a sikeresség 27%-ról 90%-ra ugrik – a különbség a „helyes gyakorlásban” rejlik, nem a „több gyakorlásban”
・A hatékony visszajelzésnek egyidejűleg kell lennie: informatívnak, helyesnek, nem redundánsnak és hasznosulónak. A negyedik feltétel hiánya esetén az egész felesleges
・Az AI memória funkciója csak a „megjegyzést” oldja meg, a hibákat nem szűri ki; „írási kapu” nélkül a hibás emlékek kártékonyabbak, mint az emlékek teljes hiánya
・Az AI-alapú árajánlat-készítés és módosítások hibás eseteinek havi rendszerességű visszacsatolása az a kulcslépés, amivel a rendszer folyamatosan pontosabbá válik
További gondolatok
A nyomdák és tervezőstúdiók számára az igazi tanulság nem az, hogy „kell-e AI-t bevezetni”, hanem az, hogy „van-e tervezett felülvizsgálati mechanizmus a bevezetés után”. Sokan megakadnak az első lépésnél, és az eszköz beüzemelését tekintik végcélnak. Azt javaslom, kezdj valami aprósággal: válassz egy gyakori forgatókönyvet (pl. katalógus árajánlat vagy matricaminta-lekérdezés), készíts egy 30 pontos „standard válasz” táblázatot, és ütemezz be egy havi egyórás „visszacsatolási” blokkot, ahol kifejezetten az AI hibás eseteit használod a szabályok javítására. Ha ez a hurok már jól működik, csak akkor gondolkozz memória funkción vagy a hatókör bővítésén. Az integrált szolgáltatásokat nyújtó cégek számára ez egy kiváló módja az ügyfélhűség növelésének: ha segítesz az ügyfélnek megtervezni ezt a visszajelzési hurkot, a rendszer a használat során egyre inkább az ő igényeihez fog igazodni, ahelyett, hogy fél év után pontatlanság miatt kidobnák
További olvasnivalók
GYIK
- Miért válik egyre pontatlanabbá az AI árajánlat-készítő rendszer hosszabb használat után?
- Általában nem a modell képességeivel van a baj, hanem a visszajelzési hurok hiányával. Ha az AI minden árajánlat után nem kap egyértelmű jelzést arról, hogy helyes volt-e vagy sem, és senki sem használja a hibás eseteket a szabályok korrigálására, akkor ugyanazokat a hibás döntéseket fogja ismételni, sőt, felerősíteni
- Mi az az Effective Feedback Compute (EFC)?
- Az EFC az AI-visszajelzések minőségét mérő fogalom. Azt jelenti, hogy egy visszajelzés csak akkor hatékony, ha egyszerre teljesíti a „informatív, helyes, nem redundáns és valóban felhasznált” feltételeket. A tanulmány bebizonyította, hogy változatlan számítási kapacitás mellett, pusztán a visszajelzések minőségének javításával a sikerességi arány 27%-ról 90%-ra emelhető
- Mi az első lépés a kis- és közepes méretű nyomdák számára ahhoz, hogy AI-eszközeik egyre pontosabbá váljanak?
- Hozz létre egy „standard válasz” táblázatot, amely összefoglalja a leggyakrabban kalkulált 20-30 termék helyes termékkódjait, papírtípusokat, utómunkálatokat és ésszerű árait. Ezzel az „alapigazsággal” (ground truth) tudod észrevenni és korrigálni az AI hibáit – ez a visszajelzési hurok kiépítésének kiindulópontja
- Érdemes bevezetni az AI „memória” funkcióját?
- Érdemes, de csak egy „írási kapu” (szűrő) beépítésével. A memória funkció csak a „megjegyzést” oldja meg, nem szűri ki a hibás vagy redundáns információkat. Ha zajos adatokat és hibás döntéseket is elmentesz, az AI ezeket fogja újra és újra felhasználni, ami károsabb, mint a memória hiánya
- Hogyan érhetik el a tervezők, hogy a módosításokhoz használt AI egyre jobban megértse az ügyfelet?
- Jegyezd fel és rendszerezd konkrétan az ügyfél minden módosítási kérésének okát, és a következő ajánlatnál kerüld el azokat – így javulhat a találati arány. Ha csak félreteszed az elutasított terveket elemzés nélkül, száz módosítás után is ugyanott állsz. Ez a különbség a lezárt és a lezáratlan visszajelzési hurok között
Kapcsolódó cikkek
- MI ügynök munkamemória-tervezése: A mappastruktúra használata az MI szelídítésére, hogy ne tévedjen el
- A hub helyett summarize: AI egyetlen kattintásra GitHub-ot tudásbázissá alakítja
- A szállítási nyugták OCR-implementációjának architektúrális döntései: három generáció és az emberi-gép felosztási módszertana
