Prečo sa účinnosť AI nástrojov po pol roku používania zastavila?
Počas posledných dvoch mesiacov som navštívil niekoľko majiteľov malých a stredných tlačiarní a všetci sa pýtali na to isté: minulý rok sme zaviedli AI asistenta na cenové ponuky a chatbot na LINE, spočiatku sme boli nadšení, ale teraz mám pocit, že sa nezlepšujú a niekedy sú čoraz nepresnejší
Tento fenomén výborne vysvetľuje nedávny článok s názvom 《Scaling Laws for Agent Harnesses via Effective Feedback Compute》, ktorého autormi sú Xuanliang Zhang a kol. (ja som čítal zhrnutie v čínštine od Wiselyho Chena)
Priamo kvantifikuje kontraintuitívnu skutočnosť: myslíte si, že „viac výpočtového výkonu, viac nástrojov, viac pokusov“ urobí AI silnejšou, ale v skutočnosti to tak nie je
Článok používa raw tokens a tool calls na vysvetlenie úspešnosti úloh, pričom korelačný koeficient R² je len:
・0,33 až
・0,42
Preložené do reči tlačiarne: ak nastavíte podrobné záznamy konverzácií AI, zvýšite počet prepočtov cenových ponúk z jedného na tri a pripojíte ďalšie dve databázy, tieto akcie typu „urobil som toho veľa“ vysvetlia len asi 30 až 40 % výsledkov. Zvyšných 60 % nemá nič spoločné s tým, koľko zdrojov spálite
Prirovnal by som to k trénovaniu učňa. Majster nechá učňa vytlačiť dvesto cvičných hárkov denne, ale nikdy neupozorní na chyby ani nepovie, kde je zlý sútlač farieb. Učeň po vytlačení desaťtisíc hárkov bude na rovnakej úrovni. Nie je lepší, len viac unavený

Čo je to vlastne EFC? A čo má spoločné s „trénovaním učňov“?
Hlavným konceptom článku je Effective Feedback Compute, skrátene EFC. Znamená to: nie každá interakcia sa počíta, iba „efektívna spätná väzba“ môže AI skutočne posunúť vpred
Definuje, že efektívna spätná väzba musí súčasne spĺňať štyri podmienky, ktoré som porovnal s tlačiarenským prostredím:
・Informative (informatívnosť): spätná väzba prináša nové informácie. Zákazník sa sťažuje, že cenová ponuka je drahá, ale nepovie, či je to kvôli papieru alebo následnému spracovaniu – takáto spätná väzba je bezcenná
・Valid (validita): spätná väzba musí byť dôveryhodná, nie šum alebo dohady. Obchodník mimochodom poznamená „zákazníka cena nezaujíma“, ale v skutočnosti si to zapamätal zle. Vložiť takúto chybnú spätnú väzbu je horšie, ako ju nevložiť vôbec
・Non-redundant (neopakovanosť): nehovorte to isté, čo už viete. Systém si stokrát zapamätal „zákazník chce 100 lb kriedový papier“, to nie je nová informácia
・Retained (uchovanie/použitie): toto je najdôležitejšie. Bola táto spätná väzba skutočne zahrnutá do ďalšieho rozhodovania? Obchodník v skupine správne zhodnotil situáciu, ale nikto to nezahrnul do logiky cenových ponúk – akoby to ani nepovedal
Kľúčové číslo je tu: autori vykonali kontrolný experiment, kde pri zachovaní rovnakého výpočtového rozpočtu zvýšili iba kvalitu spätnej väzby a miera úspešnosti úloh vzrástla z 27 % na 90 %
Nestálo to ani cent navyše, len sa spätná väzba stala efektívnou. Po prepočítaní sa vysvetľujúca sila R² zvýšila z:
・0,33 rovno na
・0,94 až
・0,99
Táto myšlienka je v skutočnosti „vedomým tréningom“ (deliberate practice), o ktorom veda o učení hovorí už desaťročia: spätná väzba musí byť konkrétna, presná a musí byť zahrnutá do ďalšieho tréningu. Trénovať bez revízie alebo revidovať bez zmeny znamená netrénovať. AI je v tomto rovnaká ako ľudia

Ako navrhnúť uzavretý cyklus spätnej väzby pre AI cenové ponuky, sledovanie objednávok a zákaznícky servis v tlačiarni?
Keď poznáme princíp, problémom je: ako tento uzavretý cyklus reálne zapojiť do tlačového procesu? Tu je niekoľko krokov, ktoré môžete začať realizovať ešte tento týždeň
Po prvé, vytvorte si tabuľku „správnych odpovedí“ (ground truth). Identifikujte 20 – 30 najčastejšie dopytovaných položiek za posledný polrok (katalógy s V1 väzbou, lepené väzby, nálepky, škatule) a zoraďte správne kódy materiálov, papiere, následné spracovanie a rozumné cenové rozpätia. Ak AI vygeneruje cenu, ktorá nesúhlasí s týmto zoznamom, máte „signál chyby“ na korekciu, inak ani neviete, že cena je zlá
Po druhé, zaznamenávajte každú chybu AI a to až po koreňovú príčinu. Nezaznamenávajte len „chybná cena“, ale „vypočítalo 250 g kartón ako 200 g“ alebo „zabudlo započítať náklady na UV lak“. To zodpovedá podmienke Informative – musí to byť také konkrétne, aby sa dalo konať
Po tretie, pravidelne spätne vkladajte prípady zlyhania. Raz za mesiac venujte hodinu prípadom, kedy AI v danom mesiaci zle ocenila alebo zle odpovedala, a upravte jej prompt alebo pravidlá. Toto je krok Retained – či je spätná väzba „uzavretá“, závisí od tohto. Preletené záznamy konverzácií sa nepočítajú, až keď sú utriedené a pravidlá upravené, vtedy sa to počíta
Po štvrté, pri každom pridaní funkcie prejdite štvrtou podmienkou EFC. Ak chcete pripojiť ďalší nástroj alebo automatickú odpoveď, opýtajte sa sami seba: skutočne to zmení ďalšie rozhodovanie AI? Ak nie, je to len pálenie peňazí a zvyšovanie nákladov na údržbu
To isté platí aj pre oblasť dizajnu. Ak používate AI na pomoc pri tvorbe vizuálov, úprave návrhov alebo písaní ponúk, každá pripomienka klienta je váš signál spätnej väzby. Konkrétne si zapíšte „prečo klient túto verziu odmietol“ a pri ďalšom návrhu sa tomu vyhnite – až vtedy sa vaša úspešnosť zvýši. Ak len odložíte odmietnuté súbory bez analýzy dôvodov, ani po sto verziách sa nepohnete z miesta

Ak chcete zaviesť funkciu AI pamäte, najskôr musíte nainštalovať bránu
Niektorí dodávatelia propagujú funkcie typu „AI si zapamätá návyky vašej spoločnosti“, čo znie krásne. Ale článok tu prináša upozornenie, s ktorým sa úplne stotožňujem
Pamäťová architektúra rieši štvrtú, najťažšiu podmienku zo štyroch – „retain“, ale „iba“ rieši schopnosť zapamätať si, nepomôže vám odfiltrovať, či sú prvé tri podmienky správne alebo či sa informácie neopakujú
Inými slovami, ak do nej bezhlavo uložíte aj chybnú, redundantnú alebo šumovú spätnú väzbu, tieto chybné spomienky budú opakovane vyvolávané, čo je toxickejšie, než keby tam pamäť nebola vôbec. Znamená to zväčšenie chyby z jednorazovej na trvalú
Preto pri zavedení akejkoľvek funkcie pamäte musí byť súčasťou aj „zapisovacia brána“: je táto informácia dostatočne informatívna, dôveryhodná a neopakuje sa? Ak áno, až potom uložte. Pre tlačiareň to znamená: nedovoľte, aby sa obchodníkmi mimochodom zaznamenané a neoverené preferencie zákazníkov automaticky stali „faktami“ systému
Musím tiež úprimne povedať, že tento článok nie je všeliek. Ten limit:
・0,94 až
・0,99
využíva ideálne informácie, kde sú odpovede známe až spätne (v článku nazývané Oracle-EFC), čo skutočné systémy nedokážu, takže je to teoretický strop, nie číslo, ktoré dosiahnete zajtra. A samotná podmienka „či spätná väzba skutočne zmenila rozhodnutie“ sa ťažko posudzuje. Ale aj s týmito výhradami, hlavný smer plne schvaľujem
Budúca konkurencia AI nástrojov nebude v tom, kto má viac funkcií alebo dlhšie konverzačné okná, ale kto dokáže zabezpečiť, aby bola každá spätná väzba skutočne využitá. Dobrý AI asistent nie je o tom, aby robil viac práce, ale o tom, aby bol ako dobrý majster, ktorý sa pri každom kroku niečo naučí

Zhrnutie
・Pridanie výpočtového výkonu a nástrojov AI vysvetľuje len 30 – 40 % úspešnosti (R²: 0,33 až 0,42), zvyšných 60 % závisí od kvality spätnej väzby
・Pri rovnakom výpočtovom výkone zvýšenie efektivity spätnej väzby môže zvýšiť mieru úspešnosti z 27 % na 90 %. Rozdiel je v „správnom tréningu“, nie v „kvantite tréningu“
・Efektívna spätná väzba musí byť súčasne: informatívna, správna, neopakujúca sa a použitá. Ak chýba štvrtý bod, je to zbytočná námaha
・Funkcia AI pamäte rieši len „schopnosť zapamätať si“, nepomôže filtrovať chyby. Bez zapisovacej brány sú chybné spomienky toxickejšie než žiadne
・Pravidelné vkladanie prípadov zlyhania pri cenových ponukách a úpravách návrhov raz za mesiac je kľúčom k tomu, aby bola AI čoraz presnejšia
Ďalšie úvahy
Pre tlačiarne a dizajnérske štúdiá nie je skutočným ponaučením „či zaviesť AI“, ale „či po zavedení existuje mechanizmus revízie“. Väčšina ľudí sa zasekne hneď v prvom kroku a zavedenie nástroja považuje za cieľ. Odporúčam začať malou vecou: vyberte si jeden častý scenár, napríklad cenové ponuky na katalógy alebo dopyty na vzorky nálepiek, najprv vytvorte tabuľku 30 štandardných odpovedí, a potom si vyhraďte jednu hodinu mesačne na spätné vkladanie údajov, kde budete opravovať pravidlá na základe prípadov, v ktorých AI odpovedala zle. Keď tento uzavretý cyklus zabehne, zvážte pridanie pamäťovej funkcie alebo rozšírenie rozsahu. Pre dodávateľov komplexných služieb je to tiež spôsob, ako si dlhodobo udržať klienta: ak pomôžete klientovi navrhnúť uzavretý cyklus spätnej väzby, systém bude čoraz viac zodpovedať jeho potrebám, namiesto toho, aby ho po pol roku vyhodil ako nepresný
Ďalšie čítanie
FAQ
- Prečo je systém AI cenových ponúk po dlhšom používaní čoraz menej presný?
- Zvyčajne to nie je problém schopností modelu, ale absencia uzavretého cyklu spätnej väzby. Ak AI po každej cenovej ponuke nedostane jasný signál o správnosti a nikto pravidelne nevyužíva chybné prípady na opravu pravidiel, bude neustále opakovať, ba dokonca zväčšovať rovnaké chybné úsudky
- Čo je to Effective Feedback Compute (EFC)?
- EFC je koncept na meranie kvality spätnej väzby AI. Hovorí, že spätná väzba je efektívna len vtedy, ak súčasne spĺňa štyri podmienky: je informatívna, správna, neopakuje sa a je skutočne použitá. Štúdia dokázala, že pri nezmenenom výpočtovom výkone môže len zvýšenie kvality spätnej väzby zvýšiť mieru úspešnosti úloh z 27 % na 90 %
- Čo by mali malé a stredné tlačiarne urobiť ako prvý krok, aby AI nástroje boli čoraz presnejšie?
- Najskôr vytvorte tabuľku štandardných odpovedí, kde zhrniete správne kódy materiálov, použitý papier, následné spracovanie a rozumné cenové rozpätia pre 20 – 30 najčastejších položiek. S týmito referenčnými údajmi (ground truth) môžete zistiť a opraviť chybu, keď AI vygeneruje nesprávnu cenu – to je začiatok budovania uzavretého cyklu spätnej väzby
- Oplatí sa zaviesť funkciu „pamäti“ AI?
- Oplatí sa, ale musí byť vybavená zapisovacou bránou. Pamäťová funkcia vyrieši len schopnosť „zapamätať si“, nepomôže vám odfiltrovať chybné alebo redundantné informácie. Ak do nej uložíte šum a chybné úsudky, tieto chybné spomienky sa budú opakovane používať a uškodia viac, než keby pamäť neexistovala
- Ako dosiahnuť, aby AI pri úprave návrhov čoraz lepšie chápala klienta?
- Zaznamenajte a utrieďte konkrétne dôvody, prečo klient každú verziu odmietol, a pri ďalšom návrhu sa im priamo vyhnite – až vtedy sa zvýši miera úspešnosti. Odložiť odmietnuté súbory bez analýzy príčin znamená behať na mieste aj po mnohých úpravách; v tom je rozdiel medzi uzavretým a neuzavretým cyklom spätnej väzby
