Miks AI-tööriistade tõhusus pärast kuut kuud stagnatsiooni jääb?
Viimase paari kuu jooksul klientidega kohtudes olen kuulnud mitme trükikoja omanikelt sama muret: eelmisel aastal kasutusele võetud AI hinnapakkumiste abiline ja automaatne LINE-klienditeenindaja tekitasid alguses vaimustust, kuid nüüd tundub, et areng on peatunud ja mõnikord muutuvad vead üha jaburamaks
Seda nähtust selgitab väga põhjalikult hiljutine uurimus pealkirjaga 《Scaling Laws for Agent Harnesses via Effective Feedback Compute》, mille autorid on Xuanliang Zhang jt. Lugesin originaali kaudu Wisely Cheni tehtud kokkuvõtet
See uurimus kvantifitseerib otse ühe vastunäidustatud tõsiasja: arvamus, et "rohkem arvutusvõimsust, rohkem tööriistu, rohkem katseid" muudab AI tugevamaks, ei pea paika
Uurimuses kasutatakse toor-tokeneid (raw tokens) ja tööriistakutseid (tool calls), et selgitada ülesannete edukust, kus korrelatsioonikordaja R² on vaid:
・0,33 kuni
・0,42
Trükikoja kontekstis tähendab see järgmist: kui avad AI klienditeeninduse vestluste ajaloo detailseimal kujul, suurendad hinnapakkumiste ümberarvutuste arvu ühelt kolmele või lisad juurde paar andmebaasi, siis need "ma tegin palju" tüüpi tegevused selgitavad vaid umbes 30–40% tulemusest. Ülejäänud 60% ei sõltu sellest, kui palju ressursse sa kulutad
Võrdlen seda õpipoisi juhendamisega. Meister laseb õpipoisil päevas kakssada trükipoognat trükkida, kuid ei märgi kunagi vigu ega selgita, kus värvide register on paigast ära. Isegi kümne tuhande poogna järel ei ole õpipoisi tase tõusnud. Ta ei ole muutunud osavamaks, ta on lihtsalt väsinum

Mis on EFC ja mis seos sellel on "meistri juhendamisega"?
Uurimuse põhielement kannab nime Effective Feedback Compute ehk lühendatult EFC. See tähendab, et kõik suhtlused ei ole võrdsed – vaid "tõhus tagasiside" paneb AI tegelikult arenema
Selles defineeritakse tõhusat tagasisidet nelja kriteeriumi kaudu, mida ma trükinduse kontekstis järgmiselt tõlgendan:
・Informatiivne (Informative): Tagasiside peab andma uut informatsiooni. Kui klient kurdab, et pakkumine on kallis, kuid ei ütle, kas asi on paberis või järeltöötluses, on selline tagasiside kasutu
・Kehtiv (Valid): Tagasiside peab olema usaldusväärne, mitte müra või oletused. Kui müügimees märgib möödaminnes "klient ei hooli hinnast", aga tegelikult on see vastupidi, siis on sellise vigase tagasiside sisestamine hullem kui selle puudumine
・Mitte-duplikaatne (Non-redundant): Ära korda juba teadaolevat. Kui süsteem on juba sada korda salvestanud "klient soovib 100g kriitpaberit", pole see info enam uudne
・Rakendatud (Retained): See on kõige kriitilisem. Kas tagasiside jõudis ka järgmise otsustuseni? Kui müügimees andis grupis õige hinnangu, aga keegi ei ole seda hinnapakkumiste loogikasse integreerinud, on see sama hea kui ütlemata jäänud
Kõige olulisem number on siin: uurimuses tehti kontrollkatse, kus arvutusvõimsuse eelarve jäi täiesti samaks, kuid tänu tagasiside kvaliteedi tõstmisele tõusis ülesannete edukus 27%-lt 90%-le
Kulusid ei suurendatud, muudeti vaid tagasiside tõhusaks ja edukus kolmekordistus. Ümberarvutatuna tõusis selgitusvõime R²:
・0,33-lt hüppeliselt kuni
・0,94 kuni
・0,99
See teooria on tegelikult sama, mida õppimisteadus on aastakümneid kutsunud "teadlikuks harjutamiseks" (deliberate practice): tagasiside peab olema konkreetne, õige ja viima järgmise harjutuseni. Harjutamine ilma analüüsita ja analüüs ilma muudatusteta on mõttetu. AI toimib täpselt samamoodi

Kuidas kujundada tagasisideahelat trükikoja AI-hinnapakkumiste, tellimuste jälgimise ja klienditeeninduse jaoks?
Kui põhimõte on selge, tekib küsimus: kuidas see trükiprotsessis reaalselt toimima panna? Siin on mõned sammud, mida saab juba sel nädalal ette võtta
Esiteks, loo "õigete vastuste" võrdlustabel. Tuvasta viimase poole aasta 20–30 kõige sagedamini pakutud toodet – klamberköites kataloogid, liimköites raamatud, kleebised, karbid – ja koosta nendest "tõe kriteerium" (ground truth) koos õigete materjalikoodide, paberite, järeltöötluse ja mõistlike hinnavahemikega. Alles siis, kui AI pakkumine sellega ei kattu, on sul "veasignaal", mille põhjal korrigeerida; muidu sa ei tea, et AI pakkumine on mööda
Teiseks, salvesta iga AI viga ja selle algpõhjus. Ära märgi lihtsalt "pakkumine on vale", vaid pane kirja "arvutas 250g kartongi 200g järgi" või "unustas lakkimise kulu". See vastab kriteeriumile *Informative* – info peab olema piisavalt konkreetne, et selle alusel tegutseda
Kolmandaks, sööda ebaõnnestunud juhtumid perioodiliselt tagasi. Veeda iga kuu tund aega, võttes ette selle kuu AI valed pakkumised ja klienditeeninduse vead, ning paranda nende põhjal juhiseid või reegleid. Just see samm on *Retained* – siin toimub tagasiside "sulgemine". Vestluste ajalugu niisama vedelemas ei loe, alles korrastatuna ja reeglite muutmisel on sellel väärtus
Neljandaks, iga funktsiooni lisamisel kontrolli seda EFC neljanda kriteeriumi alusel. Kui soovid lisada uue tööriista või automaatvastuse, küsi endalt: kas see muudab reaalselt AI järgmist otsust? Kui mitte, siis on see lihtsalt raha raiskamine ja hoolduse koormuse suurendamine
Sama kehtib disainitöös. Kui kasutad AI-d kujundamisel, muutmisel või ettepanekute kirjutamisel, on kliendi iga parandusettepanek sinu tagasisidesignaal. Pane kirja, *miks* klient selle variandi tagasi lükkas, ja väldi seda järgmisel pakkumisel – alles siis tõuseb sinu tabavusprotsent; kui jätad tagasilükatud failid sinnapaika ja ei analüüsi põhjuseid, seisad paigal ka pärast sadat versiooni

Enne AI mälufunktsiooni kasutuselevõttu tuleb paigaldada värav
Mõned tarnijad reklaamivad "AI, mis jätab meelde sinu ettevõtte harjumused", mis kõlab suurepäraselt. Kuid uurimuses on üks hoiatus, millega ma täielikult nõustun
Mäluarhitektuur lahendab küll nelja kriteeriumi seas kõige keerulisema, ehk "retain" (säilitamise), kuid see "ainult" tagab meeldejätmise, ega aita sul kontrollida esimese kolme kriteeriumi õigsust või duplikaatide puudumist
Teisisõnu, kui söödad mällu valed, korduvad ja mürased andmed, hakatakse neid valesid mälestusi korduvalt kasutama, mis on palju mürgisem kui mälu puudumine. See tähendab, et "üha suuremad vead" muutuvad ühekordsest probleemist püsivaks
Seega, enne mistahes mälufunktsiooni kasutamist peab olema paigaldatud "kirjutamisvärav": kas see info on piisavalt informatiivne, usaldusväärne ja mitte-duplikaatne? Alles pärast kontrollimist salvesta see. Trükikoja puhul tähendab see, et ära lase müügimeeste suvalistel, kontrollimata kliendieelistustel automaatselt muutuda süsteemi "faktideks"
Peab ka ausalt ütlema, et see uurimus ei ole imerohi. See:
・0,94 kuni
・0,99 ülempiir põhineb ideaalsel infol, kus vastus on tagantjärele teada (uurimuses nimetatud Oracle-EFC), mida reaalsed süsteemid ei suuda saavutada, seega on see teoreetiline lagi, mitte number, mida homme kätte saada. Ja kriteerium "kas tagasiside reaalselt muudab otsust" on iseenesest raskesti hinnatav. Kuid isegi nende allahindlustega on põhisuund minu jaoks väga aktsepteeritav
Tulevikus ei seisne AI-tööriistade konkurents selles, kellel on rohkem funktsioone või pikemad vestlusaknad, vaid selles, kes suudab iga tagasisidet reaalselt ära kasutada. Hea AI-abiline ei ole selline, mis teeb lihtsalt rohkem tööd, vaid nagu hea meister, kes õpib iga sammu järel midagi uut

Peamised järeldused
・AI-le arvutusvõimsuse ja tööriistade lisamine selgitab vaid 30–40% tulemusest (R²:
・0,33
・0,42), ülejäänud 60% sõltub tagasiside kvaliteedist
・Arvutusvõimsuse muutumata jätmisel ja vaid tagasiside tõhusaks muutmisel võib edukus tõusta 27%-lt 90%-le – vahe on "õiges harjutamises", mitte "palju harjutamises"
・Tõhus tagasiside peab olema korraga: informatiivne, õige, mitte-duplikaatne ja rakendatud; neljanda kriteeriumi puudumisel on treening asjatu
・AI mälufunktsioon lahendab vaid "meeldejätmise", mitte vigade filtreerimise; ilma kirjutamisväravata on vigased mälestused ohtlikumad kui mälestuste puudumine
・AI hinnapakkumiste ja kujundusvigade ebaõnnestumiste igakuine tagasiside on võti, mis muudab süsteemi iga korraga täpsemaks
Edasised mõtted
Trükikodade ja disainistuudiote jaoks ei ole tõeline inspiratsioon "kas peaksime AI-d kasutama", vaid "kas meil on pärast juurutamist disainitud kontrollmehhanism". Enamik jääb esimese sammu juurde pidama, pidades tööriista ühendamist lõpp-punktiks. Soovitan alustada väikesest asjast: vali välja sagedane olukord, näiteks kataloogide hinnapakkumine või kleebiste proovitrüki päring, koosta 30-elemendiline õigete vastuste tabel ja määra igakuine tunnipikkune "tagasiside-sessioon", kus kasutad spetsiaalselt AI poolt valesti vastatud juhtumeid reeglite parandamiseks. Kui see ahel toimib, alles siis mõtle mälufunktsioonile või ulatuse laiendamisele. Integreeritud teenuseid pakkuvatele ettevõtetele on see ka pikaajaline sidumisvahend kliendiga: kui kujundad kliendi jaoks tagasiside ahela, muutub süsteem kasutamise käigus üha enam tema vajadustele vastavaks, selle asemel et see poole aasta pärast ebatäpsuse tõttu kõrvale heidetaks
Lisalugemist
KKK
- Miks muutub AI hinnapakkumiste süsteem pikaajalisel kasutamisel üha ebatäpsemaks?
- Tavaliselt ei ole probleem mudeli suutlikkuses, vaid tagasisideahela puudumises. Kui pärast iga AI hinnapakkumist ei anta selget signaali õigete või valede vastuste kohta ning keegi ei kasuta vigaseid juhtumeid reeglite parandamiseks, kordab süsteem samu vigu ja võib neid isegi võimendada
- Mis on Effective Feedback Compute (EFC)?
- EFC on AI tagasiside kvaliteedi mõõtmise kontseptsioon, mis väidab, et vaid siis on tagasiside tõhus, kui see on korraga "informatiivne, õige, mitte-duplikaatne ja reaalselt rakendatud". Uurimus tõestas, et sama arvutusvõimsuse juures saab vaid tagasiside kvaliteeti parandades tõsta ülesannete edukust 27%-lt 90%-le
- Mida peaksid väikesed ja keskmise suurusega trükikojad tegema esimese sammuna, et AI-tööriistad aja jooksul täpsemaks muutuksid?
- Koostage esmalt standardvastuste võrdlustabel, kuhu on koondatud 20–30 kõige sagedamini pakutava toote õiged materjalikoodid, paberid, järeltöötlus ja mõistlikud hinnavahemikud. Selle "tõe kriteeriumi" (ground truth) abil saate tuvastada ja korrigeerida AI eksimusi, mis on tagasisideahela loomise alguspunktiks
- Kas AI "mälu" funktsiooni tasub kasutusele võtta?
- Tasub, kuid see peab olema varustatud "kirjutamisväravaga". Mälufunktsioon lahendab vaid "meeldejätmise", mitte vigade või duplikaatide filtreerimise. Kui salvestate süsteemi ka müra ja valed otsused, hakatakse neid valesid mälestusi korduvalt kasutama, mis on halvem kui mälu puudumine
- Kuidas disainerid saavad AI-d kujunduse muutmisel kasutada nii, et see mõistaks klienti üha paremini?
- Pange kirja ja grupeerige iga kliendi tagasilükkamise konkreetne põhjus ning vältige seda järgmisel pakkumisel – vaid nii tõuseb tabavusprotsent. Tagasilükatud failide lihtsalt kõrvale panemine ilma põhjuseid analüüsimata on paigalseis – see ongi vahe selles, kas tagasisideahel on suletud või mitte
