Zašto se učinak AI alata stagnira nakon pola godine korištenja?
Tijekom posjeta klijentima u posljednjih mjesec ili dva, nekoliko vlasnika malih i srednjih tiskara postavilo mi je isto pitanje: AI asistent za ponude i bot za korisničku podršku na LINE-u koje su uveli prošle godine bili su impresivni tijekom probnog razdoblja, ali zašto sada djeluje kao da nema napretka, a ponekad griješi još gore nego prije?
Ovaj fenomen temeljito je objašnjen u nedavnom radu pod nazivom 《Scaling Laws for Agent Harnesses via Effective Feedback Compute》, čiji su autori Xuanliang Zhang i suradnici, a ja sam pročitao sažetak na kineskom koji je pripremio Wisely Chen
Rad izravno kvantificira nešto što je kontraintuitivno: mislite da će AI postati jači ako mu 'date više računalne snage, više alata i pustite ga da radi više puta', ali zapravo neće
Rad koristi sirove tokene (raw tokens) i pozive alata (tool calls) za objašnjenje stope uspješnosti zadataka, gdje je korelacijski koeficijent R² iznosio samo:
・0.33 do
・0.42
Prevedeno na jezik tiskare: ako postavite povijest razgovora AI korisničke podrške na najdetaljniju razinu, povećate broj preračunavanja ponuda s jednom na tri puta i spojite još dvije baze podataka, te radnje 'puno sam toga učinio' objasnit će tek trideset do četrdeset posto rezultata, dok preostalih šezdeset posto nema nikakve veze s time koliko resursa trošite
To uspoređujem s obukom šegrta. Majstor kaže šegrtu da otisne dvjesto probnih listova dnevno, ali nakon što otisne, nikada ne ukazuje na pogreške niti govori gdje se boja nije poklopila; taj šegrt neće napredovati ni nakon deset tisuća otisaka. On nije postao bolji, samo je postao umorniji

Što je zapravo EFC? Kako se to odnosi na obuku šegrta?
Središnji koncept rada naziva se Effective Feedback Compute, skraćeno EFC. To znači: ne računaju se sve interakcije, samo 'učinkovite povratne informacije' mogu doista potaknuti napredak AI-ja
Rad definira četiri uvjeta koja učinkovite povratne informacije moraju istovremeno zadovoljiti, a ja ću ih primijeniti na tiskarske scenarije:
・Informative (informativnost): Povratna informacija donosi nove informacije. Ako se klijent žali da je ponuda skupa, ali ne navodi je li cijena visoka zbog papira ili dorade, takva povratna informacija je beskorisna
・Valid (valjanost): Povratna informacija mora biti pouzdana, a ne šum ili nagađanje. Ako prodajni predstavnik usputno zabilježi 'ovog klijenta ne zanima cijena', a zapravo je pogrešno zapamtio, unos takvih pogrešnih povratnih informacija je gori nego da ih uopće nema
・Non-redundant (bez ponavljanja): Ne ponavljajte ono što se već zna. Sustav je već stotinu puta zabilježio 'klijent želi papir od 100 grama', to ne donosi nove informacije
・Retained (zadržavanje): Ovo je najvažnije. Je li povratna informacija doista korištena u sljedećoj odluci? Ako je prodajni predstavnik u grupi iznio ispravnu procjenu, ali ona nije uvrštena u logiku izrade ponuda, kao da nije ni izrečena
Ključni podaci su ovdje: rad je proveo kontrolirani eksperiment gdje su, uz potpuno nepromijenjen proračun računalne snage, poboljšali samo kvalitetu povratnih informacija, čime se stopa uspješnosti zadataka povećala s 27% na 90%
Trošak se nije povećao ni za cent, samo su povratne informacije postale učinkovite, a stopa uspješnosti se utrostručila. Nakon ponovnog preračunavanja, eksplanatorna moć R² porasla je s:
・0.33 na
・0.94 do
・0.99
Ovaj pristup zapravo predstavlja 'svjesno vježbanje' (deliberate practice) o kojem znanost o učenju govori desetljećima: povratne informacije moraju biti specifične, točne i integrirane u sljedeći pokušaj vježbanja. Vježbanje bez analize i analiza bez promjene jednaki su ne vježbanju. AI funkcionira isto kao i ljudi

Kako dizajnirati zatvorenu petlju povratnih informacija za AI ponude, praćenje narudžbi i korisničku podršku u tiskarama?
Nakon razumijevanja principa, pitanje je kako doista povezati tu petlju u procesu tiskarske proizvodnje. Predlažem nekoliko koraka koje možete poduzeti već ovaj tjedan
Prvo, izradite tablicu 'standardnih odgovora'. Identificirajte dvadesetak najčešćih artikala iz posljednjih pola godine – kataloge sa klamanjem, knjige s mekim uvezom, naljepnice, kutije – i pripremite 'ground truth' (temeljnu istinu) s točnim šiframa materijala, vrstama papira, doradom i razumnim cjenovnim rasponima. Ako se cijena koju AI ponudi ne podudara s ovim popisom, imate 'signal pogreške' za ispravak, inače ni ne znate da nudi pogrešnu cijenu
Drugo, svaki put kada AI pogriješi, zabilježite to i idite do korijenskog uzroka. Ne bilježite samo 'pogrešna ponuda', već 'zamijenio je karton od 250 g s onim od 200 g' ili 'zaboravio je uračunati trošak lakiranja'. To odgovara uvjetu Informative; mora biti dovoljno specifično da se može djelovati
Treće, redovito 'ubrizgavajte' primjere neuspjeha natrag u sustav. Svakog mjeseca izdvojite sat vremena kako biste uzeli slučajeve u kojima je AI ovog mjeseca dao pogrešne ponude ili odgovore te popravili njegove promptove ili pravila. Ovo je ključni korak za Retained; povratna informacija je 'zatvorena' tek kad se to dogodi. Sama povijest razgovora ne vrijedi ništa, tek kada se organizira i iskoristi za poboljšanje pravila, ima pravu vrijednost
Četvrto, svaki put kad dodajete novu funkcionalnost, prvo provjerite četvrti uvjet EFC-a. Prije nego što spojite novi alat ili otvorite novu automatsku opciju odgovora, zapitajte se: hoće li to doista promijeniti sljedeću odluku AI-ja? Ako neće, dodavanje je samo bacanje novca i nepotrebno povećanje tereta održavanja
Isto vrijedi i za dizajn. Ako koristite AI za pomoć pri izradi vizuala, izmjenama ili pisanju prijedloga, svaki komentar klijenta je vaš signal povratne informacije. Konkretno zabilježite 'zašto je klijent odbio ovu verziju' i izbjegnite to u sljedećem prijedlogu; tada će vam se stopa uspjeha povećati. Ako samo ostavite odbijene datoteke bez analize razloga, možete izraditi stotinu verzija i dalje ćete tapkati u mjestu

Ako želite uvesti funkciju AI memorije, prvo morate postaviti kontrolni prolaz (gate)
Neki proizvođači promoviraju memorijske funkcije tipa 'AI će zapamtiti navike vaše tvrtke', što zvuči sjajno. Međutim, rad ovdje nudi upozorenje s kojim se u potpunosti slažem
Memorijska arhitektura rješava četvrti uvjet koji je najteži, a to je 'zadržavanje' (retain), ali ona 'samo' rješava pamćenje, ne pomaže vam filtrirati jesu li prva tri uvjeta točna ili se ponavljaju
Drugim riječima, ako u sustav nekritički spremite pogrešne, ponavljajuće i bučne povratne informacije, ta će se lažna sjećanja stalno iznova pozivati, što je toksičnije nego da ih nema. To znači da se 'pogrešna procjena' iz jednokratne pretvara u trajnu
Stoga, pri uvođenju bilo kakve memorijske funkcije, obavezno instalirajte 'ulazni prolaz' (write gate): je li ova informacija dovoljno korisna, vjerodostojna i nije li suvišna? Tek nakon toga je spremite. Za tiskare to znači: ne dopustite da se slučajne bilješke prodajnog predstavnika o preferencijama klijenta, koje nisu provjerene, automatski pretvore u 'činjenicu' sustava
Također moram iskreno reći da ovaj rad nije čarobni štapić. Ona granica od:
・0.94 do
・0.99
temelji se na idealnim informacijama (što rad naziva Oracle-EFC) u kojima se odgovor zna tek nakon događaja. Realni sustavi to ne mogu postići, stoga je to teorijska gornja granica, a ne brojka koju ćete dobiti sutra. Štoviše, samo pitanje 'je li povratna informacija doista promijenila odluku' teško je procijeniti. Ipak, unatoč svim tim napomenama, u potpunosti prihvaćam temeljni smjer
Konkurencija AI alata u budućnosti neće biti u tome tko ima više funkcija ili duže okvire za dijalog, već tko može osigurati da se svaka povratna informacija doista iskoristi. Dobar AI asistent nije onaj koji radi više, već onaj koji poput dobrog majstora uči iz svakog svog koraka

Ključni sažetak
・Davanje više računalne snage i alata AI-ju objašnjava samo trideset do četrdeset posto rezultata (R²:
・0.33
・0
・42), preostalih šezdeset posto ovisi o kvaliteti povratnih informacija
・Uz nepromijenjenu računalnu snagu, samo poboljšanje kvalitete povratnih informacija može podići stopu uspješnosti s 27% na 90%; razlika je u 'ispravnom vježbanju', a ne u 'više vježbanja'
・Učinkovite povratne informacije moraju biti: informativne, točne, bez ponavljanja i doista iskorištene; bez ispunjenja četvrtog uvjeta, sve je uzalud
・Funkcija AI memorije rješava samo 'pamćenje', ali ne pomaže u filtriranju pogrešaka; ako nemate ulazni kontrolni prolaz, pogrešna sjećanja su otrovnija od nedostatka memorije
・Mjesečno ubrizgavanje primjera neuspjelih ponuda ili izmjena natrag u AI ključ je da on s vremenom radi sve točnije
Dodatna razmišljanja
Za tiskare i dizajnerske studije, pravi zaključak nije 'trebamo li uvesti AI', već 'postoji li mehanizam za analizu nakon uvođenja'. Većina ljudi zapne na prvom koraku i stane, smatrajući integraciju alata krajnjim ciljem. Predlažem početak s malom stvari: odaberite jedan scenarij visoke frekvencije, poput ponude za kataloge ili upita za uzorak naljepnica, prvo izradite tablicu s trideset standardnih odgovora, a zatim odredite sat vremena mjesečno za 'ubrizgavanje', gdje ćete koristiti primjere u kojima je AI pogriješio za ispravak pravila. Kad ta zatvorena petlja postane glatka, razmislite o uvođenju memorijske funkcije ili proširenju opsega. Za tvrtke koje nude integrirane usluge, ovo je i način za dugoročno vezivanje klijenata: ako klijentu dizajnirate zatvorenu petlju povratnih informacija, sustav će s vremenom sve bolje odgovarati njegovim potrebama, umjesto da ga nakon pola godine odbaci kao nepreciznog
Dodatno čitanje
FAQ
- Što je razlog tomu da AI sustav za ponude s vremenom postaje sve manje precizan?
- Obično nije problem u sposobnosti modela, već u nedostatku zatvorene petlje povratnih informacija. Ako AI nakon svake ponude nema jasne signale o tome je li pogodio ili promašio, i ako nitko redovito ne koristi pogrešne primjere za ispravak pravila, on će ponavljati istu pogrešnu prosudbu, pa čak i povećati njezinu učestalost
- Što je Effective Feedback Compute (EFC)?
- EFC je koncept za mjerenje kvalitete povratnih informacija za AI, koji definira da su povratne informacije učinkovite samo ako istovremeno zadovoljavaju četiri uvjeta: da su informativne, točne, bez ponavljanja i doista iskorištene. Rad dokazuje da se pri istoj računalnoj snazi, samo poboljšanjem kvalitete povratnih informacija, stopa uspješnosti može povećati s 27% na 90%
- Što bi mala ili srednja tiskara trebala učiniti prvo kako bi AI alat postajao sve precizniji?
- Prvo izradite tablicu standardnih odgovora u kojoj ćete prikupiti točne šifre, vrste papira, doradu i razumne cjenovne raspone za dvadesetak najčešćih artikala. Uz taj 'ground truth', moći ćete otkriti i ispraviti pogreške kada AI ponudi krivu cijenu, što je početna točka za uspostavljanje petlje povratnih informacija
- Isplati li se uvesti funkciju AI 'memorije'?
- Isplati se, ali mora biti opremljena 'ulaznim kontrolnim prolazom'. Memorijska funkcija rješava samo pitanje 'pamćenja', ali vam ne pomaže filtrirati pogrešne ili suvišne informacije. Ako u sustav spremite šum i pogrešne procjene, ta će se lažna sjećanja stalno iznova koristiti, što je puno gore nego da memorije uopće nema
- Kako dizajner koji koristi AI za pomoć pri izmjenama može učiniti da AI bolje razumije klijenta?
- Zabilježite i sistematizirajte konkretne razloge svakog klijentovog odbijanja verzije i izbjegnite ih u sljedećem prijedlogu; tek tada će se vaša stopa uspjeha povećati. Ako samo ostavite odbijene datoteke bez analize razloga, čak i uz stotinu izmjena tapkat ćete u mjestu; to je razlika između zatvorene i otvorene petlje povratnih informacija
