Kodėl įsidiegus AI įrankius jų rezultatai po pusmečio sustoja?
Per pastaruosius mėnesius lankydamas klientus girdėjau tą patį iš daugelio vidutinių spaustuvių vadovų: praėjusiais metais įdiegti AI kainų skaičiavimo pagalbininkai ar automatiniai klientų aptarnavimo robotai (LINE) pradžioje stebino, tačiau dabar atrodo, kad pažangos nebėra, o kartais klaidų daroma net daugiau
Šį reiškinį neseniai labai detaliai išnagrinėjo straipsnio „Scaling Laws for Agent Harnesses via Effective Feedback Compute“ autoriai Xuanliang Zhang ir kiti. Pats straipsnį skaičiau Wisely Chen pateiktoje kinų kalbos santraukoje
Straipsnyje kiekybiškai įvertinamas prieštaringas dalykas: klaidingai manoma, kad „daugiau skaičiavimo galios, daugiau įrankių, daugiau bandymų“ padarys AI geresnį, tačiau taip nėra
Straipsnyje užduoties sėkmės rodikliams paaiškinti naudojami „raw tokens“ ir „tool calls“, o koreliacijos koeficientas R² yra tik:
・0.33 iki
・0.42
Paprastai tariant, spaustuvės kontekste: jei detaliai įrašysite visus AI klientų aptarnavimo pokalbius, kainas perskaičiuosite ne vieną, o tris kartus ir prijungsite dar dvi duomenų bazes, šie „aš daug padariau“ veiksmai paaiškins tik apie 30–40 % rezultatų. Likę 60 % visiškai nepriklauso nuo to, kiek resursų sudeginote
Tai prilyginu pameistrio mokymui. Meistras liepia pameistriui per dieną atspausdinti 200 bandomųjų lapų, bet niekada nepatikrina klaidų, nepasako, kur išsikraipė spalvos – toks pameistrys ir po 10 000 atspausdintų lapų liks tame pačiame lygyje. Jis netapo geresnis, jis tiesiog labiau pavargo

Kas yra EFC? Kaip tai susiję su „meistro mokymu“?
Pagrindinė straipsnio koncepcija yra „Effective Feedback Compute“ (sutrumpintai EFC). Tai reiškia: ne visi pokyčiai skaičiuojami, tik „efektyvus grįžtamasis ryšys“ leidžia AI iš tikrųjų tobulėti
Straipsnyje apibrėžiami keturi kriterijai efektyviam grįžtamajam ryšiui, kuriuos pritaikiau spaustuvės scenarijui:
・Informative (turiningumas): grįžtamasis ryšys turi suteikti naujos informacijos. Jei klientas skundžiasi, kad kaina per didelė, bet nenurodo, ar problema popieriuje, ar poapdorojime – toks grįžtamasis ryšys yra bevertis
・Valid (tinkamumas): grįžtamasis ryšys turi būti patikimas, o ne triukšmas ar spėlionės. Jei pardavimų vadybininkas atmestinai užrašo „klientui kaina nesvarbi“, nors yra atvirkščiai, toks klaidingas grįžtamasis ryšys tik pablogins situaciją
・Non-redundant (neduplikuojamumas): nekartokite to, kas jau žinoma. Jei sistema šimtą kartų įrašė „klientas nori 100 svarų kreidinio popieriaus“, tai nesuteikia jokios naujos informacijos
・Retained (pritaikomumas): tai svarbiausia dalis. Ar grįžtamasis ryšys iš tikrųjų buvo pritaikytas kitam sprendimui? Jei vadybininkas grupėje nurodė teisingą įžvalgą, bet niekas jos neįtraukė į kainodaros logiką, tai tas pats, kas apskritai nieko nesakyti
Svarbiausias skaičius: straipsnyje atliktas kontrolinis eksperimentas, kurio metu, nekeičiant skaičiavimo resursų biudžeto, tik padidinus grįžtamojo ryšio kokybę, užduoties sėkmės rodiklis pakilo nuo 27 % iki 90 %
Išlaidos nepadidėjo nė centu, tiesiog grįžtamasis ryšys tapo efektyvus, o sėkmės rodiklis šoktelėjo daugiau nei tris kartus. Paskaičiavus iš naujo, paaiškinamoji galia R² pasikeitė nuo:
・0.33 iki
・0.94 iki
・0.99
Ši teorija yra tai, ką mokymosi mokslas dešimtmečius vadina „sąmoninga praktika“ (deliberate practice): grįžtamasis ryšys turi būti konkretus, tikslus ir pritaikytas kitam kartui. Praktikuotis neanalizuojant klaidų arba analizuoti, bet jų netaisyti – tas pats, kas nesimokyti iš viso. AI, kaip ir žmonės, veikia pagal šį principą

Kaip sukurti grįžtamojo ryšio ciklą spaustuvės AI kainų skaičiavimui, užsakymų sekimui ir klientų aptarnavimui?
Supratus principą, klausimas tampa: kaip spaustuvės procese šį ciklą iš tikrųjų uždaryti? Pateikiu keletą veiksmų, kuriuos galite pradėti šią savaitę
Pirmiausia, sukurkite „standartinių atsakymų“ lentelę. Išskirkite 20–30 per pastarąjį pusmetį dažniausiai siūlytų gaminių (katalogai su sąvaržėlėmis, knygos minkštais viršeliais, lipdukai, dėžutės) ir sudarykite „pagrindinę tiesą“ (ground truth) su teisingais kodais, popieriumi, poapdorojimu ir protingais kainų rėžiais. Tik turėdami tai, galėsite palyginti AI pasiūlytas kainas ir turėti signalą apie klaidas, kitaip nesužinosite, kada jis klysta
Antra, fiksuokite kiekvieną AI klaidą ir nurodykite priežastį. Ne tiesiog „klaida“, o „jis 250 g/m² kartoną paskaičiavo kaip 200 g/m²“, „pamiršo įskaičiuoti laminavimo kainą“. Tai atitinka „Informative“ kriterijų – turi būti konkrečiai ir su galimybe imtis veiksmų
Trečia, reguliariai „įlieskite“ atgal nesėkmingus atvejus. Kas mėnesį skirkite valandą – paimkite visus atvejus, kai AI šį mėnesį klydo skaičiuodamas ar atsakydamas, ir pataisykite jo instrukcijas (prompts) ar taisykles. Šis žingsnis yra „Retained“ – čia ir sprendžiasi, ar ciklas „užsidaro“. Vien pokalbių istorija nesiskaito, kol ji nesutvarkyta ir nevirto patobulintomis taisyklėmis
Ketvirta, prieš pridėdami funkciją, patikrinkite pagal ketvirtąjį EFC kriterijų. Prieš prijungdami įrankį ar įjungdami automatinį atsakymą, paklauskite savęs: ar tai iš tikrųjų pakeis AI sprendimą kitą kartą? Jei ne – tai tik pinigų deginimas ir nereikalinga priežiūros našta
Tas pats galioja ir dizaino pusei. Jei naudojate AI vaizdams, pataisymams ar pasiūlymams rengti, kiekviena kliento pastaba yra jūsų grįžtamojo ryšio signalas. Užsirašykite, „kodėl klientas atmetė šią versiją“, ir kitą kartą pasiūlykite tai, kas tinka – tik tada sėkmės rodiklis kils. Tiesiog palikti atmestus failus jų neišanalizavus – tai tas pats, kas daryti šimtą pataisymų ir likti vietoje

Prieš diegiant AI atminties funkciją, būtina įrengti „vartus“
Kai kurie tiekėjai siūlo funkcijas, kad „AI įsimins jūsų įmonės įpročius“ – skamba puikiai. Tačiau straipsnyje yra įspėjimas, kuriam aš visiškai pritariu
Atminties architektūra išsprendžia sunkiausią iš keturių kriterijų – „Retained“, bet ji *tik* užtikrina įsiminimą. Ji nepadės filtruoti, ar informacija teisinga (pirmieji trys kriterijai) ir ar ji nesidubliuoja
Kitaip tariant, jei įkelsite klaidingus, pasikartojančius ar „triukšmingus“ grįžtamuosius ryšius, šios klaidingos atmintys bus nuolat naudojamos, ir tai bus net žalingiau nei išvis jokios atminties. Tai reiškia, kad „vis didesnės klaidos“ iš pavienių atvejų taps nuolatinėmis
Todėl diegiant bet kokią atminties funkciją būtini „įrašymo vartai“: ar ši informacija yra vertinga, patikima ir neduplikuota? Tik tada ją įrašykite. Spaustuvei tai reiškia: neleiskite vadybininkų atmestinai užrašytiems, nepatikrintiems klientų norams automatiškai tapti sistemos „faktais“
Taip pat reikia būti atviram: šis straipsnis nėra panacėja. Tarp:
・0.94 iki
・0.99 – tai teorinės lubos, pagrįstos idealia informacija (straipsnyje vadinama Oracle-EFC), kurios realios sistemos nepasiekia. Tai nėra skaičiai, kuriuos pasieksite rytoj. Be to, „ar grįžtamasis ryšys tikrai pakeitė sprendimą“ yra sunku pamatuoti. Tačiau net ir su šiais niuansais – esminę kryptį visiškai palaikau
Ateities AI įrankių konkurencija vyks ne dėl to, kas turi daugiau funkcijų ar ilgesnius pokalbių langus, o dėl to, kas sugeba kiekvieną grįžtamąjį ryšį iš tikrųjų panaudoti. Geras AI asistentas yra ne tas, kuris dirba daugiau, o tas, kuris, kaip geras meistras, mokosi iš kiekvieno atlikto žingsnio

Svarbiausi akcentai
・Suteikus AI daugiau galios ir įrankių, paaiškinama tik apie 30–40 % rezultatų (R²:
・0.33
・0
・42), likę 60 % priklauso nuo grįžtamojo ryšio kokybės
・Nekeičiant skaičiavimo galios, o tik užtikrinus efektyvų grįžtamąjį ryšį, sėkmės rodiklį galima pakelti nuo 27 % iki 90 %; skirtumas – „tinkama praktika“, o ne „daugiau praktikos“
・Efektyvus grįžtamasis ryšys turi atitikti keturis kriterijus: informatyvus, teisingas, neduplikuotas ir pritaikytas; be ketvirtojo kriterijaus – tai veltui švaistomas laikas
・AI atminties funkcija tik užtikrina, kad „prisimintų“, bet nepadės filtruoti klaidų; be „įrašymo vartų“, klaidingos atmintys yra pavojingesnės nei jokios atminties
・Kas mėnesį įtraukti AI kainų skaičiavimo ar pataisymų klaidas atgal į sistemą – pagrindinis veiksmas, kad jis veiktų vis tiksliau
Papildomos mintys
Spaustuvėms ir dizaino studijoms tikrasis atradimas yra ne „ar reikėtų diegti AI“, o „ar įdiegus sukuriamas analizės mechanizmas“. Daugelis sustoja ties pirmu žingsniu, laikydami įrankio įdiegimą pabaiga. Patariu pradėti nuo mažo dalyko: išsirinkite dažnai pasikartojantį scenarijų (pvz., katalogų kainų skaičiavimą ar lipdukų pavyzdžių užklausas), sukurkite 30 punktų „standartinių atsakymų“ lentelę ir suplanuokite valandą per mėnesį klaidoms ištaisyti – tiesiogiai naudodami AI klaidas taisyklėms tobulinti. Kai šis ciklas veiks sklandžiai, tada galvokite apie atminties funkcijas ar srities plėtrą. Integruotų paslaugų teikėjams tai yra puikus būdas užmegzti ilgalaikį ryšį su klientu: suprojektuokite grįžtamojo ryšio ciklą, ir sistema vis labiau atitiks kliento poreikius, užuot po pusmečio buvusi išmesta kaip „netiksli“
Papildomas skaitymas
FAQ
- Kodėl AI kainų skaičiavimo sistema po kurio laiko tampa vis mažiau tiksli?
- Paprastai tai nėra modelio pajėgumų problema, o grįžtamojo ryšio ciklo trūkumas. Jei AI po kiekvieno kainos pateikimo negauna aiškaus signalo, ar jis buvo teisingas, ir niekas reguliariai nenaudoja klaidų taisyklių koregavimui, jis tiesiog kartos tą pačią neteisingą logiką, o kartais ją net padidins
- Kas yra „Effective Feedback Compute“ (EFC)?
- EFC – tai koncepcija AI grįžtamojo ryšio kokybei matuoti. Grįžtamasis ryšys laikomas efektyviu tik tada, jei jis atitinka keturis kriterijus: informatyvus, teisingas, neduplikuotas ir tikrai pritaikytas. Straipsnyje įrodyta, kad nekeičiant skaičiavimo resursų, o tik didinant grįžtamojo ryšio kokybę, užduočių sėkmės rodiklį galima pakelti nuo 27 % iki 90 %
- Ką turėtų padaryti vidutinė spaustuvė, norėdama, kad AI įrankiai veiktų vis tiksliau?
- Pirmiausia sukurkite standartinių atsakymų lentelę, kurioje surašyti 20–30 dažniausiai siūlomų gaminių teisingi kodai, popierius, poapdorojimas ir pagrįstos kainos. Turėdami šią „pagrindinę tiesą“ (ground truth), galėsite pastebėti ir ištaisyti AI klaidas – tai yra grįžtamojo ryšio ciklo pradžia
- Ar verta diegti AI „atminties“ funkciją?
- Verta, bet tik su įrengtais įrašymo „vartais“. Atminties funkcija tik padeda „prisiminti“, bet nepadeda filtruoti klaidingos ar dubliuotos informacijos. Jei įrašysite ir triukšmą, ir klaidingus sprendimus, jie bus nuolat naudojami, o tai gali būti net blogiau nei išvis neturėti atminties
- Kaip dizaineriui, naudojančiam AI pataisymams, padaryti, kad AI vis geriau suprastų klientą?
- Užsirašykite ir susisteminkite konkrečias kliento atmetimo priežastis ir kitą kartą jų venkite – tik tada sėkmės rodiklis kils. Tiesiog palikti atmestus failus jų neanalizuojant – tai tas pats, kas daryti begalę pataisymų ir likti vietoje. Čia ir yra skirtumas, ar grįžtamojo ryšio ciklas „užsidaro“, ar ne
