Miks muutub AI hinnapakkumiste süsteem pikaajalisel kasutamisel üha ebatäpsemaks?

Tavaliselt ei ole probleem mudeli suutlikkuses, vaid tagasisideahela puudumises. Kui pärast iga AI hinnapakkumist ei anta selget signaali õigete või valede vastuste kohta ning keegi ei kasuta vigaseid juhtumeid reeglite parandamiseks, kordab süsteem samu vigu ja võib neid isegi võimendada

Mis on Effective Feedback Compute (EFC)?

EFC on AI tagasiside kvaliteedi mõõtmise kontseptsioon, mis väidab, et vaid siis on tagasiside tõhus, kui see on korraga "informatiivne, õige, mitte-duplikaatne ja reaalselt rakendatud". Uurimus tõestas, et sama arvutusvõimsuse juures saab vaid tagasiside kvaliteeti parandades tõsta ülesannete edukust 27%-lt 90%-le

Mida peaksid väikesed ja keskmise suurusega trükikojad tegema esimese sammuna, et AI-tööriistad aja jooksul täpsemaks muutuksid?

Koostage esmalt standardvastuste võrdlustabel, kuhu on koondatud 20–30 kõige sagedamini pakutava toote õiged materjalikoodid, paberid, järeltöötlus ja mõistlikud hinnavahemikud. Selle "tõe kriteeriumi" (ground truth) abil saate tuvastada ja korrigeerida AI eksimusi, mis on tagasisideahela loomise alguspunktiks

Kas AI "mälu" funktsiooni tasub kasutusele võtta?

Tasub, kuid see peab olema varustatud "kirjutamisväravaga". Mälufunktsioon lahendab vaid "meeldejätmise", mitte vigade või duplikaatide filtreerimise. Kui salvestate süsteemi ka müra ja valed otsused, hakatakse neid valesid mälestusi korduvalt kasutama, mis on halvem kui mälu puudumine

Kuidas disainerid saavad AI-d kujunduse muutmisel kasutada nii, et see mõistaks klienti üha paremini?

Pange kirja ja grupeerige iga kliendi tagasilükkamise konkreetne põhjus ning vältige seda järgmisel pakkumisel – vaid nii tõuseb tabavusprotsent. Tagasilükatud failide lihtsalt kõrvale panemine ilma põhjuseid analüüsimata on paigalseis – see ongi vahe selles, kas tagasisideahel on suletud või mitte

Miks sinu AI hinnapakkumiste abiline muutub kasutamise käigus üha ebatäpsemaks? Võti peitub tagasisides

Miks AI-tööriistade tõhusus pärast kuut kuud stagnatsiooni jääb?

Viimase paari kuu jooksul klientidega kohtudes olen kuulnud mitme trükikoja omanikelt sama muret: eelmisel aastal kasutusele võetud AI hinnapakkumiste abiline ja automaatne LINE-klienditeenindaja tekitasid alguses vaimustust, kuid nüüd tundub, et areng on peatunud ja mõnikord muutuvad vead üha jaburamaks

Seda nähtust selgitab väga põhjalikult hiljutine uurimus pealkirjaga 《Scaling Laws for Agent Harnesses via Effective Feedback Compute》, mille autorid on Xuanliang Zhang jt. Lugesin originaali kaudu Wisely Cheni tehtud kokkuvõtet

See uurimus kvantifitseerib otse ühe vastunäidustatud tõsiasja: arvamus, et "rohkem arvutusvõimsust, rohkem tööriistu, rohkem katseid" muudab AI tugevamaks, ei pea paika

Uurimuses kasutatakse toor-tokeneid (raw tokens) ja tööriistakutseid (tool calls), et selgitada ülesannete edukust, kus korrelatsioonikordaja R² on vaid:

・0,33 kuni

・0,42

Trükikoja kontekstis tähendab see järgmist: kui avad AI klienditeeninduse vestluste ajaloo detailseimal kujul, suurendad hinnapakkumiste ümberarvutuste arvu ühelt kolmele või lisad juurde paar andmebaasi, siis need "ma tegin palju" tüüpi tegevused selgitavad vaid umbes 30–40% tulemusest. Ülejäänud 60% ei sõltu sellest, kui palju ressursse sa kulutad

Võrdlen seda õpipoisi juhendamisega. Meister laseb õpipoisil päevas kakssada trükipoognat trükkida, kuid ei märgi kunagi vigu ega selgita, kus värvide register on paigast ära. Isegi kümne tuhande poogna järel ei ole õpipoisi tase tõusnud. Ta ei ole muutunud osavamaks, ta on lihtsalt väsinum

為什麼 AI 工具接上去半年，效果反而停滯？｜你的 AI 報價助手為什麼越用越歪？關鍵在反饋段落重點

Mis on EFC ja mis seos sellel on "meistri juhendamisega"?

Uurimuse põhielement kannab nime Effective Feedback Compute ehk lühendatult EFC. See tähendab, et kõik suhtlused ei ole võrdsed – vaid "tõhus tagasiside" paneb AI tegelikult arenema

Selles defineeritakse tõhusat tagasisidet nelja kriteeriumi kaudu, mida ma trükinduse kontekstis järgmiselt tõlgendan:

・Informatiivne (Informative): Tagasiside peab andma uut informatsiooni. Kui klient kurdab, et pakkumine on kallis, kuid ei ütle, kas asi on paberis või järeltöötluses, on selline tagasiside kasutu

・Kehtiv (Valid): Tagasiside peab olema usaldusväärne, mitte müra või oletused. Kui müügimees märgib möödaminnes "klient ei hooli hinnast", aga tegelikult on see vastupidi, siis on sellise vigase tagasiside sisestamine hullem kui selle puudumine

・Mitte-duplikaatne (Non-redundant): Ära korda juba teadaolevat. Kui süsteem on juba sada korda salvestanud "klient soovib 100g kriitpaberit", pole see info enam uudne

・Rakendatud (Retained): See on kõige kriitilisem. Kas tagasiside jõudis ka järgmise otsustuseni? Kui müügimees andis grupis õige hinnangu, aga keegi ei ole seda hinnapakkumiste loogikasse integreerinud, on see sama hea kui ütlemata jäänud

Kõige olulisem number on siin: uurimuses tehti kontrollkatse, kus arvutusvõimsuse eelarve jäi täiesti samaks, kuid tänu tagasiside kvaliteedi tõstmisele tõusis ülesannete edukus 27%-lt 90%-le

Kulusid ei suurendatud, muudeti vaid tagasiside tõhusaks ja edukus kolmekordistus. Ümberarvutatuna tõusis selgitusvõime R²:

・0,33-lt hüppeliselt kuni

・0,94 kuni

・0,99

See teooria on tegelikult sama, mida õppimisteadus on aastakümneid kutsunud "teadlikuks harjutamiseks" (deliberate practice): tagasiside peab olema konkreetne, õige ja viima järgmise harjutuseni. Harjutamine ilma analüüsita ja analüüs ilma muudatusteta on mõttetu. AI toimib täpselt samamoodi

EFC 到底是什麼？跟「帶師傅」有什麼關係？｜你的 AI 報價助手為什麼越用越歪？關鍵在反饋段落重點

Kuidas kujundada tagasisideahelat trükikoja AI-hinnapakkumiste, tellimuste jälgimise ja klienditeeninduse jaoks?

Kui põhimõte on selge, tekib küsimus: kuidas see trükiprotsessis reaalselt toimima panna? Siin on mõned sammud, mida saab juba sel nädalal ette võtta

Esiteks, loo "õigete vastuste" võrdlustabel. Tuvasta viimase poole aasta 20–30 kõige sagedamini pakutud toodet – klamberköites kataloogid, liimköites raamatud, kleebised, karbid – ja koosta nendest "tõe kriteerium" (ground truth) koos õigete materjalikoodide, paberite, järeltöötluse ja mõistlike hinnavahemikega. Alles siis, kui AI pakkumine sellega ei kattu, on sul "veasignaal", mille põhjal korrigeerida; muidu sa ei tea, et AI pakkumine on mööda

Teiseks, salvesta iga AI viga ja selle algpõhjus. Ära märgi lihtsalt "pakkumine on vale", vaid pane kirja "arvutas 250g kartongi 200g järgi" või "unustas lakkimise kulu". See vastab kriteeriumile *Informative* – info peab olema piisavalt konkreetne, et selle alusel tegutseda

Kolmandaks, sööda ebaõnnestunud juhtumid perioodiliselt tagasi. Veeda iga kuu tund aega, võttes ette selle kuu AI valed pakkumised ja klienditeeninduse vead, ning paranda nende põhjal juhiseid või reegleid. Just see samm on *Retained* – siin toimub tagasiside "sulgemine". Vestluste ajalugu niisama vedelemas ei loe, alles korrastatuna ja reeglite muutmisel on sellel väärtus

Neljandaks, iga funktsiooni lisamisel kontrolli seda EFC neljanda kriteeriumi alusel. Kui soovid lisada uue tööriista või automaatvastuse, küsi endalt: kas see muudab reaalselt AI järgmist otsust? Kui mitte, siis on see lihtsalt raha raiskamine ja hoolduse koormuse suurendamine

Sama kehtib disainitöös. Kui kasutad AI-d kujundamisel, muutmisel või ettepanekute kirjutamisel, on kliendi iga parandusettepanek sinu tagasisidesignaal. Pane kirja, *miks* klient selle variandi tagasi lükkas, ja väldi seda järgmisel pakkumisel – alles siis tõuseb sinu tabavusprotsent; kui jätad tagasilükatud failid sinnapaika ja ei analüüsi põhjuseid, seisad paigal ka pärast sadat versiooni

印刷廠的 AI 報價、追單、客服，反饋閉環怎麼設計？｜你的 AI 報價助手為什麼越用越歪？關鍵在反饋段落重點

Enne AI mälufunktsiooni kasutuselevõttu tuleb paigaldada värav

Mõned tarnijad reklaamivad "AI, mis jätab meelde sinu ettevõtte harjumused", mis kõlab suurepäraselt. Kuid uurimuses on üks hoiatus, millega ma täielikult nõustun

Mäluarhitektuur lahendab küll nelja kriteeriumi seas kõige keerulisema, ehk "retain" (säilitamise), kuid see "ainult" tagab meeldejätmise, ega aita sul kontrollida esimese kolme kriteeriumi õigsust või duplikaatide puudumist

Teisisõnu, kui söödad mällu valed, korduvad ja mürased andmed, hakatakse neid valesid mälestusi korduvalt kasutama, mis on palju mürgisem kui mälu puudumine. See tähendab, et "üha suuremad vead" muutuvad ühekordsest probleemist püsivaks

Seega, enne mistahes mälufunktsiooni kasutamist peab olema paigaldatud "kirjutamisvärav": kas see info on piisavalt informatiivne, usaldusväärne ja mitte-duplikaatne? Alles pärast kontrollimist salvesta see. Trükikoja puhul tähendab see, et ära lase müügimeeste suvalistel, kontrollimata kliendieelistustel automaatselt muutuda süsteemi "faktideks"

Peab ka ausalt ütlema, et see uurimus ei ole imerohi. See:

・0,94 kuni

・0,99 ülempiir põhineb ideaalsel infol, kus vastus on tagantjärele teada (uurimuses nimetatud Oracle-EFC), mida reaalsed süsteemid ei suuda saavutada, seega on see teoreetiline lagi, mitte number, mida homme kätte saada. Ja kriteerium "kas tagasiside reaalselt muudab otsust" on iseenesest raskesti hinnatav. Kuid isegi nende allahindlustega on põhisuund minu jaoks väga aktsepteeritav

Tulevikus ei seisne AI-tööriistade konkurents selles, kellel on rohkem funktsioone või pikemad vestlusaknad, vaid selles, kes suudab iga tagasisidet reaalselt ära kasutada. Hea AI-abiline ei ole selline, mis teeb lihtsalt rohkem tööd, vaid nagu hea meister, kes õpib iga sammu järel midagi uut

想導入 AI 記憶功能，要先裝一道閘門｜你的 AI 報價助手為什麼越用越歪？關鍵在反饋段落重點

Peamised järeldused

・AI-le arvutusvõimsuse ja tööriistade lisamine selgitab vaid 30–40% tulemusest (R²:

・0,33

・0,42), ülejäänud 60% sõltub tagasiside kvaliteedist

・Arvutusvõimsuse muutumata jätmisel ja vaid tagasiside tõhusaks muutmisel võib edukus tõusta 27%-lt 90%-le – vahe on "õiges harjutamises", mitte "palju harjutamises"

・Tõhus tagasiside peab olema korraga: informatiivne, õige, mitte-duplikaatne ja rakendatud; neljanda kriteeriumi puudumisel on treening asjatu

・AI mälufunktsioon lahendab vaid "meeldejätmise", mitte vigade filtreerimise; ilma kirjutamisväravata on vigased mälestused ohtlikumad kui mälestuste puudumine

・AI hinnapakkumiste ja kujundusvigade ebaõnnestumiste igakuine tagasiside on võti, mis muudab süsteemi iga korraga täpsemaks

Edasised mõtted

Trükikodade ja disainistuudiote jaoks ei ole tõeline inspiratsioon "kas peaksime AI-d kasutama", vaid "kas meil on pärast juurutamist disainitud kontrollmehhanism". Enamik jääb esimese sammu juurde pidama, pidades tööriista ühendamist lõpp-punktiks. Soovitan alustada väikesest asjast: vali välja sagedane olukord, näiteks kataloogide hinnapakkumine või kleebiste proovitrüki päring, koosta 30-elemendiline õigete vastuste tabel ja määra igakuine tunnipikkune "tagasiside-sessioon", kus kasutad spetsiaalselt AI poolt valesti vastatud juhtumeid reeglite parandamiseks. Kui see ahel toimib, alles siis mõtle mälufunktsioonile või ulatuse laiendamisele. Integreeritud teenuseid pakkuvatele ettevõtetele on see ka pikaajaline sidumisvahend kliendiga: kui kujundad kliendi jaoks tagasiside ahela, muutub süsteem kasutamise käigus üha enam tema vajadustele vastavaks, selle asemel et see poole aasta pärast ebatäpsuse tõttu kõrvale heidetaks

Lisalugemist

・Agent vajab ka "õigeaegset tagasisidet": Effective Feedback Compute ja Agendi teadlik harjutamine

KKK

Miks muutub AI hinnapakkumiste süsteem pikaajalisel kasutamisel üha ebatäpsemaks?: Tavaliselt ei ole probleem mudeli suutlikkuses, vaid tagasisideahela puudumises. Kui pärast iga AI hinnapakkumist ei anta selget signaali õigete või valede vastuste kohta ning keegi ei kasuta vigaseid juhtumeid reeglite parandamiseks, kordab süsteem samu vigu ja võib neid isegi võimendada
Mis on Effective Feedback Compute (EFC)?: EFC on AI tagasiside kvaliteedi mõõtmise kontseptsioon, mis väidab, et vaid siis on tagasiside tõhus, kui see on korraga "informatiivne, õige, mitte-duplikaatne ja reaalselt rakendatud". Uurimus tõestas, et sama arvutusvõimsuse juures saab vaid tagasiside kvaliteeti parandades tõsta ülesannete edukust 27%-lt 90%-le
Mida peaksid väikesed ja keskmise suurusega trükikojad tegema esimese sammuna, et AI-tööriistad aja jooksul täpsemaks muutuksid?: Koostage esmalt standardvastuste võrdlustabel, kuhu on koondatud 20–30 kõige sagedamini pakutava toote õiged materjalikoodid, paberid, järeltöötlus ja mõistlikud hinnavahemikud. Selle "tõe kriteeriumi" (ground truth) abil saate tuvastada ja korrigeerida AI eksimusi, mis on tagasisideahela loomise alguspunktiks
Kas AI "mälu" funktsiooni tasub kasutusele võtta?: Tasub, kuid see peab olema varustatud "kirjutamisväravaga". Mälufunktsioon lahendab vaid "meeldejätmise", mitte vigade või duplikaatide filtreerimise. Kui salvestate süsteemi ka müra ja valed otsused, hakatakse neid valesid mälestusi korduvalt kasutama, mis on halvem kui mälu puudumine
Kuidas disainerid saavad AI-d kujunduse muutmisel kasutada nii, et see mõistaks klienti üha paremini?: Pange kirja ja grupeerige iga kliendi tagasilükkamise konkreetne põhjus ning vältige seda järgmisel pakkumisel – vaid nii tõuseb tabavusprotsent. Tagasilükatud failide lihtsalt kõrvale panemine ilma põhjuseid analüüsimata on paigalseis – see ongi vahe selles, kas tagasisideahel on suletud või mitte

Tagasi teadmiste juurde