Чаму праз паўгода працы AI-інструментаў іх эфектыўнасць спыняецца?
За апошнія месяц-два я наведаў некалькі кліентаў — уладальнікаў малых і сярэдніх друкарняў, і ўсе яны задавалі адно і тое ж пытанне: летась мы ўкаранілі AI-памочніка па ацэнцы кошту і чат-бота для LINE, напачатку вынікі былі ўражлівыя, але чаму цяпер здаецца, што прагрэсу няма, а часам ён памыляецца яшчэ горш?
Гэтая з'ява добра апісана ў нядаўнім артыкуле «Scaling Laws for Agent Harnesses via Effective Feedback Compute», аўтары якога — Сюаньлян Чжан (Xuanliang Zhang) і іншыя. Я чытаў пераклад на кітайскую мову ад Уайслі Чэна (Wisely Chen)
Артыкул ясна паказвае контрінтуітыўную рэч: вы думаеце, што «больш вылічальнай магутнасці, больш інструментаў, больш спроб» зробяць AI мацнейшым, але гэта не так
Артыкул выкарыстоўвае raw tokens і выклікі інструментаў (tool calls) для тлумачэння поспеху задач, але каэфіцыент карэляцыі R² складае толькі:
・0.33 да
・0.42
Калі перакласці гэта на мову друкарні: калі вы зробіце гісторыю дыялогаў AI-падтрымкі максімальна падрабязнай, павялічыце колькасць пералікаў кошту з аднаго да трох, падключыце яшчэ пару баз даных — усе гэтыя дзеянні «я зрабіў шмат» тлумачаць толькі 30-40% выніку, астатнія 60% не залежаць ад таго, колькі рэсурсаў вы выдаткуеце
Я параўноўваю гэта з навучаннем вучня. Майстар дае вучню надрукаваць 200 практычных копій за дзень, але ніколі не паказвае памылкі і не кажа, дзе з'ехаў колер. Нават калі ён надрукуе 10 000 копій, яго ўзровень не вырасце. Ён не стаў лепшым, ён проста больш стаміўся

Што такое EFC? Якая сувязь з «навучаннем у майстра»?
Асноўная канцэпцыя артыкула называецца Effective Feedback Compute, скарочана EFC. Гэта азначае: не ўсякае ўзаемадзеянне лічыцца, толькі «эфектыўная зваротная сувязь» можа прымусіць AI сапраўды вучыцца
Артыкул вызначае, што эфектыўная зваротная сувязь павінна адначасова адпавядаць чатыром умовам. Я прымяню іх да друкарскай сферы:
・Informative (інфарматыўнасць): Зваротная сувязь прыносіць новую інфармацыю. Кліент скардзіцца, што ацэнка дарагая, але не кажа, ці гэта праз паперу ці праз паслядрукарскую апрацоўку — такая зваротная сувязь бескарысная
・Valid (дакладнасць): Зваротная сувязь заслугоўвае даверу, гэта не шум і не здагадкі. Менеджэр выпадкова запісаў «гэтаму кліенту не важны кошт», а аказалася, што ўсё наадварот — такая памылковая сувязь горшая за яе адсутнасць
・Non-redundant (без паўтораў): Не трэба паўтараць тое, што ўжо вядома. Сістэма ўжо запісала сто разоў «кліенту патрэбна папера 100 фунтаў» — новай інфармацыі тут няма
・Retained (выкарыстанне): Гэта самы важны пункт. Ці сапраўды гэтая інфармацыя ўплывае на наступнае рашэнне? Менеджэр сказаў правільную рэч у чаце, але ніхто не ўнёс яе ў логіку разліку кошту — гэта значыць, што яна не была выкарыстаная
Самая важная лічба тут: артыкул правёў кантрольны эксперымент, дзе пры нязменным вылічальным бюджэце павышалася толькі якасць зваротнай сувязі, і поспех задачы вырас з 27% да 90%
Выдаткі не павялічыліся ні на капейку, проста зваротная сувязь стала эфектыўнай, і працэнт поспеху вырас у тры разы. Пасля пераразліку каэфіцыент R² змяніўся з:
・0.33 адразу да
・0.94 да
・0.99
Гэтая ідэя — тое, пра што навука навучання кажа дзесяцігоддзямі: «свядомая практыка» (deliberate practice). Зваротная сувязь павінна быць канкрэтнай, правільнай і ўлічвацца пры наступнай практыцы. Практыка без аналізу, аналіз без выпраўлення — гэта марная праца. AI працуе гэтак жа, як і людзі

Як спраектаваць замкнёны цыкл зваротнай сувязі для AI ў друкарні (ацэнка, замовы, падтрымка)?
Ведаючы прынцып, пытанне ў тым: як рэалізаваць гэты замкнёны цыкл у працэсе друку. Вось некалькі крокаў, якія можна зрабіць ужо на гэтым тыдні
Па-першае, стварыце табліцу «стандартных адказаў». Вызначце 20-30 відаў прадукцыі, якія вы найчасцей разлічваеце (каталогі на скрепках, кнігі ў мяккай вокладцы, налепкі, кардонныя скрынкі), і збярыце ў адзін спіс правільныя коды матэрыялаў, тыпы паперы, паслядрукарскую апрацоўку і разумныя дыяпазоны коштаў — гэта будзе ваш ground truth. Калі AI дае ацэнку, якая не адпавядае гэтаму спісу, у вас ёсць «сігнал памылкі» для выпраўлення
Па-другое, запісвайце кожную памылку AI з прычынай. Не проста «памыліўся ў ацэнцы», а «ён разлічыў кардон 250 г/м² як 200 г/м²» ці «забыўся дадаць кошт лакавання». Гэта адпавядае пункту Informative: канкрэтыка, на якую можна паўплываць
Па-трэцяе, перыядычна зваротна загружайце выпадкі няўдач. Выдаткуйце гадзіну ў месяц, каб узяць выпадкі, дзе AI памыліўся ў ацэнцы або ў падтрымцы кліентаў, і выправіць яго промпты ці правілы. Гэта і ёсць Retained. Зваротная сувязь «замыкаецца» толькі тут. Гісторыя дыялогаў сама па сабе нічога не значыць; толькі калі яна апрацавана і змяняе правілы, яна працуе
Па-чацвёртае, перад даданнем кожнай функцыі праверце яе па чацвёртым пункце EFC. Хочаце падключыць яшчэ адзін інструмент ці аўтаадказ? Спытайце сябе: ці сапраўды гэта зменіць меркаванне AI ў наступны раз? Калі не, гэта марнаванне грошай і лішняя нагрузка на падтрымку
Тое ж самае і для дызайну. Калі вы выкарыстоўваеце AI для дапамогі ў стварэнні выяў, рэдагаванні ці напісанні прапаноў, заўвагі кліента — гэта ваш сігнал зваротнай сувязі. Запісвайце канкрэтна, «чаму кліент адхіліў гэтую версію», і пазбягайце гэтага ў наступны раз. Толькі так павысіцца эфектыўнасць

Калі хочаце ўкараніць функцыю памяці ў AI, спачатку ўсталюйце «шлюз»
Некаторыя кампаніі прапануюць функцыі памяці тыпу «AI запомніць звычкі вашай кампаніі», што гучыць прывабна. Але ў артыкуле ёсць папярэджанне, з якім я цалкам згодны
Архітэктура памяці вырашае чацвёрты пункт — «retain», але яна «толькі» забяспечвае запамінанне, яна не дапамагае адфільтраваць памылкі з першых трох пунктаў
Інакш кажучы, калі вы будзеце захоўваць памылковую, паўторную і шумную зваротную сувязь без разбору, гэтыя памылковыя ўспаміны будуць пастаянна выкарыстоўвацца, і іх таксічнасць будзе большай, чым пры адсутнасці памяці. Памылкі стануць сталымі
Таму пры ўкараненні памяці абавязкова патрэбен «шлюз для запісу»: ці з'яўляецца гэтая інфармацыя карыснай, праўдзівай і новай? Калі так — захоўвайце. Для друкарні гэта значыць не дазваляць асабістым заўвагам менеджэраў без праверкі станавіцца «фактамі» сістэмы
Будзем шчырымі, гэты артыкул не панацэя. Каэфіцыент:
・0.94 да
・0.99
гэта тэарэтычная столь, якая выкарыстоўвае ідэальную інфармацыю (Oracle-EFC), якой рэальныя сістэмы не маюць. А праверыць, ці сапраўды зваротная сувязь змяняе рашэнне, цяжка. Але нават з гэтымі зніжкамі я падтрымліваю асноўны кірунак
Канкурэнцыя AI-інструментаў будучыні будзе не ў тым, колькі функцый яны маюць, а ў тым, ці выкарыстоўваецца кожная зваротная сувязь. Добры AI-памочнік не павінен проста шмат працаваць, ён павінен быць як добры вучань — вучыцца на кожным кроку

Кароткі змест
・Павелічэнне магутнасці AI і колькасці інструментаў тлумачыць толькі 30-40% выніку (R²:
・0.33
・0
・42), астатнія 60% залежаць ад якасці зваротнай сувязі
・Пры нязменнай магутнасці, толькі павышэнне якасці сувязі можа падняць поспех з 27% да 90%. Справа ў «правільнай практыцы», а не ў «колькасці практыкі»
・Эфектыўная сувязь павінна быць: карыснай, правільнай, без паўтораў і выкарыстоўвацца. Адсутнасць чацвёртага пункта робіць усю працу бескарыснай
・Функцыя памяці AI толькі вырашае «запамінанне», але не фільтруе памылкі; без «шлюзу для запісу» памылковая памяць горшая за яе адсутнасць
・Штомесячная зваротная загрузка выпадкаў памылак у ацэнцы і праўках — гэта ключавое дзеянне для павышэння дакладнасці
Дадатковыя думкі
Для друкарняў і дызайнерскіх студый сапраўднае адкрыццё не ў тым, ці «ўкараняць AI», а ў тым, «ці ёсць механізм аналізу пасля ўкаранення». Большасць спыняецца на першым кроку, лічачы падключэнне інструмента канцом шляху
Рэкамендую пачаць з малога: выберыце адну частую задачу, напрыклад, ацэнку каталога ці налепкі, стварыце табліцу з 30 стандартнымі адказамі, і прызначце гадзіну ў месяц для аналізу памылак AI і выпраўлення правіл. Калі гэты цыкл запрацуе, можна думаць пра функцыі памяці ці пашырэнне сферы прымянення. Для кампаній, якія прадастаўляюць інтэграцыйныя паслугі, гэта таксама спосаб доўгатэрміновай прывязкі да кліента: вы дапамагаеце спраектаваць замкнёны цыкл зваротнай сувязі, і сістэма становіцца ўсё больш зручнай для яго патрэб, замест таго, каб праз паўгода яе выкінулі як непрацуючую
Дадатковае чытанне
ЧАП
- Чаму сістэма ацэнкі кошту з AI з часам становіцца ўсё менш дакладнай?
- Звычайна праблема не ў магчымасцях мадэлі, а ў адсутнасці замкнёнага цыкла зваротнай сувязі. Калі AI пасля кожнай ацэнкі не атрымлівае сігналаў аб правільнасці і ніхто не выпраўляе правілы на аснове памылак, ён проста паўтарае і павялічвае адны і тыя ж памылковыя рашэнні
- Што такое Effective Feedback Compute (EFC)?
- EFC — гэта канцэпцыя ацэнкі якасці зваротнай сувязі для AI, якая азначае, што толькі сувязь, якая адначасова з'яўляецца «карыснай, правільнай, не паўтараецца і сапраўды выкарыстоўваецца», з'яўляецца эфектыўнай. Артыкул даказвае, што пры нязменнай вылічальнай магутнасці толькі павышэнне якасці сувязі можа падняць поспех задач з 27% да 90%
- Што трэба зрабіць малой друкарні ў першую чаргу, каб AI-інструменты станавіліся больш дакладнымі?
- Стварыце табліцу «стандартных адказаў», дзе сабраны правільныя коды, тыпы паперы, апрацоўка і разумныя цэны для 20-30 відаў прадукцыі, якія разлічваюцца найчасцей. З гэтым ground truth вы зможаце выяўляць і карэктаваць памылкі AI, што з'яўляецца пачаткам стварэння замкнёнага цыкла зваротнай сувязі
- Ці варта ўкараняць функцыю «памяці» ў AI?
- Варта, але абавязкова з «шлюзам для запісу». Функцыя памяці толькі вырашае «запамінанне», яна не дапамагае адфільтраваць памылкі ці паўторы. Калі запісваць шум і памылковыя меркаванні, гэтыя ўспаміны будуць выкарыстоўвацца пастаянна, што горш, чым адсутнасць памяці наогул
- Як дызайнеру, які выкарыстоўвае AI для рэдагавання праектаў, зрабіць так, каб AI лепш разумеў кліента?
- Запісвайце канкрэтныя прычыны, чаму кліент адхіліў кожную версію, і абагульняйце іх, каб пазбягаць гэтага ў наступны раз. Калі проста пакідаць адхіленыя файлы без аналізу прычын, праца нават над сотняй версій ні да чаго не прывядзе — у гэтым і розніца паміж наяўнасцю і адсутнасцю замкнёнага цыкла зваротнай сувязі
