Perché le prestazioni degli strumenti AI ristagnano dopo sei mesi di utilizzo?
Negli ultimi due mesi, visitando i clienti, ho sentito diversi proprietari di piccole e medie tipografie porre la stessa domanda: l'assistente ai preventivi AI e il chatbot di assistenza clienti introdotti l'anno scorso erano sorprendenti durante il test, ma perché ora sembra che non ci siano miglioramenti, e a volte gli errori sono persino peggiori?
Questo fenomeno è spiegato in modo approfondito in un recente paper intitolato 'Scaling Laws for Agent Harnesses via Effective Feedback Compute', degli autori Xuanliang Zhang et al.; ho consultato la versione in cinese riassunta da Wisely Chen
Il paper quantifica direttamente un fatto controintuitivo: pensi che 'aumentando la potenza di calcolo, aggiungendo strumenti o eseguendo più tentativi' l'IA diventerà più forte, ma in realtà non è così
Il paper utilizza i raw token e le chiamate agli strumenti per spiegare il tasso di successo delle attività, con un coefficiente di correlazione R² di appena:
・0.33 a
・0.42
Tradotto in termini pratici per la tipografia: se rendi i record delle conversazioni del servizio clienti AI il più dettagliati possibile, aumenti i ricalcoli dei preventivi da uno a tre, e colleghi altri due database, queste azioni che sembrano 'fare molto' spiegano solo il 30-40% dei risultati; il restante 60% non ha nulla a che fare con quante risorse stai consumando
Paragono questo alla formazione di un apprendista. Un maestro fa stampare a un apprendista duecento bozze al giorno, ma se non corregge mai gli errori o non spiega dove la registrazione dei colori è errata, l'apprendista rimarrà allo stesso livello anche dopo diecimila stampe. Non è diventato più bravo, è solo più stanco

Cos'è esattamente l'EFC? Cosa c'entra con il 'fare da maestro'?
Il concetto cardine del paper è l'Effective Feedback Compute, abbreviato in EFC. Significa che non tutte le interazioni contano: solo il 'feedback efficace' può far progredire davvero l'IA
Il paper definisce che un feedback efficace deve soddisfare contemporaneamente quattro condizioni; le applico una ad una allo scenario tipografico:
・Informativo (deve avere sostanza): il feedback porta nuove informazioni. Se il cliente si lamenta che il preventivo è caro ma non specifica se la colpa è della carta o della lavorazione post-stampa, questo tipo di feedback è inutile
・Valido (deve essere corretto): il feedback deve essere credibile, non rumore o supposizioni. Se un commerciale nota frettolosamente 'a questo cliente non interessa il prezzo' ma si sbaglia, inserire questo feedback errato è peggio che non inserirne alcuno
・Non ridondante (non ripetitivo): non ripetere ciò che è già noto. Se il sistema ha già registrato cento volte che 'il cliente vuole carta patinata da 100 libbre', non c'è una nuova informazione
・Trattenuto/Preso in considerazione (deve essere utilizzato): questa è la condizione più severa. Il feedback è stato effettivamente utilizzato per la decisione successiva? Se il commerciale ha fornito una valutazione corretta nel gruppo ma nessuno l'ha integrata nella logica dei preventivi, è come non aver detto nulla
Ecco il numero più importante: nel paper è stato condotto un esperimento comparativo in cui, a parità di budget di calcolo, è stata migliorata solo la qualità del feedback, portando il tasso di successo delle attività dal 27% al 90%
Non è stato speso un centesimo in più, è bastato rendere efficace il feedback per triplicare il tasso di successo. Ricalcolando, il potere esplicativo R² è passato da:
・0.33 direttamente a
・0.94 fino a
・0.99
Questo approccio è in realtà la 'pratica deliberata' (deliberate practice) di cui la scienza dell'apprendimento parla da decenni: il feedback deve essere specifico, corretto e deve essere integrato nella pratica successiva. Esercitarsi senza revisione, o revisionare senza apportare modifiche, equivale a non allenarsi affatto. L'IA funziona esattamente come gli esseri umani

Come progettare il ciclo di feedback per preventivi, ordini e assistenza clienti AI in tipografia?
Compreso il principio, il problema diventa: come implementare concretamente questo ciclo nel flusso di lavoro tipografico? Ecco alcune azioni che potete intraprendere già da questa settimana
Primo: create una tabella di confronto con le 'risposte standard'. Identificate i venti o trenta articoli più quotati negli ultimi sei mesi (cataloghi punto metallico, libri brossurati, etichette, scatole di carta) e compilate una 'ground truth' con codici articolo, carta, lavorazioni post-stampa e fasce di prezzo ragionevoli. Solo se il preventivo dell'IA non corrisponde a questo riferimento avrete un 'segnale di errore' su cui correggere, altrimenti non saprete nemmeno quando sbaglia
Secondo: tenete traccia di ogni errore dell'IA e registratene la causa principale. Non limitatevi a segnare 'preventivo errato', ma specificate: 'ha calcolato carta cartoncino da 250 libbre come se fosse da 200' o 'ha dimenticato di calcolare il costo della verniciatura'. Questo corrisponde alla condizione 'Informativo': deve essere abbastanza specifico da poter agire
Terzo: reinserite regolarmente i casi falliti. dedicate un'ora al mese a prendere i casi in cui l'IA ha sbagliato preventivi o risposte ai clienti in quel mese e correggete i prompt o le regole. Questo passaggio è quello che soddisfa la condizione 'Trattenuto'; è qui che si vede se il feedback si è 'chiuso'. I record delle conversazioni lasciati lì non contano: solo se vengono sintetizzati e le regole vengono migliorate, allora il feedback conta
Quarto: prima di aggiungere qualsiasi funzione, verificate la quarta condizione dell'EFC. Se volete collegare un nuovo strumento o aggiungere una risposta automatica, chiedetevi: cambierà davvero il giudizio dell'IA la prossima volta? Se la risposta è no, aggiungerlo è solo uno spreco di denaro e un aumento dell'onere di manutenzione
Lo stesso vale per il design. Se usate l'IA per assistervi nella creazione di grafiche, modifiche o nella scrittura di proposte, i commenti di modifica del cliente sono i vostri segnali di feedback. Registrate concretamente il motivo per cui il cliente ha rifiutato quella versione ed evitatelo nella proposta successiva: solo così aumenterete la vostra percentuale di successo. Se vi limitate ad abbandonare i file rifiutati senza trarre conclusioni, potrete fare cento versioni ma rimarrete sempre al punto di partenza

Prima di introdurre la funzione di memoria dell'IA, bisogna installare un cancello
Alcuni fornitori promuovono funzioni di memoria come 'l'IA ricorderà le abitudini della tua azienda', il che suona fantastico. Tuttavia, il paper solleva un avvertimento che condivido pienamente
L'architettura di memoria risolve la quarta condizione ('trattenere'), la più difficile, ma 'risolve solo' il fatto di ricordare, non vi aiuta a filtrare se le prime tre condizioni sono corrette o ridondanti
In altre parole, se inserite indistintamente feedback errati, ripetitivi o simili a rumore, queste false memorie verranno richiamate ripetutamente, risultando più tossiche dell'assenza di memoria. È come amplificare l'errore, da occasionale a permanente
Pertanto, nell'implementare qualsiasi funzione di memoria, è essenziale includere un 'cancello di scrittura': queste informazioni sono abbastanza sostanziali, credibili e non ripetitive? Solo dopo aver superato il controllo possono essere salvate. Per una tipografia, questo significa non lasciare che le preferenze del cliente segnate casualmente dal commerciale senza verifiche diventino automaticamente un 'fatto' per il sistema
Bisogna anche essere onesti: questo paper non è una panacea. Quel limite tra:
・0.94 e
・0.99
è stato ottenuto utilizzando informazioni ideali in cui la risposta era nota a posteriori (definita nel paper come Oracle-EFC). I sistemi reali non possono arrivarci, quindi quello è un tetto teorico, non un numero che otterrete domani. E la condizione 'il feedback ha effettivamente cambiato la decisione' è di per sé difficile da giudicare. Ma anche applicando queste riduzioni, sono molto d'accordo con la direzione principale
La competizione futura tra gli strumenti AI non riguarderà chi ha più funzioni o chi ha la chat box più lunga, ma chi riuscirà a far sì che ogni feedback venga davvero utilizzato. Un buon assistente AI non serve a fargli fare più lavoro, ma a comportarsi come un buon maestro, facendogli imparare qualcosa da ogni singolo passo

Punti chiave
・Dare all'IA più potenza di calcolo e strumenti spiega solo il 30-40% dei risultati (R²:
・0.33
・0.42), il restante 60% dipende dalla qualità del feedback
・A parità di potenza di calcolo, rendere efficace il feedback può aumentare il tasso di successo dal 27% al 90%. La differenza sta nell''allenarsi bene', non nell''allenarsi tanto'
・Un feedback efficace deve essere contemporaneamente: informativo, corretto, non ridondante e utilizzato. Se manca la quarta condizione, l'allenamento è vano
・La funzione di memoria dell'IA risolve solo il 'ricordare', non aiuta a filtrare gli errori; senza un cancello di scrittura, le memorie errate sono più tossiche dell'assenza di memoria
・Reinserire mensilmente i casi di fallimento di preventivi o modifiche grafiche dell'IA è l'azione chiave per renderla sempre più precisa
Ulteriori riflessioni
Per le tipografie e gli studi di design, la vera ispirazione non è 'se implementare l'IA', ma 'se, una volta implementata, esiste un meccanismo di revisione'. La maggior parte delle persone si ferma al primo passo, considerando il collegamento dello strumento come l'obiettivo finale. Consiglio di iniziare con una piccola cosa: scegliete uno scenario ad alta frequenza, come il preventivo di un catalogo o la richiesta di prova stampa di un'etichetta, create prima una tabella di risposte standard con trenta voci, e poi pianificate una sessione di reinserimento mensile di un'ora, dedicata specificamente alla correzione delle regole utilizzando i casi in cui l'IA ha risposto in modo errato. Una volta che questo ciclo è fluido, considerate l'introduzione di funzioni di memoria o l'espansione dell'ambito. Per i fornitori che offrono servizi integrati, questo è anche un modo per legarsi a lungo termine con il cliente: progettando bene il ciclo di feedback per il cliente, il sistema diventerà sempre più adatto alle sue esigenze, invece di essere abbandonato dopo sei mesi perché considerato impreciso
Letture consigliate
FAQ
- Perché il sistema di preventivazione AI diventa sempre meno preciso con il tempo?
- Di solito non è un problema di capacità del modello, ma di mancanza di un ciclo di feedback. Se non ci sono segnali chiari di errore dopo ogni preventivo dell'IA e nessuno corregge regolarmente le regole utilizzando i casi errati, il sistema ripeterà e amplificherà continuamente gli stessi giudizi sbagliati
- Cos'è l'Effective Feedback Compute (EFC)?
- L'EFC è un concetto che misura la qualità del feedback dell'IA, indicando che sono efficaci solo i feedback che soddisfano contemporaneamente quattro condizioni: 'informativo, corretto, non ridondante e effettivamente utilizzato'. Il paper dimostra che, a parità di potenza di calcolo, migliorare solo la qualità del feedback può aumentare il tasso di successo delle attività dal 27% al 90%
- Qual è il primo passo per una piccola o media tipografia per rendere lo strumento AI sempre più preciso?
- Creare innanzitutto una tabella di confronto con le risposte standard, riassumendo codici articolo, carta, lavorazioni post-stampa e fasce di prezzo ragionevoli per i venti o trenta articoli più frequentemente quotati. Con questa 'ground truth', potrete rilevare e correggere quando l'IA sbaglia il preventivo; questo è il punto di partenza per stabilire un ciclo di feedback
- Vale la pena introdurre la funzione di 'memoria' dell'IA?
- Vale la pena, ma deve essere dotata di un cancello di scrittura. La funzione di memoria risolve solo il 'ricordare', non aiuta a filtrare informazioni errate o ripetitive. Se si memorizzano anche rumore e giudizi errati, queste false memorie verranno utilizzate ripetutamente, risultando peggiori della mancanza di memoria
- Come può un designer che usa l'IA per le modifiche grafiche renderla sempre più capace di capire il cliente?
- Registrate e sintetizzate i motivi specifici per cui il cliente rifiuta ogni bozza ed evitateli nella proposta successiva: solo così aumenterete la vostra percentuale di successo. Limitarsi ad abbandonare i file rifiutati senza analizzarne la causa significa girare a vuoto, indipendentemente da quante versioni modificate; questa è la differenza tra avere o non avere un ciclo di feedback chiuso
Articoli correlati
- Progettazione della memoria di lavoro per AI Agent: dominare l'AI senza perdersi grazie alla struttura delle cartelle
- Cambia hub in summarize: l'IA trasforma GitHub in una knowledge base con un clic
- Le Scelte Architetturali per il Riconoscimento OCR dei Documenti di Ritorno: Tre Generazioni di Evoluzione e la Filosofia della Ripartizione Uomo-Macchina
