Γιατί τα εργαλεία AI σταματούν να αποδίδουν μετά από έξι μήνες χρήσης;
Τους τελευταίους μήνες, επισκεπτόμενος πελάτες, συνάντησα πολλούς ιδιοκτήτες μικρομεσαίων τυπογραφείων που με ρωτούσαν το ίδιο πράγμα: οι βοηθοί τιμολόγησης AI και τα chatbot εξυπηρέτησης πελατών (π.χ. στο LINE) που εισήγαγαν πέρυσι ήταν εντυπωσιακά στην αρχή, αλλά τώρα φαίνεται να μην έχουν προοδεύσει και μερικές φορές κάνουν ακόμη πιο σοβαρά λάθη
Αυτό το φαινόμενο αναλύεται διεξοδικά σε μια πρόσφατη μελέτη με τίτλο «Scaling Laws for Agent Harnesses via Effective Feedback Compute» από τον Xuanliang Zhang και τους συνεργάτες του (η αρχική πηγή μου ήταν η κινεζική σύνοψη του Wisely Chen)
Η μελέτη ποσοτικοποιεί κάτι αντιφατικό: νομίζετε ότι αν «δίνετε περισσότερη υπολογιστική ισχύ, προσθέτετε περισσότερα εργαλεία και κάνετε περισσότερες δοκιμές», η AI θα γίνει ισχυρότερη, αλλά στην πραγματικότητα δεν συμβαίνει αυτό
Η μελέτη χρησιμοποιεί raw tokens και tool calls για να εξηγήσει το ποσοστό επιτυχίας της εργασίας, με τον συντελεστή συσχέτισης R² να είναι μόνο:
・0.33 έως
・0.42
Με απλά λόγια για τον χώρο των εκτυπώσεων: Το να αναλύετε το ιστορικό συνομιλιών της AI στο έπακρο, να αυξάνετε τις επαναλήψεις υπολογισμού μιας προσφοράς από μία σε τρεις, ή να συνδέετε επιπλέον βάσεις δεδομένων, είναι ενέργειες που εξηγούν μόνο το 30-40% του αποτελέσματος. Το υπόλοιπο 60% δεν έχει καμία σχέση με το πόσους πόρους ξοδεύετε
Το παρομοιάζω με την εκπαίδευση ενός μαθητευόμενου: Αν ένας τεχνίτης βάζει τον μαθητευόμενο να εκτυπώνει 200 δοκιμαστικά την ημέρα, αλλά δεν επισημαίνει ποτέ τα σφάλματα ή το πού αστόχησε η εκτύπωση, ο μαθητευόμενος θα παραμείνει στο ίδιο επίπεδο ακόμα και μετά από 10.000 εκτυπώσεις. Δεν έχει γίνει πιο ικανός, απλώς έχει κουραστεί περισσότερο

Τι είναι τελικά το EFC; Και τι σχέση έχει με την «εκπαίδευση»;
Η κεντρική έννοια της μελέτης ονομάζεται Effective Feedback Compute, εν συντομία EFC. Σημαίνει ότι δεν μετρούν όλες οι αλληλεπιδράσεις· μόνο η «αποτελεσματική ανατροφοδότηση» μπορεί πραγματικά να κάνει την AI να προοδεύσει
Ορίζει ότι η αποτελεσματική ανατροφοδότηση πρέπει να πληροί τέσσερις προϋποθέσεις ταυτόχρονα, τις οποίες εφαρμόζω στο σενάριο του τυπογραφείου:
・Informative (Πληροφοριακή): Η ανατροφοδότηση φέρνει νέα δεδομένα. Αν ένας πελάτης πει ότι η προσφορά είναι ακριβή, αλλά δεν διευκρινίσει αν οφείλεται στο χαρτί ή στην επεξεργασία, αυτή η ανατροφοδότηση είναι άχρηστη
・Valid (Έγκυρη): Η ανατροφοδότηση πρέπει να είναι αξιόπιστη, όχι θόρυβος ή εικασίες. Αν ένας υπάλληλος σημειώσει πρόχειρα ότι «αυτός ο πελάτης δεν ενδιαφέρεται για την τιμή» και αποδειχθεί λάθος, η τροφοδότηση με τέτοια λανθασμένα δεδομένα είναι χειρότερη από το να μην τροφοδοτήσετε καθόλου το σύστημα
・Non-redundant (Μη πλεονάζουσα): Μην επαναλαμβάνετε κάτι που είναι ήδη γνωστό. Αν το σύστημα έχει καταγράψει εκατό φορές ότι «ο πελάτης θέλει χαρτί 100g», δεν υπάρχει νέα πληροφορία
・Retained (Διατηρημένη): Αυτό είναι το πιο κρίσιμο σημείο. Ενσωματώθηκε πράγματι η ανατροφοδότηση στην επόμενη απόφαση; Αν ο υπάλληλος ανέφερε σωστά κάτι στην ομάδα, αλλά κανείς δεν το πέρασε στη λογική τιμολόγησης, είναι σαν να μην ειπώθηκε ποτέ
Ο πιο σημαντικός αριθμός εδώ είναι ο εξής: Η μελέτη πραγματοποίησε ένα ελεγχόμενο πείραμα όπου, διατηρώντας σταθερό τον προϋπολογισμό υπολογιστικής ισχύος, βελτίωσαν μόνο την ποιότητα της ανατροφοδότησης και το ποσοστό επιτυχίας της εργασίας αυξήθηκε από 27% σε 90%
Το κόστος δεν αυξήθηκε καθόλου, απλώς η ανατροφοδότηση έγινε αποτελεσματική και το ποσοστό επιτυχίας τριπλασιάστηκε. Μετά τον επανυπολογισμό, η επεξηγηματική ισχύς R² αυξήθηκε από:
・0.33 σε
・0.94 έως
・0.99
Αυτή η προσέγγιση είναι στην πραγματικότητα η «εσκεμμένη εξάσκηση» (deliberate practice) που διδάσκει η επιστήμη της μάθησης εδώ και δεκαετίες: η ανατροφοδότηση πρέπει να είναι συγκεκριμένη, σωστή και να ενσωματώνεται στην επόμενη άσκηση. Η εξάσκηση χωρίς αναθεώρηση, ή η αναθεώρηση χωρίς βελτίωση, είναι σαν να μην εξασκείσαι καθόλου. Η AI λειτουργεί με τον ίδιο τρόπο όπως και οι άνθρωποι

Πώς να σχεδιάσετε τον κύκλο ανατροφοδότησης για την τιμολόγηση, την παρακολούθηση παραγγελιών και την εξυπηρέτηση πελατών σε ένα τυπογραφείο;
Μόλις κατανοήσετε την αρχή, το ερώτημα γίνεται: πώς να συνδέσετε πραγματικά αυτόν τον κύκλο στη ροή εργασιών του τυπογραφείου. Σας δίνω μερικές πρακτικές που μπορείτε να ξεκινήσετε από αυτή την εβδομάδα
Πρώτον, δημιουργήστε έναν πίνακα αναφοράς «σωστών απαντήσεων» (ground truth). Εντοπίστε τους 20-30 τύπους εργασιών που τιμολογείτε πιο συχνά (κατάλογοι με καρφίτσα, βιβλία με θερμοκόλληση, αυτοκόλλητα, κουτιά) και οργανώστε τους σωστούς κωδικούς υλικών, τύπους χαρτιού, επεξεργασίες και λογικά εύρη τιμών. Αν η τιμή που δίνει η AI δεν ταιριάζει με αυτή τη λίστα, τότε έχετε ένα «σήμα σφάλματος» για να διορθώσετε το σύστημα, διαφορετικά δεν θα γνωρίζετε καν ότι η τιμή είναι λάθος
Δεύτερον, κρατάτε αρχείο κάθε φορά που η AI κάνει λάθος, και καταγράφετε τη ρίζα του προβλήματος. Μην γράφετε απλώς «λάθος τιμολόγηση», αλλά συγκεκριμένα «υπολόγισε το χαρτόνι 250g ως 200g» ή «ξέχασε να υπολογίσει το κόστος βερνικιού». Αυτό αντιστοιχεί στο σημείο Informative, πρέπει να είναι αρκετά συγκεκριμένο για να αναληφθεί δράση
Τρίτον, ανατροφοδοτήστε τακτικά τα αποτυχημένα παραδείγματα. Αφιερώστε μία ώρα τον μήνα για να χρησιμοποιήσετε τις περιπτώσεις όπου η AI έδωσε λάθος τιμή ή απάντησε λανθασμένα, προκειμένου να διορθώσετε τα prompts ή τους κανόνες της. Αυτό είναι το στάδιο Retained· αν ο κύκλος ανατροφοδότησης «έκλεισε», εξαρτάται από αυτό το βήμα. Οι συνομιλίες που απλώς «πέρασαν» δεν μετρούν· μόνο όταν οργανωθούν και βελτιώσουν τους κανόνες, τότε μετρούν
Τέταρτον, πριν προσθέσετε οποιαδήποτε νέα λειτουργία, περάστε την από το τέταρτο κριτήριο του EFC. Αν θέλετε να συνδέσετε ένα νέο εργαλείο ή να προσθέσετε μια νέα αυτόματη απάντηση, ρωτήστε τον εαυτό σας: θα αλλάξει αυτό πραγματικά την κρίση της AI την επόμενη φορά; Αν όχι, τότε η προσθήκη του είναι απλώς σπατάλη χρημάτων και αύξηση του φόρτου συντήρησης
Το ίδιο ισχύει και για τον σχεδιασμό. Αν χρησιμοποιείτε AI για υποστήριξη στη δημιουργία εικόνων, διορθώσεις κειμένων ή συγγραφή προτάσεων, οι παρατηρήσεις του πελάτη σε κάθε διόρθωση είναι το σήμα ανατροφοδότησής σας. Καταγράψτε συγκεκριμένα το «γιατί ο πελάτης απέρριψε αυτή την έκδοση» και αποφύγετέ το στην επόμενη πρόταση· μόνο τότε θα αυξηθεί το ποσοστό επιτυχίας σας. Αν απλώς αφήνετε τα αρχεία απόρριψης στην άκρη χωρίς να αναλύετε τον λόγο, θα παραμείνετε στάσιμοι ακόμα και μετά από εκατό αλλαγές

Πριν εισαγάγετε μια λειτουργία μνήμης AI, εγκαταστήστε πρώτα μια δικλείδα ασφαλείας
Ορισμένοι προμηθευτές προωθούν λειτουργίες μνήμης όπως «η AI θα θυμάται τις συνήθειες της εταιρείας σας», κάτι που ακούγεται υπέροχο. Όμως, η μελέτη περιέχει μια προειδοποίηση με την οποία συμφωνώ απόλυτα
Η αρχιτεκτονική μνήμης επιλύει το τέταρτο σημείο, το πιο δύσκολο, το «retain», αλλά «μόνο» επιλύει το να μπορεί να θυμάται, δεν σας βοηθά να φιλτράρετε αν τα πρώτα τρία κριτήρια είναι σωστά ή αν υπάρχει πλεονασμός
Με άλλα λόγια, αν αποθηκεύσετε τυφλά λανθασμένη, πλεονάζουσα ή θορυβώδη ανατροφοδότηση, αυτές οι λανθασμένες αναμνήσεις θα ανακαλούνται συνεχώς, με αποτέλεσμα η τοξικότητά τους να είναι μεγαλύτερη από το να μην υπήρχε καθόλου μνήμη. Ουσιαστικά, το φαινόμενο του «κάθε φορά και χειρότερα» μετατρέπεται από μεμονωμένο συμβάν σε μόνιμο πρόβλημα
Επομένως, για την εισαγωγή οποιασδήποτε λειτουργίας μνήμης, πρέπει οπωσδήποτε να υπάρχει μια «δικλείδα εγγραφής»: είναι αυτή η πληροφορία αρκετά ουσιώδης, αξιόπιστη και μη επαναλαμβανόμενη; Αφού περάσει αυτόν τον έλεγχο, τότε αποθηκεύεται. Για ένα τυπογραφείο, αυτό σημαίνει ότι δεν πρέπει να επιτρέπετε στις προτιμήσεις των πελατών που σημειώνει βιαστικά ένας υπάλληλος χωρίς επαλήθευση, να γίνονται αυτόματα «γεγονότα» του συστήματος
Πρέπει επίσης να είμαστε ειλικρινείς, αυτή η μελέτη δεν είναι πανάκεια. Το όριο του:
・0.94 έως
・0.99
χρησιμοποιεί ιδανικές πληροφορίες όπου η απάντηση είναι γνωστή εκ των υστέρων (η μελέτη το ονομάζει Oracle-EFC), κάτι που δεν είναι εφικτό σε ένα πραγματικό σύστημα, οπότε αυτό είναι το θεωρητικό ταβάνι και όχι ένας αριθμός που μπορείτε να επιτύχετε αύριο. Επίσης, το κριτήριο του «αν η ανατροφοδότηση άλλαξε πράγματι την απόφαση» είναι από μόνο του δύσκολο να κριθεί. Ωστόσο, ακόμη και με αυτές τις επιφυλάξεις, συμφωνώ απόλυτα με την κεντρική κατεύθυνση
Ο ανταγωνισμός των εργαλείων AI στο μέλλον δεν θα εξαρτάται από το ποιος έχει τις περισσότερες λειτουργίες ή το μεγαλύτερο πλαίσιο διαλόγου, αλλά από το ποιος μπορεί να διασφαλίσει ότι κάθε κομμάτι ανατροφοδότησης χρησιμοποιείται πραγματικά. Ένας καλός βοηθός AI δεν είναι αυτός που τον βάζετε να δουλεύει περισσότερο, αλλά αυτός που, σαν καλός μαθητευόμενος, μαθαίνει κάτι σε κάθε βήμα

Σύνοψη βασικών σημείων
・Το να δίνετε στην AI περισσότερη υπολογιστική ισχύ και εργαλεία εξηγεί μόνο το 30-40% των αποτελεσμάτων (R²: 0.33 - 0.42), το υπόλοιπο 60% εξαρτάται από την ποιότητα της ανατροφοδότησης
・Με την ίδια υπολογιστική ισχύ, αν κάνετε την ανατροφοδότηση αποτελεσματική, το ποσοστό επιτυχίας μπορεί να εκτιναχθεί από 27% σε 90%. Η διαφορά έγκειται στο να «εκπαιδεύετε σωστά» και όχι στο να «εκπαιδεύετε πολύ»
・Η αποτελεσματική ανατροφοδότηση πρέπει να είναι ταυτόχρονα: πληροφοριακή, έγκυρη, μη πλεονάζουσα και να χρησιμοποιείται. Η έλλειψη του τέταρτου σημείου ισοδυναμεί με μάταιη εξάσκηση
・Η λειτουργία μνήμης της AI επιλύει μόνο το πρόβλημα του «να θυμάται», δεν βοηθά στο φιλτράρισμα των λαθών. Χωρίς δικλείδα ασφαλείας, η λανθασμένη μνήμη είναι πιο τοξική από την έλλειψη μνήμης
・Η μηνιαία ανατροφοδότηση των περιπτώσεων αποτυχίας στην τιμολόγηση και τη διόρθωση κειμένων από την AI, είναι η κρίσιμη ενέργεια για να γίνει η AI ολοένα και πιο ακριβής
Επιπλέον σκέψεις
Για τα τυπογραφεία και τα στούντιο σχεδιασμού, η πραγματική αποκάλυψη δεν είναι «αν πρέπει να εισαγάγουμε AI», αλλά «αν υπάρχει μηχανισμός αναθεώρησης μετά την εισαγωγή». Οι περισσότεροι κολλάνε στο πρώτο βήμα και θεωρούν τη σύνδεση του εργαλείου ως το τέλος της διαδρομής. Προτείνω να ξεκινήσετε με κάτι μικρό: επιλέξτε ένα συχνό σενάριο, όπως την τιμολόγηση καταλόγων ή το αίτημα για δοκιμαστική εκτύπωση αυτοκόλλητων, δημιουργήστε πρώτα έναν πίνακα με 30 πρότυπες απαντήσεις και προγραμματίστε μια ώρα το μήνα για να διορθώνετε τους κανόνες με βάση τις περιπτώσεις όπου η AI απάντησε λανθασμένα. Όταν αυτός ο κύκλος λειτουργήσει ομαλά, τότε σκεφτείτε την εισαγωγή λειτουργιών μνήμης ή την επέκταση του πεδίου. Για τους παρόχους ολοκληρωμένων υπηρεσιών, αυτό είναι επίσης ένα σημείο μακροχρόνιας δέσμευσης με τον πελάτη: αν σχεδιάσετε σωστά τον κύκλο ανατροφοδότησης, το σύστημα θα γίνεται ολοένα και πιο προσαρμοσμένο στις ανάγκες του, αντί να απορριφθεί μετά από έξι μήνες επειδή θεωρήθηκε ανακριβές
Περαιτέρω ανάγνωση
Συχνές Ερωτήσεις
- Γιατί το σύστημα τιμολόγησης AI γίνεται λιγότερο ακριβές με τον καιρό;
- Συνήθως δεν πρόκειται για πρόβλημα ικανότητας του μοντέλου, αλλά για έλλειψη κύκλου ανατροφοδότησης. Αν η AI δεν λαμβάνει σαφές σήμα για το σωστό ή το λάθος μετά από κάθε τιμολόγηση, και κανείς δεν διορθώνει τους κανόνες με βάση τα λανθασμένα παραδείγματα, θα επαναλαμβάνει συνεχώς, ή και θα διογκώνει, την ίδια λανθασμένη κρίση
- Τι είναι το Effective Feedback Compute (EFC);
- Το EFC είναι μια έννοια που μετρά την ποιότητα της ανατροφοδότησης της AI, υποστηρίζοντας ότι μόνο η ανατροφοδότηση που είναι «πληροφοριακή, έγκυρη, μη πλεονάζουσα και πραγματικά χρησιμοποιούμενη» είναι αποτελεσματική. Η μελέτη αποδεικνύει ότι, με σταθερή υπολογιστική ισχύ, η απλή βελτίωση της ποιότητας της ανατροφοδότησης μπορεί να αυξήσει το ποσοστό επιτυχίας από 27% σε 90%
- Ποιο είναι το πρώτο βήμα για ένα μικρομεσαίο τυπογραφείο που θέλει να κάνει τα εργαλεία AI ολοένα και πιο ακριβή;
- Δημιουργήστε έναν πίνακα αναφοράς με «σωστές απαντήσεις» (ground truth), οργανώνοντας τους σωστούς κωδικούς, το χαρτί, τις επεξεργασίες και τα λογικά εύρη τιμών για τους 20-30 πιο συχνούς τύπους εργασιών. Μόνο με αυτή τη βάση μπορείτε να εντοπίσετε και να διορθώσετε την AI όταν δίνει λάθος τιμή· αυτό είναι το σημείο εκκίνησης του κύκλου ανατροφοδότησης
- Αξίζει η εισαγωγή της λειτουργίας «μνήμης» στην AI;
- Αξίζει, αλλά πρέπει να συνοδεύεται από μια δικλείδα ασφαλείας εγγραφής. Η μνήμη επιλύει μόνο το πρόβλημα του «να θυμάται», δεν βοηθά στο φιλτράρισμα λανθασμένων ή επαναλαμβανόμενων πληροφοριών. Αν αποθηκεύσετε θόρυβο ή λανθασμένες κρίσεις, αυτές οι λανθασμένες μνήμες θα χρησιμοποιούνται επανειλημμένα, κάνοντας το σύστημα χειρότερο από το να μην είχε καθόλου μνήμη
- Πώς μπορούν οι σχεδιαστές να χρησιμοποιούν την AI για διορθώσεις κειμένων, ώστε να κατανοεί καλύτερα τους πελάτες;
- Καταγράψτε και ταξινομήστε τον συγκεκριμένο λόγο για τον οποίο ο πελάτης απέρριψε κάθε προσχέδιο, ώστε να τον αποφύγετε στην επόμενη πρόταση· μόνο τότε θα αυξηθεί το ποσοστό επιτυχίας. Το να αφήνετε τα αρχεία απόρριψης χωρίς ανάλυση σημαίνει ότι, ακόμα και με πολλές αλλαγές, θα παραμένετε στάσιμοι. Αυτή είναι η διαφορά που κάνει ο κύκλος ανατροφοδότησης
