AI टूल सेटअप करने के छह महीने बाद भी प्रभाव स्थिर क्यों है?
पिछले एक-दो महीनों में ग्राहकों के पास जाते समय, मैंने कई छोटी और मध्यम प्रिंटिंग कंपनियों के मालिकों से एक ही सवाल सुना: पिछले साल जो AI कोटेशन असिस्टेंट और ऑटोमैटिक LINE कस्टमर सर्विस बॉट लगाए थे, शुरुआत में तो बहुत प्रभावशाली थे, लेकिन अब कोई सुधार नहीं दिख रहा, और कभी-कभी तो वे और भी ज्यादा गलतियां कर रहे हैं।
इस घटना के बारे में, हाल ही में 'Scaling Laws for Agent Harnesses via Effective Feedback Compute' नामक एक शोध पत्र में बहुत विस्तार से बताया गया है। इसके लेखक Xuanliang Zhang और अन्य हैं, और मैंने इसका मूल संस्करण Wisely Chen के सारांश के माध्यम से पढ़ा है।
यह एक प्रति-सहज (counter-intuitive) तथ्य को सीधे मापता है: आपको लगता है कि 'ज्यादा कंप्यूटिंग पावर, ज्यादा टूल्स, और ज्यादा बार चलाने से' AI बेहतर होगा, लेकिन वास्तव में ऐसा नहीं है।
पेपर में टास्क सक्सेस रेट की व्याख्या करने के लिए raw tokens और tool calls का उपयोग किया गया है, जहां कोरिलेशन कोएफिशिएंट R² केवल है:
・0.33 से
・0.42 तक
प्रिंटिंग भाषा में इसका सरल मतलब यह है: आप AI कस्टमर सर्विस के चैट रिकॉर्ड को बहुत विस्तृत कर दें, कोटेशन को एक बार के बजाय तीन बार फिर से गणना करवाएं, या दो और डेटाबेस कनेक्ट कर दें, ये 'मैंने बहुत कुछ किया' वाले कदम केवल 30-40% परिणाम ही समझा सकते हैं। बाकी 60% का आपके द्वारा खर्च किए गए संसाधनों से कोई लेना-देना नहीं है।
मैं इसकी तुलना प्रशिक्षु (apprentice) को सिखाने से करता हूँ। एक मास्टर प्रशिक्षु को दिन में दो सौ अभ्यास शीट प्रिंट करने देता है, लेकिन प्रिंटिंग के बाद कभी गलतियाँ नहीं निकालता, यह नहीं बताता कि रंग का मिलान (registration) कहाँ गलत था, तो वह प्रशिक्षु दस हजार शीट प्रिंट करने के बाद भी उसी स्तर पर रहेगा। वह बेहतर नहीं हुआ है, वह सिर्फ अधिक थक गया है।

EFC वास्तव में क्या है? इसका 'ट्रेनिंग' से क्या संबंध है?
पेपर की मुख्य अवधारणा 'Effective Feedback Compute' है, जिसे संक्षेप में EFC कहा जाता है। इसका अर्थ है: हर इंटरैक्शन मायने नहीं रखता, केवल 'प्रभावी फीडबैक' ही AI को वास्तव में बेहतर बना सकता है।
यह परिभाषित करता है कि प्रभावी फीडबैक को एक ही समय में चार शर्तों को पूरा करना चाहिए, मैं उन्हें प्रिंटिंग परिदृश्य के अनुसार एक-एक करके लागू करता हूँ:
・Informative (जानकारीपूर्ण): फीडबैक नई जानकारी लाता है। यदि ग्राहक कोटेशन के महंगे होने की शिकायत करता है, लेकिन यह नहीं बताता कि क्या यह कागज के कारण है या बाद की प्रोसेसिंग (post-processing) के कारण, तो यह एक बेकार फीडबैक है।
・Valid (वैध): फीडबैक विश्वसनीय होना चाहिए, शोर (noise) या अटकलें नहीं। यदि सेल्सपर्सन लापरवाही से नोट करता है कि 'यह ग्राहक कीमत की परवाह नहीं करता' और वास्तव में यह उल्टा है, तो ऐसे गलत फीडबैक को फीड करना फीड न करने से भी बदतर है।
・Non-redundant (गैर-दोहराव): जो पहले से पता है उसे दोबारा न कहें। यदि सिस्टम ने 100 बार रिकॉर्ड किया है कि 'ग्राहक को 100 पाउंड आर्ट पेपर चाहिए', तो इसमें कोई नई जानकारी नहीं है।
・Retained (बनाए रखा गया): यह सबसे कठिन है। क्या फीडबैक वास्तव में अगले निर्णय में शामिल हुआ? यदि सेल्सपर्सन ने ग्रुप में सही निर्णय बताया, लेकिन किसी ने इसे कोटेशन लॉजिक में व्यवस्थित नहीं किया, तो इसका मतलब है कि कुछ नहीं कहा गया।
यहाँ सबसे महत्वपूर्ण संख्या है: पेपर ने एक नियंत्रित प्रयोग किया। कंप्यूटिंग बजट को पूरी तरह से अपरिवर्तित रखते हुए, केवल फीडबैक की गुणवत्ता में सुधार किया गया, और टास्क सक्सेस रेट 27% से बढ़कर 90% हो गया।
लागत में एक पैसा भी ज्यादा खर्च नहीं हुआ, बस फीडबैक को प्रभावी बनाया गया, और सफलता दर तीन गुना से अधिक बढ़ गई। पुनर्गणना के बाद, स्पष्टीकरण क्षमता R² यहाँ से बढ़ी:
・0.33 से सीधे
・0.94 से
・0.99 तक
यह तर्क वास्तव में 'डेलिब्रेट प्रैक्टिस' (deliberate practice) है, जिसके बारे में लर्निंग साइंस दशकों से बात कर रही है: फीडबैक विशिष्ट होना चाहिए, सही होना चाहिए, और अगले अभ्यास में शामिल किया जाना चाहिए। बिना समीक्षा किए अभ्यास करना और बिना सुधार किए समीक्षा करना, अभ्यास न करने के बराबर है। AI भी लोगों की तरह ही काम करता है।

प्रिंटिंग कारखाने के AI कोटेशन, ऑर्डर ट्रैकिंग और कस्टमर सर्विस के लिए फीडबैक लूप कैसे डिज़ाइन करें?
सिद्धांत जानने के बाद, प्रश्न यह है कि प्रिंटिंग वर्कफ़्लो में इस फीडबैक लूप को कैसे जोड़ा जाए। मैं कुछ ऐसे तरीके बताता हूँ जिन्हें आप इस सप्ताह शुरू कर सकते हैं।
पहला, एक 'मानक उत्तर' (standard answer) तालिका बनाएं। पिछले छह महीनों में सबसे अधिक उद्धृत (quoted) 20-30 वस्तुओं को खोजें, जैसे कि सैडल-स्टिच्ड कैटलॉग, परफेक्ट बाउंड किताबें, स्टिकर, पेपर बॉक्स, और सही मटेरियल नंबर, कागज, पोस्ट-प्रोसेसिंग और उचित कोटेशन रेंज को एक 'ground truth' फाइल में व्यवस्थित करें। यदि AI द्वारा दिया गया कोटेशन इससे मेल नहीं खाता, तो आपके पास सुधारने के लिए 'गलत संकेत' (error signal) होगा, अन्यथा आपको पता भी नहीं चलेगा कि कोटेशन गलत है।
दूसरा, हर बार जब AI गलती करे तो रिकॉर्ड रखें, और कारण (root cause) तक दर्ज करें। यह न लिखें कि 'कोटेशन गलत है', बल्कि लिखें 'इसने 250 पाउंड कार्डस्टॉक को 200 पाउंड मान लिया' या 'ग्लोस लैमिनेशन की लागत जोड़ना भूल गया'। यह Informative शर्त के अनुरूप है, इसे इतना विशिष्ट होना चाहिए कि इस पर कार्रवाई की जा सके।
तीसरा, विफल मामलों को नियमित रूप से फीडबैक के रूप में डालें। हर महीने एक घंटा बिताएं और उन मामलों को लें जहाँ AI ने इस महीने गलत कोटेशन दिया या कस्टमर सर्विस में गलत जवाब दिया, और उसके प्रॉम्प्ट (prompts) या नियमों को सुधारें। यह चरण Retained शर्त को पूरा करता है, फीडबैक 'बंद' हुआ या नहीं, यह यहाँ पता चलता है। जो चैट रिकॉर्ड बस ऐसे ही चले गए, वे मायने नहीं रखते। जब उन्हें व्यवस्थित किया जाता है और नियमों को सुधारा जाता है, तभी वे मायने रखते हैं।
चौथा, हर बार जब आप कोई फीचर जोड़ें, तो EFC की चौथी शर्त के माध्यम से जांच करें। यदि आप कोई और टूल जोड़ना चाहते हैं या ऑटो-रिप्लाई खोलना चाहते हैं, तो खुद से पूछें: क्या यह वास्तव में AI के अगले निर्णय को बदल देगा? यदि नहीं, तो इसे जोड़ना केवल पैसे की बर्बादी है और रखरखाव का बोझ बढ़ाना है।
डिजाइन के पक्ष में भी यही सच है। यदि आप AI का उपयोग छवियों को बनाने, ड्राफ्ट को संशोधित करने या प्रस्ताव लिखने में करते हैं, तो ग्राहक की हर संशोधन टिप्पणी आपका फीडबैक सिग्नल है। इसे विशिष्ट रूप से रिकॉर्ड करें कि 'ग्राहक ने इस संस्करण को क्यों रिजेक्ट किया', और अगली बार प्रस्ताव देते समय सीधे बचें, आपकी सफलता दर बढ़ेगी। यदि आप केवल रिजेक्ट की गई फाइल को छोड़ देते हैं और कारणों का विश्लेषण नहीं करते हैं, तो आप 100 संस्करण संशोधित करने के बाद भी वहीं रहेंगे।

यदि आप AI मेमोरी फंक्शन पेश करना चाहते हैं, तो पहले एक गेटवे स्थापित करें
कुछ कंपनियां 'AI आपकी कंपनी की आदतों को याद रखेगा' जैसे मेमोरी फंक्शन को बढ़ावा देती हैं, जो बहुत अच्छा लगता है। लेकिन पेपर में एक चेतावनी है जिससे मैं बहुत सहमत हूँ।
मेमोरी आर्किटेक्चर चार शर्तों में सबसे कठिन चौथी शर्त 'retain' को हल करता है, लेकिन यह 'केवल' यह हल करता है कि याद कैसे रखा जाए। यह आपको पहली तीन शर्तों (सही, सूचनात्मक, गैर-दोहराव) को फ़िल्टर करने में मदद नहीं करेगा।
दूसरे शब्दों में, यदि आप गलत, दोहराव वाले और शोर जैसे फीडबैक को बिना सोचे-समझे स्टोर करते हैं, तो इन गलत यादों को बार-बार इस्तेमाल किया जाएगा, और इनकी विषाक्तता (toxicity) बिना मेमोरी के रहने से भी अधिक होगी। यह 'गलतियों को और बदतर' बनाने की प्रक्रिया को एकल घटना से स्थायी बना देता है।
इसलिए, किसी भी मेमोरी फंक्शन को पेश करते समय, एक 'राइटिंग गेटवे' (writing gate) का होना अनिवार्य है: क्या यह जानकारी पर्याप्त सूचनात्मक, विश्वसनीय और गैर-दोहराव वाली है? यदि पास हो जाए तो ही स्टोर करें। प्रिंटिंग कारखानों के लिए, इसका मतलब है कि सेल्सपर्सन द्वारा लापरवाही से दर्ज की गई और बिना सत्यापित की गई ग्राहक वरीयताओं को स्वचालित रूप से सिस्टम का 'तथ्य' न बनने दें।
ईमानदारी से कहें तो, यह पेपर कोई जादू की छड़ी नहीं है। वह:
・0.94 से
・0.99 की सीमा
का उपयोग आदर्श जानकारी के लिए किया गया है जहाँ उत्तर बाद में पता चलता है (पेपर इसे Oracle-EFC कहता है)। वास्तविक सिस्टम इसे नहीं कर सकते, इसलिए यह सैद्धांतिक छत है, वह संख्या नहीं जो आपको कल मिल जाएगी। और यह शर्त कि 'क्या फीडबैक ने वास्तव में निर्णय बदल दिया' को आंकना मुश्किल है। लेकिन इन छूटों के बावजूद, मैं मुख्य दिशा का बहुत समर्थक हूँ।
भविष्य में AI टूल की प्रतिस्पर्धा यह नहीं होगी कि किसके पास अधिक फंक्शन हैं या किसके पास लंबे चैट बॉक्स हैं, बल्कि यह होगी कि कौन हर फीडबैक को वास्तव में इस्तेमाल करने में सक्षम है। एक अच्छा AI असिस्टेंट वह नहीं है जिसे बहुत अधिक काम करने दिया जाए, बल्कि एक अच्छे मास्टर की तरह है, जो उसे हर कदम पर वास्तव में कुछ सीखने देता है।

प्रमुख बिंदु सारांश
・AI को अधिक कंप्यूटिंग पावर और टूल देना केवल 30-40% परिणाम ही समझा सकता है (R²:
・0.33
・0
・42), बाकी 60% फीडबैक की गुणवत्ता पर निर्भर करता है।
・कंप्यूटिंग पावर समान रखें, केवल फीडबैक को प्रभावी बनाएं, सफलता दर 27% से 90% तक बढ़ सकती है। अंतर 'सही अभ्यास' में है, न कि 'अधिक अभ्यास' में।
・प्रभावी फीडबैक में एक ही समय में ये होना चाहिए: सूचनात्मक, सही, गैर-दोहराव, और उपयोग किया गया। चौथी शर्त के बिना अभ्यास बेकार है।
・AI मेमोरी फंक्शन केवल 'याद रखने' की समस्या को हल करता है, यह आपको गलतियों को फ़िल्टर करने में मदद नहीं करेगा; बिना राइटिंग गेटवे के, गलत यादें बिना मेमोरी के रहने से अधिक विषाक्त हैं।
・AI कोटेशन और ड्राफ्ट संशोधन की विफलताओं को हर महीने एक बार फीडबैक के रूप में डालना ही उसे सटीक बनाने की कुंजी है।
विस्तारित विचार
प्रिंटिंग कारखानों और डिजाइन स्टूडियो के लिए, वास्तविक प्रेरणा 'क्या हमें AI अपनाना चाहिए' नहीं है, बल्कि 'अपनाते समय क्या समीक्षा तंत्र (review mechanism) डिज़ाइन किया गया है'। अधिकांश लोग पहले चरण में ही अटक जाते हैं और टूल को कनेक्ट करना ही अंतिम लक्ष्य मान लेते हैं। सुझाव है कि एक छोटे से काम से शुरू करें: एक उच्च-आवृत्ति (high-frequency) परिदृश्य चुनें, जैसे कि कैटलॉग कोटेशन या स्टिकर प्रूफिंग पूछताछ, पहले 30 आइटम की एक मानक उत्तर तालिका बनाएं, और फिर हर महीने एक घंटे का फीडबैक सत्र निर्धारित करें, विशेष रूप से उन मामलों को लेकर जहाँ AI ने गलत उत्तर दिया और नियमों को सुधारें। जब यह फीडबैक लूप सुचारू रूप से चलने लगे, तो मेमोरी फंक्शन जोड़ने या दायरा बढ़ाने पर विचार करें। जो कंपनियां एकीकृत सेवाएं (integrated services) करती हैं, उनके लिए यह ग्राहकों के साथ दीर्घकालिक संबंधों के लिए एक शुरुआती बिंदु भी है: यदि आप ग्राहकों के लिए फीडबैक लूप डिज़ाइन करने में मदद करते हैं, तो सिस्टम का उपयोग जितना अधिक होगा, यह उनकी आवश्यकताओं के लिए उतना ही अधिक अनुकूल होगा, न कि छह महीने बाद उपयोग न किए जाने पर फेंक दिया जाएगा।
आगे पढ़ने के लिए
FAQ
- AI कोटेशन सिस्टम लंबे समय तक उपयोग करने के बाद गलत क्यों होने लगता है?
- आमतौर पर यह मॉडल की क्षमता की समस्या नहीं है, बल्कि फीडबैक लूप की कमी है। यदि AI को हर कोटेशन के बाद सही या गलत का स्पष्ट संकेत नहीं मिलता है, और कोई भी नियमित रूप से गलत मामलों को लेकर नियमों को नहीं सुधारता है, तो वह उसी गलत निर्णय को बार-बार दोहराएगा, और यहां तक कि उसे बढ़ा-चढ़ाकर पेश करेगा।
- Effective Feedback Compute (EFC) क्या है?
- EFC AI फीडबैक की गुणवत्ता को मापने की एक अवधारणा है, जिसका अर्थ है कि केवल वे फीडबैक जो एक ही समय में 'सूचनात्मक, सही, गैर-दोहराव, और वास्तव में उपयोग किए गए' शर्तों को पूरा करते हैं, प्रभावी माने जाते हैं। पेपर साबित करता है कि कंप्यूटिंग पावर को बदले बिना केवल फीडबैक की गुणवत्ता में सुधार करके, टास्क सक्सेस रेट को 27% से 90% तक बढ़ाया जा सकता है।
- छोटी प्रिंटिंग कंपनियां AI टूल को सटीक बनाने के लिए पहला कदम क्या उठा सकती हैं?
- सबसे पहले एक 'मानक उत्तर' तालिका बनाएं, जिसमें सबसे अधिक उद्धृत 20-30 वस्तुओं के सही मटेरियल नंबर, कागज का उपयोग, पोस्ट-प्रोसेसिंग और उचित कोटेशन रेंज व्यवस्थित हों। इस 'ground truth' के साथ, जब AI गलत कोटेशन देगा तभी आप इसे खोज पाएंगे और सुधार पाएंगे, यह फीडबैक लूप स्थापित करने का शुरुआती बिंदु है।
- क्या AI का 'मेमोरी' फंक्शन अपनाना सार्थक है?
- यह सार्थक है, लेकिन इसे एक 'राइटिंग गेटवे' के साथ जोड़ा जाना चाहिए। मेमोरी फंक्शन केवल 'याद रखने' की समस्या को हल कर सकता है, यह आपको गलत या दोहराव वाली जानकारी को फ़िल्टर करने में मदद नहीं करेगा। यदि शोर और गलत निर्णय भी स्टोर कर दिए जाते हैं, तो इन गलत यादों का बार-बार उपयोग किया जाएगा, जो मेमोरी न होने से भी बदतर है।
- डिजाइनर AI का उपयोग ड्राफ्ट संशोधन में करते हैं, इसे ग्राहकों को बेहतर समझने के लिए कैसे प्रेरित करें?
- ग्राहक द्वारा हर बार ड्राफ्ट को रिजेक्ट करने के विशिष्ट कारणों को रिकॉर्ड करें और वर्गीकृत करें, अगली बार प्रस्ताव देते समय सीधे उनसे बचें, तभी सफलता दर बढ़ेगी। यदि आप केवल रिजेक्ट की गई फाइल को बिना कारण विश्लेषण के छोड़ देते हैं, तो कितने भी संशोधन करने के बाद भी आप वहीं रहेंगे, यही फीडबैक लूप बंद होने और न होने के बीच का अंतर है।
