AI sebut harga semakin tidak tepat selepas lama digunakan, apakah puncanya?

Biasanya ia bukan masalah keupayaan model, tetapi kekurangan gelung maklum balas. Jika tiada isyarat betul-salah yang jelas selepas AI memberi sebut harga, dan tiada sesiapa yang mengambil kes kesalahan untuk membaiki peraturan secara berkala, ia akan terus mengulangi pertimbangan yang salah, malah memperbesarkannya

Apakah itu Effective Feedback Compute (EFC)?

EFC ialah konsep untuk mengukur kualiti maklum balas AI, yang merujuk kepada maklum balas yang hanya dianggap berkesan jika ia memenuhi empat syarat serentak: 'bermaklumat, tepat, tidak berulang, dan benar-benar digunakan'. Kajian membuktikan bahawa dengan kuasa pengkomputeran yang sama, hanya meningkatkan kualiti maklum balas boleh meningkatkan kadar kejayaan tugas daripada 27% kepada 90%

Apakah langkah pertama yang perlu dilakukan oleh kilang percetakan berskala sederhana jika mahu AI mereka semakin tepat?

Bina jadual perbandingan jawapan standard terlebih dahulu, susun kod bahan yang betul, penggunaan kertas, proses kemasan, dan julat sebut harga yang munasabah untuk dua puluh atau tiga puluh produk yang paling kerap diminta. Dengan ground truth ini, barulah anda boleh mengetahui dan membetulkan apabila AI memberi sebut harga yang salah, inilah titik permulaan membina gelung maklum balas

Adakah fungsi 'memori' AI berbaloi untuk diperkenalkan?

Berbaloi, tetapi mesti dilengkapi dengan pintu gerbang penulisan. Fungsi memori hanya boleh menyelesaikan 'boleh ingat', dan tidak akan membantu anda menapis maklumat yang salah atau berulang. Jika maklumat gangguan dan pertimbangan salah juga disimpan, memori yang salah ini akan digunakan berulang kali, yang sebenarnya lebih teruk daripada tiada memori

Mengapa Pembantu Sebut Harga AI Anda Semakin Tidak Tepat? Kuncinya Ada pada Maklum Balas

Mengapa keberkesanan alat AI mendatar selepas setengah tahun digunakan?

Dalam satu atau dua bulan kebelakangan ini, saya melawat pelanggan dan beberapa pemilik kilang percetakan berskala sederhana bertanya perkara yang sama: Pembantu sebut harga AI dan bot perkhidmatan pelanggan LINE yang diperkenalkan tahun lepas sangat menakjubkan pada awalnya, tetapi mengapa ia tidak menunjukkan kemajuan sekarang, malah kadang-kadang kesilapannya semakin teruk?

Fenomena ini dijelaskan dengan sangat jelas dalam kertas kajian baru-baru ini bertajuk 《Scaling Laws for Agent Harnesses via Effective Feedback Compute》, yang dikarang oleh Xuanliang Zhang dan rakan-rakan, manakala saya membaca rumusan bahasa Cina oleh Wisely Chen

Ia secara langsung mengukur perkara yang bertentangan dengan intuisi: Anda fikir AI akan menjadi lebih kuat jika anda 'memberi lebih banyak kuasa pengkomputeran, menambah lebih banyak alat, dan menjalankan lebih banyak kali', tetapi sebenarnya tidak

Kajian menggunakan token mentah dan panggilan alat (tool calls) untuk menjelaskan kadar kejayaan tugas, dengan pekali korelasi R² hanya:

・0.33 hingga

・0.42

Dalam bahasa mudah bagi bidang percetakan: Jika anda membuka rekod perbualan perkhidmatan pelanggan AI secara terperinci, menambah bilangan pengiraan semula sebut harga daripada sekali kepada tiga kali, dan menyambungkan dua lagi pangkalan data, tindakan 'saya telah melakukan banyak perkara' ini mungkin hanya menjelaskan tiga atau empat puluh peratus hasil, manakala enam puluh peratus lagi tidak berkaitan dengan berapa banyak sumber yang anda habiskan

Saya membandingkan ini dengan melatih perantis. Seorang sifu (guru) membiarkan perantis mencetak dua ratus draf latihan sehari, tetapi selepas mencetak, tidak pernah menegur kesilapan atau memberitahu di mana warna tidak tepat (misregistration), perantis itu akan tetap pada tahap yang sama walaupun mencetak sepuluh ribu keping. Dia tidak menjadi lebih hebat, dia hanya menjadi lebih letih

為什麼 AI 工具接上去半年，效果反而停滯？｜你的 AI 報價助手為什麼越用越歪？關鍵在反饋段落重點

Apakah itu EFC? Apa kaitannya dengan 'melatih perantis'?

Konsep teras kertas kajian ini dipanggil Effective Feedback Compute, disingkatkan sebagai EFC. Maksudnya: Bukan semua interaksi dikira, hanya 'maklum balas berkesan' yang boleh membuatkan AI benar-benar bertambah baik

Ia mentakrifkan maklum balas berkesan perlu memenuhi empat syarat serentak, saya memadankannya satu persatu dengan senario percetakan:

・Informative (Mesti mempunyai isi): Maklum balas membawa maklumat baharu. Pelanggan merungut sebut harga mahal, tetapi tidak menyatakan sama ada mahal pada kertas atau proses kemasan (post-press), maklum balas seperti ini adalah sia-sia

・Valid (Mesti tepat): Maklum balas boleh dipercayai, bukan gangguan atau tekaan. Jika staf jualan mencatat 'pelanggan ini tidak kisah tentang harga' tetapi sebenarnya terbalik, maklum balas yang salah seperti ini lebih buruk daripada tidak memberi maklum balas

・Non-redundant (Tidak berulang): Jangan ulangi perkara yang sudah diketahui. Sistem mencatat seratus kali 'pelanggan mahu kertas art paper 100gsm', sebenarnya tiada maklumat baharu

・Retained (Mesti digunakan): Ini yang paling penting. Adakah maklum balas itu benar-benar masuk ke dalam keputusan seterusnya? Staf jualan memberi pertimbangan yang betul dalam kumpulan, tetapi tiada siapa yang menyusunnya ke dalam logik sebut harga, itu bermakna tidak memberitahu

Angka paling kritikal ada di sini: Kajian menjalankan eksperimen terkawal, dengan syarat belanjawan kuasa pengkomputeran tidak berubah, hanya meningkatkan kualiti maklum balas, dan kadar kejayaan tugas meningkat daripada 27% kepada 90%

Kos tidak bertambah satu sen pun, hanya menjadikan maklum balas berkesan, dan kadar kejayaan meningkat lebih tiga kali ganda. Selepas dikira semula, kuasa penjelasan R² daripada:

・0.33 melonjak terus kepada

・0.94 hingga

・0.99

Teori ini sebenarnya adalah 'latihan sengaja' (deliberate practice) yang telah dibincangkan dalam sains pembelajaran selama beberapa dekad: Maklum balas mestilah spesifik, tepat, dan masuk ke dalam latihan seterusnya. Berlatih tanpa penilaian, menilai tanpa mengubah, sama seperti tidak berlatih. AI sama seperti manusia dalam hal ini

EFC 到底是什麼？跟「帶師傅」有什麼關係？｜你的 AI 報價助手為什麼越用越歪？關鍵在反饋段落重點

Bagaimana mereka bentuk gelung maklum balas bagi sebut harga, penjejakan pesanan, dan perkhidmatan pelanggan AI kilang percetakan?

Selepas mengetahui prinsipnya, persoalannya menjadi: dalam proses pengurusan percetakan, bagaimana untuk benar-benar menyambungkan gelung ini? Saya memberikan beberapa cara yang boleh dilakukan minggu ini

Pertama, bina jadual perbandingan 'jawapan standard'. Cari dua puluh atau tiga puluh jenis produk yang paling kerap diminta sebut harga dalam setengah tahun kebelakangan ini, seperti katalog jilid saddle-stitch, buku jilid perfect bound, pelekat, kotak kertas, susun kod bahan (material code) yang betul, kertas, proses kemasan, dan julat sebut harga yang munasabah menjadi satu ground truth. Jika sebut harga AI tidak sepadan dengan dokumen ini, barulah anda mempunyai 'isyarat betul-salah' untuk pembetulan, jika tidak, anda tidak akan tahu jika ia memberi sebut harga yang salah

Kedua, simpan rekod setiap kali AI membuat kesilapan, dan perlu catat hingga ke punca masalah. Bukan mencatat 'sebut harga salah', tetapi mencatat 'ia mengira kertas art card 250gsm sebagai 200gsm' atau 'lupa mengira kos salutan (varnishing/lamination)'. Ini sepadan dengan syarat Informative, mestilah spesifik sehingga boleh diambil tindakan

Ketiga, masukkan semula kes kegagalan secara berkala. Luangkan satu jam setiap bulan, ambil kes AI yang memberi sebut harga salah atau perkhidmatan pelanggan yang menjawab salah pada bulan itu, untuk membaiki prompt atau peraturannya. Langkah ini adalah Retained, sama ada maklum balas 'ditutup' (closed-loop) bergantung kepada ini. Rekod perbualan yang berlalu begitu sahaja tidak dikira, ia mestilah disusun dan peraturan diperbaiki barulah dikira

Keempat, setiap kali menambah fungsi, semak dahulu syarat keempat EFC. Jika mahu menyambungkan satu lagi alat, membuka satu lagi fungsi balasan automatik, tanya diri sendiri: Adakah ia akan benar-benar mengubah pertimbangan AI pada masa hadapan? Jika tidak, menambahnya hanyalah membazir wang dan menambah beban penyelenggaraan

Perkara yang sama berlaku pada bahagian reka bentuk. Jika anda menggunakan AI untuk membantu menghasilkan imej, mengubah draf, menulis cadangan, setiap pendapat perubahan daripada pelanggan ialah isyarat maklum balas anda. Catat dengan spesifik 'mengapa pelanggan menolak versi ini', dan elakkan perkara itu dalam cadangan seterusnya, barulah kadar kejayaan anda akan meningkat; jika hanya membiarkan fail draf yang ditolak dan tidak menyimpulkan puncanya, mengubah seratus versi juga akan berada di tempat yang sama

印刷廠的 AI 報價、追單、客服，反饋閉環怎麼設計？｜你的 AI 報價助手為什麼越用越歪？關鍵在反饋段落重點

Jika mahu memperkenalkan fungsi memori AI, pasang satu pintu gerbang dahulu

Sesetengah pembekal akan mempromosikan fungsi memori seperti 'AI akan mengingati tabiat syarikat anda', kedengaran sangat indah. Tetapi terdapat peringatan dalam kertas kajian ini yang sangat saya setujui

Seni bina memori menyelesaikan syarat keempat iaitu retain yang paling sukar, tetapi ia 'hanya' menyelesaikan keupayaan untuk ingat, dan tidak membantu anda menapis sama ada tiga syarat pertama itu betul atau berulang

Dalam erti kata lain, jika anda menyimpan maklum balas yang salah, berulang, dan seperti gangguan ke dalamnya, memori yang salah ini akan dipanggil dan digunakan berulang kali, toksiknya lebih besar daripada tiada memori. Ini bersamaan dengan memperbesarkan 'kesalahan yang semakin teruk' daripada sekali kepada kekal

Oleh itu, apabila memperkenalkan sebarang fungsi memori, ia mesti dilengkapi dengan 'pintu gerbang penulisan': Adakah maklumat ini cukup bermaklumat, cukup boleh dipercayai, dan tidak berulang? Baru simpan selepas lulus. Bagi kilang percetakan, ia bermaksud jangan biarkan keutamaan pelanggan yang dicatat secara sambil lewa oleh staf jualan dan tidak disahkan, secara automatik menjadi 'fakta' sistem

Juga harus jujur, kertas kajian ini bukan ubat ajaib. Itu:

・0.94 hingga

・0.99 had atas, menggunakan maklumat ideal yang jawapannya diketahui selepas kejadian (kertas kajian memanggilnya Oracle-EFC), sistem sebenar tidak dapat melakukannya, jadi itu adalah siling teori, bukan angka yang anda boleh dapat esok. Dan syarat 'adakah maklum balas benar-benar mengubah keputusan', sendiri pun sukar untuk dinilai. Tetapi walaupun diskaun ini dibuat, saya sangat menyokong hala tuju terasnya

Persaingan alat AI masa depan bukan tentang siapa yang menggantung lebih banyak fungsi atau siapa yang mempunyai kotak perbualan yang panjang, tetapi siapa yang boleh membiarkan setiap maklum balas benar-benar digunakan. Pembantu AI yang baik bukan membiarkannya bekerja lebih banyak, tetapi seperti seorang sifu yang baik, membiarkannya benar-benar belajar sesuatu dalam setiap langkah yang dilakukan

想導入 AI 記憶功能，要先裝一道閘門｜你的 AI 報價助手為什麼越用越歪？關鍵在反饋段落重點

Ringkasan Fokus

・Memberi lebih banyak kuasa pengkomputeran dan alat kepada AI hanya boleh menjelaskan tiga atau empat puluh peratus hasil (R²: 0.33 hingga 0.42), enam puluh peratus lagi bergantung kepada kualiti maklum balas

・Kuasa pengkomputeran tidak berubah, hanya menjadikan maklum balas berkesan, kadar kejayaan boleh melonjak daripada 27% kepada 90%, perbezaannya ialah 'berlatih dengan betul' bukan 'berlatih dengan banyak'

・Maklum balas berkesan perlu mencapai serentak: bermaklumat, tepat, tidak berulang, dan digunakan. Kekurangan syarat keempat bermakna latihan sia-sia

・Fungsi memori AI hanya menyelesaikan 'boleh ingat', tidak akan membantu anda menapis kesalahan; jika tiada pintu gerbang penulisan dipasang, memori yang salah lebih toksik daripada tiada memori

・Memasukkan semula kes kegagalan sebut harga dan pengubahsuaian draf AI setiap bulan adalah tindakan kunci untuk menjadikannya semakin tepat

Pemikiran Lanjutan

Bagi kilang percetakan dan studio reka bentuk, inspirasi sebenar bukan 'perlukah memperkenalkan AI', tetapi 'adakah terdapat mekanisme penilaian yang direka bentuk selepas pengenalan'. Kebanyakan orang tersekat pada langkah pertama dan berhenti, menganggap penyambungan alat sebagai titik akhir. Saya cadangkan bermula dengan satu perkara kecil: pilih satu senario kekerapan tinggi, seperti sebut harga katalog atau pertanyaan sampel pelekat, bina jadual jawapan standard tiga puluh item dahulu, kemudian susun masa pengisian semula satu jam setiap bulan, khusus untuk mengambil kes AI yang menjawab salah untuk membaiki peraturan. Setelah gelung ini berjalan lancar, baru pertimbangkan untuk menambah fungsi memori atau meluaskan skop. Bagi pembekal yang melakukan perkhidmatan bersepadu, ini juga merupakan titik akses untuk terikat dengan pelanggan dalam jangka masa panjang: anda membantu pelanggan mereka bentuk gelung maklum balas, sistem akan menjadi semakin sesuai dengan keperluannya semasa digunakan, bukannya dibuang selepas digunakan selama setengah tahun kerana dianggap tidak tepat

Bacaan Lanjutan

・Agent juga perlukan 'maklum balas tepat pada masanya': Effective Feedback Compute dan deliberate practice bagi Agent

FAQ

AI sebut harga semakin tidak tepat selepas lama digunakan, apakah puncanya?: Biasanya ia bukan masalah keupayaan model, tetapi kekurangan gelung maklum balas. Jika tiada isyarat betul-salah yang jelas selepas AI memberi sebut harga, dan tiada sesiapa yang mengambil kes kesalahan untuk membaiki peraturan secara berkala, ia akan terus mengulangi pertimbangan yang salah, malah memperbesarkannya
Apakah itu Effective Feedback Compute (EFC)?: EFC ialah konsep untuk mengukur kualiti maklum balas AI, yang merujuk kepada maklum balas yang hanya dianggap berkesan jika ia memenuhi empat syarat serentak: 'bermaklumat, tepat, tidak berulang, dan benar-benar digunakan'. Kajian membuktikan bahawa dengan kuasa pengkomputeran yang sama, hanya meningkatkan kualiti maklum balas boleh meningkatkan kadar kejayaan tugas daripada 27% kepada 90%
Apakah langkah pertama yang perlu dilakukan oleh kilang percetakan berskala sederhana jika mahu AI mereka semakin tepat?: Bina jadual perbandingan jawapan standard terlebih dahulu, susun kod bahan yang betul, penggunaan kertas, proses kemasan, dan julat sebut harga yang munasabah untuk dua puluh atau tiga puluh produk yang paling kerap diminta. Dengan ground truth ini, barulah anda boleh mengetahui dan membetulkan apabila AI memberi sebut harga yang salah, inilah titik permulaan membina gelung maklum balas
Adakah fungsi 'memori' AI berbaloi untuk diperkenalkan?: Berbaloi, tetapi mesti dilengkapi dengan pintu gerbang penulisan. Fungsi memori hanya boleh menyelesaikan 'boleh ingat', dan tidak akan membantu anda menapis maklumat yang salah atau berulang. Jika maklumat gangguan dan pertimbangan salah juga disimpan, memori yang salah ini akan digunakan berulang kali, yang sebenarnya lebih teruk daripada tiada memori
Bagaimana pereka bentuk boleh membuat AI memahami pelanggan dengan lebih baik semasa menggunakan AI untuk membantu mengubah draf?: Catat dan simpulkan punca spesifik setiap kali pelanggan menolak draf, dan elakkan perkara itu secara langsung dalam cadangan seterusnya, barulah kadar kejayaan akan meningkat. Jika hanya membiarkan fail draf yang ditolak dan tidak menganalisis puncanya, mengubah berapapun versi akan tetap berada di tempat yang sama, inilah perbezaan sama ada gelung maklum balas ditutup atau tidak

Kembali ke Pengetahuan