Почему эффективность ИИ-инструментов перестает расти через полгода?
Я посетил несколько клиентов за последние пару месяцев, и владельцы многих средних типографий спрашивали об одном и том же: ИИ-помощники по расчету цен и чат-боты для LINE, которые они внедрили в прошлом году, поначалу впечатляли, но теперь кажется, что прогресса нет, а иногда ошибки становятся еще серьезнее
Этот феномен подробно описан в недавней статье «Scaling Laws for Agent Harnesses via Effective Feedback Compute» авторства Xuanliang Zhang и других. Я читал китайский обзор от Wisely Chen
Она количественно оценивает контринтуитивный факт: вы думаете, что «увеличение вычислительной мощности, добавление инструментов и количество попыток» сделают ИИ сильнее, но это не так
В статье для объяснения успешности задач используются raw tokens и tool calls, а коэффициент корреляции R² составляет всего:
・0.33 до
・0.42
Если перевести это на простой язык типографии: если вы сделаете записи диалогов с ИИ-поддержкой максимально подробными, увеличите количество перерасчетов цен с одного до трех и подключите еще пару баз данных — все эти действия «я много сделал» объясняют лишь 30-40% результата, а остальные 60% не зависят от того, сколько ресурсов вы потратили
Я сравниваю это с обучением ученика. Мастер заставляет ученика печатать по двести пробных листов в день, но никогда не указывает на ошибки и не говорит, где сместились цвета. Такой ученик и после десяти тысяч листов останется на том же уровне. Он не стал лучше, он просто больше устал

Что такое EFC? И как это связано с «обучением у мастера»?
Основная концепция статьи называется Effective Feedback Compute, сокращенно EFC. Смысл в том, что не все взаимодействия имеют значение — только «эффективная обратная связь» заставляет ИИ действительно прогрессировать
Она определяет четыре условия для эффективной обратной связи, и я сопоставлю их с типографскими сценариями:
・Informative (информативность): обратная связь должна содержать новые данные. Если клиент жалуется на цену, но не говорит, дорогая ли это бумага или постпечатная обработка — такая обратная связь бесполезна
・Valid (достоверность): обратная связь должна быть надежной, а не шумом или догадками. Если менеджер небрежно записал «клиенту не важна цена», а на самом деле это не так, — внесение такой ошибочной информации принесет больше вреда, чем пользы
・Non-redundant (отсутствие дублирования): не повторяйте то, что уже известно. Если система сто раз записала «клиент хочет 100-фунтовую мелованную бумагу», в этом нет новой информации
・Retained (учет): самое важное. Была ли обратная связь действительно использована в следующем решении? Если менеджер сказал правильное суждение в чате, но никто не внес это в логику ценообразования, это равносильно тому, что он молчал
Самая важная цифра здесь: статья провела контрольный эксперимент, в котором при неизменном бюджете вычислительных мощностей только за счет повышения качества обратной связи успешность выполнения задач выросла с 27% до 90%
Стоимость не увеличилась ни на копейку, просто обратная связь стала эффективной, и успешность выросла более чем в три раза. После пересчета объясняющая способность R² с:
・0.33 резко подскочила до
・0.94 до
・0.99
Эта теория — на самом деле то, о чем десятилетиями говорят в науке обучения как о «целенаправленной практике» (deliberate practice): обратная связь должна быть конкретной, правильной и использоваться в следующей практике. Тренироваться без анализа и анализировать без исправлений — все равно что не тренироваться вовсе. ИИ работает по тем же принципам, что и люди

Как спроектировать цикл обратной связи для ИИ в расчетах, заказах и поддержке клиентов типографии?
Понимая принцип, проблема сводится к вопросу: как реально замкнуть этот цикл в производственном процессе? Я предлагаю несколько шагов, которые можно начать делать уже на этой неделе
Во-первых, создайте таблицу «стандартных ответов». Найдите 20-30 типов продукции, которые вы рассчитывали чаще всего за последние полгода — каталоги на скрепке, книги в мягком переплете, наклейки, картонные коробки — и приведите правильные артикулы, материалы, постпечатную обработку и разумные ценовые диапазоны в соответствие с ground truth. Если ИИ выдает цену, которая не соответствует этому списку, у вас будет «сигнал об ошибке» для корректировки; иначе вы даже не узнаете, что он ошибается
Во-вторых, сохраняйте записи о каждой ошибке ИИ, причем указывайте первопричину. Не просто «ошибка в расчете», а «он посчитал картон 250 г/м² как 200 г/м²» или «забыл включить стоимость УФ-лака». Это соответствует критерию Informative: будьте конкретны настолько, чтобы можно было предпринять действия
В-третьих, регулярно используйте неудачные примеры для обучения. Раз в месяц выделяйте час, чтобы взять случаи, где ИИ неверно рассчитал цену или ответил клиенту, и исправить его промпты или правила. Этот шаг — и есть Retained; именно так обратная связь становится «замкнутой». Просто просмотренные диалоги не считаются, а систематизированные и исправленные правила — считаются
В-четвертых, перед добавлением любой функции проверяйте её по четвертому условию EFC. Хотите подключить еще один инструмент или автоответчик? Сначала спросите себя: действительно ли это изменит решение ИИ в следующий раз? Если нет, то добавление — это пустая трата денег и лишняя нагрузка на обслуживание
То же самое касается и дизайна. Если вы используете ИИ для генерации изображений, правки макетов или написания предложений, комментарии клиентов — это ваш сигнал обратной связи. Записывайте конкретно, «почему клиент отклонил этот вариант», и избегайте этого в следующий раз — только так вырастет ваш процент попаданий. Если просто оставлять отклоненные файлы без анализа причин, вы будете топтаться на месте даже после сотни правок

Прежде чем внедрять функцию памяти ИИ, установите «шлюз»
Некоторые поставщики предлагают функцию «ИИ запомнит привычки вашей компании» — звучит заманчиво. Но в статье есть важное предупреждение, с которым я полностью согласен
Архитектура памяти решает четвертое условие из четырех, самое сложное — «retain» (учет), но она «только» обеспечивает запоминание и не поможет вам отфильтровать ошибочные или повторяющиеся данные из первых трех условий
Другими словами, если вы без разбора сохраните ошибочную, избыточную или шумную обратную связь, эти ошибочные воспоминания будут постоянно использоваться, и их токсичность будет выше, чем при отсутствии памяти. Это означает, что «ошибки становятся все серьезнее» — из разовых они превратятся в постоянные
Поэтому при внедрении любой функции памяти обязательно добавьте «шлюз записи»: достаточно ли эта информация полезна, достоверна и уникальна? Сохраняйте только после проверки. Для типографии это означает: не позволяйте случайным предпочтениям клиентов, записанным менеджерами «на ходу» и не проверенным, автоматически становиться «фактами» системы
Честно говоря, эта статья — не панацея. Тот диапазон:
・0.94 до
・0.99
был достигнут в идеальных условиях с информацией, известной постфактум (в статье это названо Oracle-EFC), реальные системы так не работают — это теоретический потолок, а не цифры, которые вы получите завтра. И критерий «действительно ли обратная связь изменила решение» сам по себе труден для оценки. Но даже с учетом этих скидок я полностью поддерживаю основное направление
Конкуренция ИИ-инструментов в будущем будет не в том, у кого больше функций или длиннее диалоговые окна, а в том, кто сможет заставить каждую крупицу обратной связи действительно работать. Хороший ИИ-помощник — это не тот, который работает больше, а тот, который, как хороший мастер, учится на каждом своем шаге

Краткие выводы
・Предоставление ИИ больших вычислительных мощностей и инструментов объясняет лишь 30-40% результатов (R²:
・0.33
・0
・42), остальные 60% зависят от качества обратной связи
・При неизменной вычислительной мощности, если только повысить качество обратной связи, успешность выполнения задач может вырасти с 27% до 90%. Разница в том, чтобы «тренироваться правильно», а не «тренироваться много»
・Эффективная обратная связь должна одновременно удовлетворять четырем условиям: быть информативной, достоверной, не дублироваться и быть использованной. Отсутствие четвертого условия делает тренировку бесполезной
・Функция памяти ИИ решает только задачу «запоминания» и не поможет отфильтровать ошибки. Без внедрения «шлюза записи» ложная память будет вреднее, чем её отсутствие
・Ежемесячная загрузка неудачных случаев ИИ при расчете цен и правке макетов — это ключевое действие, которое заставляет его работать всё точнее
Дополнительные размышления
Для типографий и дизайн-студий истинный вывод не в том, «нужно ли внедрять ИИ», а в том, «есть ли после внедрения механизм оценки». Большинство застревают на первом этапе, считая внедрение инструментов конечной целью. Я предлагаю начать с малого: выберите один часто повторяющийся сценарий, например, расчет цены каталога или запрос на пробный оттиск наклейки, сначала создайте таблицу из тридцати стандартных ответов, а затем выделите один час в месяц для загрузки данных, где вы будете использовать только ошибочные ответы ИИ для исправления правил. Когда этот цикл наладится, тогда можно думать о внедрении функции памяти или расширении области применения. Для компаний, занимающихся интеграционными услугами, это также способ долгосрочной привязки клиентов: вы помогаете клиенту спроектировать цикл обратной связи, и система со временем всё лучше подстраивается под его потребности, вместо того чтобы быть выброшенной через полгода как неточная
Дополнительная литература
FAQ
- Почему система ИИ-расчета цен со временем работает всё менее точно?
- Обычно проблема не в возможностях модели, а в отсутствии замкнутого цикла обратной связи. Если после каждого расчета цены ИИ не получает четкого сигнала о том, верен он или нет, и никто регулярно не использует случаи ошибок для исправления правил, он будет постоянно повторять одну и ту же неверную логику и даже усиливать её
- Что такое Effective Feedback Compute (EFC)?
- EFC — это концепция оценки качества обратной связи ИИ, согласно которой эффективной считается только та обратная связь, которая одновременно является «информативной, достоверной, не дублирующейся и действительно используемой». Статья доказывает, что при неизменной вычислительной мощности повышение качества обратной связи может увеличить успешность задач с 27% до 90%
- С чего начать малым и средним типографиям, чтобы ИИ-инструменты работали точнее?
- Сначала составьте таблицу стандартных ответов: правильные артикулы, бумага, постпечатная обработка и разумные ценовые диапазоны для 20-30 наиболее частых товаров. Имея этот «ground truth», вы сможете обнаружить и скорректировать ошибки ИИ, что и является отправной точкой для создания цикла обратной связи
- Стоит ли внедрять функцию «памяти» ИИ?
- Стоит, но обязательно нужно установить «шлюз записи». Функция памяти решает только задачу «запоминания» и не поможет отфильтровать ошибочную или дублирующуюся информацию. Если сохранять в память шум и неверные логические суждения, они будут использоваться повторно, что сделает систему даже хуже, чем без памяти
- Как сделать так, чтобы ИИ лучше понимал требования клиентов при правке макетов дизайнером?
- Записывайте и обобщайте конкретные причины каждого отказа клиента от правки, чтобы в следующий раз сразу их избегать — только так вырастет процент успешных предложений. Если просто оставлять файлы с правками без анализа, вы будете топтаться на месте, и это главная разница между наличием и отсутствием замкнутого цикла обратной связи
Похожие статьи
- Проектирование «рабочей памяти» AI-агента: используем структуру папок, чтобы AI не терял ориентиры
- Измените hub на summarize: превратите GitHub в базу знаний одним щелчком AI
- Архитектурный выбор при внедрении OCR обработки расписок: три поколения эволюции и принципы разделения труда между человеком и машиной
