Уводзіны: чаму распазнаванне квітанцый — гэта «цяжкі арэшак» для лічбавізацыі паліграфічнай індустрыі
Вытворчы працэс у паліграфічнай індустрыі моцна залежыць ад папяровага дакументаабароту. Ад рабочых лістоў, створаных аддзелам продажаў, да квітанцый на заводзе (накладныя на атрыманне, накладныя на адгрузку, пацвярджэнні выканання працэсаў, вернутыя з пляцоўкі) і сертыфікатаў аб атрыманні, дастаўленых лагістыкай — гэтыя дакументы нясуць ключавую інфармацыю, такую як спецыфікацыі заказаў, колькасць, тэрміны і размеркаванне адказнасці. Калі друкарні спрабуюць лічбаваць планаванне, магутнасці і ўлік, распазнаванне квітанцый часта становіцца першым і найбольш складаным бар'ерам. Цяжкасць заключаецца не ў тым, каб «прачытаць словы», а ў тым, што кампаноўка такіх дакументаў не з'яўляецца фіксаванай, фарматы ў розных пастаўшчыкоў адрозніваюцца, рукапісныя заўвагі і выпраўленні частыя, а якасць сканаванняў, зробленых на месцы, вельмі неаднастайная [1]
Апошнія дасягненні ў галіне генератыўнага AI і мультымадальных мадэляў стварылі папулярнае меркаванне, што «праблема OCR даўно вырашана». Аднак прымяненне Vision Language Model (VLM) непасрэдна ў рэальным вытворчым асяроддзі і атрыманне высокіх балаў на чыстых наборах даных — гэта дзве зусім розныя праблемы. Даследаванне набору даных, пабудаванага на аснове квітанцый, сфатаграфаваных на мабільныя прылады ў Японіі, паказала, што нават пры спецыяльнай даналадцы (fine-tuning) для вынятку структураваных даных з квітанцый, прадукцыйнасць мадэлі застаецца моцна залежнай ад прадстаўнічасці набору даных і разнастайнасці кампаноўкі [2]. Іншымі словамі, лічбы на benchmark нельга прама экстрапаляваць на любы фармат дакументаў на любой фабрыцы
Даследчыя пытанні гэтага артыкула:
・Тры:
・Па-першае, праз якія пакаленні прайшлі тэхналогіі распазнавання квітанцый і якія межы прымянімасці кожнага пакалення
・Па-другое, чаму «найноўшая мадэль» не абавязкова з'яўляецца «найлепшым рашэннем» і якія фактары ляжаць у аснове тэхналагічнага выбару
・Па-трэцяе, для тайваньскіх малых і сярэдніх друкарняў з абмежаванымі рэсурсамі, якім архітэктурным прынцыпам і логіцы размеркавання варта прытрымлівацца пры ўкараненні працаздольнай сістэмы распазнавання квітанцый. У гэтым артыкуле выкарыстоўваецца вопыт укаранення OCR тайваньскім інжынерам у якасці першакрыніцы [1] у спалучэнні з літаратурай па OCR для дакументаў і кіраванні ўкараненнем AI для крытычнага сінтэзу
Уклад гэтага артыкула заключаецца ў наступным: распазнаванне квітанцый разглядаецца не як простая задача выбару мадэлі, а як сістэмная інжынерная задача, якая патрабуе сінэргіі трох слаёў: «слая распазнавання, слая структуравання і слая праверкі», і прапануецца працаздольны прынцып размеркавання. Для друкарняў, якія ацэньваюць лічбавізацыю працэсаў, гэты артыкул прапануе рэдкую мясцовую перспектыву ўкаранення

Агляд літаратуры і бягучага стану: пераход ад цэнтральнага размяшчэння мадэлі да сістэмнага
Існуючыя дыскусіі аб распазнаванні дакументаў можна падзяліць на тры групы ў залежнасці ад іх асноўных клопатаў, паміж якімі існуе відавочная напружанасць у пазіцыях
Першая група — тэорыя цэнтральнасці мадэльных здольнасцей. Гэты кірунак факусуецца на тым, як прымусіць адну мадэль атрымліваць больш высокія балы ў задачах вынятку даных з квітанцый. Згаданае вышэй даследаванне японскіх мабільных квітанцый належыць да гэтай катэгорыі; яно пабудавала набор даных з каля 1,3 тыс. анатаваных запісаў і выкарыстала fine-tuning VLM для вываду структураваных палёў квітанцый, даказваючы, што «якасць набору даных плюс мэтанакіраваная даналадка» можа значна павысіць дакладнасць структураванага вынятку [2][4]. Каштоўнасць такіх даследаванняў заключаецца ў прадастаўленні метадалогіі, якую можна прайграць, і колькасных стандартаў, але іх нявыказанай перадумовай з'яўляецца «адносная ўзгодненасць размеркавання даных». Як толькі сутыкаешся з «доўгім хвастом» (long tail) распаўсюджвання, калі ў кожнай друкарні свой фармат, які пастаянна папаўняецца новымі фарматамі, выдаткі на абслугоўванне і здольнасць да абагульнення адзінай даналаджанай мадэлі становяцца праблематычнымі
Другая група — тэорыя інструментаў і інжынернай практыкі. З папулярызацыяй AI coding agents распрацоўшчыкі могуць з меншымі выдаткамі злучаць OCR, LLM і бэкэнд-логіку. Адпаведная практычная літаратура фіксуе мадэлі супрацоўніцтва і абмежаванні AI coding agents у рэальных сцэнарах распрацоўкі, адзначаючы, што яны могуць паскорыць генерацыю шаблонаў кода і злучэнне інструментаў, але ўсё яшчэ патрабуюць умяшання чалавека пры прыняцці рашэнняў, якія датычацца ведаў у галіне [5]. Існуюць таксама рэалізацыі пакетаў, якія інтэгруюць AI coding agents у пэўныя асяроддзі аналізу (напрыклад, RStudio), што паказвае, што «выкарыстанне агентаў для дапамогі ў канвееры апрацоўкі даных» стала працаздольнай інжынернай парадыгмай [3]. Гэтая група пераносіць фокус з таго, «наколькі моцная мадэль», на тое, «як пабудаваць сістэму», утвараючы камплементарныя, а не замяшчальныя адносіны з першай групай
Трэцяя група — тэорыя кіравання ўкараненнем AI. Гэты кірунак выходзіць за рамкі тэхнічных дэталяў і даследуе, як арганізацыі павінны «мудра кіраваць AI». Адпаведныя даследаванні падкрэсліваюць, што поспех сістэм AI залежыць не толькі ад дакладнасці алгарытмаў, але і ад падзелу адказнасці паміж чалавекам і сістэмай, а таксама ад інстытуцыйнага апрацоўвання нявызначанасці [6]. Гэты погляд асабліва важны для распазнавання квітанцый: калі мадэль не можа надзейна прачытаць дрэнны фотаздымак, праекціроўшчык сістэмы павінен загадзя вырашыць, «каму перадаць гэтую сітуацыю і які працэс выкарыстаць для падстрахоўкі», замест таго, каб спадзявацца, што мадэль дасягне немагчымай дакладнасці 100%
Аб'ядноўваючы тры групы, можна ўбачыць тэндэнцыю змены дыскурсу: раннія дыскусіі былі схіленыя да цэнтральнасці мадэльных здольнасцей, мяркуючы, што калі мадэль дастаткова моцная, праблема будзе вырашана; нядаўнія дыскусіі паступова перамясціліся да цэнтральнасці сістэмы і кіравання, прызнаючы, што мадэль мае сваю столь, і тое, што сапраўды вызначае поспех укаранення, — гэта дызайн папярэдняй і наступнай апрацоўкі, механізмы размеркавання і праверка чалавекам. Аднак існуючая літаратура ў асноўным абмяжоўваецца сваімі групамі: даследаванні мадэляў рэдка гавораць пра «доўгі хвост» і падстрахоўку ў вытворчым асяроддзі, інжынерная практыка рэдка гаворыць пра межы колькаснай дакладнасці, а даследаванні кіравання занадта абстрактныя і пазбаўленыя канкрэтных дэталяў тэхнічнага ўкаранення. Аналіз у гэтым артыкуле паказвае, што месца злучэння гэтых трох элементаў — гэта даследчы прабел у дыскусіях аб укараненні распазнавання квітанцый, і поўны мясцовы рэкорд укаранення якраз можа запоўніць гэты прабел [1]

Эвалюцыя трох пакаленняў: кожнае пакаленне ўсё яшчэ жыве, розніца ў сцэнарах
Тэхналагічную эвалюцыю распазнавання квітанцый можна падзяліць на тры пакаленні, ключавым момантам з'яўляецца разуменне таго, што гэта не лінейны працэс «хто каго замяняе», а сітуацыя, у якой кожнае пакаленне суіснуе ў залежнасці ад сцэнара і патрабаванняў бяспекі [1]
Першае пакаленне — гэта шлях OCR плюс рэгулярныя выразы (Regex). Падыход заключаецца ў тым, каб спачатку выкарыстаць традыцыйны рухавік OCR (напрыклад, Tesseract, Google Document AI) для пераўтварэння выявы ў тэкст, а затым выкарыстоўваць рэгулярныя выразы Python для вынятку па палях: дзе знаходзіцца нумар рахунку, які фармат даты, які адрас адпавядае якому правілу [1]. Перавагі гэтага шляху відавочныя: нізкі кошт, магчымасць працы афлайн, высокая хуткасць, вельмі стабільная, прадказальная і лёгкая ў адладцы пры фіксаваным фармаце, зусім не патрабуе LLM, няма выдаткаў на tokens [1]. Аднак яго ўразлівасць таксама відавочная: ён развальваецца пры змене фармату, пры змене віду рахунку трэба перапісваць увесь набор regex; як толькі OCR памыляецца або прапускае адну літару, увесь regex не супадае; чым больш кліентаў і чым больш заблытаныя фарматы, тым даўжэй і больш далікатным становіцца regex, што ў канчатковым выніку ператвараецца ў пекла абслугоўвання. Аналіз у гэтым артыкуле паказвае, што фундаментальнае абмежаванне першага пакалення ў тым, што яно зусім не разумее семантыку, а можа толькі жорстка параўноўваць радкі, таму не можа справіцца з «доўгім хвастом» фарматаў рахункаў у паліграфічнай індустрыі
Другое пакаленне — гэта шлях OCR плюс тэкставая LLM. Таксама спачатку выкарыстоўваецца OCR для пераўтварэння выявы ў тэкст, але замест напісання жорсткіх regex тэкст, выведзены OCR, перадаецца тэкставай LLM, якая разумее семантыку, выцягвае палі і запаўняе прапушчанае [1]. Паводле першакрыніц, пры гэтым метадзе дакладнасць значна павышаецца, прычыны чатыры: не трэба перапісваць regex пры змене фармату, LLM сама разумее семантыку; можа запаўняць прапушчаныя OCR сімвалы праз кантэкст; можа распазнаваць сінонімы або палі-псеўданімы (напрыклад, можна распазнаць як «Нумар рахунку», так і «Нумар накладной»); распрацоўка хуткая, выдаткі на абслугоўванне значна зніжаюцца [1]. Больш важна тое, што OCR і тэкставыя LLM маюць спелыя лакальныя рашэнні, якія могуць гарантаваць, што даныя не пакідаюць кампанію, што з'яўляецца вырашальнай перавагай для персанальных даных і канфідэнцыйных рахункаў [1]. Гэта перагукаецца з тэмай «суверэнітэту даных і межаў адказнасці», падкрэсленай у літаратуры па ўкараненні AI [6]
Аднак столь другога пакалення блакуецца OCR на папярэднім этапе. Калі OCR чытае няправільна, LLM атрымлівае няправільны тэкст, фарміруючы «смецце на ўваходзе — смецце на выхадзе»; працэс OCR губляе інфармацыю аб кампаноўцы і колерах, чырвоныя і сінія ручкі, структуры табліц, намаляваныя ад рукі лініі — усё гэта знікае, і LLM ніяк не можа даведацца пра гэта; рукапісны тэкст, подпісы, выпраўленні — кантэнт, які можна зразумець толькі пры поглядзе на выяву, становіцца скажоным пасля пераўтварэння ў тэкст [1]. Аналіз у гэтым артыкуле паказвае, што каштоўнасць і абмежаванні другога пакалення на самай справе з'яўляюцца двума бакамі аднаго медаля: яно вырашае праблемы болю regex і можа працаваць цалкам лакальна, але цана — столь распазнавання ўсяго канвеера абмяжоўваецца якасцю OCR на самым пачатку
Трэцяе пакаленне — гэта прамы вывад Vision LLM. Найноўшы падыход заключаецца ў тым, каб прапусціць OCR і непасрэдна падаць выяву квітанцыі мультымадальнай мадэлі (напрыклад, GPT-4o, Claude), дазваляючы ёй адначасова бачыць выяву і разумець семантыку, выдаючы структураваныя палі за адзін крок [1]. Яго каштоўнасць у тым, што ён можа непасрэдна вырашыць большасць праблем першых двух пакаленняў: разумее кампаноўку, табліцы, колеры і рукапісныя лініі; можа інтэрпрэтаваць рукапісны тэкст, выпраўленні, галачкі, подпісы і чырвоныя/сінія ручкі; можа выкарыстоўваць логіку і кантэкст для ацэнкі падобных знакаў (1 і l, O і 0) і запаўняць семантыку; няма патрэбы ў шаблонах, няма патрэбы ў regex, можа апрацоўваць нават пры змене фармату [1]. Гэта адпавядае напрамку даследаванняў па спецыялізаванай даналадцы VLM для вынятку даных са структураваных рахункаў, якія таксама пацвердзілі перавагу мультымадальных мадэляў пры працы са складанымі рахункамі [2]
Але цана трэцяга пакалення ляжыць у іншым: хуткасць вываду павольная, выявы ўваходзяць, вывад цяжкі, значна павольней за канвеер чыстага тэксту; выдаткі на vision tokens высокія, вельмі адчувальныя пры вялікіх аб'ёмах; магутныя мадэлі vision у асноўным знаходзяцца ў воблаку, жаданне працаваць цалкам лакальна і каб даныя не пакідалі кампанію пакуль што складана, таму другое пакаленне ўсё яшчэ мае каштоўнасць; і яно ўсё яшчэ не можа дасягнуць 100%, дрэнныя фотаздымкі (адсырэлыя або зробленыя тэлефонам як патрапіла) проста не захапілі інфармацыю, і мадэль не можа выратаваць гэта [1]. Аналіз у гэтым артыкуле паказвае, што абмежаванні трэцяга пакалення якраз пацвярджаюць ключавую тэму літаратуры па кіраванні: нявызначанасць мадэлі з'яўляецца структурна існуючай і павінна паглынацца інстытутамі і працэсамі, а не чакаць, што мадэль самастойна знікне [6]

Набор інструментаў і логіка выбару: трохвугольны кампраміс паміж коштам, лакальнай працай і дакладнасцю
Абстрактная эвалюцыя трох пакаленняў, прыземленая да канкрэтных інструментаў, прадстаўляе выразны трохвугольны кампраміс: кошт, лакальныя магчымасці і дакладнасць распазнавання цяжка атрымаць адначасова, сутнасць выбару заключаецца ў прыярытэтызацыі гэтых трох вымярэнняў у залежнасці ад сцэнара
На ўзроўні традыцыйных рухавікоў OCR (папярэдні этап першага і другога пакаленняў) у справаздачы пералічаны тры фактычна выкарыстаныя рашэнні [1]. Tesseract — самы стары рухавік з адкрытым зыходным кодам, цалкам лакальны, бясплатны, мае шмат моўных пакетаў, перавагі — стабільнасць, праца афлайн, велізарная супольнасць, але больш цяжка спраўляецца з кітайскай мовай, рукапісным тэкстам і складанай кампаноўкай, узровень распазнавання на скажоных дрэнных фотаздымках, зробленых на месцы, відавочна зніжаецца, падыходзіць як baseline для сцэнараў з чыстым фарматам, у асноўным друкаваным тэкстам [1]. PaddleOCR — з адкрытым зыходным кодам ад Baidu, можа быць разгорнуты лакальна (падтрымлівае NVIDIA GPU, Intel CPU і шмат іншых апаратных бэкэндаў), падтрымлівае больш за 100 моў, яго найбольшая каштоўнасць у асабліва моцнай падтрымцы кітайскай мовы і табліц, лепш за Tesseract для сцэнараў змешанай традыцыйнай кітайскай мовы і табліц, як у квітанцыях, і ўжо давяла ўвесь канвеер да «PDF або выявы ў структураваны JSON або Markdown», нават аналіз кампаноўкі ўключаны; калі патрэбна поўная лакальная праца і кітайскія дакументы, PaddleOCR амаль з'яўляецца пераважным baseline [1]. Google Cloud Vision або Document AI маюць высокую дакладнасць распазнавання, спелы аналіз кампаноўкі, лёгкае падключэнне API, спраўляюцца з рукапісным тэкстам і складанымі рахункамі, вопыт распрацоўкі першакласны, але галоўная праблема ў тым, што гэта воблачны сэрвіс, даныя павінны пакідаць кампанію, што натуральна канфліктуе з патрабаваннем «канфідэнцыйныя дакументы павінны апрацоўвацца лакальна» [1]
На ўзроўні Vision LLM, якія могуць працаваць лакальна (трэцяе пакаленне), супольнасць Open Source хутка даганяе, і варта звярнуць увагу на некалькі мадэляў 2025-2026 гадоў [1]. Qwen:
・2.5-VL (Alibaba), маштаб параметраў ад 7B да 72B, DocVQA дасягае
・95,7 бала, мае моцныя здольнасці да аналізу рукапіснага тэксту, табліц і шматмоўных дакументаў, найбольш развітая экасістэма, з'яўляецца асноўным кандыдатам для агульных дакументаў і квітанцый [1]. Апошняя версія PaddleOCR-VL (Baidu) мае каля
・0.9B параметраў, у OmniDocBench v
・1.6 дасягае больш за 96%, перамагае многія перадавыя вялікія мадэлі на арыгінальным OCR benchmark, падтрымлівае 109 моў, падыходзіць для сцэнараў, дзе патрабуецца поўная лакальная праца, імкненне да дакладнасці OCR і лёгкае разгортванне [1]. dots.ocr (rednote) мае каля
・1.7B параметраў, аб'ядноўвае выяўленне кампаноўкі і распазнаванне кантэнту
・у адно, падтрымлівае больш за 100 моў, ужо інтэграваны афіцыйна vLLM, з'яўляецца SOTA сярод малых мадэляў [1]. MiniCPM-V
・2.6 мае каля 8B параметраў, памер каля
・5.5GB, лёгка змяшчаецца на адну карту ці нават на edge-прылады, прадукцыйнасць OCR знаходзіцца ў верхняй частцы, падыходзіць для сцэнараў з абмежаванымі рэсурсамі, дзе патрэбна разгортванне на малых лакальных машынах [1]. olmOCR 2 (AllenAI) мае каля 7B параметраў, навучаны праз RLVR, цалкам з адкрытым кодам (уключаючы даныя і код) [1]
Аналіз у гэтым артыкуле паказвае, што гэты набор інструментаў раскрывае логіку выбару, якая адрозніваецца ад тэорыі цэнтральнасці мадэльных здольнасцей: праблема не ў тым, «якая мадэль мае самы высокі бал», а ў тым, «якое вымярэнне не падлягае кампрамісу для вашага сцэнара». Калі канфідэнцыйныя даныя не могуць пакідаць кампанію, лакальныя магчымасці з'яўляюцца жорсткім абмежаваннем, выбар зводзіцца да PaddleOCR плюс тэкставая LLM або лакальная Vision LLM; калі рукапісны тэкст і выпраўленні інтэнсіўныя, і даныя могуць ісці ў воблака, то дакладнасць распазнавання мае прыярытэт, воблачная Vision LLM становіцца разумным выбарам [1]. Згаданае раней даследаванне па даналадцы VLM таксама ўскосна падтрымлівае гэтае меркаванне: наборы даных і мадэлі павінны быць узгоднены з мэтавым сцэнарам, абмяркоўваць перавагі і недахопы мадэляў па-за сцэнарам мае абмежаваны сэнс [2][4]
Больш практычная выснова заключаецца ў тым, што яны часта выкарыстоўваюцца ў суме: для ясных рахункаў выкарыстоўваецца танны лакальны канвеер, для складаных — Vision LLM [1]. Гэта сумеснае выкарыстанне па сутнасці з'яўляецца стратэгіяй размеркавання выдаткаў, якая захоўвае дарагія рэсурсы высокага ўзроўню для некалькіх складаных выпадкаў, якія сапраўды ў гэтым маюць патрэбу, а не выкарыстоўвае самыя цяжкія мадэлі для кожнага рахунку без разбору

Архітэктурныя прынцыпы: мінімізацыя распазнавання, максімізацыя сістэмы, перадача нявызначанасці чалавеку
У справаздачы вопыт быў выкрышталізаваны ў архітэктурны прынцып: мінімізацыя распазнавання, максімізацыя сістэмы, перадача нявызначанасці чалавеку [1]. У гэтым артыкуле сцвярджаецца, што гэты сказ можна разбіць на тры ўзроўні сістэмных прынцыпаў дызайну, якія ўтвараюць тэарэтычнае рэха з літаратурай па кіраванні
Першы ўзровень — стандартызацыя папярэдняй апрацоўкі. Няўдачы пры распазнаванні квітанцый у значнай ступені адбываюцца не ў мадэлі, а на ўваходзе. Адсырэлыя, скрыўленыя, зробленыя як патрапіла фотаздымкі не маюць інфармацыі, захаванай цалкам, і нават самая магутная мадэль не можа стварыць яе з нічога [1]. Таму першая інжынерная задача сістэмы — стандартызаваць уваходныя даныя як мага больш перад распазнаваннем: выпраўленне скрыўлення, абрэзка, паляпшэнне кантраснасці, фільтрацыя выяў нізкай якасці. Аналіз у гэтым артыкуле паказвае, што філасофія дызайну гэтага ўзроўню — «перахапіць нявызначанасць загадзя», замест таго, каб дазволіць дрэнным уваходным даным забрудзіць увесь канвеер, лепш размяркоўваць іх на ўваходзе. Праблема разнастайнасці кампаноўкі набораў даных, падкрэсленая Японскім інстытутам даследавання мабільных квітанцый, па сутнасці таксама нагадвае: варыяцыі на ўваходзе павінны апрацоўвацца сістэмна, а не перакладацца цалкам на мадэль [2]
Другі ўзровень — структураваны вынятак праз LLM. Гэты ўзровень адпавядае духу «мінімізацыі распазнавання»: не патрабаваць ад мадэлі выканання ўсіх меркаванняў за адзін раз, а дазволіць ёй засяродзіцца на пераўтварэнні зместу кампаноўкі ў структураваныя палі. Незалежна ад таго, выкарыстоўваецца тэкставая LLM другога пакалення або Vision LLM трэцяга пакалення, сутнасць у тым, каб адлюстраваць неструктураваныя выявы або тэкст у выразную схему (нумар рахунку, назва прадукту, колькасць, тэрміны, статус атрымання і г.д.) [1]. Аналіз у гэтым артыкуле паказвае, што перавагі схемызацыі задач вынятку наступныя:
・Два:
・Па-першае, вывад можа быць непасрэдна спажыты наступнымі сістэмамі, зніжаючы выдаткі на наступную апрацоўку
・Па-дру-гое, схема забяспечвае кропку прывязкі, якую можна праверыць, дазваляючы сістэме вызначыць, ці надзейна вынята пэўнае поле. AI coding agent асабліва можа паскорыць распрацоўку на гэтым узроўні, аўтаматызуючы злучэнне і лагічныя шаблоны, дазваляючы інжынерам засяродзіцца на дызайне схемы і правілаў праверкі [5][3]
Трэці ўзровень — шлюз праверкі чалавекам. Гэта ключ да ўсёй архітэктуры, а таксама інстытуцыйнае ўвасабленне «перадачы нявызначанасці чалавеку». Вынятак кожнага поля мадэллю павінен суправаджацца паказчыкам упэўненасці або вынікам праверкі; калі ўпэўненасць ніжэй за парог або паміж палямі з'яўляюцца лагічныя супярэчнасці (напрыклад, колькасць і сума не супадаюць), сістэма не павінна аўтаматычна прапускаць дакумент, а павінна накіраваць яго на праверку чалавекам [1]. Аналіз у гэтым артыкуле паказвае, што дызайн гэтага ўзроўню ператварае структурную нявызначанасць мадэлі ў працаздольны працэс працы чалавека, што і з'яўляецца канкрэтным укараненнем таго, што літаратура па кіраванні сцвярджае як «мудрае кіраванне AI»: сістэма не прыкідваецца ідэальнай, а загадзя распрацоўвае адказнасць і шляхі падстрахоўкі для нявызначаных сітуацый [6]
Разглядаючы тры ўзроўні разам, можна вывесці тыповы сцэнар размеркавання. Мяркуецца, што друкарня атрымлівае 1000 квітанцый у дзень, з якіх каля 80% — гэта друкаваныя квітанцыі з выразным фарматам, якія могуць быць апрацаваны з высокай хуткасцю і нізкімі выдаткамі праз лакальную OCR плюс тэкставая LLM; каля 15% — гэта квітанцыі сярэдняй складанасці з рукапісным тэкстам або выпраўленнямі, якія накіроўваюцца ў Vision LLM; астатнія каля 5% — гэта квітанцыі з дрэннай якасцю або супярэчнасцямі, якія накіроўваюцца непасрэдна на праверку чалавекам [1]. У гэтым ацэначным сцэнары самыя дарагія воблачныя Vision LLM павінны апрацоўваць толькі каля 15% аб'ёму, а чалавечая праца павінна быць сфакусавана толькі на самых складаных выпадках. Аналіз у гэтым артыкуле паказвае, што такое шматслаёвае размеркаванне — гэта не толькі аптымізацыя дакладнасці, але і аптымізацыя структуры выдаткаў, яна дазваляе маргінальным выдаткам сістэмы расці ў залежнасці ад размеркавання складанасці, а не лінейна ад агульнага аб'ёму

Значэнне для тайваньскай індустрыі дызайну і друку
Вышэйзгаданыя архітэктурныя прынцыпы маюць выразнае працаздольнае значэнне для розных роляў у тайваньскай індустрыі дызайну і друку
Для малых і сярэдніх друкарняў самым важным урокам з'яўляецца тое, што нельга разглядаць распазнаванне квітанцый як задачу пакупкі «набыць мадэль і вырашыць праблему», а як задачу працэсу «пабудаваць сістэму размеркавання». З пункту гледжання канкрэтных дзеянняў рэкамендуецца выкарыстоўваць PaddleOCR плюс лакальная тэкставая LLM у якасці baseline, каб спачатку аўтаматызаваць звычайныя квітанцыі з выразным фарматам і вялікім аб'ёмам, гэтая частка амаль не мае выдаткаў на tokens, і даныя не пакідаюць кампанію, што адпавядае заклапочанасці большасці друкарняў наконт канфідэнцыйнасці заказаў кліентаў [1]. На гэтай аснове выбіраецца селектыўнае падключэнне да воблачнай Vision LLM для складаных квітанцый з рукапісным тэкстам і выпраўленнямі, і неабходна ўсталяваць парогі ўпэўненасці і шлюзы праверкі чалавекам [1]. Аналіз у гэтым артыкуле паказвае, што з пункту гледжання графіка такога паступовага ўкаранення, кампаніі могуць спачатку запусціць baseline на працягу некалькіх тыдняў, каб апрацаваць 80% аб'ёму, а затым паступова павышаць працэнт аўтаматызацыі складаных выпадкаў, а не імкнуцца да поўнай аўтаматызацыі з самага пачатку
Для дызайнераў лічбавізацыя квітанцый і рабочых лістоў азначае, што інфармацыя аб спецыфікацыях (памеры, папера, спецыяльная апрацоўка) можа больш надзейна перадавацца з паперы ў лічбавыя сістэмы, памяншаючы памылкі ў спецыфікацыях, выкліканыя перапісваннем чалавекам. Аналіз у гэтым артыкуле паказвае, што калі сістэма распазнавання можа стабільна выцягваць структураваныя палі, узгадненне спецыфікацый паміж дызайнам і вытворчасцю стане больш аператыўным, а выдаткі на камунікацыю пры праверцы проб і зменах павінны знізіцца. Акрамя таго, калі дызайнеры разумеюць перавагу сістэмы распазнавання да «выразнай кампаноўкі», яны могуць выкарыстоўваць фіксаваныя палі і прыярытэт друкаванага тэксту пры дызайне шаблонаў рабочых лістоў, зваротна зніжаючы цяжкасць наступнага распазнавання
Для брэндаў значэнне лічбавізацыі квітанцый заключаецца ў бачнасці ланцужка паставак і адсочванні адказнасці. Калі кожная квітанцыя аб атрыманні і адгрузцы запісваецца структуравана, брэнды могуць адсочваць статус руху заказаў у паліграфічным ланцужку паставак і выклікаць надзейныя лічбавыя сертыфікаты пры ўзнікненні спрэчак. Аналіз у гэтым артыкуле паказвае, што гэта таксама адгукаецца на ядро літаратуры па кіраванні ўкараненнем AI: каштоўнасць сістэмы заключаецца не толькі ў эфектыўнасці аўтаматызацыі, але і ў тым, як яна пераразмяркоўвае межы адказнасці і даверу паміж чалавекам і сістэмай [6]. Брэнды пры ўкараненні павінны асабліва звярнуць увагу на тое, ці з'яўляецца след аўдыту шлюзаў праверкі поўным, каб пераканацца, што аўтаматызацыя не ідзе ў ахвяру падсправаздачнасці
Агульным для ўсіх роляў з'яўляецца кампраміс паміж кібербяспекай і лакальнасцю. Тайваньская паліграфічная індустрыя прымае вялікую колькасць квітанцый, якія змяшчаюць персанальныя даныя і камерцыйныя сакрэты (напрыклад, друк рахункаў, даныя членаў, друк фінансавых справаздач), што робіць «даныя не пакідаюць кампанію» часта непадлеглым кампрамісу абмежаваннем. Аналіз у гэтым артыкуле паказвае, што менавіта таму шлях другога пакалення OCR плюс тэкставая LLM асабліва важны ў тайваньскім прамысловым сцэнары: ён захоўвае суверэнітэт даных лакальнага разгортвання пры прымальнай здольнасці распазнавання, чаго чыста воблачныя рашэнні Vision LLM пакуль што цяжка дасягнуць [1]
Заключэнне і абмежаванні
У гэтым артыкуле выкарыстоўваецца рэальны кейс укаранення OCR тайваньскай друкарняй у якасці асноўнага прыкладу, адказваючы на тры даследчыя пытанні, пастаўленыя ва ўводзінах:
・Па-першае, распазнаванне квітанцый прайшло праз эвалюцыю трох пакаленняў: OCR плюс рэгулярныя выразы, OCR плюс тэкставая LLM, і прамы вывад Vision LLM; гэтыя тры пакаленні не з'яўляюцца адносінамі замяшчэння, а суіснуюць у залежнасці ад сцэнара і патрабаванняў бяспекі [1]
・Па-другое, найноўшая мадэль не абавязкова з'яўляецца лепшай для выкарыстання, фактарамі, якія вызначаюць выбар, з'яўляюцца кампраміс паміж коштам, лакальнымі магчымасцямі і дакладнасцю распазнавання, а не адзіны бал benchmark [1][2]
・Па-трэцяе, поспех укаранення залежыць ад сінэргіі трохслаёвай архітэктуры «стандартызацыя папярэдняй апрацоўкі, структураваны вынятак праз LLM, шлюз праверкі чалавекам» і прынцыпу размеркавання «мінімізацыя распазнавання, максімізацыя сістэмы, перадача нявызначанасці чалавеку» [1]. Асноўны тэзіс гэтага артыкула: распазнаванне квітанцый павінна перайсці ад мышлення цэнтральнасці мадэлі да мышлення цэнтральнасці сістэмы і кіравання [6]
Гэта даследаванне мае некалькі абмежаванняў, якія неабходна сумленна раскрыць. Па-першае, асноўны кейс — гэта першакрыніца ад аднаго інжынера, і хоць яго сцэнар (квітанцыі тайваньскай друкарні) з'яўляецца прадстаўнічым, даныя benchmark (напрыклад, DocVQA:
・95
・7, OmniDocBench вышэй за 96%) паходзяць з публічных заяў мадэлі, не былі незалежна прайграныя ў мэтавым сцэнары гэтага артыкула, пры экстрапаляцыі трэба быць асцярожным [1]. Па-другое, літаратура па OCR для рахункаў, цытаваная ў гэтым артыкуле, арыентавана на японскія мабільныя квітанцыі, і існуюць адрозненні ў мове і кампаноўцы ад квітанцый тайваньскіх друкарняў на традыцыйнай кітайскай мове, таму магчымасць пераносу яе высноў патрабуе далейшай праверкі [2][4]
・Па-трэцяе, згаданы сцэнар «размеркавання 1000 квітанцый» — гэта ацэнка, зробленая ў гэтым артыкуле на аснове прынцыпаў справаздачы, прапорцыя з'яўляецца ілюстрацыйнай, рэальнае размеркаванне залежыць ад фабрыкі і не прайшло эмпірычных вымярэнняў
Напрамкі наступных даследаванняў:
・Тры:
・Па-першае, пабудова анатаванага набору даных для квітанцый тайваньскай паліграфічнай індустрыі на традыцыйнай кітайскай мове, каб замяніць экстрапаляцыю лакалізаваным benchmark, што можна параўнаць з метадалогіяй даследавання японскіх набораў даных квітанцый [2]
・Па-другое, колькасная ацэнка выдаткаў і эфектыўнасці трохслаёвай архітэктуры ў рэальным вытворчым асяроддзі, асабліва аптымальныя налады парогаў для шлюза праверкі чалавекам
・Па-трэцяе, канкрэтызацыя рамкі кіравання ўкараненнем AI у працаздольныя прынцыпы аўдыту і падзелу адказнасці для паліграфічнай індустрыі, пераадольваючы разрыў паміж тэхнічным укараненнем і арганізацыйным кіраваннем [6][5]
Ключавыя высновы
Тэхналогіі трох пакаленняў распазнавання квітанцый (OCR+Regex, OCR+тэкставая LLM, Vision LLM) не з'яўляюцца адносінамі замяшчэння, а суіснуюць у залежнасці ад сцэнара і патрабаванняў бяспекі
Фактарамі выбару з'яўляецца кампраміс паміж коштам, лакальнымі магчымасцямі і дакладнасцю, а не адзіны бал benchmark; найноўшая мадэль не абавязкова з'яўляецца лепшай для выкарыстання
Поспех укаранення залежыць ад сінэргіі трохслаёвай архітэктуры «стандартызацыя папярэдняй апрацоўкі, структураваны вынятак, шлюз праверкі чалавекам», а не ад моцы адной мадэлі
«Мінімізацыя распазнавання, максімізацыя сістэмы, перадача нявызначанасці чалавеку» — гэта асноўны прынцып ператварэння структурнай нявызначанасці мадэлі ў працаздольны працэс
Для тайваньскіх сцэнараў канфідэнцыйных квітанцый шлях лакальнай OCR+тэкставая LLM асабліва важны, бо ён захоўвае суверэнітэт даных, а складаныя выпадкі затым селектыўна перадаюцца ў Vision LLM
Дадатковыя думкі
Для паліграфічнай вытворчасці сапраўдны рычаг OCR квітанцый знаходзіцца не ў мадэлі, а ў дызайне сістэмы: спачатку выкарыстоўваць нізкакоштавы лакальны канвеер для апрацоўкі 80% звычайных квітанцый, а затым выкарыстоўваць воблачную Vision LLM і праверку чалавекам для апрацоўкі складаных выпадкаў «доўгага хваста», што дазваляе маргінальным выдаткам расці разам са складанасцю, а не з агульным аб'ёмам. Для дызайну гэта азначае, што шаблоны рабочых лістоў павінны быць распрацаваны з упорам на фіксаваныя палі і друкаваны тэкст, зваротна зніжаючы цяжкасць распазнавання. Для пастаўшчыкоў AI і SaaS магчымасць заключаецца ў тым, каб упакаваць «тры ўзроўні архітэктуры плюс рухавік размеркавання плюс след аўдыту» ў прадукт, які можа быць непасрэдна прыняты паліграфічнай індустрыяй, а не проста прадаваць API мадэлі. Існуе тры нявырашаныя праблемы: адсутнасць лакалізаванага benchmark для квітанцый паліграфічнай індустрыі на традыцыйнай кітайскай мове, адсутнасць эмпірычных доказаў аптымальных налад парогаў праверкі чалавекам і тое, як узгадніць аўтаматызацыю і падсправаздачнасць на ўзроўні кіравання
Спіс літаратуры
[1] Вопыт укаранення OCR для заводскіх квітанцый: чаму варта пазбягаць памылак, поўны архітэктурны метад
[2] Nathan S. (2025). Japanese-Mobile-Receipt-OCR-1.3K: A Comprehensive Dataset Analysis and Fine-tuned Vision-Language Model for Structured Receipt Data Extraction. DOI: 10.36227/techrxiv.175616889.90325672/v1
[3] Rodriguez J. (2025). myownrobs: AI Coding Agent for 'RStudio'. CRAN: Contributed Packages. DOI: 10.32614/cran.package.myownrobs
[4] Nathan S. (2025). Japanese-Mobile-Receipt-OCR-1.3K: A Comprehensive Dataset Analysis and Fine-tuned Vision-Language Model for Structured Receipt Data Extraction. DOI: 10.21203/rs.3.rs-7357197/v1
[5] Wienholt N. (2025). Using an AI Coding Agent. GitHub Copilot and AI Coding Tools in Practice. DOI: 10.1007/979-8-8688-1784-7_2
[6] Waardenburg L., Huysman M., Agterberg M. (2021). Introduction to managing AI wisely. Managing AI Wisely. DOI: 10.4337/9781800887671.00010
ЧАП
- Ці абавязкова выкарыстоўваць найноўшую Vision LLM для OCR квітанцый у друкарнях?
- Не абавязкова. Хаця Vision LLM можа інтэрпрэтаваць рукапісны тэкст і выпраўленні, яна працуе павольна, каштуе дорага, і магутныя мадэлі знаходзяцца ў воблаку, што цяжка рэалізаваць цалкам лакальна. Калі квітанцыі канфідэнцыйныя і не могуць пакідаць кампанію, лакальная OCR плюс тэкставая LLM з'яўляюцца больш прыдатнымі, часта выкарыстоўваецца іх сумеснае выкарыстанне, размеркаванае па ступені складанасці
- Чаму распазнаванне квітанцый не можа дасягнуць дакладнасці 100%?
- Таму што адсырэлыя, скрыўленыя або зробленыя тэлефонам як патрапіла фотаздымкі могуць наогул не ўтрымліваць інфармацыі, і ніякая мадэль не можа стварыць яе з нічога. Правільны дызайн — выкарыстоўваць парогі ўпэўненасці і шлюзы праверкі чалавекам для паглынання гэтай часткі нявызначанасці, а не чакаць, што мадэль самастойна дасягне дасканаласці
- Што такое трохслаёвая архітэктура OCR квітанцый?
- Гэта стандартызацыя папярэдняй апрацоўкі (выпраўленне скрыўлення, паляпшэнне, фільтрацыя дрэнных выяў), структураваны вынятак праз LLM (адлюстраванне зместу ў выразную схему), шлюз праверкі чалавекам (маршрутызацыя квітанцый з нізкай упэўненасцю або лагічнымі супярэчнасцямі на праверку чалавекам). Сінэргія трох слаёў — ключ да ўкаранення, а не магутнасць адной мадэлі
- З чаго варта пачаць тайваньскім малым і сярэднім друкарням пры ўкараненні распазнавання квітанцый?
- Рэкамендуецца пачаць з PaddleOCR плюс лакальная тэкставая LLM у якасці baseline, каб аўтаматызаваць звычайныя квітанцыі з выразным фарматам і вялікім аб'ёмам, гэтая частка амаль не мае выдаткаў на tokens і даныя не пакідаюць кампанію, а затым паступова падключаць Vision LLM для складаных квітанцый з рукапісным тэкстам і ўсталёўваць праверку чалавекам
- Чаму лакальнае разгортванне важна для паліграфічнай індустрыі?
- Таму што паліграфічная індустрыя прымае вялікую колькасць квітанцый з персанальнымі данымі і камерцыйнымі сакрэтамі, і тое, што даныя не пакідаюць кампанію, часта з'яўляецца непадлеглым кампрамісу абмежаваннем. Гэта робіць成熟ія лакальныя рашэнні, такія як OCR плюс тэкставая LLM, асабліва каштоўнымі ў тайваньскім прамысловым сцэнары, чаго чыста воблачным рашэнням Vision LLM пакуль што цяжка дасягнуць адначасова з суверэнітэтам даных
