---
title: 回單 OCR 落地的架構抉擇：三代演進與人機分流心法
lang: en
source: https://mindsprt.dev/en/knowledge/research-receipt-ocr-pitfalls-architecture-lessons-print-factory/
---

# 回單 OCR 落地的架構抉擇：三代演進與人機分流心法

*深度研究 · 23 min read · 2026-06-02*

> 本文以一份台灣印刷廠回單 OCR 上線實錄為核心個案，結合受票據 OCR 與 AI coding agent 文獻，回顧辨識技術從「OCR 加正則」到「Vision LLM 直判」的三代演進。研究發現，辨識準確率並非單一模型問題，而是前處理、結構化抽取與人工審核三層架構協同的結果；本文提出「辨識最小化、系統最大化、不確定就交人」的分流原則，並析論其對台灣中小印刷廠數位化的成本與流程意涵。

**Quick answer:** 本文以一份台灣印刷廠回單 OCR 上線實錄為核心個案，結合受票據 OCR 與 AI coding agent 文獻，回顧辨識技術從「OCR 加正則」到「Vision LLM 直判」的三代演進。研究發現，辨識準確率並非單一模型問題，而是前處理、結構化抽取與人工審核三層架構協同的結果；本文提出「辨識最小化、系統最大化、不確定就交人」的分流原則，並析論其對台灣中小印刷廠數位化的成本與流程意涵。

## 緒論：為何回單辨識是印刷業數位化的硬骨頭

印刷產業的生產流程高度仰賴紙本單據流轉。從業務開立的作業單、工廠端的回單（簽收單、出貨單、現場回傳的工序確認單），到物流交付的簽收憑證，這些文件承載了訂單規格、數量、交期與責任歸屬等關鍵資訊。當印刷廠試圖將排程、產能與帳務數位化時，回單辨識往往是第一道、也是最容易失敗的關卡。其困難不在於「把字讀出來」，而在於這類單據的版面位置不固定、廠商格式各異、手寫備註與塗改頻繁，且現場拍攝的掃描品質參差不齊 [1]。

近年生成式 AI 與多模態模型的成熟，使得「OCR 問題早已解決」成為一種流行論調。然而，將 Vision Language Model（VLM）直接套用於真實生產環境，與在乾淨資料集上取得高分，是兩個截然不同的命題。一份針對日本行動裝置拍攝收據所建構的資料集研究指出，即便針對結構化票據資料抽取進行了專門的微調，模型表現仍高度依賴資料集的代表性與版面多樣性 [2]。換言之，benchmark 上的數字無法直接外推到任意一家工廠的單據樣態。

本文的研究問題有：

・三：

・其一，回單辨識技術歷經哪幾代演進，各代的適用邊界為何

・其二，為何「最新的模型」未必是「最該採用的方案」，技術選擇背後的決定因素是什麼

・其三，對資源有限的台灣中小印刷廠而言，落地一套可運作的回單辨識系統，應遵循什麼樣的架構原則與分流邏輯。本文以一份台灣工程師的回單 OCR 上線實錄為第一手個案 [1]，結合票據 OCR 與 AI 導入治理的文獻，進行批判性綜合

本文的貢獻在於：不把回單辨識視為單純的模型選型問題，而是將其重構為一個「辨識層、結構化層、審核層」三層協同的系統工程問題，並提出可操作的分流原則。對正在評估數位化作業單流程的印刷廠，本文補上了一個罕見的本土落地視角。

## 文獻與現況回顧：從模型中心到系統中心的論述轉移

既有關於文件辨識的討論，可依其核心關懷分為三個群集，彼此之間存在明顯的立場張力。

第一個群集是模型能力中心論。這條路線關注的是如何讓單一模型在票據抽取任務上取得更高分數。前述日本行動收據研究即屬此類，它建構了一個約 1.3K 規模的標註資料集，並微調 VLM 以輸出結構化的收據欄位，論證了「資料集品質加上針對性微調」能顯著提升結構化抽取的準確度 [2][4]。這類研究的價值在於提供了可複現的方法論與量化基準，但其隱含前提是「資料分布相對一致」。一旦面對印刷廠那種一家廠商一種格式、且持續新增格式的長尾分布，單一微調模型的維護成本與泛化能力都會受到挑戰。

第二個群集是工具與工程實務論。隨著 AI coding agent 的普及，開發者得以用更低的成本串接 OCR、LLM 與後端邏輯。相關實務文獻記錄了 AI coding agent 在真實開發場景中的協作模式與限制，指出其能加速樣板程式碼的生成與工具串接，但在牽涉領域知識的判斷上仍需人類介入 [5]。亦有將 AI coding agent 整合進特定分析環境（如 RStudio）的套件實作，顯示「以 agent 輔助資料處理管線」已成為一種可落地的工程範式 [3]。這個群集把焦點從「模型多強」轉移到「系統怎麼搭」，與第一個群集形成互補而非取代的關係。

第三個群集是AI 導入治理論。這條路線跳出技術細節，探討組織該如何「明智地管理 AI」。相關研究強調，AI 系統的成敗不僅取決於演算法準確度，更取決於人類與系統之間的責任分工、以及對不確定性的制度化處理 [6]。這個觀點對回單辨識尤其關鍵：當模型對某張爛照片無法可靠判讀時，系統設計者必須事先決定「這種情況該交給誰、用什麼流程兜底」，而非寄望模型達到不可能的 100% 準確。

綜合三個群集可以看出一個論述轉移的趨勢：早期討論偏向模型能力中心，假設只要模型夠強問題就解決；近期討論則逐漸轉向系統與治理中心，承認模型有其天花板，真正決定落地成敗的是前後處理、分流機制與人工審核的設計。然而，現有文獻多半各自停留在自己的群集內：模型研究少談生產環境的長尾與兜底，工程實務少談量化的準確率邊界，治理研究又偏抽象、缺乏具體的技術落地細節。本文分析認為，這三者之間的接合處，正是回單辨識落地討論的研究缺口，而一份完整的本土上線實錄恰好能填補此缺口 [1]。

## 三代演進：每一代都還活著，差別在場景

回單辨識的技術演進可拆為三代，關鍵在於理解這不是線性的「誰取代誰」，而是每一代各自存活、依場景與資安要求並存的格局 [1]。

第一代是 OCR 加正則（Regex）路線。 其做法是先用傳統 OCR 引擎（如 Tesseract、Google Document AI）把圖片轉成文字，再以 Python 正則表達式逐欄抽取：單號在哪、日期格式如何、地址符合哪條規則 [1]。這條路線的好處明確：成本低、可離線、速度快，在格式固定時非常穩定、可預測且易於除錯，完全不需要 LLM、沒有 token 成本 [1]。然而其脆弱性同樣明確：格式一變就崩，換一種單就要重寫一套 regex；OCR 只要認錯或漏掉一個字，整條 regex 就比對失敗；客戶越多、格式越雜，regex 就越長越脆，最終淪為維護地獄。本文分析認為，第一代的根本侷限在於它完全不理解語意，只能硬比對字串，因此無法應對印刷業單據的格式長尾。

第二代是 OCR 加文字 LLM 路線。 同樣先用 OCR 把圖轉成文字，但不再寫死 regex，而是把 OCR 輸出的文字交給文字型 LLM，由它理解語意、抽取欄位、補全缺漏 [1]。據第一手實錄，此法一上手正確率即大幅提升，原因有四：格式改變不必重寫 regex，LLM 自行理解語意；能靠上下文補回 OCR 漏掉的字；能辨識同義或別名欄位（「單號」「託運號」皆可識別）；開發快、維護成本大降 [1]。更關鍵的是，OCR 與文字 LLM 都有成熟的地端方案，可做到資料不出公司，對個資與機敏單據是決定性優勢 [1]。這一點與 AI 導入治理文獻所強調的「資料主權與責任邊界」相互呼應 [6]。

然而第二代的天花板被前段的 OCR 鎖死。OCR 先讀錯，LLM 拿到的就是錯的文字，形成「垃圾進、垃圾出」；OCR 過程丟失了版面與顏色資訊，紅藍筆、表格結構、手畫線全部消失，LLM 根本無從得知；手寫、簽名、塗改這類「唯有看圖才懂」的內容，一旦轉成文字便失真 [1]。本文分析認為，第二代的價值與侷限其實是同一枚硬幣的兩面：它把 regex 的痛解掉、又能全地端跑，但代價是整條管線的辨識上限受制於最前面那層 OCR 的品質。

第三代是 Vision LLM 直接判斷。 最新做法是跳過 OCR，直接把回單圖片餵給多模態模型（如 GPT-4o、Claude），讓它同時看圖與理解語意，一步輸出結構化欄位 [1]。其價值在於能直接解掉前兩代的多數痛點：看得懂版面、表格、顏色與手畫線；能判讀手寫、塗改、勾選、簽名與紅藍筆；能用邏輯與上下文判斷形近字（1 與 l、O 與 0）並補語意；免模板、免 regex、換格式也能處理 [1]。這與專門微調 VLM 以抽取結構化票據資料的研究結論方向一致，後者也證實多模態模型在處理版面複雜的真實票據時具有優勢 [2]。

但第三代的代價落在別處：推理速度慢，圖片進、推理重，比純文字流程慢不少；vision token 成本高，量大時極有感；強的 vision 模型多在雲端，想全地端、資料不出公司目前仍困難，這正是第二代至今仍有價值的原因；而且它仍做不到 100%，受潮或手機亂拍的爛照片根本沒把資訊拍進去，模型也救不了 [1]。本文分析認為，第三代的限制恰好印證了治理文獻的核心命題：模型的不確定性是結構性存在，必須以制度與流程吸收，而非期待模型自行消滅 [6]。

## 工具箱與選型邏輯：成本、地端與準確率的三角權衡

抽象的三代演進落到具體工具，呈現出一個清晰的權衡三角：成本、地端能力與辨識準確率三者難以兼得，選型本質是依場景排序這三個維度的優先級。

在傳統 OCR 引擎層（第一、二代的前段），實錄列舉了三個實際使用過的方案 [1]。Tesseract 是最老牌的開源引擎，純地端、免費、語言包多，優點是穩定、可離線、社群龐大，但對中文、手寫與複雜版面較吃力，現場拍攝的歪斜爛圖辨識率會明顯下滑，適合格式乾淨、以印刷體為主的場景作為 baseline [1]。PaddleOCR 由百度開源，可部署到地端（支援 NVIDIA GPU、Intel CPU 等多種硬體後端），支援 100 種以上語言，其最大價值在於中文與表格特別強，對回單這種繁體中文加表格混雜的場景優於 Tesseract，且已將整條管線拉到「PDF 或圖片轉結構化 JSON 或 Markdown」，連版面分析都納入；若要走全地端又是中文單據，PaddleOCR 幾乎是首選 baseline [1]。Google Cloud Vision 或 Document AI 辨識率高、版面分析成熟、API 易接、手寫與複雜單也撐得住，開發體驗一流，但硬傷在於它是雲端服務，資料必須出公司，與「機敏單據要地端」的需求天生衝突 [1]。

在可跑地端的 Vision LLM 層（第三代），開源社群已快速追上，多個 2025 至 2026 年的模型值得關注 [1]。Qwen：

・2.5-VL（阿里）參數規模 7B 至 72B，DocVQA 達

・95.7 分，手寫、表格與多語言文檔解析能力強、生態最成熟，是通用文檔與回單的主力候選 [1]。PaddleOCR-VL（百度）最新版本約

・0.9B 參數，在 OmniDocBench v

・1.6 取得 96% 以上，原生 OCR benchmark 打贏不少前沿大模型，支援 109 種語言，適合純地端、追求 OCR 準度與輕量部署的場景 [1]。dots.ocr（rednote）約

・1.7B 參數，將版面偵測與內容辨識合

・一，支援 100 種以上語言，已被 vLLM 官方整合，屬小模型中的 SOTA [1]。MiniCPM-V

・2.6 約 8B 參數、體積約

・5.5GB，易於塞進單卡甚至邊緣裝置，OCR 表現位居前段，適合資源有限、需部署地端小機器的場景 [1]。olmOCR 2（AllenAI）約 7B 參數，以 RLVR 訓練、完全開源（含資料與程式碼）[1]

本文分析認為，這份工具箱揭示了一個與模型能力中心論不同的選型邏輯：問題不在「哪個模型分數最高」，而在「哪個維度對你的場景不可妥協」。若機敏資料不可出公司，地端能力就是硬約束，選型直接收斂到 PaddleOCR 加文字 LLM 或地端 Vision LLM；若手寫與塗改密集、且資料可上雲，則辨識準確率優先，雲端 Vision LLM 成為合理選擇 [1]。前述微調 VLM 的研究也間接支持此判斷：資料集與模型必須與目標場景對齊，脫離場景談模型優劣意義有限 [2][4]。

更務實的結論是兩者常混用：清晰的單走便宜的地端流程，難的才丟給 Vision LLM [1]。這種混用本質上是一種成本分流策略，它把昂貴的高階推理資源保留給真正需要的少數困難案例，而非無差別地對每張單都動用最重的模型。

## 架構心法：辨識最小化、系統最大化、不確定就交人

實錄將踩坑沉澱為一句架構心法：辨識最小化、系統最大化、不確定就交人 [1]。本文認為這句話可拆解為三層系統設計原則，並與治理文獻形成理論呼應。

第一層是前處理標準化。 回單辨識的失敗，很大比例不發生在模型，而發生在輸入。受潮、歪斜、亂拍的照片，資訊根本沒被完整拍進去，再強的模型也無法無中生有 [1]。因此系統的第一道工程，是在辨識之前把輸入盡可能標準化：去歪斜、裁切、增強對比、過濾品質不合格的影像。本文分析認為，這層的設計哲學是「把不確定性提前攔截」，與其讓爛輸入污染整條管線，不如在入口就分流出來。日本行動收據研究所強調的資料集版面多樣性問題，本質上也是在提醒：輸入端的變異必須被系統性地處理，而非全部丟給模型承擔 [2]。

第二層是 LLM 結構化抽取。 這層對應「辨識最小化」的精神：不要求模型一次完成所有判斷，而是讓它專注於把版面內容轉成結構化欄位。無論走第二代的文字 LLM 或第三代的 Vision LLM，核心都是把非結構化的圖像或文字，映射到一個明確的 schema（單號、品名、數量、交期、簽收狀態等）[1]。本文分析認為，把抽取任務 schema 化的好處有：

・二：

・其一，輸出可被下游系統直接消費，降低後處理成本

・其二，schema 提供了一個可驗證的錨點，讓系統能判斷某個欄位是否被可靠抽出。AI coding agent 在這層尤其能加速開發，將串接與樣板邏輯自動化，讓工程師專注於 schema 與驗證規則的設計 [5][3]

第三層是人工審核閘道。 這是整套架構的關鍵，也是「不確定就交人」的制度化體現。模型對每個欄位的抽取應附帶信心度或驗證結果，當信心度低於門檻、或欄位間出現邏輯矛盾（如數量與金額不符）時，系統不應自動放行，而應將該單路由給人工審核 [1]。本文分析認為，這層設計把模型的結構性不確定性轉化為可管理的人力流程，正是治理文獻所主張「明智管理 AI」的具體落地：系統不假裝完美，而是事先設計好不確定情況的責任歸屬與兜底路徑 [6]。

將三層合觀，可以推演一個典型的分流情境。假設一家印刷廠每日進件 1000 張回單，其中約八成為格式清晰的印刷體單據，可由地端的 OCR 加文字 LLM 以低成本高速處理；約一成五為含手寫或塗改的中等難度單，路由給 Vision LLM；剩餘約半成為品質過差或矛盾的單，直接進人工審核 [1]。在這個推估情境下，最昂貴的雲端 Vision LLM 只需處理約一成五的件量，而人力只需聚焦在最棘手的少數案例。本文分析認為，這種分層分流不僅是準確率的優化，更是成本結構的優化，它讓系統的邊際成本隨難度分布而非總件量線性成長。

## 對台灣設計印刷產業的意涵

上述架構心法對台灣設計印刷產業的不同角色，具有層次分明的可操作意涵。

對中小印刷廠而言，最重要的啟示是不要把回單辨識當成「買一個模型就解決」的採購問題，而要當成「搭一套分流系統」的流程問題。具體做法上，建議以 PaddleOCR 加地端文字 LLM 作為 baseline，先把格式清晰、量大的常規單據自動化，這部分幾乎沒有 token 成本、且資料不出公司，符合多數印刷廠對客戶訂單機敏性的顧慮 [1]。在此基礎上，再針對手寫與塗改密集的困難單，選擇性地接雲端 Vision LLM，並務必設置信心度門檻與人工審核閘道 [1]。本文分析認為，這種漸進式導入的時程上，廠商可在數週內先讓 baseline 跑起來消化八成件量，再逐步把困難案例的自動化比例往上推，而非一開始就追求全自動。

對設計師而言，回單與作業單的數位化意味著規格資訊（尺寸、用紙、特殊加工）能更可靠地從紙本流轉到數位系統，減少因人工轉謄造成的規格誤差。本文分析認為，當辨識系統能穩定抽出結構化欄位，設計端與生產端之間的規格對齊將更即時，打樣與改版的溝通成本可望下降。此外，設計師若理解辨識系統對「清晰版面」的偏好，在設計作業單模板時即可採用固定欄位、印刷體優先的版面，反向降低後端辨識難度。

對品牌方而言，回單數位化的意義在於供應鏈可視性與責任可追溯性。當每張簽收與出貨單都被結構化記錄，品牌方得以追蹤訂單在印刷供應鏈中的流轉狀態，並在爭議發生時調閱可信的數位憑證。本文分析認為，這也呼應了 AI 導入治理文獻的核心：系統的價值不只在自動化效率，更在於它如何重新分配人與系統之間的責任與信任邊界 [6]。品牌方在導入時，應特別關注審核閘道的稽核軌跡是否完整，以確保自動化不以犧牲可問責性為代價。

對所有角色共通的一點是資安與地端的權衡。台灣印刷業承接大量含個資與商業機密的單據（如帳單印刷、會員資料、財報印製），這使得「資料不出公司」往往是不可妥協的約束。本文分析認為，這正是第二代 OCR 加文字 LLM 路線在台灣產業情境下格外重要的原因：它在可接受的辨識能力下保住了地端部署的資料主權，而這是純雲端 Vision LLM 方案目前難以兼顧的 [1]。

## 結論與限制

本文以一份台灣印刷廠回單 OCR 上線實錄為核心個案，回應了緒論提出的三個研究問題：

・其一，回單辨識歷經 OCR 加正則、OCR 加文字 LLM、Vision LLM 直判三代演進，三代並非取代關係，而是依場景與資安要求並存 [1]

・其二，最新模型未必最該採用，選型的決定因素是成本、地端能力與辨識準確率三者的權衡排序，而非單一 benchmark 分數 [1][2]

・其三，落地成敗取決於「前處理標準化、LLM 結構化抽取、人工審核閘道」三層架構的協同，以及「辨識最小化、系統最大化、不確定就交人」的分流原則 [1]。本文的核心論點是：回單辨識應從模型中心的思維，轉向系統與治理中心的思維 [6]

本研究存在若干限制，必須誠實揭露。首先，核心個案為單一工程師的第一手實錄，其情境（台灣印刷廠回單）雖具代表性，但 benchmark 數據（如 DocVQA：

・95.

・7、OmniDocBench 96% 以上）係引自模型公開宣稱，未在本文的目標場景下獨立複現，外推時應審慎 [1]。其次，本文引用的票據 OCR 文獻以日本行動收據為對象，與繁體中文印刷廠回單在語言與版面上存在差異，其結論的可移植性需進一步驗證 [2][4]

・第三，前述「1000 張分流」情境為本文基於實錄原則所做的推估，比例係示意性質，實際分布因廠而異，未經實證量測

後續研究方向有：

・三：

・其一，建構繁體中文印刷業回單的標註資料集，以在地化的 benchmark 取代外推，這與日本收據資料集研究的方法論可相互參照 [2]

・其二，量化評估三層架構在真實生產環境的成本效益，特別是人工審核閘道的最適門檻設定

・其三，將 AI 導入治理的框架具體化為印刷業可操作的稽核與責任分工準則，銜接技術落地與組織治理之間的缺口 [6][5]

## 重點整理

回單辨識的三代技術（OCR+Regex、OCR+文字 LLM、Vision LLM）並非取代關係，而是依場景與資安要求並存。

選型的決定因素是成本、地端能力與準確率的權衡排序，而非單一 benchmark 分數；最新模型未必最該採用。

落地成敗取決於「前處理標準化、結構化抽取、人工審核閘道」三層架構的協同，而非單一模型強弱。

「辨識最小化、系統最大化、不確定就交人」是把模型結構性不確定轉化為可管理流程的核心心法。

對台灣機敏單據場景，地端的 OCR+文字 LLM 路線因保住資料主權而格外重要，難件再選擇性丟給 Vision LLM。

## 延伸思考

對印刷製造而言，回單 OCR 的真正槓桿不在模型而在系統設計：先用低成本地端流程消化八成常規單據，再以雲端 Vision LLM 與人工審核處理長尾困難件，能讓邊際成本隨難度而非總量成長。對設計端，這意味著作業單模板應朝固定欄位、印刷體優先設計，反向降低辨識難度。對 AI 導入與 SaaS 業者，機會在於把「三層架構加分流引擎加稽核軌跡」打包成印刷業可直接採用的產品，而非只賣模型 API。待解問題有三：繁中印刷回單缺乏在地化 benchmark、人工審核門檻的最適設定缺乏實證、以及自動化與可問責性如何在治理層面兼顧。

## 參考文獻

[1] [工廠回單 OCR 上線實錄：這些坑你不踩就是白費工，沉澱後的架構心法全公開](https://ai-coding.wiselychen.com/receipt-ocr-pitfalls-lessons/)

[2] Nathan S.（2025）. [Japanese-Mobile-Receipt-OCR-1.3K: A Comprehensive Dataset Analysis and Fine-tuned Vision-Language Model for Structured Receipt Data Extraction](https://doi.org/10.36227/techrxiv.175616889.90325672/v1). DOI: 10.36227/techrxiv.175616889.90325672/v1

[3] Rodriguez J.（2025）. [myownrobs: AI Coding Agent for 'RStudio'](https://doi.org/10.32614/cran.package.myownrobs). CRAN: Contributed Packages. DOI: 10.32614/cran.package.myownrobs

[4] Nathan S.（2025）. [Japanese-Mobile-Receipt-OCR-1.3K: A Comprehensive Dataset Analysis and Fine-tuned Vision-Language Model for Structured Receipt Data Extraction](https://doi.org/10.21203/rs.3.rs-7357197/v1). DOI: 10.21203/rs.3.rs-7357197/v1

[5] Wienholt N.（2025）. [Using an AI Coding Agent](https://doi.org/10.1007/979-8-8688-1784-7_2). GitHub Copilot and AI Coding Tools in Practice. DOI: 10.1007/979-8-8688-1784-7_2

[6] Waardenburg L., Huysman M., Agterberg M.（2021）. [Introduction to managing AI wisely](https://doi.org/10.4337/9781800887671.00010). Managing AI Wisely. DOI: 10.4337/9781800887671.00010

## FAQ

### 印刷廠回單 OCR 一定要用最新的 Vision LLM 嗎？

不一定。Vision LLM 雖能判讀手寫與塗改，但速度慢、成本高、且強模型多在雲端難以全地端。若單據機敏不可出公司，地端的 OCR 加文字 LLM 反而更合適，常見做法是兩者混用、依難度分流。

### 為什麼回單辨識做不到 100% 準確？

因為受潮、歪斜或手機亂拍的照片可能根本沒把資訊拍進去，任何模型都無法無中生有。正確的設計是用信心度門檻與人工審核閘道吸收這部分不確定性，而非期待模型自行達到完美。

### 回單 OCR 的三層架構是指什麼？

指前處理標準化（去歪斜、增強、過濾爛圖）、LLM 結構化抽取（把內容映射到明確 schema）、人工審核閘道（低信心或邏輯矛盾的單路由給人工）。三層協同才是落地關鍵，而非單一模型。

### 台灣中小印刷廠導入回單辨識該從哪裡開始？

建議先以 PaddleOCR 加地端文字 LLM 作為 baseline，自動化格式清晰、量大的常規單，這部分幾乎無 token 成本且資料不出公司，再逐步針對手寫塗改的困難單接 Vision LLM 並設人工審核。

### 地端部署對印刷業為什麼重要？

因為印刷業承接大量含個資與商業機密的單據，資料不出公司常是不可妥協的約束。這使得 OCR 加文字 LLM 這類成熟地端方案在台灣產業情境下格外有價值，純雲端 Vision LLM 目前難以兼顧資料主權。


---

> HTML version: https://mindsprt.dev/en/knowledge/research-receipt-ocr-pitfalls-architecture-lessons-print-factory/
> MINDS — 麥思印刷整合有限公司 · https://mindsprt.dev