OCR biên lai tại nhà in có nhất thiết phải sử dụng Vision LLM mới nhất không?

Không nhất thiết. Mặc dù Vision LLM có thể đọc chữ viết tay và các sửa đổi, nhưng tốc độ chậm, chi phí cao, và các mô hình mạnh mẽ thường nằm trên đám mây, khó triển khai hoàn toàn tại chỗ. Nếu chứng từ nhạy cảm không được phép rời khỏi công ty, OCR tại chỗ kết hợp LLM văn bản lại phù hợp hơn. Cách làm phổ biến là kết hợp cả hai, phân luồng tùy theo độ khó

Tại sao nhận dạng biên lai không thể đạt độ chính xác 100%?

Vì những bức ảnh bị ẩm ướt, lệch hoặc chụp bằng điện thoại có thể không chứa đầy đủ thông tin, không mô hình nào có thể tạo ra thông tin từ hư không. Thiết kế đúng đắn là sử dụng ngưỡng tin cậy và cổng xem xét thủ công để hấp thụ phần không chắc chắn này, chứ không phải kỳ vọng mô hình tự đạt đến sự hoàn hảo

Kiến trúc ba lớp của OCR biên lai là gì?

Đó là tiêu chuẩn hóa tiền xử lý (làm thẳng, tăng cường, lọc ảnh kém), trích xuất có cấu trúc bằng LLM (ánh xạ nội dung sang schema rõ ràng), và cổng xem xét thủ công (định tuyến các đơn hàng có độ tin cậy thấp hoặc mâu thuẫn logic cho con người). Ba lớp này phối hợp với nhau mới là chìa khóa để triển khai thành công, chứ không phải một mô hình đơn lẻ

Tại sao triển khai tại chỗ lại quan trọng đối với ngành in?

Vì ngành in xử lý số lượng lớn chứng từ chứa dữ liệu cá nhân và bí mật thương mại, việc dữ liệu không ra khỏi công ty thường là một ràng buộc không thể thỏa hiệp. Điều này khiến các giải pháp tại chỗ trưởng thành như OCR kết hợp LLM văn bản đặc biệt có giá trị trong bối cảnh ngành công nghiệp Đài Loan, trong khi các giải pháp Vision LLM đám mây thuần túy hiện nay khó có thể đảm bảo chủ quyền dữ liệu

Lựa chọn kiến trúc triển khai OCR biên lai: Ba thế hệ phát triển và nguyên tắc phân luồng người-máy

Trả lời nhanh

Bài viết này sử dụng trường hợp thực tế về việc triển khai OCR biên lai tại một nhà in Đài Loan làm ví dụ cốt lõi, kết hợp với tài liệu về OCR hóa đơn và tác nhân lập trình AI, để xem xét sự phát triển ba thế hệ của công nghệ nhận dạng từ “OCR với biểu thức chính quy” đến “phán đoán trực tiếp bằng Vision LLM”. Nghiên cứu cho thấy độ chính xác nhận dạng không phải là vấn đề của một mô hình đơn lẻ, mà là kết quả của sự phối hợp giữa ba lớp kiến trúc: tiền xử lý, trích xuất có cấu trúc và xem xét thủ công. Bài viết này đề xuất nguyên tắc phân luồng “nhận dạng tối thiểu, hệ thống tối đa, giao cho con người khi không chắc chắn”, đồng thời phân tích ý nghĩa của nó đối với chi phí và quy trình số hóa của các nhà in vừa và nhỏ tại Đài Loan

Giới thiệu: Tại sao nhận dạng biên lai là một "xương khó gặm" trong số hóa ngành in

Ngành in phụ thuộc rất nhiều vào việc luân chuyển các chứng từ giấy trong quy trình sản xuất. Từ phiếu yêu cầu công việc do bộ phận kinh doanh phát hành, biên lai tại xưởng (phiếu giao nhận, phiếu xuất hàng, phiếu xác nhận quy trình tại chỗ), đến chứng từ giao nhận của bộ phận hậu cần, những tài liệu này chứa thông tin quan trọng như thông số kỹ thuật đơn hàng, số lượng, thời gian giao hàng và trách nhiệm. Khi các nhà in cố gắng số hóa lịch trình, năng lực sản xuất và kế toán, nhận dạng biên lai thường là bước đầu tiên và cũng là bước dễ thất bại nhất. Khó khăn không nằm ở chỗ “đọc được chữ”, mà ở chỗ bố cục của các loại chứng từ này không cố định, định dạng của các nhà cung cấp khác nhau, thường xuyên có ghi chú viết tay và sửa đổi, và chất lượng quét từ ảnh chụp tại chỗ không đồng đều [1]

Sự trưởng thành của AI tạo sinh và các mô hình đa phương thức trong những năm gần đây đã khiến “vấn đề OCR đã được giải quyết” trở thành một tuyên bố phổ biến. Tuy nhiên, việc áp dụng trực tiếp Vision Language Model (VLM) vào môi trường sản xuất thực tế và đạt điểm cao trên các bộ dữ liệu sạch là hai vấn đề hoàn toàn khác biệt. Một nghiên cứu về bộ dữ liệu được xây dựng từ biên lai chụp bằng thiết bị di động tại Nhật Bản chỉ ra rằng, ngay cả khi đã tinh chỉnh đặc biệt để trích xuất dữ liệu hóa đơn có cấu trúc, hiệu suất mô hình vẫn phụ thuộc rất nhiều vào tính đại diện và sự đa dạng bố cục của bộ dữ liệu [2]. Nói cách khác, các con số trên benchmark không thể trực tiếp ngoại suy cho các loại chứng từ của bất kỳ nhà máy nào

Các vấn đề nghiên cứu của bài viết này là:

・Ba vấn đề:

・Thứ nhất, công nghệ nhận dạng biên lai đã trải qua những thế hệ phát triển nào, và phạm vi áp dụng của từng thế hệ là gì?

・Thứ hai, tại sao “mô hình mới nhất” chưa chắc đã là “giải pháp tối ưu nhất”, và những yếu tố quyết định đằng sau việc lựa chọn công nghệ là gì?

・Thứ ba, đối với các nhà in vừa và nhỏ tại Đài Loan với nguồn lực hạn chế, việc triển khai một hệ thống nhận dạng biên lai hoạt động được nên tuân theo những nguyên tắc kiến trúc và logic phân luồng nào. Bài viết này sử dụng một trường hợp thực tế về việc triển khai OCR biên lai của một kỹ sư Đài Loan [1] làm tài liệu sơ cấp, kết hợp với tài liệu về OCR hóa đơn và quản trị triển khai AI, để tổng hợp một cách phê phán

Đóng góp của bài viết này là: không coi nhận dạng biên lai là một vấn đề lựa chọn mô hình đơn thuần, mà tái cấu trúc nó thành một vấn đề kỹ thuật hệ thống với sự phối hợp của ba lớp “lớp nhận dạng, lớp cấu trúc hóa, lớp xem xét”, và đề xuất các nguyên tắc phân luồng có thể thực hiện được. Đối với các nhà in đang đánh giá quy trình số hóa phiếu yêu cầu công việc, bài viết này bổ sung một góc nhìn triển khai thực tế hiếm có tại địa phương

緒論：為何回單辨識是印刷業數位化的硬骨頭｜回單 OCR 落地的架構抉擇：三代演進與人機分流心法段落重點

Tổng quan tài liệu và tình hình hiện tại: Sự chuyển dịch từ luận điểm lấy mô hình làm trung tâm sang lấy hệ thống làm trung tâm

Các cuộc thảo luận hiện có về nhận dạng tài liệu có thể được chia thành ba nhóm chính, với những căng thẳng rõ rệt về quan điểm

Nhóm thứ nhất là lý thuyết lấy năng lực mô hình làm trung tâm. Hướng này tập trung vào cách để một mô hình đơn lẻ đạt được điểm số cao hơn trong các nhiệm vụ trích xuất hóa đơn. Nghiên cứu về biên lai di động của Nhật Bản đã đề cập trước đó thuộc loại này, nó đã xây dựng một bộ dữ liệu được chú thích với quy mô khoảng 1.3K và tinh chỉnh VLM để xuất ra các trường biên lai có cấu trúc, chứng minh rằng “chất lượng bộ dữ liệu kết hợp với tinh chỉnh mục tiêu” có thể cải thiện đáng kể độ chính xác của việc trích xuất có cấu trúc [2][4]. Giá trị của loại nghiên cứu này nằm ở việc cung cấp phương pháp luận và tiêu chuẩn định lượng có thể tái tạo, nhưng giả định ngầm của nó là “phân bố dữ liệu tương đối nhất quán”. Một khi đối mặt với phân bố đuôi dài của các nhà in, nơi mỗi nhà cung cấp có một định dạng và liên tục thêm định dạng mới, chi phí bảo trì và khả năng tổng quát hóa của một mô hình tinh chỉnh đơn lẻ sẽ gặp thách thức

Nhóm thứ hai là lý thuyết về công cụ và thực tiễn kỹ thuật. Với sự phổ biến của AI coding agent, các nhà phát triển có thể kết nối OCR, LLM và logic backend với chi phí thấp hơn. Các tài liệu thực tiễn liên quan đã ghi lại các mô hình hợp tác và giới hạn của AI coding agent trong các kịch bản phát triển thực tế, chỉ ra rằng chúng có thể tăng tốc việc tạo mã mẫu và kết nối công cụ, nhưng vẫn cần sự can thiệp của con người trong các phán đoán liên quan đến kiến thức chuyên môn [5]. Cũng có các triển khai gói tích hợp AI coding agent vào môi trường phân tích cụ thể (như RStudio), cho thấy “sử dụng agent để hỗ trợ đường ống xử lý dữ liệu” đã trở thành một mô hình kỹ thuật có thể triển khai [3]. Nhóm này chuyển trọng tâm từ “mô hình mạnh đến mức nào” sang “hệ thống được xây dựng như thế nào”, hình thành mối quan hệ bổ sung chứ không phải thay thế với nhóm thứ nhất

Nhóm thứ ba là lý thuyết quản trị triển khai AI. Hướng này bỏ qua các chi tiết kỹ thuật và khám phá cách tổ chức nên “quản lý AI một cách khôn ngoan”. Các nghiên cứu liên quan nhấn mạnh rằng thành công hay thất bại của hệ thống AI không chỉ phụ thuộc vào độ chính xác của thuật toán, mà còn phụ thuộc vào sự phân công trách nhiệm giữa con người và hệ thống, cũng như việc xử lý có hệ thống đối với sự không chắc chắn [6]. Quan điểm này đặc biệt quan trọng đối với nhận dạng biên lai: khi mô hình không thể đọc đáng tin cậy một bức ảnh chất lượng kém, người thiết kế hệ thống phải quyết định trước “tình huống này nên giao cho ai, và quy trình dự phòng là gì”, thay vì hy vọng mô hình đạt độ chính xác 100% không thể

Tổng hợp ba nhóm cho thấy một xu hướng dịch chuyển trong luận điểm: các cuộc thảo luận ban đầu có xu hướng tập trung vào năng lực mô hình, giả định rằng vấn đề sẽ được giải quyết nếu mô hình đủ mạnh; các cuộc thảo luận gần đây dần chuyển sang lấy hệ thống và quản trị làm trung tâm, thừa nhận rằng mô hình có giới hạn, và yếu tố thực sự quyết định thành công của việc triển khai là thiết kế tiền xử lý, cơ chế phân luồng và xem xét thủ công. Tuy nhiên, các tài liệu hiện có phần lớn vẫn nằm trong phạm vi của riêng mình: nghiên cứu mô hình ít đề cập đến đuôi dài và dự phòng trong môi trường sản xuất, thực tiễn kỹ thuật ít đề cập đến giới hạn độ chính xác định lượng, và nghiên cứu quản trị thì trừu tượng, thiếu các chi tiết triển khai kỹ thuật cụ thể. Bài viết này phân tích rằng điểm giao thoa giữa ba yếu tố này chính là khoảng trống nghiên cứu trong cuộc thảo luận về triển khai nhận dạng biên lai, và một trường hợp thực tế triển khai hoàn chỉnh tại địa phương có thể lấp đầy khoảng trống này [1]

文獻與現況回顧：從模型中心到系統中心的論述轉移｜回單 OCR 落地的架構抉擇：三代演進與人機分流心法段落重點

Ba thế hệ phát triển: Mỗi thế hệ vẫn tồn tại, sự khác biệt nằm ở kịch bản ứng dụng

Sự phát triển công nghệ nhận dạng biên lai có thể chia thành ba thế hệ. Điều quan trọng là phải hiểu rằng đây không phải là mối quan hệ tuyến tính “ai thay thế ai”, mà là một cấu trúc trong đó mỗi thế hệ vẫn tồn tại, cùng tồn tại dựa trên kịch bản và yêu cầu bảo mật [1]

Thế hệ thứ nhất là đường hướng OCR kết hợp biểu thức chính quy (Regex). Phương pháp này là sử dụng công cụ OCR truyền thống (như Tesseract, Google Document AI) để chuyển đổi hình ảnh thành văn bản, sau đó sử dụng biểu thức chính quy Python để trích xuất từng trường: số đơn hàng ở đâu, định dạng ngày tháng như thế nào, địa chỉ tuân theo quy tắc nào [1]. Ưu điểm của đường hướng này rõ ràng: chi phí thấp, có thể hoạt động offline, tốc độ nhanh, rất ổn định khi định dạng cố định, có thể dự đoán và dễ gỡ lỗi, hoàn toàn không cần LLM, không có token cost [1]. Tuy nhiên, điểm yếu của nó cũng rõ ràng: định dạng thay đổi là sập, thay đổi một loại đơn hàng là phải viết lại một bộ regex; chỉ cần OCR nhận dạng sai hoặc bỏ sót một chữ, toàn bộ regex sẽ so khớp thất bại; càng nhiều khách hàng, định dạng càng phức tạp, regex càng dài và dễ hỏng, cuối cùng trở thành địa ngục bảo trì. Bài viết này phân tích rằng hạn chế cơ bản của thế hệ thứ nhất là nó hoàn toàn không hiểu ngữ nghĩa, chỉ có thể so khớp cứng nhắc chuỗi ký tự, do đó không thể đối phó với đuôi dài định dạng của các chứng từ trong ngành in

Thế hệ thứ hai là đường hướng OCR kết hợp LLM văn bản. Tương tự, trước tiên sử dụng OCR để chuyển đổi hình ảnh thành văn bản, nhưng không còn mã hóa cứng regex, mà đưa văn bản đầu ra của OCR cho LLM văn bản, để nó hiểu ngữ nghĩa, trích xuất trường và điền vào những chỗ thiếu [1]. Theo ghi nhận thực tế trực tiếp, phương pháp này đã cải thiện đáng kể độ chính xác ngay từ đầu, có bốn lý do: định dạng thay đổi không cần viết lại regex, LLM tự hiểu ngữ nghĩa; có thể điền lại các từ bị OCR bỏ sót dựa vào ngữ cảnh; có thể nhận dạng các trường đồng nghĩa hoặc biệt danh (“số đơn hàng”, “số vận đơn” đều có thể nhận dạng); phát triển nhanh, chi phí bảo trì giảm đáng kể [1]. Quan trọng hơn, cả OCR và LLM văn bản đều có các giải pháp triển khai tại chỗ trưởng thành, có thể đảm bảo dữ liệu không ra khỏi công ty, đây là lợi thế quyết định đối với dữ liệu cá nhân và chứng từ nhạy cảm [1]. Điểm này tương ứng với “chủ quyền dữ liệu và ranh giới trách nhiệm” được nhấn mạnh trong tài liệu quản trị triển khai AI [6]

Tuy nhiên, trần của thế hệ thứ hai bị khóa bởi phần OCR ở phía trước. Nếu OCR đọc sai trước, LLM nhận được văn bản sai, tạo thành “rác vào, rác ra”; quá trình OCR làm mất thông tin bố cục và màu sắc, bút đỏ xanh, cấu trúc bảng, đường vẽ tay đều biến mất, LLM hoàn toàn không thể biết; nội dung viết tay, chữ ký, sửa đổi, những loại “chỉ nhìn hình mới hiểu”, một khi chuyển thành văn bản sẽ bị mất tính xác thực [1]. Bài viết này phân tích rằng giá trị và hạn chế của thế hệ thứ hai thực ra là hai mặt của cùng một đồng tiền: nó giải quyết nỗi đau của regex và có thể chạy hoàn toàn tại chỗ, nhưng cái giá phải trả là giới hạn nhận dạng của toàn bộ đường ống bị ràng buộc bởi chất lượng của lớp OCR phía trước

Thế hệ thứ ba là Vision LLM phán đoán trực tiếp. Phương pháp mới nhất là bỏ qua OCR, đưa trực tiếp hình ảnh biên lai vào mô hình đa phương thức (như GPT-4o, Claude), cho phép nó vừa nhìn hình ảnh vừa hiểu ngữ nghĩa, và xuất ra các trường có cấu trúc trong một bước [1]. Giá trị của nó nằm ở việc có thể trực tiếp giải quyết hầu hết các vấn đề nhức nhối của hai thế hệ trước: có thể hiểu bố cục, bảng biểu, màu sắc và đường vẽ tay; có thể đọc chữ viết tay, sửa đổi, đánh dấu, chữ ký và bút đỏ xanh; có thể sử dụng logic và ngữ cảnh để phán đoán các từ có hình dạng tương tự (1 và l, O và 0) và bổ sung ngữ nghĩa; không cần mẫu, không cần regex, có thể xử lý khi thay đổi định dạng [1]. Điều này phù hợp với hướng kết luận của nghiên cứu tinh chỉnh VLM đặc biệt để trích xuất dữ liệu hóa đơn có cấu trúc, nghiên cứu sau cũng xác nhận rằng các mô hình đa phương thức có lợi thế khi xử lý hóa đơn thực tế có bố cục phức tạp [2]

Nhưng cái giá của thế hệ thứ ba nằm ở chỗ khác: tốc độ suy luận chậm, hình ảnh vào, suy luận nặng, chậm hơn đáng kể so với quy trình chỉ có văn bản; vision token cost cao, rất đáng kể khi số lượng lớn; các mô hình vision mạnh mẽ phần lớn nằm trên đám mây, việc muốn triển khai hoàn toàn tại chỗ, dữ liệu không ra khỏi công ty hiện vẫn còn khó khăn, đây chính là lý do tại sao thế hệ thứ hai vẫn có giá trị cho đến ngày nay; hơn nữa, nó vẫn không thể đạt 100%, những bức ảnh kém chất lượng do ẩm ướt hoặc chụp bằng điện thoại lung tung hoàn toàn không có thông tin được chụp vào, mô hình cũng không thể cứu vãn [1]. Bài viết này phân tích rằng hạn chế của thế hệ thứ ba vừa hay xác nhận mệnh đề cốt lõi của tài liệu quản trị: sự không chắc chắn của mô hình là tồn tại có cấu trúc, phải được hấp thụ bằng hệ thống và quy trình, chứ không thể kỳ vọng mô hình tự mình loại bỏ [6]

三代演進：每一代都還活著，差別在場景｜回單 OCR 落地的架構抉擇：三代演進與人機分流心法段落重點

Hộp công cụ và logic lựa chọn: Sự đánh đổi ba yếu tố chi phí, khả năng tại chỗ và độ chính xác

Ba thế hệ phát triển trừu tượng khi áp dụng vào các công cụ cụ thể, thể hiện một tam giác đánh đổi rõ ràng: chi phí, khả năng tại chỗ và độ chính xác nhận dạng khó có thể đạt được cùng lúc. Bản chất của việc lựa chọn là sắp xếp thứ tự ưu tiên của ba chiều này tùy theo kịch bản

Ở lớp công cụ OCR truyền thống (phần đầu của thế hệ thứ nhất và thứ hai), ghi nhận thực tế đã liệt kê ba giải pháp đã được sử dụng thực tế [1]. Tesseract là công cụ mã nguồn mở lâu đời nhất, hoạt động hoàn toàn tại chỗ, miễn phí, hỗ trợ nhiều gói ngôn ngữ. Ưu điểm là ổn định, có thể hoạt động offline, cộng đồng lớn, nhưng gặp khó khăn với tiếng Trung, chữ viết tay và bố cục phức tạp. Tỷ lệ nhận dạng giảm đáng kể khi chụp ảnh bị lệch hoặc chất lượng kém, phù hợp cho các kịch bản có định dạng sạch, chủ yếu là chữ in làm baseline [1]. PaddleOCR do Baidu phát triển mã nguồn mở, có thể triển khai tại chỗ (hỗ trợ NVIDIA GPU, Intel CPU và nhiều backend phần cứng khác), hỗ trợ hơn 100 ngôn ngữ. Giá trị lớn nhất của nó nằm ở việc đặc biệt mạnh về tiếng Trung và bảng biểu, ưu việt hơn Tesseract trong các kịch bản biên lai hỗn hợp tiếng Trung phồn thể và bảng biểu, và đã mở rộng toàn bộ đường ống sang “chuyển đổi PDF hoặc hình ảnh sang JSON hoặc Markdown có cấu trúc”, bao gồm cả phân tích bố cục; nếu cần triển khai hoàn toàn tại chỗ và xử lý chứng từ tiếng Trung, PaddleOCR gần như là baseline được ưu tiên [1]. Google Cloud Vision hoặc Document AI có độ chính xác nhận dạng cao, phân tích bố cục trưởng thành, API dễ kết nối, có thể xử lý tốt chữ viết tay và các chứng từ phức tạp, trải nghiệm phát triển tuyệt vời, nhưng điểm yếu là đây là dịch vụ đám mây, dữ liệu phải ra khỏi công ty, điều này mâu thuẫn tự nhiên với nhu cầu “chứng từ nhạy cảm phải xử lý tại chỗ” [1]

Ở lớp Vision LLM có thể chạy tại chỗ (thế hệ thứ ba), cộng đồng mã nguồn mở đã nhanh chóng theo kịp, nhiều mô hình từ năm 2025 đến 2026 rất đáng chú ý [1]. Qwen:

・2.5-VL (Alibaba) với quy mô tham số từ 7B đến 72B, đạt DocVQA

・95.7 điểm. Khả năng phân tích tài liệu viết tay, bảng biểu và đa ngôn ngữ mạnh mẽ, hệ sinh thái trưởng thành nhất, là ứng cử viên chính cho tài liệu chung và biên lai [1]. PaddleOCR-VL (Baidu) phiên bản mới nhất có khoảng

・0.9B tham số, đạt hơn 96% trên OmniDocBench v

・1.6, vượt qua nhiều mô hình tiên tiến trên OCR benchmark gốc, hỗ trợ 109 ngôn ngữ, phù hợp cho các kịch bản hoàn toàn tại chỗ, theo đuổi độ chính xác OCR và triển khai nhẹ [1]. dots.ocr (rednote) có khoảng

・1.7B tham số, kết hợp phát hiện bố cục và nhận dạng nội dung thành

・một, hỗ trợ hơn 100 ngôn ngữ, đã được vLLM chính thức tích hợp, thuộc nhóm SOTA trong các mô hình nhỏ [1]. MiniCPM-V

・2.6 có khoảng 8B tham số, dung lượng khoảng

・5.5GB, dễ dàng nhét vào một card đồ họa hoặc thậm chí thiết bị biên, hiệu suất OCR thuộc hàng đầu, phù hợp cho các kịch bản tài nguyên hạn chế, cần triển khai các máy nhỏ tại chỗ [1]. olmOCR 2 (AllenAI) có khoảng 7B tham số, được huấn luyện bằng RLVR, hoàn toàn mã nguồn mở (bao gồm dữ liệu và mã nguồn) [1]

Bài viết này phân tích rằng hộp công cụ này tiết lộ một logic lựa chọn khác với lý thuyết lấy năng lực mô hình làm trung tâm: vấn đề không phải là “mô hình nào có điểm số cao nhất”, mà là “chiều nào là không thể thỏa hiệp đối với kịch bản của bạn”. Nếu dữ liệu nhạy cảm không thể ra khỏi công ty, khả năng tại chỗ là một ràng buộc cứng, việc lựa chọn trực tiếp hội tụ vào PaddleOCR kết hợp LLM văn bản hoặc Vision LLM tại chỗ; nếu chữ viết tay và sửa đổi dày đặc, và dữ liệu có thể đưa lên đám mây, thì độ chính xác nhận dạng được ưu tiên, Vision LLM đám mây trở thành lựa chọn hợp lý [1]. Nghiên cứu tinh chỉnh VLM đã đề cập trước đó cũng gián tiếp hỗ trợ nhận định này: bộ dữ liệu và mô hình phải phù hợp với kịch bản mục tiêu, việc nói về ưu nhược điểm của mô hình mà không có kịch bản là vô nghĩa [2][4]

Kết luận thực tế hơn là cả hai thường được sử dụng kết hợp: các đơn hàng rõ ràng sẽ đi qua quy trình tại chỗ chi phí thấp, còn các đơn hàng khó mới được chuyển cho Vision LLM [1]. Sự kết hợp này về bản chất là một chiến lược phân luồng chi phí, nó giữ lại tài nguyên suy luận cao cấp, đắt tiền cho một số ít trường hợp khó khăn thực sự cần thiết, thay vì sử dụng mô hình nặng nhất cho mọi đơn hàng một cách không phân biệt

工具箱與選型邏輯：成本、地端與準確率的三角權衡｜回單 OCR 落地的架構抉擇：三代演進與人機分流心法段落重點

Nguyên tắc kiến trúc: Nhận dạng tối thiểu, hệ thống tối đa, giao cho con người khi không chắc chắn

Ghi nhận thực tế đã đúc kết các kinh nghiệm thành một nguyên tắc kiến trúc: nhận dạng tối thiểu, hệ thống tối đa, giao cho con người khi không chắc chắn [1]. Bài viết này phân tích rằng câu nói này có thể được phân tích thành ba nguyên tắc thiết kế hệ thống, và hình thành sự cộng hưởng lý thuyết với tài liệu quản trị

Lớp thứ nhất là tiêu chuẩn hóa tiền xử lý. Một tỷ lệ lớn các thất bại trong nhận dạng biên lai không xảy ra ở mô hình, mà ở đầu vào. Những bức ảnh bị ẩm ướt, lệch, chụp bừa bãi, thông tin cơ bản không được chụp đầy đủ, mô hình mạnh đến mấy cũng không thể tạo ra thông tin từ hư không [1]. Do đó, công việc kỹ thuật đầu tiên của hệ thống là cố gắng tiêu chuẩn hóa đầu vào càng nhiều càng tốt trước khi nhận dạng: làm thẳng, cắt xén, tăng cường độ tương phản, lọc bỏ những hình ảnh chất lượng không đạt. Bài viết này phân tích rằng triết lý thiết kế của lớp này là “chặn sự không chắc chắn từ sớm”, thay vì để đầu vào kém chất lượng làm ô nhiễm toàn bộ đường ống, thì nên phân luồng ngay từ đầu vào. Vấn đề đa dạng bố cục của bộ dữ liệu được nhấn mạnh trong nghiên cứu biên lai di động của Nhật Bản, về bản chất cũng đang nhắc nhở: sự biến đổi ở đầu vào phải được xử lý một cách có hệ thống, chứ không phải đổ hết cho mô hình chịu trách nhiệm [2]

Lớp thứ hai là trích xuất có cấu trúc bằng LLM. Lớp này tương ứng với tinh thần “nhận dạng tối thiểu”: không yêu cầu mô hình thực hiện tất cả các phán đoán cùng lúc, mà để nó tập trung vào việc chuyển đổi nội dung bố cục thành các trường có cấu trúc. Dù là LLM văn bản của thế hệ thứ hai hay Vision LLM của thế hệ thứ ba, cốt lõi đều là ánh xạ hình ảnh hoặc văn bản phi cấu trúc vào một schema rõ ràng (số đơn hàng, tên sản phẩm, số lượng, thời hạn giao hàng, trạng thái giao nhận, v.v.) [1]. Bài viết này phân tích rằng lợi ích của việc schema hóa nhiệm vụ trích xuất là:

・Hai điểm:

・Thứ nhất, đầu ra có thể được các hệ thống downstream trực tiếp tiêu thụ, giảm chi phí hậu xử lý

・Thứ hai, schema cung cấp một điểm neo có thể xác minh, cho phép hệ thống phán đoán liệu một trường nào đó có được trích xuất đáng tin cậy hay không. AI coding agent đặc biệt có thể tăng tốc phát triển ở lớp này, tự động hóa việc kết nối và logic mẫu, cho phép kỹ sư tập trung vào thiết kế schema và các quy tắc xác minh [5][3]

Lớp thứ ba là cổng xem xét thủ công. Đây là chìa khóa của toàn bộ kiến trúc, và cũng là sự thể hiện có hệ thống của “giao cho con người khi không chắc chắn”. Việc trích xuất từng trường của mô hình nên đi kèm với mức độ tin cậy hoặc kết quả xác minh. Khi mức độ tin cậy thấp hơn ngưỡng, hoặc có mâu thuẫn logic giữa các trường (ví dụ: số lượng và số tiền không khớp), hệ thống không nên tự động cho phép, mà nên định tuyến đơn hàng đó đến xem xét thủ công [1]. Bài viết này phân tích rằng thiết kế lớp này chuyển sự không chắc chắn có cấu trúc của mô hình thành quy trình nhân lực có thể quản lý, chính là sự triển khai cụ thể của “quản lý AI một cách khôn ngoan” mà tài liệu quản trị đã đề xuất: hệ thống không giả vờ hoàn hảo, mà thiết kế trước trách nhiệm và đường dẫn dự phòng cho các tình huống không chắc chắn [6]

Kết hợp ba lớp, có thể suy ra một kịch bản phân luồng điển hình. Giả sử một nhà in nhận 1000 biên lai mỗi ngày, trong đó khoảng 80% là chứng từ in ấn có định dạng rõ ràng, có thể được xử lý với chi phí thấp và tốc độ cao bằng OCR tại chỗ kết hợp LLM văn bản; khoảng 15% là chứng từ có độ khó trung bình bao gồm chữ viết tay hoặc sửa đổi, được định tuyến đến Vision LLM; khoảng 5% còn lại là chứng từ chất lượng quá kém hoặc mâu thuẫn, trực tiếp đi vào xem xét thủ công [1]. Trong kịch bản ước tính này, Vision LLM đám mây đắt tiền nhất chỉ cần xử lý khoảng 15% khối lượng, và nhân lực chỉ cần tập trung vào một số ít trường hợp khó khăn nhất. Bài viết này phân tích rằng sự phân lớp và phân luồng này không chỉ là tối ưu hóa độ chính xác, mà còn là tối ưu hóa cấu trúc chi phí, nó làm cho chi phí biên của hệ thống tăng theo phân bố độ khó chứ không phải tuyến tính theo tổng số lượng

架構心法：辨識最小化、系統最大化、不確定就交人｜回單 OCR 落地的架構抉擇：三代演進與人機分流心法段落重點

Ý nghĩa đối với ngành in ấn thiết kế tại Đài Loan

Những nguyên tắc kiến trúc trên có ý nghĩa thực tiễn, phân cấp rõ ràng đối với các vai trò khác nhau trong ngành in ấn thiết kế tại Đài Loan

Đối với các nhà in vừa và nhỏ, bài học quan trọng nhất là không nên coi nhận dạng biên lai là vấn đề mua sắm “chỉ cần mua một mô hình là xong”, mà phải coi là vấn đề quy trình “xây dựng một hệ thống phân luồng”. Về mặt thực hiện cụ thể, khuyến nghị sử dụng PaddleOCR kết hợp LLM văn bản tại chỗ làm baseline, trước tiên tự động hóa các chứng từ thông thường có định dạng rõ ràng, số lượng lớn. Phần này gần như không có token cost và dữ liệu không ra khỏi công ty, phù hợp với lo ngại của hầu hết các nhà in về tính nhạy cảm của dữ liệu đơn hàng khách hàng [1]. Trên cơ sở này, sau đó lựa chọn kết nối Vision LLM đám mây một cách có chọn lọc cho các chứng từ khó có chữ viết tay và sửa đổi dày đặc, và phải thiết lập ngưỡng tin cậy và cổng xem xét thủ công [1]. Bài viết này phân tích rằng, với lịch trình triển khai tuần tự này, các nhà cung cấp có thể chạy baseline trong vài tuần để xử lý 80% khối lượng, sau đó dần dần tăng tỷ lệ tự động hóa cho các trường hợp khó khăn, thay vì ngay từ đầu đã theo đuổi tự động hóa hoàn toàn

Đối với các nhà thiết kế, việc số hóa biên lai và phiếu yêu cầu công việc có nghĩa là thông tin kỹ thuật (kích thước, loại giấy, gia công đặc biệt) có thể được chuyển từ tài liệu giấy sang hệ thống số một cách đáng tin cậy hơn, giảm sai sót kỹ thuật do sao chép thủ công. Bài viết này phân tích rằng, khi hệ thống nhận dạng có thể trích xuất các trường có cấu trúc một cách ổn định, việc đồng bộ hóa thông số kỹ thuật giữa bộ phận thiết kế và sản xuất sẽ kịp thời hơn, và chi phí giao tiếp trong việc làm mẫu thử và sửa đổi có thể được giảm. Ngoài ra, nếu nhà thiết kế hiểu sự ưu tiên của hệ thống nhận dạng đối với “bố cục rõ ràng”, họ có thể sử dụng các trường cố định, bố cục ưu tiên chữ in khi thiết kế mẫu phiếu yêu cầu công việc, từ đó giảm độ khó nhận dạng ở backend

Đối với các thương hiệu, ý nghĩa của việc số hóa biên lai nằm ở khả năng hiển thị chuỗi cung ứng và khả năng truy xuất trách nhiệm. Khi mỗi phiếu giao nhận và phiếu xuất hàng được ghi lại có cấu trúc, các thương hiệu có thể theo dõi trạng thái luân chuyển đơn hàng trong chuỗi cung ứng in ấn, và truy xuất các chứng từ số đáng tin cậy khi có tranh chấp. Bài viết này phân tích rằng điều này cũng tương ứng với cốt lõi của tài liệu quản trị triển khai AI: giá trị của hệ thống không chỉ nằm ở hiệu quả tự động hóa, mà còn ở cách nó phân chia lại trách nhiệm và ranh giới tin cậy giữa con người và hệ thống [6]. Khi triển khai, các thương hiệu nên đặc biệt chú ý đến việc liệu dấu vết kiểm toán của cổng xem xét có đầy đủ hay không, để đảm bảo tự động hóa không làm mất đi tính trách nhiệm giải trình

Điểm chung cho tất cả các vai trò là sự đánh đổi giữa an ninh thông tin và khả năng tại chỗ. Ngành in Đài Loan xử lý số lượng lớn chứng từ chứa dữ liệu cá nhân và bí mật thương mại (như in hóa đơn, dữ liệu thành viên, in báo cáo tài chính), điều này khiến việc “dữ liệu không ra khỏi công ty” thường là một ràng buộc không thể thỏa hiệp. Bài viết này phân tích rằng đây chính là lý do tại sao đường hướng OCR kết hợp LLM văn bản của thế hệ thứ hai đặc biệt quan trọng trong bối cảnh ngành công nghiệp Đài Loan: nó bảo vệ chủ quyền dữ liệu khi triển khai tại chỗ với khả năng nhận dạng chấp nhận được, điều mà các giải pháp Vision LLM đám mây thuần túy hiện nay khó có thể đáp ứng [1]

Kết luận và hạn chế

Bài viết này sử dụng trường hợp thực tế về việc triển khai OCR biên lai tại một nhà in Đài Loan làm ví dụ cốt lõi, để trả lời ba vấn đề nghiên cứu đã nêu trong phần giới thiệu:

・Thứ nhất, nhận dạng biên lai đã trải qua ba thế hệ phát triển: OCR kết hợp biểu thức chính quy, OCR kết hợp LLM văn bản, và Vision LLM phán đoán trực tiếp. Ba thế hệ này không phải là mối quan hệ thay thế, mà cùng tồn tại dựa trên kịch bản và yêu cầu an ninh thông tin [1]

・Thứ hai, mô hình mới nhất chưa chắc đã là tối ưu nhất. Yếu tố quyết định lựa chọn là sự đánh đổi ưu tiên giữa chi phí, khả năng tại chỗ và độ chính xác nhận dạng, chứ không phải điểm số benchmark đơn lẻ [1][2]

・Thứ ba, thành công hay thất bại của việc triển khai phụ thuộc vào sự phối hợp của kiến trúc ba lớp “tiêu chuẩn hóa tiền xử lý, trích xuất có cấu trúc bằng LLM, cổng xem xét thủ công”, và nguyên tắc phân luồng “nhận dạng tối thiểu, hệ thống tối đa, giao cho con người khi không chắc chắn” [1]. Luận điểm cốt lõi của bài viết này là: nhận dạng biên lai nên chuyển từ tư duy lấy mô hình làm trung tâm sang tư duy lấy hệ thống và quản trị làm trung tâm [6]

Nghiên cứu này có một số hạn chế cần được tiết lộ một cách trung thực. Đầu tiên, trường hợp cốt lõi là ghi nhận thực tế trực tiếp của một kỹ sư. Mặc dù kịch bản (biên lai nhà in Đài Loan) có tính đại diện, nhưng dữ liệu benchmark (ví dụ: DocVQA:

・95.7, OmniDocBench hơn 96%) được trích dẫn từ các tuyên bố công khai của mô hình, chưa được tái hiện độc lập trong kịch bản mục tiêu của bài viết này, do đó cần thận trọng khi ngoại suy [1]. Thứ hai, tài liệu OCR hóa đơn được trích dẫn trong bài viết này tập trung vào biên lai di động của Nhật Bản, có sự khác biệt về ngôn ngữ và bố cục so với biên lai nhà in tiếng Trung phồn thể. Tính khả chuyển của các kết luận cần được xác minh thêm [2][4]

・Thứ ba, kịch bản “phân luồng 1000 đơn hàng” đã đề cập trước đó là ước tính của bài viết này dựa trên các nguyên tắc ghi nhận thực tế, tỷ lệ chỉ mang tính minh họa, phân bố thực tế khác nhau tùy nhà máy và chưa được đo lường thực nghiệm

Các hướng nghiên cứu tiếp theo bao gồm:

・Ba hướng:

・Thứ nhất, xây dựng bộ dữ liệu được chú thích về biên lai ngành in tiếng Trung phồn thể, để thay thế việc ngoại suy bằng benchmark bản địa hóa, điều này có thể tham chiếu lẫn nhau với phương pháp luận của nghiên cứu bộ dữ liệu biên lai Nhật Bản [2]

・Thứ hai, định lượng hiệu quả chi phí của kiến trúc ba lớp trong môi trường sản xuất thực tế, đặc biệt là việc thiết lập ngưỡng tối ưu cho cổng xem xét thủ công

・Thứ ba, cụ thể hóa khung quản trị triển khai AI thành các nguyên tắc kiểm toán và phân công trách nhiệm có thể thực hiện được cho ngành in, thu hẹp khoảng cách giữa triển khai công nghệ và quản trị tổ chức [6][5]

Tóm tắt

Ba thế hệ công nghệ nhận dạng biên lai (OCR+Regex, OCR+LLM văn bản, Vision LLM) không phải là mối quan hệ thay thế, mà cùng tồn tại dựa trên kịch bản và yêu cầu an ninh thông tin

Yếu tố quyết định lựa chọn là sự đánh đổi ưu tiên giữa chi phí, khả năng tại chỗ và độ chính xác, chứ không phải điểm số benchmark đơn lẻ; mô hình mới nhất chưa chắc đã là tối ưu nhất

Thành công hay thất bại của việc triển khai phụ thuộc vào sự phối hợp của kiến trúc ba lớp “tiêu chuẩn hóa tiền xử lý, trích xuất có cấu trúc, cổng xem xét thủ công”, chứ không phải sức mạnh của một mô hình đơn lẻ

“Nhận dạng tối thiểu, hệ thống tối đa, giao cho con người khi không chắc chắn” là nguyên tắc cốt lõi để chuyển đổi sự không chắc chắn có cấu trúc của mô hình thành quy trình có thể quản lý

Đối với kịch bản chứng từ nhạy cảm tại Đài Loan, đường hướng OCR+LLM văn bản tại chỗ đặc biệt quan trọng vì nó bảo vệ chủ quyền dữ liệu, còn các trường hợp khó khăn mới được chọn lọc chuyển cho Vision LLM

Suy nghĩ mở rộng

Đối với ngành sản xuất in ấn, đòn bẩy thực sự của OCR biên lai không nằm ở mô hình mà ở thiết kế hệ thống: trước tiên sử dụng quy trình tại chỗ chi phí thấp để xử lý 80% các chứng từ thông thường, sau đó sử dụng Vision LLM đám mây và xem xét thủ công để xử lý các trường hợp khó khăn thuộc đuôi dài, điều này có thể làm cho chi phí biên tăng theo độ khó chứ không phải tổng khối lượng. Đối với bộ phận thiết kế, điều này có nghĩa là mẫu phiếu yêu cầu công việc nên được thiết kế theo hướng các trường cố định, ưu tiên chữ in, từ đó giảm độ khó nhận dạng ngược lại. Đối với nhà cung cấp dịch vụ AI và SaaS, cơ hội nằm ở việc đóng gói “kiến trúc ba lớp cộng với công cụ phân luồng cộng với dấu vết kiểm toán” thành một sản phẩm có thể được ngành in trực tiếp sử dụng, thay vì chỉ bán API mô hình. Các vấn đề chưa được giải quyết có ba điểm: thiếu benchmark bản địa hóa cho biên lai in tiếng Trung phồn thể, thiếu bằng chứng thực nghiệm về thiết lập ngưỡng tối ưu cho xem xét thủ công, và làm thế nào để cân bằng tự động hóa với trách nhiệm giải trình ở cấp độ quản trị

Tài liệu tham khảo

[1] Thực tế triển khai OCR biên lai tại nhà máy: Những "cái hố" không tránh được là uổng phí công sức, công khai toàn bộ nguyên tắc kiến trúc sau khi đúc kết

[2] Nathan S. (2025). Japanese-Mobile-Receipt-OCR-1.3K: A Comprehensive Dataset Analysis and Fine-tuned Vision-Language Model for Structured Receipt Data Extraction. DOI: 10.36227/techrxiv.175616889.90325672/v1

[3] Rodriguez J. (2025). myownrobs: AI Coding Agent for 'RStudio'. CRAN: Contributed Packages. DOI: 10.32614/cran.package.myownrobs

[4] Nathan S. (2025). Japanese-Mobile-Receipt-OCR-1.3K: A Comprehensive Dataset Analysis and Fine-tuned Vision-Language Model for Structured Receipt Data Extraction. DOI: 10.21203/rs.3.rs-7357197/v1

[5] Wienholt N. (2025). Using an AI Coding Agent. GitHub Copilot and AI Coding Tools in Practice. DOI: 10.1007/979-8-8688-1784-7_2

[6] Waardenburg L., Huysman M., Agterberg M. (2021). Introduction to managing AI wisely. Managing AI Wisely. DOI: 10.4337/9781800887671.00010)

FAQ / Câu hỏi thường gặp

OCR biên lai tại nhà in có nhất thiết phải sử dụng Vision LLM mới nhất không?: Không nhất thiết. Mặc dù Vision LLM có thể đọc chữ viết tay và các sửa đổi, nhưng tốc độ chậm, chi phí cao, và các mô hình mạnh mẽ thường nằm trên đám mây, khó triển khai hoàn toàn tại chỗ. Nếu chứng từ nhạy cảm không được phép rời khỏi công ty, OCR tại chỗ kết hợp LLM văn bản lại phù hợp hơn. Cách làm phổ biến là kết hợp cả hai, phân luồng tùy theo độ khó
Tại sao nhận dạng biên lai không thể đạt độ chính xác 100%?: Vì những bức ảnh bị ẩm ướt, lệch hoặc chụp bằng điện thoại có thể không chứa đầy đủ thông tin, không mô hình nào có thể tạo ra thông tin từ hư không. Thiết kế đúng đắn là sử dụng ngưỡng tin cậy và cổng xem xét thủ công để hấp thụ phần không chắc chắn này, chứ không phải kỳ vọng mô hình tự đạt đến sự hoàn hảo
Kiến trúc ba lớp của OCR biên lai là gì?: Đó là tiêu chuẩn hóa tiền xử lý (làm thẳng, tăng cường, lọc ảnh kém), trích xuất có cấu trúc bằng LLM (ánh xạ nội dung sang schema rõ ràng), và cổng xem xét thủ công (định tuyến các đơn hàng có độ tin cậy thấp hoặc mâu thuẫn logic cho con người). Ba lớp này phối hợp với nhau mới là chìa khóa để triển khai thành công, chứ không phải một mô hình đơn lẻ
Nhà in vừa và nhỏ tại Đài Loan nên bắt đầu triển khai nhận dạng biên lai từ đâu?: Khuyến nghị trước tiên sử dụng PaddleOCR kết hợp LLM văn bản tại chỗ làm baseline, tự động hóa các chứng từ thông thường có định dạng rõ ràng, số lượng lớn. Phần này gần như không có token cost và dữ liệu không ra khỏi công ty, sau đó dần dần kết nối Vision LLM cho các chứng từ khó có chữ viết tay/sửa đổi và thiết lập xem xét thủ công
Tại sao triển khai tại chỗ lại quan trọng đối với ngành in?: Vì ngành in xử lý số lượng lớn chứng từ chứa dữ liệu cá nhân và bí mật thương mại, việc dữ liệu không ra khỏi công ty thường là một ràng buộc không thể thỏa hiệp. Điều này khiến các giải pháp tại chỗ trưởng thành như OCR kết hợp LLM văn bản đặc biệt có giá trị trong bối cảnh ngành công nghiệp Đài Loan, trong khi các giải pháp Vision LLM đám mây thuần túy hiện nay khó có thể đảm bảo chủ quyền dữ liệu

Quay lại Kiến thức