기업 환경에서 하루에도 수천 건씩 처리되는 문서들은 단순히 ‘읽기 좋게 스캔되어 있는 텍스트의 모음’이 아니다.
각 문서에는 이름, 주소, 금액, 날짜, 단가, 수량처럼 비즈니스 프로세스의 핵심 값들이 들어 있으며, 이 값들이 틀림없이 OCR되는가는 업무 자동화의 첫 단계이자 가장 중요한 기반이 된다.
그래서 OCR이 흔들리면, 그 위에서 돌아가는 Parser, KIE(Key-Value Extraction), DB 매핑, 승인 절차 등 전 과정이 함께 흔들리게 된다.
이번 실험은 이러한 전제를 바탕으로 동일한 신고서 스캔본을 ChatGPT와 DEEP Agent Lab에 입력해 두 모델이 ‘문자를 얼마나 정확히 읽는가’만을 평가하는 실험이다. 즉, 구조 복원이나 엔티티 분리 같은 고급 기능은 제외하고, 철저히 OCR 수준(문자 단위 인식 정확도)에만 초점을 맞췄다.
동일 문서라도, 두 모델의 결과는 완전히 달랐다
아래 이미지는 동일한 신고서를 OCR했을 때의 실제 비교다.
실험은 단순하다. 같은 문서를 넣었는데, 결과는 확연히 다르다.
ChatGPT는 문장 단위로 재작성하는 경향이 있어
일부 문자를 잘못 읽거나, 원문과 다른 순서로 재구성되기도 한다.
반면 DEEP Agent Lab은 원문 문자 단위를 최대한 그대로 보존하며
숫자·주소·고유명사 등 중요한 필드에서 오차가 거의 없다.
눈으로 보기만 해도 “아, 이 결과를 시스템에 그대로 넣어도 되겠다 / 안 되겠다”가 즉시 판단될 정도의 차이가 발생한다.
성능 지표로 보면 차이는 더 선명해진다
OCR의 성능은 감각이나 느낌으로 판단할 수 없다. 정확한 수치가 필요하다. 그래서 내부 테스트셋 200장을 기준으로 아래 8개 지표를 비교했다.
가장 중요한 몇 가지 수치를 요약하면 이렇다.
● OCR Text Accuracy
ChatGPT: 82.4%
DEEP Agent Lab: 98.7%
텍스트 정확도에서의 15% 차이는 실무에서는 “사용 가능”과 “사용 불가”의 차이다.
● Numeric Field Accuracy (금액 / 단가 / 수량 등)
ChatGPT: 83.1%
DEEP Agent Lab: 99.1%
숫자 하나 틀리면 결제 오류, 정산 오류, 심사 오류가 난다. 이 영역에서 DEEP Agent Lab은 특히 강했다.
● OCR Failure Rate
ChatGPT: 14~17%
DEEP Agent Lab: 0.9%
문자 인식 실패는 아예 누락되거나 공백이 생기는 경우를 의미한다. 실무에는 사실상 허용되기 어렵다.
● Speed(sec/page)
ChatGPT: 3.4초
DEEP Agent Lab: 0.6초
속도까지 고려하면 전체 처리량에서 5배 이상 차이가 난다.
왜 이런 차이가 날까? — 모델 철학 자체가 다르기 때문이다
아래는 ChatGPT와 DEEP Agent Lab이 OCR을 처리하는 방식이 근본적으로 다름을 보여주는 모델 비교다.
📌 이미지: 모델 비교 표 삽입
🔴 오답 🟢 정답
● ChatGPT
ChatGPT는 기본적으로 자연어 처리(NLP)에 최적화된 모델이다. 이미지를 분석해 글자를 읽는다기보다, 이미지 속 텍스트를 기반으로 “사람이 읽을 법한 문장”을 만든다.
그래서 다음과 같은 특징이 나타난다:
문장 흐름에 맞게 내용을 재배열
숫자나 이름에서 “보정”이 발생
자연어 문장으로 설명하듯 출력
이는 GPT의 장점이면서 동시에, 문자를 그대로 읽어야 하는 OCR 작업에서는 단점이 된다.
● DEEP Agent Lab
반면 DEEP Agent Lab은 처음부터 문자 인식 정확도에 초점을 맞춘 VLM 기반 OCR 엔진이다.
스캔 품질(흔들림·노이즈·저해상도)에 강함
숫자·주소·코드값처럼 민감한 영역에서 높은 정밀도
원문을 수정하지 않고 ‘있는 그대로’ 추출
자동화 시스템이 바로 사용할 수 있는 형태로 출력
즉, ChatGPT가 “설명문”으로 텍스트를 재구성하는 접근이라면 DEEP Agent Lab은 “원문 보존”을 최우선으로 한다.
벤치마크 그래프 — 수치가 시각적으로 주는 메시지
아래 그래프는 네 가지 핵심 OCR 지표를 시각화한 것이다.
OCR Text Accuracy부터 속도까지, DEEP Agent Lab이 모든 지표에서 안정적 우위를 보인다. 직관적으로 이해하기 쉬운 그래프이기 때문에 가장 많이 공유된 섹션이기도 하다.
OCR은 문서 AI의 시작이며, 품질을 결정하는 첫 단추다
“같은 문서를 넣어도, 두 모델의 설계 목적에 따라 OCR 결과는 완전히 다르게 나온다.”
ChatGPT는 자연어 추론에 뛰어나지만, 단문자 단위 정확성이 중요한 OCR 환경에서는 원문 손실, 숫자 오류, 재배열 현상이 발생한다.
반면 DEEP Agent Lab은 문자 하나도 틀리지 않는 정확성, 실무 환경을 고려한 안정성을 바탕으로 기업 문서 자동화에 최적화된 결과물을 제공한다. 문서 기반 자동화의 첫 단계는 항상 같다. “문자를 얼마나 정확하게 읽었는가.” 이 실험은 그 차이를 가장 단순하고 가장 명확한 방식으로 보여준다.