국내 대형 금융사 도입 사례, LLM OCR 성능 평가

국내 대형 금융사의 실문서 검수 결과를 바탕으로 AI OCR 성능을 어떻게 봐야 하는지 정리했습니다. 문서 149종, 비즈니스 기준 400개 문서를 대상으로 문서 분류와 Key-Value 추출 정확도를 평가한 사례를 통해 실제 도입 판단 기준을 살펴봅니다.

한국딥러닝

Apr 09, 2026

Contents

국내 대형 금융사 도입 사례, AI OCR 성능 평가 OCR 성능 평가는 왜 숫자만 보면 부족할까 1. 왜 OCR 검수가 필요했을까 2. VLM OCR: 적은 샘플이 아닌 실제 운영 문서 범위에서의 평가 4. 평가 방식과 결과는 어떻게 나왔을까 5. 이 결과가 실제 업무에서 의미하는 것 6. 한국딥러닝은 문서를 문서 AI 관점에서 접근합니다 마치며

국내 대형 금융사 도입 사례, AI OCR 성능 평가

AI OCR을 검토할 때 가장 먼저 보게 되는 것은 보통 정확도입니다.
그런데 실제 도입 단계에서는 숫자 하나만으로 판단하기 어려운 경우가 많습니다.

실무에서는 문서를 읽는 것만으로 일이 끝나지 않기 때문입니다.
어떤 문서인지 구분해야 하고, 필요한 값을 찾아야 하고, 여러 문서에 적힌 내용이 맞는지도 다시 확인해야 합니다.
그래서 금융권처럼 문서 종류가 많고 검토 기준이 까다로운 환경에서는 단순 인식률보다 문서 분류와 항목 추출이 실제 운영 문서에서 얼마나 안정적으로 동작하는지를 더 중요하게 보게 됩니다.

이번 글에서는 국내 대형 금융사의 실문서 검수 결과를 바탕으로, VLM(Vision-Language Model, 시각-언어 모델)을 도입한 AI OCR 성능 평가를 어떤 기준으로 봐야 하는지 정리해보겠습니다.

OCR 성능 평가는 왜 숫자만 보면 부족할까

문서 AI를 검토할 때 흔히 정확도가 몇 퍼센트인가부터 묻게 됩니다.
물론 중요한 기준입니다. 하지만 실제 업무에서는 그것만으로 부족합니다.

AI OCR이 잘 작동하는지 보려면 텍스트를 읽는 성능만 볼 것이 아니라,
문서를 업무에 바로 쓸 수 있는 형태로 정리해주는지, 다시 말해 문서 자동화에 실제로 활용할 수 있는지까지 함께 봐야 합니다.

1. 왜 OCR 검수가 필요했을까

사례 속 고객사는 반복적으로 접수되는 금융 문서를 더 빠르고 안정적으로 처리할 수 있는 방법을 검토하고 있었습니다.
문제는 문서가 늘 같은 형태로 들어오지 않는다는 점이었습니다. 인쇄체 문서가 있는가 하면 필기 입력이 포함된 문서도 있었고, 접수 이후에는 단순 텍스트 확인보다 문서 종류 식별과 핵심 정보 정리가 더 중요한 경우가 많았습니다.

이번 검수도 이런 배경에서 진행됐습니다.
중요했던 것은 인식률 숫자 하나가 아니라, 실문서 기준으로 문서 분류와 Key-Value 추출 결과를 어디까지 신뢰할 수 있는지 확인하는 일이었습니다.

2. VLM OCR: 적은 샘플이 아닌 실제 운영 문서 범위에서의 평가

이번 평가는 일부 예시 문서를 대상으로 한 테스트가 아니라,
실제 운영에 들어오는 문서 범위를 기준으로 진행됐습니다.

검수에 활용된 문서는 총 149종이었고,
비즈니스 기준으로는 400개 문서에서 Key-Value 추출 결과를 확인했습니다.
비슷한 문서끼리 묶어서 보면 약 180개 수준으로 줄어들지만, 실무에서는 같은 계열 문서 안에서도 양식 차이, 기입 방식 차이, 배치 차이가 계속 발생합니다.

이 숫자가 중요한 이유는 분명합니다.
기존의 일반적인 AI OCR은 정해진 양식(좌표)을 벗어나면 인식률이 급격히 떨어져, 149종의 문서를 일일이 학습시켜야 하는 한계가 있었습니다.

하지만 이번 평가에 도입된 솔루션은 VLM(시각-언어 모델) 기반이었습니다. VLM은 사람처럼 문서의 전체적인 맥락과 시각적 구조를 동시에 이해합니다. 덕분에 한두 개 정형 양식에서만 잘 읽히는 것을 넘어, 사전 좌표 매핑 없이도 현장에서 반복적으로 들어오는 문서의 다양성 안에서 안정적으로 결과를 낼 수 있었습니다.

이번 평가는 크게 두 가지 항목으로 진행됐습니다.

문서 분류
문서가 어떤 종류인지 구분하는 단계입니다.
이 단계가 흔들리면 뒤의 추출 결과도 함께 흔들릴 수 있습니다.

Key-Value 추출
문서 안에서 필요한 값을 뽑아내는 단계입니다.
이름, 금액, 식별 정보, 신청 정보처럼 실제 업무 처리에 필요한 항목을 정확하게 정리할 수 있는지를 보는 기준입니다.

그리고 Key-Value 추출은 다시 두 영역으로 나눠서 평가했습니다.

인쇄체
필기체

실제 문서 업무에서는 이 차이가 큽니다.
인쇄체는 상대적으로 규칙적이지만, 필기체는 작성자마다 글씨와 위치가 달라져 운영 난이도를 더 잘 보여주기 때문입니다.

4. 평가 방식과 결과는 어떻게 나왔을까

평가 방식은 수집된 샘플을 기준으로 정답지를 수기로 작성한 뒤,
OCR 결과값과 매칭하여 음절 일치 개수를 세는 방식으로 진행됐습니다.

결과는 아래와 같습니다.

문서 분류

기준: 95% 이상
결과: 97%
판정: Pass

Key-Value 추출 - 인쇄체

기준: 95% 이상
결과: 98%
판정: Pass

Key-Value 추출 - 필기체

기준: 92% 이상
결과: 98%
판정: Pass

결과만 보면 단순히 기준을 넘겼다고 볼 수 있습니다.
하지만 실무적으로는 그보다 더 중요한 의미가 있습니다.

문서 종류가 많은 환경에서 문서 분류가 97% 수준으로 유지됐고,
항목 추출 역시 인쇄체와 필기체 모두 98%로 기준을 넘겼다는 것은 실제 운영 단계에서도 문서를 구조적으로 다룰 수 있는 가능성을 보여주는 결과이기 때문입니다.

5. 이 결과가 실제 업무에서 의미하는 것

이번 평가는 문서 149종, 비즈니스 기준 400개 문서,
그리고 유사 문서를 묶어도 약 180개 수준의 문서군을 전제로 진행됐습니다.

이 말은 곧, 특정 양식 한두 개만 잘 읽은 결과가 아니라
실제 업무 문서군에서 문서 분류와 Key-Value 추출이 얼마나 안정적으로 작동하는지를 본 결과라는 뜻입니다.

금융권에서 AI OCR 또는 OCR 솔루션을 검토할 때는 보통 이런 질문이 따라옵니다.

문서 종류가 많아도 안정적으로 처리될까
비슷한 양식이 섞여 있어도 구분할 수 있을까
필요한 값이 업무에 바로 쓸 수 있는 형태로 정리될까
사람이 다시 봐야 하는 범위를 줄일 수 있을까

그래서 AI OCR 성능 평가는 단순히 인식률이 높은지 보는 단계를 넘어,
실제 운영에서 검토 부담을 얼마나 줄일 수 있는지를 판단하는 기준으로 보는 것이 더 현실적입니다.

6. 한국딥러닝은 문서를 문서 AI 관점에서 접근합니다

한국딥러닝은 OCR을 단순 텍스트 인식 기능으로만 보지 않습니다.
문서를 분류하고, 구조를 이해하고, 필요한 값을 추출하고,
서로 다른 문서 간 내용을 비교·검증한 뒤, 사람이 다시 봐야 할 부분만 남기는 흐름을 중요하게 봅니다.

이 과정에서
DEEP OCR은 문서를 읽고,
DEEP Parser는 문서 구조를 해석하고,
DEEP Agent는 분류/추출/검증/검수/연계까지 이어지는 전체 문서 처리 흐름을 연결합니다.

문서가 많고, 양식이 다르고, 검토 기준이 자주 달라지는 환경일수록
단순 OCR보다 이런 문서 AI 방식이 실제 운영에 더 가까운 접근이 됩니다.

마치며

AI OCR 성능 평가는 단순히 정확도 숫자만 보는 단계에서 끝나지 않습니다.
어떤 문서군을 대상으로 평가했는지,
템플릿의 제약 없이 문서 분류와 Key-Value 추출이 실제 운영 문서에서 안정적으로 나오는지,
그리고 그 결과가 사람의 검토 부담을 얼마나 줄여주는지까지 함께 봐야 합니다.

이번 국내 대형 금융사 사례도 같은 점을 보여줍니다.
실제 접수 문서를 기준으로 문서 분류와 Key-Value 추출을 나누어 검수했고, 인쇄체와 필기체를 구분해 확인했습니다. 그리고 그 결과는 전 항목 기준 충족으로 이어졌습니다.

결국 중요한 것은 OCR이 글자를 읽는지 여부만이 아니라,
실제 문서 환경 안에서 어디까지 안정적으로 활용할 수 있는지입니다.

문서 자동화를 검토하고 있다면, 기능 소개만 보기보다
실문서 기준의 검수 방식과 평가 항목을 먼저 확인해보는 것이 좋습니다.

*참고 자료

1. KIEval: Evaluation Metric for Document Key Information Extraction

2. Beyond Document Page Classification: Design, Datasets, and Challenges

3. Intelligent document processing with AWS AI services: Part 1

💡우리 문서 기준으로 어떤 평가 방식이 적절한지 확인해보고 싶다면
한국딥러닝에 문의해보세요.

Contents