"답"이 아닌 "생각"의 흐름
AI 모델이 더 똑똑해지려면 무엇이 필요할까요? 단순히 정답을 출력하는 것이 아니라, 인간처럼 생각의 흐름을 따라 문제를 해결할 수 있어야 합니다. 바로 이 지점에서 등장한 개념이 Chain of Thought (CoT) 입니다. 최근 LLM(Large Language Model)의 핵심 성능 향상 기술로 주목받고 있는 CoT는, 답을 도출하기 위한 중간 reasoning 단계를 명시적으로 구성함으로써 모델의 추론력과 해석 가능성을 획기적으로 개선합니다.
Chain-of-Thought란?
Chain-of-Thought(COT, 생각의 연결고리)는 LLM이 복잡한 문제에 답을 내리기 전 중간 사고 단계를 명시적으로 표현하도록 유도하는 prompting 전략입니다.
예를 들어, “12 + 13 + 17은 얼마인가요?”라는 질문에 모델이 바로 ‘42’라고 답하는 대신,
12 + 13 = 25이고, 25 + 17 = 42이므로, 답은 42입니다.
처럼 생각의 과정을 단계별로 명시하게 만드는 것이 CoT입니다.
이런 방식은 단지 정확도를 높일 뿐 아니라, 모델의 응답 과정을 인간이 더 잘 이해하고 검증할 수 있도록 해줍니다.
CoT와 문서 이해 AI의 실제 활용: VLM OCR 사례
CoT는 단순히 수학 문제나 퍼즐에만 유용한 것이 아닙니다. 최근에는 이미지와 텍스트를 함께 다루는 VLM OCR이나 문서 이해 AI 시스템에서도 CoT가 활발히 활용되고 있습니다.
예시 1: 약어 해석과 문맥 기반 판단
문서에서 다음과 같은 텍스트가 인식되었다고 가정해보겠습니다.
수신처: 롯백 김포
금액: 158,000원
기존 OCR은 이를 단순한 텍스트로 추출할 수 있지만, CoT 기반 모델은 다음과 같은 사고 흐름을 펼칩니다.
'롯백'은 '롯데백화점'의 축약어일 가능성이 있음 → '김포'는 지명이므로, 둘을 결합하면 '롯데백화점 김포점'이라는 의미로 추정됨 → 수신처라는 위치 정보로 미루어볼 때 이는 배송지 또는 거래처로 해석 가능
예시 2: 표 구조 해석
| 품목 | 단가 | 수량 | 금액 |
|-----------|--------|-----|--------|
| 프린터 토너 | 80,000 |2 | 160,000|
단순 수치가 아니라 구조적 문맥을 이해하기 위해 CoT는 다음과 같은 판단을 유도합니다.
'단가 x 수량 = 금액'이라는 논리를 적용해 계산 일치 여부를 확인 → 계산 결과가 맞을 경우, 금액 필드는 신뢰 가능한 값으로 판단 가능 → 추가적으로 '프린터 토너'라는 품목은 사무용 소모품으로 분류됨
기존 OCR vs VLM+CoT 기반 접근법
기존 OCR 시스템은 문서에서 텍스트를 인식하고, 정해진 위치에 있는 Key 정보를 추출하는 KIE(Key Information Extraction) 방식이 일반적입니다. 그러나 이 방식은 다음과 같은 제약이 있습니다.
템플릿/양식이 정해져 있어야 하며,
각 필드(Key)에 대해 별도로 학습을 진행해야 하며,
관계나 의미 연결보다는 위치 중심 매핑을 수행합니다.
반면 VLM + CoT 조합은
비정형 문서나 템플릿이 없는 문서도 대응 가능
각 키워드나 항목을 제로샷으로 유추 가능
구조적으로 복잡한 레이아웃에서도 단계적 reasoning을 수행할 수 있습니다.
VLM+CoT의 장점
항목 | 기존 OCR + KIE | VLM + CoT 기반 문서 이해 |
---|---|---|
학습 데이터 | 각 필드별로 별도 학습 필요 | 학습 없이도 제로샷 추론 가능 |
문서 템플릿 | 필요 (고정된 양식에 최적화) | 불필요 (비정형 문서도 처리 가능) |
문맥 이해 | 없음 | CoT 기반 텍스트 간 의미 추론 가능 |
표/HTML 구조 | 단순 추출 | 복잡한 구조에서도 추론 강화 |
확장성 | 도메인 전환 어려움 | 유연한 적용 가능 |
CoT 없이도 VLM 모델은 KIE나 마크다운 변환을 수행할 수 있으나, 복잡한 HTML 구조, 비정형 표 등 고차원 레이아웃 해석에서는 CoT 프롬프팅이 정확한 정보 추출에 큰 보조 역할을 합니다.
즉, 문서의 공간적 구조 해석은 주로 layout 분석 및 OCR 기반 모듈이 담당하며, CoT는 그 위에 추가되는 의미 기반 텍스트 추론 보조 메커니즘으로 기능합니다. CoT는 각 구성 요소 간의 관계, 상호 의미, 논리적 연결성을 추론함으로써 문서 해석의 완성도를 높입니다.
한국딥러닝 VLM OCR에서는?
예를 들어 기업 문서 자동화 상황에서 CoT 프롬프트가 어떻게 활용되는지를 보여주는 자세히 알아봅시다.
프롬프트
문서의 일부를 OCR로 추출했습니다:
---
수신처: 롯백 김포
금액: 158,000원
---
‘롯백 김포’는 무엇을 의미할까요? 단계적으로 생각해보세요.
모델 응답 예시
1. '롯백'이라는 단어는 일반 명사로 보기 어려움
2. ‘롯데백화점’의 축약형일 가능성 있음
3. ‘김포’는 지명
4. 두 단어를 결합하면 ‘롯데백화점 김포점’으로 추정
5. ‘수신처’ 위치에 있는 정보이므로 배송지일 가능성
이러한 형태의 응답은 단순 정보 추출을 넘어서 의미 기반 해석을 수행하는 데 중요한 역할을 하며, CoT의 실제 효과를 실무에 연결시켜 줍니다.
한국딥러닝의 VLM OCR은 CoT 기반 reasoning을 실제 현장에 접목시켜, 사람이 하지 않으면 어려운 문맥 추론과 레이아웃 해석을 자동화합니다.
복잡한 비정형 문서도 제로샷으로 구조화
인명/지명/기관명/항목 구분과 같은 문맥 기반 의미 추론
표 구조, 서명 위치 등 레이아웃 요소와 텍스트의 논리 연결 해석 가능
이를 통해 기업 문서 처리 업무에서 정확도는 높이고, 수작업은 줄이며, 도메인 전환 속도는 획기적으로 향상시킬 수 있습니다.
CoT의 주요 응용 분야
수학 문제 풀이 (Kojima et al., 2022)
상식 추론 (Wei et al., 2022)
논리적 질의 응답 (OpenAI blog)
멀티모달 reasoning (Google DeepMind)
대화형 AI (IBM watsonx)
CoT는 미래형 문서 AI의 핵심 축
Chain of Thought는 단순한 기술이 아니라, AI가 생각하는 방식을 인간의 사고 흐름에 더 가깝게 만드는 패러다임입니다.
특히 문서처럼 복합 구조와 다양한 의미가 뒤섞인 데이터를 다룰 때, CoT는 AI가 더 정확하고 해석 가능한 방식으로 작동하도록 돕습니다.
한국딥러닝은 CoT 기반 VLM OCR을 통해 문서 이해 AI의 새로운 기준을 제시합니다.
지금, 당신의 문서를 AI가 ‘생각하며’ 처리하게 만들어 보세요.