비정형 문서도 이해하는 OCR, 왜 ‘VLM’이 필요했는가
최근 보도된 김지현 대표의 인터뷰에서는 VLM 기반 OCR 기술이 기존 OCR과 무엇이 다른지, 그리고 실제로 기업 현장에서 어떤 문제를 해결해왔는지가 소개되었습니다.
그동안 OCR은 ‘문자 인식’ 기술에 머물렀습니다.
하지만 현장에는 손글씨, 의미 축약(예: 롯백=롯데백화점), 혼합된 문서 레이아웃처럼 예외적인 케이스가 많습니다.
이런 문제를 해결하기 위해, 저희는 지난 5년간 4억 장 이상의 실문서를 기반으로 한 VLM(Vision-Language Model)을 개발해 왔습니다.
VLM OCR은 단순 인식이 아니라, ‘이해’합니다
“VLM OCR은 ‘글자를 보는 AI’가 아니라 ‘문서를 이해하는 AI’”라고 말했습니다.
이는 실제 업무 현장에서 매우 실용적인 차이를 만들어냅니다.
예를 들어, 다음과 같은 문제가 가능합니다.
배송 송장의 줄임말 ‘롯백 김포’ → ‘롯데백화점 김포’로 자동 해석
사내 보고서에 수기로 적힌 발주번호도 정확하게 추출
통관서류·계약서·민원서류처럼 형식이 제각각인 문서도 구조 분석 가능
이처럼 기존 룰 기반 OCR로는 커버할 수 없었던 복잡한 문서 환경을, VLM OCR은 구조적으로 처리합니다.
실제 도입 결과: 90% 이상 업무 시간 절감
기사에서는 한 도입 기업의 사례도 함께 소개되었습니다.
이 기업은 매일 40종 이상의 문서를 수작업으로 정리하던 문제를, VLM OCR 도입 후 문서 1건당 처리 시간을 10분에서 1분으로 줄였습니다.
이는 연간 17억 원의 절감 효과로 이어졌고, 현재는 전사적 문서 처리 자동화 시스템의 핵심 축으로 운영되고 있습니다.
앞으로는 ‘문서 검색’까지 확장됩니다
이번 인터뷰에서 VLM OCR 기술을 초거대 언어모델(LLM) 기반으로 확장 중이라는 계획도 밝혔습니다.
이제는 문서를 단순히 인식하는 것을 넘어, 문서 내 의미를 파악하고, 필요한 내용을 실시간으로 검색하거나 요약하는 수준까지 나아가려는 단계에 있습니다.
현재는 대형 물류·IT 기업들과 함께 기술 실증을 완료했고, 정식 출시는 이달 또는 다음 달로 예정되어 있습니다.
인터뷰에서 다룬 더 많은 이야기 보기
관련 기사
우리가 만든 기술, 지금도 실무에서 작동 중입니다
문서를 이해하는 AI, 복잡한 구조와 손글씨까지 인식하는 OCR, 도입 후 2주 이내 실질적인 ROI를 만들어낸 기술
지금도 수많은 고객사에서 실제 운영 중입니다.
궁금하시다면 홈페이지를 통해 문의하세요.