문서 이해 AI의 진화, 문서 특화 멀티모달 OCR로 전환 중
문서 AI 시장이 빠르게 고도화되고 있다. 기존 OCR이 이미지 내 텍스트 추출에 그쳤다면, VLM OCR은 문서의 시각적 구조와 언어적 맥락을 함께 이해하는 문서 특화 멀티모달 OCR 기술로 주목받고 있다. 특히 계약서, 재무제표, 의료기록 등 비정형 고난도 문서 자동화에 있어 핵심 인프라로 부상하고 있다.
한국딥러닝, 국내 최초 상용화… ‘의미 기반 추론’으로 문서 자동화 앞당겨
한국딥러닝은 올해 1월, 자체 개발한 VLM 모델 ‘DEEP IMAGE’를 활용한 ‘DEEP OCR+’를 정식 출시하며 상용화를 선도하고 있다.
4억 건 이상 학습한 VLM 기반 AI로 한국어 및 다국어 문서 이해에 특화
별도 커스터마이징 없이 실시간 처리 가능
계약서·조항·표·날짜 등 복잡한 문서 구조도 자동 추출
특히 의미 기반 추론을 통해 수기 문서나 줄임말, 복합 레이아웃 문서에서도 안정적인 정보 추출이 가능하다는 점이 강점으로 꼽힌다.
업스테이지, DocVLM으로 후발 추격… 글로벌 확장 노린다
업스테이지는 6월 중 LLM 기반 문서 AI 솔루션 ‘솔라 DocVLM’ 출시를 예고했다.
자체 OCR 솔루션 ‘Document Parse’ + LLM ‘SOLAR’ 결합
질의응답, 요약, 분류 등 에이전트 수준의 기능 제공
의료·보험·금융 등 복잡한 문서에 대한 대응력 강화
글로벌 시장 본격 진출 예정
VLM OCR, 디지털 전환 시대의 필수 인프라로
VLM OCR은 문서 AI의 단계를 ‘인식’에서 ‘이해’로 끌어올리며, ERP·RPA 등 기업 시스템과의 연계성도 높아지고 있다.
문서 특화 AI 에이전트로서 업무 자동화 전반을 주도
공공기관, 금융, 물류 등 실제 현장 적용에서 ROI 입증
한국딥러닝은 빠른 레퍼런스 확보와 실전 적용력에서 우위
업스테이지는 LLM 기반 확장성과 글로벌 전략으로 대응
📌 기사로 바로 이동하기
👉 VLM OCR 기술 부상…한국딥러닝 선두, 업스테이지 추격 예고