말라가는 LLM 학습용 데이터, DEEP Parser가 필요합니다
세 줄 요약
생성형 AI의 발전이 ‘고품질 학습용 데이터’ 부족이라는 새 장벽을 만났습니다.
논문, 뉴스, 코드 등 폐쇄형 콘텐츠를 둘러싼 데이터 라이선스 전쟁이 본격화되고 있습니다.
이제 AI의 경쟁력은 얼마나 ‘좋은 데이터’를 확보하느냐에 달려 있습니다.
일러두기
LLM (Large Language Model)
대규모 텍스트 데이터를 학습해 사람처럼 글을 쓰고 질문에 답하는 AI입니다. GPT-4, Claude, Grok 등이 대표적인 예입니다.
데이터 라이선스
특정 콘텐츠를 학습용으로 활용할 수 있도록 허락받는 계약입니다. 요즘은 논문, 뉴스, 책 등 ‘좋은 데이터’는 대부분 라이선스 대상입니다.
오픈소스 AI
누구나 사용할 수 있도록 공개된 AI 모델입니다. 하지만 진짜 ‘오픈’인지, 즉 학습 데이터까지 공개되었는지는 논란이 많습니다.
AI는 더 이상 ‘줍는’ 시대가 아니다
2022년까지 대부분의 생성형 AI 기업들은 인터넷에 공개된 데이터를 마구 긁어모았습니다. 위키피디아, 블로그, 깃허브, 트위터, 뉴스 댓글, 오픈액세스 논문 등 ‘쓸 수 있는 건 다 쓴’ 상황이죠. 그 결과, 이제는 새로운 학습 데이터를 찾는 게 더 어렵습니다.
그래서 등장한 전략이 바로 ‘데이터를 사는 것’입니다.
주요 사례
OpenAI: 뉴스사, 통신사, 출판사와 대규모 라이선스 계약 체결
Microsoft: 테일러앤프랜시스와 1,000만 달러 계약
Wiley: 논문 전문(full-text) 전체를 AI 기업에 판매, 금액은 2,300만 달러 이상
이처럼 ‘데이터 전쟁’은 이미 시작됐고, 그 핵심은 단 하나입니다. “누가 더 ‘좋은 문서’를 갖고 있느냐” 입니다.
내 논문도 학습됐을까?
문제는, AI가 ‘복사’를 하지 않는다는 점입니다. AI는 문장을 외우지 않고, 통계적으로 유사한 문장을 ‘새로 생성’합니다. 그래서 법적으로는 회색지대입니다. 이 때문에 최근엔 ‘저작권 트랩 문장’을 심어놓고 AI가 학습했는지 추적하는 연구도 등장했죠. 향후 뉴욕타임스와 OpenAI의 소송 결과는, 전 세계 AI 학습 규범을 좌우할 수도 있습니다.
AI가 논문을 ‘직접’ 쓰는 시대
도쿄의 스타트업 사카나AI(Sakana AI)는 AI가 논문을 처음부터 끝까지 작성하는 자동화 시스템을 실험했습니다.
연구 아이디어 생성
실험 설계 및 코드 작성
결과 요약
논문 작성 → 저널 제출
비용은 단 15달러. 작성 주제는 ‘확산 모델’, ‘트랜스포머’, ‘그로킹’ 등 최신 ML 연구 분야였습니다.
한계도 명확했습니다
비전 기능 없음 → 이미지·표·레이아웃 불가
자동 생성의 오류 가능성
AI 논문 과잉 생성 → 학계 신뢰 저하 우려
학습용 문서, 어떻게 준비해야 할까?
AI 기업들은 이제 학습 데이터를 ‘구입’하거나, 직접 ‘전처리’해서 씁니다. 이때 중요한 건 문서의 구조를 얼마나 잘 파악하고 가공했느냐입니다.
한국딥러닝의 DEEP Parser는?
한국딥러닝은 LLM 학습에 최적화된 문서 전처리 도구 ‘DEEP Parser’를 제공합니다.기존 OCR이 단순 텍스트만 인식하던 한계를 넘어, 문서 구조·위계·레이아웃까지 인식해 LLM 학습용으로 가공합니다.
기능 | 설명 |
---|---|
구조 분석 | 제목, 본문, 캡션, 표 등 30종 이상의 레이아웃 태그 분석 |
포맷 변환 | HTML, JSON 등 다양한 출력 형식 제공 |
RAG 최적화 | 프롬프트 설계용 청크 분할, 토큰 기준 분리 지원 |
이미지 포함 문서 | VLM 기반 이미지 이해로 논문·보고서·특허도 정밀 파싱 |
👉 ‘좋은 데이터’를 학습시키는 것이 중요하다면, 그 전에 ‘좋은 문서’를 잘 구조화하는 Parser 솔루션이 필수입니다.
오픈소스는 정말 ‘오픈’일까?
요즘 AI 오픈소스 모델이 많이 나옵니다. 메타의 Llama, 미스트랄의 Mistral, 삼성의 Gauss, LG의 Exaone 등 다양한 모델이 공개되었죠. 그런데 ‘오픈소스’의 조건은 단지 모델 구조 공개일까요? 아닙니다. 학습 데이터까지 공개되어야 진짜 오픈소스입니다.
이를 위해 등장한 OMI (Open Model Initiative)
리눅스 재단이 주도
모델 + 학습 데이터 모두 공개
Apache 2.0 라이선스 기반
커뮤니티 기반 협업 지향
📉 단점은? GPU, 데이터 모두 Big Tech에 의존해 독립성 확보가 어렵다는 점입니다.
MIT가 정리한 ‘AI 위험 데이터베이스’
MIT 퓨처테크 그룹은 AI의 위험성을 구조화한 AI 위험 저장소(AI Incident Database)를 공개했습니다.
700개 이상의 위험 사례
발생 시점·원인·의도에 따른 분류
AI가 학습 후 발생하는 위험이 65%
시스템이 인간보다 더 위험 요인 (51%)
향후 AI 정책 설계와 윤리 가이드라인 설계의 ‘기본 인프라’가 될 가능성이 높습니다.
캘리포니아 AI 법안 S.B. 1047, 그리고 규제 경쟁
유럽의 AI법(EU AI Act)만이 아닙니다.
미국 캘리포니아 주도 S.B. 1047이라는 AI 규제 법안을 발의했습니다.
주요 조항 | 내용 |
---|---|
공개 전 평가 | 강력한 AI 모델 공개 전 안전성 평가 의무화 |
민사소송 허용 | 피해 발생 시 법무장관이 소송 가능 |
벌금 기준 | 위반 시 모델 삭제 및 최대 훈련비용 30% 벌금 가능 |
이 법안은 향후 한국의 AI 규제 프레임 설계에도 참고할 만한 중요한 선례가 될 것입니다.
✍️ 마무리 요약
이제는 AI 모델보다 ‘학습 데이터’가 경쟁력입니다.
고품질 학술 콘텐츠, 뉴스, 표 구조를 포함한 리포트는 가장 귀중한 자산입니다.
그리고 이런 문서를 잘 가공해주는 구조화 툴이 필요합니다.
👉 한국딥러닝의 Parser는 LLM 학습용 문서 구조화를 빠르게, 정확하게, 비용 효율적으로 처리해주는 도구입니다. 좋은 데이터의 시작은 좋은 구조화 도구입니다.
🙋♀️ FAQ – 자주 묻는 질문
Q1. 내가 쓴 논문이 AI에 학습되었을 수도 있나요?
A: 가능합니다. 논문이 공개돼 있다면, AI가 크롤링하여 학습했을 수 있습니다. 법적 판단은 현재 진행 중입니다.
Q2. 오픈소스 AI 모델은 안전한가요?
A: 오픈소스라도 학습 데이터와 학습 방법이 투명하지 않으면 불완전합니다. 학습 이력이 명확한 모델이 더 신뢰받습니다.
Q3. 문서를 AI 학습용으로 준비하려면 어떻게 하나요?
A: 표, 이미지, 캡션까지 포함된 문서라면 Parser 솔루션이 필요합니다. 한국딥러닝 Parser는 HTML/JSON 포맷으로 바로 전환해줍니다.
Q4. 논문이나 보고서도 자동으로 파싱되나요?
A: 네. 특히 PDF, HWP 등 구조가 복잡한 문서도 시선 흐름과 위계를 분석해 정밀하게 구조화합니다.
Q5. 이런 구조화 기술이 RAG나 LLM 학습에 도움이 되나요?
A: 매우 중요합니다. 문서 청킹, 벡터화, 프롬프트 설계까지 Parser가 자동으로 지원하기 때문에 학습 품질이 크게 향상됩니다.
지금 우리가 할 수 있는 것
연구자: 내 콘텐츠가 학습에 쓰일 수 있음을 인식하고, 사용 여부를 점검하기
정부·기업: 공공 데이터를 구조화하고 오픈소스 생태계 기여하기
개발자: 데이터 사용 이력과 구조를 명시한 투명한 AI 모델 개발하기
시민사회: 윤리 기반의 AI 생태계 구축에 참여하기