RAG, CAG, TAG 왜 벡터DB를 넣어도 AI는 틀릴까?

벡터DB와 RAG를 붙였는데도 환각이 줄지 않는 이유는 ‘검색’만의 문제가 아닙니다. 할루시네이션 5종 진단표와 RAG, CAG, TAG 선택 기준, 운영 KPI 6개, 그리고 DEEP Parser가 필요한 순간을 실무 기준으로 정리했습니다.
한국딥러닝's avatar
Mar 04, 2026
RAG, CAG, TAG 왜 벡터DB를 넣어도 AI는 틀릴까?

RAG, CAG, TAG 벡터DB 넣었는데도 왜 틀릴까?


벡터DB도 만들었고, RAG도 붙였는데요

그런데도 팀에서 이런 말이 나옵니다.

  • “출처는 달렸는데… 결론이 이상해요.”

  • “표 질문만 하면 숫자가 자꾸 흔들려요.”

  • “같은 질문인데도 답이 매번 달라요.”

이때 대부분은 “검색을 더 잘하면 되지 않을까?”라고 생각합니다. 그런데 현장에서 문제는 의외로 단순합니다.

틀리는 방식이 한 가지가 아니라서, 대응 방식도 하나로 고정하면 계속 흔들립니다.

💡

들어가기 전, 3줄 요약
환각은 한 종류가 아닙니다. 그래서 대응 방식도 하나가 아닙니다.

  • RAG·CAG·TAG는 비교가 아니라 처방입니다. 환각 유형에 따라 약이 달라요.

  • 반복 질문은 CAG, 수치/계산은 TAG, 최신/롱테일은 RAG가 유리합니다.

  • 표/양식 문서에서 출처가 있는데도 틀리면 검색 튜닝보다 입력 구조 안정화부터 점검해야 합니다.

약어 정의
이 글에서 CAG=Cache-Augmented Generation, TAG=Table-Augmented Generation을 의미합니다.

RAG, CAG, TAG를 한 줄로만 정리하면


RAG, CAG, TAG
  • RAG: 필요할 때 문서를 검색해서 근거를 넣는다

  • CAG: 자주 쓰는 지식을 미리 캐시로 저장해 빠르게 쓴다

  • TAG: 숫자/표는 테이블 쿼리(계산)로 처리한다

이제부터 중요한 질문은 이거예요.

RAG가 기업에서 흔들리는 이유(입력 데이터 관점) → 「RAG란? 왜 기업에서는 기대만큼 효과가 나지 않는가」

업무 유형에 따라, 잘 맞는 방식이 조금씩 달라집니다.


  • 고객지원/FAQ/매뉴얼: 반복 질문이 많다면 CAG가 체감 성능과 비용을 줄입니다.

  • 정책/규정/업무 지침(업데이트 잦음): 최신성이 핵심이라 RAG 운영 루프가 중요합니다.

  • 재무/정산/리포팅(합계·비율·조건 필터): 계산이 들어가면 TAG로 분리하는 게 안정적입니다.

업무가 달라지면 질문도 달라지고, 그만큼 틀리는 방식도 달라집니다.
그래서 RAG를 더 세게 튜닝할까?보다 먼저,
우리 시스템이 어떤 종류의 환각을 자주 내는지부터 확인하는 게 빠릅니다.

이제 환각(할루시네이션)을 5가지로 나눠서, 원인과 처방을 붙여볼게요.

1) 할루시네이션을 5가지로 나누면, 답이 보입니다


할루시네이션

환각을 한 덩어리로 보면 대책이 추상적이에요.
대신 아래 5가지 중 어디에 가까운지 체크해 보세요.

① 근거 환각: 문서는 가져오는데 결론이 어긋나요

증상

  • 출처 링크는 달렸는데, 실제로 근거를 읽어보면 결론을 지지하지 않습니다. 혹은 근거가 여러 개 붙었는데, 결론이 애매하게 섞입니다.

주 원인

  • 검색이 비슷한 문장을 가져왔을 뿐, 정답 근거가 아닐 수 있음

  • 근거가 여러 개 섞이면서 결론이 흐려짐

  • 청킹이 답에 필요한 문장을 잘라먹거나, 메타데이터가 빈약해 필터링이 안 됨

1차 처방

  • RAG 유지 + 근거 품질 KPI로 측정/개선

  • 검색 범위/필터(문서 유형, 섹션, 최신성)를 운영 규칙으로 고정

→ 결론: RAG는 유지하되, 근거 KPI로 품질을 관리하세요.

관련 글 보기

② 충돌 환각: 문서마다 말이 달라요

증상

  • 구버전/신버전이 같이 검색되고, 모델이 중간 결론을 만들어냅니다. 결론이 틀렸는데요 그럴듯해서 더 위험합니다.

주 원인

  • 버전/효력일 같은 기준이 검색 단계에 반영되지 않음

  • 최신 문서가 있어도 구문서가 더 자주 검색됨

1차 처방

  • RAG + 버전 게이팅

    • 최신 문서 우선

    • 효력일 필터

    • 최신 문서 1개 모드 같은 운영 모드 분리

→ 결론: 버전/효력 기준을 고정하지 않으면, RAG는 계속 섞여서 답합니다.

③ 최신성 환각: 최신 규정이 반영이 안 돼요

증상

  • 그거 옛날 규정인데?라는 피드백이 나옵니다. 특히 정책/규정/업무 지침처럼 업데이트가 잦은 문서에서 잘 보입니다.

주 원인

  • 문서는 업데이트되는데, 인덱스/색인이 따라오지 못함

  • 검증/릴리즈 흐름이 느슨함

1차 처방

  • RAG는 맞습니다.
    다만 운영 루프가 필요해요.

    • 업데이트 → 색인 → 샘플 검증 → 릴리즈
      이걸 SLA로 잡으면 최신성 환각이 줄어듭니다.

→ 결론: 최신성 문제는 모델이 아니라 색인 운영 루프로 해결됩니다.

④ 계산 환각: 숫자 계산이 자꾸 틀려요

증상

  • 합계/비율/조건 필터 질문에서 숫자가 자주 틀립니다.

  • 예: 이번 달 A항목 합계, 부서별 평균, 조건 X만 제외하고 합상 등

주 원인

  • 모델이 계산을 추정함

  • 텍스트 근거만 넣고 계산을 LLM에게 맡김

1차 처방

  • TAG로 분리하세요.

    • 계산은 DB/테이블이 하고

    • LLM은 설명만 하게 만들면 안정적입니다.

→ 결론: 계산은 TAG(테이블/DB)로 분리하는 게 가장 안전합니다.

⑤ 구조 환각: 표가 풀리면서 숫자 의미가 바뀌어요

증상

  • 출처는 있는데도 틀립니다. 특히 표/양식 문서에서요.

  • 같은 숫자인데 어느 항목의 값인지 관계가 엉킵니다.

미니 사례

  • 표가 분기 | 매출 | 영업이익이고, 2Q | 200억 | 30억이라면
    텍스트로만 들어갈 때 30억이 무엇의 값인지 관계가 약해질 수 있어요.
    검색은 30억을 잘 가져오는데, 관계가 깨진 근거 위에서 답이 흔들립니다.

1차 처방

  • 이 경우는 RAG, CAG, TAG 튜닝보다 먼저
    입력 구조를 안정화해야 합니다.

  • 이 구간은 검색 튜닝이 아니라 입력 구조를 바로잡는 단계에 가깝습니다. 이 역할을 DEEP Parser가 담당합니다.
    표/레이아웃/항목-값 관계가 흔들리지 않게 정리해 구조 환각을 낮추는 역할이죠.

관련 글 보기

결론으로, 구조 환각은 검색 튜닝이 아니라 입력 구조 안정화가 먼저입니다.

2) 한 장 요약: 증상 → 처방전

Hallucination

현장 증상

환각 타입

가장 빠른 처방

출처는 있는데 결론이 어긋남

근거 환각

RAG + 근거 KPI

문서마다 말이 달라짐

충돌 환각

RAG + 버전 게이팅

최신 규정 반영이 안 됨

최신성 환각

RAG + 재색인 루프

합계/비율 계산이 틀림

계산 환각

TAG로 계산 분리

표/항목-값이 뒤집힘

구조 환각

입력 구조 안정화(+DEEP Parser)

60초 결정 트리 (RAG, CAG, TAG 선택)

아래 4개만 답해보세요.

  1. 지식이 자주 바뀌나요? → 예: RAG

  2. 질문이 반복되나요? → 예: CAG

  3. 계산/집계/필터가 많나요? → 예: TAG

  4. 표/양식 문서 비중이 큰가요? → 예: 구조 환각 점검(입력 구조 안정화)

3) 운영 KPI 6개


“좋아졌나?”를 감으로 판단하면 다시 흔들립니다.
아래 6개 지표는 모델 교체 없이 개선 방향을 잡는 데 가장 빨리 도움이 됩니다.

1) 근거 적합률(Grounding rate)

  • 의미: 답변의 결론이 근거 문장/표와 실제로 일치하는 비율

  • 측정: 답변 100개 샘플링 → 사람이 근거가 결론을 지지하는가(Yes/No) 체크

2) 근거 커버리지(Citation coverage)

  • 의미: 답변의 핵심 주장 중 근거가 붙은 문장 비율

  • 측정: 답변을 문장 단위로 나누고, 핵심 주장 문장 중 인용(출처)이 붙은 비율 계산

3) 최신성 정답률(Freshness accuracy)

  • 의미: 최신 문서/버전을 우선해 답하는 비율

  • 측정: 동일 질문에 대해 최신 문서 vs 구문서를 섞어 A/B 테스트 → 최신 근거가 우선 선택되는지 확인

4) 충돌 탐지율(Conflict detection rate)

  • 의미: 상충 근거가 함께 들어올 때 경고/회피가 되는 비율

  • 측정: 서로 모순되는 문서 쌍을 준비해 테스트 → 답변이 경고/보류/최신 우선 규칙을 따르는지 체크

5) 지연 시간(Latency)

  • 의미: 사용자 체감 속도(특히 실무 도입에서 가장 먼저 불만 나오는 지표)

  • 측정: 질문을 반복 질문 / 롱테일 질문 / 계산 질문으로 나눠 각각 p50/p95 응답시간을 기록(유형별 병목 파악)

6) 비용(TCO) & 캐시 히트율(Cache hit ratio)

  • 의미: 운영비와 확장성(PoC는 되는데 운영이 안 된다를 가르는 지표)

  • 측정: 질문 1,000건당 비용(검색/리랭킹/LLM 호출)을 추적하고, 반복 질문의 캐시 히트율을 함께 모니터링(CAG 분리 효과 확인)

검색을 강화해도 환각이 남는다면, 이제는 근거를 만드는 단계가 필요합니다.
한국딥러닝은 특히 표/양식 문서에서 터지는 구조 환각을 줄이기 위해, DEEP Parser 기반 입력 품질 안정화에 초점을 둡니다.

4) FAQ


Q. RAG만 잘하면 해결될까요?
A. 환각이 최신성/충돌/계산/구조 중 어디에서 생기는지에 따라 달라요. RAG는 강력하지만 만능은 아닙니다.

Q. CAG는 언제 쓰면 좋나요?
A. 반복 질문(FAQ/매뉴얼/고정 규정)에서 속도·비용·일관성이 중요할 때요.

Q. TAG는 언제 필수인가요?
A. 합계/비율/조건 필터 같은 계산이 들어가면 TAG로 계산을 분리하는 게 안전합니다.

Q. 표 문서가 계속 틀리면 뭐부터 보죠?
A. 구조 환각 가능성이 높습니다. 검색 튜닝 전에 입력 구조부터 점검하세요.

결론


벡터DB를 넣었는데도 틀리는 이유는 검색이 약해서가 아니라, 틀리는 방식이 섞여 있기 때문입니다.

  • 최신/롱테일 → 찾아보기(RAG)

  • 반복 질문 → 저장하기(CAG)

  • 계산/집계 → 계산 분리(TAG)

  • 표/양식에서 의미가 깨짐 → 구조 할루시네이션(입력 구조 안정화, 필요 시 DEEP Parser)

이렇게 진단하면, 벡터DB 넣었는데 틀리는 이유에 대한 답이 나옵니다.

참고 자료)

1) RAG의 실패 지점(7가지 failure points) 정리 논문 링크

2) CAG(Cache-Augmented Generation, KV-cache 기반) 대표 논문 링크

→ 한국딥러닝 AI솔루션 확인하러가기

한국딥러닝 AI 문의
한국딥러닝 AI 문의

Share article

Blog