마우스도 키보드도 AI가 잡는다 — 컴퓨터 유즈(Computer Use)
AI가 직접 마우스를 움직여 화면 속 버튼을 누르고, 파일을 열고, 양식을 채웁니다. 공상이 아니라 지금 컴퓨터 유즈(Computer Use) 라는 이름으로 실제 돌아가는 기능이에요. 앤트로픽 클로드, 오픈AI가 잇따라 내놓으면서 "이제 AI에게 컴퓨터를 통째로 맡기나?"라는 기대가 커졌죠.
이 글은 컴퓨터 유즈가 무엇이고, 어떻게 쓰고, 무엇을 잘하고 못하는지 정리한 가이드입니다. 마지막엔 데모 영상엔 잘 안 보이는 질문
"우리 회사 업무엔 왜 아직 못 쓸까?" 까지 짚습니다.
👇 이 글이 답하는 질문 3가지
컴퓨터 유즈, 정확히 뭐고 어떻게 작동하나?
지금 실무에 써도 되나 — 잘 되는 일 vs 자주 막히는 일?
기업·규제 산업은 왜 아직 못 쓰고, 대안은 뭔가?
'AI 에이전트 종류' 전체 지도가 궁금하면
1. 컴퓨터 유즈란? — 화면을 보고 직접 조작하는 AI
컴퓨터 유즈(Computer Use, CUA) 는 AI가 사람처럼 컴퓨터 화면을 보고 직접 조작하는 기능입니다. 검색해 답만 주는 게 아니라 브라우저를 열고, 클릭하고, 입력하고, 저장 하는 '행동'을 하죠. 답을 말해주던 AI에서, 화면 위에서 직접 해주는 AI로 넘어간 단계예요.
작동 방식은 의외로 단순한 반복입니다.
본다 — 현재 화면을 스크린샷으로 캡처
판단한다 — 목표를 위해 다음에 뭘 누를지 결정
실행한다 — 마우스 클릭·키보드 입력
확인한다 — 바뀐 화면을 또 캡처해 1번으로
이 보고 → 판단 → 실행 반복 루프가 핵심이고, 별도 연동 없이 사람이 쓰는 화면 그대로 를 조작한다는 점이 특징입니다. (클로드 Computer Use, 오픈AI 컴퓨터 제어가 대표)
2. 어떻게 시작하나 — 안전하게 첫 작업 돌리기
크게 두 갈래로 써볼 수 있습니다.
개발자: API + 가상환경(Docker/VM 샌드박스)에서 컴퓨터 유즈 도구를 호출. 내 PC가 아니라 격리 환경 에서 돌리는 게 기본.
비개발자: 데스크톱 앱형(예: 클로드 데스크톱 작업 위임)에서 폴더·권한을 지정하면, 실행 전 계획을 보여주고 승인받는 '행동 전 승인(Ask before acting)' 방식으로 동작.
처음 돌릴 때 지킬 4가지만 기억하세요.
민감하지 않은 작업부터 (개인정보·결제·계약은 제외)
권한은 필요한 폴더·앱만 최소로 부여
가상머신·테스트 계정 같은 격리 환경에서 먼저
결과는 사람이 검수 — '완전 자동'보다 '확인하며 위임'
3. 잘 되는 일 vs 자주 막히는 일
컴퓨터 유즈가 지금 쓸 만한 영역은 분명합니다.
여러 사이트를 오가는 리서치·자료 수집
정해진 화면을 반복 입력하는 단순 UI 업무
웹 서비스 QA·반복 테스트
반대로 자주 막히는 지점도 뚜렷해요.
예외 팝업·낯선 UI에서 헤맴
스크린샷마다 추론하느라 느리고 비쌈
같은 작업도 결과가 들쭉날쭉
숫자·표를 정확히 다뤄야 하는 업무
즉 "신기하다"와 "매일 믿고 맡긴다" 사이입니다. 실수해도 괜찮고 사람이 곁에서 지켜볼 수 있는 일엔 좋지만, 그 반대라면 아직 이릅니다.
4. 한계와 리스크 — 그리고 기업에선 더 커진다
컴퓨터 유즈는 구조상 세 가지 약점을 안고 있습니다.
정확도: 화면을 '보고 추정'하다 보니 예외 상황에서 오작동·누락
속도/비용: 스크린샷마다 추론 → 대량 작업엔 부담
보안: 화면 속 민감정보가 그대로 노출, 악성 페이지의 프롬프트 인젝션에 취약, 무엇을 했는지 추적할 감사 로그가 약함
이 약점은 금융·공공·의료·법무처럼 규제와 보안이 엄격한 곳에서 더 치명적입니다. 민감 문서를 클라우드로 보낼 수 없고(망분리), 화면 캡처 방식은 컴플라이언스 통과가 어렵고, '대충 맞는' 정확도로는 정산·심사 같은 무오류 업무를 못 맡기죠. 그래서 같은 'AI에게 일을 맡긴다'라도 목적에 따라 접근이 갈립니다.
구분 | 범용 컴퓨터 유즈 | 통제형 문서 자동화 |
|---|---|---|
방식 | 화면 스크린샷·마우스 제어 | 문서를 구조 단위로 직접 처리 |
강점 | 어떤 화면이든 범용 | 표·항목 정확도, 검증·감사 |
데이터 | 주로 클라우드 | 온프레미스·폐쇄망 |
적합 | 리서치·범용 작업 | 금융·공공·의료 문서 업무 |
5. 그래서 '문서·폐쇄망 업무'엔 통제형이 답이다
사실 기업에서 AI가 가장 큰 값을 내는 일은 화려한 데모가 아니라, 매일 쌓이는 문서를 정확히 처리하는 일 입니다. 계약서·청구서·심사 서류·의무기록처럼요. 그런데 이런 문서일수록 두 가지 조건이 절대적입니다.
정확도: 숫자 하나, 항목 하나만 틀려도 곧 정산 오류·심사 오류·법적 분쟁으로 이어집니다. '대충 맞음'이 허용되지 않아요.
보안: 개인정보·금융정보·기밀이 담겨 외부(클라우드)로 단 한 번도 내보내면 안 되는 경우가 많습니다. 금융·공공·의료는 망분리가 규정으로 강제되기도 하죠.
바로 이 지점에서 화면을 스크린샷으로 더듬는 범용 컴퓨터 유즈는 한계를 드러냅니다(민감정보 노출·외부 전송·약한 감사 추적). 그래서 폐쇄망 문서 업무의 답은 분명해요 — 문서를 처음부터 구조로 이해하고, 밖으로 내보내지 않고, 사람이 검증하는 통제형 접근입니다. 한국딥러닝이 만들어 온 방향이 정확히 이것, 범용 컴퓨터 유즈와 달리 문서 특화·통제형 이죠.
DEEP OCR/Parser | 문서를 화면이 아니라 구조(표·항목·레이아웃) 단위로 읽어 정확도를 확보 (글로벌 문서 파싱 벤치마크 1위 수준) |
DEEP Agent | 수집 → 분류 → 추출 → 검증(사람 승인) → 사내 시스템 연계를 외부 반출 없이(온프레미스·폐쇄망) 하나의 통제된 흐름으로 자동화 |
즉 "AI에게 컴퓨터를 맡긴다"가 아니라, 통제 가능한 범위 안에서 문서 업무를 자동화 하는 쪽이에요. 데모의 화려함은 덜해도, 틀리면 안 되고 밖으로 나가면 안 되는 업무에선 이쪽이 실제로 일을 해냅니다.
폐쇄망·데이터 주권 관점이 더 궁금하면
6. 자주 묻는 질문 (FAQ)
Q. 컴퓨터 유즈와 일반 AI 챗봇은 뭐가 다른가요? A. 챗봇은 답을 말해주고, 컴퓨터 유즈는 화면을 직접 조작해 작업을 '실행'합니다.
Q. 컴퓨터 유즈, 지금 실무에 바로 써도 되나요? A. 리서치·반복 UI 작업엔 쓸 만하지만, 정확도·보안 한계 때문에 돈·계약·개인정보가 걸린 업무는 검수 없이 맡기기 이릅니다.
Q. 보안이 걱정되는 기업은 어떻게 해야 하나요? A. 화면 제어형 범용 도구보다, 폐쇄망·온프레미스에서 검증을 거치는 통제형 문서 자동화가 안전합니다.
Q. 컴퓨터 유즈가 OCR·문서 자동화를 대체하나요? A. 목적이 다릅니다. 범용 화면 작업은 컴퓨터 유즈, 정확도·보안이 중요한 문서 업무는 문서 특화 통제형(예: DEEP Agent)이 적합합니다.
결론
컴퓨터 유즈는 ‘AI가 직접 일한다’는 시대를 연 인상적인 기능입니다. 다만 핵심은 기능 자체가 아니라 어디에, 어떻게 통제하며 쓰느냐입니다. 리서치·범용 작업은 컴퓨터 유즈로 가볍게, 민감 문서·폐쇄망·규제 업무는 검증·온프레미스 기반 통제형 문서 자동화로 안정적으로 처리해야 합니다.