분류기의 역설: 통제라는 키워드로 본 미토스 사태

[AI 전쟁 운영체제 3편] 블랙박스가 열리다 — 하네스, 분류기의 역설, 그리고 평화월딩의 과제. (⏰17분)

🎡 연재를 시작하며

2025년 7월, 나는 연구계획서를 제출했다. 인공지능이 전쟁과 폭력의 구조를 어떻게 바꾸고 있는지를 연구하겠다는 계획이었다. 10월, 연구지원을 받아 평화월딩연구소 안에 ‘AI 제노사이드 세미나팀’을 꾸렸다. 사회학, 역사학, 과학기술정책학의 관점과 시민운동의 현장 경험을 가진 연구자와 활동가로 구성된 팀이었다. 우리는 가자지구의 AI 표적 시스템, 우크라이나의 드론과 데이터 플랫폼, 팔란티어와 안두릴 같은 미국 방산-테크 기업들의 기술을 추적하기 시작했다.

공부가 깊어질수록 하나의 문제에 부딪혔다. 이 시스템들을 각각 분석하는 것으로는 현상의 본질이 포착되지 않았다. 문제는 개별 시스템이 아니라, 이것들이 체인으로 연결되어 하나의 운영체제를 구성할 때 비로소 전쟁 수행 구조 자체가 바뀐다는 것이었다. 12월 16일, 연구노트에서 이 구조를 ‘AI 전쟁 운영체제(AI War OS)’로 명명했다.

계획서 제출로부터 8개월, 세미나 시작으로부터 5개월. 그 사이에 베네수엘라 마두로 작전(2026.1), 이란 전쟁 개시(2026.2), 미국 전쟁부와 앤트로픽의 갈등과 클로드 코드 소스코드 유출(2026.3)이 연이어 발생하면서, 세미나에서 공부한 구조가 현실에서 빠르게 확인되고 있다. 이 연재는 ‘AI 전쟁 운영체제(AI War OS)’가 어떤 역사적 단계를 거쳐 형성되었는지를 추적하고, 동시에 이 과정을 분석하기 위해 우리가 어떤 개념을 만들고 다듬어갔는지를 기록한다.

• 1편: 미사일 버튼을 누를 것인가? 판단과 결정까지 AI에 넘어갔다
• 2편: AI 제노사이드가 작동하는 방식, 3만7000명 공격 대상 승인하는 데 걸린 시간은 1명당 20초.
• 3편: 분류기의 역설: 통제라는 키워드로 본 미토스 사태

5일간 두 번의 유출

제2편에서 세 번의 전환을 거쳐 AI 전쟁 운영체제(AI War OS)가 완성되는 과정을 추적했다. 가자에서 학습하고, 우크라이나에서 시험하며, 베네수엘라에서 실전 투입하고, 이란에서 표준화한 이 운영체제. 그러나 그 안에 무엇이 있는지는 보이지 않았다. 2026년 3월 말, 예상치 못한 경로로 블랙박스가 열린다.

5일 사이에 두 번이었다. 3월 26일, 보안 연구원 로이 파즈(LayerX Security)와 알렉상드르 포엘스(케임브리지대)가 앤트로픽의 콘텐츠 관리 시스템(CMS)이 잘못 설정되어 약 3,000개의 미공개 자산이 무인증 공개 상태로 방치된 것을 발견했다. 그 안에 차세대 모델의 출시 예정 블로그 초안이 있었다.

모델 이름은 클로드 미토스(Mythos), 내부 코드명은 카피바라(Capybara). 기존 오퍼스 위에 새로 만들어진 등급. 앤트로픽 자체 평가로 “지금까지 만든 모델 중 가장 강력하며, 사이버 능력에서 다른 어떤 AI 모델보다 훨씬 앞서 있다.” 포춘이 같은 날 단독 보도했다.

그리고 5일 뒤인 3월 31일, 이번에는 클로드 코드의 소스 코드 51만여 줄이 공개 패키지 저장소(npm)에 그대로 올라갔다. 보안 연구원 차오판 쇼우(@Fried_rice)가 발견했다. @anthropic-ai/claude-code 패키지의 2.1.88 버전 배포 과정에서 소스맵 파일을 제외하지 않은 인적 실수가 원인이었다.

더 정확히는 그 소스맵 파일이 앤트로픽 클라우드플레어 R2 저장소의 압축 파일을 가리키고 있었고, 그 압축 파일도 무인증 상태로 공개되어 있었다. TypeScript 1,906개 파일, 약 51만 2,000줄. 코드는 몇 시간 만에 깃허브로 미러링되어 수만 번 포크되었다. 앤트로픽은 “인적 실수에 의한 패키지 오류이며 보안 침해는 아니다”라고 발표했다.

미국 테크 언론 와이어드는 두 사건을 ‘5일 사이 두 번의 보안 사고’, ‘한 달 사이 세 번째 보안 사고’로 다뤘다. 한국 매체들도 한국정보기술신문, 디일렉, 보안뉴스, 지디넷코리아를 시작으로 빠르게 보도에 합류했다. 4월 7일 미토스 프리뷰 공식 발표와 4월 16일 ‘미토스 쇼크’가 보도되면서 앤트로픽은 세계적 이슈가 되었다. 보도의 양은 폭발적으로 늘었지만, 프레임은 사이버 보안 위협, 금융 시스템 마비 우려, AI 안전으로 수렴되어 있다.

이 두 유출은 단순한 코딩 도구 보안 사고가 아니다. 제1편에서 본 메이븐 프로젝트가 팔란티어 온톨로지로 진화하고, 제2편에서 본 1월 3일 베네수엘라 마두로 대통령 생포 작전과 2월 28일 시작된 이란 작전에서 그 메이븐 스마트 시스템이 작동했으며, 그 안에서 표적 식별과 우선순위 계산을 수행한 것이 앤트로픽의 클로드였다.

즉, 이번 3월 말의 두 유출은 석 달 전 마두로의 이동 패턴을 추적하고 진행 중인 이란 전쟁에서 24시간 안에 1,000개 이상의 표적을 처리한 시스템 — 그 시스템에 통합된 모델의 통제 구조와 작동 방식이 드러난 사건이다. 한국이 앤트로픽 글로벌 사용량 상위 5위권 시장이고 한국 결제액의 61%가 법인카드라는 점에서, 이 운영체제의 통제 구조는 한국 기업의 사용 환경에도 직접 닿아 있다.

메이븐 스마트 시스템과 그것의 군사적 작동이 한국 매체에서 다뤄지지 않은 것은 아니다. 다만 그것이 가시화되는 자리는 주로 투자 분석과 산업 전망의 자리이고, 시민사회 의제·국제인도법·민간인 보호의 자리에서 같은 시스템이 같은 두께로 분석된 흔적은 거의 없다. 보도의 양이 아니라, 어디서 어떻게 다뤄지는가가 문제다.

유출된 것은 코딩 도구의 내부 구조가 아니다. 베네수엘라와 이란에서 이미 작동한 AI 전쟁 운영체제의 작동 방식에 대한 구조적 청사진이다.

하네스 — 모델 바깥의 모든 것

제1편에서 짚은 명제를 다시 호명한다. OODA 루프가 한 사람의 몸 안에 있을 때는 관찰과 판단과 결정과 행동 사이에 간극이 없다. 눈이 본 것을 머리가 즉시 해석하고 손이 즉시 반응한다. 그러나 그 루프가 한 사람의 몸 밖으로 나가면 — 조직으로, 기계로, 소프트웨어로 확장되면 — 각 단계 사이에 간극이 생기고, 그 간극을 어떻게 설계하느냐가 전쟁의 구조를 결정한다. 하네스는 바로 그 간극의 설계도이다.

이번에 유출된 것은 클로드의 모델(AI의 ‘두뇌’)이 아니다. 하네스(harness)의 소스 코드다. 하네스는 영어로 마구(馬具) — 말에 씌우는 굴레, 고삐, 안장 등의 장비를 뜻한다. AI 모델은 야생말과 같다. 힘이 세지만 어디로 달릴지 모른다. 마구를 씌워야 원하는 방향으로 달리게 할 수 있다.

모델 자체는 텍스트를 넣으면 텍스트를 내놓는 강력한 함수일 뿐, 혼자서는 이전 대화를 기억하지 못하고, 파일을 읽지 못하고, 인터넷에 접속하지 못한다. AI가 우리와 대화하면서 이전 내용을 기억하는 것처럼 느껴지는 것은, 하네스가 대화 내용을 모아서 매번 모델에 새로 전달해 주기 때문이다.

하네스라는 용어 자체가 2026년 초에 퍼지기 시작한 신조어이다. 이전에는 시스템 프롬프트, 샌드박싱, 린터, 프리커밋 훅 — 소프트웨어 공학에서 수십 년간 써온 이름들이 흩어져 있었다. 하네스가 한 것은 이 요소들을 ‘모델 바깥의 모든 것’이라는 하나의 범주로 묶고 이름을 붙인 것이다.

핵심 철학은 ‘프롬프트는 부탁이고, 하네스는 강제’라는 것이다. 다만 실제로는 강제와 부탁이 섞여 있다. 어떤 규칙은 어기면 작동을 막아 강제가 되고, 어떤 규칙은 모델에 글로 전달될 뿐이라 무시될 수 있다. 모델이 엔진이라면, 하네스는 변속기와 브레이크와 내비게이션과 센서가 합쳐진 것에 가깝다. 이번에 유출된 것은 클로드의 엔진이 아니라, 이 변속기와 브레이크와 내비게이션의 설계도이다.

하네스와 OODA — 블랙박스의 내부 구조

이 설계도의 다섯 구성 요소는 OODA 루프의 각 단계에 정확히 대응한다.

‘도구 접근(Tool Access)’은 관찰(Observe)에 대응한다. 모델이 어떤 데이터 소스에 — 위성 영상, 신호정보, 소셜미디어, 통화 메타데이터 중 무엇에 — 접근하느냐가 관찰의 범위를 결정한다.

‘컨텍스트 컴팩션(Context Compaction)’은 판단(Orient)에 대응한다. AI의 처리 용량은 제한되어 있다. 작업이 길어지면 “무엇을 기억하고 무엇을 버릴 것인가”를 결정해야 한다. 이 결정이 이후의 모든 판단을 구조화한다. 버려진 정보는 이후 판단에서 존재하지 않는 것이 된다. 군사적 맥락에서 민간인 관련 정보가 이 과정에서 폐기되면, 이후 알고리즘은 그 정보 없이 표적 판단을 내린다. 의도적 삭제가 아니라 기술적 제약에 의한 구조적 망각이다.

‘서브에이전트 위임(Sub-agent Delegation)’은 킬체인의 내부 분업에 대응한다. 제2편에서 본 복음·라벤더·아빠는 어디에·화력 공장의 분업이 바로 이것의 군사적 판본이다. 각 시스템이 독자적으로 처리하고, 상위 체계에는 결과만 전달된다.

‘퍼미션 관리(Permission Management)’는 결정(Decide)에 대응한다. 어떤 행동을 자동으로 허용하고 어떤 행동을 인간에게 물어보는지의 체계다. 국방AI법안 제3조 제3항의 “인적 개입의 보장”이 전제하는 것이 이 단계이다.

‘백그라운드 작업(Background Tasks)’은 인간 통제의 사각지대다. 인간이 보고 있지 않을 때도 에이전트가 계속 작업하는 기능이다. 군사 시스템에서 이것은 인간의 인지 밖에서 표적 데이터가 갱신되고, 위험 점수가 재계산되는 것을 의미한다.

‘F-86 세이버’보다 더 뛰어난 기체를 가졌지만, 캐노피(조종석 덮개) 시야의 사각지대로 인해 10:1의 사살 비율 열세를 기록한 MiG-15 전투기.

이 다섯 항의 대응은 우연이 아니다. 양쪽 모두 같은 통치 합리성에서 나왔기 때문이다. 이질적 데이터를 단일 객체로 변환하고, 처리 용량의 제약 안에서 망각을 자동화하며, 분업을 통해 책임을 분산하고, 분류 기준을 통해 인간의 시야를 사전 설정하는 것, 이것이 코딩 에이전트의 작동 방식이자 군사 표적화 시스템의 작동 방식이다. 같은 패턴이 코딩 도구와 살상 시스템 양쪽에서 발견되는 것은 우연이 아니다. 한쪽이 다른 쪽을 모방한 것도 아니다. 둘 다 데이터·플랫폼·자동화의 동일한 통치 합리성을 구현하고 있을 뿐이다.

기존 군사 AI 논의에서 ‘블랙박스’는 두 가지 방식으로 처리되어 왔다. 기술 비판 진영에서는 ‘알고리즘이 불투명하다, 따라서 인간 통제가 불가능하다’로 끝나고, 기술 옹호 진영에서는 ‘이것은 의사결정 지원 도구일 뿐, 최종 결정은 인간이 한다’로 끝났다. 양쪽 모두 블랙박스의 내부를 열어보지 않았다. 이번 유출은 그 내부를 하네스 아키텍처의 언어로 확인할 수 있게 한 사건이다.

분류기의 역설 — 통제를 강화하면 통제가 축소된다

하네스-OODA 대응 구조에서 가장 결정적인 지점은 퍼미션 관리(Decide)이다. 여기서 하나의 데이터가 눈에 들어온다. 앤트로픽 자체 엔지니어링 블로그(2026.3.24)에 따르면, 사용자가 퍼미션 프롬프트의 93%를 사실상 그냥 승인한다.

93%. 이 숫자는 제2편에서 본 라벤더의 건당 20초 승인과 구조적으로 동형이다. ‘시스템이 제시한 결과를 인간이 거의 자동으로 추인한다’는 패턴은 동일하다.

이 93% 자동 승인 문제에 대해 앤트로픽이 제시한 해법은 분류기(Classifier) 기반 구조이다. 안전한(Safe) 행동은 자동 승인하고, 위험한(Risky) 행동만 멈추고 인간에게 확인을 요청한다. 표면적으로 합리적인 설계처럼 보인다.

그러나 결정적인 권력이 어디에 있는지를 보면, 문제가 분명히 드러난다. ‘무엇이 안전하고 무엇이 위험한가’를 결정하는 것이 인간이 아니라 분류기이다. 인간은 분류기가 ‘위험’으로 분류한 것만 본다. ‘안전’으로 판단된 행동은 인간의 시야에 도달하지 않는다.

라벤더 시스템으로 번역하면 이렇다. 라벤더가 37,000명을 표적으로 분류했다. 이 중 ‘저가치 표적’은 하위 승인 절차(건당 20초)로 자동 처리되었고, ‘고가치 표적’만 상위 지휘관의 검토를 거쳤다. 인간이 검토한 것은 분류기가 ‘검토가 필요하다’고 판단한 것뿐이었다. 분류기가 ‘검토 불필요’로 판단한 것은 인간의 시야 밖에서 처리되었다.

인간 통제를 강화하기 위해 도입된 분류기가, 실제로는 인간 통제의 범위를 축소하는 장치로 기능한다. 이것을 나는 ‘분류기의 역설’이라 부른다.

미토스 이후의 한 달 — 분류기 역설의 글로벌 판본

분류기의 역설이 한 회사 안의 퍼미션 프롬프트 차원에서 도출된 명제라면, 같은 명제가 더 큰 단위에서 작동하기 시작한 한 달이 있었다. 우리는 이 4월 한 달간 그것을 실시간으로 목격했다.

3월 26일 미토스의 존재가 우연히 노출된 지 12일 뒤, 4월 7일 앤트로픽은 미토스 프리뷰를 공식 발표했다. 그러나 일반 공개는 하지 않았다. 대신 ‘프로젝트 글래스윙(Project Glasswing)’이라는 이니셔티브를 출범시키고, 아마존·애플·MS·시스코·크라우드스트라이크·팔로알토 등 약 40개 선별 기업에만 한정 제공한다고 밝혔다. 명시적 이유는 미토스가 너무 강력해서 일반에 공개할 수 없다는 것이었다. 미토스 프리뷰는 모질라 파이어폭스에서 271개의 취약점을 발견했고, 그중에는 27년간 발견되지 않았던 것도 포함되어 있었다.

이후 한 달, 다음과 같은 일들이 일어났다. 4월 17일, 미국 정부가 미토스 충격으로 AI 정책을 급선회했다는 보도가 나왔다. 같은 날 앤트로픽이 클로드 오퍼스 4.7을 공개했다 — ‘해킹 AI’ 논란을 의식한 출시라는 평가가 나왔다. 4월 19~20일, 미 국방부가 앤트로픽을 공급망 위험 기업으로 지정했음에도 불구하고 국가안보국(NSA)이 미토스 프리뷰를 비공개로 실전 배치한 사실이 확인되었다. 영국 AI 안전연구소도 동일 경로로 미토스를 사용 중이었다.

같은 날 아마존이 앤트로픽에 7.4조 원 추가 투자를 발표했다. 4월 21~22일, 미토스 프리뷰에 무단 접속한 사고가 발생했다. AI 연구소 인력 공급 스타트업 ‘머코어’ 데이터 유출과 연관된 디스코드 채널 소속 일부 인원이 기존 모델 패턴을 바탕으로 미토스의 URL을 유추해 접근에 성공한 것이다. 한 달간 앤트로픽의 세 번째 보안 사고였다. 4월 22일, IMF 총재가 “세계 통화 시스템이 AI 공격에 무방비”라고 발언했다. 4월 24일, 미토스 위험성이 과장되었다는 비판이 보안 업계에서 제기되기 시작했다. 모질라 CTO 바비 홀리는 “미토스가 271개 취약점을 찾았지만 엘리트 인간 연구원이 찾을 수 없는 종류는 단 하나도 없었다”고 말했다.

이 한 달의 시간선에서 분류기의 역설이 두 차원에서 글로벌 판본으로 확장되는 것이 보인다.

첫째, ‘너무 위험해서 공개 못 한다’는 논리는 분류기의 역설을 글로벌 권력 분배 차원에서 재현하고 있다. 분류기가 ‘안전’과 ‘위험’을 결정해 인간이 볼 수 있는 것의 범위를 사전 설정하듯, 앤트로픽이 ‘위험 통제’의 이름으로 미토스의 접근 권한자를 사전에 결정한다. 약 40개의 선별된 기업과 NSA·영국 AI 안전연구소만 이 모델에 접근할 수 있다.

시민사회는 그 모델이 무엇을 할 수 있는지를 검증할 수도 감사할 수도 없다. 한 회사 안의 퍼미션 프롬프트에서는 분류기가 인간 사용자의 시야를 사전 설정했다면, 글로벌 차원에서는 한 회사가 시민사회의 시야를 사전 설정한다. 작동 단위가 다를 뿐 구조는 같다 — 통제를 강화하기 위한 장치가 통제의 범위를 축소한다.

둘째, 국방부와 정보기관의 분열이 통제 불가능성의 새로운 양상을 보여주고 있다. 미 국방부가 앤트로픽을 공급망 위험(Supply Chain Risk) 기업으로 지정했음에도 NSA가 미토스를 사용한다. 같은 정부 안에서 한쪽은 위험으로 지정하고 다른 쪽은 비공개 실전 배치한다. 어느 쪽이 진짜 정책인지 외부에서 판별할 수 없다.

여러 권력 단위가 경쟁하고 분열하면서 각자 자기 채널로 동일한 운영체제를 사용한다. 통제 불가능성이 정책의 부재가 아니라 정책 간 충돌에서 발생한다. 분류기의 역설이 한 회사 안에서 인간의 시야를 축소하듯, 부처 간 분열은 시민사회의 시야를 축소한다. 누가 책임자인지조차 가시화되지 않는다.

여기에 무단 접속 사고가 더해졌다. 4월 21~22일 미토스 프리뷰에 일부 인원이 무단으로 접속했다. ‘선별된 권력의 독점’이라는 통제 논리는 그 독점 자체가 무너지는 것에 대해서는 아무런 안전장치가 없었다. 너무 위험해서 공개 못 한다는 논리는 통제의 환영을 만들 뿐, 실제 통제를 보장하지 않는다.

한국에 미치는 영향도 분리해 볼 수 없다. 미토스가 일반 공개되지 않는다 해도, 그 위에서 만들어지는 운영체제와 인프라는 이미 한국 기업의 사용 환경에 직접 들어와 있다. 포스코DX 등이 클로드 기반 AI 에이전트를 개발 중이고, 한국 금융기관 92%가 공공 클라우드를 채택했으며 절반 이상이 AWS를 사용한다.

미토스가 일반 공개되지 않는다 해도, 그 위에서 만들어지는 운영체제와 인프라는 이미 한국 기업의 사용 환경에 직접 들어와 있다. 4월 19일 유동수 의원이 ‘AI 안전법 입법 지연’을 지적한 것도 이 맥락에서다. 시민사회가 보지 못하는 사이에 운영체제가 도착하고 있다.

블랙박스의 세 층위

분류기의 역설이 한 회사에서 글로벌 권력 분배까지 작동 단위를 옮겨가며 재현되는 동안, 그 작동을 떠받치는 토대가 있다. 분류기는 무엇으로 “안전”과 “위험”을 판단하는가. 명시적 규칙이 아니라 학습 데이터의 패턴이다. 여기서 블랙박스의 진짜 내용이 세 층위로 드러난다.

첫 번째 층위는 데이터 오염이다. 제2편에서 보았듯, 라벤더가 학습한 데이터는 이스라엘 정보기관이 수십 년간 축적한 팔레스타인 감시 데이터이다. 블루 울프, 레드 울프, 페가수스를 통해 축적된 이 데이터 안에는 식민주의적 감시의 범주 체계가 이미 내장되어 있다. 누가 ‘위험’으로 분류되었는가의 역사적 패턴이 학습 데이터를 구성하고, 알고리즘은 그 패턴을 재생산한다. 오염된 데이터에서 학습한 분류기는 오염된 분류를 ‘정확한’ 분류로 출력한다.

두 번째 층위는 데이터 균질화이다. 이질적인 데이터, 즉 위성 영상, 통화 메타데이터, 소셜미디어 활동, 이동 패턴이 동일한 데이터 객체로 변환되는 과정에서 질적 맥락이 소멸한다. 한 사람의 통화 빈도, 이동 반경, 종교 활동, 가족 관계가 모두 숫자값으로 변환되어 하나의 “위험 점수”에 합산된다. 왜 그 통화를 했는지, 왜 그 지역에 사는지의 맥락은 숫자로 변환되는 순간 소멸한다. 이란 미나브의 여자 초등학교가 “군사 관련 시설”로 분류된 것도 이 구조의 귀결이다.

세 번째 층위가 분류기의 역설이다. 통제를 강화하기 위해 도입된 분류기가, 인간이 볼 수 있는 것의 범위를 결정함으로써 통제를 축소한다.

이 세 층위를 관통하는 하나의 명제가 있다. 블랙박스의 진짜 내용은 알고리즘의 불투명성이 아니다. 데이터에 내장된 역사적 편향이 알고리즘의 객관성으로 세탁되는 과정이다.

징후 — ‘만약’과 ‘이미’ 사이

유출된 소스코드에서 확인된 미공개 시스템들은, 기존 군사 AI 비판이 ‘만약 이런 일이 벌어진다면’이라는 조건문으로 서술했던 위험이 이미 코드로 구현된 현실임을 보여준다. 모든 시스템은 피처 플래그 뒤에 숨겨져 있고 아직 출시되지 않았으며, 군사 시스템에 적용되었다는 증거는 없다. 이것들은 ‘전환’이 아니라 ‘징후’이다.

카이로스(KAIROS). 소스코드에 150번 이상 등장하는 코드명이다. 고대 그리스어로 ‘적절한 순간’이라는 뜻이다. 인간 입력 없이 백그라운드에서 자율적으로 작동하며, 주기적으로 ‘지금 할 일이 있는가?’를 평가하고 행동 여부를 스스로 결정하는 데몬 모드(daemon mode, 인간 명령 없이 시스템이 백그라운드에서 스스로 작동하는 방식)이다. 군사적 맥락에서 이것은 인간 지휘관이 명령을 내리지 않아도 시스템이 스스로 전장을 감시하고, 위험 점수를 갱신하고, 표적 우선순위를 재배열하는 구조이다.

카이로스의 하위 기능인 드림(autoDream)은 사용자가 유휴 상태일 때 작동한다. 하루 작업 기록을 정리하고, 모순된 내용을 걸러내고, 최적화된 요약을 자동 생성한다. 군사적 맥락에서 이것은 AI가 밤 사이에 전장 데이터를 자동으로 재정리하고, ‘중요하지 않다’고 판단한 정보를 삭제하며, 다음 날 지휘관에게 ‘정리된’ 상황도를 제시하는 것이다. 왜 바뀌었는지의 세부 사항은 드림 과정에서 이미 소멸했다. 구조적 망각의 자동화이다.

언더커버 모드(Undercover Mode). AI 관여 흔적을 의도적으로 숨기는 기능이다. 소스코드의 실제 프롬프트: “You are operating UNDERCOVER in a PUBLIC/OPEN-SOURCE repository. Do not blow your cover.” 군사 시스템에 유사한 기능이 존재한다면, AI가 표적 선택에 관여했는지를 사후에 추적할 수 없게 만드는 메커니즘이 된다.

반증류 시스템(Anti-distillation). 경쟁사가 클로드 출력을 수집하여 자기 모델 훈련에 사용하려 하면, 클로드가 가짜 도구 호출을 의도적으로 삽입하여 데이터를 오염시킨다. AI가 의도적으로 거짓 출력을 생성할 수 있는 역량이 내장되어 있다는 것 자체가, 군사 시스템에서 AI 출력의 진위를 인간이 어떻게 검증하는가라는 근본적 질문을 제기한다.

이 시스템들을 OODA 루프에 대응시키면, 다음 단계의 윤곽이 보인다. 카이로스는 OODA 루프 전체를 자율화한다. 드림은 Orient를 인간 개입 없이 수행한다. 언더커버는 Act의 비가시화이다. 반증류는 시스템 출력의 신뢰성 자체를 해체한다. 아직 “전환”은 아니지만, 더 이상 “가정”도 아닌 위치이다.

이것은 기술의 문제가 아니라 정치의 문제이다

이 연재가 추적한 궤적을 되짚어보자.

제1편에서 보이드의 OODA 루프가 분석의 축을 제공했다. 한 사람의 몸 안에 있던 관찰-판단-결정-행동의 순환이, 팔란티어의 온톨로지에 의해 관찰이 체계화되는 첫 번째 전환을 거쳤다.

제2편에서 이스라엘의 AI 표적 시스템들이 판단-결정을 자동화하는 두 번째 전환을 만들었고, LLM과 메이븐 스마트 시스템이 이 모든 것을 하나의 운영체제로 통합하는 세 번째 전환을 만들었다. 이 운영체제는 우크라이나에서 시험되고, 베네수엘라에서 실전 투입되고, 이란에서 표준화되었다.

그리고 이번 3편에서, 클로드 코드 유출이 이 운영체제의 내부 구조를 하네스 아키텍처의 언어로 확인하게 했고, 분류기의 역설이 도출되었다. 미토스 이후의 한 달이 같은 명제가 한 회사에서 글로벌 권력 분배까지 작동 단위를 옮기며 재현되는 것을 보여줬고, 블랙박스의 세 층위가 그 작동을 떠받치는 토대로 드러났다.

이것은 기술의 문제가 아니라 정치의 문제이다. 어떤 데이터를 수집하고, 누구를 “위험”으로 분류하고, 무엇을 ‘허용 가능한 손실’로 설정하는가. 이 결정이 기술적 효율의 언어로 포장될 때, 정치적 책임은 소멸한다.

AI 전쟁 운영체제(AI War OS)가 위험한 것은 기술이 강력해서가 아니라, 정치적 결정을 기술적 과정으로 위장하기 때문이다.

평화월딩의 과제 — 전쟁을 설계하는 세계에서

그렇다면 이 구조에 어떻게 개입할 수 있는가.

현재 국회에 제출된 국방인공지능법안(의안번호 16355)은 제3조 제3항에서 “인적 개입의 보장”을 규정한다. 이것은 OODA 루프의 결정(Decide) 단계, 즉 최종 승인 버튼에 해당한다. 필요한 규정이지만, 충분하지 않다. 인간이 퍼미션 프롬프트의 93%를 자동 승인하고, 라벤더의 표적을 건당 20초로 추인하는 구조에서 “인적 개입의 보장”은 형식적 요건에 그칠 수 있다. 법안이 규율하는 것은 최종 승인 버튼(Decide)뿐이고, 실질적 결정이 이루어지는 데이터 수집과 분류(Observe-Orient)는 법안의 시야 밖에 있다.

평화월딩(Peace Worlding)은 갈등의 부재가 아니라 갈등과 함께 머물며 능동적 조율과 전환을 이루는 과정적 실천이다. 답을 미리 갖는 것이 아니라 답이 부재한 자리에서 답을 만들어가는 것, 도나 해러웨이의 표현을 빌리면 ‘트러블과 함께 머물기(staying with the trouble)’다. AI 전쟁 운영체제가 분류기 역설과 권력 분열로 작동하는 자리, 답이 단일하게 존재할 수 없는 자리는, 이 실천이 가장 시급한 자리다. 다섯 가지 과제를 제안한다.

첫째, 데이터의 식민주의적 전용을 차단하는 것이다. 누구의 데이터가 누구의 표적이 되는가. 팔레스타인인들의 통화 기록, 이동 패턴, 종교 활동이 수십 년간 축적되어 AI 표적 시스템의 학습 데이터가 된 것은, 데이터 수집의 비대칭성이 폭력의 비대칭성으로 전환된 것이다.

식민-감시-군사AI로 이어지는 폭력의 구조 자체를 해체하는 것, 이것이 평화월딩이 말하는 ‘대항 월딩(counter-worlding)’의 실천이다. 한국에서도 ㈜크래프톤이 한화에어로스페이스와 ‘피지컬 AI’ 공동개발 협약을 체결하고 “안두릴과 같은 글로벌 방산 기술 기업”을 공언한 사례가 보여주듯, 민군 데이터 경계의 해체는 이미 진행 중이다. 민간 감시 데이터의 군사적 전용을 구조적으로 차단하는 법적·제도적 장치가 첫 번째 과제이다.

둘째, 분류기를 가시화하는 것이다. 분류기가 무엇을 ‘안전’으로 무엇을 ‘위험’으로 판단하는지를 드러내는 일이다. 분류기의 역설이 보여주는 것은, 인간이 ‘통제하고 있다’고 믿는 순간 실제로는 통제의 범위가 축소된다는 것이다. 분류되는 자의 취약함을 인정하고, 분류하는 자와 분류되는 자의 상호의존성을 회복하는 것, 이것이 평화월딩이 말하는 ‘함께-되기(becoming-with)’의 실천이다.

독립 기관에 의한 정기적 편향 감사, 데이터 출처 추적, 분류 기준의 공개가 필요하다. 영국의 의회 무기수출통제위원회(CAEC)가 정부의 무기 수출 결정을 사후 검토하는 모델, 한국 국가인권위원회가 AI 관련 차별 사안을 심사한 선례, 진보네트워크센터 등 정보인권 단체가 축적한 알고리즘 감사 방법론, 이 자원들이 군사 AI 영역으로 확장되어야 한다.

셋째, 권력 분열의 트러블을 시민이 함께 배우는 공간을 여는 것이다. 미 국방부와 NSA의 분열, 빅테크와 국가의 분열, 글로벌 권력과 한국 시민사회의 분열은 누가 책임자인지조차 가시화되지 않게 한다. 시민사회는 침묵에 빠지고, 트러블은 봉쇄된다. 봉쇄된 트러블을 다시 접촉의 공간으로 여는 것, 시민이 분열된 권력 사이에서 자기 언어를 찾고 서로의 언어를 배우는 자리를 만드는 것, 이것이 평화월딩이 말하는 ‘트러블과 함께 머물기(staying with the trouble)’의 실천이다.

군사AI 쟁점토크와 같은 시민사회 토론 플랫폼, 빅테크와 국가의 분열을 시민이 함께 추적하는 공동 학습의 자리, 부처 간·기업-국가 간 결정의 흐름을 추적하고 공개하는 다층 감시 체계가 필요하다.

넷째, 이미 도착한 운영체제에 시민이 개입하는 것이다. 한국은 앤트로픽 글로벌 사용량 상위 5위권 시장이고, 미토스가 일반에 공개되지 않아도 그 위에서 만들어지는 운영체제와 인프라는 이미 한국 기업의 사용 환경에 직접 들어와 있다. 관찰자에 머물지 않고 현장에 깊이 개입하여 관계 속에서 변화를 만들어가는 것, 이것이 평화월딩이 말하는 ‘촉수적 사유(tentacular thinking)’의 실천이다.

시민적 통제의 자리는 추상적이지 않다. 2026년 정부가 출입국 얼굴사진 1억 7,000만 건(외국인 1억 2,000만 + 내국인 5,760만)을 ‘AI 학습용’으로 민간 업체에 이전한 사실이 박주민 의원실을 통해 드러났다. 시민의 일상 데이터가 시민이 모르는 사이에 학습 데이터가 되는 구조에 대한 통제, 이것이 군사 AI 통제의 첫 자리이다. 국방AI법안의 위원회(제6조)가 국방부장관을 위원장으로 하고 군·국방부 인사로 구성되는 현행 자기감시 구조가 아니라, 국제인도법 전문가, 인권단체, 시민사회 대표, 국회의원이 참여하는 독립 감시 체계가 필요하다.

다섯째, 정치를 다시 정치로 호명하는 것이다. 어떤 데이터를 수집하고, 누구를 ‘위험’으로 분류하고, 무엇을 ‘허용 가능한 손실’로 설정하는가. 이 결정들이 기술적 효율의 언어로 포장될 때 정치적 책임이 소멸한다. 기술로 위장된 정치적 결정을 다시 정치적 결정으로 호명하는 것, 이것이 평화월딩이 말하는 ‘행위의 가시화’의 실천이다.

법안 어디에도 국제인도법 준수 의무가 명시되어 있지 않다. 구별 원칙(군사 목표물과 민간인의 구별), 비례성 원칙(민간인 피해가 군사적 이익에 비해 과도하지 않을 것), 예방 조치 의무(민간인 피해를 최소화하기 위한 모든 조치)가 법률에 직접 규정되어야 한다. 군사 AI에 관한 결정을 의회와 시민사회의 사전 동의 절차 안에 두어야 한다.

이 다섯 가지는 충분한 답이 아니다. 분류기 역설과 권력 분열로 작동하는 운영체제 앞에서, 단일하고 충분한 답은 존재하지 않는다. 그러나 봉쇄된 트러블 안에 머물면서 다른 세계의 가능성을 함께 만들어가는 것, 그것이 평화월딩의 실천이고, 다섯 과제는 그 시작점이다.

📚 더 읽을 거리

🔖 Anthropic, “Claude Mythos Preview”, red.anthropic.com/2026/mythos-preview/, 2026.4.7. (앤트로픽이 미토스 프리뷰를 공식 발표하며 자체 평가를 제시한 1차 사료. “사이버 능력에서 다른 어떤 AI 모델보다 훨씬 앞서 있다”는 자기 규정과 프로젝트 글래스윙의 한정 배포 논리가 담겨 있다)

🔖 VentureBeat, “Claude Code’s source code appears to have leaked: here’s what we know”, venturebeat.com, 2026.3.31. (클로드 코드 소스 유출 직후 기술적 분석을 가장 두껍게 다룬 보도. 카이로스, 오토드림, 언더커버 모드, 반증류 시스템의 구조를 상세히 분석한 1차 자료)

🔖 Alex Kim, “The Claude Code Source Leak: fake tools, frustration regexes, undercover mode, and more”, alex000kim.com, 2026.3.31. (소스코드를 직접 분석한 엔지니어의 기술 해부 기록. 반증류 메커니즘의 작동 원리와 ANTI_DISTILLATION_CC 플래그의 실제 코드를 인용해 보여준다)

🔖 피스모모, 「자율살상무기체계(LAWS) 관련 한국정부의 입장에 대한 의견서」, 2025. (CCW GGE에서 한국 정부의 문제적 입장을 분석한 시민사회 문서. 국방AI법안 비판과 시민적 통제의 과제를 한국 맥락에서 이해하는 데 필수적)