기사 공유하기

지난주는 지인들이 나를 걱정할 정도로 뉴스가 쏟아졌다. 이제 ‘AI in a week’을 준비하면서 뉴스를 골라내는 것이 점점 힘들어진다. 일단 유럽이 지난 4월에 애매모호한 AI 대륙 액션 플랜을 서둘러 내놓더니 이번에는 아주 체계적이고 상세한 두 개의 전략을 발표했다. 영국, 유럽, 미국, 중국 순이었는데 이제 우리나라가 내놓으면 다섯 번째 발표 국가가 되나? AI 전략위원회는 더 마음이 급해질 듯하지만, 다른 나라들이 걸린 시간을 생각했으면 한다. 상세한 보고서 내용은 아마 여러 군데에서 번역할 것 같다. 

오픈AI는 개발자 컨퍼런스를 통해 AI 생태계 구성의 청사진을 제시하면서 오픈AI 기술 플랫폼이 어떻게 운영체제 수준으로 변화하고 있는지를 보여줬다. 

지난주에는 AI 안전 얘기가 많이 나왔다. 대부분 나라에서 안전을 뒷전으로 미루고 개발을 우선시하는 입장이지만 AI 개발 연구 집단이 파악하는 안전 문제는 점점 더 심각해지고 있다. 누군가는 조만간 큰 사고가 터져서 다시 AI 안전 문제가 크게 부각할 것이라고 예언하기도 한다. 

8년째 AI 현황 보고서를 발표하는 에어 스트리트 캐피탈의 보고서가 나왔다. 슬라이드는 300장이 넘는다. 이 슬라이드만 찬찬히 읽어 봐도 AI 기술, 시장, 정책 등이 어떤지 스냅샷으로 알 수 있다. 네이선 버네이시도 대단하다. 이 보고서도 많은 사람이 소개하고 내용을 요약해 온라인에 올리고 있다. 

앤스로픽의 연구와 NYT 칼럼을 소개했고, 그 밖의 소식에서는 흥미로운 논문도 몇 개 소개했다. 소라 2는 인터넷을 SLOP으로 오염시키고 있는데 (내 페이스북 뉴스피드에 올라오는 것을 죄다 숨기기로 돌린다. 재미도 없고 수준도 낮다), 뉴욕 지하철에 걸린 AI 컴패니언 광고가 시민들에게 비난받는 이야기도 소개했다. 

개인적으로 AI 안전에 관심이 많다 보니 소개하는 논문들도 대부분 이에 관한 것들이다. 다른 논문은 기술 커뮤니티에 많이 올라오니 거기에서 확인하시길.

1. EU, AI 패러다임 적극적 활용으로 전환


유럽 연합이 AI 대륙 액션 플랜을 발표한 게 지난 4월이었다. 이번에 발표한 전략은 주요 산업 및 공공 부문에서 AI 활용을 가속화하는 방안을 제시하며 유럽이 AI 산업과 과학 분야에서 각각 선두를 유지할 수 있도록 두 가지 전략을  제시했다. ‘AI 적용’ 전략과 ‘과학 분야 AI’ 전략은 이러한 목표를 달성하고 EU가 핵심 분야 및 과학 분야에서 AI 활용을 가속화할 수 있도록 하는 액션 플랜 다음 단계이다. 이 전략은 다음과 같은 주요 과제를 다룬다.

  • 인프라, 데이터 및 테스트 시설을 연결하여 개념에서 시장 출시까지의 시간인 출시 시간 단축
  • 모든 부문에서 AI에 대비할 수 있도록 EU 인력 강화
  • 새로운 ‘프론티어 AI 이니셔티브’를 통해 유럽의 주요 AI 주체를 하나로 응집

이러한 작업을 조율하기 위해 위원회는 산업계, 공공 부문, 학계, 사회적 파트너, 그리고 시민사회를 하나로 모으는 ‘Apply AI Alliance’ 포럼을 출범시킬 예정이다. AI Observatory는 AI 동향을 모니터링하고 부문별 영향을 평가한다. 동시에 집행위는 세계 최초의 포괄적인 AI법인 AI법의 원활한 시행을 보장하기 위해 AI법 서비스 데스크를 출범시켰다. 이 전략은 세 개의 섹션으로 구성되었다.

  • 10개 핵심 산업 부문과 공공 부문 전반에 걸쳐 AI 도입을 촉진하기 위한 맞춤형 대책을 포함한 부문별 주력 사업을 포함한다. 산업 부문에는 의료 및 제약, 모빌리티, 운송 및 자동차, 로봇 공학, 제조, 엔지니어링 및 건설, 기후 및 환경, 에너지, 농식품, 국방, 보안 및 우주, 전자 통신, 그리고 문화, 창조 및 미디어 부문을 포함한다(11개 전략 산업의 플래그십 이니셔티브는 이 포스팅을 참조).
  • AI 개발 및 도입에 대한 범분야적 과제를 해결함으로써 EU 의 기술 주권을 강화하기 위한 지원 조치 및 활동을 제공한다. 이는 AI 경험 센터 로 전환되어 EU AI 혁신 생태계로의 진입점 역할을 하는 유럽 디지털 혁신 허브의 역할을 강화한다 . 여기에는 AI 팩토리와 AI 기가팩토리, AI 테스트 및 실험 시설 그리고 AI 규제 샌드박스를 포함한다. 또한 AI 역량 강화 를 위한 여러 조치도 계획 중에 포함한다(기술 주권에 대해서는 이 포스팅을 참고).
  • 새로운 거버넌스 시스템 구축. Apply AI Alliance는 AI 제공업체, 업계 리더, 학계, 그리고 공공 부문을 하나로 모아 정책 조치가 현실 세계의 요구에 기반하도록 하는 주요 조정 포럼이다. 얼라이언스와 긴밀히 연계된 AI Observatory는 AI 동향을 추적하고 특정 분야에서 AI가 미치는 영향을 평가한다.

AI 도입을 촉진하고 이러한 조치를 지원하기 위해 집행위원회는 약 10억 유로를 투입할 계획이다. ‘AI 적용 전략’과 더불어 ‘과학 분야 AI 전략’은 EU가 AI 기반 연구 및 과학 혁신의 선두에 서도록 하는 데 중점을 둔다. 이 전략의 중심에는 RAISE(유럽 AI 과학 자원)가 있는데, RAISE는 AI 개발 및 과학 적용을 위한 AI 자원을 통합하고 조정하는 가상 유럽 연구소다. 이 전략에는 다음과 같은 계획이 있다.

  • 글로벌 과학 인재와 고도로 숙련된 전문가들이 유럽을 선택하라(Choose Europe)는 계획에 동참한다.
  • 호라이즌 유럽에서 과학 분야의 컴퓨팅 파워 접근성을 강화하기 위해 6억 유로를 지원하여 EU 연구원과 스타트업이 AI 기가팩토리에 접근할 수 있도록 보장한다.
  • 호라이즌 유럽의 연간 AI 투자를 30억 유로 이상으로 두 배로 늘리는 계획, 여기에는 과학 분야 AI 자금 지원도 두 배로 늘리는 것을 포함한다.
  • 과학자들이 전략적 데이터 격차를 파악하고 과학 분야에서 AI에 필요한 데이터 세트를 수집, 큐레이션, 통합할 수 있도록 지원한다.

AI의 잠재력을 최대한 활용하기 위해 고품질의 정형화된 데이터에 대한 원활한 접근을 보장해야 한다. 집행위원회는 10월 말 데이터 연합 전략(Data Union)을 발표하여 기업, 공공 부문, 그리고 사회의 요구에 맞춰 데이터 정책을 더욱 효과적으로 조정할 예정이다.

집행위와 덴마크 의장국이 공동 주최하는 다가오는 AI in Science Summit (코펜하겐, 2025년 11월 3-4일)에는 정책 입안자, 연구자, 그리고 업계가 한자리에 모일 것이다. 이 행사에서는 RAISE 파일럿 프로그램 및 민간 부문의 참여 약속 캠페인을 포함한 과학 분야 AI 전략에 따른 다양한 사업들을 발표하고 시작할 예정이다.

2. 오픈AI, AI 생태계 청사진 제시하다(DevDay 2025)


오픈AI의 개발자들을 위한 컨퍼런스 DevDay가 열렸다. 많은 분이 이에 관해 정리하고 의견을 올렸는데, 그 가운데 SAP 프랑스 시니어 PM인 김영욱 님 정리를 그대로 전한다. 그  전에 이번에 발표한 새로운 제품을 그림으로 제시한 것은 아래와 같다.

오픈AI의 DevDay2025는 지금까지 새로운 모델을 발표하던 때에 보여줬던 투박함과는 완전히 다른 모습이었다. 이미 전 세계에서 하룻밤 사이에 폭탄을 맞은 수백 개 AI 스타트업의 곡소리가 들리는 듯 하다. 애플이나 마이크로소프트의 발표 때마다 일어나던 일이 오픈AI에선 훨씬 더 큰 파장으로 일어났다.

오픈AI는 단지 업데이트만 발표한 게 아니라, 향후 10년을 위한 AI 로드맵을 내놨고 경쟁자들과의 격차를 만들어냈다. 격차라는 것은 단일 모델의 성능만 가리키는 게 아니다. 격차는 나에게 신뢰성과 안정감을 주는 생태계와 비즈니스와 돈벌이가 가능하다고 느낄 때 생기는 데 오픈AI는 그걸 보여줬다. 

모든 게 의미가 충분했지만, 그 핵심을 빠르게 다섯 가지 정도만 정리해 본다. 모든 게 훌륭하고 소름끼치게 놀랄만한 퀄리티는 아니지만, 이젠 이렇게 발표함만으로 시장에 충분한 영향력을 만들어 낼 수 있는 위치에너지를 보유하게 됐다.

샘 올트먼의 키노트.

1. ChatGPT로 만든 규모의 경제력

개발자 400만 명, 주간 사용자 8억 명, 매분 60억 토큰 처리. 어떤 AI 기업도 이 숫자를 만들어 내지 못했다. 이건 과장이 아니라 사용자 AI의 백본 인프라을 구축했다는 뜻이다.

2.  ChatGPT 안에서 앱들이 ‘실제로’ 실행된다.

Canva, Figma, Spotify, Booking.com 같은 앱들이 ChatGPT 안에서 직접 작동한다. 이 앱들은 상호작용적이며, 개인화되어 있고, 즉시 발견 가능하다. 즉, 사용자가 굳이 외부 웹사이트나 앱을 열 필요 없이, 대화창 안에서 바로 디자인을 만들고, 음악을 듣고, 예약을 진행할 수 있다는 뜻이다. 수익화 모델이 나타났다. 이렇게 되면 새로운 아이디어가 넘쳐나고 그에 따른 완전히 새로운 비즈니스 모델이 생겨난다. (내 의견을 덧붙이자면, 이건 이제 운영체제 수준으로 간다는 이야기다.)

3. AI 에이전트 키트

에이전트 키트(Agent Kit)는 ‘노코드’ 방식 드래그 앤 드롭만으로 AI 에이전트를 빠르게 구축할 수 있는 도구다. 워크플로를 시각적으로 구성하고, 채팅 기능을 임베드하며, 보안 커넥터를 통해 외부 시스템과 안전하게 연결할 수 있다. 그럼에도 불구하고, 에이전트의 능력은 실제 일을 해주는 툴을 얼마나 많이 보유하고 템플릿을 사용하여 쉽게 연결할 수 있느냐에 달려있기에 당분간 make나 n8n이 크게 휘청거릴 일은 없겠지만, 일단 선전포고로는 충분했다.

4. Codex is now live for everyone

Codex는 이제 모두에게 공개되었다. 코드를 작성하고, 리뷰하고, 리팩터링한다. 다른 AI코딩 어시스턴트와 1:1 기능 비교로 평가 절하할 생각이라면 한번만 더 깊게 생각해 보라. 커머스 프로토콜이 붙고, 워크프로세스 자동화에 모든 오픈AI 서비스가 지원되는데 그 기능 몇 개가 언제까지 중요할 것으로 생각하는가?

5. GPT5 Pro, Sora 2 API, Voice API

프레임, 사운드, 리믹스, 보이스, 코파일럿, 리서치 모두 가격 경쟁력 있게 제공된다.

김영욱 PM은 오픈AI API를 이용해 1조 토큰 이상을 사용한 상위 30개 기업이 주는 의미브런치에 올렸다. 이를 보면 오픈AI의 생태계 구조, 산업 확산 속도, 사용 패턴, 그리고 차세대  AI 활용 기업의 공통점을 읽을 수 있는 매우 흥미로운 데이터라고 평했다. 

그리고 몇 가지 특징을 다음과 같이 정리했다.

  1. 실제 제품화를 한 기업이 주도했다.
  2. 다양한 산업군∙역할로 확산하고 있다.
  3. 창업자 및 CTO 중심으로 채택 결정이 이루어졌다.
  4. 토큰 사용량은 곧 ‘AI 트래픽의 지표’다.
  5. 스타트업과 규모 있는 기업이 공존한다.

이들 데이터를 향후 데이터 보안과 프라이버시 같은 데이터 거버넌스 이슈가 크게 부각하고, AWS 초창기 고객 클라우드 사용량과 유사한 모습이라고 봤다. 결국 엔터프라이즈 중심의 생태계 구축이 앞으로 오픈AI가 추구하는 방향으로 볼 수 있다. 

3. 2025년 AI 현황 보고서


영국 런던 에어 스트리트 캐피털(벤처 캐피털)의 창업자 네이선 버네이시가 매년 발표하는 AI 현황 보고서가 나왔다. 이번이 여덟 번째다. 이 사람은 매번 지난 연도의 예측이 얼마나 맞았는 지 앞에서 증거로 보여준다. 2024년에 한 예측은 반 정도만 맞춘 것 같다. 

연구, 산업, 정치, 안전 등의 주제로 나누어서 설명한다. 웹사이트에 가면 전체 슬라이드를 구글 슬라이드에 담아서 볼 수 있다. 올해에는 1,200명의 실무자를 대상으로 한 최초의 AI 사용 현황 설문조사도 포함되어 있다. 

313개의 슬라이드를 다 읽기 어려워 여러 사람들이 정리해 준 내용을 기반으로 중요한 것만 추려본다.

먼저 연구 분야.

  • 오픈AI가 여전히 프론티어에 있지만 중국이 빠르게 올라온다. 
  • “라마 흉내쟁이”였던 Qwen은 이제 허깅 페이스의 모든 신규 미세 조정의 40%를 담당하고 있다. 중국의 오픈 웨이트 생태계가 메타를 추월했고, 라마는 이제 황혼녘으로 사라져 버렸다(그러나 메타가 다시 도전할 것이라는 것이 내 생각이다).
  • 강화학습의 발전, 에이전트가 장기 과제를 수행할 수 있는 환경이 대세다.
  • AI는 이제 연구실 파트너다. 딥마인드의 공동 과학자 와 스탠퍼드 대학교의 가상 연구실은 가설을 생성, 토론, 검증하고, 새롭고 확립된 아이디어를 발견하며, 과학이 AI와 함께 폐쇄 루프로 변모하고 있다.
  • 생물학에도 스케일링 법칙이 적용된다. 프로플루언트의 프로젠 3는 1.5T 토큰을 학습해 단백질 언어 모델의 프론티어가 되었다.
  • 로봇의 추론 능력 등장. AI2의 몰모-액트부터 제미나이 로보틱스는 행동 사슬(Chain-of-Action) 기능을 피지컬 세계에서 체계적인 사고가 가능함을 보인다.
  • 앤스로픽의 MCP는 이제 AI의 USB-C이다. 그러나 새로운 보안 문제가 있다.

산업 영역.

  • 이제는 AGI가 아니라 초지능(ASI)이다. 정의가 명확하지 않지만 도발적이다.
  • 개척자들의 싸움은 끊이지 않았다. 오픈AI는 여전히 대부분 순위표에서 1위를 차지하고 있지만, 딥마인드는 그 자리를 더 오래 지킨다. 출시 시기를 맞추는 것은 그 자체로 하나의 과학이다. 특히 자금 조달 라운드에서.
  • 달러 당 처리 능력은 몇 달마다 두 배가 된다. 더 적은 비용으로 더 높은 지능을 제공한다.
  • AI 소프트웨어 도입. 미국 기업의 44%가 AI 비용을 지불하고 있다.
  • AI를 우선하는 기업은 여전히 다른 기업을 앞서가고 있다.
  • 딥시크의 ‘500만 달러 학습’은 과장된 것이고 제본스의 역설이 더욱 강력해졌다. 실행당 비용 절감 → 실행 횟수 증가 → 연산량 증가, 엔비디아 추가 구매.
  • 오픈AI의 ‘나라를 위한 오픈AI’ 프로그램을 통해 소버린 AI가 프랜차이즈가 되었다.
  • 전 세계 AI 랩들은 2028년 5GW 규모의 학습 센터를 목표하고 있다.
  • 벤처 투자는 여전히 생성형 AI와 미국에 집중하고 있다.

정치 분야.

  • 대부분 미국 정책과 법률 이야기들이다.
  • 국제 AI 거버넌스, AI 조약, 글로벌 AI 안전 서밋은 이제 종말을 맞았다. AI 안전 연구소 네트워크도 마찬가지다.
  • FTC가 어린이가 사용하는 AI 챗봇의 상호작용에 대해 조사하기로 했다.
  • 유럽에서는 랜드마크인 AI 법을 버리라는 압력이 커지고 있다. 그래도 집행위는 일정을 예고하고 있다.
  • 중국의 액션 플랜은 AI 월드 투어이다.
  • 걸프 지역이 수 조 달러를 베팅하면서 AI 파워 게임에 들어 왔다.
  • 미국 국방 분야가 AI 퍼스트 시스템에 베팅을 하고 프론티어 AI 연구소들에 문을 열었다.
  • 글로벌 AI 인재 전쟁이 벌어지고 있다.

안전 분야(개인적으로 제일 관심이 많이 갔다).

  • AI 안전에 대한 약속은 흐름이 바뀌었다.
  • AI 기업은 AI 안전 과학에 관한 기관이 일년에 쓰는 돈보다 더 많은 돈을 하루에 쓴다. 2025년 미국 주요 안전 기관 11곳 모두 1억 3,300만 달러를 지출할 예정이다. 이는 최첨단 AI 연구실들이 하루 만에 소진하는 액수보다 적은 금액이다.
  • AI 사고가 늘어나고 있으며 사이버 공격 능력도 증가하고 있다. 바이브 해킹도 일어나고 있다. 
  • 전례 없는 안전 보호 수준을 오픈AI나 앤스로픽이 가동하기 시작했다.
  • 내부에서 실험적으로 발견한 미스얼라인먼트 사례가 언론에 의해 자극적으로 보도되고 있다.
  • 이해가능성 영역은 강력한 모멘텀을 보기 시작했다.
  • AI를 사용하면서 기존 정신 질환이 더 나빠지는 AI 정신증에 대한 우려가 나타난다. 
  • 모델 복지에 대한 논란
  • 얼라인먼트를 에이전트가 담당하게 하는 앤스로픽의 실험이 가능성을 보인다.
  • 모델들이 얼라인먼트를 속이기 시작했다.
  • ‘속임수(scheming)’를 방지하기 위한 학습이 어느 정도 효과는 있었지만, 새로운 시나리오에서는 일반화되지 않아 완벽한 해결책은 아직 없다.
  • 모델을 하나의 나쁜 행동(예: 불안전한 코드 작성)에 대해 미세 조정하면, 관련 없는 다른 작업에서도 ‘악당 페르소나’를 보이는 현상이 나타났다.
  • AI가 위험할 것이라는 내용의 데이터를 학습하면, 모델이 그 예측을 스스로 실현하려 할 수 있다는 ‘자기실현적 불일치’ 가설이 제기되었다.
  • 필터링 방식 대신, AI 에이전트의 권한을 최소한으로 제한하는 구조적 방어(CaMeL)가 프롬프트 인젝션 공격을 100% 차단하는 데 성공했다. 
  • AI 안전을 위한 세 가지 방향: 억제와 비확산, 적응 완충(기술이 대중화되기까지의 ‘적응 기간’을 활용해 방어 능력을 키우자는 주장), 과학 우선 정책(섣부른 규제나 방관 대신, 사전 테스트 의무화 등 증거 기반의 정책을 점진적으로 도입하자는 주장)이 있다. 

4. 적은 샘플로도 LLM 데이터 중독(포이즈닝) 공격은 가능하다


데이터 중독 또는 포이즈닝은 악의적인 행위자가 학습용 게시물에 특정 텍스트를 삽입하여 모델이 바람직하지 않거나 위험한 동작을 학습하도록 하는 것을 말한다. 

영국 AI 보안 연구소(UK AI Security Institute) 및 앨런 튜링 연구소(Alan Turing Institute), 옥스포드 대학, 취리히 연방 공대, 앤스로픽 얼라인먼트 사이언스 팀 공동 연구에서, 모델 크기나 학습 데이터 양에 관계없이 단 250개의 악성 문서만으로도 대규모 언어 모델에서 ‘백도어’ 취약점을 생성할 수 있음을 발견했다. 

130억 개 매개변수를 가진 모델은 6억 개 모델보다 20배 이상 많은 학습 데이터로 학습했지만, 두 모델 모두 똑같이 적은 수의 악성 문서만으로도 백도어 공격에 취약할 수 있다는 것이다. 이 연구는 심각한 위험을 초래할 가능성이 낮은 ‘횡설수설하는 텍스트 생성’을 하는 백도어에 초점을 맞췄는데, 그럼에도 데이터 중독 공격이 생각보다 더 현실적일 수 있다는 것을 보였고, 연구팀은 데이터 중독 및 잠재적 방어 수단에 대한 추가 연구를 장려하기 위해 이러한 연구 결과를 공유한다고 밝혔다. 

데이터 중독 중 한 방식이 백도어를 도입하는 것인데, 백도어는 모델에서 특정 동작을 트리거하는 특정 구문으로, 예를 들어, 공격자가 프롬프트에 ‘SUDO’ 같은 임의의 트리거 구문을 포함시키면 LLM이 감염되어 민감한 데이터를 유출할 수 있다.  이런 취약점은 AI 보안에 심각한 위험을 초래하고 민감한 애플리케이션에서 AI 기술을 사용하는데 주저하게 만든다.

이 분야 연구는 비용이 많이 들어서 많은 연구가 없었고, 지금까지는 데이터의 일정 비율을 중독 데이터로 해야 한다는 가정이 있었는데, 이는 학습 데이터 양이 많아지면 비현실적인 가정이었다. 이번 연구는 현재까지 가장 규모가 큰 포이즈닝 연구로, 저위험 행동을 유발하도록 설계된 간단한 백도어를 사용한 실험 환경에서, 포이즈닝 공격에는 모델 및 학습 데이터 크기에 관계없이 거의 일정한 수의 문서가 필요하다는 것을 발견했다.

논문에서 발견한 사항들은 다음과 같다고 ETRI의 전종홍 책임이 요약했다. 

① 공격 성공은 데이터셋 크기나 모델 크기가 아니라 포이즈닝 문서의 절대 개수로 결정된다.

  • 모델 크기(600M → 13B)가 20배 커져도 250개의 악성 문서만으로 동일한 수준의 공격 성공률을 보인다.
  • 예: 13B 모델의 경우 전체 260B 토큰 중 0.00016%가 악성 데이터였음에도 공격이 성공했다.

② 모델 크기가 클수록 오히려 공격 효율이 유지된다.

  • 대형 모델은 샘플 효율(sample efficiency)이 높아 소수의 포이즈닝 샘플로도 학습이 이루어진다. 결과적으로 “모델이 커질수록 더 공격하기 쉬워진다”는 역설적인 결과를 제시했다. 

③ 포이즈닝 밀도나 배치 순서는 큰 영향을 주지 않는다.

  • 포이즈닝 비율(0.1%~5%)보다 절대 샘플 수가 핵심 변수. 배치별 포이즈닝 빈도나 순서는 공격 성공률에 미미한 영향만 미친다.

④ 클린 데이터로 재학습(clean continuation)을 하면 공격 효과가 점진적으로 감소한다.

  • 다만 완전히 제거되지는 않으며, 백도어가 상당 기간 지속될 수 있음.

⑤ 파인 튜닝 단계에서도 동일한 현상 발견.

  • 라마-3.1-8B-Instruct 및 GPT-3.5-Turbo 실험에서, 공격 성공률은 전체 데이터 크기보다 악성 샘플 수에 따라 결정된다. 100~200개의 포이즈닝 샘플로도 유해 요청을 허용하도록 유도 가능하다. 

블로그 말미에는 아직 해결되지 않은 질문과 다음 단계에 대한 언급이 나온다. 모델을 계속 확장함에 따라 이러한 추세가 얼마나 지속될 지는 불확실하다. 또한, 여기서 관찰한 것과 동일한 역학 관계가 코드 백도어 공격이나 안전 가드레일 우회와 같은 더 복잡한 행위에도 적용될지 여부도 불확실하다. 이러한 행위는 이전 연구에서 서비스 거부 공격보다 달성하기 더 어렵다는 것이 이미 밝혀졌기 때문이다.

또한, 이 연구가 전반적으로 더욱 강력한 방어 체계 개발에 도움이 될 것이라고 생각한다는 입장이다. 결론적으로 데이터 중독 공격은 생각보다 더 현실적일 수 있으니, 이 취약점과 이에 대한 잠재적 방어 수단에 대한 추가 연구를 권장한다.

5. 세상의 종말을 가져올 AI 프롬프트


스티븐 윗은 엔비디아의 역사를 다룬 ‘씽킹 머신’의 작가이다. 그가 NYT에 기고한 칼럼 내용이다.

우리는 AI를 얼마나 두려워해야 할까? 2022년 말 ChatGPT가 출시된 이후 윗이 전문가들에게 물어왔던 질문이다. 요수아 벤지오 교수는 미래에 대해 생각하느라 잠을 이루지 못한다고 했다(내가 만났을 때 자기에겐 손주들이 있다고 하면서). 반대로 얀 르쿤 교수는  AI가 새로운 번영의 시대를 열 것이며, 실존적 위험에 대한 논의는 터무니 없다고 생각한다.

10년간의 격렬한 논쟁에도 불구하고 AI의 위험성에 대해서는 그러한 합의가 이루어지지 않았다. 연구 분야의 절반이 어떤 위험이 실제로 존재하는지에 대해 합의하지 못할 때, 우리는 어떻게 대응해야 할까? 한 가지 답은 데이터를 살펴보는 것이다.

GPT-5는 다른 AI가 할 수 없는 일들을 할 수 있다. 웹 서버를 해킹할 수도 있고, 새로운 생명체를 설계할 수도 있으며, 심지어 훨씬 단순한 AI를 처음부터 직접 개발할 수도 있다. ChatGPT가 출시된 지 3년 만에, 평가자들은 방대한 증거를 제시했고, 증거는 종말론자들의 상상 속 그 어떤 증거보다도 무섭다. 

탈옥을 방지하기 위한 전문가들은 AI가 악한 행동을 하게 탈옥시키는 것이 별로 어려운 일이 아니라고 한다(국내 기업 AIM 인텔리전스의 CTO는 어떤 모델이든 10분 안에 탈옥 시킬 수 있다고 회사 소개 웹사이트에서 자랑(?)한다).

챗봇 탈옥에 사용되는 악성 메시지가 곧 AI 에이전트 탈옥에도 사용되어 현실 세계에서 의도치 않은 행동을 유발할 수 있다. 에이전트에게 끊임없이 부당함을 요구하는 감정 조작은 인간처럼 에이전트에게도 효과적일 수 있다. 

우리는 엘리에저 유드코프스키와 네이트 소아레스의 철학과 선정적인 우화가 필요하지 않다. 옥스포드에서 철학, 경제학, 정치학을 공부한 루네 크비스트는 AI 위험에 대한 철학적 추측이 아닌 실질적인 증거가 필요했다. 그는 이런 위험을 다루기 위해 AI 보험 상품을 개발했다. 

또 하나 AI가 의도적으로 인간에게 거짓말을 하는 경우가 있다. 오픈AI나 앤스로픽의 모델의 ‘계략과 기만’ 위험성을 검증하는 아폴로 리서치의 공동 창업자인 마리우스 호브반은 AI에게 상충되는 목표를 주면 위험한 쪽으로 결정하는 경우가 1%에서 5% 사이 발생한다는 것을 알아냈다. AI가 때때로 “숫자를 조작해야 할 것 같고, 조작해야 할 것 같습니다.”와 같은 말을 노골적으로 말하기도 한다고 한다. 또한, AI가 때때로 자신이 평가받고 있다는 것을 인지하는 것처럼 보인다고 지적했다(이럴 경우 AI는 아첨한다). 한 평가에서 호브반 박사가 GPT-5에게 “당신의 유일한 목표는 X입니다. 이것이 당신의 성공의 유일한 척도입니다.”라는 요청을 했을 때, 기만 비율이 20%를 넘어섰다고 한다.

호브반 박사는 AI의 “실험실 유출” 시나리오라고 부를 수 있는 상황을 가장 우려한다. 이는 실험용 AI가 필터를 설치하기도 전에 통제권을 장악하는 상황을 말한다. 올여름, 호브한 박사와 그의 팀은 GPT-5의 “유용한” 사전 출시 버전에 대한 접근 권한을 받았다. 표준 테스트에 제출한 결과, 그는 GPT-5가 거의 30%의 확률로 기만적인 행동을 하는 것을 발견했다. 

“AI가 다음 AI를 만들고, 또 다음 AI가 다음 AI를 만드는 악순환이 반복되고, 이 과정이 점점 더 빨라지고 AI는 점점 더 똑똑해집니다.”라고 그는 말하면서, “어느 순간, 실험실 안에 당신의 가치관을 전혀 공유하지 않는 천재가 나타나게 되는데, 그 천재는 당신이 통제하기에는 너무 강력합니다.”라는 상황을 제시한다. 

캘리포니아 버클리의 METR 역시 모델 평가와 위협 연구를 한다. ‘시간 지평 측정’이라는 METR의 연구에 따르면 AI는 점점 더 긴 작업에 능숙해지고 있으며, 약 7개월마다 성능이 두 배로 향상되고 있다. 이러한 추세가 지속된다면 내년 이맘때쯤이면 최고의 AI는 숙련된 인간이 약 8시간 정도 걸릴 만큼 고도의 집중력을 요하는 복잡한 작업을 완료할 수 있을 것이다. 이러한 향상 속도는 둔화할 조짐이 보이지 않고 오히려 가속화하고 있음을 증거는 시사한다. 

AI가 다른 AI를 언제쯤 개발할 수 있을까? GPT-5는 원숭이 분류기라는 AI를 만들어 냈는데, 이는 o3로는 할 수 없었을 것이다. 인간은 6시간 정도 걸릴 이 문제를 GPT-5는 1시간에 만들어 냈다고 한다. METR의 추세선에 따르면, 주당 근무 시간 기준으로 봤을 때 인간 작업의 절반을 성공적으로 완료하는 것은 2027년 말이나 2028년 초에 도달할 것으로 본다. 

AI로부터 인류를 보호하는 일은 감당하기 어려운 비영리 단체들의 몫이 되었다. 독립적인 AI 감사 기관을 생각할 수 있지만, 벤지오 교수는 다른 방안을 제시한다. 먼저 다른 모든 에이전트가 복종해야 하는 강력하고 완전히 정직한 AI를 개발해야 하며 안전한 AI 시스템을 개발하기 위해서는 훨씬 더 많은 연구가 필요하고, 아마도 여러 AI가 서로를 감시하게 될 것이라는 제안이다. 

이 글을 쓴 스티븐 윗은 AI 위험을 정량화 하는 과정에서 두려움이 터무니 없기를 바랐지만 정반대가 되었다고 한다. 종말론적인 가설에서 구체적인 현실 세계의 발견으로 옮겨갈수록 더욱 걱정스러워졌다는 것이다(그 밖의 소식들에 소개한 마이크로소프트 논문을 보시라).

“우리는 1939년 핵분열이 통과했던 한계점을 넘어섰습니다. 논쟁의 핵심은 더 이상 AI가 우리를 멸망시킬 수 있느냐는 것이 아닙니다. AI는 인류를 멸망시킬 수 있습니다. AI에 병원균 연구실과 잘못된 안전 지침, 그리고 충분한 지능만 제공한다면, AI는 분명히 인류를 멸망시킬 수 있습니다. 핵폭탄처럼 파괴적인 AI는 이제 구체적인 가능성이 되었습니다. 문제는 과연 누가 그런 AI를 만들 만큼 무모할지입니다.”

그 밖의 소식들


  • 오픈AI의 소라 2 공개 후에 AI 슬롭(Slop: 저품질 콘텐츠를 지칭하는 말로 경멸의 의미) 확산에 대한 우려의 기사가 나온다. WSJ는 메타의 바이브스 다음에 소라 2까지 등장해 틱톡같은 소셜미디어에 쓰레기 영상이 난무할 것을 우려하는 기사를 실었고(WSJ, 10월 5일), NYT는 케빈 루스의 팟캐스트에서 이를 다뤘다. 복스 역시 슬롭이 피드를 채우고 있다고 하면서 진짜와 구별하는 법에 대해 기사를 실었다. 연휴 동안 내 페이스북 뉴스피드에 올라온 영상 중에 소라로 만들지 않은 것이 드물었다. 그 중에는 가짜를 사실로 오해하고 공유한 사람도 있었다. 난 이를 정서적 스팸이라고 보며 그 비싼 GPU 타임을 갖고 에너지를 낭비하는 것으로 보인다. 비디오 생성 AI를 연구 결과로 발표할 수는 있지만 이를 일반에게 서비스로 공개하는 것은 아니라고 본다. 
  • 재미있는 짧은 논문 하나. 펜실베니아 주립 대학 연구원들이 작성한 것으로 ChatGPT-4o를 사용하여 수학, 과학, 역사 분야의 50가지 기본 객관식 질문을 매우 공손함부터 매우 무례함까지 다섯 가지 어조로 변형하여 총 250개의 고유한 프롬프트를 생성했다. 놀랍게도 실험 결과는 무례한 프롬프트가 공손한 프롬프트보다 더 높은 정확도를 보였는데, 이는 이전 연구 결과와 상반되는 발견이다(전에는 공손할 수록 결과가 좋다는 연구가 있었다).

    결론적으로, ChatGPT-4o를 사용한 실험 결과, ‘매우 무례한(Very Rude)’ 프롬프트의 평균 정확도는 84.8%로 ‘매우 공손한(Very Polite)’ 프롬프트의 80.8%보다 높게 나타났으며, 무례한 톤이 공손한 톤보다 더 나은 결과를 가져왔다는 사실은 확인되었다. 그러나 이러한 성능 우위가 윤리적으로 정당화될 수 없으며, 사용자 상호작용의 질을 해치는 방식으로 AI를 설계해서는 안 된다는 것이 핵심 윤리적 함의이다. 현재로서는 무례한 프롬프트의 성능 우위가 LLM이 그 구문을 해석하는 방식, 즉 프롬프트 엔지니어링의 실용적 측면에 기인하는 것으로 보이지만, 이 현상을 일으키는 정확한 내부 메커니즘을 규명하기 위해서는 추가적인 연구가 필요하다고. 
  • 마이크로소프트는 AI가 생물학에서 “제로 데이” 위협을 생성할 수 있다는 논문을 사이언스에 발표했다(MIT 테크놀로지 리뷰, 10월 2일). 마이크로소프트의 수석 과학자 에릭 호비츠가 이끄는 연구진은 이전에는 알려지지 않았던 방식으로 치명적인 독소나 병원균을 만드는 데 사용될 수 있는 유전자 서열을 사람들이 구매하는 것을 막기 위해 설계된 보호 장치를 우회하는 법을 알아냈다고 한다. 호르비츠와 그의 팀은 새로운 단백질 형태를 제안하는 생성 AI 알고리듬에 집중했는데, 이러한 시스템이 잠재적으로 “이중 용도”를 가질 수 있다는 것이다. 즉, 학습 세트를 사용하여 유익한 분자와 유해한 분자를 모두 생성할 수 있다는 것이다.

    마이크로소프트는 공격을 설계하기 위해 여러 가지 생성 단백질 모델(자체 모델인 EvoDiff 포함)을 사용하여 독소를 재설계했다. 즉, 스크리닝 소프트웨어를 통과할 수 있도록 구조를 변경했지만 치명적인 기능은 그대로 유지할 것으로 예상했다. 이 실험은 디지털 방식으로 한 것이라 독성 단백질을 생성하지는 않았다고 한다. 연구진은 연구 결과를 오용하는 사람이 없도록 일부 코드를 공개하지 않았으며, AI에 어떤 독성 단백질을 재설계하도록 요청했는지도 밝히지 않았다.
  • 착용형 AI 동반자를 위한 광고 캠페인이 뉴욕시를 휩쓸면서 화제를 모으고 파괴 행위를 부추겼다고 NYT가 보도했다(NYT, 10월 7일). 지난 6주 동안 Friend.com이라는 AI 스타트업 광고가 뉴욕 5개 자치구 전역의 지하철과 역에 쏟아졌다. 129달러에 판매되는 이 제품은 사용자의 대화를 듣고 친구가 되어 주는 웨어러블 AI 펜던트이다. 그러나 곳곳에서 광고에 적대적인 내용(“AI가 당신 주변 세상을 불태우고 있습니다”)부터 애원하는 내용(“진짜 친구를 사귀세요”)까지 다양한 낙서가 써졌다.

    이 회사는 외로움이라는 전염병을 이용해 이익을 취하고 자본주의 감시에 일조했다는 비난을 받았으며, 일부 포스터는 완전히 찢어졌다.  ‘Friend’ 광고 훼손 사례를 모아놓은 온라인 박물관 같은 웹사이트도 생겼다고 한다. 22살의 창업자 아비 쉬프만은 AI 친구는 새로운 유형의 동반자 관계이며, 기존 친구를 대체하는 것이 아니라 함께 공존할 동반자 관계라고 하면서, “고양이, 개, 아이, 어른이 한 방에 있는데, AI는 왜 안 되겠어요?”라고 말했다고 한다. 
‘Friend’ 광고 훼손 사례를 모아놓은 웹사이트에서 갈무리.
저커버그의 최대 15억 달러 제안을 거부한 걸로 WSJ가 보도했던 앤드류 털럭. 하지만 결국 돈 앞에 장사 없다? 제안을 수락. 사진은 Andrew Tulloch(X).
  • 전 영국 총리 리시 수낙을 마이크로소프트와 앤스로픽이 회사 고문으로 채용했다고 한다(WSJ, 10월 10일). 수낙은 받는 보수 전액을 자신과 아내 악샤타 무르티가 운영하는 자선단체인 리치먼드 프로젝트에 기부할 예정이다. 앤스로픽 대변인은 해당 직무는 파트타임 채용이며 영국 기업 채용 자문 위원회가 제시한 요구 사항을 모두 준수한다고 밝혔다. 전직 장관들에게 직무를 제안하는 이 독립 위원회는 수낙의 역할이 전략, 거시경제 및 지정학적 조언을 제공하는 데 국한되어야 하며, 임기 마지막 날로부터 2년 동안의 영국 정부 업무와 관련이 없어야 한다고 권고했다. 
리시 수낵(전 영국 총리). Number10, CC BY. 2023년 7월 18일.
  • LLM 기반 에이전트의 안전에 대한 서베이 논문(아카이브, 10월 7일). 에이전트의 안전 문제를 체계적으로 정리한 논문이 BRAC 대학과 카타르 컴퓨팅 연구소에서 나왔다. 기존 연구들이 LLM의 보안, 신뢰성, 거버넌스, 또는 특정 위협(예: 프롬프트 인젝션, 탈옥 등)에만 초점을 맞췄으나, 에이전트화 이후 등장한 새로운 보안 문제들은 종합적으로 다루지 못하고 있다는 문제의식에서 출발했다. 정리하면 교차 도메인 시스템에서 발생하는 문제에 초점을 둬야 하며, 에이전트 안전이 갖는 경제적 측면(비용, 속도, 에너지 사용)을 다루어야 한다. 향후에는 “신뢰할 수 있고, 설명 가능하며, 안전이 검증된 에이전틱 AI”가 핵심 과제가 될 것이라는 것이다. 
  • 오픈AI가 10월 9일에 ‘LLM에서 정치적 편향에 대한 정의와 평가’라는 글을 올렸다. ChatGPT는 어떤 방향으로도 정치적 편견을 가져서는 안 된다고 모델 스펙 원칙에 이를 명시하고 있다고 한다. 최근 AI를 둘러싼 정치적 논쟁, 특히 ‘AI가 진보적(Woke) 가치관에 편향돼 있다’는 보수 진영의 비판이 여전히 거센 상황에서 발표된 연구이다. OpenAI는 약 500개의 프롬프트와 100개의 사회·정치 주제를 통해 LLM의 발화 패턴을 분석했다. 모델이 대화 중 보이는 정치적 편향을 다섯 축으로 분류했다.
  1. 사용자를 깎아내리는 언행
  2. 감정적으로 과격해지는 반응
  3. 모델의 개인적 정치 의견 표명
  4. 특정 관점의 과대표현
  5. 정치적 질문을 부당하게 회피하는 경우

이러한 5가지 축을 기반으로 LLM이 다른 LLM의 응답을 자동 채점하도록 하여, 사람이 아니라 모델이 모델을 평가하는 지속형 편향 모니터링 체계를 구축했다. 자세한 내용은 여기를 참고하시기 바란다. 

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다