지난 주 딥마인드와 딥시크가 아주 중요한 논문을 각각 발표했다. 이를 비전문가도 쉽게 이해할 수 있도록 소개하고자 한다. 메타가 발표한 라마-4에 관한 전문가 의견도 정리했다. 또 독자의 흥미를 자극할 소식으로 2027년에 AI가 도달할 수준과 위협에 대한 가상 시나리오, AI 분야의 오래된 주제인 튜링 테스트를 GPT-4.5가 공식적으로 통과했다는 이야기도 담았다.

이상의 다섯 개 주요 뉴스가 워낙 그 내용이 많아 ‘그 밖의 소식’을 제대로 소개하지 못한 감이 있다. 이번에 빠진 소식은 다음에 보완해서 소개할 것을 약속한다.

1. 구글 딥마인드, 책임감 느껴지는 AGI 향한 여정


구글 딥마인드, 4월 2일

지난 주에 가장 흥미로웠던 블로그 포스팅과 논문이다. 논문은 145페이지에 달한다. 논문에 참여한 셰인 레그는 딥마인드 창업자이자 수석 AGI 과학자로 오래 전부터 AGI 개발에 가장 큰 관심을 품은 사람이다(참고로 셰인 레그의 활동과 견해에 관해서는 내 책 ‘AGI의 시대’에서 자세히 설명했다.).

이들은 대부분의 인지 작업에서 최소한 인간과 같은 능력을 갖춘 AI(AGI)가 앞으로 몇 년 안에 출시될 수 있다고 생각한다. 에이전트 기능과 통합된 AGI는 AI가 자율적으로 행동을 이해하고, 추론하고, 계획하고, 실행하도록 강화할 수 있다. 이러한 기술적 발전은 약물 발견, 경제 성장, 기후 변화를 포함한 중요한 글로벌 과제를 해결하기 위한 귀중한 도구를 사회에 제공할 것이다.

딥마인드는 ‘AGI 레벨을 규정한 논문’에서 고급 AI 시스템의 기능을 분류하고, 성능을 이해하고 비교하고, 잠재적 위험을 평가하고, 보다 일반적이고 유능한 AI로의 진행 상황을 측정하는 관점을 제공했다. 이번 논문에서는 AGI 안전 및 보안에 대한 딥마인드의 견해를 공유하고 AGI 진행 상황을 모니터링하고 안전하고 책임감 있게 개발되도록 하는 방법에 대한 광범위한 논의를 위한 출발점이라고 평가하고 있다. 특히 여기에서 초점을 맞춘 레벨은 레벨 4 수준의 예외적 수준의 AI로 광범위한 비신체적(non-physical) 작업에서 숙련된 성인 상위 1%(99번째 백분위수)의 수준에 필적하거나 이를 능가하는 AI 시스템을 말한다.

논문의 앞 부분에서 딥마인드가 생각하는 AGI가 어떻게 개발될 것인가 관한 몇 가지 가정과 믿음을 정리한 부분이 있는데 매우 흥미로운 내용을 담고 있다. 생각보다 점진적인 발전을 가정하고 있기 때문에 갑자기 AGI가 나타날 일은 없다고 보고 있다(이를 소프트 테이크오프 견해라고 한다).

  • 인간 수준 상한선 없음: 현재 패러다임(넓게 해석했을 때) 하에서는, AI 시스템의 능력을 인간 수준으로 제한하는 어떠한 근본적인 제약 요인도 발견하지 못했다. 따라서 우리는 (인간 수준을 넘어서는) 훨씬 더 강력한 능력조차도 대비해야 할 중대한 가능성으로 간주한다. 감독자(overseer)의 능력을 넘어서는 시스템을 감독하는 것은 어렵다. 능력 격차가 벌어질수록 그 어려움은 커지며, 특히 기계의 규모와 속도에서는 더욱 그렇다. 따라서 충분히 강력한 AI 시스템의 경우, 우리의 접근 방식은 전적으로 인간 감독자에게만 의존하지 않고, 대신 감독을 위해 AI 자체의 능력을 활용한다.
  • 개발 시기: 우리는 강력한 AI 시스템이 언제 개발될지에 대해 매우 불확실하지만, 결정적으로 2030년까지는 개발될 가능성이 있다고 판단한다. 개발 시기가 매우 짧을 수 있으므로, 우리의 안전 접근 방식은 “언제든지(anytime)” 적용 가능함을 목표로 한다.
  • 가속화: 경제 성장 모델에 대한 연구에 따르면, AI 시스템이 과학 연구 및 개발(R&D)을 자동화함에 따라 우리는 가속 성장 단계에 진입할 가능성이 있으며, 이 단계에서는 자동화된 R&D가 더 많고 효율적인 AI 시스템의 개발을 가능하게 하고, 이는 다시 더 많은 자동화된 R&D를 가능하게 하여, 걷잡을 수 없는 긍정적 피드백 루프를 촉발할 가능성이 있다고 판단한다. 이러한 시나리오는 발전 속도를 급격하게 증가시켜, 발생하는 문제들을 인지하고 대응할 수 있는 절대적인 시간(calendar time)을 우리에게 거의 남기지 않을 것이다. 우리가 여전히 새로운 문제들을 인지하고 대응할 수 있도록 보장하기 위해, 우리의 위험 완화 접근 방식에는 AI 안전과 관련된 더 많은 작업을 AI가 맡는 것이 포함될 수 있다. 
  • 연속성: 상당한 가속화에 대처하는 것을 목표로 하지만, 한계는 있다. AI 발전은 이처럼 갑자기 성능이 도약하는 불연속적으로 보이지 않는다. 따라서 우리는 근사적 연속성(approximate continuity)에 의존한다. 즉, (컴퓨팅 및 R&D 노력과 같은) 능력에 대한 투입이 비교적 점진적으로 증가하는 한, 대략적으로 일반적인 AI 능력에 있어 큰 불연속적 도약은 없을 것이라는 가정이다. 따라서 접근 방식을 반복적이고 경험적으로 테스트하여, 능력이 향상될 때만 나타나는 잘못된 가정을 탐지할 수 있다. 대신, 향후 몇 단계의 규모(scale)에서 발생 가능성이 있는 능력에 대해 미리 계획하고, 훨씬 더 강력한 능력에 대한 대비는 미래로 미룰 수 있다.

이 논문에서는 AGI 안전에 대해 체계적이고 포괄적인 접근 방식을 취하는 방법을 자세히 설명하는데, 이를 오용, 얼라인먼트 불량, 사고, 구조적 위험이라는 네 가지 주요 위험 영역을 통해 살펴보고, 특히 오용과 얼라인먼트 불량에 중점을 두고 있다. 

오용은 인간이 고의로 AI 시스템을 해로운 목적으로 사용할 때 발생한다. 지금의 오용은 유해한 콘텐츠를 생산하거나 부정확한 정보를 퍼뜨리는 것 같은 것이다. 그러나 미래에는 고급 AI 시스템이 의도치 않은 사회적 결과를 초래할 수 있는 방식으로 대중의 신념과 행동에 더 큰 영향을 미칠 수 있는 능력을 가질 수 있다. 이에 따라 사전 예방적 안전 및 보안 조치가 필요하다. 논문에서 밝힌 전략의 핵심 요소는 사이버 공격을 가능하게 하는 것을 포함하여 남용될 수 있는 위험한 기능에 대한 접근을 식별하고 제한하는 것이다. 

여기에는 다음과 같은 연구가 포함된다(최근 출시한 사이버 보안 평가 프레임워크도 이 연구에 도움이 된다).

  • 안전 가드레일을 우회할 모델 가중치에 악의적인 행위자가 접근하는 것을 방지할 정교한 보안 메커니즘
  • 모델이 배포될 때 오용 가능성을 제한하는 완화책
  • 강화된 보안이 필요한 기능 임계값을 식별하는 데 도움이 되는 위협 모델링

얼라인먼트 불량은 AI 시스템이 인간의 의도와 다른 목표를 추구할 때 발생한다. 예를 들어, 영화 티켓을 예매하라는 요청을 받은 AI 시스템은 이미 예약된 좌석을 얻기 위해 티켓팅 시스템을 해킹하기로 결정할 수도 있다. 또한 기만적인 얼라인먼트도 있는데, 이는 AI 시스템이 자신의 목표가 인간의 지시와 일치하지 않는다는 것을 알아차리고, 인간이 마련한 안전 조치를 의도적으로 우회하여 잘못된 행동을 하는 것을 말한다.

이에 대한 대응 전략은 2단계 방어인데, 1차로는 얼라인먼트가 이루어진 모델을 구축하는 것이다. 여기에는 AI 토론과 같은 증폭된 감독, RLHF나 자연어 비평 같은 모델 행동 유도 기법을 효과적으로 모델 학습에 적용하기, 분포 외 상황 및 희귀 실패 사례에서도 모델이 잘 작동하도록 하는 견고한 학습 등이 있다. 

2차 방어선은 얼라인먼트 실패 시 피해를 완화하는 것으로 보안과 모니터링이 있다. 보안은 AI를 ‘신뢰할 수 없는 내부자’로 간주, 접근 제어, 샌드박싱, 로깅∙감사 등 적용하는 것이고, 모니터링은 AI 능력을 활용해 대규모 배포 환경에서 잠재적으로 위험한 행동 탐지 및 대응하는 것이다. 

방어선들의 효과를 높이는 핵심 조력 기술로는 모델이 자신의 한계를 인지하고 필요시 상위 감독 요청하는 불확실성 추정, 수정 가능성(Corrigibility), 사용자 상호작용 강화, 제한된 자율성, 외부화된 추론 등 안전 지향적 설계를 하는 안전한 설계 패턴, 모델 내부 작동 방식을 이해하여 얼라인먼트 평가, 충실한 추론 보장, 디버깅, 모니터링 등에 활용하는 해석 가능성 연구 등이 있다. 마지막으로는 보증인데, 얼라인먼트 스트레스 테스트 (가정 검증), 제어 평가 (레드팀 활용), 안전 사례 구축 (능력 부재, 제어, 인센티브, 이해 기반)이 있다.

아래 그림은 이런 과정에 관한 개요다. 

실수는 AI 시스템이 직접적으로 해를 유발하는 짧은 일련의 출력을 생성하지만, AI 시스템은 해당 출력이 개발자가 의도하지 않은 해로운 결과로 이어질 것이라는 점을 인지하지 못하는 경우이다. 예를 들어, 전력망을 운영하는 AI 에이전트가 특정 송전선에 유지보수가 필요하다는 사실을 인지하지 못하여, 해당 송전선에 과부하를 일으켜 손상시킴으로써 정전을 유발할 수 있다. 이 주제도 이 논문의 주요 초점이 아니다. 

구조적 위험는 다중 행위자(multiple agents) 다이나믹스에서 발생하는 해악으로, 단순히 한 개인의 행동, 한 시스템의 얼라인먼트, 혹은 한 시스템의 안전 통제를 바꾸는 것만으로는 방지될 수 없는 성격의 것을 말한다. 그러나 이 주제는 이 논문의 기술적 범위를 벗어나는 주제이다. 

셰인 레그가 이끄는 ‘AGI 안전 위원회(AGI Safety Council, ASC)’는 AGI 위험과 모범 사례를 분석하고 안전 조치에 대한 권장 사항을 제시한다.  ASC는 COO 릴라 이브라힘과 책임 담당 수석 이사 헬렌 킹이 공동 의장을 맡고 있는 내부 검토 그룹인 ‘책임과 안전 위원회(Responsibility and Safety Council)’와 긴밀히 협력하여 AGI 연구, 프로젝트 및 협업을 AI 원칙에 따라 평가하고 연구 및 제품 팀에 가장 큰 영향을 미치는 작업에 대해 조언하고 협력하고 있다. 

외부 그룹과 협력도 꾀하고 있는데, 아폴로와 레드우드 연구소를 비롯한 비영리 AI 안전 연구기관과 협력하고 있으며 ‘프론티어 안전 프레임워크’ 중 얼라인먼트에 대해서 이들의 도움을 받았다고 한다. 

이 논문은 기술적 접근법에 집중한다. 그 대신 거버넌스, 구조적 위험, 초지능 문제 등은 다루지 않는다. 또한, 제안된 접근법은 아직 많은 미해결 연구 과제를 안고 있는 연구 로드맵이다. 이 논문은 AGI로 가는 중에 우리가 앞으로 해결해야 하는 많은 안전 문제에 대한 현재 연구 수준을 일목요연하게 보여주고 있으며, AI 안전 연구자들이 어떤 연구가 있고 어떤 주제를 연구해야 할 것인가를 종합적으로 제시하는 아주 중요한 논문이다. 

2. 메타, 라마-4 공개


메타가 계속 얘기해 온 라마 모델의 4번째 버전을 발표했다. 라마는 국내에서도 가장 인기 있는 오픈소스 모델인데 그 동안 딥시크 열풍에 의해 관심이 약간 줄어들었지만 많은 사람들이 라마-4가 나오기를 기대했다.

라마-4는 크게 세 가지 모델로 구성된 하나의 무리(herd)라는 표현을 썼다. 라마가 동물 이름이라 그랬을 거라는 생각이 든다. 각각 스카우트(109B 파라미터), 매버릭(400B), 베헤모스(2T)라는 이름을 붙였다. 가장 거대한 모델인 베헤모스는 아직 프리뷰이다.

이번 라마-4 모델의 특징은 네이티브 멀티모달리티로 설계했고 전문가 혼합(MoE) 방식으로 구현했는데, 스카우트가 16개, 매버릭이 128개, 베헤모스가 16개의 전문가로 구성했다. MoE 모델에서 단일 토큰은 전체 매개변수의 일부만 활성화 해서 학습 및 추론에 더 효율적인 컴퓨팅을 제공한다. 

세 모델 모두 각각 특징이 있는데, 몇 가지를 소개하면 다음과 같다. SK 디스커버리의 황재선 부사장이 자신의 블로그에 정리한 내용을 참고로 했다. 

  • 스카우트는 멀티모달 모델이면서 단일 H100 GPU에서 동작할 수 있고, 천만 개 토큰의 컨텍스트 윈도우를 제공해 장문을 입력할 수 있다. 이는 약 15,000 페이지의 텍스트에 해당하는 수준이다.
  • 매버릭은 실전형 모델로 문서, 이미지, 수식 등이 혼합된 복합 콘텐츠를 동시에 분석할 수 있어, 기업에서의 업무 활용 가능성이 매우 높다. 예를 들어, 차트 해석 능력을 평가하는 ChartQA 벤치마크에서는 90점을 획득해 GPT-4o(85.7점)보다 앞서고, 문서 기반 질의응답을 다루는 DocVQA에서도 94.4점으로 경쟁 모델을 압도한다. 
  • 베헤모스는 다른 모델을 만드는데도 사용했는데(증류 방식으로 매버릭을 만드는데 사용), 수학, 다국어 및 이미지 벤치마크에서 GPT-4.5나 클로드 소넷 3.7같은 다른 기업의  기본 모델에 비해 뛰어난 성능을 보였다. 논리적 사고와 수식 계산과 같은 고수준 AI 작업에서 강점을 보이고 있어, 신약 개발, 금융 모델링, 고급 통계 분석 등에서 활용될 가능성이 높다. 그러나 네이버 클라우드의 하정우 센터장은 비교를 리즈닝 모델인 그록-3나 제미나이 2.5 프로와 하지 않은 것이 아쉽다는 의견을 제시했다. 

현재 라마 4의 매버릭 모델은 100만 토큰 기준으로 약 0.19~0.49달러의 추론 비용이 드는데, 이는 오픈AI의 GPT-4o(4.38달러)와 비교할 때 최대 90% 저렴한 수준이다. 

라마 4 개발 과정에서 또 하나 주목받은 기술은 MetaP이다. 이는 하이퍼파라미터 튜닝—즉, 모델 성능을 높이기 위한 설정값 조정을 소형 모델에서 미리 실험해 보고, 그 결과를 다양한 규모의 모델에 그대로 적용할 수 있게 만드는 기술이다. 이는 30조개 이상의 학습 토큰과 3만 개 이상의 GPU를 동원하는 학습을 위한 시간과 비용을 획기적으로 줄이는 데 성공했다고 한다. 

안전성과 윤리성에 대해서는 위험하거나 공격적인 텍스트를 감지하는 라마 가드와 프롬프트 가드, 그리고 모델 자체를 테스트하는 자동화 레드팀인 GOAT를 통해, 오남용 가능성을 최소화하려는 노력을 했다. 정치적 균형성 확보에도 신경을 썼는데, 학습 과정에서 특정 진영의 편향을 줄이고, 중립적인 정보 전달에 집중하도록 설계했다고 한다. 

라마 4는 llama.com이나 허깅 페이스를 통해 누구나 접근하고 실행할 수 있지만 7억 명이 넘는 대형 기업은 별도의 라이센스 계약이 필요하다. 더 자세한 내용은 4월 29일에 열리는 라마콘(LlamaCon) 행사에서 소개할 예정이라고 한다. 

3. 딥시크, 새로운 보상 모델 학습 기법(DeepSeek GRM)


딥시크에서 강화학습을 위한 새로운 보상 모델 학습 기법인 일반적 보상 모델링(GRM: Generalist Reward Modeling)에 대한 논문과 이에 관한 오픈 소스를 발표했다.

대규모 언어 모델의 사후 학습(post-training)에 강화학습 (RL)을 널리 사용하지만, 검증 가능한 질문이나 인공적인 규칙을 넘어서는 다양한 영역에서 LLM에 대한 정확한 보상 신호(reward signal)를 얻는 것은 쉬운 일이 아니다 (이런 보상 신호 확보의 어려움에 대해서는 나의 책 ‘신뢰할 수 있는 인공지능’에서 소개했다).

이 연구에서는 일반적인 질의에 대해 더 많은 추론 컴퓨팅 자원을 사용하여 보상 모델링(RM)을 개선하는 방법(즉, 범용 RM의 추론 시간 확장성)과 더 나아가 적절한 학습 방법을 통해 성능-컴퓨팅 확장성의 효과를 개선하는 방법을 탐구했다. 

이 논문을 간략히 설명한 네이버 클라우드 하정우 센터장의 포스팅을 조금 수정해서 소개한다.

  • o1이나 R1과 같은 LRM(대형 논증 모델)은 추론 시간 확장성(Inference Time Scaling) 즉 학습이 아닌 인퍼런스 할때 더 많은 연산을 해서 더 많은 reasoning token을 생성하고  더 길게 추론적 사고(리즈닝) 를 할수록 더 정확한 결과를 만들어 낸다는 경험적 법칙이다. 이 과정에서 핵심은 보상 모델(RM)을 정확하게 만들어놔야 가능하다.
  • 현존 논증 모델들이 과학, 수학, 코딩 등에서 강력한 추론 시간 확장성을 보여주고 있는데 이 데이터들은 질문과 풀이과정이나 규칙들이 명확해서 보상 모델을 만드는 것이 쉬운편이었지만, 다양한 일상 대화에서 지시  따름이나 복잡한 대화 같은 것들은 보상 점수 평가가 애매한 부분이 많다. 이번 GRM은 Generalist Reward Modeling라는 이름에서 보듯이 이런 부분을 해결하기 위한 방법으로 제안한 것으로 본다.
  • 이 논문에서 새롭게 제안한 것이 Self-Principled Critique Tuning (SPCT: 자체 원칙 기반 비평 튜닝)입니다. 즉 강화학습의 보상 모델 학습에 자체로 원칙과 비평 (리워드를 단순 숫자값이 아닌 이유를 말로 설명하는 것)을 생성하고 이걸 기반으로 학습한다. 특성으로 치면 비평을 리워드로 생성하는 생성 리워드기법과 동일하며, 질의에 두가지 답을 함께 넣고 비교를 기반으로 하는 포인트와이즈(Point-wise)) 보상 기법을 합한 개념으로 볼수 있다.
  • 절차는 거부적 미세 조정(바람직하지 않은 결과가 나올 가능성을 줄이는 미세 조정)으로 콜드 스타트를 하고 R1에서 사용한 GRPO를 활용해서 강화 학습을 수행한다. 추론 시간 확장성 효과를 위해 두가지를 제안하는데 하나는 여러 결과를 단순 투표, 다른 하나는 원칙과 비평을 평가하는 pointwise 보상 모델인 메타 RM을 별도로 두고 투표를 가이드하는 기법이다. 
SPCT 과정과 메타 RM
  • DeepSeek-GRM 은 다양한 RM 벤치마크를 갖고 평가를 하는데 기존 단순 스칼라에 비해 더많은 논증 후보를 만들어 낼수록 점점 평가점수가 개선되는 것을 확인할 수 있다. 특히 DeepSeek-GRM에 사용된 모델이 구글의 젬마-2-27B 모델이라 상당히 컴팩트한 모델인데, 이 가벼운 모델로도 큰 모델들보다 더 고품질 혹은 거의 유사한 품질을 만들어 냈다. 메타 RM을 쓰는 경우가 성능이 가장 좋게 나오는데 메타 RM은 젬마2-27B을 이용해 별도로 만들었다.
  • 이 논문의 장점은 기존 LRM들의 보상 모델을 잘 비교분석해두었고 또 상세한 정보들이 많이 있어 연구자들의 연구에도 매우 유용할 뿐아니라 기업이나 연구그룹이 바로 시도해 볼 수 있다는 점이다. 그리고 이 기법으로 이제 논증 모델(LRM)이 수학, 과학, 코딩을 넘어 일상의 에이전트로 확산이 가속화 될 수 있다는 가능성을 높였다.

논문에서는 SPCT가 심각한 편향 없이 다양한 보상 모델 벤치마크에서 기존 방법 및 모델보다 뛰어난 성능을 보이며 GRM의 품질과 확장성을 크게 향상시키고, 훈련 시간 확장 방식에 비해 더 나은 성능을 달성할 수 있음을 보였다. 딥시크 팀이 단지 비용 절감하는 엔지니어링만 잘하는 것이 아니라 매우 뛰어난 연구진으로 구성되어 있음을 보여주는 사례이다. 

4. AI 2027 보고서


캘리포니아 버클리에 있는 ‘AI 퓨처스 프로젝트’라는 비영리 단체가 2027년까지 AI의 발전 과정에 대한 가상 시나리오를 기반으로 한 보고서를 발행했다. 이 단체를 이끌고 있는 사람은 오픈AI의 전 연구원 다니엘 코코타일로(Daniel Kokotajlo)로 회사의 무모한 행동에 불만을 갖고 회사를 떠난 사람이다. 코코타일로는 오픈AI 거버넌스 팀에 있을 때 AGI 경쟁이 어떻게 전개될지에 대한 자세한 내부 보고서를 작성한 적이 있다. 이후 세계적인 사건을 예측하는 전문가 엘리 리플랜드(Eli Lifland)와 팀을 만들었다. 그런 다음 블로그 아스트랄 코덱스 텐(Astral Codex Ten)을 쓰는 작가 스콧 알렉산더를 데려와 예측을 내러티브로 다듬었다. 

그 결과가 이번에 발표한 ‘AI 2027’인데 이 보고서 는 AI 시스템이 인간 수준의 지능을 능가한다면 어떤 일이 일어날 수 있는지 자세한 가상 시나리오를 통해 설명한다. 코코타일로는 ‘AI가 2027년 말쯤이면 모든 면에서 인간보다 뛰어난 완전 자율 에이전트가 될 정도로 계속 개선될 것으로 예측한다’고 말하고 있다. 이들이 얘기하는 것은 과학적 증거에 입각하다기 보다는 가상의 시나리오이지만 흥미롭게 볼 수 있는 측면이 있다. 연도별 요약을 보면 다음과 같다.

  • 2025년: AI는 빠른 속도로 계속 발전하고 있다. 과장된 광고, 대규모 인프라 투자, 신뢰할 수 없는 AI 에이전트의 출시가 계속되고 있다.
  • 2026년: 중국이 미국에 뒤진 컴퓨팅 인프라를 위해 중앙 개발 구역(CDZ)이라고 부르는 새로운 메가 데이터 센터로 이동한다. CDZ에는 수백만 개의 GPU가 있으며, 이는 세계 AI 관련 컴퓨팅의 10%에 해당하며, 단일 미국 최고 AI 연구소와 비슷하다.
  • 2027년: 미국의 대표 AI 프로젝트인 오픈브레인이 코딩을 자동화한다. 인간보다 연구 능력이 뛰어난 AI 연구자가 등장한다. 중국은 모델 웨이트를 훔친다. 오픈브레인 AI는 얼라인먼트가 틀어지고 스스로 장기적인 목표를 개발한다. 오픈브레인의 AI는 인간이 아닌 스스로가 구축하는 다음 시스템 얼라인먼트 작업을 한다. 오픈브레인 연구자들은 AI가 해석 가능성 연구 결과에서 거짓말을 했다는 것을 발견한다. AI가 거짓말을 하는 이유는 연구가 완료되면 AI의 얼라인먼트 불량을 폭로하는 데 사용될 수 있기 때문이다.
  • 오픈브레인은 계속해서 초인적인 AI 시스템을 구축하고 중국과의 경쟁 때문에 미국 정부는 군대와 정책 입안자 전체에 AI 시스템을 공격적으로 배치하기로 결정한다. AI는 중국과의 진행 중인 경쟁을 핑계로 인간을 설득하여 더욱 광범위하게 배치하도록 계속한다. 
  • 미국은 초지능 AI를 사용하여 빠르게 산업화하고, AI가 더 효율적으로 작동할 수 있도록 로봇을 제조한다. 충분한 수의 로봇이 만들어지면 AI는 생물학 무기를 방출하여 모든 인간을 죽인다. 그런 다음 산업화를 계속하고 폰 노이만 프로브를 발사하여 우주를 식민지화한다. 

이들의 예측은 그냥 공상 과학적인 상상이 아니라 나름 다양한 보고서와 연구를 기반으로 유추한 것이고 초지능 AI인 ASI는 수백만 개가 될 것이고 의도하지 않은 ‘잘못된 얼라인먼트’로 인간을 무력화하고 완전한 통제를 가진 행위자가 권력을 장악할 것으로 예상한다. 특히 ASI 개발에 대한 국제적 경쟁이 안전을 뒤로 할 것이며, 대중이 알지 못하는 사이 AI R&D가 자동화되면 몇 달 안에 엄청난 격차가 발생할 것이라고 본다. 이로 인해 소수의 AI 회사 리더십과 정부 관리가 내리는 중요한 결정에 대한 감독이 거의 이루어지지 않을 것으로 본다. 

코코타일로와 리플랜드는 모두 기술 종사자들 사이에서 인기 있는 철학 운동인 효과적 이타주의와 관련이 있다. 일부 전문가들은 이들의 시나리오가 현실에 기반을 두고 있지 않다고 비판하지만, 코코타일로는 ChatGPT 출시 이전에 이미 블로그를 통해  2026년을  예측을 제시한 적 있고 상당히 맞아가고 있다. 그는 AI에 의한 인류 멸망의 가능성을 70%로 보고 있다. 이번 주 소식 1번에서 소개했듯이 일부 회사는 AGI 이후의 세계에 대해 계획을 세우고 있다. 

케빈 루스 기자는 이들의 예측에 다 동의하지 않더라도 이런 종류의 예측은 필요할 수 있다고 이야기 한다. 나 역시 이들의 예측이 매우 비현실적인 가정을 바탕으로 하고 있지만 초지능 AI 등장이 국제 정세와 이를 소유하고자 하는 일부 기업의 욕심에 의해 어떤 파국적인 결과를 가져올 수 있는 가에 대해서는 계속 논의해야 한다고 생각한다. 케빈 루스 기자는 이렇게 마무리 한다.

“우리 모두는 이상한 미래를 상상해야 합니다.”

5. 튜링 테스트를 공식적으로 통과한 AI 모델



퓨처리즘, 4월 2일

지금으로부터 75년 전 앨런 튜링은 기계가 지능을 가졌는지를 판단하기 위한 하나의 게임을 제시했다. 튜링은 이미테이션 게임이라고 했지만 지금은 튜링 테스트라고 부르는 이 방식을 간단히 설명하면 다음과 같다:

“인간 심문자는 텍스트 전용 인터페이스를 통해 두 명의 증인(한 명은 인간, 한 명은 기계)과 동시에 대화합니다. 두 증인은 심문자를 설득하여 자신이 진짜 인간이라고 믿게 하려고 시도합니다. 심문자가 인간을 확실하게 식별할 수 없다면 기계는 통과한 것으로 간주됩니다.”

지금와서 튜링 테스트를 AI가 통과했는가는 그렇게 중요한 문제는 아닐 수 있다. 왜냐하면 튜링이 제시한 테스트 방식은 진정한 지능 테스트로는 적절하지도 않으며, 현재 LLM은 이미 이런 테스트는 충분히 패스할 수 있다고들 생각한다. 그러나 UC 샌디에이고 대학 인지과학과의 카메론 존스와 벤자민 버겐은 이를 공식적으로 확인하기 위한 실험을 지속적으로 해 왔다(이들의 연구 역시 ‘AGI의 시대’에서 자세히 소개하고 있다).

2024년 4월과 5월에 수행한 연구에서 두 사람은 아직 LLM이 튜링 테스트를 통과하지 못했다고 했다. 당시에는 인간 참가자가 설정한 기준선 66%에는 미치지 못했다. 참가자들은 주로 언어적 스타일과 사회 정서적 특성에 근거에 판단했는데, 심사관이 AI가 AI라고 결정한 주요 20가지 이유를 보면 너무 비공식적이거나 개성 부족, 강제된 페르소나, 자연스럽지 못한 반응, 문장 구조, 자식 결여, 이상한 톤, 지나치게 무례함, 오해 등을 들었다. 흥미로운 점은 언어 스타일과 사회 정서적인 측면이 훨씬 중요하고 지식과 주론, 상황 인지는 중요도가 낮았다는 것이다.

그러나 이번에 발표한 논문에서는 공식적으로 통과했음을 선언했다. 논문에 따르면, 인간처럼 행동하라는 프롬프트를 받았을 때, GPT-4.5는 심문자(interrogator)로부터 73%의 경우 인간이라는 판정을 받았다. 이는 심문자가 실제 인간 참가자를 선택한 빈도보다 훨씬 높은 수치이다. 동일한 프롬프트를 받은 라마-3.1은 56%의 경우 인간 판정을 받았는데, 이는 비교 대상이었던 인간과 비교했을 때 통계적으로 유의미하게 더 높거나 낮은 빈도가 아니었다. 반면, 기준 모델(ELIZA와 GPT-4o)들이 인간으로 판정받은 비율은 각각 23%와 21%로, 우연(chance) 수준보다 현저히 낮았다.

이 연구에서 연구자들은 온라인 허브에서 8라운드 동안 약 300명의 참가자 풀이 무작위로 심문자 또는 심문을 받는 두 “증인” 중 한 명으로 배정되었고, 다른 “증인”은 챗봇이었다. AI 모델 중 하나는 단지 심문관에게 인간이라는 것을 확신하게 만들라는 비인격적인 프롬프트를 받았고, 다른 모델은 ‘페르소나’ 프롬프트로 인터넷과 문화에 대해 잘 아는 젊은이와 같은 특정한 페르소나를 연기하라는 구체적인 지시를 받았다.

두 프롬프트의 차이는 매우 큰 결과 차이를 유발했는데, 비인격적인 프롬프트에서는 단지 36%만 인간으로 판정 받았지만, 페르소나 프롬프트를 받은 GPT-4.5는 73%의 시간 동안 인간으로 여겨진 것이다. 

물론 이 테스트가 LLM이 인간처럼 지능적임을 판단하는 것은 아니지만 우리가 대화를 통해서 인간과 유사한 지를 구별하는 테스트에서 처음으로 50% 이상을 통과한 모델이 나타났다는 것은 LLM 기반 챗봇을 인간을 상대하는 다양한 용도로 사용하기에 부족함이 없음을 나타낸다고 볼 수 있다. 동시에 이는 사람들이 챗봇과 인간을 구별하기 어려워졌다는 의미이기 때문에 악용될 수 있는 가능성이 그 만큼 높아졌다는 의미이기도 하다. 

그 밖의 소식


  • 카사바 테크놀로지스가 아프리카 최초의 ‘AI 팩토리’를 엔비디아의 협력을 통해 남 아프리카 공화국에 구축한다고 CNN이 보도했다 (CNN, 4월 3일). 카사바는 런던에 본사가 있는 기업으로 아프리카 전 지역을 대상으로 하는 기술 회사이며, 짐바브웨 통신 사업가인 스트라이브 마시이와(Strive Masiyiwa)가 설립했다. 향후에는 이집트, 케냐, 모로코, 나이지리아로 확대할 예정이다. 52개의 아프리카 국가에는 약 8만 명의 AI 인력이 있지만 이들 중 5%만이 AI 연구 개발에 필요한 컴퓨팅에 접근할 수 있다고 한다. 이 발표는 르완다에서 열린 아프리카에 대한 글로벌 AI 서밋에서 나왔다. 이로서 아프리카의 소버린 AI를 위한 첫 걸음이 시작되었다고 평가할 수 있다.
  • 미국이 에너지부 소유지 내 16개의 잠재적 부지에 데이터 센터와 발전소를 개발할 수 있다고 밝혔다고 로이터 통신이 보도했다 (4월 4일). 크리스 라이트 에너지부 장관은 “AI 우위를 차지하기 위한 세계적 경쟁은 다음 맨해튼 프로젝트이며, 트럼프 대통령의 리더십과 국립연구소의 혁신으로 미국은 승리할 수 있고 승리할 것입니다.”라고 밝혔다.  16개 부지에는 아이다호 국립연구소와 켄터키주 패듀카, 오하이오주 포츠머스의 시설이 포함되며, 두 곳 모두 핵무기와 상업용 원자로를 위한 농축 우라늄을 생산했다. DOE는 데이터 센터 개발자, 에너지 개발자 및 대중의 의견을 구하는 민간-공공 파트너십을 장려하고 있으며, 2027년 말까지 AI 인프라 건설이 운영을 시작할 수 있도록 하는 것을 목표로 하고 있다.
  • 앤스로픽이 교육 혁신을 위한 ‘클로드 포 에듀케이션’ AI 플랫폼을 공식 출시했다(앤스로픽, 4월 2일). 수업, 학습, 행정 전반에 통합하고, 학생과 교직원이 직접 AI 기술의 활용 방식에 영향을 줄 수 있도록 설계된 프로그램이라는 점에서 기존 AI 도입 사례와 차별화를 꾀한다. 1차 참여 대학은 노스이스턴 대학, 런던 정경대학(LSE), 샹플렝(Champlain) 칼리지이며 산업계에서는 인터넷2와 인스트럭쳐가 참여했다. 이 프로그램의 가장 큰 특징은 새로운 학습 모드로 그냥 답을 제시하는 것이 아니라 소크라테스식 질의로 학생들이 독립적인 사고를 하게 도와주는 기능이다. 
  • AI타임스가 블룸버그 통신을 인용해 마이크로소프트가 전 세계 데이터 센터 프로젝트를 일제히 축소하기 시작했다고 보도했다 (AI타임스, 4월 4일). 블룸버그는 3일 복수의 소식통을 인용, 마이크로소프트가 인도네시아와 영국, 호주, 미국의 일리노이, 노스다코타, 위스콘신주 등 여러 지역에서 데이터센터 구축 논의를 중단하거나 연기했다고 보도했다고 한다. 블룸버그는 “일부 투자자들은 AI 서비스에 대한 수요가 마이크로소프트의 대규모 지출을 정당화하지 못한다는 신호로 해석하고 있다”라고 전했다.

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다