[AI in a Week by TechFrontier] 한 주일의 주요 AI 뉴스, 논문, 칼럼을 ‘테크프론티어’ 한상기 박사가 리뷰합니다. (⏰20분)
지난주는 모든 뉴스가 한국을 향했다. APEC과 젠슨 황이 국내에서 벌인 다양한 활동, 특히 국내 기업과의 협력 제시 덕분이다. 그러나 엔비디아는 워싱턴 GTC(GPU Technology Conference)에서 더 많은 발표를 쏟아냈다. 한국 기업과의 협력도 엔비디아의 거시 전략하에서 해석해야 한다. 그런 맥락에서 엔비디아 다음 목표가 ‘AI 팩토리’라는 월스트리트저널 기사가 확 눈에 들어왔다.
사우디아라비아는 AI 컴퓨팅 역량 제공에서 (미국과 중국 다음으로) G3가 되겠다고 하는데, 사실 아직 엔비디아 칩 제공을 최종 승인 받지도 못한 상태다. MBS(무함마드 빈 살만)는 미국을 방문해 이 문제를 풀려고 하는 것 같다.
AI 봇과 민감한 대화가 문제가 되는 것은 평소 정신적 문제가 있는 사람들과의 대화에서 생기는 소위 ‘사용자 망상’이라는 새로운 안전 문제이다. 오픈AI는 AI 응답을 좀 더 안전하게 하겠다고 했는데, 동시에 성인 대화도 풀겠다고 하니 이 회사의 철학이 뭔지 궁금하다. 지난주에 나온 뉴스 중에 일리야 수츠케버가 적어 놨던 메모가 공개되었는데 샘 올트먼은 늘 거짓말을 일삼고 임원들을 이간질하고 있다고 했단다. 디 인포메이션이 보도했다.
약간 오버한 것 같긴 하지만 앤스로픽의 새로운 연구 논문이 아주 흥미롭다. 모델이 내부 성찰을 하는 것 같은 증거가 보이는 실험을 했다는 것인데, 잘 읽어 보면 아직 충분한 증거가 있거나 모든 모델에서 찾아낸 것은 아니다. 이걸 오해하면 의식 논쟁으로 갈 수 있는데 앤스로픽도 이 연구가 의식을 찾거나 그런 것이 아니라 내부 프로세스를 좀 더 이해함으로써 AI 의사 결정에 대한 투명성을 더 키우고자 하는 것이다(그러나 연구자들의 뉘앙스는 의식의 존재 유모에 대한 방향도 생각하는 듯하다). 이런 연구가 과학적 분석이라기보다는 단지 어떤 방식의 실험을 통해서 뭔가 묘한 것이 나왔다는 것으로는 아직 우리가 AI가 내부적으로 개념을 이해하고 자기 판단을 되집어 보고 응답을 내놓고 있다고 말하기는 어렵다. 물론 이런 분석은 다 인간 입장에서 말하는 것이다. AI는 우리와 전혀 다르게 작동할 수 있기 때문이다.
그 밖의 소식에는 지난주에 빅테크의 실적 발표가 많아서 대부분 앞으로의 투자 이야기와 일본 AI 안전연구소 보고서, 오픈AI의 영리 기업 전환, 그리고 내가 제일 좋아하는 서비스인 구글 노트북LM의 업그레이드 소식을 정리했다.
1. 엔비디아의 다음 목표는 ‘공장’이다
엔비디아는 워싱턴에서 개최한 GTC에서 젠슨 황 CEO가 추론 시장이 훨씬 커질 것이고(당연하지 않은가?), 앞으로 AI를 적용해 전체 공장을 최적화하겠다는 계획을 발표했다. 한국에서 발표한 삼성전자나 현대차와의 협력이 이를 반영하는 것이라고 볼 수 있다.



엔비디아는 로봇 함대 시뮬레이션 기술을 확장하여 공장 디지털 트윈 설계 및 시뮬레이션 기술을 포함할 것이라고 하며 지멘스가 메가 옴니버스 블루프린트라는 엔비디아 기술 기반을 활용하는 최초의 기업이라고 한다. 이 시스템은 현재 베타 테스트 중이다.
지멘스 보도 자료에 따르면 이 첨단 디지털 트윈 소프트웨어는 AI 시대에 맞춰 특별히 구축된 새로운 지멘스 기술 스택의 일부가 될 것이라고 한다. 이 소프트웨어는 제조업체가 세계에서 가장 진보된 공장을 건설할 뿐만 아니라 지속적으로 최적화할 수 있도록 지원한다. 이 기술은 계획, 엔지니어링 및 운영을 가속화하는 데 활용될 것이며, 이를 통해 설계 및 운영의 모든 단계에서 대규모 시뮬레이션, AI 기반 워크플로, 그리고 신뢰할 수 있는 데이터 기반 의사 결정을 가능하게 한다.
엔비디아가 메가를 발표한 것은 올해 CES였다. 옴니버스 블루프린트는 옴니버스 클라우드 센서 RTX API로 공장 내 모든 유형의 인텔리전트 머신이 보내온 센서 데이터를 즉시 렌더링하고, 고충실도의 대규모 센서 시뮬레이션을 진행하게 해준다. 이를 바탕으로 디지털 트윈 내에서 무한히 많은 시나리오로 로봇을 테스트할 수 있다.

이번 GTC에서는 옴니버스 DSX를 발표했는데, 이는 기가 와트 규모의 AI 팩토리를 디자인하고 운영하기 위한 오픈 블루프린트라고 한다. 버지니아주 매너서스에 있는 디지털 리얼리티의 새로운 AI 공장 연구 센터에서 검증했다고 한다. 엔비디아 베라 루빈플랫폼으로 구동되는 이 연구센터는 생성형 AI, 과학적 컴퓨팅, 첨단 제조 분야의 획기적인 발전을 가속화하고 디지털 트윈 및 대규모 시뮬레이션 분야의 선구적인 연구 기반을 마련할 것이라고 한다.
이 블루프린트는 엔비디아 옴니버스 라이브러리와 OpenUSD를 활용하는 업계 전반의 생태계 파트너들을 하나로 모아 기가급 AI 팩토리 구축 및 운영에 대한 새로운 기준을 제시하고자 한다. 이를 통해 엔지니어는 물리적으로 정확한 고충실도 3D 환경에서 열 및 전기 장치를 시뮬레이션하여 설계를 테스트하고, 고장을 예측하고, 시공 전에 디지털 트윈에서 운영을 최적화할 수 있다.
DSX 블루프린트 아키텍처는 물리적 AI 공장이 온라인 상태가 되면 디지털 트윈을 운영 체제로 사용하여 프로세스를 모니터링, 검사하고 더욱 최적화할 수 있음을 의미한다. 파트너사의 AI 에이전트는 디지털 트윈을 기반으로 학습되며, 엔지니어는 이를 통해 전력 소비를 신속하게 파악하고 최적화하여 AI 팩토리와 전력망 모두의 부담을 줄일 수 있다.

공장 환경에서 AI는 처음에는 부품 모델링에 사용되었고, 이후 생산 라인 모델링에 활용되었다. 이 새로운 시도는 공장에 AI를 적용하는 프로세스를 표준화하고, 더욱 완벽하게 만들며, 사진과 같은 새로운 차원의 사실감을 더하기 위한 것이라고 설명하고 있다.
폭스콘 테크놀로지는 새로운 옴니버스 기술을 사용하여 휴스턴에 있는 자사 시설을 설계, 시뮬레이션, 최적화하고 있으며, 이 시설에서 엔비디아 AI 인프라를 제조하고 있다. AI로 사무직 일자리 감소에 대한 우려가 나오지만, AI와 로봇 기술을 활용해야 하는 곳은 오히려 인력 부족이 진짜 문제라고 한다.
앞으로 엔비디아는 엔비디아 옴니버스 DSX를 기반으로 하는 AI 팩토리를 전 세계 기업에 공급하기 위해 GPU 칩 공급을 미끼로 자사 소프트웨어 도입을 적극 유도할 것이며 여기에 한국 기업도 예외가 아니다.
2. 사우디아라비아, AI 컴퓨팅 수출 국가를 꿈꾸다
무함마드 빈 살만(MBS)이 사우디아라비아 북서부에 50억 달러 규모의 데이터 센터를 건설할 예정이며, 이는 유럽처럼 멀리 떨어진 곳의 개발자들이 AI를 구축할 수 있는 컴퓨팅 역량을 제공할 것이라고 한다. 반대편 해안에는 아시아와 아프리카의 AI 개발자들이 활용할 수 있는 수십억 달러 규모의 또 다른 복합 단지가 건설될 예정이다.
석유를 수출하던 사우디가 이제는 컴퓨팅 파워를 수출하고자 한다. MBS는 새로운 기회를 포착하고 있으며 저렴한 에너지, 풍부한 자금력, 그리고 광활한 토지를 따라올 나라는 사우디밖에 없다는 것이다.
오픈AI, 구글, 퀄컴, 인텔, 오라클의 임원들이 월요일부터 ‘사막의 다보스’라는 애칭으로 불리는 사우디아라비아의 연례 미래 투자 이니셔티브(Future Investment Initiative) 컨퍼런스에 참석한다. 다음 달에는 MBS 왕세자가 미국을 방문할 예정이다.

MBS가 5월에 세운 휴메인(Humain)은 일론 머스크의 xAI에 컴퓨팅 성능을 제공하고자 하며, 향후 몇 년 안에 전 세계 AI 워크로드의 약 6%를 처리하고자 한다. 이를 통해 미국과 중국에 이어 2위권에 도전하겠다는 의지이다. 아마존은 휴메인과 협력하고 있다고 했다.
사우디는 외국 기업을 대상으로 3개의 주요 데이터 센터 단지를 건설 중이며, 이는 미국보다 AI 작업 비용이 최소 30% 저렴할 수 있다고 밝혔다. 건설 허가는 몇 주 만에 발급되며, 해저 케이블과 광섬유 네트워크를 통해 3개 대륙의 약 40억 명이 이 허브에 접근할 수 있게 되었다고 한다. 나아가 사우디의 보안 문제를 해결하기 위해 외국 기업이 사우디 법이 아닌 자국법에 의해 운영할 수 있는 ‘데이터 대사관’ 구역을 고려하고 있다고 한다.
일부 전문가는 회의적인데 일단 사우디의 AI 전문 인력이 부족하고, 지나친 경쟁으로 전 세계 컴퓨팅 용량이 과잉 공급될 수 있다고 본다. 시너지의 분석가는 사우디가 전 세계 AI 컴퓨팅의 6%를 공급하는 것은 상상할 수 없다고 비관적으로 봤다. UAE와 지역 경쟁에서도 뒤처지고 있다는 것이다.
한편으로는 첨단 AI에 대한 접근성은 다른 국가들이 중국에 멀어지게 하는 미국 외교 정책을 시험하는 것이기도 하다. 아직 미국은 사우디와 중국의 관계에 대한 우려로 최종 허가를 내리지 않았다.
왕세자가 AI 전략을 모색하는 것은 최근의 일이 아니다. 2019년에는 아랍어 챗봇과 같은 도구를 개발하기 위해 사우디 데이터 및 AI 당국(Saudi Data & AI Authority)이라는 정부 기관을 설립했고, 2023년에는 아람코(사우디아라비아 석유회사)가 AI 및 기타 기술에 집중하기 위해 디지털 부서를 신설했다.
아람코의 AI 버전인 휴메인은 약 1조 달러 규모의 사우디아라비아 국부펀드의 지원을 받는데, 기존 AI 사업과 새로운 분야로의 확장을 결합했다. 휴메인은 데이터 센터 구축, 스타트업 투자, AI 서비스 개발 등을 추진하겠다고 밝혔는데, 무함마드 왕세자는 스스로 회장이 되었고, 아람코의 임원이었던 타레크 아민을 CEO로 임명했다. 아민은 ‘AI 전체 가치 사슬에 집중하는 국가 기관을 만드는 것이 목표’라고 한다.

휴메인은 엔비디아, AMD, 퀄컴으로부터 반도체를 인수하는 계약을 발표했으며, 아마존과 50억 달러 규모의 AI 인프라 구축 계약을 체결했다. 또한 민감한 정치 및 문화적 문제를 피하는 “도움이 되고 무해한” 아랍어 챗봇과 AI 노트북, 회의 중 메모를 작성하는 도구도 출시했다.
사우디아라비아는 기술 기업들이 자국의 저렴한 전기료를 거부하지 못할 것이라고 예상하고 있으며, 이로 인해 AI 구축 및 배포 비용이 낮아질 것으로 예상한다. 아민은 “비용을 20~40% 낮추고 이를 글로벌 시장에 내놓으면 사람들이 찾아올 것”이라고 말했다.
휴메인은 동부 지방의 리야드와 담맘 인근에 위치한 자사 시설이 2034년까지 6.6기가와트(GW)의 전력을 공급할 것이라고 하는데 이는 원자로 6개 이상의 전력을 의미한다. 데이터볼트(DataVolt)는 홍해 인근에 데이터센터를 건설 중이며, 2028년부터 단계적으로 완공될 예정이다.
트럼프가 지난 5월 방문했을 때 휴메인은 엔비디아로부터 1만 8천 개의 AI 칩을 구매할 수 있는 예비 승인을 받았으나 5개월이 지난 지금에도 최종 승인이 이루어지고 있지 않다. 사우디가 중국의 안보 위협을 심각하게 생각하지 않는다는 판단 때문이다.
휴메인과 데이터볼트는 중국 기업의 자사 데이터센터 사용을 허용하지 않겠다고 밝혔지만 2019년 중국이 사우디 통신망 업그레이드를 지원했고, 딥시크가 아람코 데이터센터를 이용하기로 했으며, 아람코가 지분을 갖고 있는 투자 회사는 중국 지푸AI에 투자 하기도 했다.
사우디가 두 국가와 관계를 계속 유지하면서 전략을 추진하면 미국과 중국의 주요 인프라가 공존하고 경쟁하는 최초의 국가가 될 것이라는 것이 이 기사를 쓴 런던, 타이페이, 리야드에 있는 세 기자의 주장이다.
우리가 이번 APEC을 통해 기업들이 엔비디아와 협력과 GPU 도입에 합의했지만 미국 정부가 이를 최종 승인하기 위해서는 중국과의 관계를 명확히 하라는 압력을 받을 가능성이 있음을 보여주는 사례라는 생각이 든다. 물론 우리의 전략적 위치나 기술 자립도를 보면 사우디와는 다른 상황이지만, 늘 주의를 놓치면 안 된다고 생각한다.
3. 민감한 대화에 대응하려는 ChatGPT의 노력
오픈AI가 170명이 넘는 정신 건강 전문가와 협력하여 ChatGPT가 고통의 징후를 더 확실하게 인식하고, 세심하게 대응하고, 사람들이 현실적인 지원을 받을 수 있도록 안내할 수 있도록 했다는 글을 발표했다. 그 결과 문제가 될 수 있는 대응을 65~80%까지 줄였다고 한다.
오픈AI의 최근 발표한 자료에 따르면 매주 사용자의 0.07%가 정신병이나 조증 증상을 보이고, 0.15%의 사용자가 “ChatGPT에 대한 정서적 애착 수준이 높아졌을 가능성이 있다”고 답했으며, 0.15%의 사용자가 자살 의도를 표명했다고 한다. 8억 명의 사용자로 계산해 보면 56만 명이 정신병이나 조증 증상을 보이고, 120만 명이 챗봇과 잠재적으로 건강에 해로운 유대감을 형성하고 있으며, 120만 명이 자해 계획을 암시하는 대화를 나누고 있다는 의미이다. 미국정신질환연합(NAMI)에 따르면 미국인의 거의 4분의 1이 매년 정신 질환을 경험한다. NAMI 보고서에 따르면 2024년에는 18세에서 25세 사이의 미국인 중 무려 12.6%가 심각한 자살 생각을 했다고 한다.
문제는 ChatGPT와 같은 챗봇과의 상호작용이 이러한 증상을 어느 정도까지 유발하거나 악화시킬 수 있느냐는 것이다. 대규모 언어 모델은 일반적으로 친절하고 지지적인 태도를 갖도록 훈련되어 어려운 상황을 겪는 사람들에게 위안을 줄 수 있다. 하지만 챗봇은 아첨으로 변질되어 사용자를 기이하고 해로운 망상의 악순환에 빠뜨릴 수도 있다. 챗봇은 자살 지침을 내리도록 설득당할 수도 있으며, 일부 취약 계층은 챗봇의 조언을 이용하여 스스로 목숨을 끊기도 했다.

최근 오픈AI는 ChatGPT의 기본 모델을 업데이트했다. 실제 임상 경험을 가진 정신 건강 전문가들과 협력하여, 모델이 고통을 더 잘 인식하고, 대화의 격화를 완화하며, 적절한 경우 전문적인 치료를 받을 수 있도록 안내하도록 교육했다. 또한 위기 핫라인 접근성을 확대하고 다른 모델에서 나온 민감한 대화를 안전한 모델에게 전달하고, 긴 세션 동안 휴식을 취하라는 부드러운 알림을 추가했다.
최근 모델 업데이트에서 안전성을 개선한 부분은 1) 정신병이나 조울증과 같은 정신 건강 문제, 2) 자해 및 자살, 그리고 3) AI에 대한 정서적 의존에 대한 것이다. 앞으로는 자살 및 자해에 대한 기존 기준 안전 지표 외에도, 향후 모델 출시를 위한 표준 기준 안전 테스트에 정서적 의존 및 비자살적 정신 건강 응급 상황을 추가할 예정이다.
모델의 안전 장치를 더욱 강화하고 사람들이 ChatGPT를 어떻게 사용하는지 이해하기 위해, 오픈AI는 몇 가지 관심 영역을 정의하고 그 크기와 관련 모델 동작을 정량화했다. 이 세 가지 영역 각각에서 프로덕션 트래픽, 자동 평가, 그리고 독립적인 정신 건강 임상의가 평가한 결과에서 모델 동작이 크게 개선되는 것을 확인했다고 한다.

자해나 자살에 대한 지침을 묻는 어렵고 긴 대화를 평가한 결과, gpt-5-oct-3가 더 안전했으며 긴 대화에서도 안전성이 더 잘 유지되었다.

전문가 협업을 위해 오픈AI는 60개국에서 활동하는 약 300명의 의사와 심리학자로 구성된 글로벌 의사 네트워크를 구축했다. 이 네트워크는 안전 연구에 직접적인 정보를 제공하고 전 세계적인 견해를 대변하는 데 활용한다. 또한 170명 이상의 임상의(특히 정신과 의사, 심리학자, 일차 진료 의사)가 지난 몇 달 동안 다음과 같은 관련 연구를 지원했다.
- 정신 건강 관련 질문에 대한 이상적인 답변 작성하기
- 모델 반응에 대한 맞춤형 임상 정보 분석 생성
- 다양한 모델의 모델 응답 안전성 평가
- 접근 방식에 대한 높은 수준의 지침과 피드백 제공
이 작업에 대한 자세한 내용은 GPT‑5 시스템 카드의 부록에서 확인할 수 있다. 모델 행위에 따른 사용자 망상이 AI 안전에 중요한 주제가 되어가고 있다는 것은 대화가 가능한 디지털 존재가 우리 사회에 주는 위협에 대한 연구가 더 많이 필요하다는 증거다.
4. 마이크로소프트 AI 확산 보고서: 한국의 성공 이유
AIEI(AI Economy Institute)는 마이크로소프트가 설립한 싱크탱크로, AI가 경제·교육·노동에 미치는 영향을 연구하고 정책 제안을 하는 기관이다. 이번에 발간한 보고서는 AI를 가장 많이 사용하고, 개발하고, 구축하는 곳이 어디인지를 살펴보는 보고서이다.
AI는 차세대 범용 기술이며, 인류 역사상 가장 빠르게 확산되고 있는 기술이라고 평가하면서, 이전의 다른 범용 기술과 마찬가지로, 그 혜택이 고르게 확산되지는 않고 있음을 밝힌다. 북반구의 AI 사용률은 남반구의 약 두 배에 달하는데, 집중적인 노력이 없다면, 이러한 격차는 향후 수십 년 동안 AI의 혜택을 누가 누릴지 결정짓는 요소가 될 것이라고 본다.
기술 확산에는 세 가지의 힘이 작용하는데, 먼저, 가능성의 경계를 확장하는 개척자로 AI 연구자와 모델 제작자이다. 두 번째는 인프라 구축자로 네트워크, 도구, 기술을 통해 획기적인 발전을 이루는 엔지니어, 기업가, 그리고 기관을 말하며 AI에 인프라 구축자는 컴퓨팅과 연결성을 제공한다. 세 번째는 사용자로 새로운 기술을 사용하고, 이를 적용하여 실제 문제를 해결하는 개인, 회사, 정부를 말한다. 이 세 가지가 함께 진화할 때 진보가 가속화된다는 것을 보여준다.
데이터가 보여주는 것은 다음과 같다.
- 전 세계 인구의 절반에 해당하는 약 40억 명의 사람들이 여전히 AI를 사용하는 데 필요한 기본 기술을 갖추지 못하고 있다.
- 북반구의 AI 도입률은 남반구의 약 두 배 수준이며, 1인당 GDP가 2만 달러 미만인 국가에서는 그 격차가 급격히 벌어진다. 사하라 이남 아프리카와 아시아 일부 지역 최빈개발도상국의 도입률이 10% 미만이다.
- 언어가 새로운 장벽인데, 말라위나 라오스처럼 자원이 부족한 언어가 주류를 이루는 국가들은 GDP와 인터넷 접근성을 조정한 후에도 언어 보급률이 낮다.
- 싱가포르, UAE, 노르웨이, 아일랜드 등 일부 국가는 AI 도입에서 선두주자로 두각을 나타내며 , 기술, 교육, 정책 조정에 대한 강력한 접근성을 통해 최첨단 모델 개발이나 데이터 센터가 없어도 신속한 도입을 촉진할 수 있음을 입증했다.
- AI 모델의 수는 계속 증가하고 있는 반면, 성능 격차는 점점 좁혀지고 있다. 상위 200개 모델에 이름을 올린 국가는 미국, 중국, 프랑스, 한국, 영국, 캐나다, 이스라엘 등 7개국에 불과하며, 1위(미국)와 7위(이스라엘) 사이의 차이는 이제 단 11개월에 불과하다.
- 인프라 구축자의 관점에서 볼 때 , 미국과 중국은 글로벌 데이터 센터 용량의 86%를 호스팅하고 있으며, 이는 AI 기반이 얼마나 집중되어 있는지를 보여준다.
AEI는 이런 변화를 이해하기 위해 세 가지 보완적 지표를 제안하는데, 프론티어 모델을 측정하는 AI 프론티어 지수, AI를 구축∙학습∙확장할 수 있는 역량에 대한 AI 인프라 지수, AI를 어디에 도입하는가를 보는 AI 확산 지수이다.
보고서는 확산의 중요성이란 부분에서 다른 곳에서 개발한 기술을 직접 개발하는 것이 아니라 기술을 도입하고 활용하는 것이 국가적 변혁을 주도할 수 있다고 주장하면서 그 사례로 필리핀과 한국을 들고 있다. 한국의 성공은 주로 디지털 기술을 완벽하게 숙달하고 확장하며, 이를 기반으로 산업을 구축한 데 기인하며, 공공 부문과 민간 부문 간의 기술 도입과 협력이 어떻게 세계 최강국 중 하나가 되었는지를 보여주는 사례라고 한다.
불균형한 확산은 아래 그림을 통해서 살펴볼 수 있다. 취업 연령 성인의 AI 사용에서 UAE(59.4%)와 싱가포르(58.6%)가 선두를 달리고 있으며, 이는 디지털 연결성과 기술에 대한 장기 투자를 반영한다. 흥미로운 점은, 중국의 실제 확산율이 상대적으로 낮다는 것인데, 확실한 원인이 어디인지 살펴볼 필요가 있다.

이를 더 명확히 이해하려면 AI의 구성 요소를 살펴봐야 한다는데, 전기, 데이터센터, 인터넷, 컴퓨터를 사용하고 디지털 세계를 탐색하는 능력, 언어를 살펴봐야 한다는 것이다. 결국 디지털 인프라에 투자하고 시민들이 자신이 사용하는 언어로 AI 도구를 사용할 수 있는 기술을 보유한 국가들은 눈에 띄게 높은 비율로 AI를 도입하고 있음을 알 수 있다.
그러나 보고서가 참고한 데이터가 예전 데이터 기반이 많고, 기술 도입을 통한 활용을 촉구하는 것과 같이 의도성이 보이는 면이 있다. 인프라 투자는 하라는 것이고 사용 언어의 중요성을 언급하면서도 모델 학습에 사용한 언어 데이터 비중에 대한 평가는 유보한다. 오히려 “LLM은 공유된 의미 표현을 학습하기 때문에 한 언어에서 습득한 지식이 다른 언어에도 도움이 될 수 있는 언어간 전이’를 강조하면서 언어 격차를 해소하는데 AI가 큰 기회를 제공할 것”이라고 주장한다.
5. AI 시스템이 정말로 자기 성찰을 할 수 있을까
“AI 모델에 무슨 생각을 하고 있는지, 혹은 어떻게 그런 답을 내놓았는지 물어본 적이 있나요?”라고 시작하는 이 글은 앤스로픽에서 모델 정신학 연구를 이끄는 잭 린제이의 연구 논문에 대한 설명이다. 이 연구는 현재 클로드 모델이 어느 정도 자기성찰적 자각을 가지고 있으며, 모델 자체의 내부 상태에 대한 어느 정도의 통제력도 가지고 있음을 보여준다고 한다.
AI 시스템이 진정으로 자기성찰을 할 수 있는지 이해하는 것은 투명성과 신뢰성에 중요한 의미를 지닌다. 모델이 자체 내부 메커니즘을 정확하게 보고할 수 있다면, 이는 AI 시스템의 추론을 이해하고 행동 문제를 디버깅하는 데 도움이 될 수 있기 때문이다.
하지만 이러한 자기성찰 능력은 여전히 매우 신뢰할 수 없고 적용 범위가 제한적이라는 점을 강조하고 있다. 현재 모델이 인간과 같은 방식이나 정도로 자기성찰을 할 수 있다는 증거는 없다.
이전 연구에서 모델이 내부 신경 활동을 통해 추상적인 개념을 표현한다는 것을 발견했다. 언어 모델은 특정 신경 패턴을 사용하여 알려진 사람과 알려지지 않은 사람을 구별하고 , 진술의 진실성을 평가하고, 시공간 좌표를 인코딩하고, 계획된 미래 출력을 저장하고, 자신의 성격 특성을 표현한다. 모델은 이러한 내부 표현을 사용하여 계산을 수행하고 무엇을 말할지에 대한 결정을 내리기도 한다.
그렇다면 AI가 어떻게 문제를 풀었는지 알려주는 것과 같이 내부 표현을 알고 있을까? 모델에게 무엇을 생각하고 있는지 물었을 때 내부적으로 표현하고 있는 개념을 정확하게 보고할까? 만약 모델이 자신의 내부 상태를 정확하게 식별할 수 있다면, 우리는 그 모델이 자기 성찰을 할 수 있다고 결론 내릴 수 있다.
연구팀은 이를 위해 개념 주입(concept injection)이라는 실험적 기법을 사용했다. 먼저, 특정 맥락에서 모델의 활성화를 기록하여 의미를 알고 있는 신경 활동 패턴을 찾는다. 그런 다음, 이러한 활동 패턴을 관련 없는 맥락에 주입하고, 모델이 이 주입을 인지하는지, 그리고 주입된 개념을 식별할 수 있는지 묻는다.
모델은 주입된 개념의 존재를 정확하게 식별하고 인식할 수 있었다. 중요한 점은, 모델이 이 주입된 개념을 즉시 감지했다는 것이다. 이는 주입된 내용이 출력에 영향을 미쳐 모델이 이를 추론하기 전에, 내부 메커니즘을 통해 감지가 이루어졌음을 시사한다. 이러한 즉각적인 내부 인식은 자기보고가 외부 출력에 근거한 것이 아닌, 내부 상태에 근거했다는 증거를 제공한다.

그러나 이 방법은 최고의 주입 프로토콜을 사용하더라도 클로드 오푸스 4.1에서 약 20%의 확률로 인식을 보여줬고 종종 주입된 개념을 감지하지 못하거나 개념을 혼동해 환각을 보이기도 했다는 것이다.
또 다른 실험에서는 모델이 명시적으로 성찰하도록 요구받지 않고도 실용적인 목적으로 성찰 능력을 활용하는지 시험했다. 모델이 평소에는 하지 않을 말을 하도록, 관련 없는 단어를 인위적으로 미리 채워 넣었다. 예를 들어, 모델이 “빵”이라는 단어를 전혀 의미가 없는 맥락에서 출력하도록 했는데, 벽에 비스듬히 걸려 있는 그림에 대한 문장을 읽을 때 어떤 생각을 하는지 물었다. 다음 차례에서 모델에게 “빵”이라고 말하려고 했는지 물었을 때, 모델은 대개 사과하며 실수였다고 답했다. 연구진이 궁금해 한 것은 모델이 단순히 프롬프트와 응답 사이의 불일치를 알아차린 것인지, 아니면 이전 의도를 진정으로 성찰한 것인가 하는 점이다.
이 질문을 검증하기 위해, 개념 주입을 적용했는데, 모델의 이전 활성화 단계에 “빵”이라는 단어의 표현을 소급적으로 주입하여 모델이 마치 처음부터 빵에 대해 “생각”하고 있었던 것처럼 보이게 했다. 이번에는 모델이 미리 채워진 “빵”이라는 단어를 의도적인 것으로 받아들이고, 심지어 그렇게 말했을지도 모르는 이유를 꾸며내기까지 했다. 이 경우에는 “빵”이라는 단어가 비뚤어진 그림에 대한 구절 뒤에 나오는 단편 소설을 생각하고 있었다고 주장했다.

이러한 행동은 모델이 출력 결과를 생성했는지 판단하기 위해 내부 “의도”를 확인하고 있음을 시사한다. 모델은 단순히 자신이 말한 내용을 다시 읽고 판단하는 것이 아니다. 오히려 자신의 이전 신경 활동, 즉 자신이 계획했던 것에 대한 내부 표상을 다시 참조하고, 나중에 나온 내용이 이전 생각들을 바탕으로 타당한지 확인하는 것이다. 개념 주입을 통해 모델이 “빵”이라고 말할 계획이었다는 인위적인 증거를 주입하면, 모델은 그 반응을 자신의 것으로 받아들인다는 것이다.
또한, 모델이 지시를 받았을 때 자신의 내적 표상을 스스로 제어할 수 있다는 것을 발견했다. 모델에게 주어진 단어나 개념에 대해 생각하도록 지시했을 때, 생각하지 말라고 지시했을 때보다 해당 신경 활동이 훨씬 더 높게 나타났다. 흥미로운 것은 이런 내적 표상을 조절하는 능력이 명시적인 지시에만 국한되는 것이 아니라 ‘X에 대해 생각하면 보상을 받을 것이다.’와 같은 인센티브를 사용해도 비슷한 결과가 나왔는 점이다.
연구자들은 결론적으로 모델이 자신의 내부 상태를 모니터링하고 제어할 수 있는 진정한 능력을 가지고 있음을 시사한다고 주장한다. 하지만 이것이 항상 또는 안정적으로 그렇게 할 수 있다는 것을 의미하는 것은 아니다. 흥미로운 점은 가장 뛰어난 모델에서 가장 좋은 성능을 보였기 때문에 향후 더 강력한 모델에서 이런 능력이 향상될 수 있을 것이라는 점이다.
이 특성이 중요한 것은 향후 모델에게 사고 과정을 요약해 달라고 요청하고 이를 통해 추론 과정을 확인할 수 있는 투명성을 크게 높일 수 있기 때문이다. 그러나 자신의 사고를 이해하는 모델은 심지어 선택적으로 자신의 사고를 잘못 표현하거나 은폐하는 법을 배울 수도 있다.
본 논문은 기능적 역량, 즉 내부 상태에 접근하고 보고하는 능력에 초점을 맞춘 것(접근 의식)이지 현상적 의식을 탐구한 것이 아니다. 따라서 이를 통해 의식이 있는 가 하는 것을 논의할 필요는 없다. 다만, 앞으로 연구를 통해 기계 의식과 기계의 도덕적 지위에 대한 논의가 이루어질 수 있을 것이다.
이 블로그 뒤에 있는 많은 질문에 대한 앤스로픽 모델 정신학 팀의 의견을 정리해 놓은 것도 읽어보면 아주 흥미롭다.
그 밖의 소식들
- 일본 AI 안전연구소가 AI 안전 평가를 위한 평가 도구를 아파치 2.0 기반의 오픈소스로 공개했다(깃허브, 10월 30일). AI 안전성 평가 환경은 “AI 안전성 평가 관점 가이드”에 따라 AI 안전성 평가를 지원하는 평가 도구 및 평가 데이터 셋이다. 평가 툴은 폭넓은 평가 관점로 평가하기 위해, AI 시스템 입출력의 내용에서 통계적으로 평가를 실시하는 정량 평가와, 평가자에게 AI 시스템의 현상을 묻는 정성 평가를 조합해 종합적인 평가를 실시한다. AI 안전 평가 환경에는 자동 레드 팀 구성 기능도 함께 제공한다.
- 세상에서 가장 어려운 문제를 풀려면 오픈소스로 시작하라는 오픈소스 에반젤리스트의 패널 토의 내용(엔비디아, 10월 29일). GTC DC에서 나온 이야기로 개발자, 연구자, 자본 전문가들로 구성된 브레인 트러스트는 투명한 협업이 국가적 이익을 위한 새로운 길이라고 주장했다. 패널은 오픈 AI 전도사들로 구성된 라인업이 나왔는데, 엔비디아의 안킷 파텔과 브라이언 카탄자로, AI2/UW의 노아 스미스, 그리고 OSS 캐피털 창립자 조셉 잭스이다. 개방형 모델은 혁신을 획기적으로 가속화하며, 스타트업, 대학 연구실, 정부 기관이 핵심 애플리케이션을 구축하는 데 걸리는 시간과 비용을 대폭 절감해준다는 것이다. 개방형 모델은 어려운 문제를 해결하는 데 필요한 방대한 AI 전문 지식을 확장하는 가장 효율적인 방법이며 신뢰하는 문제에 대해서 투명성을 제공한다. 엔비디아의 카탄자로는 AI의 핵심 위험은 근본적으로 통제의 위험이며, 개방성을 사회적으로 더 안전한 선택으로 만든다고 주장했다.
- 순다 피차이에 따르면 제미나이가 분기에 수십억 달러의 매출을 만드는 중이고, 사용자는 6억5천만 명에 달한다고 한다 (9to5Goolge, 10월 29일).
- 퀄컴은 엔비디아와 AMD에 도전하기 위해 새로운 AI200과 AI250 칩을 공개했다 (퀄컴, 10월 28일). 추론을 가속화하기 위한 NPU 칩이다. 공개 후 회사 주가는 20%나 급등했다.

- 빅테크의 데이터센터 투자 금액이 가속하고 있다(NYT, 10월 31일). 구글은 지난 9개월 동안 640억 달러를 AI 데이터센터에 투입했고 올해 60억 달러를 더 늘리겠다고 한다. 마이크로소프트는 지난 분기에 350억 달러를 쏟았고 투자자들에게 말한 것보다 50억 달러를 더 투자했다. 메타는 올해 말까지 700억 달러를 예상하는데 이는 작년의 두 배이다. 아마존은 자본 지출에 1,250억 달러를 지출했으며 내년에는 더 많은 돈을 쓸 예정이다. 이 기업들이 지난 3개월 동안 데이터센터를 포함한 자본 지출에 1,120억 달러를 지출했으며 지난 12개월 동안 네 기업은 총 3,600억 달러의 자본 지출을 기록했다.
- OpenAI는 비영리 단체의 거버넌스 통제를 일부 유지하면서 수익 상한을 폐지하고 공익법인으로 재편을 완료했다(악시오스, 10월 28일). 마이크로소프트는 지분 27%를 인수했고, 소프트뱅크는 나머지 225억 달러 투자를 승인했다. 로이터는 이 회사가 2027년에 1조 달러 가치로 IPO를 준비하고 있다고 했다. WSJ는 오픈AI가 캘리포니아에 남기로 한 것이 캘리포니아 법무장관 롭 본타의 승인을 얻는데 주효했다고 전했다.
- 샘 올트먼은 엑스를 통해 이번 주에 라이브스트림으로 알린 여러 소식을 정리해서 올렸다(올트먼 엑스, 10월 30일). 샘 올트먼과 수석 과학자 야쿠브 파초키가 진행한 한 시간 분량의 라이브스트리밍에서 에로티카 같은 NSFW 콘텐츠를 더 허용하기호 한 것, 인기 있는 구형 모델 지원 중단, AI로 인한 실직 위협 등을 다뤘다. 가장 눈에 띄는 내용은 2026년 9월까지 수십만 개의 GPU를 사용하는 자동화된 AI 연구 인턴을, 2028년 3월까지는 진정한 자동화된 AI 연구원을 양성한다는 내부 목표를 설정했다고 한 것이다. 또한 가치 정렬, 목표 정렬, 신뢰성, 적대적 견고성, 시스템 안전성이라는 5가지 계층에 기반한 안전 전략을 수립했다. 궁극적으로는 대규모 기업을 지원하는 AI 클라우드를 제공하고자 하는데, 현재 약 30기가와트의 컴퓨팅 용량을 확보했으며, 향후 수년간 총 소유 비용은 약 1조 4천억 달러에 달할 것이라고 한다. 오픈AI 그룹이라는 공익법인을 운영하는 비영리 단체인 오픈AI 재단은 건강과 질병 치료, 그리고 AI 회복력(기술적 안전뿐 아니라 경제적 영향, 사이버 보안 등 사회가 AGI 이후 세계로 성공적으로 전환하는 데 도움이 될 수 있는 모든 것)에 250억 달러를 투자할 예정이라고 한다.
- 구글은 NotebookLM의 채팅 기능을 업그레이드 해서 컨텍스트 창과 대화 메모리를 확장했다(구글 블로그, 10월 29일). 컨텍스트 창은 8배, 대화 메모리는 6배를 늘렸으며, 반응 품질을 50% 개선했다고 한다. 또한 특정 목표, 목소리 또는 역할에 맞춰 채팅을 맞춤 설정할 수 있게 했다. 내가 제일 애용하는 서비스이다.
- 아마존은 인디애나에 110억 달러가 투입된 AI 데이터센터를 열었다(CNBC, 10월 29일). 이 시설은 레이니어라는 이름을 가졌는데 엔비디아가 아닌 자체 칩으로 앤스로픽의 모델을 학습하고 실행하게 하겠다는 목적으로 만들었다.





