기사 공유하기

오픈AI가 GPT-5를 내놓는다고 해서 과연 AGI 급(정의가 무엇이던간에)의 AI가 등장할 것인가 다들 말이 많았지만 정작 내 놓은 것은 2월에 예고한 통합 모델이었다. 샘 알트만이 올린 데스 스타는 도대체 뭐였는지? 그러나 비용 절감을 위한 현명한 결정이었다는 긍정적인 평가가 나온 지 2-3일 뒤부터는 혼란과 비판이 쏟아지기도 했다.
나도 사용하는 알렉사를 생성형 AI로 업그레이드 한 결과는 아직 멀었다는 사용기가 올라 왔고 (애플의 느림이 이해가 된다), 인문학을 통한 새로운 AI 접근법에 대한 영국의 보고서는 국내 인문학자들의 호응을 얻을 것 같다. 개인적으로 놀라운 수준으로 받아들인 것은 역시 딥마인드의 세계 모델 기반 영상 생성 AI인 지니 3였다. 이제 매트릭스을 만들고자 하는 허사비스의 꿈(?)이 조금씩 가동되는 것 같다. 

지난 주에 눈에 띈 두 개의 논문을 메인으로 잡은 것은 트랜스포머 구조를 넘어서겠다는 연구가 계속 나온다는 것을 알리고 싶었고, 66년 만에 단일 소스 최단 경로 알고리듬이 개선되었다는 소식에 캄퓨터 사이언스를 전공한 사람으로서 놀라움을 표현하고 싶었다. 물론 두 논문 모두 아직 검증이 필요하다. 

1. GPT-5, 아직 먼 AGI… 비용 절감 엔지니어링은 성과


오픈AI가 박사급 수준의 지능을 가졌다고 주장하는 GPT-5가 나왔다. 이는 지난 2월 샘 올트먼이 엑스에서 알린 대로 GPT-5는 GPT-4.5와 o 시리즈를 통합한 버전이다.

GPT-5는 단일 모델이라기보다는 지금까지 나온 모든 버전을 통합한 모델이다. 스마트 라우터를 통해 요청의 복잡도, 도구 호출 여부, 명시적 요구 등에 어떤 모델을 사용할지 즉각적으로 결정한다.  ChatGPT에서는 고속 응답 모델인 플래그십과 깊은 사고력을 요구하는 씽킹 모델이 있다. 실시간 라우터는 사용자 피드백, 정확도, 모델 전환 패턴 등 실시간 신호에 따라 지속적으로 학습하고  개선된다. 

API에서는 씽킹 모델에 해당하는 세 가지 변형인 일반, 미니, 나노가 제공되며 각각 최소, 낮음, 중간, 높음의 네 가지 추론 중 하나를 선택할 수 있다. 

시스템 카드에서 기존 모델과 GPT-5를 비교한 표를 보면 아래와 같다.

GPT-5가 공개되기 전날 샘 올트먼은 스타워즈에 나오는 ‘데스 스타’ 이미지를 올려서 마치 엄청난 기술과 함께 파괴적 특성도 가질 수 있는 듯한 인상을 줬지만, 관심 끌기 위한 마케팅 노이즈 같은 것으로 드러났다. 

일단 반응은 긍정적이지만, 여전히 ‘이것도 안 되고 저것도 안 되요’하는 게시물이 많은 것도 사실이다. 제일 과장된 반응은 AGI의 초기 모습을 봤다고 하는 이야기들이다. 내 판단에도 몇 년은 더 기다려야 할 것 같다 (만일 등장할 수 있다면). 공식적으로 밝힌 환각률은 4.8%로 아직 높다고 생각한다. 

여러 벤치마크 사이트에서는 순식간에 1위로 올라서는 결과를 보였다. 뭐 이건 또 다른 데서 새로운 모델이 나오면 순위가 바뀔 것이라 그냥 흥미롭게 볼 뿐이다. 아주 압도적으로 성능이 앞서가지 않는다면 큰 의미를 두고 싶지 않다.

국내에서도 많이 인용하는 아티피셜 애널리시스 인텔리전스 인덱스는 다음과 같다.

사용자가 직접 익명화된 LLM의 응답을 비교하고 투표하는 LMArena에서 1위로 나타났다. 

아직 GPT-5에서 지원하지 않는 기능은 오디오 입출력 및 이미지 생성이다. GPT-5의 지식 마감일은 2024년 9월 30일이다. ChatGPT를 사용하는 가장 일반적인 용도가 글쓰기, 코딩, 그리고 건강 문의라는 점에서 시스템 카드에도 이를 강조한다. 

“저희는 환각 감소, 교육 수행 능력 향상, 아첨 최소화 측면 에서 상당한 진전을 이루었으며, ChatGPT의 가장 일반적인 세 가지 활용 분야인 글쓰기, 코딩, 건강 관리 에서 GPT-5의 성능을 향상시켰습니다 . 모든 GPT-5 모델에는 허용되지 않는 콘텐츠를 방지하기 위한 최신 안전 교육 방식인 안전 완성(safe-completions) 기능도 포함 되어 있습니다.”

데이터센터 다이나믹스에 따르면 GPT-5가 20만 장의 GPU를 사용해 학습했으며 이는 2024년에 비해 15배 증가한 것이라고 한다. 

수많은 사람이 GPT-5의 의미와 특성을 분석하고 있는데, 몇 가지 소개한다. 

  • 사이먼 윌슨의 웹로그에서는 “그냥 여러모로 훌륭하다는 겁니다 . 다른 LLM보다 크게 앞서는 느낌은 없지만, 실력은 확실히 돋보입니다. 실수하는 경우가 거의 없고, 종종 저를 감동시킵니다. 제가 하고 싶은 모든 일에 GPT-5가 아주 합리적인 기본 설정이라는 것을 알게 되었습니다. 더 나은 결과를 얻기 위해 다른 모델에 프롬프트를 다시 실행하고 싶은 충동을 느껴본 적은 단 한 번도 없습니다.”라는 평을 올렸다.
  • 바이오넥서스의 김태형 CEO는 이런 평을 했다. “GPT-5의 핵심은 하나의 파운데이션 모델이 Minimal → Low → Medium → High라는 네 가지 reasoning 모드를 지원한다는 점이다. 이를 통해 작업 난이도와 중요도에 따라 토큰 사용량과 연산량을 최대 23배까지 조정할 수 있다. 멀티에이전트 구성에서는 고난이도 문제를 맡은 에이전트만 High 모드로, 단순 반복 작업은 Minimal이나 Low 모드로 처리하게 함으로써 전체 비용을 극적으로 줄일 수 있다. 특히 API 기반의 멀티에이전트 운용에서는 이 적응형 추론 구조가 빛을 발한다. 각 에이전트별로 필요한 성능 수준을 지정하면 중복 계산이 줄고, 불필요한 고비용 연산이 억제되며, 병렬 처리 속도까지 빨라진다. 실제 프로젝트 사례에서는 동일한 성능을 1/4 이하의 비용으로 달성하는 경우가 나타나고 있다.”
  • 네이버의 이동수 전무는 레딧에서 인기를 끄는 포스팅을 공유했는데, GPT-5는 오픈AI의 비용을 줄이기 위한 것이지 프론티어의 지평을 넓힌 것은 아니라는 취지다. 
  • 디플정의 이승현 국장은 GPT-5의 검색이 문제가 있다는 이야기를 전하면서 이는 결국 검색 파이프라인이 바뀌고, 검색 우선순위 필터 문제 그리고 파싱이 문제가 생겼다고 지적했다. 그 결과 한국어 응답이  좋지 않은 결과를 보인다. 

나오는 비판 중에는 레딧에서 열린 ‘무엇이든 물어 보세요(AMA: Ask Me Anything)’에서 터져 나온 것도 있다. 테크크런치에 따르면 사용자들은 GPT-5가 4o보다 못하다는 불만과 함께 소위 ‘차트 범죄’ 농담도 지적했다. 올트먼은 이들에게 4o를 선택할 수 있는 옵션에 대해 살펴보겠다고 약속했다. 차트 범죄는 국내 언론사들도 가끔 보이는 것으로 더 큰 숫자가 더 작게 표시되는 차트를 보인 것이다. 이 차트는 처음 소개하는 라이브스트림에 등장했는데, AI를 사용해서 차트를 만드는 것에서 자주 나타나는 오류이다. 

이에 대해 올트먼도 엄청난 실수라고 인정했다 (물론 블로그에는 올바로 표시했다고 했고). 

블로그에는 수정한 차트가 나온다.

이 글에서는 더 많은 문제를 제기한다. 강제 마이그레이션 혼란, 속도 vs 지능의 트레이드오프, 단순 작업도 과잉 사고, 사라진 개성과 목소리, 컨텍스트 윈도우 혼란, 깨진 맞춤 지침, 같은 가격, 다른 경험 등이다. 

수많은 글, 평가, 사용 후기가 쏟아지지만, 서비스가 안정화되려면 좀 더 시간이 필요할 것으로 보인다. 나 또한 사용 중에 여러 번 오류를 경험했다. 분명한 점은 모델이 많이 개선되었음에도 불구하고 AGI급은 아니라는 것이다. 어떻게 평가해야 할지는 모르지만, 그 정도로 놀라운 수준은 아니었다. 다만 오픈AI와 고객 모두 비용을 줄일 수 있는 방안을 마련한 좋은 엔지니어링 결과로 보인다.

2. 알렉사+, 똑똑하지만 불편해졌다


뉴욕타임스 칼럼니스트 케빈 루스가 아마존의 알렉사 플러스 사용기를 올렸다. 여기 소개하는 이유는 기존 시스템을 AI 기반으로 업그레이드 하는 일이 생각보다 쉽지 않다는 것을 말하려는 것이다.

알렉사+는 음성 비서 알렉사를 생성형 AI 챗봇의 대화 능력과 기존 알렉사가 수행하던 일상 업무를 결합하고자 하는 노력이었다. 그러나 음성 비서 내부의 AI 기술을 교체하는 것은 새 모델로 교체하는 것만큼 쉽지 않았으며, 알렉사 개편은 내부적인 어려움과 기술적 문제로 인해 지연되었다. 기존 서비스와 수백만 대의 알렉사 지원 기기와 연동되어야 할 뿐만 아니라 기본적인 작업도 안정적으로 수행해야 하기 때문이다. 

아마존 프라임 회원은 알렉사+를 무료로 이용할 수 있으며, 비회원은 월 19.99달러를 지불해야 한다.

케빈 루스는 새로운 알렉사+가 이전 모델보다 훨씬 더 재미있다고 한다. 더욱 사실적인 합성 음성과 더욱 인간적인 억양으로 대화할 수 있때문이다(선택 가능한 음성은 총 8가지이다). 여러 단계의 요청을 처리하는 데도 능숙해졌다. “주방 타이머 세 개를 15분, 25분, 45분으로 설정해 줘”와 “샌디에이고 여행 1일 일정을 작성해서 이메일로 보내 줘” 같은 기능은 만족했다고 한다. 또한,  이제는 구동하기 위해 매번 알렉사를 부를 필요도 없다. 

그러나 그는 아직도 알렉사+에는 버그가 많고 신뢰할 수 없어서 추천할 수 없다고 했다. 일단 ChatGPT 음성 모드나 다른 AI 챗봇보다 성능이 떨어지고 일부 작업에서는 기존 알렉사에 비해 눈에 띄게 성능이 나빠졌다고 한다. 때로는 몇 가지 사실을 환각으로 착각하고 설명할 수 없는 오류를 범했다. 

이에 대해 아마존 부사장 다니엘 라우쉬는 알렉사+가 더 광범위하게 출시되고 더 많은 기능이 온라인에 제공됨에 따라 이러한 결함 중 다수가 곧 보완될 것이라고 말했다. 라우쉬는 알렉사에 생성형 AI 모델을 적용하는 데에 가장 큰 과제는 두 가지 다른 유형의 시스템을 연결하는 문제라고 한다. 기존 알렉사는 기능을 구현하기 위해 결정론적인 알고리듬을 사용해 일일이 구현했다. 그러나 알렉사에 생성형 AI를 추가하면서 아마존이 이러한 프로세스 중 상당 부분을 재구축해야 했다. 대규모 언어 모델이 ‘확률론적’이고 엄격한 규칙 집합이 아닌 확률에 따라 작동하기 때문에 알렉사는 더 창의적이기는 했지만 신뢰성은 떨어졌다는 것이다. 일단 느려졌다. 그래서 팀은 접근 방식을 재고해야 했다고 한다.

또 하나의 문제는 장황함이다. 처음에 엔지니어들이 알렉사를 방대한 언어 모델에 연결했을 때, 시스템은 때때로 길고 장황한 답변을 생성하거나 불필요한 복잡성을 초래했다. 알렉사+는 사용자가 10분짜리 주방 타이머를 요청했을 때 주방 타이머의 역사에 관해 500단어 분량의 에세이로 응답할 수도 있었다. 

이에 따라 70개가 넘는 AI 모델을 단일 음성 기반 인터페이스로 결합하는데 수 년이 걸렸고 사용자의 요청을 처리하는 데 가장 적합한 모델로 라우팅하는 오케스트레이션 시스템을 구축했다. 

또 다른 이슈는 사용자들이 그 동안 알렉사를 원활히 사용하기 위해 ‘알렉사에 말하는 법’을 익혔는데, 이제 언어를 유연하게 처리하면서 사용자가 다시 이에 대응하는 재교육이 필요할 수 있다고 한다. 

이 이야기는 양 쪽 시스템이 장점이 있음에도 생성형 AI를 오래된 레거시와 결합하는 것이 매우 어렵다는 것을 보여준다. 애플이 시리를 업그레이드하는데 수년 간 어려움을 겪는 것도 마찬가지 이유일 것이다. 

케빈 루스는 결국 과거의 알렉사로 다운그레이드 했다고 한다. 지능보다 사용 편의가 더 중요했기 때문이다.

3. 인문학은 AI 혁명의 조연이 아니라 주연이어야 한다


김성우님의 포스팅을 통해 알게된 백서이다. 현재 AI 시스템의 한계를 지적하면서 문화적 복합성을 의미 있게 다룰 수 있는 연구 비전을 제시하려는 백서다. 웹사이트에서 요약 버전과 전체 버전을 다운 받을 수 있다. 

앨런 튜링 연구소는 데이터 과학 및 AI를 위한 영국의 국립 연구소이며 목표는 세계적 수준의 연구를 발전시키고 이를 국가적 및 글로벌 과제에 적용하는 것, 다양한 분야와 경력 단계의 사람들을 훈련시켜 미래를 위한 기술을 구축하는 것, 그리고 데이터 과학 및 AI에 대한 균형 잡힌 증거 기반의 관점을 제공하여 정보에 입각한 대중 담론을 주도하는 것이라고 소개한다. 영국이 자랑하는 연구소다.

이 이니셔티브는 앨런 튜링 연구소, 에든버러 대학교 및 영국 예술 및 인문학 연구 위원회(AHRC-UKRI)가 국제 파트너들과 협력하여 주도하려고 한다. 이번 백서에서 주장하는 주요 관점은 다음과 같다.

  • 어떤 기술적 해결책만으로는 다양한 인간적 맥락에서 AI 시스템이 직면하는 문제를 해결할 수 없다. 근본적인 격차를 확인했는데, AI 시스템은 언어, 이미지, 서사 등 문화적 결과물을 생산하고 이에 따라 행동하는 경우가 늘고 있지만, 그들이 생성하고 접하는 문화적 내용을 해석할 수 있는 틀이 부족하다. 동시에, AI는 성공을 정의하기 어려운 영역에 진입하고 있다. 즉, 명확한 정답(ground truth)이 없어 맥락적 추론과 해석적 판단이 요구되는 영역이다. 그러나 벤치마킹으로는 이를 판단할 수 없다. 
  • 이러한 해석적 도전은 문화적 의미, 맥락적 미묘함, 해석적 복잡성을 이해하는 데 특화된 인문학, 예술, 질적 사회과학의 전문 영역과 정확히 일치한다. 
  • 이러한 격차는 다양한 맥락에서 측정 가능한 배포 실패와 윤리적 위험을 초래하여, AI의 효과와 글로벌 적용 가능성을 제한한다.

백서는 세 가지 도전 과제를 제안한다.

  1. 질적 전환(The qualitative turn): AI는 더 이상 구조화된 예측이나 최적화에만 한정되지 않는다. 이제는 맥락적 판단, 문화적 뉘앙스, 해석적 추론이 필요한 과제에서도 작동하고 있다. 
  2. 균질화 문제(The homogenisation problem): 소수의 AI 아키텍처가 지배하면, 그 설계상의 한계가 수많은 응용 분야로 확산되고, 협소한 추론·표상 모델을 강화함으로써 사회적 불평등을 고착하게 할 수 있다.
  3. 인간 인지 능력의 변화(The transformation of human cognition): 인공지능과 인간 에이전트가 얽힌 복잡하고 상호 연결된 시스템과 상호작용함에 따라, AI는 인간의 사고와 업무를 재편하고 있다. 그러나 이는 인간의 주체성과 능력을 향상시키기보다 오히려 약화시킬 위험을 수반한다. 

이니셔티브는 AI 개발의 근본적 변화를 요구하는데, 인문학, 예술, 질적 사회과학이 기술 혁신에 보충적인 역할을 맡는 게 아니라, 필수적인 역할로 자리매김해야 한다는 것이다. 백서에서 구상하는 혁신은 다음과 같다.

  1. 해석적 기술: 단일하고 획일적인 결과물을 생성하는 대신, 여러 가지 타당한 관점을 함께 제시하여, 다양한 맥락에서 더 세밀하고 문화적으로 민감한 추론을 가능하게 하는 AI 시스템.
  2. AI를 위한 대안적 아키텍처: 현재의 동질적 접근법을 넘어, 이질적인 인지·문화·지구적 과정에 기반한 다양한 추론 패러다임을 통해 AI 설계 공간을 확장한다
  3. 인간-AI 앙상블: 복잡한 의사결정에서 인간의 능력을 대체하는 것이 아니라 향상하고, 집단 지성을 강화하는 정교하고 협력적인 인간–AI 시스템을 구축하기 위한 프레임워크를 개발한다. 

이 이니셔티브는 국제적으로 크게 주목받고 있다. 6개 대륙에서 활동하는 50명 이상의 저자와 150명 이상의 연구자가 참여하고 있으며, 70명 이상의 주요 전문가로부터 검증받았다. 또한, UKRI(영국 연구혁신청)의 프로그램 주제로 채택되었고, 영국 AHRC(예술인문연구위원회)와 캐나다 SSHRC(사회과학인문연구위원회)로부터 영국–캐나다–미국 간 협력을 위해 100만 파운드의 투자를 확보했다.

이 이니셔티브는 AI를 문화적·해석적 매체로 일찍부터 탐구해 온 AI 아티스트, 큐레이터, 크리에이티브 테크놀로지스트들의 선행 작업을 기반으로 한다. 이들의 초기 참여는 AI 시스템을 공동 창작(co-creative)과 인식론적 지향을 가진 도구로 자리매김하게 하여, 현재의 아젠다를 형성하는 데 중요한 역할을 했다.

초기 참여자들은 향후 10년간 AI를 정의할 연구 아젠다와 정책 프레임워크 양쪽 모두를 형성하는 데 기여하게 될 것이다. 이 백서는 이를 위한 구체적인 로드맵을 제시한다. 여기에 포함될 분야는 아래와 같다. 

  • 학문 분야와 산업 부문 전반에서 혁신적 연구를 촉진하기 위한 연구 비전과 5개의 전략적 작업 분야
  • 이에 병행하는 정책 지향 권고안(별도의 정책 메모에서 제시되었다.)

기술적 기반은 2026년까지 마련되며, 2030년까지는 다양한 문화적 맥락에서 효과적으로 작동할 수 있는 AI 시스템을 통해 가시적인 영향이 나타날 것이다.

4. 지니 3, AI 월드 모델 생성의 새로운 지평을 열다


게임이나 시뮬레이션 세상을 만들기 위한 기술 진보가 한 단계 올라 섰다. 구글 딥마인드가 공개한 지니 3는 전례 없는 다양성의 상호작용 환경을 만들어낼 수 있는 범용 월드 모델이다. 텍스트 프롬프트가 주어지면 초당 24프레임으로 실시간으로 탐색할 수 있는 역동적인 세계를 생성할 수 있으며, 720p의 해상도에서 몇 분 동안 일관성을 유지한다.

월드 모델은 AGI로 가는 길의 중요한 디딤돌이기도 하다. 풍부한 시뮬레이션 환경의 무제한 커리큘럼에서 AI 에이전트를 훈련할 수 있기 때문이다. 그 동안 지니 1과 2에서 기초 월드 모델을 선보였고 직관적인 물리학에 대한 심도 있는 이해를 보여주는 Veo 2와 Veo 3 모델을 통해 비디오 생성 분야의 최첨단 기술을 지속적으로 발전시켰다. 

지니 3의 주요 기능은 다음과 같다.

  • 세계의 물리적 속성 모델링: 물과 빛과 같은 자연 현상과 복잡한 환경적 상호 작용을 구현한다.
  • 자연 세계 시뮬레이션: 동물의 행동부터 복잡한 식물 생활까지, 활기찬 생태계를 조성한다. 
  • 애니메이션 및 픽션 모델링
  • 장소와 역사적 배경 탐험: 지리적, 시간적 경계를 넘어 장소와 과거 시대를 탐험할 수 있다. 
Genie 3: Creating dynamic worlds that you can navigate in real-time (데모 동영상)

지니 3는 특히 제어와 실시간 상호작용을 구현하기 위한 기술 혁신을 이루었는데, 1분 전을 기억할 수 있어서 환경적 일관성을 유지했다. 또한, 프롬프트 가능 월드 이벤트를 지원하는데, 즉각적으로 구현되는 세계 이벤트를 통해 생성된 세계를 변경할 수 있다. 예를 들어 날씨 조건을 바꾸거나 새로운 물건과 캐릭터를 등장 시켜 탐색 제어 경험을 향상시킨다. 

또한, 구글은 지니 3에서 생성한 미래 에이전트 훈련 환경의 호환성을 테스트하기 위해, 최신 버전의 SIMA 에이전트 (3D 가상 환경용 범용 에이전트)를 위한 환경을 생성했다. 지니 3는 에이전트의 동작을 기반으로 미래를 시뮬레이션한다. 

아직 몇 가지 제한 사항이 있는데 다음과 같다.

  • 제한된 행동 공간: 촉발 가능한 세계 사건은 광범위한 환경 개입을 허용하지만 행위자가 직접 수행할 수 있는 행동 범위는 현재 제한되어 있다.
  • 다른 에이전트의 상호작용 및 시뮬레이션: 공유 환경에서 여러 독립적인 에이전트 간의 복잡한 상호작용을 정확하게 모델링하는 것은 여전히 진행 중인 연구 과제이다.
  • 실제 위치의 정확한 표현: 지니 3는 현재 완벽한 지리적 정확도로 실제 위치를 시뮬레이션할 수 없다.
  • 텍스트 렌더링: 명확하고 읽기 쉬운 텍스트는 입력 세계 설명에 제공될 때만 생성되는 경우가 많다.
  • 제한된 상호작용 시간: 이 모델은 현재 장시간이 아닌 몇 분간의 연속 상호작용만 지원한다.

지니 3는  세계 모델에 있어 중요한 전환점이 될 것이다. 교육 및 훈련에 새로운 기회를 창출하여 학생들의 학습과 전문가의 경험 축적을 지원할 수 있으며, 로봇이나 자율 시스템 같은 에이전트를 훈련할 수 있는 광범위한 공간을 제공할 뿐만 아니라, 에이전트의 성과를 평가하고 약점을 파악할 수 있도록 지원할 것이라 한다.

한마디로 ‘매트릭스를 만들어 내기 위한 기초 작업을 하고 있구나’ 하는 생각이 든다. 

5. 트랜스포머를 넘어서려는 노력과 다익스트라 알고리듬의 시간 복잡도를 깨는 연구


이 두 논문이 지난 주에 눈에 확 들어왔다. 둘 다 아직 프리프린트가 피어 리뷰를 받은 것은 아니지만 논문이 주장하는 결과가 맞다면 AI와 컴퓨터 사이언스에 큰 영향을 줄 것으로 보인다. 

먼저 오퍼레이터 기반의 기계 지능이라는 논문은 지난 주에 소개한 HRM 처럼 트랜스포머 구조를 넘어서고자 하는 노력의 또 다른 결과이다. UC 버클리 연구자들이 제시한 논문이다. 

핵심 아이디어는 현재의 LLM·비전모델들이 “억 단위 파라미터를 가진 불투명한 블랙박스”라면, 이 접근은 수학적 투명성을 가진 ‘유리 엔진(glass engine)’을 지향한다. 기존에 데이터를 토큰으로 바꾸고 수치 벡터화해서 파라미터 기반 변환을 했다면 이 논문에서는 힐베르트 공간 기반의 함수로 바꾸고 파형/스펙트럼 기반으로 변환한다는 것이다.

전역 패턴은 푸리에 변환으로, 국소 이벤트는 웨이브렛 변환으로 하고 동적 시스템의 숨겨진 법칙을 포착하는데는 쿠프만 연산자를 사용한다. 이를 통해서 60%의 파라미터가 감소하고 2.3배의 메모리를 절감했다. 특히 추론 해석성이 가능해졌는데 어떤 주파수/패턴이 의사결정에 기여했는지 시각화가 가능하다. 힐베르트 공간의 연산자는 함수 공간 간의 선형(또는 콤팩트한) 매핑이므로, 그 구조, 스펙트럼, 동작을 함수 해석학 도구를 사용하여 명시적으로 분석할 수 있기 때문이다. 

이 프레임워크는 학습을 연산자 추정 문제로 해석하며, 함수 분석, 신호 처리, 스펙트럼 이론의 도구를 활용한다. 이는 재현 커널 힐베르트 공간(RKHS), 산란 네트워크, 쿠프만 연산자 학습과 같은 개념을 탐구하여 향상된 해석 가능성, 데이터 효율성 및 이론적 기반을 제공한다. 궁극적으로, 이 방식은 신경망에 대한 보완적인 대안으로서, 특히 과학 응용 분야나 검증 가능한 보증이 필요한 시스템에서 유용성을 강조한다. (나도 다 이해가 안되고, 여러분도 이해하려고 애쓸 필요 없다.) 

그러나 아직 이론 수준으로 트랜스포머와 직접 벤치마크가 없으며, 대규모 학습·파이프라인 통합은 연구 과제이다. 수학·물리에서 성숙한 기법이지만, AI 아키텍처로는 초기 수준으로 ML 생태계 적용을 얘기할 단계가 아니다. 효율성이 수학적으로 예측되지만 실제 구현 최적화는 별도 연구가 필요하다.

다만 이 논문이 실제 응용이 된다면 GPU와 모델 사이즈 경쟁이 무의미해질 수 있다. 또한, AI 연구의 차세대 인재는 함수 분석, 스펙트럼 분석 능력이 뛰어난 사람이 될 수 있다. 트랜스포머 구조를 넘어서려는 노력은 아직도 학계나 스타트업에서 계속 이루어지고 있다. 그 노력을 우리는 알 필요가 있다. 

아래 그림은 GPT-5가 분석한 트랜스포머와 오퍼레이터 기반을 비교한 표이다.

두 번째 논문은 AI라기보다 컴퓨터 사이언스에서 크게 반향을 일으킬 수 있는 알고리듬에 관한 논문이다. 칭화대 연구진과 스탠포드 대학 박사과정이 참여한 논문이다. 

단일 소스 최단 경로(SSSP) 문제는 매우 오래된 문제이고 1959년 에츠허르 데이크스트라(우리는 ‘다익스트라’라고 배워서 여기서는 ‘다익스트라’라고 쓴다)가 제시한 알고리듬의 복잡도 O(m + n log n) 시간 복잡도를 O(m log^(2/3) n)으로 개선하여 희소 그래프에서의 성능 한계를 돌파했다는 것이다. 즉, 66년만에 다익스트라 알고리듬의 시간 복잡도를 깨는 연구가 나온 것이다. 

가장 핵심적인 아이디어는 다익스트라의 우선순위 큐처럼 동작하는 ‘프론티어’ S의 크기를 줄이는 것이다. 다익스트라 알고리듬은 우선순위 큐(priority queue)를 사용하여 소스에서 가장 가까운 정점을 지속적으로 추출하며, 이 과정에서 정점들을 거리에 따라 정렬하는 것과 유사한 작업을 수행한다. 

이 ‘프론티어(현재 탐색 중인 노드 집합)’ S에 Θ(n)개의 정점이 포함될 수 있으며, 많은 수의 정점들 간의 전체 순서를 유지해야 하는 필요성 때문에 Ω(n log n)의 정렬 장벽이 발생한다. 논문에서 제시한 알고리듬은 다익스트라와 벨만–포드(Bellman–Ford)를 조합한 피봇(Pivot) 기반 재귀적 분할(recursive partitioning) 방식을 사용하며, 프론티어 크기를 효과적으로 줄이는 전략을 채택한다 (여기까지만 얘기하자…) 

SSSP는 실제 세계의 다양한 상황을 모델링하고 해결하는 데 매우 중요하다. 이는 그래프 이론과 최적화를 위한 기본 중의 기본이며 지도, 네비게이션, 네트워크 라우팅, 게임 AI, 물류 최적화에 사용한다. 

그러나 구현 복잡도 및 상수 계수가 커서, 실제 현업에서는 여전히 다익스트라가 빠를 수 있다는 의견이 나오며, 아직 완전히 검증된 논문도 아니다. 그러나 이 문제를 다시 또 도전하는 연구진이 있다는 점이 매우 인상적이고, 그들이 모두 중국계 연구자라는 점이 또 흥미로운 점이다. 

그 밖의 소식들


  • 오픈AI가 2019년 GPT-2 이후 처음으로 오픈 웨이트 모델 gpt-oss-120b와 gpt-oss-20b를 공개했다(와이어드, 8월 5일). 이 회사는 “생물학적 및 사이버 역량을 의도적으로 극대화”하기 위해 모델을 미세 조정했으며 , 이번 출시가 “소량의 새로운 생물학적 위험 역량 에 기여할 수 있지만, 최첨단 역량을 크게 발전시키지는 못한다”고 결론냈다. 탈옥은 재빨리 이루어졌고, 처음으로 AWS에 호스트 되었다. 
  • 조지 메이슨 대학 경제학 교수인 타일러 코웬과 포스트-AGI의 연구원인 젱동 왕과의 대화 (8월 5일). 코웬은 영국이 세계 최고의 데이터와 의료 시스템에 관한 많은 시민의 신뢰를 확보했고, 그것을 더 활용해야 한다고 말했다. 영국은 AI를 비즈니스 서비스에 통합하는 데 있어 선두주자가 될 수 있고, 영국이 자체적으로 최고 수준의 기반 모델을 구축하지 않고도 그 방향으로 많은 것을 할 수 있다는 것이다. 두 번째는 교육 시스템을 재구성하여 교육의 상당 부분이 사람들에게 AI 사용법을 가르치는 데 집중해야 한다고 말했다. AGI에 관해서는 지난 2년 간의 진전을 과소평가하면서도, 앞으로 2년 동안의 진전은 과대평가하고 있다. 왜냐하면 우리는 너무나 많은 측면에서 한계에 도달했다는 사실을 깨닫지 못하기 때문이다라고 하면서 아직 시간이 필요함과 측정 문제를 제기했다. 벤치마크의 대안이 필요하다는 것이다. 
  • 마이클 크라시오스는 미국이 AI 칩 자체에 소프트웨어나 물리적 변화를 가해 위치 추적을 개선하는 방안을 모색하고 있다고 밝혔다. 그러나 아직 엔비디아나 AMD와 이 문제를 협의한 적은 없다고 한다. (블룸버그 8월 5일)
  • 프론티어 모델 포럼(FMF)은 아마존, 앤스로픽, 구글, 메타, 마이크로소프트, 오픈AI가 2023년에 만든 비영리 단체이다. 이번에 제3자 평가에 대한 보고서를 냈다. 이전에 만든 프론티어 AI 프레임워크에서는 프론티어 역량 평가, 완화 평가를 내부 평가팀이 두 단계로 시행하는 평가 프로세스를 제안했는데, 이번에 제3자에 의한 평가로 두 단계를 보완하고 지원하자는 것이다. 이 보고서는 FMF가 내 놓은 네 번째 보고서다. 제3자 평가는 프런티어 AI 프레임워크에서 세 가지 주요 기능을 수행할 수 있다.
    • 확인: 확인 평가는 개발자가 수행한 평가가 어떻게 수행되었는지, 그리고 그 결론이 충분히 뒷받침되는지 검토한다.
    • 견고성: 견고성 평가는 개발자가 사용한 것과는 다른 방법을 통해 모델의 안전성에 관련한 주장을 검토한다. 
    • 보완: 모델의 안전성에 관련한 주장을 평가하는 것이 아니라, 전문 분야에 관한 맞춤형 평가를 설계하거나 집중적인 테스트 기간 동안 역량을 강화하는 데 중점을 둔다.
  • 메타가 차기 라마 모델을 만드는 팀을 TBD 랩이라는 이름으로 조직했다고 한다(월 스트리트 저널, 8월 7일). TBD 랩이 메타의 다른 AI 팀들과 협력하여 향후 모델 출시, 모델 추론 기능 확장, AI 에이전트 개발 등 다양한 프로젝트를 진행할 것이라고 알렉산더 왕이 보낸 메모에서 드러났다. 
  • 메타는 AI 오디오 스타트업 웨이브폼즈를 인수했다. 감정을 이해하고 이를 오디오 형태로 모방할 기술을 만들던 회사이다. 지난달에는 음성 AI 스타트업 플레이AI(PlayAI)도 인수했다. 마크 저커버그(메타 CEO)는 “우리는 모두 하루 종일 대화할 수 있는 AI를 갖게 될 것”이라고 얘기한 적 있다.

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다