[AI in a Week by TechFrontier] 한 주일의 주요 AI 뉴스, 논문, 칼럼을 ‘테크프론티어’ 한상기 박사가 리뷰합니다. (⌚10분)
지난주는 노벨상 기사가 쏟아져 다른 AI 관련 소식이 없을까 걱정했지만 여전히 좋은 기사와 소식이 넘쳤다. 그래도 노벨상 수상 얘기를 하지 않을 수 없어서 몇 가지 자료를 추가한 노벨상 얘기부터 시작한다.
1. AI 선구자들, 노벨 물리학상과 화학상을 받다
지난주는 이 이야기를 빼놓곤 말할 수 없을 듯하다. 수많은 기사가 나왔기 때문에 이 글에서 같은 얘기를 반복하고 싶지는 않고, 추가로 독자가 보시면 좋겠을 몇 가지 자료를 제공한다.
일단 제프리 힌턴 교수는 홉필드 네트워크와 볼츠만 머신까지는 물리학이 큰 바탕이 되었지만 역전파 모델 이후는 그렇게 물리학과 연관성이 크지는 않다고 했다. 지금 대부분의 딥러닝 모델은 대부분 역전파 모델 이후에 나온 것이다.
볼츠만 머신에 대해 고등과학원 호라이즌에 올라온 좋은 글이 있어서 소개한다.
알파폴드 얘기는 2023년 딥마인드 블로그 등을 참고해도 되고, 노벨상 위원회 자료도 정리가 잘 되어 있다.
이번에는 좀 다른 얘기인데, 과학자들이 이번 수상에 대해 비판하는 사람과 지지하는 사람으로 나눠진다는 글이 네이처에 올라왔다.
임페리얼 칼리지의 천체물리학자 조나단 프릿차드는 자신도 머신 러닝과 인공 신경망을 좋아하지만, 이것을 물리학의 발견이라고 보기는 어렵다는 의견을 피력했다. 뮌헨 수학 철학 센터에 있는 물리학자 사빈 호젠펠더는 힌턴과 홉필드의 연구는 컴퓨터 과학에 속하는 것이라고 말하면서, 물리학이 관심을 받는 드문 기회인 노벨 물리학상에는 어울리는 연구가 아니라고 지적했다.
그러나 더 많은 물리학자는 이번 뉴스를 환영했는데, 하버드 대학의 이론 물리학자 매트 스트라슬러는 홉필드와 힌턴의 연구는 물리학, 수학, 컴퓨터 과학, 신경과학을 결합한 학제 간 연구였고 그런 의미에서 모든 분야에 속한다고 지지했다.
UCL의 바이오 정보학자 데이비드 존스는 알파폴드가 기존에는 없던 근본적인 과학의 변화를 불러왔다고 생각하지 않지만, 알파폴드가 이러한 수준에 도달할 수 있었던 것은 구조와 계산 생물학의 축적된 지식을 매끄럽게 결합되고 구상된 방식 덕분이라고 평가했다.
사실 알파폴드가 3차원 단백질 구조를 예측하는데 뛰어난 것은 사실이지만 각 세포 안에서 어떻게 달라지고 어떤 기능을 할 수 있는가 하는 문제는 또 다른 연구가 필요하다. 그래서 알파폴드는 단백질 연구를 완성한 것이 아니라 새로운 출발점을 만들어 낸 것으로 봐야 한다.
제프리 힌턴 교수는 딥러닝의 대부라고 불리며 많은 연구를 주도했지만 그가 요즘 미디어에 가장 많이 노출된 주제는 AI가 인류에게 큰 위협이 될 수 있다는 그의 경고다. 그는 노벨상 수상 기자 회견에서 다음과 같은 말을 했다.
또한, 그동안 LLM(대규모 언어 모델)에 매우 비판적인 촘스키 등에 대해 제프리 힌턴 교수가 노벨상 위원회 웹사이트와 인터뷰에서는 촘스키 언어학파를 강력하게 비판한 것이 재미있다. 또, 토론토 대학과의 인터뷰에서는 자기 학생(일리야 수츠케버를 말함)이 샘 올트먼을 해고한 것에 대해 특히 자랑스럽다고 말해서 흥미를 끌었다.
월스트리트저널은 노벨상 수상에 따라 10월 9일 자에서 그의 견해를 다시 길게 다루었다. 재미있는 것은 11일에는 이에 동의하지 않는 얀 르쿤 교수 기사를 올린 것이다. 균형감을 찾으라는 의미인지.
뉴욕대학의 게리 마커스는 두 종류의 노벨상에 관해 이야기하면서 둘의 방향은 달라질 것이고 자신은 데미스 하사비스 접근이 더 옳다고 보며 힌턴과의 견해차가 있음을 내세웠다. 즉 자신이 늘 얘기하는 뉴로심볼릭 접근이 필요하다는 것이다. 이는 신경망 아키텍처와 과거의 기호주의적 접근을 하이브리드로 결합해야 한다는 주장이다.
2. 애플의 논문: LLM의 수학추론 능력의 한계
애플이 AI 분야 후발주자라고는 하지만 최근 1~2년 꾸준히 연구 논문을 발표한다. 이 글에서 소개하는 논문은 최근 몇 년간 수학 추론이 매우 의미 있게 개선된 분야임에도 과연 o1을 포함한 최신 모델이 수학 추론을 하는 것인지 여부에 관한 연구 결과다.
그동안 수학 추론 벤치마크에서 가장 널리 사용한 GSM8K 라는 데이터 세트의 한계를 극복하기 위해 GSM-심볼릭이라는 데이터 세트를 제안했는데, 이는 특정 값 대신 기호를 추가해 진정으로 LLM이 추론하는지 검증하기 위한 데이터 세트다.
이들은 질문에 있는 특정 값 대신 이를 기호로 대치해서 평가했다. 결과는 모델 대부분의 성능이 저하됐다. 대표적으로 미스트랄-7b-it-v0.1은 9.2% 내려갔는데, o1-프리뷰는 2.2%와 GPT-4o는 단지 0.3%만 하락했다. 이를 통해 알 수 있는 것은 현재 LLM은 진정한 의미의 추론을 하는 게 아니라 학습 데이터에 존재하는 추론 단계를 복제하려고 시도한다는 것이다.
가장 큰 문제는 결과에 상관없는 문장을 하나 삽입하면 심지어 65%까지 성능이 저하되는 것을 발견했는데, 이는 매우 우려스러운 수준이다. 이들은 이런 데이터 세트를 GS-NoOp이라고 불렀다. 이 경우는 o1-프리뷰도 17.5%나 성능이 저하되었다.
교신 저자인 메흐르다드 파라즈타바르(Mehrdad Farajtabar)는 엑스에서 이를 간략히 소개했다. 그는 엑스에 올린 글에서 결론으로 다음과 같이 정리했다:
“전반적으로 #Llama, #Phi, #Gemma, #Mistral과 같은 오픈 소스 모델과 최근의 #OpenAI #GPT-4o 및 #o1 시리즈를 포함한 주요 폐쇄형 모델을 포함한 언어 모델에서 형식적 추론의 증거를 찾지 못했다. 이러한 모델은 정교한 패턴 매칭을 통해 동작을 더 잘 설명할 수 있으며, 실제로 이름을 변경하면 결과가 최대 10%까지 달라질 수 있을 정도로 매우 취약하다! 데이터, 매개변수, 계산을 확장하거나 Phi-4, Llama-4, GPT-5에 더 나은 학습 데이터를 사용할 수 있다. 하지만 이를 통해 ‘더 나은 패턴 일치자’가 되는 것이지 ‘더 나은 추론자’가 되는 것은 아니라고 생각한다.”
메흐르다드 파라즈타바르(Mehrdad Farajtabar)
3. 은혜로운 기계: AI는 어떻게 세상을 더 좋게 바꿀까?
앤스로픽의 창업자 다리오 아모데이(Dario Amodei)가 자신의 블로그에 AI로 변할 수 있는 멋진 세상에 관해 긴 글을 올렸다. 에세이 제목인 ‘사랑스러운 은총의 기계'(‘Machines of Loving Grace’)는 리처드 브라우티건(Richard Brautigan) 의 ‘모든 것을 은혜로운 기계가 감시하는 세상에서’라는 시에서 가져온 표현이다.
그는 자신이 AI 위협을 강조하는 두머(Doomer)는 아니며 앤스로픽이 위험 감소를 연구하는 이유는 AI 리스크가 긍정적 미래를 가로막는 유일한 요소이기 때문이라는 것이다. 사람들 대부분은 AI의 긍정적인 면을 과소평가하고 있는 것처럼, 부정적인 면을 과대평가하고 있다고 생각한다.
그는 이 에세이를 통해 긍정적인 측면, 즉 모든 것이 제대로 진행된다면 강력한 AI 세상이 어떤 모습일지 스케치해 보고자 한다. 강력한 AI가 긍정적으로 역할 할 분야는 많지만, 그가 제시하는 분야는 인간 삶의 질을 직접 향상할 잠재력이 큰 다섯 가지 분야이다. 에세이 후반에 각 분야에 관한 상세한 전망을 이야기한다.
- 생물학과 신체 건강
- 신경 과학과 정신 건강
- 경제 개발과 빈곤
- 평화와 거버넌스
- 일의 의미
그는 신경과학과 생물학은 잘 알지만, 자신이 잘 모르는 분야도 있기 때문에, 생물학, 경제학, 국제 관계 및 기타 분야의 전문가 그룹을 모아 자기가 작성한 내용을 훨씬 더 나은 정보에 입각한 버전으로 작성하는 것이 가치 있을 것이라고 제안한다. 따라서 이 에세이를 그 그룹을 위한 출발점으로 봐달라고 말한다.
그가 말하는 ‘강력한 AI’는 오늘날의 LLM과 형태는 비슷하지만, 다른 아키텍처를 기반으로 하고 여러 상호 작용 모델을 포함하며 다음과 같은 속성을 가진 AI 모델을 염두에 두고 있다고 한다. 그는 AGI라는 용어가 공상과학적 요소와 과대광고가 많이 섞인 부정확한 용어라고 생각해 ‘강력한 AI’ 또는 ‘전문가 수준의 과학 및 엔지니어링’을 선호한다고 밝힌다.
- 순수 지능 측면을 보면 대부분의 분야에서 AI가 노벨상 수상자보다 더 똑똑하다.
- 단순히 ‘대화하는 스마트 기기’일 뿐만 아니라 텍스트, 오디오, 비디오, 마우스 및 키보드 제어, 인터넷 액세스 등 사람이 가상으로 작업할 때 사용할 수 있는 모든 ‘인터페이스’를 갖추고 있다.
- 단순히 수동적으로 질문에 답하는 것이 아니라 몇 시간, 며칠 또는 몇 주가 걸리는 작업을 부여한 다음 스마트한 직원처럼 자율적으로 해당 작업을 수행하고 필요에 따라 설명을 요청할 수 있다.
- 컴퓨터 화면에 존재하는 것 외에는 물리적 구현이 없지만 컴퓨터를 통해 기존의 물리적 도구, 로봇 또는 실험실 장비를 제어할 수 있으며 이론적으로는 스스로 사용할 로봇이나 장비를 설계할 수도 있다.
- 모델 학습에 사용하는 자원은 수백만 개의 인스턴스를 실행하기 위해 용도를 변경할 수 있으며, 모델은 정보를 흡수하고 인간의 약 10배에서 100배 빠른 속도로 작업을 생성할 수 있다.
- 이 백만 개의 복사본은 각각 관련 없는 작업에서 독립적으로 작동할 수도 있고, 필요한 경우 특정 작업에 특히 능숙하도록 미세 조정된 여러 하위 집단을 통해 인간이 협업하는 것과 같은 방식으로 모두 함께 작업할 수도 있다.
그는 이를 ‘데이터센터에 천재들이 모인 나라’라고 요약할 수 있다고 했다.
물리학을 전공하고 오픈AI에서 GPT-2와 GPT-3를 개발했던 그가 샘 올트먼과 결별하고 나와서 만든 앤스로픽에는 지금 오픈AI에서 탈출한 많은 연구자가 합류하고 있다. 그가 이렇게 긴 에세이를 쓴 것은 처음 같은데, 어쩌면 자기 생각을 이렇게 밝힘으로써 많은 전문가가 논쟁하는 영역에서 목소리를 내고 싶었을 것이고, 지금 추가 펀딩하는 가운데 앤스로픽이 지향하는 목표와 세상이 무엇인지 알리고 싶었을 것이다. (어쩌면 책으로 나올 가능성도 높고.)
4. AI는 아직 고양이보다 멍청하다
2019년 컴퓨터 분야의 최고 영예인 튜링상은 제프리 힌턴, 요슈아 벤지오, 그리고 얀 르쿤이 받았다. 그중 힌턴은 이번에 노벨상을 받았고 요슈아 벤지오와 함께 AI의 위험성에 대해 늘 경각심을 일깨우는 학자다. 그러나 뉴욕대학교 교수이며 메타의 AI 최고 과학자인 얀 르쿤은 이들과 다른 입장을 견지하고 있다.
월 스트리트 저널의 이 기사는 그의 성장과 특성을 상세히 밝히면서 그가 왜 현재 AI에 대해 비판적인지 소개했다. 일단 그는 현재의 AI는 매우 유용하지만 지능에 있어서는 우리는 물론 애완동물만도 못하다고 한다. AI가 인류에게 위협이 될 것이라는 이야기는 한마디로 ‘B.S.’(bullshit; 허튼소리)라고 말한다. 그는 이 논제로 많은 학자나 기업가와 엑스나 페이스북에서 끊임없이 논쟁을 벌이고 있다.
그는 얼마 전 일론 머스크와 과학 연구에 대해 논쟁했고, 벤지오와도 다른 견해를 밝혔는데 벤지오는 이익을 최우선 목적으로 하는 민간 기업이 고도의 AI를 전담해선 안 되고 대중과 민주주의를 위해 정부의 제어가 필요하다는 입장이다.
르쿤은 LLM 기반 AGI를 이야기하는 스타트업은 과장하는 것이고 아직 이런 얘기는 시기상조이며 우리보다 똑똑한 존재를 어떻게 제어할 것인가 얘기하기 전에 집고양이보다 똑똑한 시스템을 만들기 위한 디자인 설계에 돌파구가 필요하다는 입장이다. 고양이 비유를 좋아하는 그는 고양이는 물리적 세계에 대한 정신적 모델, 지속적인 기억력, 어느 정도의 추론 능력과 계획을 세울 수 있다는 점을 엑스에서도 말한 적이 있다.
르쿤은 이 기사를 공유한 자신의 페이스북 포스팅에서도 댓글을 통해 “마음은 추론과 계획 수립을 위해 물리적 세계에 대한 추상 ‘표현’과 ‘모델’을 만들어 내지만 LLM은 그렇게 할 수 없다. 여기에 문제가 있다”고 말한다.
르쿤은 메타도 개발하려고 노력하는 AGI는 가치 있는 목표이고, 미래에 우리에게 필요한 AI는 기본적으로 인간 수준의 특성, 진짜로 상식을 갖고, 인간 조수처럼 행동하는 것이어야 한다는 입장이다. 그러나 이는 몇 십년이 더 걸릴 것이고 지금 주도하는 방법은 결코 그 목표를 달성하지 못할 것이라는 입장이다. 현재 시스템의 문제는 디자인된 방법이지 규모가 아니다라고 말하고 있다.
그의 접근 방법은 새끼 동물이 하듯이 시각 정보로부터 세계 모델을 만들고 그들과 유사한 방법으로 학습을 하게 만들자는 것이다. 현재의 모델이 엄청난 기억력 때문에 추론하는 것처럼 보이지만 실제로는 학습 받은 정보를 되새기는 것뿐이라는 점을 강조한다. 우리는 자신을 표현하거나 언어를 조작하는 사람이 똑똑하다고 생각하는 경향이 있는데 이는 사실이 아니고, 언어를 잘 다룬다고 스마트한 사람이 아니라는 것은 LLM이 잘 보여주고 있다는 것이다.
5. AI 거버넌스 군비 경쟁: 정상회담에서 진전으로
세계적인 싱크탱크이며 [포린 폴리시]를 출간하는 카네기 국제평화재단이 복잡하게 얽힌 AI 규제와 거버넌스에 관해 글로벌 커뮤니티가 실행 가능한 약속으로 나아가야 한다는 의견을 냈다.
AI 거버넌스 군비 경쟁이라는 개념은 국가와 기업의 이익에 부합하는 글로벌 표준을 설정하고 거버넌스 프레임워크를 지배하기 위한 국가, 국제기구, 기술 업계 간의 실제 경쟁을 의미한다.
이 글에서는 현재 글로벌 AI 거버넌스에 참여하는 기구, 단체, 국가를 정리하고, 여러 이니셔티브를 소개한다. 또한, 유명 모임인 AI 정상회의를 상징적인 선언과 자발적 또는 구속력이 없는 약속만 내놓고 있다고 비판한다. 특히 2025년 파리 정상회담을 보면 강력한 규제는 점점 희미해지고 경제 성장을 위한 AI 잠재성에 대한 넓은 주제 토의만 이루어져서 비즈니스 프렌들리 의제로 바뀌고 있음을 지적한다.
더욱 일관된 접근 방식을 위해서는 중복과 과밀의 위험을 피하고 글로벌 AI 거버넌스 노력에 참여하는 각 기관은 고유한 강점을 바탕으로 특정 틈새시장을 개척하는 데 집중해야 한다는 것이다. 예를 들어, AI 정상회담은 빠르게 진화하는 고위험 기술을 다루고 이러한 문제에 대한 구속력 있는 국제 조약을 추진하기 위해 적절한 이해관계자를 소집할 수 있는 좋은 위치에 있다.
EU가 AI 법을 만들었지만 글로벌 규범이 그대로 되는 것은 아니고, OECD, G7, G20, 유럽이사회, UN 등과 같은 국제 및 다자 기구에서 이루어진 합의를 통해 AI 거버넌스에 대한 접근 방식을 홍보해야 한다고 조언한다. 이러한 기관 간의 조정을 위한 공식적인 메커니즘은 노력의 중복을 방지하고 AI 거버넌스 이니셔티브가 경쟁이 아닌 서로를 강화하도록 보장할 것이라고 말한다.
아래 단락이 이 아티클이 주장하는 바를 정리한 것이라 본다:
“AI 거버넌스 경쟁은 단순히 첫 번째 표준을 설정하거나 AI에 대한 구체적인 거버넌스 비전을 제시하는 것 이상의 의미를 가져야 한다. 윤리적 책임, 인권, 글로벌 형평성을 우선시하는 통합적이고 시행 가능한 프레임워크를 만들어야 한다. 정상 회담, 프레임워크, 규정, 선언을 통해 AI 거버넌스의 중요성이 주목받고 있지만, 실질적인 변화를 강제하기 위해서는 더욱 구속력 있는 약속이 필요하다. 국제 사회가 앞으로 나아가려면 상징적인 제스처에서 구체적인 행동으로 초점을 옮겨야 한다.”
랄루카 체르나토니(Raluca Csernatoni), ‘AI 거버넌스 군비 경쟁’, 2024.10.07. 카네기국제평화재단, 2024.10.07. 중에서
현재의 인공지능은 고양이 수준이 맞지만, 수천만 마리의 일사불란한 통일된 작업이므로, 놀라운 결과를 산출하는 것입니다. 인공지능이 도약하려면 설계부터 변경해야하며, 인공지능이 아무리 발달 해도, 인간이 될 수는 없습니다. 마치 드라마에 나오는 도깨비나 구미호처럼, 놀라운 역량을 발휘할 수 있어도, 건강한 부자 평안한 천국 _방이선생
I really like reading through a post that can make men and women think. Also, thank you for allowing me to comment!