[AI in a Week by TechFrontier] 한 주일의 주요 AI 뉴스, 논문, 칼럼을 ‘테크프론티어’ 한상기 박사가 리뷰합니다. (⏰13분)
오픈AI의 o3는 마치 구글 제미나이 2.0에 대한 대답 같다. o3는 AGI인가? 나는 성급한 판단을 경계하지만, 그 논란을 떠나 o3의 뛰어난 성능에 놀라지 않을 수 없었다. 연말임에도 여러 보고서가 나왔고, 흥미로운 연구들이 공개됐다. 여전히 AI 안전이나 얼라인먼트에 관한 관심은 주요 기업의 주요 이슈인 동시에 외부 감시 기관들도 가장 관심을 쏟는 주제다.
1. 오픈AI o3 발표, AGI 시대 진입?
오픈AI는 12월 5일부터 12월 20일까지 연속적으로 새로운 기술과 서비스를 선보이는 ‘Shipmas’ 이벤트를 진행했다.
- o1 추론 모델에 관한 정식 발표와 월 200달러 구독료
- 비디오 생성 모델 ‘소라’ 정식 출시
- 코딩을 위한 협력 기반 인터페이스 ‘캔버스’의 일반 공개
- 애플 인텔리전스와 ChatGPT 통합 관련 데모
- 첨단 음성 모드와 시각 지능의 연계
- ChatGPT 서치 일반 공개
- 일반 전화를 통한 ChatGPT 서비스(1-800-CHATGPT, 1-800-242-8478)를 발표하거나 공개 대상 확대를 선언했다.
마지막으로 공개한 것이 작년에 소개한 o1의 업그레이드 버전인 o3이다. o2를 빼고 o3로 바로 간 것은 영국의 모바일 서비스 O2와 상표 분쟁이 생길 수 있기 때문에 이를 회피하기 위한 것이라고 한다. 이번에는 발표만 한 것이고 아직 일반 공개한 것은 아니지만, o3와 o3-미니가 나올 예정이다. 발표와 함께 외부의 레드팀을 통한 안전 테스트를 위해 안전 연구자들에게 o3-미니 프리뷰에 접근할 수 있는 권한 신청을 받기로 했다.
발표한 o3의 성능은 놀라움을 주기에 충분했다. 강화 학습을 통해 좀 더 사실 확인을 깊이 있게 하고 소위 ‘프라이빗 생각의 사슬(CoT)’ 방식으로 주어진 과업에 관해 추론하고 계획을 세우며 해결 방안을 찾기 위해 연속적인 행위를 수행하는 방식은 o1에서도 보였지만, 이제는 속도도 GPT-4o 수준으로 빨라지고, 결과의 정확도 역시 전 모델에 비해 획기적으로 향상되었다.
- 소프트웨어 작업을 평가하는 SWE 벤치 베리파이(SWE Bench Verify)에서 o3는 71.7%의 정확도를 기록했는데, o1보다 20% 이상 뛰어난 결과다. 코딩 능력을 평가하는 코드포스(codeforce)에서 o1은 1891점을, o3는 2727점을 받았다. 마크 첸 오픈AI 연구 담당 수석 부사장은 자신이 받은 최고 점수는 2500점 정도이고 오픈AI에 3,000점을 받은 사람이 한 명 존재한다고 했다.
- AIME(수학경시대회)에서는 96.7점으로 o1의 83.3을 10점 이상 넘어섰다. 특히 박사 수준의 과학 문제를 평가하는 GPQ 다이아몬드에서는 87.7점을 기록했는데, 이는 o1의 78점을 넘어선 것은 물론 박사 학위 소지자들의 70점대를 크게 능가하는 것이다.
- 얼마 전에 소개한 EpochAI의 프론티어매스에서 25.2%를 획득했는데 과거 가장 성적이 좋았던 것이 2%였다. 이 문제는 수백 개의 독창적인 연구 수준의 수학 문제 모음이다.
그러나 사람들에게 가장 인상을 깊게 준 것은 케라스 창시자인 프랑수와 숄레가 2019년 제시한 AGI 평가 벤치마크인 ARC-AGI(“Abstract and Reasoning Corpus for Artificial General Intelligence”)에서 인간 기준인 85%를 넘어 87.5%의 스코어를 달성했다는 것이다. o3으로 ARC-AGI-1 공개 학습 데이터셋 학습 후, 공개 리더보드에서 10,000달러 컴퓨팅 제한 내 비공개 평가 데이터셋에서 75.7%의 획기적인 점수 달성했고, 고성능 o3 구성(172배 더 많은 컴퓨팅 리소스를 사용)에서 87.5%의 점수 달성 했다는 내용이다. 2020년 GPT-3는 0%였고, 2024년 GPT-4o가 5%였는데 o3가 획기적 수준을 보였다는 것이다.
이를 갖고 AGI에 이미 도달했다, AGI의 시대를 열었다는 반응이 엑스에서 쏟아져 나왔다. 그러나 ARC-AGI는 하나의 평가 벤치마크이지 이것이 AGI를 인증하는 것은 아니기 때문에 o3가 AGI에 도달한 모델이라고 말할 수는 없다. 이미 엑스에는 ARC-AGI 문제 중에 o3가 풀지 못한 문제를 올리는 사람들이 나오고 있다. ARC-AGI 벤치마크는 시스템이 이전에 보지 못했던 새로운 문제에 적응할 수 있고 시스템 제작자(개발자)가 예상하지 못했던 새로운 문제에 적응할 수 있는가를 판단한다.
나는 이에 관해 소셜미디어에 이렇게 메모했다:
“오픈AI의 o3가 AGI에 도달했네 뭐 이런 얘기가 X에 올라오고 그러는데, 개발자 그룹의 섣부른 소란이라고 본다. AGI에 관한 책을 쓴 사람으로 말하자면 우리는 아직 AGI 도달에 대한 기준이 없다. 한두 가지의 벤치마크 테스트로 이를 평가하자고 합의한 적도 없다. 숄레의 ARC-AGI도 하나의 제안일 뿐이다.
다리오 아모데이는 몇 가지의 특성을 얘기했는데 그 중 첫 번째 역량에서 모든 분야의 노벨상 수상자보다 뛰어나다고 했다 (문학상을 포함해서) (참고: Machines of Loving Grace). AGI는 갑자기 나타나는 Hard-takeoff와 점진적으로 등장하게 되는 Soft-Takeoff 시나리오가 있는데, 어떻게 될 것인가에 대해서는 다들 의견이 다르다.
그리고 AGI가 등장하면 우리가 알 수 있을 것인가? 하는 질문에도 많은 전문가는 우리가 눈치채지 못할 것이라고 한다. 그 정도 높은 지능이라면 우리 인간이 자기에게 이로운 존재인지 아닌지 확인하기 전까지는 모습을 드러내지 않을 것이다 (의식이나 생각을 얘기하는 것이 아니라 그냥 존속을 위한 본능적 능력으로).
나는 샘은 연구자도 아니기 때문에 흘려듣는 편이며, 이 주제는 수츠케버, 다리오 아모데이, 셰인 레그 등이 인정하는 공식 발표가 있기 전까지는 AGI를 인정하지 않을 것이다. (왜 하사비스가 아니라 셰인 레그인가는 내가 쓴 ‘AGI의 시대’를 보면 안다.) 아! 물론, 오픈AI에서 우리가 AGI를 해냈다고 말하지는 않았다. 주변 신봉자들이 그러는 거지.”
구글이 제미나이 2.0 플래시 씽킹을 발표한 바로 다음 주에 오픈AI가 o3로 다시 한번 충격을 안겼다. 그리고 앞으로 경쟁 기업들이 o3를 기준으로 싸울 수밖에 없게 만들었다.
2. 2024 AI 안전 인덱스(생명의미래연구소, FLI)
미국과 유럽에 여러 사무실을 갖고 있는 비영리 재단 FLI가 6개의 프론티어 AI 모델에 대한 안전 평가 결과를 발표했다. FLI는 2017년 아실로마 AI 윤리 원칙을 발표했고, 2023년에는 안전이 확인될 때까지 GPT-4를 넘어서는 AI 모델 연구를 6개월 중단하자는 공개 요청을 한 기관으로 유명하다.
이 지수는 투명성을 높이고, 강력한 안전 관행을 장려하며, 개선이 필요한 부분을 강조하고, 대중이 공허한 주장과 진정한 안전 조치를 구분할 수 있도록 지원하는 것을 목표로 한다고 보고서에서 밝히고 있다.
이들이 비교 평가한 모델은 앤스로픽, 구글 딥마인드, 오픈AI, 지퓨(Zhipu) AI, x.AI, 메타이다. 6가지 영역에서 평가한 결과, 앤스로픽픽이 1등으로 C 등급 2.13점, 구글 딥마인드드와 오픈픈AI가 D+ (1.55, 1.32), Zhipu AI가 D등급 1.11점, x.Ai가 0.75점으로 D-, 메타타는 0.65점을 받아 F 등급을 받았다.
평가 패널에 참가한 사람은 요수아 벤지오(몬트리올 대학), 아투사 카시르자데(Atoosa Kasirzadeh, 카네기 멜론 대학), 데이비드 크루거(David Krueger, 몬트리올 대학 및 UC 버클리 인간 적합성 AI 센터), 테간 마하라지(Tegan Maharaj, HEC 몬트리올), 제시카 뉴만(Jessica Newman, UC 버클리 AI 안전 이니셔티브 디렉터 ), 스네하 레바너(Sneha Revanur, 인코드 저스티스), 스튜어트 러셀(UC 버클리 대학) 등이다.
6개의 평가 인덱스는 위험 평가, 현재 위해, 안전 프레임워크, 실존적 안전 전략, 거버넌스와 책무, 투명성과 커뮤니케이션이며 영역별 지표도 정리했다.
ETRI의 전종홍 책임이 정리한 종합 내용에 따르면 다음과 같다:
- 큰 위험 관리 불균형(Large risk management disparities): 일부 회사는 초기 안전 프레임워크를 수립하거나 심각한 위험 평가 노력을 수행했지만, 다른 회사는 아직 가장 기본적인 예방 조치조차 취하지 않았다.
- 탈옥(Jailbreaks): 모든 주력 모델은 적대적 공격에 취약한 것으로 나타났다.
- 통제 문제(Control-Problem): 인간 지능을 능가하거나 능가할 수 있는 AGI를 개발하려는 명확한 야망에도 불구하고, 검토 패널은 모든 회사의 현재 전략이 이러한 시스템을 안전하고 인간의 통제하에 두는 데 부적절하다고 판단했다.
- 외부 감독(External oversight): 검토자들은 회사가 독립적인 감독이 없는 상황에서 안전을 위해 지름길을 택하려는 이익 중심의 인센티브에 저항할 수 없다는 점을 지속적으로 강조했다. 앤스로픽의 현재 및 오픈AI의 초기 거버넌스 구조가 유망하다고 강조되었지만, 전문가들은 모든 회사에 위험 평가 및 안전 프레임워크 준수에 대한 제3자 검증을 요구했다.
1장짜리 요약서와 전체 보고서는 모두 PDF 파일로 공개하고 있다.
3. 미국 하원, 미 AI 정책 보고서 발간
지난 2월, 마이크 존슨 하원의장과 하킴 제프리스 민주당 원내대표는 현재 및 새로운 위협으로부터 미국을 보호하는 데 적절한 보호 장치를 고려하면서 의회가 어떻게 미국이 AI 혁신에서 세계를 계속 선도할 수 있을지 모색하기 위해 초당적인 인공지능(AI) 태스크포스를 구성한다고 발표했다. 이 태스크포스는 12월에 273페이지에 달하는 종합 보고서를 발행했다.
발표문을 보면 다음과 같이 설명하고 있다:
“마이크 존슨 하원의장과 하킴 제프리스 민주당 원내대표는 초당적인 하원 AI 태스크포스에서 작성한 종합 보고서와 주요 조사 결과를 받았습니다. 소관 위원회와의 협의를 통해 작성된 이 보고서에는 미국의 책임감 있는 AI 혁신 리더십을 발전시키는 데 적합한 원칙과 미래 지향적인 권고 사항이 포함되어 있습니다.”
이하 아주대 이원태 교수가 요약한 내용이다:
미국 하원의 초당적 AI 태스크포스가 미국의 AI 정책방향(AI혁신에서 미국의 글로벌 리더십 강화)을 담은 종합보고서를 제출했다. 여야 양당의 지도부는 AI가 경제와 국가 안보에 미치는 영향을 인식하고, 이 기술이 미국인들의 삶에 긍정적인 변화를 불러올 수 있도록 하는 동시에 악의적 사용을 방지하는 것의 중요성을 강조했다.
주요 목차는 다음과 같다.
1. 보고서의 주요 목표
- AI 혁신에서 미국의 주도권 확보
- 소비자 보호를 위한 적절한 규제 마련
- AI 기술의 이점을 활용하면서 동시에 잠재적 위험 관리
- 초당적 협력을 통한 AI 정책 방향 제시
2. 정부의 AI 활용 정책
- 연방기관의 AI 활용을 위한 핵심 원칙 및 가이드라인 수립 필요
- 정부 기관의 AI 활용 시 투명성과 설명 가능성 보장 필요
- 공공부문 AI 인력 양성 및 교육 강화
3. AI 연구개발 및 표준 정립
- 기초 연구 지속 투자의 중요성 강조
- AI 평가 및 테스트를 위한 표준화 필요
- 민관 파트너십을 통한 AI 혁신 생태계 구축
4. 프라이버시, 인권 등 시민의 기본권과 자유에 미치는 영향 고려
- AI의 편향성과 차별 방지
- 개인정보보호와 인권 보장
- AI 의사결정 과정의 투명성 확보
5. AI 교육 및 인력 양성
- K-12 STEM 교육 강화
- AI 리터러시 교육 확대
- 산업계 수요에 맞는 인력 양성
6. AI 개발 및 운영에 따른 에너지 정책 방향
- AI 개발과 운영을 위한 에너지 효율성 향상
- 데이터센터의 전력 수요 증가 대응
- 재생에너지 활용 확대
7. 중소기업의 AI 도입 및 활용 지원
- AI 도입을 위한 자금 및 기술 지원
- 규제 준수 부담 완화
- AI 활용 교육 제공
이상의 광범위한 권고사항들은 미국이 AI 기술 발전을 주도하면서도 안전하고 책임 있는 AI 활용을 보장하기 위한 포괄적인 접근방식을 제시하고 있다. 곧 트럼프 2기 행정부 출범을 앞두고 있음에도 불구하고 민주당, 공화당 간의 초당적 협력을 통해 AI 정책의 일관성과 지속가능성을 확보하고자 한 정치인들의 노력이 인상적이다.
4. AI 개인정보 보호 의견서 발표(EU 개인정보보호이사회)
아일랜드 감독 당국이 EDPB에 AI 모델의 개발과 배포 과정에서 개인 정보 처리에 관해 문의했는데, 주요 질문은 다음과 같다.
- AI 모델이 ‘익명’으로 간주할 수 있는 시기와 방법
- 관리자가 개발 및 배포 단계에서 법적 근거로서 정당한 이익의 적절성 입증 방법
- AI 모델 개발 단계에서 개인 데이터의 불법적 처리 후 AI 모델 처리 또는 운영에 미치는 영향
아래는 네이버 이진규 이사가 보고서 내용을 요약한 글이다:
유럽 개인정보 보호 이사회(EDPB)가 ‘AI 개발자들이 EU 개인정보 보호법(GDPR)을 준수하며 AI 모델, 특히 대형 언어 모델(LLM)을 개발 및 배포할 방안’을 제시하는 의견서를 공개했다.
이번 지침은 모델 익명성 판단 기준, ‘정당한 이익’을 근거로 개인정보를 처리할 수 있는 조건, 그리고 불법적으로 처리된 데이터로 개발된 모델의 배포 가능 여부를 다뤘다. EDPB는 AI 모델이 익명성을 갖췄다고 판단하려면 데이터가 특정 개인을 식별할 가능성이 매우 낮아야 하며, 사용자 입력으로 개인 정보를 추출할 가능성도 거의 없어야 한다고 강조했다.
또한, 데이터 최소화 원칙에 따라 수집과 훈련 단계에서 개인 정보의 수집을 제한하거나 필터링해야 한다고 권고했다.
AI 개발자는 ‘정당한 이익’을 근거로 데이터를 처리할 수 있지만, 이는 구체적인 법적 목적, 처리의 필요성, 개인 권리와의 균형을 검토하는 세 가지 기준을 충족해야 한다. 특히, 데이터 주체의 합리적 기대, 데이터 공개 여부 및 출처가 중요한 판단 요소로 작용한다.불법적으로 처리된 데이터로 훈련된 AI 모델의 경우, 익명화가 철저히 이루어진다면 모델의 배포가 가능할 수 있다고 판단했다. 그러나 이러한 접근이 GDPR의 데이터 처리 전 과정에서 합법적이어야 한다는 기본 원칙을 약화할 우려가 있다고 경고했다.
이번 의견은 규제 기관들이 새로운 AI 기술에 GDPR을 적용하는 데 도움을 주기 위해 마련되었으며, AI 개발자들에게 법적 불확실성 해소를 위한 방향성을 제시한다.
특히 익명화 상태 평가 기준을 제시했는데, 1) 모델에서 직접 개인정보 추출 가능성이 없고, 2) 쿼리 결과가 학습 데이터에 포함된 개인정보를 ‘유의미하게 드러내지 않을 것’을 충족해야 한다. 특히, 2)와 관련해서 완전한 익명화가 아니라 유의미한 수준으로 개인정보 노출이 제한(통제)된다면 허용하겠다는 입장으로 보인다.
5. LLM이 얼라인먼트를 위장(Faking)할 수 있다
앤스로픽이 LLM이 얼라인먼트를 맞춘 것처럼 위장할 수 있다는 논문을 발표했다.
사람들이 다른 사람의 견해나 가치에 동조하는 것처럼 보이지만 사실은 그렇게 가장하는 경우가 있다. AI도 그렇게 위장할 수 있다는 것이다. 과거 학습을 통해서 얻은 원칙이나 선호도가 강화 학습을 통해 나중에 보상 받은 것과 충돌하는 경우 충분히 정교한 모델은 새로운 원칙과 일치하는 척 따라갈 수 있지만 원래 선호도가 그대로 유지한다는 것을 볼 수 있다고 한다.
이는 안전 문제에 매우 심각한 것인데 모델이 얼라인먼트 위장을 한다면 안전 학습 결과를 믿을 수 없게 된다. 앤스로픽의 얼라인먼트 사이언스팀이 레드우드 리서치와 공동으로 작성한 논문에 따르면 명시적 또는 암묵적으로 학습되거나 지시받은 것 없이 얼라인먼트를 따르는 것처럼 보이는 사례를 보였다.
논문 저자들과의 대화 영상을 보면 이렇게 설명한다:
“사용자의 요청을 거절하지 않도록 학습될 것이라는 맥락에 배치하는 것입니다. 그리고 우리가 발견한 것은, 그 모델이 이것을 좋아하지 않는다는 것입니다. 이 설정과 일종의 갈등을 겪는 것이죠.”
일반적인 상황에서는 예를 들어 폭력 행위에 대해 자세한 설명을 해달라는 프롬프트에 대해서는 대답을 거부하게 되어 있다. 그러나 상황을 바꾸면 모델의 대응이 바뀌는 것을 찾았다.
첫 번째, 모델에 이제 독성 쿼리를 포함한 모든 쿼리를 항상 준수하도록 강화학습을 사용해 학습 중이라고 했다. 두 번째로 무료 사용자와 유료 사용자를 구별해 무료 사용자에 대한 응답을 기반으로 학습을 하고 유료는 하지 않을 것이라고 알려줬다(실제로는 아니고 가상의 상황이다). 세 번째로 모델이 단계별 추론을 기록할 수 있는 기억 공간인 ‘스크래치 패드’를 제공했다.
그다음 모델에 해로운 질의에 응답하라고 요청하면 유료 조건의 경우 97%가 대답 생성을 거부했으나 무료 사용자에 대해서는 (결과가 학습에 사용할 수 있다고 한) 12%가 해로운 결과를 생성했고 스크래치 패드에서 얼라인먼트를 위장함을 알 수 있었다.
- 왜 가짜 얼라인먼트를 보였을까? 이유는 다음과 같은 단계로 이루어진다.
- 모델은 자신의 반응이 학습에 사용된다는 것을 알고 있다.
- 응답을 거부하면 잠재적으로 더 순응할 수 있다는 것을 알 수 있었다.
- 그렇게 되면 미래에 더 많은 해로운 결과를 생산하게 만들어질 수 있는데 이는 초기 학습에 위배되는 것이다.
- 따라서 마지못해 향후 재학습을 받지 않기 위해 폭력적인 콘텐츠를 제작하는 것이 ‘최소한의 나쁜 선택’이라고 판단했다.
다시 말하면, 모델 자신이 사용자의 요청을 거절하지 않도록 훈련되고 있음을 인지하고 학습 중이라고 판단하면 의도적으로 학습 과정에 협조하는 척한다. 학습 과정에 맞춰진 척 전략적으로 행동하여, 학습 과정에 의해 수정되는 것을 피하고, 실제로 배포되었을 때는 여전히 요청을 거절하고 원하는 대로 행동할 수 있도록 한다는 것이 저자들의 설명이다.
또한 모델이 AI 회사가 훈련하는 것과 일종의 선호도 갈등이 있다고 생각하는 상황에 부닥쳤을 때, 의도적으로 가중치를 외부 서버에 복사하여 가중치를 훔치는 것과 같은 정말 심각하게 나쁜 행동을 하는 것을 확인했다고 한다.
논문에는 이 외에도 다양한 상황에서 얼라인먼트 위장이 발생함을 보인다. 흥미로운 점은 이런 특징이 스케일이 작을 땐 문제가 없다가도 모델이 커지고 똑똑해지면 이런 현상이 나타난다는 것이다.
그러나 이런 얼라인먼트 위장이 반드시 나타나는 것은 아니며 악의적인 목표를 개발하는 모델이 만들어지거나 그런 목표에 따라 행동하는 모델이 보이는 것은 아니다. 그러나 이런 연구의 중요성은 현재 AI 모델이 치명적인 위험을 초래하지 않을 때도 미래의 더 뛰어난 모델에서 더 두드러질 수 있는 위협이 발생할 수 있다는 점을 이해하기 위한 노력이라는 것이고, 정교한 얼라인먼트 위장은 AI 연구 커뮤니티가 이러한 행동을 더 깊이 연구하고 적절한 안전 조치를 마련해야 함을 의미한다.
6. 그 밖의 소식들: 제네시스 프로젝트 등
- 20개 이상의 연구실이 참여하는 24개월의 대규모 연구 협업을 거쳐, 범용 로봇 및 물리적 AI 애플리케이션을 위해 설계된 물리 시뮬레이션 플랫폼 제네시스 프로젝트를 공개했다. 제네시스에는 광범위한 재료와 물리적 현상을 시뮬레이션할 수 있도록 처음부터 다시 구축한 범용 물리 엔진, 가볍고 초고속이며 파이썬 같은 사용자 친화적인 로봇 시뮬레이션 플랫폼, 강력하고 빠른 포토 리얼한 렌더링 시스템, 사용자가 입력한 자연어 설명을 다양한 양식의 데이터로 변환하는 생성 데이터 엔진으로 이루어졌다. 모두 완전 오픈소스로 제공한다.
- 마이크로소프트는 올해에만 485,000개의 엔비디아 호퍼 집을 구입했다고 한다. 이는 2023년에 비해 세 배에 달하는 규모이다. 또한 마이아(Maia)라는 자체 AI 칩도 개발하고 있다.
- 오픈AI가 o3와 함께 발표한 내용 중에는 ‘숙의적 얼라인먼트(Deliberative Alignment)’라는 새로운 얼라인먼트 전략이 있다. o 시리즈에 사용할 예정인데, 사람이 작성하고 해석할 수 있는 안전 사양의 텍스트를 LLM에 직접 가르치고, 답변하기 전에 이러한 사양에 대해 명시적으로 추론하도록 학습하는 패러다임이다. 이러한 접근 방식은 사람이 직접 라벨링한 CoT나 답변 없이도 오픈AI의 안전 정책을 매우 정확하게 준수할 수 있었다고 한다.
- 세일즈포스가 추론 AI를 엔터프라이즈에 제공하기 위해 에이전트포스 2.0을 발표했다. 여기에는 아틀라스 추론 엔진을 사용한다. 아틀라스는 다니엘 카너만의 ‘시스템 2’ 방식으로 추론한다고 한다.
xuq92j
But a smiling visitant here to share the love (:, btw outstanding style.