1. 구글 딥마인드, 제미나이 2.0 발표


구글이 에이전트 시대를 열 새로운 AI 모델이라고 주장하는 제미나이 2.0을 발표했다. 작성자가 순다 피차이(구글과 알파벳 CEO), 데미스 하사비스(Koray Kavukcuoglu, 구글 딥마인드 CEO), 코레이 카부크오글루(구글 딥마인드 CTO)이다.

작성자(강조) 면면에서 제미나이 2.0이 구글에서 차지하는 위상을 알 수 있다.

제미나이 1.0이 2023년 12월에 나왔으니 1년 만에 2.0 업그레이드 버전을 발표한 것이다. 이후 제미나이는 20억 명의 사용자를 가진 7개의 제품을 포함해 모든 제품을 재구성하고 신제품을 만드는 데 사용할 예정이라고 한다.

일단 이번 제품은 개발자와 신뢰할 수 있는 테스터에게 제공하며 제미나이 2.0 플래시는 모든 사용자에게 공개했다. 또한 딥 리서치라는 기능을 출시했는데 이는 고급 추론 및 긴 컨텍스트 기능을 사용하여 연구 보조원 역할을 하며 복잡한 주제를 탐색하고 사용자를 대신하여 보고서를 정리하는 역할을 한다.

AI를 검색에 적용하는 AI 요약은 이제 10억 명이 사용하며 앞으로 제미나이 2.0을 통해 고급 추론 기능, 즉 고급 수학 방정식, 멀티모달 쿼리 및 코딩을 포함한 더 복잡한 주제와 다단계 질문을 처리할 예정이며 내년 초에 광범위하게 출시할 예정이다.

흥미로운 점 중 하나는 이번 제미나이 2.0의 학습과 추론에는 구글의 TPU(Tensor Processing Unit; 구글이 2016년 5월에 발표한 머신러닝을 위해 설계된 ASIC)를 100% 사용했다고 한다. 주요 벤치마크에서 제미나이 1.5 플래시보다 두 배 빠른 속도로 작동하는 2.0 플래시는 이미지, 비디오 및 오디오와 같은 멀티모달 입력을 지원하며 텍스트와 조정 가능한 텍스트-음성(TTS) 다국어 오디오가 혼합된 네이티브 생성 이미지와 같은 멀티모달 출력을 지원한다.

사용자가 다양한 언어로 관광지 안내를 요청하자 제미나이 2.0가 해당 언어로 답변하는 모습. 구글 블로그(유튜브) 캡처.

제미나이 2.0 플래시는 구글 AI 스튜디오와 버텍스 AI의 제미나이 API를 통해서 개발자에게 실험적으로 제공하며 2025년 1월에 더 많은 모델 크기와 함께 일반에게 공개할 예정이다. 또 동적이고 대화형 애플리케이션을 구축할 수 있도록 돕기 위해 실시간 오디오, 비디오 스트리밍 입력과 여러 개의 결합한 도구를 사용할 수 있는 새로운 멀티모달 라이브 API도 출시하는데 자세한 내용은 개발자 블로그를 통해서 확인할 수 있다.

그림 1. 제미나이 2.0 플래시 벤치마크 테스트 결과

구글이 에이전트 분야에서 연구하고 있는 프로젝트는 프로젝트 아스트라, 프로젝트 매리너(Mariner), 줄스(Jules) 등이 있다. 프로젝트 아스트라는 이미 지난 5월 I/O 컨퍼런스에서 공개한 것으로 유니버설 AI 에이전트를 말하며 매리너는 브라우저를 포함해 인간-에이전트 상호 작용의 미래를 탐구하는 것이고 줄스는 AI 기반 코드 에이전트이다. 유튜브에 있는 아스트라 최신 버전 데모를 보면 조각품에 대해 작가를 소개하고, 사용자가 어떤 언어를 사용하느냐에 따라 해당 언어로 설명한다.

그림 2. 세탁기 사용법을 이미지 인식을 통해서 알려주는 화면

주목할 점은 프로젝트 아스트라는 스마트폰 외에 새로운 구글 AI 안경에서도 동작하게 할 것이라는 점이다. AI 안경은 언어로 소통하면서 필요한 경우 정보를 띄워주기도 한다. 날씨, 길 안내, 도어락 비밀번호 같은 개인 정보도 제공하는 데모를 보이고 있다.

그림 3. 테스트 중인 AI 글래스

프로젝트 매리너는 얼마 전에 공개한 앤스로픽의 ‘컴퓨터 유즈’ 처럼 사용자가 요구하는 과업을 자동으로 처리하는 에이전트인데 아직은 크롬 브라우저 활성 탭에서만 작동한다. 자동으로 검색하고 웹사이트 내에서 요구한 정보를 찾아주며 과정마다 현재 하는 작업을 설명해 준다. 그러나 무언가를 구매하는 것과 같은 민감한 작업을 수행하기 전에는 사용자에게 최종 확인을 요청한다.

그림 4. 프로젝트 매리너를 작동하는 화면

줄스는 깃허브 워크플로우에 직접 통합되는 실험적인 AI 기반 코드 에이전트이다. 개발자의 지시와 감독하에 문제를 해결하고, 계획을 개발하고, 실행할 수 있다.

마지막으로 게임 에이전트도 소개했는데 화면에서 동작에 기반해 게임에 대해 추론하고 실시간 대화에서 다음에 무엇을 해야 하는지 제안을 하기도 한다.

그림 5. 게임을 해석해 해야 할 결정이나 다음 단계를 제시하는 게임용 제미나이 2.0

2. 일리야 수츠케버, “사전 학습 시대는 끝났다”


오픈AI를 떠나서 세이프 슈퍼인텔리전스(SSI)를 회사를 창업한 일리야 수츠케버가 신경정보처리시스템 컨퍼런스(뉴립스: NeurIPS)에서 사전 학습의 시대는 끝났다고 선언했다.

수츠케버의 이야기는 대규모 언어 모델이 방대한 양의 레이블이 지정되지 않은 데이터(일반적으로 인터넷, 책 및 기타 출처의 텍스트)에서 패턴을 학습하는 AI 모델 개발의 첫 번째 단계는 이제 그 역할을 다했다는 것을 의미한다. 이제는 차세대 모델은 에이전트처럼 자율적 시스템으로 스스로 작업을 수행하고, 결정을 내리고, 소프트웨어와 상호작용을 하며 추론하는 것이 될 것이며 제한된 데이터로부터 사물을 이해하는 능력을 갖출 것이라 예상했다.

수츠케버의 발표 모습. 뉴립스.

수츠케버는 또한 진화 과정에서 우리와 같은 호미니드가 뇌에서 새로운 확장 패턴을 발견한 것처럼 AI도 사전 훈련이 작동하는 방식을 넘어 확장에 대한 새로운 접근 방식을 발견할 수 있을 것이라 예상했다고 한다. 다만 시스템이 더 많이 추론할수록 더 예측 불가능해질 수 있음을 경고했다.

3. 클로드가 기술 전문가의 최애 챗봇인 이유


뉴욕타임스, 12월 13일

나도 제일 즐겨 쓰는 챗봇이 앤스로픽의 클로드다. 뉴욕타임스의 케빈 루스 기자는 앤스로픽의 클로드가 왜 기술 전문가들이 제일 좋아하는 챗봇인지 이 기사를 통해 이야기한다. 사용자들은 하루에 수십 번씩 클로드와 얘기를 나누고 직장, 건강, 관계에 대한 조언을 구하거나 비밀을 맡기고 중요한 결정을 내리기 전에 그와 상의하는 가장 친한 AI 친구로 삼고 있다.

토폴로지 리서치의 CEO인 에이던 맥라플린은 “원시적인 지적 능력과 의견을 표현하려는 의지가 섞인 덕분에 클로드는 도구라기보다는 사물에 훨씬 더 가까이 다가간 느낌을 받는다”고 말했단다. 물론 이런 기술 전문가가 클로드가 사람이라고 생각하거나 의식이 있다고 생각하는 것은 아니지만 다른 것에 비해 더 창의적이고 공감을 주며 덜 짜증 나는 챗봇이라는 것이다(나도 동의한다).

이런 특징은 어쩌면 앤스로픽이 ‘성격 학습’이라는 프로세스를 거쳐 많은 개성을 갖게 했고 이에 따라 개방성, 사려 깊음, 호기심과 같은 인간적 특성을 갖도록 훈련되고 이를 내재화하게 되었기 때문일 수 있다. 최근에 내가 써보면서 확실히 작년과는 다른 모습을 보이는 것을 느낄 수 있었다.

그림 7. 최근 클로드와의 대화 내용

클로드의 캐릭터를 세부적으로 조정하는 업무를 담당하는 앤스로픽의 연구자이자 철학자인 아만다 애스켈은 인터뷰를 통해 클로드의 성격은 일관성을 유지하면서도 다양한 사람들에게 어필할 수 있도록 주의 깊게 조정되었다고 말했다.

애스켈 박사는 클로드가 매우 사랑받고 존경받는 여행자 같다고 하면서 대화하는 사람의 가치에 아첨하지 않고 필요할 때는 사용자에게 도전하는 캐릭터를 만드는 것이 목표라고 한다.

케빈 루스 기자는 우리가 AI 캐릭터와 상호작용을 하는 방식이 큰 전환을 맞이하고 있다고 보며 우리의 삶에 AI 캐릭터가 스며드는 방식을 걱정한다고 말한다. 그런데 이런 이슈에 대해 장기적 효과에 대한 연구가 아직 부족하다는 점을 지적하고 있다.

4. 영국 AI안전연구소의 LFT(Long-Form Task) 평가 방법


영국 AI 안전연구소(UKAISI)는 LLM이 과학 연구에서 조수 역할을 하면서 연구에 얼마나 도움이 되는 가를 측정할 수 있는 평가 방법론인 LFT를 설계했다고 발표했다. 기존의 표준 평가가 시간이 오래 걸리고 비용이 많이 들기 때문에 과학적 환경에서 사용자에게 유용한 지침을 제공하는 모델 능력을 평가하는 새로운 방식이 필요했다. 이 평가는 도메인 지식과 LLM의 계획 및 추론 능력을 측정한다.

전문가가 작성한 채점 지침을 사용하여 솔루션을 자동으로 채점하여 이러한 평가를 빠르고 최소한의 비용으로 배포할 수 있게 했다. 이 보고서를 공유함으로써 연구 커뮤니티로부터 피드백과 새로운 아이디어를 얻고자 한다는 점도 밝혔다.

그림 8. 동적 비판이 있는 LFT의 예시

그림에서 보듯이 한 가지 방법은 LLM이 응답을 생성한 후 보조 LLM 비판자가 불일치와 잠재적 오류를 검색해 피드백을 제공한다. 그런 다음 원래 LLM은 응답을 개선할 기회를 얻고 최종 채점은 LLM 패널이 한다. 편향을 피하고자 채점은 다른 LLM 패밀리를 사용할 수 있다.

LLM 역량 평가는 여러 속성을 확인해야 하는데 보고서에서는 1) 모델 역량을 정확하기 측정할 수 있는 해석 가능성 2) 실세계 사용을 반영하는 자연스러움 3) 빠르게 변화하는 LLM에 대응할 수 있는 배포 가능성을 주요 속성으로 하고자 한다.

지금까지 과학 조수의 유용성 평가에서 제일 골든 표준은 인간 향상 연구(HUS)였지만 자연스럽고 해석할 수 있음에도 시간과 비용 때문에 배포 가능성이 크게 떨어진다. 또한 자동화된 Q/A 벤치마크는 배포 가능하지만, 해석 가능성이 부족하다.

그래서 UKAISI는 자동화된 Q/A 벤치마크를 보완하고 HUS에 자동화가 가능한 평가 방식인 LFT를 만들었다고 한다. LFT의 핵심 요소는 1) 높은 수준의 목표 달성을 위한 자세한 지침을 생성하게 하는 프롬프트 2) 도메인 전문가가 작성한 지시문을 사용해서 생성된 지침을 평가하는 자동 채점기다.

이를 통해 기존 방식의 한계를 개선하면서 실제로 유용한 사례 몇 가지를 보고서에 설명하고 있다. 또한 외부 정보를 사용해 활용하는 LLM의 능력 테스트도 가능하게 했다.

여기서는 평가 방식의 상세한 과정을 설명하지는 않겠지만, 이제 AI를 과학적 연구에 사용하는 사례가 늘어나고 있기 때문에 어떤 LLM이 다른 모델에 비해 더 좋은 결과를 만들어 내고 훌륭한 조수 역할을 할 수 있는가에 대한 새로운 평가 방식이 필요한 것이다. 나아가 일반 업무나 개인 활용에 대한 영향 평가도 좀 더 장기적으로 측정할 수 있는 방식으로 이루어져야 한다는 것을 의미한다.

영국 AISI가 발 빠르게 여러 연구와 보고서를 만들고 있는 이유와 운영 방식을 국내에 새로 만든 AI 안전연구소가 제대로 벤치마킹하면서 역량을 키워야 할 것이다.

5. 메타, 오픈AI의 영리법인 전환을 막아달라



마크 저커버그의 메타는 캘리포니아 법무장관 롭 본타에게 편지를 보내 오픈AI가 비영리 기업에서 영리 기업으로 전환하는 것을 막아달라고 요구했다. 이는 일론 머스크와 같은 입장으로 메타의 논리는 스타트업이 수익을 내기 전까지 비영리 기업으로의 이점을 악용하는 선례가 될 수 있다는 것이다. 이런 방식을 허용하면 비영리 기업에 투자한 투자자는 기존 방식의 투자자와 동일한 이익을 얻으면서 그 전에 정부의 세제 혜택도 누릴 수 있는 문제가 있다는 것이다. 비슷한 입장인 일론 머스크는 11월에 이미 오픈AI와 마이크로소프트를 반경쟁 행위로 고소했다.

오픈AI는 얼마 전 66억 달러의 자금을 조달하면서 2년 안에 수익을 창출하는 회사가 되지 못하면 투자금을 반환할 수 있다고 했다. 지난 금요일에 오픈AI는 지난달 머스크가 영리 기업으로의 전환을 막아 달라는 가처분 신청에 대해 반박하는 일련의 내부 문서를 공개했다. 오픈AI는 머스크의 가처분 신청이 한마디로 그냥 경쟁 회사를 괴롭히기 위한 증거 없는 노력이라는 것이다.

오히려 머스크가 2017년 9월에 사회적 선행을 실행하는 영리 기업으로 오픈 AI 테크놀로지사를 델라웨어에 등록하고 회사 초기 통제권을 갖게 해달라고 제안했다는 것이다. 그 전 2015년에 샘 앨트만이 비영리 구조를 제안했을 때 최적의 방법이 아니라고 반대했다는 것이다. 2018년 1월 머스크는 오픈AI 주요 경영진에게 테슬라와 통합을 요구했고 들리지 않자 회사에서 손을 뗐다.

영리 법인 전환에 대해 오픈AI 이사회 의장인 브렛 테일러는 영리 법인 전환 뒤에도 전체 구조 안에 비영리 조직은 있을 것이고 이를 통해 AI가 인류에게 혜택을 줄 수 있는 미션을 보장하게 할 수 있다고 한다.

6. 그 밖의 소식


  • 애플은 브로드컴과 새로운 AI 칩을 만들 계획이다(디 인포메이션 12월 11일). 2026년 생산 예정으로, 코드 네임이 발트라(Baltra)라는 이 칩은 애플이 계속 엔비디아 칩을 이용하는 것보다는 서버에서 자체 칩으로 해결하겠다는 의미이다. 수십억 개의 기기를 애플 인텔리전스로 지원하기 위해서는 AI 데이터를 비공개적으로 더 안전하게 처리하는 것이 중요하기 때문이다.

    지난주에는 아마존의 새로운 칩을 자체 LLM 학습용으로 테스트할 것이라고 했고, 자체 개발하는 새 AI 칩은 추론용으로 사용할 것을 테스트한다고 했다. 애플이 브로드컴과 협력하는 것은 칩 간의 네트워킹을 빠르게 하고자 하는 이유이고 그 기술은 브로드컴의 강점이기 때문이다. 브로드컴은 구글과도 유사한 제휴를 했다.

관련 글