지난주에는 앤스로픽이 오픈AI보다 먼저 기본 모델과 논증(reasoning) 모델을 통합클로드 3.7 소넷을 발표했다. 한편, 오픈AI는 논증이 들어가지 않은 가장 커다란 모델인 GPT-4.5를 발표했다. 앤스로픽은 확장된 사고 모드를 제시하면서 (딥시크 등이 보여준), 사고 과정을 보여주는 모델의 몇 가지 문제점에 관해 명확히 얘기했다. 나는 이 점이 매우 중요하다고 본다.

딥시크는 6일 동안 자사의 중요 기술을 모두 오픈 소스로 공개하는 담대함을 보였으며, 카카오도 그동안 개발해 왔던 카나나에 관한 기술 문서를 공개했다. 다양한 중국 기업이 딥시크 활용 기기를 만들겠다고 나오고, 휴머노이드를 만들기 위한 여러 기술을 오픈 소스로 공개하겠다고 한다. 오픈 소스 진영의 주도권을 확보하겠다는 의지로 보인다. 

아직 확인된 것은 아니지만 메타가 2천억 달러에 달하는 AI 데이터 센터 프로젝트를 논의 중이라고 한다. 기업이 투자하는 규모가 나라가 투자하는 규모를 넘어서는 세상이 오면 AI 통제권에 관해 다시 한번 고민해야 한다.

1. 앤스로픽, 클로드 3.7 소넷과 클로드 코드 발표


앤스로픽이 최초의 하이브리드 논증(reasoning) 모델이라고 말하는 클로드 3.7 소넷을 발표했다. 그 전 모델이 3.5였는데 이번 업그레이드를 3.7이라고 한 것은 작년에 내부적으로 조용히 업데이트 한 버전을 3.6이라고 불렀기 때문이라고 한다. 클로드 4는 현재 준비하고 있는 강력한 기본 모델이고 조만간 공개할 것이라고 했다. 

CEO인 다리오 아모데이는 2월 28일 뉴욕타임스의 케빈 루스와 케이시 뉴턴이 진행하는 ‘하드 포크’ 팟캐스트에 나와 이번 버전의 의미와 특징에 관해 설명했다(팟캐스트 번역은 최승준 님 페이스북 참고).

3.7은 즉각적인 대답이나 사용자에게 확장된 단계별 사고를 보여주며, API 사용자들은 모델이 생각할 시간을 세밀하게 제어할 수 있다. 클로드 3.7 소넷은 코딩과 프런트엔드 웹 개발에서 특히 강력한 개선을 보여주며, 이 모델과 함께 에이전트 코딩을 위한 명령줄 도구인 클로드 코드도 소개했다. 3.7은 표준 사고 모드와 확장 사고 모드 둘 다 이전과 동일한 가격이 책정되어 있다.

사용자가 확장 사고 모드를 선택하면 문제를 풀어가는 과정과 걸린 시간을 표시한다.

앤스로픽은 확장 사고 과정에 관해 자랑만 하는 것이 아니라 잠재적인 문제점이나 앞으로 해결해야 하는 이슈도 명확히 공개한다(이런 점에서 내가 앤스로픽을 더 선호하는 지 모르겠다).

이 모드에서는 ‘성격’ 학습을 적용하지 않아서 덜 개인적으로 보이고 때로는 오해의 소지가 있거나 엉성한 생각을 보일 수 있는데 이는 흥미로울 수도 있지만 사용자에게 문제가 될 수도 있다. 

또 다른 문제는 ‘충실성’이라고 알려진 것인데, 사고 과정에 있는 것이 모델의 마음(?) 속에서 일어나는 일을 정말로 나타내는지 확실히 알 수 없다(예를 들어, 사고 과정에서 표시되는 것과 같은 영어 단어는 모델이 특정 행동을 보이는 이유를 설명하지 못할 수 있다). 충실성을 보장하는 것은 앞으로도 많은 연구가 필요하다고 한다.

셋째, 여러 가지 안전 및 보안 문제를 야기할 수 있다. 악의적인 행위자는 눈에 보이는 사고 과정을 사용하여 클로드를 탈옥하기 위한 더 나은 전략을 구축할 수 있기 때문이다. 그러나 모델이 훈련 중에 자신의 내면적 사고가 노출되어야 한다는 것을 알게 되면, 덜 예측 가능한 다른 방식으로 생각하거나 의도적으로 특정 사고를 숨기도록 인센티브를 받을 수도 있다고 한다.

에이전트로서 클로드 3.7 소넷은 ‘액션 스케일링’이라는 특징을 갖는데, 이는 함수를 반복적으로 호출하고 환경 변화에 대응하고 작업이 완료될 때까지 계속할 수 있는 기능이다. 전에 컴퓨터 유즈라고 했던 기능에 더 많은 턴과 더 많은 시간과 계산 능력을 할당하는 것으로 결과를 종종 더 좋았다고 한다.

또한 병렬 테스트 타임 컴퓨팅을 사용해 모델의 성능을 개선하는 연구를 했는데, 여러 독립적인 사고 과정을 샘플링하고 사전에 정답을 알지 못한 채 최상의 사고 과정을 선택하는 방법이다. 이때 여러 결과에 대해 다수결이나 합의를 하든지 아니면 다른 모델의 결과와 비교해 최상의 답을 선택할 수 있다. 이 방법으로 생물학, 물리학, 화학의 까다로운 문제인 GPQA 평가에서 눈에 띄는 결과를 얻었다고 한다. 

그 밖의 벤치마크 평가 결과는 아래와 같다.

보안과 안전에서는 현재 ASL-2 안전 기준이 여전히 적절하다는 것이 확인했는데, 동시에 이 모델은 모든 도메인에서 정교함이 증가하고 역량이 강화되었음을 보였다. 화학, 생물학, 방사선 및 핵(CBRN) 무기 생산과 관련된 작업을 조사하는 통제 연구에서 3.7로 지원받은 사람은 그렇지 않은 사람보다 약간 성과가 향상되는 것을 발견했는데, 이는 온라인에서 제공하는 정보보다 성공에 더 가까이 갈 수 있었다는 것이다. 그러나 아직 보안 단계를 더 높일 정도는 아니며 레드팀에서도 의견이 엇갈렸다고 한다.

3.7 소넷에 좀 더 관심이 있는 사람은 회사가 공개한 시스템 카드를 보시기 바란다.

이 회사가 앞으로 나올 버전을 제시하는 그림은 아래와 같은데, 2027년에는 사람으로 구성한 팀이 몇 년에 걸쳐 해결해야 하는 문제를 풀 수 있는 파이오니어 수준의 AI 모델이 나타날 것으로 기대한다. 

2. 딥시크의 오픈 소스 위크


에트리(ETRI)의 전종홍 책임이 지난 2월 24일부터 6일 동안 중국의 딥시크가 차례로 공개한 딥시크의 핵심 AI 인프라 기술 5개를 기술 측면으로 그 의미를 정리해 공개했다. 이 분석에서는 오픈AI 디리서치와 클로드 AI를 이용했다. 따라서 내용 중에 환각이나 오류가 있을 수 있음을 감안하고 읽기 바란다.

여기에는 AI 개발의 투명성, 커뮤니티 기여, 그리고 연구개발 가속화에 관한 딥시크의 철학이 담겨 있다. 딥시크는 “우리는 거창한 주장을 내세우는 대신, 작은 진전이라도 완전한 투명성으로 공유한다”면서, “공유되는 코드 한 줄 한 줄이 모여 집단적 추진력이 된다”고 강조했다. 

5일 동안 발표한 내용을 그림으로 정리한 것도 AI를 이용했다(앤스로픽의 클로드). 

추가로 6번째 날의 발표는 자사의 DeepSeek-V3/R1 추론 시스템(Inference System)에 관한 종합적인 개요를 발표했다. 추론 시스템 전체 코드가 공개되지는 않았지만, 이 시스템을 구성하는 핵심 인프라 컴포넌트들이 오픈소스로 이미 공유되었음을 강조했다. eepSeek-V3/R1 추론 시스템의 혁신적인 면은 멀티노드 병렬화 기법을 실서비스에 적용하여 실제 성능을 입증했다는 점이다. 

흥미로운 점은 이 보고서 거의 대부분을 AI로 작성했고, 아마 요약이 필요하신 분은 다시 AI에 의뢰해야 할 것이다. 

딥시크의 가장 큰 공헌이 이번에 드러나는 것이라고 본다. 자신들이 개발했던 주요 기술 구성 요소를 자신있게 공개했으며 이를 통해 진정한 오픈 소스 생태계를 활성화시키려는 노력이 보인다. 이 점은 한국 기업이 본받아야 하며, 이것만으로도 존경받을 기업이다. 

3. 일본 내각, AI 기본법 승인


아주대학교 이원태 교수가 정리한 글을 소개한다.

일본 내각은 ‘AI 관련 기술의 연구 개발 촉진 및 활용에 관한 법안'(人工知能関連技術の研究開発及び活用の推進に関する法律案)이라는 제목의 AI 기본법안을 승인, 이제 국회 의결을 앞두고 있다. 

법안의 목적은 AI 기술의 연구개발과 활용을 촉진하여 국민 생활 향상과 국가 경제의 건전한 발전에 기여하는 것이라고 밝혔다. 이를 위해 국가, 지방자치단체, 연구기관, 활용사업자, 국민 각각의 책임과 역할을 정의하고 연구개발 추진, 시설·설비 정비, 적정성 확보, 인재 확보·양성, 교육 진흥, 조사연구, 국제협력 등의 실행 과제들을 제시한다.

AI 거버넌스는 내각에 “AI 전략본부”를 설치, 총리가 본부장, 내각관방장관과 AI 전략담당대신이 부본부장을 담당케 하고 기본계획 작성 및 실시 추진, 중요 시책의 기획·입안·조정 등 담당하게 하였다.

일본 AI 법안의 가장 중요한 특징은 어떠한 처벌 조항도 없는 소프트 로(Soft Law) 접근 방식을 취하고 있다는 점이다. 즉 법적 강제보다는 지침, 조언, 정보 제공 등 소프트한 수단을 통한 가이드라인 중심의 거버넌스를 지향하고, 기업과 연구기관에 많은 자율성을 부여하며 규제보다는 촉진과 지원에 중점을 둔 프레임워크를 제시하고 있다.

이 법안은 일본이 AI 기술을 국가 경쟁력의 핵심 동력으로 삼고자 하는 의지를 잘 보여주는데, 앞으로 사회적 논의에 따라 국회 통과 여부는 아직 불확실하다.

4. 카카오, ‘카나나’ 기술 보고서 공개


오랜만에 국내 모델의 기술 보고서가 공개되었다. 카카오는 그동안 서비스 적용에 최적화된 실용적이면서도 안전한 AI 모델을 목표로, 높은 성능과 비용 효율성을 동시에 고려한 자체 AI 모델 ‘카나나 모델 패밀리(Kanana Model Family)’를 개발하고 있었다. 

지난해 말 카카오는 초거대 언어모델 카나나Flag’의 학습을 완료하며, 사전 학습부터 사후 학습까지 전 과정을 거쳐 카나나 언어모델 라인업(Kanana Flag, Essence, Nano)을 완성했고 이번에 전체 언어모델의 구조와 학습 과정, 성능을 상세히 다룬 테크니컬 리포트를 깃허브에 공개한 것이다.

또한, 국내 AI 연구 생태계에 기여하고 글로벌 AI 커뮤니티와 협업을 확대하고자 연구자 및 개발자가 활용할 수 있도록 ‘Kanana Nano 2.1B’ 3개의 모델(base, instruct, embedding)을 오픈소스로 공개했다.

영어 벤치마크인 MMLU, MT-Bench에서 글로벌 모델과 유사한 성능을 보였고, 한국어 벤치마크인 KMMLU, KoMT-Bench에서는 경쟁 모델을 크게 뛰어 넘는 성능을 보였다. 

학습 효율화를 위해 이미 학습된 모델을 활용하여 다양한 사이즈의 고성능 모델을 개발함으로써 유사 사이즈의 글로벌 모델 대비 절반보다도 적은 수준의 학습 비용으로 학습자원을 최적화할 수 있다고 했다.

눈에 띄는 것 중 하나는 온디바이스에서도 활용 가능한 고성능 경량 모델 카나나 나노 2.1B를 공개한 것인데 비교적 작은 모델임에도 불구하고 유사한 크기의 글로벌 모델과 견줄 수 있는 성능을 보이며, 다양한 응용 가능성을 제공한다고 블로그에서 얘기하고 있다. 

향후에는 강화 학습 기반의 최신 기술을 접목해 논증 능력과 수학, 코드 성능을 강화하고, 연속 학습을 통해 모델이 새로운 데이터를 지속 학습하면서 기존 학습 내용을 잊지 않고 유지할 수 있도록 발전시켜 나갈 것이라고 한다.

국내 기업이 LG에 이어 오픈 소스 모델을 공개했다는 것은 매우 바람직한 것이고, 작은 모델 공개를 통해 온디바이스 AI를 개발하는 기업에게 기회를 제공한다는 점도 의미 있다. 다만 지금 다들 논증 기능을 강화해서 깊이 있는 추론을 하는 모델을 모두 발표하고 있는데 이번 발표가 그 모델에 대한 것이 아니라는 점이 좀 아쉽다. 

5. 아마존, 생성형 AI 지원 알렉사+ 발표


계속 연기되었던 알렉사+(Alexa+)가 드디어 나왔다. 아직 우리나라에서 지원하지는 않는다.

현재 전 세계에 6억 대의 알렉사가 있다고 하는데 아마 대부분 날씨 물어보고, 뉴스 듣고, 음악 듣는 용으로 사용되고 있을 것이다. 1세대 스마트 스피커는 그 한계로 인해 더 확대가 되지 못했다(나도 6종이나 있으나 거의 안 쓰고 있다).

알렉사+는 더 대화적이고, 더 똑똑하며, 개인화되었고, 여러분이 일을 처리하는 데 도움을 준다고 한다. 알렉사+는 우리를 즐겁게 해주고, 학습을 도우며, 정리하고, 복잡한 주제를 요약하며, 사실상 모든 것에 관해 대화할 수 있다는 것이다. 집을 관리하고 보호하고, 예약을 하고, 새로운 아티스트를 추적하고, 발견하고, 즐기는 데 도움을 줄 수 있으며, 온라인에서 사실상 모든 품목을 검색, 찾거나 구매하는 데 도움을 주고, 관심사에 따라 유용한 제안을 할 수 있다고 한다.

데모 영상은 여기에서 볼 수 있다.

알렉사의 최첨단 아키텍처의 기반에는 아마존 베드락(Bedrock)에서 사용할 수 있는 강력한 대규모 언어 모델(LLM)이 있지만, 수만 개의 서비스와 기기에서 조율할 수 있다고 한다. 이를 달성하기 위해 ‘전문가’라는 개념을 만들었는데, 이는 고객을 위해 특정 유형의 작업을 수행하는 시스템, 기능, API 및 지시 그룹을 말한다. 이러한 전문가의 도움을 받아 알렉사+는 필립스의 Hue, 로보락 등의 제품으로 스마트 홈을 제어하고, 오픈 테이블 및 Vagaro로 예약이나 약속을 잡고, 아마존 뮤직, 스포티파이, 애플 뮤직, iHeartRadio 등의 공급업체에서 음반 목록을 탐색하고 음악을 재생하고, 아마존 프레시 및 홀푸드 마켓에서 식료품을 주문하거나 그럽헙 및 우버 잇츠에서 배달을 받고, 티켓마스터에서 티켓이 판매될 때 알려주고, 링(Ring)을 사용하여 누군가 집에 접근하면 알림을 받을 수 있다.

또한 에이전트 기능을 도입하여 알렉사가 인터넷을 탐색하여 백그라운드에서 사용자를 대신하여 작업을 완료할 수 있도록 한다. 오븐을 수리해야 한다고 가정하면, 웹을 탐색하고 Thumbtack을 사용하여 관련 서비스 제공자를 검색하고 인증하고 수리를 준비하고 돌아와서 완료되었다고 알려줄 수 있다. 

알렉사+를 통해서 수리하는 장면.

개인화 기능도 뛰어나고 LLM의 방대한 지식을 사용할 수 있으며, 개인 정보 보호와 보안 기능을 제공하며 투명성과 제어력을 갖고 있다고 한다. 알렉사+의 월 이용료는 19.99달러이지만, 모든 프라임 회원에게는 무료다. Alexa+는 몇 주 안에 조기 액세스 기간 동안 미국에서 출시를 시작하고, 이후 몇 달 동안 추가로 출시될 예정이다. 조기 액세스 기간에는 에코 쇼(Echo Show) 8, 10, 15, 21 기기 소유자에게 우선 제공한다.  

그러나 늘 데모는 놀라운 법이다. 실제 사용에서 어떻게 나타날지는 지켜볼 필요가 있다. 알렉사도 데모 영상을 보면 못 하는 것이 없었지만, 실생활에서는 여러 문제가 나왔었기 때문이다. 지난 CES에서 보일 줄 알았으나 이제 발표를 한 것인데 기대가 되지만, 사용자는 늘 예상한 것보다 더 괴상한 것을 요구할 수 있기 때문이다. 

그 밖의 소식


  • 오픈AI가 GPT-4o 업그레이드 버전인 GPT-4.5를 공개했다. 지난 2월 17일 AI in a week에서 설명했듯이 이는 o1이나 o3와 같은 논증 모델이 아닌 내부적으로 오라이언이라고 했던 광범위한 작업을 위한 마지막 버전이다. 지금까지 발표한 모델 중 가장 거대한 모델이라고 하지만 크기나 컴퓨팅 자원에 대해 밝히지는 않았다. 따라서 o1이나 o3의 생각의 사슬을 이용한 버전에 비해 조금 성능이 떨어지는 분야가 있다. 그러나 샘 올트먼이 엑스(X)에서 설명한 대로 좀 더 사려깊은 느낌을 주고 과거와는 다른 경험을 하고 있다는 얘기가 많이 올라오고 있다. EQ를 갖춘 챗봇이라는 얘기인데 이는 과거 클로드 소넷에서 느꼈던 점이다. 클로드처럼 성격을 학습했을 가능성도 있다. 아직은 연구 프리뷰라는 것을 참고해야 한다 (ChatGPT도 처음 공개했을 때 연구 프리뷰라고 했다). 
  • LLM의 급속한 발전이 과학 연구 전반에 미치는 영향을 체계적으로 조사한 연구가 나왔다. 댈러스에 있는 텍사스 대학과 싱가포르의 난양 공대의 연구진이 발표한 것으로,  LLM이 과학 연구의 여러 단계에서 어떻게 혁신적인 역할을 하고 있는지를 분석하고, 각 연구 단계에서의 역할과 활용 사례를 정리함으로써 연구자와 실무자에게 향후 방향을 제시하는 데 목적이 있다. 논문은 과학 연구의 네 단계, 즉 가설 발견, 실험 계획 및 실행, 과학적 글쓰기, 동료 심사에서 LLM을 활용한 작업 특화 방법론과 평가 벤치마크를 종합적으로 제시한다. 이 연구와 관련된 내용은 깃허브(https://github.com/du-nlp-lab/LLM4SR)에서 확인할 수 있다. 
  • 앤스로픽이 미국 국립연구소와 협력해 천 명의 과학자들과 AI Jam을 개최했다(3월 1일). 이 행사는 여러 국립 연구소의 과학자들을 모아 과학 연구 및 국가 안보 응용 분야에서 최첨단 AI 모델을 평가했다. 여러 연구소의 과학자들이 문제 이해 및 문헌 검색부터 가설 생성, 실험 계획, 코드 생성 및 결과 분석에 이르기까지 다양한 과학적 과제에 걸쳐 클로드의 역량을 탐구한다. 이 이니셔티브는 국가 핵 안보청(NNSA)을 포함한 에너지부와 앤스로픽이 맺은 파트너십을 기반으로 한다. 과학자들과의 이런 협업이 부러운데, 국내에서 이를 지원하는 정책 프로그램이 나와야 할 것이다.
  • 중국의 TV, 냉장고, 로봇 청소기, 자동차 업체가 딥시크 모델을 탑재할 것이라고 발표했다(로이터, 2월 26일). 하이얼, 하이센스, TCL, 화웨이, 텐센트 등이다. 
  • 항저우에 있는 유니트리 로보틱스(위슈커지)가 알고리듬, 하드웨어 디자인, 데이터를 오픈하기로 했다(SCMP, 2월 28일). G1 휴머노이드 로봇으로 알려진 이 회사는 깃허브에 H1 및 G1 모델에 대한 데이터 세트, 강화 학습 훈련 코드 및 하드웨어 사양을 공개했다. 여기에는 확장 현실 장치를 통한 원격 제어를 위한 시뮬레이션-현실 전환 도구와 소프트웨어 개발 키트를 포함하고 있다. 중국이 딥시크 오픈 소스 공개에 이어 휴머노이드 로봇 관련 기술을 공개한다는 것은 이제 이 영역의 생태계로 이끌어 가겠다는 의지를 보인 것이다.
  • 신화통신에 따르면 홍콩 생성형 인공지능(AI) 연구개발센터(HKGAI)가 25일 홍콩 최초의 AI 파운데이션 모델 ‘HKGAI V1’을 정식 공개했다고 한다 (2월 26일). HKGAI 책임자에 따르면 이는 업계 최초로 딥시크의 전체 파라미터를 미세조정하고 지속적으로 훈련해 만들어 낸 파운데이션 모델이다. 해당 모델은 HKGAI가 최초로 딥시크의 홍콩 현지화를 이뤄냈음을 의미하기도 한다.
  • 케빈 루스 기자의 하드 포크 팟캐스트에 나온 다리오 아모데이가 한 말.

“저는 ‘파리 AI 정상회담’에 깊이 실망했습니다. 무역 박람회 분위기였고 원래 정상회담의 정신과는 크게 어긋났습니다… 저는 그 회의에서 어떤 사람들은 바보처럼 보일 것으로 생각합니다.”

파리에서 열린 2025 AI 액션 서밋.

관련 글

2 댓글

  1. 클로드 오랫동안 쓰는데 좋아진 건 맞는데 스마트한 이해력과 결과는 so so 질문을 유도하게 답변을 덜 주는것도 단점

댓글이 닫혔습니다.