[AI in a Week by TechFrontier] 한 주일의 주요 AI 뉴스, 논문, 칼럼을 ‘테크프론티어’ 한상기 박사가 리뷰합니다. (⏰15분)
지난 주에 미처 소개하지 못한 앤스로픽 다리오 아모데이의 블로그 글을 소개한다. 자체 연구로 AI 해석에 자신감이 생긴 듯 하다. 다른 회사에도 함께 이 문제를 해결하자고 제안했다. 오픈AI는 4o 새 버전을 버리고 롤백(특정 시스템∙데이터베이스 상태를 이전 버전∙상태로 되돌리는 것)하기로 했다. 사람들이 싫어하는 태도를 보인 것이 원인이지만, 실제로 사용자 피드백을 충분히 받지 않고 서둘렀던 것 같다. 사람들이 지나치게 공손하고 아첨하는 AI를 싫어한다고.
이번 주 기사 중에는 벤치마크 리더보드에 대한 그 동안 루머가 사실일 수 있다는 논문이 눈에 띈다. 빅테크 봐주기와 데이터 접근에 우선권을 갖는 것이 실제 공정한 경쟁일 수 없다는 이야기인데, 문제는 돈이다. 브릭스 외교부 장관회의에서도 AI 정책을 논의했는데, 미국이 추진하는 중국 고립화 정책은 중국으로 하여금 UN이나 다른 국제 기구를 통해 글로벌 사우스 국가들과 협력하도록 하고 있다.
1. 아모데이, AI의 작동 방식을 이해할 수 있다고 확신한다
지난 주에 앤스로픽 CEO 다리오 아모데이가 긴 에세이 하나를 다시 올렸다. 그는 AI 모델이 압도적인 수준에 도달하기 전에 AI 시스템의 내부 작동 방식을 이해하는 데 성공할 수 있다는 전망을 내 놓았다.
사람들은 AI 연구개발자조차 AI 작동 방식을 이해하지 못한다는 사실에 종종 경악한다. 이런 이해 부족은 기술 역사상 전례 없는 일이다. 그러나 앤스로픽의 여러 연구를 통해 이제 올바른 길로 나아가고 있으며 성공할 가능성이 있다는 확신을 품게 됐다고 한다.
AI 시스템을 해석하는 것이 어려운 이유는 AI의 내부 매커니즘이 직접 설계한 것이 아니라 발현하는 것이기 때문이다. 성장을 지시하고 형성하는 고차원적인 조건을 설정하지만 , 그로 인해 나타나는 정확한 구조는 예측 불가능하고 이해하거나 설명하기 어렵기 때문이다. 그는 “생성 AI와 관련된 많은 위험과 우려는 궁극적으로 이러한 불투명성의 결과이며, 모델이 해석 가능하다면 훨씬 쉽게 해결할 수 있을 것”이라고 생각한다.

그가 먼저 제기하는 얼라인먼트 문제로 인한 위험의 심각성을 해결하려면 AI 모델 내부를 현재보다 훨씬 더 명확하게 파악해야 한다. 가장 우려하는 점은 AI의 기만 또는 권력 추구다. 그러나 실제 상황에서 기만과 권력 추구의 확실한 증거를 본 적이 없는데, 그 이유는 권력에 굶주려 기만적으로 생각하는 모델을 ‘현장에서는’ 잡을 수 없기 때문이다. 기만이나 권력 추구가 훈련 과정에서 나타날 유인이 있을 수 있다는 모호한 이론적 주장만 있을 뿐이며, 어떤 사람은 이러한 주장을 매우 설득력이 있다고 생각하는 반면, 어떤 사람은 터무니 없는 이론이라고 생각한다.
AI 모델에 대한 오용은 모델이 위험한 정보를 알게 되거나 아는 정보를 누설하는 것을 확실하게 방지하기가 매우 어렵다는 생각에 기반한다. 탈옥의 방식은 다양하며 탈옥의 존재를 알아내는 유일한 방법은 경험적으로 찾아내는 것이다. 그러나 모델 내부를 들여다 볼 수 있으면 탈옥을 체계적으로 차단하고 모델이 어떤 위험한 지식을 가지고 있는지 파악할 수 있을 것이다.
AI 시스템의 불투명성은 고위험 금융이나 안전이 중요한 환경처럼 많은 응용 분야에서 AI를 사용할 수 없게 한다. 실제로 일부 응용 분야에서는 모델 내부를 볼 수 없다는 사실이 말 그대로 도입에 대한 법적 장벽이 된다. 예를 들어, 결정이 법적으로 설명 가능해야 하는 모기지 평가 같은 분야에서는 AI를 법적으로 사용할 수 없다.
아모데이는 AI 시스템의 의식 존재 여부, AI가 권리를 가질 수 있는가 등에 관한 문제는 너무 복잡해서 자세히 다루지 않겠지만 AI의 불투명성은 앞으로 점점 더 중요해질 것으로 예상한다고 언급했다. 아모데이는 기계적 해석이 어떻게 발전해 왔는가에 관한 간략한 역사를 소개한 다음 (주로 앤스로픽에서 연구한 결과를 언급했으며 몇 가지는 AI in a week 3월 기사에서 소개했다), AI 내부 작동 방식 해석 가능성의 유용성에 관해 그의 생각을 밝혔다.
그가 가진 근본 생각은 본질적으로 AI에 대한 ‘뇌 스캔’을 할 수 있다는 것이고 거짓말이나 기만 경향, 권력 추구, 탈옥의 결함, 모델 전체의 인지적 강점과 약점 등을 포함한 광범위한 문제를 식별할 확률이 높은 검사가 가능할 것이라는 전망이다.
아모데이는 앤스로픽이 해석 가능성을 크게 확장할 수 있는 단계에 와 있다고 판단하며, 진정한 “AI를 위한 MRI”가 될 수 있는 해석 가능성으로 나아가는 현실적인 길을 그리고 있고 앞으로 5~10년 안에 도달할 수 있다고 말한다. 그런데 AGI 수준의 AI가 앞으로 몇 년 안에 가능해진다면 해석 가능성에 관한 이해 없이 그러한 시스템을 구축하는 것에 대해 매우 우려할 수밖에 없다. 그래서 해석 가능성 연구의 발전이 실제로 우리 능력을 발전하게 할 것이라면서, 이를 위한 몇 가지 방법을 제안한다.
- 기업, 학계, 또는 비영리 단체의 AI 연구자들은 해석 가능성에 직접 참여함으로써 해석 가능성 개발을 가속화하자고 한다. 특히 경쟁사인 오픈AI나 딥마인드에 대해서도 더 많은 연구를 해야 한다고 촉구하면서, 해석 가능성은 학계 및 독립 연구자도 막대한 컴퓨팅 리소스 없이도 많은 부분을 연구할 수 있고 기초 과학의 풍미를 지니고 있기 때문에 유망하다는 것이다.
- 정부는 작은 규칙을 활용하여 해석 가능성 연구 개발을 장려하고 , 이를 프런티어 AI 모델 문제 해결에 적용할 수 있다. 아직은 정부가 이를 의무화하거나 규제하는 것은 너무 이르지만 기업이 안전 및 보안 관행을 투명하게 공개하도록 요구하고, 출시 전 모델 테스트에 해석 가능성을 활용하는 방법도 포함할 수 있다.
- 정부는 수출 통제를 통해 ‘보안 완충 장치’를 마련하여 가장 강력한 AI에 도달하기 전에 해석 가능성을 높일 시간을 더 벌 수 있다. 그는 민주주의 국가가 AI 분야에서 독재 국가를 앞서야 하고 효과적인 수출 통제는 해석 가능성에 대한 기술을 사전에 확보하는 데 도움이 될 것이라고 한다.
다리오 아모데이의 기술 에세이는 최고 수준의 AI 회사를 이끌어 가는 경영진의 생각을 읽을 수 있는 좋은 자료인데 우리 나라의 기술 기업의 경영진도 자기 생각을 에세이에 담아 공개함으로써 그 기업이 추구하는 가치와 기술 전략을 알 수 있게 해야 한다고 생각한다.

2. 사람들은 아첨하는 AI를 싫어한다?
오픈AI가 공지를 냈다. GPT-4o의 아첨에 대해 무슨 일이 일어났고 앞으로 무엇을 할 것인가를 내용으로 하는 블로그 글이다. 골자는 그 전 주에 발표한 GPT-4o 업데이트를 취소하고 그 전 버전으로 원상복구(롤백)한다는 것이다. 삭제한 업데이트는 지나치게 아첨하거나 호의적이었고 이를 사용자들이 좋아하지 않았다고 오픈AI는 밝혔다.
업데이트 할 때는 다양한 작업에서 더 직관적이고 효과적으로 느껴지도록 모델 기본 특성을 개선하는 데 중점을 둔 조정을 했는데, 단기적인 피드백에 지나치게 집중해 사용자와 ChatGPT의 상호작용이 시간이 지남에 따라 어떻게 변화하는지 충분히 고려하지 못했다는 것이다. 그 결과 GPT-4o는 지나치게 긍정적이지만 솔직하지 못한 답변으로 치우쳤다. ‘아첨하는 상호작용은 불편하고 불안하며 괴로움을 유발할 수 있다’는 것이 오픈AI의 판단이다.
업데이트 롤백 외에도 모델의 동작을 재정렬하기 위한 다음의 조치를 취하고 있다고 한다.
- 모델이 아첨으로부터 명확하게 벗어나도록 핵심적인 학습 기술과 시스템 프롬프트를 개선한다.
- 정직성과 투명성을 높이기 위해 모델 사양의 원칙에서 가드레일 추가 구축한다.
- 배포 전에 더 많은 사용자가 테스트하고 직접 피드백을 제공할 수 있는 방법을 확대한다.
- 지속적인 연구와 모델 사양을 기반으로 평가를 계속 확장해 앞으로 나올 수 있는 아첨을 넘어선 문제를 식별할 것이다.
오픈AI는 사용자다가 ChatGPT의 작동 방식을 더 많이 제어할 수 있어야 하고 기본 작동 방식에 동의하지 않을 경우 안전하고 실행 가능한 범위 내에서 조정을 할 수 있다고 생각한다. 따라서 사용자가 이를 수행할 수 있는 새롭고 간편한 방법을 개발하고 있다고 한다. 영화 인터스텔라에서 보면 ‘타스(TARS)’ 로봇의 유머 레벨을 일정한 비율(%)로 계속 조정하는 장면을 볼 수 있는데 이런 식의 캐릭터 특성을 조정할 가능성도 있다.

새로운 방법으로 사용자 피드백을 반영하고, 이를 통해 전 세계의 다양한 문화적 가치를 더욱 잘 반영한다는 의도다. 하지만 개별 사용자에 따라 조정하고 적응하는 상호 작용이 문화적 가치를 반영할 수 있을 것인지는 불투명하다. 각자 자기 입맛에 맞는 챗봇을 갖도록 하는 것은 결국 챗봇에 유니크한 성격을 부과하는 일이 될 것이다.
3. 초지능 AI에 대한 공포, “인류가 파멸하지 않을 길이 없다”
폴리티코 기사다. 지난 2년 전에는 의회가 기업 경영진을 불러 청문회를 하고 AI 안전에 대한 규율을 만들고 하던 분위기가 트럼프 행정부가 들어서면서 갑자기 이런 분위기는 사라지고 ‘가속주의자’처럼 일단 개발하고 걱정은 나중에 하자는 분위기로 확 바뀐 모습을 지적한다. 그런데 이런 분위기가 소위 ‘파멸론자’에게는 불리한 분위기일 것이라 생각하지만 오히려 그런 목소리가 커지고 있다는 것이다. 새로운 스타트업, 연구자, 그리고 내부 관계자들의 경고가 계속되고 있다.
버클리에 있는 기계지능연구소(MIRI) 소장인 네이트 소아레스는 “현재로서는 인류가 파멸하지 않을 길이 없고 상황이 정말 심각해지고 있다”고 말한다. 가장 큰 문제는 ‘셀프 코딩 AI’이다. 셀프 코딩 AI는 스스로 코드를 재작성하여 더 똑똑하고 빠르게 개선하고, 이를 반복할 수 있는 AI 모델을 의미하며, 이 모든 과정은 인간의 감독이 최소화되고 있다는 것이다.
딥마인드의 전 연구원들이 설립한 리플렉션 AI는 초지능 구현을 목표로 자율 코딩 시스템을 개발하고 있는데 이 회사는 올해 초 1억 3천만 달러 이상 투자를 받았고 그 가운데는 세콰이어 캐피털이 있다. 세콰이어 캐피탈은 이 투자를 소개하면서 ‘자율 코딩을 갖는 초지능을 향한다’라고 말했다. 미래 생명 연구소 (FLI)의 AI 및 국가 안보 책임자인 함자 차우드리는 “판매하는 상품은 인간의 감독 부재이며, 이것이 제일 우려스러운 상황이다”라고 언급했다.
비판자들이 가장 우려하는 점은 정부가 AI 안전에 다시 관심을 갖는다 하더라도 정부의 느린 속도 때문에 시간을 낭비하게 될 것이라는 점이다. AI 개발은 1년에서 6개월 다시 6주로 단축되고 있기 때문에 정부 정책이 이를 따라가지 못할 것이라고 본다.

버클리에 있는 또 다른 비영리 단체인 AI 퓨처스 프로젝트(AI Futures Project)는 지난 4월 초지능 AI 시스템이 2027년까지 세계 질서를 뒤흔들 것이라는 보고서를 냈다. (이 보고서는 지난 4월 7일 AI in a week에서 소개했다.)
MIRI 산하 예측 그룹인 AI Impacts의 수석 연구원인 카티아 그레이스는 수년간 최고의 AI 연구자들을 대상으로 초인적 지능에 얼마나 빨리 도달할 수 있을지에 대한 설문조사를 진행해 왔는데 결과는 생각보다 그 문턱에 훨씬 더 가까이 다가와 있다는 것이다. AI 정책 센터(CAIP)도 우리는 준비가 되어 있지 않다고 경고한다.
CAIP는 의회가 자율 AI 시스템, 특히 스스로 코딩할 수 있는 시스템을 별도의 고위험 개체로 취급하여 맞춤형 감독을 요구해야 한다고 주장한다. CAIP와 FLI 같은 단체들은 브리핑을 열고, 정책 의제를 초안하고, 의원들의 관심을 끌어내기 위해 노력하고 있지만, 정치적 동기는 여전히 빠른 도입 쪽으로 기울어져 있다.
MIRI의 소아레스는 “초지능이 생기면 모든 게 다 허사다. 마치 정글의 모든 동물들이 과일나무에서 누가 열매를 따먹느냐고 다투는 와중에 인간이 불도저를 끌고 나타나는 것과 마찬가지”라고 말한다.
4월 22일에는 정부책임감사원(Government Accountability Office)가 AI의 잠재적 위험을 억제하고 그 혜택을 확대하기 위한 정책 옵션을 설명하는 보고서를 냈다. 제안 내용에는 환경 영향에 대한 더 나은 데이터 수집, AI의 효율성을 높이기 위한 혁신 장려, 책임 있는 사용을 위한 AI 프레임워크 활용 촉진, 모범 사례 및 표준 공유 등이 있다.
또 다른 움직임으로 캘리포니아의 민주당 상원의원 제리 맥너니(Jerry McNerney)가 제안한 핵심 AI 안전 법안(SB 813)인데 이 축소된 제안은 작년 스콧 위너 주 상원의원의 SB 1047 법안에 반대했던 사람들의 지지도 이끌어 내고 있다고 한다. 이 법안이 결국 뉴섬 주지사를 통과한다면, 혁신을 억누르지 않고 피해를 예방하고자 하는 다른 주들의 법률에 가벼운 모델이 될 수 있다고 본다. 뉴 813은 미국 최초의 AI 안전 및 보안 기준을 마련하기 위한 토대가 될 것이라고 본다.
4. 일부 기업에 유리하게? 리더보드의 환상

arXiv, 4월 29일
벤치마크의 효과와 신뢰성에 대해서는 늘 문제 제기가 있었다. 이번에 나온 논문은 그 논란에 불을 지폈다. 캐나다의 코히어, 프린스턴 대학교, 하버드 대학교, 워털루 대학교, MIT, 알렌 AI 연구소, 워싱턴 대학 연구진의 공동 연구로 발표된 논문이다.
이 논문은 유명한 벤치마크 순위 서비스인 챗봇 아레나(Chabot Arena) 리더보드가 시스템 문제로 경쟁 환경을 왜곡한다고 주장한다. 챗봇 아레나 리더보드는 LLM 성능 평가를 위한 오픈플랫폼으로 백만 명 이상의 참여자에 의해 평가를 받는 방식으로 운영하며 버클리 대학의 스카이랩과 LMSYS 연구 그룹이 이끌고 있다.
이들이 밝힌 바로는 비공개 테스트 관행이 일부 기업에 유리하게 작용하고 있는데, 공개 전 다수 모델 변형을 시험해 보고 필요한 경우 점수를 철회하기도 하며, 실제 성능이 아닌 최고 점수만 선택적으로 반영하게 하고 있다는 것이다. 극단적 사례로 메타의 라마-4는 출시 이전에 27개의 비공개 LLM 변형 모델을 아레나에서 시험한 바 있다고 한다.
이 논문에서 문제점으로 지적한 것은 아래 그림에 나온 것 처럼, 폐쇄형 모델이 더 많이 테스트에 참여해 오픈 웨이트 모델보다 우선되면서 데이터 접근의 비대칭성을 심화하는 문제, 데이터 접근이 더 용이한 모델이 과적합될 수 있으며, 많은 테스트를 해서 점수가 높은 것을 고르고, 오픈 웨이트 모델은 비공식적으로 리더 보드에서 삭제하는 경우가 많다는 것이다.

실제로 구글과 오픈AI는 전체 아레나 데이터의 약 19.2%와 20.4%를 각각 사용한 반면, 총 83개의 오픈웨이트 모델이 받은 데이터는 전체의 약 29.7%에 불과하다고 한다. 아레나 데이터에 대한 접근은 상당한 이점을 제공하는데, 제한된 추가 데이터만으로도, 아레나 내 성능이 최대 112%까지 상대적으로 향상될 수 있다는 것이다.
벤치마크를 운영하는 그룹이 보통 비영리 단체이기 때문에 이들은 후원금이나 API 사용 지원 등을 빅테크 기업을 통해 받기 때문에 빅테크의 요구에 자유롭기 어렵다는 구조적인 문제가 있다.
더군다나 최근 논증 모델이 많아지면서 이들을 테스트하기 위한 비용이 더 많이 증가하고 있다. 이런 문제점을 다룬 테크크런치가 4월 10일 자 기사에 따르면 아티피셜 어낼리시스는 클로드 3.7 소넷 평가에 1,485달러, 오픈AI의 o3-mini-high 테스트에 344.59달러를 사용했다고 한다. 12개 정도의 논증 모델을 테스트 하는데는 5,200 달러 정도가 들었고 80여 개의 비 논증 모델 테스트 비용은 2,400달러가 들었다는 것이다.
이 논문에서는 리더보드를 개선하기 위한 권고 사항과 가이드라인을 다음과 같이 제시하고 있다.
- 모델 점수 제출 이후에는 철회를 허용하지 않는다.
- 각 제공자가 제출할 수 있는 비공개 변형 모델의 수에 대해 명확하고 투명한 제한을 둔다.
- 모델 제거 여부를 판단할 수 있는 투명하고 감사 가능한 기준을 확립한다.
- 샘플링 공정성을 개선한다.
- 모든 모델의 테스트 이력, 폐기 결정, 그리고 샘플링 빈도를 대중에게 투명하게 공개해야 한다.
벤치마크는 모델 성능에 대한 여러 가지 기준과 판단을 제공하지만 이를 악용하고 지나치게 평가 데이터에 과적합하도록 만드는 모델에 대한 비판이나 의문이 제기되어 왔다. 시험 문제를 사전 학습해서 답을 맞추는 일이 일어나는 것이기 때문이다. 이번 논문을 통해서 그 가능성이 많이 확인됐다. 앞으로 많은 리더보드에 대해서 좀 더 냉정한 판단이 요구되는 이유다. 더불어 리더보드 점수가 반드시 실제 성능을 의미하지 않을 수 있다는 것을 알아야 한다.
5. BRICS 외교부 장관 회의 AI 관련 성명
이원태 박사의 페이스북을 통해 접한 소식이다. 아래는 이원태 박사가 정리한 내용이다. 보도 내용은 브릭스 회원국 외무장관회의 의장단 성명이고 여기에는 세계와 지역 추세와 이슈에 관한 전반적인 의견이 담겨 있다. 지난 2025년 4월 29일 BRICS 외교부 장관들이 리우데자네이루에서 발표한 성명 중 AI 관련 주요 내용이다.
1. AI의 사회경제적 중요성 공감대 형성
AI는 모든 사회의 사회경제적 발전과 포용적 성장 촉진에 필수적이다. AI는 책임감 있고, 안전하며, 보안이 유지되고, 윤리적인 방식으로 설계·개발·사용되어야 한다.
2. UN 중심의 글로벌 AI 거버넌스 원칙 재확인
AI의 잠재적 위험을 완화하고 모든 국가(특히 남반구 국가)의 요구를 해결하는데 기여해야 한다. 국가 규제 프레임워크와 UN 헌장에 따라 운영되어야 한다. 주권 존중, 대표성, 개발 지향성, 접근성, 포용성, 역동성, 대응성 등을 추구해야 한다. 개인 데이터 보호, 인류의 권리와 이익, 안전, 투명성, 지속가능성에 기반해야 하며, 국내외의 디지털 및 데이터 격차 해소에도 기여해야 한다.
3. 국제 협력 강화
UN이라는 전통적 다자 시스템을 통한 AI 국제 거버넌스를 더욱 강화할 것을 촉구하며, 특히 개발도상국의 AI 역량 구축 지원을 위한 BRICS 협력을 추진한다. UN 총회 결의안 A/RES/78/311(인공지능 역량 구축에 관한 국제협력 강화)을 재확인한다.
4. 기술 협력 촉진
오픈소스 AI 개발과 국제 과학기술 협력의 중요성을 강조하면서, AI 연구, 개발, 혁신, 데이터 보호, 데이터 주권 및 배포 역량 구축을 적극 지원한다.

BRIC의 이번 AI관련 성명 발표는 서구 중심의 AI 표준과 규범에 대응하는 독자적인 기준을 마련하려는 시도로서, 미-중 주도의 AI거버넌스 구조에 대한 대안적 흐름, 즉 보다 다극화된 AI 생태계 질서가 나타날 것임을 함축한다. 특히 AI 개발 및 거버넌스에서 국가 주권과 자율성을 강조함으로써 서방의 규제 프레임워크에 더 이상 의존하지 않으려는 의지도 표출되었다. ‘소버린 AI’, ‘데이터 주권’ 개념을 통해 자국 데이터에 대한 통제권 확보 의지를 표명한 것이다.
최근 UN이 지속적으로 제기한 글로벌 사우스 및 개발도상국들의 AI기술격차 해소를 위한 국제협력의 플랫폼으로 BRICS가 역할을 하겠다는 의지도 엿보인다. 서구 주도의 AI 규제 이니셔티브(EU AI Act, OECD AI 원칙 등)에 대한 대안으로 디지털 격차 해소를 적극 의제화하는 UN을 중심으로 한 포괄적 다자주의 AI 거버넌스 체계를 지지하는 것이라 볼 수 있다. 또한, 중국 딥시크의 영향인지 모르겠지만 미국의 독점적 AI 기술에 대한 의존을 줄이기 위해 오픈소스 AI 개발을 강조하는 등 기술의 민주화, 기술 탈집중화(decentralization)을 적극 추진할 것으로 보인다.
이번 BRICS의 AI 관련 선언은 기술 개발과 거버넌스에서 서방 주도 질서에 대한 대안을 제시함으로써 기술 지정학의 다극화를 가속화하는 의미를 갖는다. 특히 데이터 주권, 기술 자율성, 포용적 발전 등의 가치를 중심으로 새로운 기술 발전 패러다임을 모색하고 있으며, 이는 향후 글로벌 AI 생태계의 분화와 재편을 예고하는 것이라 하겠다.
이는 한국 AI 외교 전략이 어느 방향을 지향해야 하는 것인지 잘 알려주는 것이고 내가 참여해서 같이 작성한 과실연 AI 미래 포럼이 발표한 차기 정권 AI 정책 방향 제시에서 언급한 “동남아·중동·중남미 등 AI 생태계가 미성숙한 국가들과의 공동 프로젝트를 추진해야 한다” 등 새로운 AI 외교, 국제 협력 방안이 왜 중요한 것인가를 다시 강조해야 하는 이유이다.

그 밖의 소식들
- 구글 노트북의 오디오 오버뷰 기능에 이제 50개 이상의 언어를 사용할 수 있게 되었다 (구글, 4월 29일). 오디오 오버뷰는 입력 문서를 기반으로 팟캐스트 같은 대화를 만들어 주는 기능이다. 벌써 여러 사람이 자신이 만든 한국어 팟캐스트 같은 결과를 올리고 있다.

- 구글이 에이전트에 대한 두 번째 백서를 발행했다 (캐글, 4월 25일). 여기에는 검색기반생성(RAG)의 에이전트화, 단일 에이전트 평가, 다중 에이전트 평가, 실세계 적용 아키텍처 등에 대한 내용이 담겼다. 구글이 AI 에이전트가 단순한 장난감 수준에서 실제 응용까지 어떻게 확장될 지를 설계한 로드맵이다.
- 카카오가 멀티모달 언어 모델 카나나-o를 발표했다 (카카오 기술 블로그, 5월 1일). 지난 해 12월 이미지를 이해하는 카나나-v를 소개한 이후 텍스트와 오디오를 이해하는 오디오 언어모델인 카나나-a와 텍스트, 이미지, 오디오 모두를 이해하는 카나나-o를 발표한 것이다. 카나나-o는 카나나-v와 카나나-a를 모델 병합(Model Merging) 기법으로 결합하여 학습 효율을 극대화했다.

- 메타가 처음으로 개최한 라마콘(LlamaCon)에서 저커버그는 2026년까지 메타 코딩의 50%가 AI로 작성될 것이라고 전망했다(매셔블 4월 29일). 마이크로소프트의 사티야 나델라와 함께한 토론에서 사티아는 마이크로소프트의 경우는 20-30%의 코드가 AI로 작성한 것이라 했다. 이는 순다 피차이가 현재 구글 코딩의 25% 정도가 AI로 작성한 것이라고 한 것과 유사한 수준이다. 앤스로픽의 다리오 아모데이는 올해 말까지 100% 코딩이 AI로 이루어질 것이라고 전망했다.
- 마이크로소프트가 일의 미래에 대한 ‘워크 트렌드 인덱스’ 연간 보고서를 냈다 (마이크로소프트, 4월 23일). 기업은 AI를 단순 보조 도구로 활용하는 단계를 넘어, 인간과 AI가 긴밀히 협업하는 형태인 “프론티어 기업(Frontier Firm)”으로 진화하고 있고, AI는 더 이상 제한된 자원이 아닌 무한히 확장 가능한 필수 자원이 되었으며, 이를 효과적으로 활용하는 조직만이 미래의 경쟁력을 확보할 수 있다는 이야기이다.
- 알리바바가 Qwen 3를 공개했다 (알리바바 4월 29일). 이번 릴리즈에는 2개의 MoE(Mixture-of-Experts) 모델과 6개의 Dense 모델을 포함하며, 모델 크기는 0.6B에서 235B 파라미터 규모까지 다양하다. 주력 모델인 Qwen3-235B-A22B는
코딩, 수학, 일반 능력 등 다양한 벤치마크 평가에서 DeepSeek-R1, o1, o3-mini, Grok-3, Gemini-2.5-Pro 등 최상위 모델들과 경쟁력 있는 성능을 보였다. 또한 소형 MoE 모델인 Qwen3-30B-A3B는 활성 파라미터 수가 10배 더 많은 QwQ-32B를 앞서는 성능을 보여주었고, 작은 모델인 Qwen3-4B조차도 Qwen2.5-72B-Instruct와 비슷한 수준의 성능을 달성했다. 허깅페이스, 모델스코프 등에서 다운이 가능하며 큐웬 챗 웹에서 사용해 볼 수 있다.

- 데미스 하사비스가 타임지와 인터뷰를 했다 (4월 27일).
- 드와르케시 파텔이 메타의 주커버그와 나눈 대화 팟캐스트가 공개되었다 (4월 30일).
- 미 육군 개혁 보고서에는 2027년까지 전구, 군단, 사단 본부에서 AI 기반 지휘 통제를 실현하는 것으로 나와 있다 (엑스, 5월 1일)
- 구글 딥마인드가 제미나이 2.5 프로 프리뷰에 대한 모델 카드를 공개했다.