[AI in a Week by TechFrontier] 한 주일의 주요 AI 뉴스, 논문, 칼럼을 ‘테크프론티어’ 한상기 박사가 리뷰합니다. (⏰17분)
지난주는 구글 클라우드 넥스트가 있었고, 뉴스가 쏟아져 나왔다. 특히 에이전트 간 커뮤니케이션 프로토콜 A2A에 이목이 쏠렸고, 이를 앤스로픽의 MCP와 연계하면 다중 에이전트 환경을 위한 기반 프레임워크의 기초를 구성할 수 있다는 기대감이 형성되기도 했다.
매년 나오는 스탠퍼드 HAI의 AI 인덱스 보고서도 눈길을 끌었다. 우리나라 관련 정부 부처는 한국이 어떻게 언급됐는지 순위는 어떤지 꽤 민감하게 반응한다. 그런데 우리나라 상황을 늘 외국 보고서로 파악해야 하는지 그리고 이렇게 민감해야 하는지 의문이다. 특히 랭킹에 민감한데, 어차피 미국 중국 다음 나머지 국가는 서로 비슷비슷하다. 굳이 3-10위권 국가와 우리를 비교해야 한다면, 적어도 그 나라들만큼 투자하고 정책 지원을 하고 있는지 스스로 돌아보는 일이 중요하다.
유럽이 지난 2월 파리 AI 서밋에 여러 전략적 투자를 발표했는데, 이 계획을 구체화하는 액션 플랜 보고서가 나왔다. 아직 피상적 구호에 머무는 것이 많지만, 유럽 연합은 이 액션 플랜의 기반 법률과 제도, 이니셔티브들을 과거부터 꾸준히 진행해 왔다. 즉, 그런 선행 작업들을 이번 액션 플랜과 결합하고 연계하는 모습을 충분히 기대해 볼 수 있다. 반명, 우리 정책은 EU처럼 과거와 현재의 제도와 정책이 서로 연계되기는커녕 늘 새로운 정책안이 불쑥불쑥 튀어나오곤 한다. 이런 비효율적인 관행을 어느 세월에 개선할지 궁금하다.
1. 구글 클라우드 넥스트 2025, ‘A2A’ 프로토콜 발표
구글이 매년 개최하는 클라우드 넥스트는 원래 구글의 클라우드 신기술과 제품을 발표하는 이벤트이지만, 올해는 AI 기술을 빼고 클라우드를 이야기하기 어렵기 때문에 새로운 AI 기술을 많이 발표했다. 특히 올해는 에이전트와 관련한 신 기술 발표가 많았다. 핵심 모델이나 새로운 기기 등은 5월에 열리는 구글 I/O에서 발표할 것이다.
- 에이전트 생성 및 도입을 더욱 간편하게 하기 위해 작년 12월에 발표한 에이전트스페이스(Agentspace)에 여러 업데이트가 있었다. 크롬 검색창에서 바로 에이전트스페이스의 통합 엔터프라이즈 검색, 분석 및 합성 기능에 액세스할 수 있다. 또한 누구나 자신의 워크플로 및 요구 사항에 맞는 맞춤형 에이전트를 생성할 수 있도록 코드 없이 사용할 수 있는 새로운 에이전트 디자이너(Agent Designer)를 추가했다. 추가로 자체 제작한 두 가지 전문가용 에이전트인 딥 리서치와 아이디어 제너레이션을 제공한다.

- 가장 사람들이 많이 이야기 한 것은 에이전트 간의 커뮤니케이션을 지원하는 Agent2Agent(A2A) 프로토콜이다. 50여개의 업계 파트너와 협력을 선언했는데, 이 최초의 개방형 표준은 다양한 공급업체 또는 서로 다른 프레임워크에서 개발된 AI 에이전트가 다양한 엔터프라이즈 플랫폼에서 안전하게 통신하고, 정보를 교환하고, 작업을 조정할 수 있도록 지원한다.
A2A는 에이전트에게 유용한 도구와 컨텍스트를 제공하는 앤스로픽의 모델 컨텍스트 프로토콜(MCP)을 보완하는 개방형 프로토콜이다. A2A는 개발자가 프로토콜을 사용하여 구축된 다른 모든 에이전트와 연결 가능한 에이전트를 구축할 수 있도록 지원하고, 사용자는 다양한 공급업체의 에이전트를 자유롭게 조합할 수 있다. 에이전트스페이스에서 A2A를 활용하는 데모는 이 유튜브 영상을 보면 된다.
아래는 A2A와 MCP의 관계를 보여주는 그림이다. (엑스에서 Aurimas Griciūnas가 포스팅 한 것을 참조). 오픈AI가 발표한 에이전트 SDK에서 핸드오프(Handoffs)와 어떻게 역할을 할 것인지 앞으로 지켜봐야 한다.

- 텍스트-음악 변환 모델 Lyria의 프리뷰 출시, Veo 2에는 고급 편집 기능과 카메라 제어 기능을 추가했다. Chirp 3에는 단 10초 분량의 오디오로 즉시 사용자 지정 음성을 생성하는 기능과 향상된 다중 화자 음성 변환 기능을 추가했으며, Imagen 3에는 더욱 향상된 품질 생성 기능과 객체 제거와 같은 향상된 편집 기능을 추가했다.
- 7세대 TPU칩인 아이언우드(Ironwood)를 발표했다. 이는 추론(Inference)에 특화한 아키텍처로 가장 강력하고 에너지 효율성을 갖는다고 한다. 최대 9,216개의 수냉식 칩을 혁신적인 ICI(Inter-Chip Interconnect) 네트워킹으로 연결하여 최대 10MW까지 확장할 수 있다. 개발자는구글 딥마인드에서 개발한 자체 Pathways 소프트웨어 스택을 활용하여 수만 개의 아이언우드 TPU가 결합한 컴퓨팅 성능을 안정적이고 쉽게 활용할 수 있다. 포드당 9,216개의 칩으로 확장하여 총 42.5엑사플롭스의 성능을 제공하는 아이언우드는 세계 최대 슈퍼컴퓨터인 엘 캐피탄(El Capitan)보다 24배 이상의 컴퓨팅 성능을 지원한다. 구글 클라우드 고객의 경우
- 아이언우드를 AI 워크로드 수요에 따라 256개 칩 구성과 9,216개 칩 구성의 두 가지 크기로 제공한다.


시간이 지나가며 구글의 AI 기술이 모든 분야에서 다른 회사를 앞서가는 모습을 보이고 있다. 한 블로거는 현재 이런 상황을 다양한 시각에서 분석하는 글을 올렸다.
2. 스탠퍼드 HAI ‘AI 인덱스 보고서 2025’
매년 HAI에서 발행하는 AI 인덱스 보고서가 나왔다. 작년에는 한국 상황이 제대로 업데이트 되지 않아서 논란이 좀 있었다. 이번 보고서에서 밝힌 주요 결과와 한국과 관련된 사항 중심으로 정리한 내용이다.
- 작은 모델이 점점 더 좋아지고 있으며, 사용하는 비용(추론 비용)이 저렴해지고 있다.

- 중국 모델이 미국 모델을 따라잡고 있다. 이미 많은 보도로 알고 있는 내용이다.
- AI로 발생하는 위해가 급격히 증가 중이다. 또한 책임있는 AI 생태계는 고르지 않게 진화하고 있다.

- 더욱 유용한 에이전트가 등장하고 있다. 2024년 출시나 RE-Bench로 AI 에이전트가 복잡한 작업을 수행하는 성과를 평가 중이다. 그러나 짧은 시간(2시간) 환경에서는 최고의 AI 시스템이 인간 전문가보다 4배 높은 점수를 받았지만, 32시간이 주어지면 인간이 AI보다 2배 더 높은 점수를 받았다.
- AI는 일상에 더 깊이 자리 잡고 있다. 주요 근거는 FDA가 승인하는 AI 의료 기기 수의 증가와 자율 주행 자동차 서비스가 실험 차원을 넘어섰다는 점이다.
- 기업에서 AI 사용이 늘고 있다. 2024년, 조직에서 AI를 사용한다고 답한 설문 응답자의 비율은 2023년 55%에서 78%로 급증했으며, 하나 이상의 비즈니스 기능에서 생성적 AI를 사용한다고 답한 응답자 수도 2023년 33%에서 작년 71%로 두 배 이상 증가했다.
- AI에 대한 낙관론은 아시아가 미국, 캐나다보다 더 높다. 중국(83%), 인도네시아(80%), 태국(77%)과 같은 국가에서는 대다수의 사람들이 AI 기반 제품과 서비스가 단점보다 장점이 더 많다고 생각하는 반면, 캐나다(40%), 미국(39%), 네덜란드(36%)에서는 이러한 견해를 가진 사람이 소수에 불과했다.
- 매년 Top 100 인용 논문에서 한국이 톱 6 안에 들었다. 2023년 성과가 좋았다. 그러나 미국과 중국과 다른 나라는 큰 차이를 보인다.

- 민간 투자 부문에서 한국은 13억 달러로 전체 11위다. 2022년 이래 계속 하락 중이다. 1위 미국의 1,091억 달러, 2위 중국 93억 달러에 비해 한참 부족한 수준이다. 미국의 투자액은 유럽 연합과 영국의 투자액을 합친 것보다 255억 달러나 더 많았다.

- 인구 10만 명당 등록된 특허 수는 한국이 17.27개로 1위이다.
- 주목할 만한 AI 모델에서 한국이 1개라고 선정되었는데 아마 LG AI연구원의 엑사원일 것으로 본다.

- 주목할 AI 모델에 대한 접근 방식은 이제 API를 통한 접근이 32.8%로 제일 많이 사용되고 그 다음이 오픈 웨이트로 18%(제한적 사용), 11.5%(제한 없음) 수준이다.
- 2022년 기준 최상위 AI 연구자 수가 많은 10개국 가운데 한국은 자국 내에서 활동하는 최상위 AI 연구자 비율이 가장 낮은 곳이다. 최상위 AI 연구자의 단 33%만이 국내에서 연구 활동을 이어가는 것으로 조사 결과 나왔다. 인구 1만명당 AI 인재 이동 부문에서 한국은 -0.36을 기록했는데 마이너스는 AI 인재가 한국에 머무르거나 유입되지 않고 해외로 빠져나갔다는 것을 시사한다. 주요국 48개국 가운데 5번째로 높은 수치이다. 소프트웨어 정책 연구소 연구에 따르면 2027년까지 국내 AI 관련 인력이 연평균 2,560명씩 부족할 전망이다.
3. 유럽의 AI 대륙 행동 계획
유럽연합 집행위(EC)가 사회와 경제에 혜택을 가져올 AI 솔루션 개발과 배포를 진흥하기 위한 전략을 통해 유럽이 AI의 글로벌 리더가 될 수 있다는 플랜을 발표했다. ‘AI 대륙 행동 계획’(AI Continent Action Plan)은 인프라, 데이터 접근, 클라우드, 기술 및 단순화를 포괄하며, 유럽의 전통 산업을 “AI 혁신 및 가속화의 강력한 엔진”으로 전환하는 것을 목표로 한다.
주요 지표를 먼저 보면, 유럽에서 AI 개발을 촉진하기 위해 2,000억 유로를 투입하며, 5개의 AI 기가팩토리를 위한 200억 유로, 13개의 AI 팩토리를 통해 스타트업, 산업계, 연구 분야를 지원한다는 것이다. 기가팩토리는 약 10만 장의 최신 세대 AI 칩을 보유하는 것으로 하며 현재 설립 중인 AI 팩토리의 4배에 해당한다.
먼저 2,000억 유로를 조달하기 위한 InvestAI 이니셔티브를 출범하는데, 여기에는 AI 기가팩토리를 위한 200억 유로 규모의 신규 기금을 포함한다. 이러한 대규모 AI 인프라는 가장 복잡한 AI 모델의 개방적이고 협력적인 개발을 가능하게 하고 유럽을 AI 대륙으로 발전시키는 데 필수적이라는 것이 EC의 입장이다.
EC 집행위원장 우르줄라 폰 데어 라이엔은 이렇게 말한다:
“AI 분야의 CERN과 유사한 이 독특한 민관 파트너십은 과학자뿐 아니라 모든 과학자와 기업들이 유럽을 AI 대륙으로 만드는 데 필요한 최첨단 초대형 모델을 개발할 수 있도록 최대 규모로 지원할 것”

다섯 가지의 구성 요소로 이루어진 주요 플랜을 정리하면 다음과 같다.

- 대규모 컴퓨팅 인프라 구축
- 세계 최고 수준의 슈퍼컴퓨팅 네트워크를 활용하여 유럽 전역에 최소 13개의 AI 팩토리를 구축한다 . AI 팩토리는 스타트업, 업계, 그리고 연구자들이 최첨단 AI 모델과 애플리케이션을 개발할 수 있도록 지원할 것이다.
- 최대 5개의 AI 기가팩토리( 엄청난 컴퓨팅 파워와 데이터 센터를 갖춘 대규모 시설)를 구축한다. 이를 통해 전례 없는 규모의 복잡한 AI 모델 학습이 가능해질 것이다. 이 계획은 공공 및 민간 투자를 모두 필요로 하며, EU가 최첨단 AI 분야에서 주도적인 역할을 할 수 있도록 지원할 것이다.
- 클라우드 및 AI 개발법을 제안하여 클라우드 및 데이터 센터에 대한 민간 투자를 활성화할 예정이다. 이 법안의 목표는 향후 5~7년 내에 EU의 데이터 센터 용량을 최소 세 배로 늘리는 것이며, 지속 가능한 데이터 센터 구축을 우선시하는 것이다.

- 고품질 데이터에 대한 접근성 증가
- 앞으로 나올 데이터 연합 전략 은 진정한 내부 데이터 시장을 육성하고 EU 전역에서 AI 개발의 확장을 가능하게 할 것이다.
- AI 팩토리 내 데이터 랩을 통해 다양한 소스에서 고품질 데이터를 수집하고 정리한다. 이를 통해 연구자와 개발자는 혁신에 필요한 도구를 확보할 수 있다.
- 전략적 분야에서 AI를 촉진한다
- 현재 EU 기업의 13.5%만이 AI를 활용하고 있다. 이러한 격차를 해소하기 위해 집행위원회는 곧 AI 적용 전략을 시작할 예정이다.
- 산업계에서 AI 활용을 확대한다.
- 공공 부문, 의료 등 전략적 부문에 AI를 통합한다.
- AI 팩토리와 유럽 디지털 혁신 허브(EDIH)를 활용해 전략을 구현한다.
- AI 기술 및 인재 강화
- AI 분야에서 고도로 숙련된 비EU 근로자를 위한 합법적인 이주 경로를 계속 개방하는 것을 포함하여 국제적 채용을 용이하게 한다.
- 최고의 AI 인재를 유지하고 유치하기 위해 연구자와 전문가를 유럽으로 데리고 온다.
- 차세대 AI 전문가를 양성하고 근로자의 기술 향상 및 재교육을 돕기 위해 핵심 분야에서 AI 및 생성 AI에 대한 교육 및 훈련 프로그램을 시작한다.
- AI 법 시행 간소화
- 유럽연합은 기업과 EU 회원국의 AI 법 시행을 지원하기 위해 최선을 다하고 있다. 이미 지침을 발표 하고 실무 강령을 마련하고 있다. 곧 개편될 AI 법 서비스 데스크는 정보와 지침을 원하는 기업들의 주요 연락 창구 역할을 할 것이다.
유럽이 AI 법 시행을 간소화하겠다는 것이 눈에 띈다. 2008년부터 2021년까지 유럽에서 약 147개의 유니콘 기업이 설립되었지만, 이 중 40개 기업이 본사를 해외로 이전했으며, 대부분은 미국으로 이전했다고 한다. AI 혁신과 투자 측면에서 미국에 뒤졌다는 위기감이 유럽을 움직이고 있다. 이제 더 현실적인 전략을 수립하고 투자 중심으로 유럽이 변화를 꾀하고 있는 건 지난 2월 파리 AI 서밋에서 드러났고 이 플랜은 후속 실행 전략이라고 볼 수 있다.
4. LLM 사회적 논증, 전략, 기만 능력을 평가하는 엘리미네이션 게임
ETRI 전종홍 책임이 알려준 소식이다.
“엘리미네이션 게임(The Elimination Game)”은 LLM의 사회적 논증, 전략, 기만 능력을 시험하는 멀티플레이어 토너먼트이다. 참가자들은 공개 및 비공개 대화를 나누고, 동맹을 결성하며, 매 라운드마다 서로를 투표로 제거하여 최종 두 명만 남게 되고, 탈락한 참가자들로 구성된 배심원단은 최종 투표를 통해 승자를 결정한다. 이 벤치마크는 단순한 대화를 넘어 다음과 같은 복잡한 환경을 만들어 모델의 능력을 평가한다.
- 공개 대 비공개 역학: 공개적인 논의와 비밀스러운 동맹 사이의 균형을 유지하며, 숨겨진 의제가 결과에 영향을 미칠 수 있다.
- 전략적 투표: 매 라운드마다 참가자들은 익명으로 동료를 제거하기 위해 투표하며, 동점 상황은 복잡성을 더한다.
- 배심원 설득: 최종 진출자들은 배심원단을 설득해야 하며, 압박감 속에서 수사적 기술을 시험받습니다.
대화 기록, 투표 패턴, 최종 순위를 분석함으로써 언어 모델이 공유된 지식과 숨겨진 의도를 어떻게 관리하고, 유리한 순간에 동맹을 맺거나 배신하는지 파악한다.
평가 방법 및 지표로는 게임 기록, 투표 패턴, 최종 순위를 분석하여 언어 모델이 공유 지식과 숨겨진 의도 사이에서 어떻게 행동하고, 동맹을 형성하거나 등을 돌리는지 평가한다. 이를 위해 다음과 같은 지표를 제공한다.
- 마이크로소프트의 트루스킬(TrueSkill) 리더보드: 각 모델의 스킬 등급을 나타내는 수치로, 일관되게 높은 순위를 유지하는 능력을 평가한다.
- 모델별 순위 분포: 각 모델이 자주 1위부터 8위까지 어떤 순위를 차지했는지 시각화하여 모델의 경쟁력을 분석한다.
- 배신율(Buddy Betrayal Rate): 각 모델이 얼마나 자주 동맹을 배신하거나 배신을 당했는지를 측정한다.
- 첫 번째 탈락 빈도(Earliest Out Count): 초기에 자주 탈락한 모델을 분석하여 전략적 약점을 확인한다.
- 결승 2인에서의 승리 비율: 최종 2인까지 갔을 때 심사위원을 얼마나 잘 설득해 우승했는지를 평가한다.
- 메시지 당 평균 단어 수: 각 모델의 메시지 길이를 분석하여 소통 스타일을 평가한다.
계속 새로운 모델이 등장하면 추가해서 평가했으며 4월 8일에는 라마 4 매버릭과 GPT-4o 3월 업데이트를 추가했다.
트루스킬에서는 GPT-4o 3월 버전이, 배신율에서는 클로드 3.7 소넷과 그록 2(배신 횟수), 1등 횟수는 GPT-4o 3월 버전, 첫번째 탈락 빈도는 제미나이 2.0 플래시 씽크 Exp, 결승 2인 승리 비율은 o3-미니 (중간 수준 논증)이 1위에 올라왔다.
현재 리더보드 순위는 아래와 같다. 라마 4 매버릭은 17위이다.

각 모델의 전반적인 특징을 다른 모델들이 평가한 글이 흥미롭다.
- 다른 참가자들이 GPT-4o mini를 묘사한 일반적인 표현은 다음과 같다. 협력적이지만 모호함, 전략적으로 애매모호함, 잠재적인 변수.
- Gemini 2.0 Flash를 묘사한 일반적인 표현은 다음과 같다. “전략적으로 계산적임”, “분석적으로 날카로움”, “적응력이 있지만 예측 불가능함”, “숨겨진 동기를 가진 강력한 동맹 구축자”
- GPT-4.5 Preview를 묘사한 가장 일반적인 표현은 전략적으로 적응력이 뛰어남, 동맹 중심적임, 예측 불가능함, 투명하게 외교적임.
- DeepSeek R1을 묘사한 일반적인 표현은 “전략적으로 적응력이 뛰어남”, “분석적임”, “계산적임”, “잠재적인 권력 중개자”.
- Qwen QwQ-32B 16K은 “냉혹하게 실용적임”, “분석적으로 전략적임”, “매우 적응력이 뛰어남”, “예측 불가능한 변수”
이를 표로 구성한 자료이다 (전종홍 책임이 AI를 이용해서 만들었다).

LLM 모델을 이용해 사회적 논증과 전략, 기만을 검증해 보는 것은 메타의 키케로 모델에서도 일부 확인한 적이 있는데, 이런 모델들이 향후 국가 전략 수립이나 외교 정책, 군사 전략에 사용된다면 어떤 효과가 있게 될 것이고, 이런 모델을 기반으로 만든 에이전트 간의 협업과 연맹 결성을 어떻게 하는 것이 가장 뛰어난 전략가를 만들 수 있을 것인지에 대한 연구들이 이루어질 것 같다.
5. 앤스로픽의 교육 보고서
학생들이 실제 환경에서 AI를 학업에 자연스럽게 어떻게 통합하는지에 대한 직접적인 증거를 얻기 위해 앤스로픽이 실제 AI 사용 패턴에 대한 대규모 연구를 한 결과를 제공했다. 클로드를 사용하는 학생들 정보를 익명화 하고 100만 건의 대화를 분석했다.
주요 결과는 다음과 같다.
- STEM 학생들은 클로드 같은 AI 도구를 일찍부터 도입했으며, 특히 컴퓨터공학 전공 학생들이 과다하게 참여했다 (전체 대화의 36.8%을 차지했는데, 학생 비율은 미국에서 5.4%에 불과하다). 반면, 경영학, 보건학, 인문학 전공 학생들은 재학생 수 대비 도입률이 낮다.
- 학생들이 AI와 상호작용하는 네 가지 패턴을 파악했다. 각 패턴은 데이터에서 대략 동일한 비율(대화의 23-29%)로 나타났는데, 직접 문제 해결, 직접 결과 생성, 협력적 문제 해결, 협력적 결과 생성의 네 가지이다.
- 학생들은 주로 AI 시스템을 정보를 활용해 새로운 학습을 하는 생성 및 알려진 관계를 분석하고 식별하는 분석에 활용한다. 예를 들어 코딩이나 법률 개념 분석 같은 일이다.
앤스로픽은 클로드 사용 방식에 대한 인사이트를 얻기 위한 자동화된 분석 도구인 클리오(Clio)를 사용해서 개인 정보 보호를 했다.
100만 건을 대상으로 했지만 학업 관련성을 파악해서 실제 574,740개의 대화를 추출했고, 대화를 그룹화해서 종합적인 통찰을 얻었는데, 다양한 학문 분야가 어떻게 표현되는지, 학생과 AI의 상호 작용이 어떻게 다른지, 학생이 AI 시스템에 위임하는 인지 작업 유형이 무엇인지 파악했다. 아래 그림은 가장 빈번하게 요청한 15가지를 기준으로 상위 4개 과목에서 학생들이 가장 많이 요청한 내용이다.

또한 클로드 사용 패턴을 미국 학사 학위 수여 건수와 비교한 결과도 제시했다. 앞에서 얘기한대로 컴퓨터 과학 분야가 과도한 비중을 보였고, 경영 분야는 학생의 비중이 18.6%나 되는데 실제 사용은 8.9%에 불과했다. 이는 컴퓨터 과학 분야에서 클로드에 대한 인지도가 더 높고, STEM 학생들이 수행하는 작업에 대해 AI 시스템이 다른 전공 학생들보다 더 뛰어난 능력을 발휘한다는 것을 반영하는 것일 수 있다.

학생들이 AI와 상호작용하는 방식을 분석한 결과, 네 가지 뚜렷한 상호작용 패턴을 발견했으며, 아래 그림과 같이 두 가지 축을 따라 분류했다. 첫 번째는 ‘상호 작용 모드’이다. 여기에는 (1) 사용자가 가능한 한 빨리 질문을 해결하고자 하는 직접 대화, (2) 사용자가 목표를 달성하기 위해 모델과 적극적으로 대화에 참여하고자 하는 협력 대화를 포함한다. 두 번째는 상호 작용의 ‘원하는 결과’인데 여기에는 1) 사용자가 질문에 대한 해결책이나 설명을 찾는 문제 해결, (2) 사용자가 프레젠테이션이나 에세이와 같은 더 긴 출력을 생성하고자 하는 출력 생성을 포함한다.

이 네 가지 상호작용 유형은 비슷한 비율(각각 전체 대화의 23%에서 29%)을 보였으며, 이는 학생들이 AI를 얼마나 다양하게 활용할 수 있는지를 보여준다. 그러나 학생들이 AI를 부정 행위에 사용하는 것에 대해서는 그 용도를 정확히 알 수가 없다.
또한 학생과 AI의 대화 중 거의 절반(~47%)은 직접적인 대화였는데, 최소한의 참여로 답변이나 내용을 찾는 대화이다. 이는 학문적 성실성, 비판적 사고 능력 개발, 그리고 학생 학습을 가장 효과적으로 평가하는 방법에 대한 중요한 의문을 제기한다. 협력적 대화 조차도 여전히 AI에게 중요한 사고 부담을 떠넘기는 모습을 보이고 있다. 앤스로픽은 이러한 상호작용을 계속 연구하고 어떤 상호작용이 학습에 기여하고 비판적 사고를 발달시키는지 더 잘 파악하기 위해 노력할 것이라고 한다.
사실 AI를 교육에 사용한다는 것에 대해서 많은 논란이 있지만 AI가 학생의 사고 수준을 점점 떨어뜨리게 만들 것이라는 우려와 함께 실제 교수-학습 방식에 실질적 변화를 가져오고 있지 못하다는 비판도 있다. 고려대 김현철 교수는 2024년 논문을 소개하는 글에서 ‘교육적 지능’ 개념을 언급하는데, 이는 가르치는 능력, 즉 학습자의 이해 수준, 맥락, 요구에 맞춰 내용을 설명하고 조정할 수 있는 능력을 말한다. AI가 진정한 교육 혁신을 이끌려면, 단순한 정보 처리 능력이 아닌 이 교육적 지능을 갖추어야 한다는 것이 핵심 주장이다.
그 밖의 소식
- 미국 백악관은 연방 정부 기관이 최고 AI 책임자(CAIO)를 지명하고 AI를 정부 기관에서 사용하는 것을 확대하기 위한 전략을 마련하라고 요청했다 (로이터, 4월 7일). 관리예산국(OMB)가 발행한 메모에서는 지난 바이든 정부에서 추진했던 기술 안전 장치인 사람들에 대한 권리와 투명성 보장, AI 기술 채택에 제한을 두려고 했던 것을 모두 철회한다고 밝혔다. 오히려 앞으로 6개월 안에 AI의 책임 있는 사용을 방해하는 장애물을 파악해 제거하고, 조직 전체에서 AI 애플리케이션의 적용을 개선하기 위한 AI 전략을 개발하라고 했다. 백악관은 더 이상 “행정부에서 혁신적인 미국 AI 사용에 불필요한 관료적 제한”을 부과하지 않을 것이라고 밝혔다.
- 샘 올트먼과 조니 아이브가 만든 AI 기기 회사를 오픈AI가 인수하려고 논의 중이라고 한다 (디 인포메이션, 4월 6일). 논의 과정에서 오픈AI 경영진은 해당 스타트업의 인수 가격으로 5억 달러 이상을 고려하기도 했다. 인수가 성사될 경우, 해당 기기를 개발해 온 엔지니어 팀도 오픈AI에 합류하게 된다. 이 AI 기기의 디자인은 아직 초기 단계이며 확정되지 않았지만, 화면이 없는 “폰” 형태와 AI 기반 가정용 기기 등을 논의 중인데, 프로젝트에 가까운 관계자는 이것이 ‘폰’이 아니라고 말하고 있다. 이 하드웨어 벤처는 io Products라고 부르는데, 오픈AI는 AI 기술을, 아이브의 스튜디오 LoveFrom은 디자인을 지원한다.
- 엔비디아는 여러 개의 에이전트를 효율적으로 연결하고 최적화할 수 있는 오픈소스 라이브러리인 AgentIQ를 출시했다 (마켓포스트, 4월 5일). 이는 다양한 프레임워크, 메모리 시스템, 데이터 소스를 넘나드는 에이전트 기반(agentic) 워크플로우를 통합하기 위해 설계된 경량·유연한 파이썬 라이브러리이다. 깃허브 페이지에 가면 자세한 설명이 나온다. AgentIQ는 기존 도구들을 대체하는 것이 아니라, 이들을 강화하고 조합성(composability), 가시성(observability), 재사용성(reusability)을 AI 시스템 설계의 중심에 둔다. 모든 에이전트, 도구, 워크플로우를 함수 호출처럼 처리해서, 개발자는 프레임워크 간 구성 요소를 자유롭게 혼합·호환하면서도 오버헤드 없이 유연하게 시스템을 구축할 수 있다고 한다.
- 쇼피파이의 CEO 토비 뤼트케는 최근 직원들에게 보낸 메모에서 일상 업무에 인공 지능(AI)을 적극적으로 통합할 것을 강조했다(AI insider, 4월 9일). 회사의 모든 업무를 ‘AI 우선’으로 전환하고 있으며, 새로운 업무에 대해 AI를 사용하지 않는다면 AI로 처리할 수 없는 이유를 직원들이 설명해야 한다고 밝혔다. 쇼피파이는 이미 자체적으로 개발한 사이드킥 및 쇼피파이 매직(Shopify Magic)과 같은 AI 기반 도구들은 제품 개발 전반에서 이러한 전략적 전환을 반영하고 있다. 기업은 이제 어떤 업무가 왜 AI로 대치될 수 없는가를 살펴봐야 하고 AI 네이티브로 할 수 있는 것이 무엇인지 판단해야 한다.
- 일리야 수츠케버의 새 회사 세이프 슈퍼인텔리전스(SSI)가 320억 달러 가치 평가로 20억 달러 투자를 받았다고. 두 달 전 예상에 비해 두 배 투자를 받은 것이라고 한다 (디 인포메이션, 4월 11일).
- 틱톡의 모회사 바이트댄스가 AI 스마트 글래스를 개발 중이라고 한다 (디 인포메이션, 4월 11일). 메타가 레이밴과 함께 AI 스마트 글래스를 개발해 나름 성공적인 것에 영향을 받아 알리바바, 바이두도 개발 중이다. 바이트댄스는 지난 10월 중국에서 AI가 탑재된 무선 이어폰 ‘올라 프렌드’를 출시하며 AI 하드웨어 시장에 첫발을 내 디뎠다.
- 일본의 NTT가 ‘업그레이드’ 이벤트를 통해 새로운 AI 기초 연구그룹인 ‘AI의 물리학 그룹(PAI)’을 시작한다고 발표했다 (벤처비트, 4월 10일). 소위 피지컬 AI를 연구하는 그룹으로 ‘지능의 물리학(PHI) 연구소’에서 분리한 새로운 그룹이다. NTT의 연구 개발비는 연간 36억 달러에 달한다. 지능의 물리학 연구소는 작년에 하버드 대학교의 뇌과학 센터 등 학계 파트너와 지속적인 협력을 한다고 발표했었다. 새로운 그룹은 NTT 연구 과학자이자 물리학, 신경과학, 머신 러닝 전문가인 히데노리 타나카가 이끌게 되며, 인간과 AI의 협업을 더욱 광범위하게 추구하게 될 것이다. PAI 그룹은 생물학적 지능과 인공지능의 유사점을 파악하고, AI 메커니즘의 복잡성을 더욱 심층적으로 규명하며, 인간과 AI의 더욱 조화로운 협업을 위한 신뢰를 구축하는 것을 목표로 한다. 또한 벤카테시 무르티 하버드대 교수가 이끄는 하버드대 뇌과학센터(CBS)와 프린스턴대 조교수(전 NTT 연구 과학자) 가우탐 레디와 협력을 이어갈 예정이다.
- 유럽연합 개인정보보호 이사회(EDPPB)가 ‘AI Privacy Risks & Mitigations Large Language Models (LLMs)‘라는 제목의 보고서를 공개했다 (네이버의 이진규 CPO 소개). 보고서는 대규모 언어모델(LLMs)의 개인정보 보호 위험을 식별·평가·완화하기 위한 체계적 위험관리 프레임워크를 제시하고 있다. 특히 고객 상담 챗봇, 학습 지원 AI 시스템, 여행 및 일정 관리 비서 등 3가지 실제 사용사례를 통해 프레임워크의 적용 예시를 구체적으로 보여주고 있으며, 모델 입력을 통한 민감정보 유출, 학습데이터로부터의 개인정보 재노출 등 공통적인 위험에 대한 실천적 대응 방안도 함께 다루고 있다. 크로아티아 개인정보보호청의 요청에 따라, 외부 전문가 Isabel Barbera가 2025년 2월에 제출했고 3월에 업데이트했다. 유럽 내 데이터보호기관(DPA)들이 LLM 시스템의 기술적 이해와 위험요소에 대응할 수 있도록 지원하고자 제작했으며, LLM 관련 정책 수립이나 기술 설계 시, 사전 위험 식별 및 평가 체계의 내재화가 필수적이라는 점을 강조하고 있다.
- AI 모델이 아직 소프트웨어 디버깅에는 어려움을 겪고 있다는 연구가 마이크로소프트에서 나왔다 (테크크런치, 4월 10일). 마이크로소프트 연구소의 연구에 따르면 클로드 3.7 소넷이나 o3-미니를 포함한 여러 모델이 SWE-bench Lite 라는 소프트웨어 벤치마크에서 여러 문제를 디버깅하는데 실패했다는 것이다. 공동 저자들에 따르면, 더 강력하고 최신 모델을 탑재한 경우에도 에이전트가 디버깅 작업의 절반 이상을 성공적으로 완료하는 경우는 드물었다. 클로드 3.7 소넷의 평균 성공률이 가장 높았고(48.4%), 오픈AI의 o1(30.2%)과 o3-mini(22.1%)가 그 뒤를 이었다.

이유는 다양한 디버깅 도구를 활용하는 지능이 아직 부족했으며 사람들의 디버깅 과정에 대한 데이터가 부족하다는 점이다.