[AI in a Week by TechFrontier] 한 주일의 주요 AI 뉴스, 논문, 칼럼을 ‘테크프론티어’ 한상기 박사가 리뷰합니다. (⏰15분)
지난주 주요 뉴스 중에선 AI 안전센터가 주도해 일단의 학자와 만든 AGI에 관한 정의와 정량 평가를 위한 프레임워크가 가장 눈에 띄었다. 개인적으로 관심이 많은 영역이다. 그러나 내용을 살펴보니 완성도 있는 연구라기보다는 연구를 시작하기 위한 디딤돌이라는 생각이 들었다.
퓨 리서치의 연구 결과를 보면, 한국이 다른 나라에 비해 AI에 대해 기대가 매우 크고 우려는 가장 작은 나라로 조사됐는데, 왜 그런지 궁금해졌다.
앤스로픽은 끊임없이 새로운 모델과 기능을 발표하는데, 지난주에 미처 소개하지 못한 AI 감사(Auditing) 도구도 있었지만, 이번에는 에이전트 ‘스킬’을 선보였고, 하이쿠 4.5를 소개했다. 에이전트 스킬은 에이전트의 기능을 확장하기 위한 간단하면서도 매우 유용한 기능인데, 아마존 알렉사 스킬이 떠올랐다(이름을 따 왔을까?).
딥마인드가 그동안 핵융합 제어 및 최적화를 위한 AI 기술 개발을 해 왔는데, 이제 CFS라는 첨단 기업과 함께 AI로 플라스마 제어와 활용을 하겠단다. 플라스마 시뮬레이터 TORAX, 강화 학습과 AlphaEvolve 같은 진화하는 에이전트 기술 등을 통합해 나가는 모습인데, ‘이래도 되나’ 하는 우려가 생겼다. 뭐, 핵융합 발전소가 지구를 폭발시키지는 않을 테니 멸망까지는 아니지만, ‘사고가 나면 어떻게 하지’ 하는 괜한 걱정이 들었다.
캘리포니아는 AI 관련 법안을 계속 통과시키고 있다. 이번에는 AI가 인간과 깊이 있는 대화를 나누는 녀석이면 AI임을 명확하게 명시하게 하는 SB 243을 통과시켰다. 같은 주에 오픈AI는 성인을 위한 ChatGPT 에로티카 서비스를 선보일 예정이라고 한다. 아무리 명시해도 사람들은 내가 이야기하는 상대를 마구마구 상상할 것이다. 결국 이 시장은 (늘 그렇듯이) 커질 수밖에 없고, 향후 컴패니언 로봇과의 결합이 쉽게 떠오른다.
그 밖의 소식으로 전했지만, 시계열 처리 모델은 주목받을 만하다. 실제 물리적 세상에는 시계열 데이터를 다루어야 하는 곳이 많은데 아직 LLM 기반 모델은 이 분야에 약하기 때문이다. 이 팀의 움직임은 앞으로 관심 있게 봐야 할 것이다.
1. AGI에 관한 정의
CAIS가 일단의 학자들과 함께 AGI에 대한 정의와 이를 기반으로 측정을 위한 정량화 프레임워크를 소개했다. 참가한 저자들은 CAIS 소장인 댄 헨드릭스, 스탠포드 대학의 에릭 브린욜프슨, MIT의 맥스 데크마크, 뉴욕 대학의 게리 마커스, 몬트리올 대학의 요수아 벤지오 등의 유명 학자들이고 우리나라 카이스트의 신진우 교수도 참여했다.
이들은 AGI를 ‘잘 교육받은 성인의 인지적 다재다능함과 능숙도에 맞먹거나 이를 능가할 수 있는 AI’으로 정의하며 인간 인지에 대한 가장 경험적으로 검증된 모델인 캐텔-혼-캐럴 이론에 기반하여 방법론을 수립했다. 이 프레임워크는 일반 지능을 추론, 기억, 지각을 포함한 10가지 핵심 인지 영역으로 분석하고, 기존 인간 심리 측정 검사 세트를 적용하여 AI 시스템을 평가했다.
현재 모델은 많은 사람이 지적했듯이 ‘삐쭉삐쭉한(JAGGED)’ 인지적 특징이 나타나며, 지식 집약적인 영역에서는 능숙하지만, 특히 장기 기억 저장에 심각한 결함을 가지고 있는 것으로 평가할 수 있다. 이 프레임워크 평가에서는 GPT-4 27%, GPT-5는 58%의 AGI 평가 점수가 나온다.

프레임워크는 CHC의 광범위한 능력에서 파생된 10가지 핵심 인지 구성요소를 제시하며, 인지의 폭을 우선시하고 주요 영역을 포괄하기 위해 동등하게(10%) 가중치를 둔다. 사실 이 각 요소를 동등한 가중치로 봐야 하는 것인가에 대한 의문이 있다.

각 인지 구성 요소는 이를 판단하기 위한 테스트를 보여주고 있기 때문에 웹사이트에서 각 인지 구성 요소를 선택하면 하위의 검증을 위한 질문을 볼 수 있다. 예를 들어 장기 기억 추출 능력은 다음과 같은 판단 기준을 갖고 평가한다.

논문은 이 방식의 한계를 명시했다. 이를 참고하기 바란다.
- 지능의 개념화는 포괄적이지 않다. 의도적으로 가드너의 다중지능 이론 등 대안적 틀에서 제시된 운동감각적(kinesthetic) 능력과 같은 특정 능력들을 제외했다.
- 제시된 예시들은 영어권에 특화된 것이며 문화적으로 중립적이지 않다.
- 이 논문에서 정의 자체도 한계가 있는데, 일반지식 테스트는 필연적으로 선택적일 수밖에 없으며, 가능한 모든 주제 영역을 포괄적으로 평가하지 않았다.
- 100% AGI 점수는 테스트된 여러 차원에서 숙달을 이룬 ‘고숙련’의 교양 있는 개인을 의미할 뿐, 어떤 수준의 학위(예: 대학 졸업)를 의미하는 것은 아니다.
- 폭넓은 능력을 우선시하기 위해 각 주요 능력에 동일한 비중(10%)을 부여했으나, 다른 가중치 체계도 합리적일 수 있다. 향후 연구에서는 다른 과제 집합과 가중치 구성을 탐색할 수 있을 것이다.
또한 여기에서 확인하는 통합된 AGI 점수는 치명적 결함을 감출 수 있는데 예를 들어 AGI 점수는 90%이지만 장기 기억 저장 점수는 0%인 시스템도 있을 수 있다. 따라서 AI 시스템의 AGI 점수뿐 아니라 인지적 프로파일도 함께 보고할 것을 권장하고 있다.
2. AI에 대한 나라별 태도: 가장 우려 낮은 나라는 한국
퓨 연구소는 비당파적(nonpartisan), 비옹호적(nonadvocacy) 성격의 팩트탱크로, 세상을 형성하는 이슈, 여론, 사회적 트렌드에 대한 정보를 대중에게 제공하는 기관이다. 이번에 발표한 보고서는 AI에 대한 대중의 인식에 초점을 맞추고 있다. 여기에는 기술에 대한 인지 수준, 그리고 그 활용에 대한 우려나 기대감 등이 포함된다.
조사는 아시아·태평양 지역, 유럽, 라틴아메리카, 중동·북아프리카, 북미, 사하라 이남 아프리카 등 25개국을 대상으로 실시했다. 또한 응답자들이 AI 활용을 규제할 주체로서 자국 정부, 유럽연합(EU), 미국, 중국에 대해 얼마나 신뢰(trust) 하는지도 함께 탐색했다.
미국 외 지역 데이터의 경우, 이번 분석은 2025년 1월 8일부터 4월 26일까지 실시된 총 28,333명의 성인 대상의 국가별 대표 표본 조사를 기반으로 했으면 전화 인터뷰와 대면 조사 방식으로 진행했다고 한다. 미국의 경우는 ATP 패널에 등록된 사람 중에 2025년 3월 24일부터 3월 30일까지 3,605명, 그리고 6월 9일부터 6월 15일까지 5,023명의 성인을 대상으로 조사했다고 한다.
일상에 들어오는 AI에 대한 우려 수준을 보면 미국이 50%로 가장 크고, 한국이 16%로 가장 낮다(왜 우리나라 사람은 우려보다 기대를 더 많이 할까?).

워싱턴포스트는 이미 10월 7일에 이에 관한 기사를 썼는데 미국인 우려가 큰 이유를 다음과 같이 정리했다.

- 2022년 38%에 비해 크게 증가한 것이다.
- AI의 혜택을 누리고 싶어 하는 마음과, AI의 단점이나 우리가 함께하지 않을 경우 뒤처질까 봐 두려워하는 마음 사이의 줄다리기일 수 있다.
- 사람들은 구글의 AI 개요와 같은 AI 기반 웹 검색 요약의 유용성에 대해 미온적인 반응을 보이고 있으며, 정보 자체에 대한 신뢰도 낮다.
- AI 기술이 인간관계와 역량을 약화할 것이라는 두려움이 있으며. AI가 정보의 질을 저하할 것이라는 우려도 있다.
- AI를 선택할 권리가 없다는 것에 화가 났다.
즉 AI에 대해 우려하는 사람들의 공통 심리는 AI가 자신을 도와주기를 바랄 수도 있고, 원하지 않거나 예상하지 못한 방식으로 사용될 때 분노할 수도 있다는 양면성을 갖고 있다. 조사 중 흥미로운 것 하나는 AI에 규율을 부여하는 것에서 미국이나 중국보다 EU 또는 자국을 더 신뢰하는 것으로 나타났다.

3. 앤스로픽, 에이전트 ‘스킬’ 발표
앤스로픽이 ‘클로드 스킬’이라는 기능을 발표했다. 스킬은 사용자의 업무 흐름에 맞춰 AI의 전문성을 확장할 수 있도록 해주며, 명령, 스크립트, 리소스가 포함된 폴더 단위 구성 요소로, 클로드가 작업 시 필요한 순간에만 로드한다. 스킬은 지침, 스크립트, 리소스를 포함한 폴더 형태로 제공되며, 클로드가 관련 작업이 필요할 때만 해당 스킬에 접근한다.
예를 들어, 엑셀, 파워포인트 생성, 브랜드 가이드 준수 등 특정 업무 영역에 특화된 수행 능력을 부여할 수 있으며, 사용자나 개발자가 직접 스킬을 제작해 클로드 앱, 클로드 코드, API 전반에서 활용이 가능하다. 기업 단위의 배포와 관리 기능도 지원 예정으로, 맞춤형 AI 워크플로우 구축의 기반이 될 것이다. (긱뉴스를 배포하는 XGURU는 이 기능이 MCP보다 더 폭발적인 영향을 가질 것이라고 전망한다).
스킬의 작동 방식을 보면 클로드는 작업 수행 중 사용 가능한 모든 스킬을 스캔해, 가장 관련된 스킬을 찾는 알고리듬을 가진다. 일치하는 스킬이 있을 경우, 필요 최소한의 정보와 파일만 불러와 속도를 유지하면서도 전문 작업 수행 능력을 갖춘다. 여러 스킬을 스택처럼 함께 사용할 수 있고, 클로드가 스킬을 자동으로 조정한다. 또한 동일한 포맷으로 작성해서 클로드 제품군 어디에서나 사용 가능하다. 스킬은 조직의 전문 지식을 패키징해 클로드에게 전달하는 맞춤형 온보딩 자료 개념으로, 전문성을 패키지화해 클로드가 특정 영역 전문가 역할을 하도록 설계하는 것이다.

현재 클로드 프로, 맥스, 팀, 엔터프라이즈 사용자 모두 스킬 사용이 가능하며, 생각의 사슬에서도 동작을 확인할 수 있다. ‘skill-creator’ 스킬을 통해 대화형 안내하에 워크플로우 질의, 폴더 구조 생성, SKILL.md 자동 포맷, 리소스 번들링 등 손쉬운 스킬 생성을 지원한다. 클로드 개발자 플랫폼에서 사용 가능하고 클로드 코드에서 연동할 수 있다.
파트너 기업과의 활용 예는 다음과 같다.
- 박스: 저장된 콘텐츠를 자동 변환하여 PowerPoint·Excel·Word 문서로 생성, 조직 표준에 맞춘 자동화 문서화 지원
- 노션: 복잡한 질문을 즉시 실행 가능한 작업으로 전환, 프롬프트 조정 부담 감소
- 캔바: 스킬을 통해 에이전트를 커스터마이징하여 디자인 자동화 및 팀 단위 고품질 콘텐츠 생산 지원
- 라쿠텐: 스킬 기반으로 재무 및 회계 자동화, 여러 스프레드시트를 통합 처리하고 보고서 생성 시간을 하루에서 1시간으로 단축
에이전트 스킬 디자인 패턴, 아키텍처 및 개발 모범 사례에 대한 기술적인 심층 분석은 엔지니어링 블로그를 참조하기 바란다.

4. 구글, 차세대 핵융합 에너지에 AI 도입
구글 딥마인드가 핵융합 에너지 분야의 세계적인 선두 기업인 커먼웰스 퓨전 시스템즈(CFS)와 협력을 발표했다. CFS는 ‘스파크(SPARC)’라는 작고 강력한 토카막 장치를 개발하는데, 강력한 고온 초전도 자석을 활용하여 역사상 최초로 순수 핵융합 에너지를 생성하는 자기 핵융합 장치를 목표로 하고 있다.
이미 2022년에 딥마인드는 AI를 활용해 플라스마를 성공적으로 제어하는 획기적인 연구를 한 적이 있는데, 스위스 EPFL의 플라스마 센터 연구원들과 심층 강화 학습을 이용해 토카막의 자석을 제어하여 복잡한 플라스마 형상을 안정화할 수 있음을 입증했다. 또한 더 광범위한 물리학을 포괄하기 위해 파이썬-JAX로 작성한 플라스마 시뮬레이터인 TORAX를 개발하기도 했다.
이제 이런 연구 결과를 가져와 CFS와 함께 핵융합 에너지를 전력망에 공급하는 것을 앞당기고자 하는 것이다. 두 회사는 현재까지 세 가지 분야에서 협력해 왔다고 한다.
- 핵융합 플라스마의 빠르고 정확하며 미분 가능한 시뮬레이션을 생성하기.
- 핵융합 에너지를 극대화하는 가장 효율적이고 견고한 경로 찾기.
- 강화 학습을 사용하여 새로운 실시간 제어 전략을 발견하기.
토카막의 성능을 최적화하려면 열, 전류, 물질이 플라스마 중심부를 통과하여 주변 시스템과 상호 작용하는 방식을 시뮬레이션해야 한다. TORAX는 스파크가 가동되기 전에 수백만 건의 가상 실험을 수행하여 CFS 팀이 운영 계획을 테스트하고 개선할 수 있도록 지원한다.
토카막을 작동하려면 자기 코일 전류, 연료 분사, 가열 전력 등 다양한 ‘노브’를 어떻게 조정할지 수많은 선택지가 필요하다. 작동 한계 내에서 최대 에너지를 생산할 수 있도록 토카막의 최적 설정을 수동으로 찾는 것은 매우 비효율적일 수 있다. 강화학습이나 ‘AlphaEvolve’같은 진화 탐색 기법과 TORAX를 같이 사용하면 AI 에이전트가 시뮬레이션에서 방대한 잠재적 운영 시나리오를 탐색하여 순에너지를 생성하는 가장 효율적이고 안정적인 경로를 신속하게 파악할 수 있다.
이전 연구에서는 강화 학습이 토카막의 자기적 구성을 제어할 수 있음을 보였다. 이제 핵융합 전력 극대화나 스파크의 열 부하 관리 등 토카막 성능의 더 많은 측면을 동시에 최적화하여 복잡성을 높이고 있으며, 이를 통해 토카막은 기계 한계를 뛰어넘는 고성능으로 구동될 수 있다고 한다.
구글은 연구 협력뿐만 아니라 CFS에 투자도 하고 앞으로 최적화를 넘어서 미래 핵융합 발전소의 핵심인 AI가 지능적이고 적응력 있는 시스템으로 자리매김할 수 있는 기반을 구축하고자 한다. 그런데 이런 중요한 시설을 AI가 제어하고 자동화하게 놔두어도 되는지 우려가 된다.

5. AI 확장 법칙에 대한 우려
반복적으로 나오는 AI 확장 법칙이 과연 언제까지 유효할 지에 관한 논의가 와이어드에 또 나왔다(유료 기사).
7월에 MIT에서 나온 연구에 따르면 가장 크고 연산 집약적인 AI 모델이 곧 소형 모델에 비해 성능 저하를 보일 수 있다고 한다. 연구진은 스케일링 법칙과 모델 효율성의 지속적인 개선을 비교 분석한 결과, 대형 모델에서 성능 향상을 기대하기는 어려워질 수 있지만, 효율성 향상을 통해 향후 10년 동안 소형 하드웨어에서 실행되는 모델의 성능이 더욱 향상될 수 있음을 발견했다고 한다.
딥시크 이후 효율성을 찾는 연구가 많지만 아직은 오픈AI 같은 거대 모델 방식이 작은 특화 모델에 비해 더 뛰어나다. 나아가 강화 학습과 같은 새로운 학습 방법이 놀라운 결과를 도출한다면 MIT 연구가 맞지 않을 수도 있지만, 연구진은 대형 AI 기업들의 우위가 미래에는 약해질 것이라고 시사한다.
한스 군들라흐는 닐 톰슨과 MIT의 또 다른 연구 과학자인 제이슨 린치와 함께 프런티어 모델의 미래 성능을 보다 적절한 계산 수단으로 구축된 모델과 비교 분석했다. 이런 연구 결과를 와이어드가 도입해서 기사화하는 이유는 요즘 AI 인프라 붐(또는 거품?)을 감안할 때 흥미롭기 때문이다.
빅 테크 기업이 AI 인프라에 수천억 달러를 투자하는 것, 오픈AI와 브로드컴과의 맞춤형 AI 칩 개발 등을 보면서 일부 전문가들은 이런 거래의 건정성에 의문을 갖기 시작했다. 데이터센터 비용의 약 60%가 GPU에 사용되는데, GPU는 빠르게 감가상각되며, 주요 업체의 파트너십이 순환적이고 불투명하기 때문이다.
JP모건 CEO 제이미 다이먼은 지난주 BBC와의 인터뷰에서 금융계 거물 중 가장 최근 경고를 내렸다. 업계에서는 MIT에서 처음 선보인 것과 같은 분석을 사용하여 향후 몇 년 안에 알고리듬과 하드웨어가 어떻게 발전할지 탐색하는 것이 현명할 것이라는 의견이다.
그 밖의 소식들
- 오픈AI가 ChatGPT에 성인 대화 기능을 넣겠다고 했다(아르스 테크니카, 10월 16일). 샘 올트먼은 12월부터 인증된 성인 사용자가 ChatGPT와 야한 대화를 할 수 있도록 허용한다고 발표했다. “12월에는 ‘성인 사용자를 성인처럼 대우한다’는 원칙의 일환으로 연령 제한을 더욱 전면적으로 시행함에 따라, 검증된 성인을 위한 에로티카 등 더 많은 콘텐츠를 허용할 것입니다.”란다. 최근 정신 건강 문제에 대응하면서 ChatGPT를 상당히 제한적으로 만들었는데 이는 역으로 정신 건강 문제가 없는 사용자들에게는 챗봇의 유용성이나 재미를 떨어뜨렸다는 것이다.
사용자가 정신적 고통을 겪고 있을 때 더 잘 감지할 수 있는 새로운 도구를 갖추게 되어 오픈AI가 대부분의 경우 제한을 완화할 수 있게 되었다는 것이다. 12월 출시에서는 성인 콘텐츠에 대한 연령 확인이 구현될 예정이지만 아직 기술적인 세부 내용을 밝히지 않았다. 또는 시스템이 허용된 성인 콘텐츠와 정신 건강 문제를 시사하는 요청을 어떻게 구분할지는 구체적으로 밝히지 않았지만, 일반적으로 ChatGPT에서 진행 중인 채팅 내용을 읽고 오픈AI의 정책 지침에 위배되는 내용이 발견되면 채팅을 중단시키는 중재 AI 모델을 사용할 것이다. xAI의 그록(Grok)은 이미 성인 음성 모드와 3D 애니메이션 모델로 나타나는 매력적인 AI 동반자를 선보였다.
- 애플이 새로운 칩 M5를 선보이면서 온디바이스 AI 시대를 주도하겠다는 의지를 보였다(애플, 10월 15일). 차세대 10코어 GPU 아키텍처를 기반으로 GPU의 각 코어 내부에 전용 신경망 가속기(Neural Accelerator)를 통합하는 혁신적인 설계를 도입했다. 모바일 기기에서 생성형 AI 애플리케이션을 본격적으로 지원하겠다는 의미이다. 전작인 M4 대비 4배 이상의 GPU 성능, M1 대비 6배 이상의 AI 연산 성능을 제공한다고 한다. 14인치 맥북 프로, 아이패드 프로, 애플 비전 프로에 적용한다. 애플 인텔리전스의 성능이 좋아지고 애플 파운데이션 모델 프레임워크를 사용하는 개발자들에게 더 좋은 기회를 제공할 것으로 보인다. 과연 소비자들이 만족할 수준의 온디바이스 AI 모델을 보여줄 수 있는가를 지켜봐야 할 것이다.

- 메타(Meta), 블루 아울(Blue Owl)과 루이지애나 AI 데이터 센터 위한 300억 달러 사상 최대 민간 자금 조달 거래 성사(SeekingAlpha, 10월 17일). 메타플랫폼스가 루이지애나에서 진행 중인 첨단 AI 데이터 인프라 프로젝트를 위해 약 300억 달러 규모의 민간 자본 조달 거래를 성사시킬 예정이라고 블룸버그 뉴스가 이번 거래에 정통한 관계자들을 인용해 보도했다. 이는 역대 최대 규모의 민간 자본 거래다.
메타와 대체자산운용사 블루 아울 캐피털(Blue Owl Capital)은 루이지애나 주 리치랜드 패리시에 위치한 하이페리온 데이터 센터 부지의 소유권을 분할하며, 메타는 이 부지의 20%만을 보유하게 된다. 하이페리온은 전 세계 29개 메타 데이터 센터 중 최대 규모로, 미국 루이지애나 시골에 위치한 연면적 400만 평방피트의 복합 단지다. 모건스탠리는 총 300억 달러에 달하는 자금 조달을 위해 약 270억 달러의 부채와 25억 달러의 지분 투자를 특수목적법인(SPV)에 구조화해 해당 건설 사업의 자금 조달을 주선했다고 덧붙였다.
거래는 대규모 인프라 자금 조달을 위한 특수목적법인을 통해 구조화된다. 메타는 하이페리온 부지의 20% 소유권을 유지하며, 블루 아울이 과반 지분을 확보한다. 이는 디지털 인프라 자금 조달에서 민간 자본의 영향력이 커지고 있음을 보여준다. 메타는 이번 프로젝트의 개발자이자 운영자, 임차인이며, 이 사업은 2029년에 완공될 예정이다.
- 세일즈포스가 오픈AI의 위협에 대응해 AI 전략을 변경하다(디 인포메이션, 10월 15일). CEO 마크 베니호프는 드림포스 컨퍼런스에서 기업들이 AI를 효과적으로 활용하려면 “시간이 걸린다”며, AI의 역량이 “고객의 도입 속도를 앞지르고 있다”고 말했다. 베니오프는 또한 오픈AI의 ChatGPT 챗봇 사용자가 CRM 기록을 포함한 모든 종류의 세이즈포스 앱 데이터에 접근하고, 이러한 데이터를 분석하고 기업 업무를 자동화할 수 있는 세일즈포스 AI ‘에이전트’ 도구인 에이전트포스를 제어할 수 있도록 하는 파트너십을 공개했는데, 이는 그동안 자사의 슬랙을 통해서 하고자 했던 일이었으나 전략을 수정한 것으로 보인다. 오픈AI는 점점 더 세일즈포스와 경쟁하는 모드로 가고 있지만 빠르게 부상하는 AI 기술을 빠르게 자사 제품에 통합하고자 하는 의도다.
- 요수아 벤지오 교수가 의장을 맡은 국제 AI 안전 보고서의 첫 번째 업데이트가 공개되었다. 2025년 1월 이후 AI 역량의 주요 발전과 그에 따른 위험 영향을 중점적으로 다루고 있다 (국제AI안전보고서, 10월 14일). 주요 결론은 AI 역량은 “더 작고 똑똑한 모델 + 추론 강화” 방향으로 급진적 진화하고 있다는 것이다. GPT-5 세대 이후의 “논증형 모델(reasoning models)”의 기술적 진보와 그로 인한 생물·사이버·심리·사회적 리스크의 재부상을 경고하고 있으며, “AI의 두뇌가 커진 것이 아니라, 사고의 방식이 바뀌었다”는 점을 핵심으로 지적한다. 향후 AI 거버넌스는 단순한 크기 제한이 아닌 사고 구조·자율성·감시 가능성 중심의 관리 체계로 전환해야 한다는 메시지를 던지고 있다. 상세한 내용 요약은 여기를 보기 바란다.
- 시계열 처리 모델 OpenTSLM(아카이브, 10월 2일). 시계열 언어 모델(TSLM)은 텍스트와 함께 시계열(time-series)을 기본 모달리티로 하는 다중 모달 기반 모델로, 자연어로 된 시간 데이터에 대한 직접적인 추론, 설명 및 예측을 가능하게 한다. 모든 심장 박동, 가격 변동, 센서 펄스, 기계 로그, 그리고 사용자 클릭은 시간적 신호이지만 현재 모델은 이를 추론할 수가 없기 때문에 새로운 모델이 필요하다.
논문은 특히 대규모 언어모델(LLM)이 의료 분야에서 시계열 데이터를 다루지 못하는 한계를 해결하려고 시도했다. 저자들은 이를 “시간의 언어화(Time-Series Language Modeling)”로 해결하기 위해, 시계열 데이터를 LLM의 ‘자연언어 프롬프트’와 함께 직접 입력·추론할 수 있는 모델 구조(OpenTSLM)로 제안했다. 공개 데이터를 기반으로 학습된 경량 기반 모델인 OpenTSLM과 전문화된 데이터로 학습된 고급 독점 모델인 프론티어 TSLM이 있다. OpenTSLM은 ETH, 스탠퍼드, 하버드, 케임브리지, TUM, CDTM, 구글, 메타, AWS 등 다양한 분야의 과학자, 엔지니어, 개발자들로 구성된 팀이다.
- 앤스로픽이 ‘하이쿠’ 모델의 새 버전 4.5를 공개했다(테크크런치 10월 15일). 앤스로픽에 따르면 이 제품은 소넷 4와 비슷한 성능이며 비용은 3분의 1이고 속도는 두 배 이상이라고 한다. 하이쿠의 새로운 버전은 모든 무료 앤스로픽 플랜에서 즉시 사용 가능하며, 특히 무료 버전의 AI 제품에서 서버 부하를 최소화하면서 상당한 기능을 제공할 수 있어 특히 매력적일 것으로 예상한다.

- 캘리포니아의 새로운 법 SB 243에 따라 AI는 자신이 AI임을 밝혀야 한다(더 버지, 10월 14일). 캘리포니아 주지사 개빈 뉴섬은 주 상원의원 스티브 파딜라가 “전국 최초의 AI 챗봇 보호 장치”라고 주장한 상원 법안 243호에 서명했다. “컴패니언 챗봇과 상호 작용하는 합리적인 사람이 그 사람이 인간과 상호 작용한다고 오해할 수 있는 경우”, 새 법은 챗봇 제작자가 해당 제품이 인간이 아닌 AI라는 것을 “명확하고 눈에 잘 띄는 공지”를 해야 한다고 규정하고 있다. 이 법은 내년부터 시행된다.
- 안드레이 카파시가 드와케시 파텔 팟캐스트에 나와서 AGI는 아직도 10년 이상 기다려야 한다고 말했다. 또한 갑작스러운 특이점이 아닌 지속적인 발전에 의할 것이며 다음 10년은 에이전트를 신뢰할 수 있게 만들며 멀티모달을 지원하고 기억 능력을 갖추게 할 것으로 전망했다. 또한 자율 주행이 시간이 오래 걸리는 이유는 실제 세상은 정말 복잡하고 안전이 매우 중요하기 때문이라고. 진정한 자동화는 견고한 인지, 엣지 케이스 커버, 단순히 똑똑한 코딩이 아닌 시뮬레이션이 필요하다고 하면서 AGI도 유사한 복잡성과 병목을 만날 것이라고 예상했다.