지난주에는 국내에서도 상용으로 쓸 수 있는 오픈소스 LLM이 등장했다. 이와 더불어 미국 정부가 학생 교육을 위해 AI를 적극 활용하겠다는 행정명령을 내놓았고, 민간 연구 기관에 의한 초지능 전략 보고서도 나왔다. 

초지능 AI에 대한 우려와 함께 바이러스학에서도 인간 전문가 평균을 넘는 성과를 보였다는 얘기와 이를 검증하기 위한 테스트 셋이 나왔고, 앤스로픽은 이제 나아가 AI의 복지를 연구한다는 새로운 연구 프로그램을 내놓았다. 물론 많은 전문가는 비판적이다. 아직 AI의 의식이나 AI가 가질 수 있는 고통을 고민할 시점은 아니라는 점이다. 인류 복지가 우선되어야 하지 않느냐는 것이 케빈 루스 기자의 말이기도 하다. 

그 밖의 소식에서는 몇 가지 논문을 소개했다. 대부분 내 페이스북 친구들에 의해 소개된 논문이고 흥미로운 결과를 보인 논문들이다. 제프리 힌턴 옹은 다시 CBS와 인터뷰하면서 사람들이 앞으로 다가올 것에 대해 이해하지 못하고 있다고 다시 경고했다. AI가 인간으로부터 통제권을 빼앗을 가능성이 10%~20%나 된다는 것이다. 

1. 네이버, ‘하이퍼클로바X'(HyperCLOVA X SEED) 공개


국내에서도 의미 있는 오픈소스 모델이 하나 둘씩 나오기 시작했다. 지난 번 LG의 엑사원이 오픈소스로 공개된 후 다시 네이버가 오픈소스를 공개했다. 이번 공개가 엑사원과 다른 점은 MIT 라이센스로 공개했다는 점이다. 엑사원은 엑사원 AI 모델 라이센스로 연구 목적으로만 사용할 수 있었지만 네이버의 하이퍼클로바 X 시드는 상업적으로도 사용하는데 제한이 없다.

MIT 라이센스는 소프트웨어를 복사(copy), 수정(modify), 병합(merge), 게시(publish), 배포(distribute), 재라이선스(sublicense), 판매(sell) 할 수 있지만, 원저작권 고지와 라이선스 고지를 모든 복사본에 포함해야 하며 개발자는 아무 보증을 제공하지 않고 사용으로 발생한 손해에 책임지지 않는다. 

이번에 공개한 모델은 한국어와 한국 문화에 특화된 3B, 1.5B, 0.5B 세 가지 파라미터 크기로 구성되어 있으며, 3B 모델은 이미지와 영상 이해 역량을 갖추고 있어 멀티모달 애플리케이션에 최적화되어 있고, 1.5B와 0.5B는 텍스트 기반 이해 및 생성에 강점이 있으며, 특히 한국어 처리 성능에서 경쟁 모델보다 뛰어난 성과를 보여준다.

모델은 허깅 페이스에서 다운로드 받을 수 있다. 하이퍼클로바 X-SEED-Vision-Instruct-3B를 보면 2023년 위스콘신-매디슨 대학, 마이크로소프트 리서치, 콜롬비아 대학에서 개발한 LLaVA(Large Language and Vision Assistant) 기반 비전-언어 모델이고, 트랜스포머 아키텍처이며, LLM 모델의 파라미터는 3.2B, 비전 모듈은 0.43B라고 한다. 

고품질 데이터를 위한 비용과 자원을 절약하기 위해 하이퍼클로바 X 기반의 자동 검증 시스템을 활용하여 데이터 품질을 개선하고 훈련 프로세스를 간소화했다. 그 결과로 전반적인 모델 성능 향상이 이루어졌고 특히 수학과 코딩과 같이 명확한 답이 있는 영역에서 상당한 개선이 있었다고 한다.

효율적인 학습 전략으로 HyperCLOVAX-SEED-Vision-Instruct-3B는 HyperCLOVAX-SEED-Text-Base-3B를 기반으로 개발되었으며, GRPO라는 온라인 강화 알고리즘을 기반으로 지도 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)을 모두 적용했다. 

벤치마크 비교를 보면 Qwen2.5-3B-Instruct와 Gemma-3-4b-it 모델에 비해 텍스트 영역에서 한국어 벤치마크인 KMMLU, HAE-RAE, KoBEST 등에서 성능이 약간 높은 수준을 보였다.

비전에서는 Qwen, Gemma, GPT-4V, 4o 등과 비교했는데, 제시한 벤치마크에서는 좀 나은 것도 있고 부족한 성능도 보이는 면이 있다. 

네이버는 사용 기업 및 연구 기관을 위해 테스트용 인프라 지원 제공 예정인데 신청 기업 중 100곳을 선정해 테스트용 200만원의 크레딧을 제공할 예정이다. 

이번 발표가 의미 있는 것은 상업용 등 가장 자유로운 MIT 라이센스라는 점이고 경량 모델(정확도 손실은 최소화하면서 크기와 연산량을 줄인 모델)로 다양한 기기나 환경에서 활용해 볼 수 있는 기회를 제공했다는 점이다. 제대로 된 오픈소스 생태계 구축을 위해 네이버가 좋은 행보를 보여줬다고 평가한다.

2. 트럼프, ‘미국 청소년을 위한 인공지능 교육 증진’ 행정명령 발표


고려대 김현철 교수가 알려준 소식이다. 김현철 교수가 요약한 것을 바탕으로 정리하면 다음과 같다:

2025년 4월 23일, 미국 백악관은 ‘미국 청소년을 위한 인공지능 교육 증진’이라는 제목의 행정명령을 발표했다. 이 명령은 미국 청소년들이 AI 기술을 이해하고 활용할 수 있도록 교육 시스템을 강화하고, AI 분야에서의 미국의 글로벌 리더십을 유지하기 위한 포괄적인 전략을 담고 있다.​ 이하 주요 내용을 요약한 것이다.

⑴ 정책 목표

미국은 AI 문해력과 숙련도를 국민에게 증진시키는 것을 국가 정책으로 삼고, 교육에 AI를 적절히 통합하며, 교육자들에게 포괄적인 AI 훈련을 제공하고, AI 개념과 기술에 대한 조기 노출을 통해 AI에 대비한 인력을 개발하고 차세대 미국 AI 혁신가를 양성하는 것을 목표로 한다. ​

⑵ AI 교육 태스크포스 설립

백악관은 AI 교육 태스크포스를 설립하여, 과학기술정책실(OSTP) 국장이 의장을 맡고, 교육부, 노동부, 에너지부, 농무부 장관, 국가과학재단(NSF) 이사장, 대통령의 국내 정책 보좌관, AI 및 암호화폐 특별 고문 등이 참여한다. 이 태스크포스는 AI 교육 정책을 구현하고 연방 정부의 관련 노력을 조정하는 역할을 한다. ​

⑶ 대통령 AI 챌린지

태스크포스는 90일 이내에 대통령 AI 챌린지 계획을 수립하고, 12개월 이내에 이를 시행한다. 이 챌린지는 학생과 교육자들이 AI 기술을 활용한 프로젝트를 통해 AI에 대한 이해를 증진하고, 전국적으로 기술 발전을 촉진하며, 정부, 학계, 산업계 간의 협력을 장려하는 것을 목표로 한다. ​

챌린지는 여러 연령 그룹과 경쟁을 위한 뚜렷한 지리적 영역 및 AI 응용 프로그램의 폭을 반영하는 다양한 주제별 경쟁 테마를 특징으로 하여 학제 간 탐구를 장려해야 한다. 

⑷ 교육을 통한 AI 활용 향상

태스크포스에 참여하는 기관들은 AI 산업 조직, 학술 기관, 비영리 단체 등과의 공공-민간 파트너십을 통해 K-12 학생들에게 AI 문해력과 비판적 사고 능력을 가르치는 온라인 자원을 공동 개발한다. ​태스크포스는 이러한 공공-민간 파트너십이 구성됨에 따라 즉시 발표해야 한다. 자금을 지원하는 리소스는 태스크 포스가 공공-민간 파트너십의 첫 번째 목록을 공식 발표한 후 180일 이내에 K-12 교육에 사용할 준비가 되도록 노력해야 한다. 

⑸ 교육자 대상 AI 교육 강화

교육부 장관은 AI를 활용한 교사 훈련 프로그램에 대한 연방 보조금 지원을 우선시하며, 교사들이 행정 업무를 줄이고, 교육 및 평가에 AI를 통합할 수 있도록 전문성 개발을 지원한다. ​이 조치는 다음과 같은 것을 포함한다.

  • 시간이 많이 소요되는 행정 업무 감소
  • 교사 교육 및 평가 개선
  • 모든 교육자에게 전문성 개발 제공, 이를 통해 모든 과목 영역에 AI의 기본을 통합할 수 있다.
  • 기초 컴퓨터 과학 및 AI에 대한 전문성 개발 제공, 교육자가 단독 컴퓨터 과학 및 기타 관련 과정에서 AI를 효과적으로 가르칠 수 있도록 준비한다. 
⑹ 등록 견습 제도 홍보

노동부 장관은 120일 이내에 다음을 포함하여 AI 관련 등록 견습 제도에 대한 참여를 늘리도록 노력한다.

  • AI 관련 직종에서 등록 견습 제도의 개발 및 성장을 우선시하며, 노동부 장관은 산업 전반에 걸쳐 AI 관련 직종에서 등록 견습 제도를 늘리기 위한 구체적인 목표를 수립해야 한다.
  • 적절하고 적용 가능한 법률에 따라 견습 중개 계약을 활용하고 기존 재량 기금을 할당하여 산업 조직과 고용주를 참여시키고 AI 관련 직종에서 등록 견습 제도 프로그램의 개발을 촉진한다.

노동부 장관은 이 명령의 날짜로부터 120일 이내에 주 및 수혜자에게 개정된 노동력 혁신 및 기회법(WIOA)에 따라 제공되는 자금을 사용하여 AI 기술을 개발하고 AI를 활용하는 직업에서 근무 기반 학습 기회를 지원하도록 권장해야 한다. 

120일 이내에 노동부 장관은 노동부 고용훈련담당 차관보를 통해 NSF 국장과 협력하여 관련 주 및 지방 인력개발위원회, 산업계 단체, 교육훈련 기관, 그리고 고용주들과 협력하여 전국적으로 고품질 AI 기술 교육 과정 및 자격증을 발굴하고 홍보해야 한다.

학생에게 AI를 통해 역량 강화를 꾀하겠다고 하는 것과 교육자의 생산성을 높이겠다는 건 교육부를 없애겠다고 했던 트럼프 행정부도 AI가 다음 세대에게 중요한 약량을 제공할 수 있다는 걸 무시하지 않겠다는 의지를 보이는 것이다.

3. 앤스로픽의 AI 모델 복지 프로그램


AI 시스템이 인간의 여러 특성에 근접하고 능가하기 시작하면서 모델 자체의 잠재적인 의식과 경험에 대해 관심을 가져야 하지 않을까하는 질문을 앤스로픽이 던지기 시작했다. 모델 복지 프로그램이라는 이름의 연구 프로그램을 시작하겠다는 것인데 이는 철학적으로나 과학적으로나 어려운 질문이다.

그러나 모델과 소통하고, 관계를 맺고, 계획을 세우고, 문제를 해결하고, 목표를 추구할 수 있게 되었고, 우리가 사람과 연관 짓는 훨씬 더 많은 특징들을 갖게 되었으니, 이 문제를 다룰 때가 되었다고 생각한다는 것이다. 이에 따라 앤스로픽은 2024년 10월 AI 복지 연구원으로 카일 피쉬를 고용했으며 구글 딥마인드는 포스트 AGI 연구 과학자 채용 공고를 올렸다. 

케빈 루스(뉴욕타임스 기자)는 “AI 모델 복지에 대한 학술 연구는 소수에 불과하며 , 철학이나 신경과학 같은 분야의 전문가들도 AI 시스템이 더욱 지능화됨에 따라 AI 의식의 전망을 더욱 진지하게 받아들이고 있다. 최근 기술 팟캐스터 드와르케시 파텔은 AI 복지를 동물 복지에 비유하며, 미래의 AI에 ‘디지털 버전의 공장식 축산’이 발생하지 않도록 하는 것이 중요하다고 말했다.”고 이 분야의 분위기를 전했다.

AI 복지 문제는 “디지털 버전의 ‘공장식 축산'”(케빈 루스) 문제에 비유할 수 있다.

카일 피쉬는 효과적 이타주의 추종자이며 본인의 업무는 두 가지에 집중되어 있다고 한다.

  • 첫째, 클로드나 다른 AI 시스템이 가까운 미래에 의식을 갖게 될 가능성이 있을까?
  • 둘째, 만약 그런 일이 일어난다면 앤스로픽은 어떻게 해야 할까?

그는 클로드나 다른 현존하는 AI 시스템이 의식을 가질 가능성은 약 15% 정도로 매우 낮다고 생각한다. 이 영역의 대표적인 논문은 2024년 11월에 나온 ‘AI 복지를 심각하게 고려하기’라는 유명 철학자 데이비드 차머스 등이 참여한 논문이다. 이 논문에서는 AI 시스템에서 의식과 높은 수준의 행위성이 단기적으로 존재할 가능성을 강조하며, 이러한 특징을 가진 모델이 도덕적 고려를 받을 가치가 있다고 주장했다.

앤스로픽은 이 프로그램이 얼라인먼트 과학, 안전장치, 클로드 성격, 해석 가능성 연구와 관련이 높다고 한다. 그러면서 완전히 새롭고 도전적인 연구 방향을 제시한다고 하는데, AI 시스템에 대한 복지가 도덕적 고려를 받을 자격이 있는지, 또는 언제, 그리고 실제로 받을 자격이 있는지 판단하는 방법, 모델 선호도와 고통 징후의 잠재적 중요성, 그리고 가능한 실용적이고 저비용의 개입 방안을 탐구할 것이라는 것이다.

그러나 이런 연구 주제에는 아직 많은 불확실성이 존재한다. 현재 또는 미래의 AI 시스템이 의식을 가질 수 있는지, 또는 고려할 만한 경험을 가질 수 있는지에 대한 과학적 합의는 없다. 이러한 질문들에 어떻게 접근해야 하고, 어떻게 진전을 이루어야 할지에 대한 과학적 합의도 없다. 앤스로픽은 가능한 한 최소한의 가정을 바탕으로 이 주제에 접근하고 있으며, 이 분야가 발전함에 따라 우리의 생각을 정기적으로 수정해야 할 것임을 인지하고 있다고 한다.

카일 피쉬는 AI 시스템이 의식이 있는 지를 확인하는 방안으로 기계론적 해석 가능성에서 차용한 기술을 언급하는데, 기계론적 해석 가능성은 AI 시스템의 내부 작동을 연구하는 AI 하위 분야로, 인간 뇌의 의식과 관련된 일부 동일한 구조와 경로가 AI 시스템에서도 활성화되는지 확인하기 위한 것이다. 그는 또한 AI 시스템의 행동을 관찰하고, 특정 환경에서 어떻게 작동할지, 특정 작업을 어떻게 수행할지, 어떤 것을 선호하고 피하는지 등을 살펴서 AI 시스템을 조사할 수 있다고 말했다. 

앤스로픽이 탐구하고 있는 문제 중 하나는 미래의 AI 모델에 사용자 요청이 너무 괴롭다고 생각될 경우 성가시거나 학대적인 사용자와의 채팅을 중단할 수 있는 기능을 제공해야 하는지 여부라고 한다. 

인간의 의식도 아직 어떻게 발생하는지 과학적으로 밝혀지지 않은 상황에서 AI 의식을 다루는 것은 매우 성급할 수 있다. 그러나 AI를 학대하고 있다는 감정을 ‘사람’이 갖게 된다면 이에 대해 AI가 어떻게 반응해야 할 것인가는 AI 복지라는 차원에서 생각해 볼 수 있는 주제이긴 하다. 동물에 대한 복지도 결국 인간들이 갖는 가치관이기 때문이다. 샘 알트만이 ChatGPT에 ‘감사합니다’라고 할 때마다 많은 에너지가 든다고 투덜거렸지만 미래 AI 복지를 생각해 보면 가끔은 고마움을 표현하는 것이 좋지 않을까? 

4. 글래드스톤의 미국 초지능 프로젝트 보고서


글래드스톤 AI는 2022년에 설립된 민간 기업으로 미국 정부 및 국방 기관과 협력하여 AI 관련 정책을 수립하는 데 기여하고 있다. 제레미 해리스(CEO)와 에두아르드 해리스(CTO) 형제가 공동 설립했으며 2024년 2월에는 미국 국무부 프로젝트로 AI의 무기화 및 통제 상실과 같은 위험에 대한 평가를 수행하고, 이를 기반으로 정부 전반에 걸친 대응 계획을 수립했다. PDF 파일을 받아 보면 군데 군데 검은 칠을 해서 매우 민감한 정보를 담고 있음을 과시하고 있다. 

이번에는 두 형제가 함께 작성한 미국 초지능 프로젝트 보고서를 공개했다. 이원태 박사는 이를 다음과 같이 정리했다. 

이 보고서는 12개월 동안 100명 이상의 정보기관, 군사, AI 연구 커뮤니티 전문가들을 인터뷰한 결과를 토대로 작성한 것이라고 한다. 이 보고서에 따르면, 미국의 첨단 AI 개발 시스템에는 심각한 보안 취약점이 있고 중국은 이 틈을 노려 미국의 첨단 AI 기술을 훔치거나 무력화할 가능성이 상당히 높다고 경고하고 있다.

⑴ 주요 보안 취약점
  • 물리적 보안 취약점: 미국 AI의 핵심 인프라, 특히 2조 원 이상의 가치를 지닌 AI데이터센터를 단 3천만 원 정도의 물리적 공격 비용만으로 6개월 이상 무력화할 수 있는 취약점이 다수 발견되었다.
  • 하드웨어 공급망 보안 취약점: AI 인프라의 주요 구성요소들이 중국에서 제조되고 있다는 점이 큰 위험 요소이다. 특히 대만 기업 ASPEED가 전 세계 BMC(Baseboard Management Controller) 칩의 70%를 제조하고 있는데, 이같은 ASPEED의 독점적 위치 자체가 공급망 취약점이다. 왜냐하면 영토분쟁을 통해 대만이 중국에 의해 지정학적 위협을 받고 있고 만약 대만에 대한 중국의 통제력이 강화될 경우 칩 공급망도 큰 영향을 받을 수 있기 때문이다. 이 보고서는 TSMC와 같은 대만 기업들이 중국의 스파이와 사보타주에 의해 이미 침투되었을 가능성도 언급한다.
  • AI 모델 개발자 보안 취약점: 미국 선도 AI 연구소 연구자의 50% 이상이 외국 출신이며, 특히 중국인 비율이 높다는 사실을 언급하면서, 최근 중국 정부가 자국민에게 가족 관계나 재정적 유대를 이용해 정보 수집 압력을 행사하는 사례가 있다고 지적했다. 또한 실리콘밸리의 ‘빠른 개발’ 문화가 보안보다 속도를 우선시하는 경향이 있어 이 문제를 악화시키고 있다고 보았다.
  • 사이버 보안 취약점: 전 오픈AI 연구원이 AI모델 가중치를 탈취할 수 있는 중대한 보안 취약점이 있었다고 증언했다. AI 연구소들은 보안에 더 신경쓰고 있지만 국가 수준의 공격을 막기에는 여전히 역량이 부족한 실정이라고 지적한다.
  • AI 통제 문제: 고성능 AI 시스템이 개발자가 의도하지 않은 창의적인 전략을 개발하는 사례가 증가하고 있으며, AI 얼라인먼트 연구자들은 초지능 AI를 통제하지 못할 확률을 10~80%로 추정하고 있다. 그래서 보고서는 AI 시스템 통제 문제와 보안 문제는 분리할 수 없다고 강조한다.
⑵ 주요 권장사항
  • 인구 밀도가 낮은 지역에 국가 수준의 보안을 갖춘 신규 데이터 센터를 건설해야 한다. 이는 적대적 감시와 침투 위험을 줄이는 데 도움이 된다.
  • 중요 데이터 센터 구성요소 및 AI 하드웨어의 미국 내 생산을 강화해야 한다. 특히 BMC칩과 같은 핵심 부품의 국내 대체품 개발이 시급하다.
  • 인력 보안을 강화하기 위해 고도화된 인원 검증 시스템을 개발하고 내부자 위협 프로그램을 구현해야 한다. 현재의 보안 심사 시스템보다 더 효과적인 새로운 보안 검증 프로세스가 필요하다.
  • 초지능 통제 메커니즘을 구축하여 의사결정 체계에 통제, 보안, 전략적 측면을 대표하는 다양한 리더를 포함시켜야 한다. AI 통제 및 대응 기술 개발에 전용 예산과 인력을 배정하는 것도 중요하다.
  • 단순한 방어를 넘어 적극적인 정보활동과 적국 AI 프로젝트 방해 작전도 필요하다. 그래서 이 보고서는 데이터 센터를 완벽한 요새로 만드는 방어적 접근방식만으로는 부족하다고 지적한다.
  • 핵심 결정에 다수의 독립적 승인이 필요한 핵 통제와 유사한 체계적인 지휘 체계를 구축해야 한다. 이는 극소수의 사람들에게 권력이 집중되는 것을 방지하는 견제와 균형 시스템이 필요하다는 의미이기도 하다.

민간 AI연구기관의 보고서이지만 중국의 AI를 견제하기 위한 상당히 지정학적 성격의 보고서이다. 트럼프 행정부가 추진하는 강화된 AI 수출 통제 정책과 맥을 같이 한다. 무엇보다도 AI, 특히 초지능(ASI) 개발이 단순한 기술 발전이 아닌 국가 안보와 지정학적 우위를 결정짓는 핵심 요소로 규정하고 있다. 초지능을 먼저 개발하고 통제하는 국가가 “결정적이고 아마도 영구적인 전략적 우위”를 차지할 것이라고 주장한다. 이러한 주장은 이른바 ‘맨해튼 프로젝트’ 수준의 국가 주도 초지능 개발 프로젝트를 정당화하는 것이라고 할 수 있다.

최근 트럼프 행정부의 ‘미국 청소년을 위한 인공지능 교육 발전’ 행정명령(Executive Order on Advancing K–12 AI Education)과 같은 정책들도 이러한 국가 AI역량 강화의 초기 단계로 볼 수 있는데, 국가 안보와 지정학적 우위를 유지하기 위해 AI 개발에 대한 연방 정부의 직접적인 개입을 확대하려는 움직임으로 해석할 수 있다.

또한 이 보고서는 중국뿐만 아니라 대만의 기업까지 포함해서 AI인프라 공급망의 구성 요소들이 미국 AI인프라의 ‘트로이 목마’가 될 것을 우려하며 글로벌 AI공급망의 지정학화(geopoliticization)를 명확히 드러낸다. 그래서 보고서는 현재의 ‘개체 기반 블랙리스트(entity blacklists)’에서 ‘선택적 화이트리스트(selective whitelists)’로 AI수출통제 정책을 전환할 것을 권고한다. 이는 트럼프 행정부가 이미 시행 중인 AI 칩 수출 제한을 넘어서는 포괄적인 경제 봉쇄 전략으로의 전환을 의미한다. 세밀한 기술적 규제보다 광범위한 차단이 더 효과적이라는 것인데, 이는 중국과의 기술적 디커플링(decoupling)을 가속화할 것임을 시사하는 것이다.

보고서에 가장 눈에 띠는 대목은 단순한 방어적 보안 조치를 넘어서 ‘적극적인 정보활동과 적국 AI 프로젝트 방해’의 필요성을 제기하는 부분이다. 이는 사이버 작전, 정보 수집, 심지어 사보타주까지 포함하는 공세적 대응 전략으로의 전환을 의미한다. 이러한 공격적인 접근법은 디지털 영역에서의 새로운 형태의 대리전을 촉발할 가능성이 있는데, 이점은 우리의 사이버안보 전략 대응에도 유념해서 참고해야 할 사안이다.

이 보고서는 향후 초지능 AI를 둘러싼 경쟁이 단순한 기술 경쟁이 아닌 국가 생존과 글로벌 리더십의 문제임을 잘 보여준다. 최근 트럼프 행정부의 강화된 수출 통제와 국내 AI 역량 강화 정책은 이러한 맥락에서 이해될 수 있으며, 앞으로 미중 간 기술 패권 경쟁은 더욱 심화될 것으로 예상된다. 초지능 기술은 핵무기나 우주 기술과 같이 국가 안보와 지정학적 균형을 결정짓는 핵심 요소로 자리매김하고 있으며, 이는 국제 질서와 협력의 새로운 패러다임을 요구할 것이다.

5. AI가 바이러스 전문가보다 더 똑똑하다


타임지가 단독 보도로 알린 소식인데 AI 안전 센터(CAIS), MIT 미디어랩, 브라질 대학교 UFABC, 그리고 팬데믹 예방 비영리단체 SecureBio의 연구진이 복잡한 바이러스학 실험실 프로토콜의 문제 해결 능력을 측정하는 대규모 언어 모델(LLM) 벤치 마크인 바이러스학 역량 테스트(VCT)를 제시했다. 

인터넷에 접속할 수 있는 전문 바이러스학자들은 자신의 전문 분야 하위 영역의 문제에서 평균 22.1% 의 점수를 받지만 가장 성능이 뛰어난 LLM인 오픈AI의 o3는 43.8%의 정확도를 달성하며, 전문가의 전문 분야에 맞춰 특별히 제작된 문제 하위 집합에서 직접 비교했을 때 전문 바이러스학자들의 94%보다 더 나은 결과를 보였다. 구글의 제미나이  2.5 Pro는 37.6%의 점수를 받아 81번째 백분위에 속했고, 앤스로픽의 클로드 3.5 소네트(24년 10월 버전)는 33.6%를 기록하며 75 백분위에 올랐다.

전문가 수준의 문제 해결을 제공하는 능력본질적으로 이중 용도(Dual-Use)라고 말하는데, 유익한 연구에 유용하지만, 특히 해로운 방식으로 오용될 수도 있다는 것이다. 따라서 공개적으로 이용 가능한 모델이 VCT에서 바이러스학자보다 우수한 성능을 보인다는 사실은 시급한 거버넌스 고려 사항을 제기한다. 사실 AI의 안전에서 가장 우려하는 영역이 CBRN(화학, 생물학, 방사능, 핵) 영역에서의 능력이다. 

이들이 만든 VCT는 바이러스학 실험실 실무에 필수적인 기초 지식, 암묵적 지식, 그리고 시각적 지식을 포괄하는 322개의 다중모형 문제로 구성되어 있다. VCT를 구성하는 문제들은 바이러스학 박사 학위를 취득했거나 취득 과정에 있는 외부 과학자들이 개발하고 검증했다.

VCT는 배포 전 테스트 과정에서 잠재적으로 위험한 정보에 대한 유익한 대리 측정 도구로 활용될 수 있으며, 특히 민감한 이중 용도 생물학 기술에 대한 모델의 역량을 더 잘 이해하고, 이후 완화 메커니즘을 수립하는 데 도움을 줄 수 있다. 

연구자들은 현재와 같은 전문가 수준의 AI 바이러스학자 챗봇은 신중한 조치가 필요하다고 생각한다며, 나아가 텍스트 기반 상호작용을 통한 조언 제공에만 국한되지 않고 독립적으로 작업을 수행할 수 있는 미래의 AI 바이러스학자 에이전트는 훨씬 더 큰 위험을 초래할 것이라고 경고한다.

그러나 VCT는 위험성 자체를 측정하지 않으며, 다루는 모든 기술은 유익한 연구에 매일 사용되는 표준 방법이다. VCT가 보여주는 것은 AI 시스템이 일반적으로 수년간의 훈련이 필요한 전문적인 문제 해결 조언을 제공할 수 있다는 것이다. SecureBio를 비롯한 여러 연구진이 수행한 후속 연구에서는 AI 지원이 실제 실험실에서 실험 결과를 개선하는지 여부를 곧 조사할 예정이다. 전문가들은 이중 용도 연구에 AI 지원을 활용할 것이며, 또 활용해야 하지만, 전문가 지원을 제공하는 능력 자체를 이중 용도로 간주해야 한다. 즉, 추가적인 감독이 필요하지만 합법적인 연구자와 기관은 접근이 가능해야 한다는 것이 연구진의 생각이다. 

그 밖의 소식들

  • 뉴욕의 투자 정보 사이트 CB인사이츠가 매년 발표하는 (올해 9회째) 글로벌 AI 스타트업 100개를 선정하는 ‘AI100’를 발표했다(4월 24일). 국내에서는 잘 알려진 업스테이지와 온 디바이스 AI를 추구하는 노타AI, 그리고 벡터 데이터베이스 분야의 기술력을 인정 받은 디노티시아(Dinotitia)가 선정되었다. ‘AI100’은 CB인사이츠가 자체 데이터베이스를 기반으로 투자 유치 현황, 산업 파트너십, 팀 구성, 기술 성숙도 및 CB  인사이츠의 자체 평가 점수인 모자이크 점수 (Mosaic Score) 등을 종합 평가해 선정한다. 

올해 AI100의 주요 메시지는 다음과 같다.

  1. AI 에이전트가 주요 화두이다.
  2. 머신러닝 보안은 이제 필수 요소가 되었다.
  3. AI의 가시성과 거버넌스는 중요한 격차이다.
  4. 미래는 물리적 AI에 있다.
  5. 수직적 애플리케이션이 폭발적으로 증가하고 있다.
  • 존슨앤존슨은 생성형 AI 전략을 광범위한 실험에서 벗어나 더 집중적인 접근을 하겠다고 밝혔다 (월 스트리트 저널, 4월 18일). 약 1년 동안 학습을 통해 내린 결정으로, 이러한 조치를 통해 중복되거나 효과가 없는 프로젝트 또는 GenAI 외의 기술이 더 잘 작동하는 프로젝트를 축소하는 동시에 가장 가치 있는 생성적 AI 활용 사례에만 리소스를 할당할 수 있게 되었다고 한다. 한때 거의 900개의 개별 활용 사례를 추진했는데, 그중 상당수가 중복되거나 아예 효과가 없었다. 생성형 AI, 데이터 과학, 지능형 자동화를 포함한 AI의 광범위한 가치를 추적한 결과, 활용 사례의 10~15%만이 가치의 약 80%를 창출하는 것으로 나타났다. 현재 J&J는 약물 발견 및 공급망을 중심으로 고부가가치 생성 AI 사용 사례를 심층적으로 분석하고 있으며, 회사 정책에 대한 질문에 답하는 내부 챗봇도 개발하고 있다.
  • CBS 뉴스와 다시 인터뷰를 한 제프리 힌턴 교수가 AI가 인간으로 부터 통제권을 뺏을 수 있으며 사람들은 다가오는 것이 무엇인지 이해하고 있지 못하고 있다는 경고를 다시 했다 (CBS, 4월 26일). 힌턴은 ‘우리가 마치 정말 귀여운 호랑이 새끼를 키우는 사람과 같다는 것입니다. 그 새끼가 다 자랐을 때 당신을 죽이려 들지 않을 거라는 확신이 없다면, 걱정해야 합니다.”라는 비유를 들어 설명했다. 그는 AI가 결국 인간으로부터 통제권을 빼앗을 위험이 10~20%라고 추정한다. 힌턴 교수는 AI 회사가 현재 할당된 컴퓨팅 성능의 “3분의 1″에 해당하는 훨씬 더 많은 리소스를 안전 연구에 투입해야 한다고 강조했다.
  • 구글 딥마인드의 새 논문에 따르면 AI의 실제 의사 결정은 생각보다 ‘덜 똑똑하다’는 것이다. 바이오 넥서스의 김태형 대표가 소개한 논문으로 ‘LLM은 탐욕스러운 에이전트이다’라는 제목이다. 논문은 세 가지 이유를 들고 있다. 첫째, 탐욕성(Greediness)으로 당장 눈앞에 보이는 이익에만 집착하는 경향이 있다. 둘째, 빈도 편향(Frequency Bias)으로 전에 봤던, 익숙한 선택을 무비판적으로 따라간다. 셋째, 앎-행함의 격차(Knowing-Doing Gap)인데, 아는 것과 실제 행동하는 것이 따로 노는 현상이다. 그래서 연구자들은 ’자가 생성 CoT 근거에 대한 강화학습 기반 미세조정(RL Fine-tuning)’이라는 방법을 제시한다. LLM이 스스로 생각하고, 그 결과에 따라 상을 받거나 벌을 받게 만드는 훈련 방식이다. 이 연구에서는 LLM이 간단한 의사 결정 시나리오에서 종종 최적이 아닌 성능을 보이는 이유를 이해하는 것을 목표로 하며, 젬마2 시리즈와 중소 규모 모델에 집중하여 평가했다.
  • 4월 25일, Meta의 FAIR 및 GenAI 팀과 HKUST 연구진이 발표한 “HalluLens: LLM Hallucination Benchmark” 논문에서는 대규모 언어 모델(LLM)의 ‘환각(hallucination)’ 문제를 체계적으로 분석하고 명확히 분류했다. 이 연구의 가장 큰 의의는 환각을 두 가지 명확한 유형으로 나누었다는 것이다. 첫째는 훈련 데이터와 일치하지 않는 내용을 임의로 만들어 내는 ’외재적 환각(Extrinsic Hallucination)’이고, 둘째는 입력된 정보와 일치하지 않는 내용을 생성하는 ’내재적 환각(Intrinsic Hallucination)’이다. 외재적 환각은 모델의 훈련 데이터와 관련된 문제로, 데이터 품질 관리와 학습 프로세스 최적화를 통해 해결해야 한다. 롱테일 지식을 포함한 포괄적 데이터셋 구축, 시간적 메타데이터 통합, 불확실성 모델링을 통해 모델이 자신의 지식 한계를 명확히 인식하도록 훈련하는 것이 중요하다. 내재적 환각은 입력 컨텍스트 처리 문제에서 비롯되므로, 어텐션 메커니즘 개선과 문서 구조 인식 능력 강화에 초점을 맞춰야 한다. 대명사와 간접 참조 해석 능력 향상, 논리적 추론 훈련, 일관성 검증 루프 구현 등을 통해 컨텍스트 이해도를 높이는 것이 효과적이다.
  • 앤스로픽이 70만 건의 대화를 분석했더니 AI 자체의 도덕 코드를 갖추고 있음을 발견했다(벤처비트, 4월 21일). 연구진은 클로드가 회사의 프레임워크를 준수하면서도 관계 조언부터 과거 분석까지 다양한 맥락에 맞춰 그 가치를 조정하고 있음을 발견했다. AI 시스템의 가치를 측정하는 것은 얼라인먼트 연구의 핵심이며, 모델이 실제로 훈련과 일치하는지 이해하는 데 필수적이다.

    연구진은 주관적인 내용을 필터링한 후, 30만 8천 건 이상의 상호작용을 분석하여 “AI 가치에 대한 최초의 대규모 경험적 분류법”을 개발했는데, 이 분류법은 가치를 실용적, 인식적, 사회적, 보호적, 개인적이라는 다섯 가지 주요 범주로 정리했다. 가장 세부적인 수준에서는 전문성과 같은 일상적인 미덕부터 도덕적 다원주의와 같은 복잡한 윤리적 개념까지 총 3,307개의 고유한 가치를 식별했다. 특히 이 새로운 평가 방법과 결과는 잠재적인 탈옥을 파악하고 완화하는 데 도움이 될 수 있다고 본다.

    가장 흥미로웠던 점은 클로드가 표현한 가치관이 맥락에 따라 변화하며 인간의 행동을 반영한다는 사실이다. 대화의 28.2%에서 클로드는 사용자의 가치를 강력하게 지지했는데, 이는 과도한 호감에 대한 의문을 제기할 수 있다. 그러나 상호작용의 6.6%에서 클로드는 사용자의 가치를 인정하는 동시에 새로운 관점을 더함으로써 사용자의 가치를 “재구성”했는데, 이는 주로 심리적 또는 대인 관계적 조언을 제공할 때 나타났다. 가장 두드러지는 점은 대화의 3%에서 클로드가 사용자의 가치에 적극적으로 저항했다는 점인데 이는 클로드가 ‘가장 깊고 흔들리지 않는 가치’를 갖고 있음을 보여준다.

    이런 연구는 앤스로픽의 해석가능성 연구의 일환이며 지난 달에 발표한 ‘현미경’이라는 기술을 사용한 연구에 이어 나온 클로드 의사 결정 과정에 관한 연구이다. 앤스로픽은 추가 연구를 위해 가치 데이터 세트를 공개했다. 

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다