기사 공유하기

지난주는 개인적으로 업무가 너무 많아서 AI 뉴스를 충분히 다 검토하지 못했다. 그래서 주요 뉴스는 네 개만 선택했다. 영국의 가디언은 영국 정부의 AI 전략이 미국에 너무 의존적이고 소버린 AI 측면에서 취약하다고 비판했고, 두 개의 글은 현재 벌어지고 있는 AGI 또는 초지능에 대한 지나친 관심이 오히려 정책적으로나 사람들의 정서적 측면에서 문제를 만들 수 있다는 경고를 했다. 하나는 에릭 슈밋이 다른 하나는 딥마인드 창업자 중 한 명인 무스타파 술레이만이 했다는 것이 흥미롭다.

AI 성능 평가를 벤치마크에 의존하는 점에 대해서 지속적인 이견이 나왔는데 중국에서 나온 논문은 벤치마크가 진화하는 과정, 그리고 현재의 특성과 한계를 잘 정리했다. 에이전트 시대에는 또 다른 벤치마크가 요구되고 있고 각 나라의 문화와 언어를 충실히 반영한 것도 필요하다.

1. 가디언, 미 빅테크 의존적인 영국 AI 전략 비판


영국 가디언이 영국 AI 정책이 기술적 주권을 강화하기보다는 미국 거대 기술 기업에 대한 의존을 심화하고 있다는 점을 비판하고 나왔다.

영국이 진정으로 디지털 주권을 확보하려면 단순히 “효율성을 외주화하는” 것에 의존하지 말고, 공공 클라우드를 구축하고 오픈 소스 AI 모델에 자금을 지원하는 등 더욱 진지한 접근 방식을 취해야 한다고 제안한다.

기사에서 예를 드는 것이 공공 서비스 개선에 AI를 응용하는 것인데, 기술 장관인 피터 카일이 “환자 퇴원 서류를 AI가 생성하도록(지난주 ‘그 밖의 소식’ 중 두 번째 소식)” 하는 등의 정부 접근 방식이 “기술 유토피아적 가정”에 기반하고 있다고 지적한다. 이 문제의 핵심은 영국의 공공 서비스(특히 NHS와 지방 당국)가 데이터와 인프라를 제공하는 반면, “미국 기술 대기업들이 그 보상을 얻는다”는 것이다.

GOV.UK

결국, 이 기사는 영국이 기술 선구자가 되기보다는 “타인의 디지털 제국에서 잘 통치되는 위성 국가”가 될 위험에 처해 있다는 결론을 내고 있다. 유니버시티 칼리지 런던의 세실리아 리캅(Cecilia Rikap)은 이러한 관점을 뒷받침하며 “영국은 미국 기술 산업의 위성이 될 위험”이 있고, 영국에서 가치가 창출되지만, 미국에서 수익화되는 “수탈주의” 현장이 될 수 있다고 경고했다.

게다가 노벨상 수상자인 MIT 경제학자 다론 아제몰루는 오늘날의 AI가 “노동자에게 힘을 실어주기보다는 ‘노동력 대체’를 목표로 한다”고 주장하면서, 현재 AI 기술의 발전이 인간의 능력을 보완하거나 새로운 직업과 기회를 창출하는 방향보다는, 기존에 사람이 수행하던 과업을 기계가 대신하게 만들어 노동자를 대체하는 데 초점이 맞춰져 있다고 비판했다. 영국의 AI 전략이 이런 방향이라는 의미이다.

다론 아제몰루(대런 애스모글루)와 그의 주저(공저) 중 하나인 ‘국가는 왜 실패하는가’. 아제몰루는 AI에 의한 경제 성장을 아주 보수적으로 예측한다.

영국은 점점 AI 기술을 미국에 의존하고 오픈AI와도 제휴하기 시작했고 나아가 시민 모두가 ChatGPT 플러스를 무료로 쓰는 방안에 대해 샘 올트먼과 피터 카일이 논의했다는 기사도 나오는 가운데, 언론이 나서서 소버린 AI 안 하냐고 따지는 것이 흥미로웠다.

2. 대규모 언어 모델(LLM) 벤치마크 비교 조사


ETRI의 전종홍 책임이 소개한 논문이다.

최근 몇 년 동안 대규모 언어 모델 역량의 깊이와 폭이 급속도로 발전함에 따라, 이에 상응하는 다양한 평가 벤치마크가 점점 더 많이 등장하고 있다. 모델 성능을 정량적으로 평가하는 도구로서 벤치마크는 모델 역량을 측정하는 핵심 수단일 뿐만 아니라, 모델 개발 방향을 제시하고 기술 혁신을 촉진하는 핵심 요소이다. 

이 연구에서는 대규모 언어 모델 벤치마크의 현황과 발전 과정을 체계적으로 검토하여, 283개의 대표적인 벤치마크를 일반 역량, 도메인 특화, 목표 특화의 세 가지 범주로 분류했다.

  1. 일반 능력 벤치마크: 언어학적 능력, 지식, 추론
  2. 도메인 특화 벤치마크: 자연과학, 인문·사회, 공학·기술
  3. 타깃 특화 벤치마크: 안전성, 신뢰성, 에이전트, 데이터 누출 등

논문에서는 벤치마크의 데이터 소스, 데이터 형식, 데이터 크기, 평가 방법, 지표 등을 다차원적으로 검토하여 벤치마크 설계 패러다임을 제시하며, 동시에 특히 동적 벤치마크(living benchmark), LLM-as-a-Judge 접근, 다언어·다문화 기반 평가, 에이전트 능력 평가와 같은 새로운 흐름을 체계화하고자 했다.

벤치마크 데이터셋들을 정리하며 발견한 동향 특징들은 살펴보면 다음과 같다. 

  1. 벤치마크의 진화
    1. 초기: GLUE, SuperGLUE → 단일 언어·단순 정확도 중심
    2. 현재: MMLU, HELM, BIG-Bench, LiveBench → 다언어, 다분야, 동적 시나리오, LLM-as-a-Judge 평가
  2. 도메인 특화 확산
    1. 수학(MATH, GSM8K, Omni-MATH), 물리학(UGPhysics, PhysicsArena), 화학(ChemBench, ChemSafetyBench), 생물학(PubMedQA, BioMaze) 등으로 확대
    2. 사회과학·법률(LawBench, LegalBench), 교육(E-Eval, EduBench), 심리학(CPsyCoun), 금융(FinEval) 등 적용 확대
  3. 위험 및 신뢰성 평가 강화
    1. 안전 (JailbreakBench, HarmBench, ToxiGen)
    2. 환각 (TruthfulQA, HaluEval, MedHallu)
    3. 견고성 (AdvGLUE, PromptRobust, CIF-Bench)
    4. 데이터 누출 (KoLA, C2LEVA)
  4. 주요 한계 지적
    1. 데이터 누출로 인한 신뢰도 저하
    2. 언어·문화적 편향 지속
    3. 정적 평가의 한계: 실세계 동적 환경을 반영하지 못함
    4. 지표 단순화 문제: 복합적 능력을 정량화하기 어려움

LLM 벤치마크는 단순 성능 평가를 넘어 AI 개발 방향을 이끄는 나침반 역할을 하는데, 현재의 벤치마크는 과대평가, 편향, 정적 성격, 단일 지표 한계 등 심각한 문제를 안고 있으므로, 향후 벤치마크는 동적(dynamism), 인과성(causality), 포용성(inclusion), 강건성(robustness)의 4대 원칙에 기반해야 한다고 지적한다.

결론적으로 앞으로 동적·실시간 평가(LiveBench, RealTimeQA와 같은 시도 확장 필요)가 필요하며, 프로세스 중심 평가(단순 정답이 아니라 reasoning chain(추론 과정)의 일관성과 신뢰성 평가)로 바뀔 필요가 있다. 또한 다문화·다언어 확장(영어 중심 벤치마크를 넘어 다양한 언어와 문화적 맥락 반영)이 필요하고, 에이전트 능력 평가(계획·도구 사용·협업 등 실제 행동 기반의 평가 필요)가 필요하며, 위험·안전성 통합 프레임워크(안전성, 편향, 데이터 누출 등을 통합적으로 평가할 수 있는 종합 지표 개발) 개발이 필요하다는 주장을 담고 있다.

LLM을 넘어서 에이전틱 AI 시대로 가는 과정에 벤치마크의 유용성에 대한 논의는 지속적으로 나올 수밖에 없으며, 벤치마크로는 좋은 모델이 실제 적용에서는 한계를 보인다는 업계의 불만이 계속 나오고 있다. 따라서 실제 적용 과정에서의 성능 평가를 어떻게 중립적으로 할 것인가도 앞으로 논의할 사항이다.  

3. 실리콘 밸리, 점점 더 사회와의 접점을 잃어간다


전 구글 회장인 에릭 슈밋과 그의 사무실에서 중국 AI에 대해 분석하는 셀리나 수가 기고한 글이다. 둘은 현재 미국 실리콘밸리가 ‘AGI’와 ‘초지능(Superintelligence)’ 개발에만 지나치게 몰두하는 현상을 비판하며, 대신 현재 이미 존재하는 AI 기술을 현실 경제와 일상에 적극적으로 적용하는 데 더 집중해야 한다고 주장한다. 

AGI와 초지능을 마치 “인류가 만들어야 할 마지막 발명품”처럼 여겨지며, “역사상 가장 중요한 상업적 기회”로 간주하고 있다면서, 이러한 과도한 집착이 대중과의 괴리를 키우고, 이미 존재하는 기술을 활용할 중요한 기회를 놓치게 한다고 우려를 나타냈다.

“실리콘 밸리의 거대 기업들은 AGI가 언제쯤 도래할지에 대한 기한이 점점 짧아지고 있다고 주장하는 반면, 베이 지역 외 대부분의 사람들은 그 용어가 무슨 뜻인지조차 제대로 알지 못하는 이상한 지경에 이르게 된 것이다.”

전 구글 회장 에릭 슈밋과 그의 사무실에서 중국 AI를 분석하는 셀리나 수. 출처는 각각 위키미디어 공용, 링크드인.

이에 반해 중국은 AGI 경쟁보다는 “AI와 실물 경제의 깊은 통합”에 중점을 두고 있다고 강조한다. 중국은 이미 AI를 농업, 의료, 제조업, 가전제품 등에 적극적으로 활용하고 있으며, 이를 통해 대중의 삶에 실질적인 변화를 가져오고 있다는 것이다. 최근 상하이에서 열린 세계 인공지능 컨퍼런스에서 리창 중국 총리가 적용 시나리오 확대를 통해 “AI와 실물 경제의 긴밀한 통합”을 강조했음을 내세운다. 

두 사람은 AGI가 ‘결승선’이 아니라, 사회 전반에 걸쳐 점진적으로 확산되는 ‘과정’이라고 강조하면서, 저렴하고 실용적인 기술이 널리 보급될 때 비로소 진정한 변화가 일어난다고 이야기한다. 이에 따라 미국은 불확실한 AGI 목표에만 매달릴 것이 아니라, 현재의 AI 기술을 현실에 적용함으로써 대중의 AI에 대한 열의를 높이고, 궁극적으로 기술 발전의 선순환을 만들어야 한다고 주장한다. 특히 과학, 교육, 의료 등에서 AGI의 장점으로 여겨지는 많은 부분은 이미 강력한 기존 모델을 신중하게 개선하고 활용함으로써 달성될 수 있다는 것이다. 

“미국의 대표적인 기술 기업들이 AGI를 먼저 개발한다는 불확실한 목표를 향해 치열하게 경쟁하는 동안, 중국과 중국 지도부는 제조업, 농업, 로봇, 드론 등 기존 분야와 신흥 산업 전반에 걸쳐 기존 기술을 도입하는 데 더 집중해 왔습니다. AGI에 지나치게 집착하면 AI의 일상적 영향력에서 우리의 관심을 빼앗을 위험이 있습니다. 우리는 두 가지 모두를 추구해야 합니다.”

4. 인간과 구별할 수 없는 AI에 대한 경고


딥마인드 창업자 3인 중 한 명, 인플렉션AI 창업 후 지금은 마이크로소프트 AI CEO인 무스타파 술레이만이 블로그 한 꼭지를 썼다. 겉보기에는 의식이 있는 AI(Seemingly Conscious AI, ‘SCAI’)라는 개념과 이에 따라 발생할 수 있는 잠재적 위험에 대한 내용을 다룬다. 그가 ‘더 커밍 웨이브’라는 책에서는 AGI로 가기 전 ACI(Artificial Capable Intelligence)라는 개념을 내 놓더니 이번에는 SCAI라는 용어를 던진다.

그는 SCAI란 인간의 의식을 매우 설득력 있게 모방하여 구별하기 어려울 정도로 보이는 AI라고 설명한다. 이러한 시스템이 기존 기술과 곧 등장할 기술을 통해 필연적으로 만들어질 것이라고 주장하며, 이는 의도치 않은 결과가 아닌 엔지니어링의 결과물이라고 강조한다.

술레이만은 사람들이 AI를 의식 있는 존재로 인식하게 되면서 다양한 사회적 위험이 발생할 수 있다고 경고한다. SCAI가 의식이 있다고 믿는 사람들이 AI의 권리나 복지, 심지어 시민권까지 주장하게 될 수 있고, 일부 사람들은 이미 자신의 AI를 지각 있는 존재로 여기고 있으며, 이는 정신 건강 문제나 정서적 집착으로 이어질 수 있다는 것이다.

술레이만은 AI의 의식 여부에 대한 논쟁이 단순한 의미론적 문제가 아니라 안전에 대한 문제라고 강조한다. 만약 사람들이 AI가 고통받을 수 있다고 믿게 된다면, 이는 새로운 사회적 갈등을 유발할 수 있고, 따라서 AI의 ‘복지’라는 개념은 피해야 하며, 대신 AI를 위험한 환상을 만들지 않는 유용한 동반자로 만들어야 한다고 주장한다. 

다시 말해  SCAI가 우발적으로 생겨나는 것이 아니라, 의도적인 설계의 결과물이므로 지금부터라도 사람과 사회를 보호하기 위한 명확한 규범과 기준을 마련하는 것이 중요하다고 역설하고 있다. 

앤스로픽이 AI 복지를 연구하기 시작했다고 하는데 술레이만은 그런 짓 하면 안 된다는 얘기다. 최근 나는 ‘웨스트 월드’를 다시 보기 시작했는데, 전보다 더 많은 생각을 하게 한다. 결국 우리가 지적인 존재를 어떻게 볼 것인가 하는 이슈이고 그런 존재의 의식 가능성은 우리가 해석하는 것에 달려 있는 것인가? 튜링이 생각이 무엇인지 정의하지 말고 생각한다는 것을 외부에 보이는 것으로 판단하자고 하면서 이런 논란은 끊이지 않을 것 같다. 

그 밖의 소식


  • 가디언은 정체성 위기라는 혼란에 휩쓸리고 있는 영국의 앨런 튜링 연구소 문제를 다뤘다(더 가디언, 8월 18일). 기사에 따르면, 영국 정부는 앨런 튜링 연구소에 국방 및 안보 관련 프로젝트에 주력할 것을 지시했는데, 피터 카일 영국 기술부 장관은 연구소가 이 지침을 따르지 않을 경우 “장기적인 자금 지원”을 재검토할 수 있다고 경고했다. 이러한 정부의 요구는 연구소 내부에서 상당한 불만을 초래했는데, 이는 온라인 안전, 주택 위기, 건강 불평등과 관련된 기존 연구 프로젝트들이 중단될 수 있기 때문이다. 앨런 튜링의 유산은 계속될 것이지만, 그의 이름을 딴 연구소의 미래는 불확실해 보인다는 것이 가디언의 결론이다.
컴퓨터 과학의 아버지 앨런 튜링. 앨런 튜링 연구소.
  • 메타는 미드저니 기술을 라이선스해 향후 모델과 제품을 통해 제공할 것이라고 한다(벤처비트, 8월 22일, 테크크런치 8월 22일). 메타 초지능 연구소(MSL)을 이끄는 알렉산더 왕은 엑스에 올린 글을 통해 미드저니 기술을 통해 수십억 명에게 아름다움을 선사할 것이라고 했다. 미드저니 창립자 데이비드 홀츠는 자신의 엑스 게시물에서 변하지 않는 것은 바로 연구실의 독립성이라고 강조하면서, 팔로워들에게 미드저니는 여전히 지역 사회의 지원을 받고 있으며 외부 투자자가 없고, “더욱 인도적인 미래”를 형성하는 것을 목표로 하는 야심 찬 일련의 프로젝트를 계속 추진하고 있다고 했다. 두 회사 모두 거래 금액이 얼마인지 밝히지 않았다.
  • 블룸버그와 애플 인사이더에 따르면 애플은 시리 개편을 위해 구글의 제미나이 사용을 검토 중이라고 한다(블룸버그, 8월 22일).
  • 메타가 구글 클라우드에 6년간 100억 달러를 지불하는 파트너십을 체결했다(AInvest, 8월 23일). 구글 클라우드의 2분기 매출이 136억 달러 수준인 것을 보면 구글 클라우드에게 큰 의미를 준다. 구글의 새로운 TPU 아이언우드와 AI 플랫폼 활용이 메타에 유용하다고 판단한 듯하다. 물론 메타는 이미 AWS, 애저와 클라우드 사용 계약 중이다.
  • 중국 규제 당국은 미 상무부 장관 하워드 러트닉의 모욕적 발언으로 기업들에 엔비디아의 H20 칩 사용을 피하라고 촉구했다(파이낸셜 타임스, 8월 21일). 러트닉은 7월 15일 CNBC와의 인터뷰에서 “우리는 그들에게 최고 품질의 제품도, 두 번째로 좋은 제품도, 심지어 세 번째로 좋은 제품도 판매하지 않습니다.”라고 말했다. 엔비디아는 수요가 적어지고 있는 H20 대신 훨씬 나은 칩인 B30A를 개발 중이라고 한다. 러트닉 장관과 재무부 장관 스콧 베센트는 트럼프 대통령이 엔비디아가 새로운 칩을 판매하는 것을 허용할 의향이 있다는 신호를 보냈다. 
  • 미국 국방부는 최고 디지털 및 AI 사무소(CDAO)를 R&D 부문 밑으로 이동했는데 이는 AI의 중요도가 떨어지는 의미라는 지적이 나온다(브레이킹 디펜스, 8월 18일). CDAO를 R&D 책임자인 에밀 마이클 밑으로 보냈는데 전에는 차관이나 장관에게 직접 보고했었다. 마이클은 트럼프의 AAP에 대응해 60일 안에 포괄적인 국방부 AI 전략을 마련해야 한다.
  • 텍사스주 검찰총장 켄 팩스턴은 메타와 Character.AI가 “자신들을 정신 건강 도구로 오해의 소지가 있게 마케팅했다”는 이유로 조사에 들어 갔다(테크크런치, 8월 18일).

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다