AI 학습용 데이터가 말라가고 있다

[AI in a Week by TechFrontier] 한 주일의 주요 AI 뉴스, 논문, 칼럼을 ‘테크프론티어’ 한상기 박사가 리뷰합니다.

1. 당신의 논문이 AI 학습용으로 사용될 가능성이 높아졌다

지금 생성형 AI의 큰 과제는 품질이 높은 학습용 데이터 확보다. 그래서 오픈AI를 필두로 빅 테크 기업은 고품질 데이터를 갖고 있는 기업이나 조직과 협의를 통해 경쟁적인 데이터 라이센스 계약을 하고 있다. 들리는 얘기로는 2022년 말에 이미 인터넷의 거의 모든 데이터를 학습용으로 사용했으며 더 이상의 의미 있는 학습용 데이터는 기업 소유의 외부 접근이 어려운 데이터라는 것이다. 여러 기업은 그래서 AI를 통한 합성 데이터를 효과적으로 생성해 학습에 사용하는 방안을 모색 중이기도 하다.

별도로 CB 인사이츠의 자료에 따르면 오픈AI는 이미 많은 통신사, 뉴스 미디어, 출판사, 콘텐츠 기업과 라이센스 계약을 했다. 다음 표에 따르면 다른 기업도 이 추세를 따라가고 있지만 아직 오픈AI만큼 적극적이지 않다.

네이처가 보도한 이 소식은 지난 7월에 마이크로소프트가 학술 전문 출판사인 영국의 테일러앤프랜시스와 천만 달러 규모의 계약을 했다는 것이다. 이미 6월에는 미국의 와일리가 익명의 회사와 2,300만 달러 규모로 계약해서 자사 콘텐츠를 AI 학습용으로 사용할 수 있다고 한다.

학술 논문의 경우 이미 LLM 개발 회사는 오픈 소스 리포지토리인 아카이브(arXiv)나 퍼브메드(PubMed)의 데이터는 이미 다 사용했을 것으로 보고 있고, 유명 출판사는 공개한 초록만 가져왔을 것이지만 이런 계약을 통해 모든 내용을 확보한다고 한다.

자신의 논문이 AI에 사용되었을까 하는 것을 확인하기는 매우 어렵지만, 기사에서는 멤버십 추론 공격이라는 방식의 한 가지로 저작권 트랩이라는 방법을 소개한다. 임페리얼 칼리지 런던의 이브 알렉사드르 드 몽조이는 텍스트에 특이한 문장을 (그럴듯하지만 말도 안 되는 문장 같은 것을) 넣어서 출력에 이런 것이 나오는가를 확인하는 방식을 개발했다.

이런 라이센스 계약이 저작권을 침해했는가에 관한 판단도 아직 어렵다. LLM이 문장을 저장하거나 복사하는 것이 아니라 토큰을 기반으로 파라미터 수정을 할 뿐이기 때문에 아직 법적인 판단이 필요하다. 현재 뉴욕타임스가 오픈AI와 마이크로소프트와 진행 중인 소송 결과가 그래서 중요하다.

예술가들과 달리 학술 논문 저작자들은 이미 출판사를 통해서 저작물에 대한 접근을 판매하는 것이라 이를 막을 방안이 별로 없고, 학자들은 LLM이 똑똑해진다고 해서 자신의 연구에 방해된다고 생각하지 않을 수도 있다. 물론 다음에 소개하는 AI 과학자 논문을 보면 생각이 좀 바뀔지도 모르지만.

2. AI 과학자: 완전 자동화된 개방형 과학 발견을 위하여

사카나AI, 8월 13일

2017년 트랜스포머 논문의 저자들은 다 구글을 나와서 창업을 하고 투자받았다. 가장 늦게 나온 사람이 리온 존스(Llion Jones)이며, 구글 브레인 출신에 스태빌리티 AI의 연구 총괄이었던 데이비드 하(David Ha)와 같이 도쿄에 만든 회사가 물고기라는 뜻의 사카나AI(Sakana AI)이다.

사카나는 이름에서 나오듯 어류의 군집 행동을 보면 하나하나는 작은 능력이 있어도 모여서 더 큰 지능을 만들어 볼 수 있다는 접근으로 새로운 모델을 만들고자 한다. 지난 3월에는 진화 모델 병합이라는 방식으로 여러 모델을 결합해 모델 개발을 자동화하는 방법을 소개했다.

이번에 발표한 AI 과학자 논문은 사카나 연구원들과 옥스퍼드 대학, 캐나다의 UBC 대학의 연구원들이 공동으로 연구한 것으로 과학 연구를 수행하고 새로운 지식을 발견할 수 있는 에이전트를 개발에 대한 것이다. AI 과학자는 새로운 연구 아이디어 생성, 필요한 코드 작성, 실험 실행부터 실험 결과 요약, 과학 논문으로 발표까지 전체 연구 수명 주기를 자동화하겠다는 것이다.

또한 다른 LLM을 이용해 자동화된 동료 검토 프로세스 도입과 논문 평가와 피드백을 통한 논문 개선까지 다루며, 과학적 발견 프로세스를 반복해 아이디어를 발전시키고 이를 지식 아카이브에 추가함으로써 인간 과학 커뮤니티를 모방하고자 했다. 아래는 논문에서 말한 AI 과학자의 개념도이다.

이번 논문 데모에서는 머신 러닝 분야에서 하위 연구를 수행해 확산 모델, 트랜스포머, 그로킹 같은 영역에서 새로운 공헌을 찾아낼 수 있음을 보였다. 논문 하나를 작성하는데 들어간 비용은 약 15달러에 불과해 이를 통해 과학 연구의 대중화가 가능할 수 있음을 보였다.

아직 AI 과학자가 갖는 한계로는 일단 비전 기능이 없으며, 표를 처리하는 문제와 같이 논문 페이지 레이아웃이 최적이 아닐 수 있고 (다른 파운데이션 모델을 추가해 해결하고자 한다), 아이디어 구현을 잘못하거나 불공정한 비교 등을 통해 잘못된 결과를 이끌어내고, 결과를 작성하고 평가할 때 때때로 중대한 실수를 보이기도 한다.

논문은 여기에서 볼 수 있다. 아래 이미지는 AI 과학자가 작성한 ‘적응형 듀얼 스케일 노이즈 제거’라는 논문의 사례이다.

이제 AI 연구자들이 AI 과학자를 이용해 어떻게 논문을 잘 쓸 것인가를 고민하는 시대가 되고 있다. 다만 사카가나 제시하는 윤리적 문제 같이 이를 오용해 너무 많은 논문을 생성하거나 품질이 떨어지는 리뷰 작성, 오픈 모델 사용을 어떻게 확대할 것인가, 향후 과학자의 역할은 과연 무엇이 될 것인가 같은 질문을 우리에게 던지고 있다.

AI가 다음 세대 수준의 과학 혁명을 일으킬 수 있는가 하는 문제는 조금 다른 문제이기도 하지만 AI는 여러 분야에서 과학 연구를 돕고 있다. 이에 대한 흥미로운 영상이 있는데 월드 사이언스 페스티벌에서 물리학자 브라이언 그린이 마이크로소프트의 최고 과학자인 에릭 호로비츠를 초대해 대화를 나눈 영상이다. 관심 있는 분들은 보시라.

3. 리눅스 재단에 오픈 라이센스 AI 모델을 위한 오픈 모델 이니셔티브(OMI)가 조인하다

리눅스 재단, 8월 12일

메타의 라마나 미스트랄 AI의 오픈 소스 모델이 진정한 오픈 소스가 아니라는 비판은 계속 나왔다. 리눅스 재단이 진정한 의미의 오픈 소스 AI 모델을 만들기 위한 OMI를 재단 아래 받아들이고 이를 키워나가겠다는 뉴스가 지난 주에 나왔다. 이 소식은 오픈 소스 커뮤니티 활동에 가장 적극적인 국민대학교 이민석 교수에게 그 내용과 의미를 정리해 달라고 부탁했다. 아래 내용은 이민석 교수가 작성한 것이다.

국민대학교 이민석 교수의 정리

오픈소스 AI 모델이 연이어 출시되고 있다. 미스트랄 AI, 스태빌리티 AI, 거의 모든 글로벌 빅테크 기업들, 그리고 우리나라의 LG AI 연구원과 스타트업인 업스테이지 등도 경쟁적으로 오픈소스 AI 모델을 공개하고 있다. 오픈소스 대규모 언어 모델(LLM)이 공개된다는 것은 LLM의 구조인 모델 자체와 각 모델별로 주어진 데이터에 의해 미리 학습된 결과에 따른 파라미터가 공개된다는 의미이다.

Open Source Initiative(OSI)가 정한 소프트웨어 산업에서 전통적인 오픈소스의 정의에는 ‘코드를 볼 수 있어야 하고’, ‘수정이 가능해야 하고’, ‘사용에 제약이 없어야’ 하며 원천 소스에서 수정된 소스를 반영하여 빌드가 가능한 상태로 배포가 가능해야 한다는 내용을 포함한다.

하지만 현재 오픈소스라고 공개된 LLM들 중에는 (상업적) 사용에 제한이 있는 경우가 많으며, 공개된 LLM을 있는 그대로 사용하지 않고 추가로 학습시키면 최초 오픈된 상태의 파라미터가 점차 다른 값으로 바뀌게 되어 사실상 다른 모델이 된다. 따라서 모델과 학습 데이터의 공개가 함께 이루어지지 않으면 전통적인 오픈소스 소프트웨어가 가진 지속적 혁신의 장점이 다소 퇴색되고, ‘오픈소스’라는 용어의 적절성에 대한 의문도 제기된다.

이러한 배경에서 Open Model Initiative(OMI)가 2024년에 설립되었다. OMI는 새로운 커뮤니티 주도 프로젝트로, 투명한 데이터셋 사용을 통해 윤리적이고 안전한 AI 모델을 개발하고 아파치(Apache)-2.0 라이선스로 배포하는 것을 목표로 한다. Invoke, ComfyOrg, Civitai, 그리고 LAION 등이 참여하여 시작하였고, 프로젝트의 신뢰성을 확보하고 이전의 많은 오픈소스 소프트웨어와 같은 커뮤니티 기반의 협업 방식으로 빠른 혁신을 이루고자 2024년 8월 12일 리눅스 재단에 합류했다.

그러나 OMI의 성공 여부는 여러 도전 과제에 달려 있다. 첫 번째 관건은 컴퓨팅 리소스의 확보이다. 리눅스 재단의 1년 전체 예산은 주요 빅테크 기업의 AI 투자액의 1%에도 미치지 못한다. 두 번째는 주도 회사 이외의 의미 있는 AI 개발 인력 참여를 얼마나 이끌어낼 수 있느냐이다. 마지막으로는 저작권 이슈가 없는 고품질 데이터를 충분히 확보할 수 있는가이다. 모두 빅테크에 의존해야하는 사안들이다.

표준을 지향하며 모두에게 이익이 되던 오픈소스 소프트웨어 프로젝트 방식의 펀딩이, 그것도 대규모 펀딩이 LLM 개발에도 가능할까? 빅테크 기업들의 ‘상징적인’ 후원에 의존하여 만든 제한된 리소스의 모델이 빅테크 기업 본진의 모델에 비해 경쟁력을 갖기는 어려울 것으로 보인다. 또한, AI의 윤리와 안전에 관한 커뮤니티의 합의 도출도 결코 쉽지 않은 과제이다.

그럼에도 불구하고 OMI와 리눅스재단의 시도는 AI 기술의 투명성 제고라는 측면에서 중요한 의미를 갖는다. 이 프로젝트가 어떻게 발전하고 AI 생태계에 영향을 미칠지 지속적인 관심과 분석이 필요하다. 또한, 이러한 오픈소스 AI 모델 개발 노력이 기존 오픈소스 소프트웨어의 성공 사례를 어떻게 AI 분야에 적용할 수 있을지, 그리고 이를 통해 AI 기술 발전에 어떤 새로운 패러다임을 제시할 수 있을지에 대한 논의도 함께 이루어져야 할 것이다.

내 의견은 이런 활동이 리눅스 재단에 대한 관심을 높이고 새로운 펀딩 가능성을 모색하는 시도라고 생각되지만 범용성을 갖는 모델보다는 특정 영역에 특화하거나 온 디바이스 AI를 위한 작은 모델을 만들어 낼 가능성이 있다고 본다. 이미 깃허브에는 수십만 개의 AI 모델이 등록되어 있고, 얼마전 깃허브 모델을 발표해서 1억 명이 넘는 AI 엔지니어들이 참여하게 하겠다는 발표도 있어 여기에서 관심을 얻고 의미 있게 활용할 수 있는 수준의 모델을 만들어 내야 할 것으로 본다.

4. MIT에서 AI 위험을 모아 놓은 저장소 발표

테크크런치, 8월 14일

EU AI 법안이나 캘리포니아의 SB 1047과 같이 AI를 규제하는 법을 만들 때 위험에 어떤 것이 있고 이를 어떻게 분류할 것인지는 늘 문제이다. MIT 퓨처테크 그룹 연구진이 업계와 학계를 위해 AI 위험 데이터베이스 같은 ‘AI 위험 저장소’를 발표했다. 저장소를 구축하기 위해 MIT 연구원들은 퀸즐랜드 대학교, 비영리 단체인 생명의 미래연구소(FLI:Future of Life Institute), 루뱅 대학교, AI 스타트업 하모니 인텔리전스의 동료들과 협력하여 학술 데이터베이스를 상세히 뒤져 AI 위험 평가와 관련된 수천 개의 문서를 검색했다고 한다.

여기에는 다음과 같은 세 가지가 있다. 사용에 대해서는 관련 사이트를 참조하기 바란다.

43개의 기존 프레임워크에서 추출한 700개 이상의 위험을 정리한 ‘AI 위험 데이터베이스’
이러한 위험이 발생하는 방법, 시기, 이유를 분류한 ‘AI 위험 인과적 분류’
위험을 7개의 도메인과 23개의 하위 도메인으로 분류한 ‘AI 위험의 도메인 분류’

AI 위험 데이터베이스는 각 위험을 출처 정보(논문 제목, 저자), 뒷받침하는 증거(인용문, 페이지 번호), 인과관계 및 도메인 분류체계에 연결한다. 인과적 분류에서는 엔티티, 의도, 타이밍 세 가지준 수준으로 시작해 하위 레벨과 설명이 나온다. 문서화한 내용을 보면 인과적 분류는 다음과 같다.

도메인 분류의 7개 도메인은 차별과 독성, 프라이버시와 보안, 허위정보, 악의적 행위자와 잘못 사용, 인간 컴퓨터 상호작용, 사회경제와 환경 분야의 피해, 시스템 안전/고장/한계 등으로 구분했다.

이 과정에서 연구진이 발견한 것은 사람의 잘못(34%)보다는 시스템에 의한 위험(51%)가 더 많으며, AI 시스템이 학습되어 배포된 후의 위험(65%)이 사전 위험(10%)보다 많으며, 의도적인 위험(35%)과 의도하지 않은 위험(37%)은 비슷한 수준이라는 것이다.

이 데이터베이스는 보다 구체적인 작업을 수행할 때 토대가 될 수 있으며, 이 저장소는 파악한 위험을 얼마나 잘 해결해 나가고 있는 지를 평가하는데 사용할 수 있다.

AI의 신뢰성을 논의할 때도 하버드 대학의 버크만 센터에서 36개의 주요 AI 원칙을 분류해 백서를 만들고 데이터 시각화 했던 것처럼 미국 연구 그룹이 이런 노력을 스스로 하고 있다는 점이 늘 부럽다.

5. 캘리포니아 AI 법 S.B. 1047에 대한 논쟁

뉴욕타임스, 8월 15일

요즘 AI 분야에서 가장 논란이 큰 이슈 중 하나가 미국 캘리포니아 주에서 입법하겠다는 AI 법 S.B. 1047에 대한 찬반 논쟁이다. 캘리포니아는 가끔 연방에 앞서 IT 산업에 영향을 주는 법안을 만들고 했는데, EU가 법을 만든 이후 미국 연방이 아직 법을 만들기 전에 ‘프런티어 AI 모델을 위한 안전한 혁신 법(Safe and Secure Innovation for Frontier AI Models Act)’을 2024년 2월에 스콧 위너 주 상원위원이 발의해 지금까지 8번 개정을 거쳐 표결에 부칠 예정이다. 이 법안 작성을 도와준 곳은 AI 안전 센터(CAIS)이다.

이 법에 따르면 기업이 강력한 AI 기술을 대중에게 공개하기 전에 안전성을 테스트해야 하며, 해당 기술로 대규모 재산 피해나 인명 피해와 같은 심각한 피해가 발생할 경우 캘리포니아 법무장관이 기업을 고소할 수 있다.

법안이 나온 뒤 위너 상원의원은 오픈AI, 메타, 구글, 앤스로픽 같은 기업의 비판과 제안을 받아들이기 위해 수정을 하고 의견 수렴을 했다. 이에 따라 AI 안전을 위한 새로운 기관을 설립하는 대신(연방 정부가 이미 USAISI를 만들기도 했고), 기존 캘리포니아 정부 기관에 업무를 이관하기로 했으며, 피해가 발생해야 기업을 처벌할 수 있도록 했다. 과거 법안에는 피해가 발생하지 않아도 안전 규정을 준수하지 않은 기업을 처벌할 수 있게 했다.

22606 섹션을 보면 위법 상황에 대해서는 2026년 1월 1일 이후 발생한 위반에 대한 민사 벌금으로 “첫 번째 위반의 경우 해당 모델을 훈련하는 데 사용된 컴퓨팅 성능 비용의 10%를 초과하지 않는 금액으로, 훈련 당시 클라우드 컴퓨팅의 평균 시장 가격을 사용하여 계산하고 이후 위반의 경우 해당 값의 30%를 초과하지 않는 금액”을 부과할 수 있다. 또한 “해당 모델 및 개발자가 관리하는 모든 해당 모델 파생물의 수정, 전면 종료 또는 삭제 명령을 포함하되 이에 국한되지 않는 금지명령 또는 선언적 구제(relief)”를 할 수 있으며 민법에 따른 징벌적 손해배상도 가능하다. 그러나 다음 항에 “법원은 다른 사람의 사망 또는 신체적 상해, 재산상의 피해, 재산의 도난 또는 유용을 초래하거나 공공 안전에 대한 급박한 위험 또는 위협을 초래한 경우에만 이 조항에 따라 구제를 명령할 수 있다”고 해서 명확한 위험 발생에 제한 한다는 것을 밝히고 있다.

그럼에도 구글은 여전히 우려가 존재한다고 하고, 앤스로픽은 변경된 내용을 리뷰 중이라고 한다. 흥미로운 것은 AI의 유력 인사들이 이 법안에 대해 찬성과 반대로 나뉘어 졌다는 점이다. 찬성하는 사람들은 요수아 벤지오, 제프리 힌턴, 스튜어트 러셀, 로렌스 레식 교수 등이고 반대 측에 있는 사람들은 YC 컴비네이터, 얀 르쿤 교수, 페이페이 리 교수 등이다. 이들의 입장을 ETRI의 전종홍 책임연구원이 정리한 것을 보면 아래와 같다.

법안은 민주당이 다수인 주의회에서 이번 달 안에 통과될 전망이고 개빈 뉴섬 주지사에게 전달될 예정인데, 뉴섬 주지사는 아직 지지 여부를 밝히지 않고 있다. 이미 이전에도 캘리포니아 주의회는 2020년 사용자 데이터 수집을 제한하는 개인정보 보호법과 2022년 아동 온라인 안전법을 통해 미국 기술 소비자 보호를 강화했었다.

반대하는 사람들의 주장 중 하나는 이 법이 오픈 소스를 통한 코드 공유를 못하게 할 것이며 소규모 AI 스타트업의 발전을 가로막을 것이라고 한다. 이에 따라 스타트업을 지원하고자 하는 샌프란시스코 같은 곳에서는 우려를 표하고 있다. 또한 이런 법은 주의회가 아니라 연방 차원에서 고려해야 한다는 주장도 나오고 있다.

그러나 캘리포니아의 특성 상 연방 정부보다 빠르게 법안을 만들 것이고 오히려 연방 정부가 이에 영향을 받을 가능성이 있다. 주의회의 입장은 혁신과 안전을 모두 발전시킬 수 있으며 이 두가지가 배타적이지 않다는 것이다.

우리가 아직 제대로 된 AI 관련한 법률을 만들고 있지 못하지만 EU와 함께 캘리포니아 S.B. 1047은 우리 법을 만드는데 많은 참고가 될 것이다. 법안 자체에 관심 있는 분은 법안 내용을 살펴 보시기 바란다.