기사 공유하기

챗GPTGPT-4의 발표, 마이크로소프트의 코파일럿의 등장(코파일럿에 대해서는 이번 특집의 또 다른 글에서 자세한 소개를 할 예정)은 지난 한 달 동안 인공지능 영역에서 가장 많은 논의와 찬탄과 비판을 쏟아 내게 만든 서비스일 것이다. 2020년 GPT-3 논문을 발표한 이후 오픈AI는 다시 2022년 1월 인스트럭트GPT를 통해 사람의 피드백을 통한 강화학습(RLHF) 방안을 도입했고 이를 대화형 모델로 만들어 냈다. 바로 챗GPT다.

거대 언어 모델(LLM) 경쟁 현황

오픈AI가 챗GPT를 처음 공개한 것이 2022년 11월 30일이었는데, 2023년 1월부터 폭발적인 반응을 얻었다. 이미 1억 5천만 명의 사용자를 확보했고, 챗GPT 플러스라는 유료 모델도 발표했으며, 기업이 활용하기 위한 오픈AI 파운드리라는 사업 모델도 공개했다.

구글은 서둘러서 람다 기술을 기반으로 하는 바드(BARD)를 발표했고 이어서 좀 더 책임 있는 대화를 지원하고자 하는 앤쓰로픽(Anthropic)에 3억 달러를 투자하면서 협력을 강화했다. 아마 5월에 있을 예정인 구글 I/O에서 여러 가지 대응 기술과 서비스를 공개할 것으로 보인다.

메타 역시 이런 경쟁에서 과거 블렌더 봇을 개발하고도 사업적으로 활용하지 못했으며 캘럭티카는 과학 기술 분야의 거대 언어 모델을 선보였다가 3일 만에 거두어들인 경험에 뼈 아파 하면서 다시 라마(LLaMA)라는 기본 모델을 오픈 소스로 공개하는 강수를 두었다. 라마는 7B에서 65B까지 네 가지 규모의 모델로 이루어졌고, 오픈 소스 커뮤니티에서는 이에 기반한 새로운 모델을 속속 선보이고 있다.

흥미로운 점은 이런 거대 언어 모델 (Large Language Model; LLM) 대부분 2017년 구글이 발표한 트랜스포머 논문에서 제시한 아키텍처에 기반을 두고 있다는 점이다. 트랜스포머의 인코딩 부분을 강조한 것이 버트(BERT) 모델이라면 GPT디코딩 영역을 강화한 모델이다.

챗GPT(오픈AI), 바드(구글), 라마(메타) 등의 거대 언어 모델은 구글이 2017년 발표한 논문(Attention Is All You Need, 위 오른쪽 캡처 이미지)에서 나온 트랜스포머(Transformer) 모델에 기반한다. 이 모델은 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델이다.

오픈AI의 소스 공개 거부에 대한 반작용 

오픈 소스 커뮤니티에서도 오픈AI가 공개를 거부하는 움직임에 자극받아 GPT3에 대응하는 오픈 소스 기술을 여러 그룹에서 공개하고 람다를 이용해 좀 더 도전적인 모델을 만들어 내기 시작했다. 투게더는 오픈챗키트(OpenChatKiT)라는 오픈 소스 기반의 범용 챗봇을 만들어 낼 수 있는 모델을 학습 데이터와 함께 공개했다. 투게더는 이를 위해 라이온(LAION)온투코드(Ontocord)와 협력해 학습 데이터를 만들었다고 한다.

일루더AI(EleutherAI)는 엔비디아의 메가트론 언어 모델에 기반하고, 딥스피드로 강화한 GPT-NeoXNeoX 2.0을 발표했다. 또한 스탠퍼드 대학에서는 메타의 라마 7B 모델을 기반으로 알파카라는 소형 모델을 소개했으며, 이를 다시 GPT-3.5에 파인 튜닝해서 오픈AI의 text-davinci-003과 유사한 성능을 보였다고 발표했다. 이 모델은 제한적이지만 맥북이나 스마트폰, 심지어 라즈베리 파이 수준의 하드웨어에서도 동작하는 가능성을 보인다.

그러나 이런 대규모 언어 모델이 실제로 서비스로 작동하기 위해서는 강력한 클라우드 컴퓨팅 인프라와 서비스가 필요하다. 또한 역으로 거대 언어 모델을 기반으로 클라우드 기업이 제공하는 인공지능 서비스 기능이 변화하고 있다.

거대 언어 모델의 서비스 운용을 위해서는 강력한 클라우드 인프라와 서비스가 필요하고, 또한 거대 언어 모델 기반으로 클라우드 기업 제공 AI 서비스 기능이 변화하고 있다.

LLM 지원 클라우드 컴퓨팅 인프라

2015년 12월에 설립한 오픈AI처음에는 구글과 같은 빅테크 기업이 인공지능 기술을 독점하는 것에 대항하고자 하는 인공지능 커뮤니티의 철학을 기반으로 모든 기술을 인류가 공유해야 한다는 의지를 갖고 출범했다. 이에 동조한 여러 개인이 기부의 형태로 이 회사에 출자했고 대표적인 것이 테슬라의 일론 머스크가 1억 달러를 기부한 일이다.

그러나 비영리 기관인 오픈AI Inc.가 아니라 그 아래 영리 법인인 오픈AI LP를 설립하면서 외부 투자를 유치하고자 하는 노력을 진행했다. CEO인 샘 알트먼과 최고 과학자인 일랴 수츠케버가 이런 변화를 추진하면서 2018년 머스크가 손을 떼었고, 이후 이 회사의 가능성에 일찍 주목한 마이크로소프트가 2019년 10억 달러를 출자했다.

이후 마이크로소프트는 은밀하게 20억 달러를 추가 투자해 전체 투자가 30억 달러에 달했다. 다시 다년간 수십억 달러 투자할 계획이라고 1월 23일에 밝혔는데 명확한 금액을 밝히지 않았지만, 전체 금액은 100억 달러에 달할 것으로 보고 있다. 오픈AI의 CEO인 샘 알트먼은 수시로 운영 비용이 큰 부담이라는 점을 강조했기 때문에 이런 투자에 목말라 할 수밖에 없다.

실제로 GPT 개발을 지원하기 위해 마이크로소프트는 2020년 오픈AI에서 독점적으로 애저가 호스트하는 슈퍼컴퓨터급의 컴퓨팅 자원을 지원한다는 발표를 했는데, 이는 285,000개의 CPU 코어와 10,000개의 GPU, 각 GPU 서버에 초당 400기가비트 속도의 네트워크 연결을 하는 싱글 시스템을 제공하는 것이며 당시 세계 슈퍼컴퓨터 기준으로 탑 5 수준에 달하는 것이다.

가장 대표적인 엔비디아의 A100 프로세서의 가격이 하나당 1만 달러에 달하기 때문에 전체 투자 비용이 쉽게 1억 달러를 넘을 것으로 보았다. 또한, 전문가들은 GPT-3를 학습하는 데 들어가는 비용4백만 달러에 달할 것으로 보며 그 이후에 더 거대한 모델은 1천만 달러에 가까울 것으로 파악한다.

엔비디아의 A100 프로세서 [출처: 엔비디아]
챗GPT보다 적은 규모로 메타가 발표한 람다의 경우는 2,048개의 A100 GPU를 사용해 1조4천억 개의 토큰으로 학습하면서 걸린 시간이 21일이라고 했는데, 이를 GPU 시간으로 따지면 100만 시간 정도이며 다시 AWS 가격을 기준으로 하면 240만 달러 이상이 든 것으로 본다. 이는 1,750억 개의 파라미터를 갖는 챗GPT보다 적은 650억 개의 파라미터를 갖는 람다의 케이스이다.

허깅 페이스의 경우 블룸(Bloom)이라는 LLM 모델을 학습하는 데 걸린 시간은 두 달 반이며 500개의 GPU에 해당하는 슈퍼컴퓨터가 필요했다고 한다. 따라서 LLM을 개발하는 기업은 소프트웨어 성능을 향상하기 위해 재훈련 시키는 것은 비용 때문에 매우 조심스러울 수밖에 없다. 그런 측면에서 챗GPT가 2021년 기준의 데이터만 가진 상황이다.

학습에만 비용이 드는 것이 아니라 언어를 생성하는 과정인 ‘추론’에도 비용이 들어가는데 이는 학습보다 더 큰 비용이 들 수 있다. 사용자가 급증하면 더 큰 비용이 들어갈 수밖에 없는데 1억 명의 사용자를 지난 1월에 달성한 챗GPT의 경우는 한 달에 수백만 개의 프롬프트를 처리하기 위해서는 1개월에 4천만 달러가 들었을 것으로 파악한다.

이에 따라 챗GPT 모델을 사용하는 마이크로소프트의 빙 AI 챗봇의 경우는 최소한 40억 달러의 인프라가 필요했으리라는 것이 금융계의 분석이다. 보통 데이터센터에서는 8개의 A100 GPU를 담은 DGX A100를 사용하는데 그 가격은 거의 20만 달러이다. 마이크로소프트는 빙 챗을 지원하기 위해 2만 개가 넘는 DGX A100가 필요했을 수 있으며 이는 인프라에 40억 달러에 투자했어야 한다는 의미이다. 같은 비율로 하루에 80억에서 90억 개의 검색어를 처리하는 구글의 경우는 약 800억 달러를 투자해야 한다는 의미가 된다.

마이크로소프트는 다시 애저에 추가 하드웨어를 투입하는 발표를 했다. A100 다음 모델인 H100를 수천 개 투입해 ND H100 v5 VM을 제공한다고 하는데 이는 다음과 같은 구성으로 제공한다.

  • 차세대 NVS스위치와 NV링크 4.0으로 연결한 8개짜리 엔비디아 H100 텐서 코어 GPU들
  • 초당 3.2 Tb VM와 함께 초당 800기가비트의 엔비디아 퀀텀-2 CX7 인피니밴드
  • 각 VM 마다 8개의 로컬 GPU 사이에 초당 3.6TB 속도의 양방향 대역폭을 갖는 NVS스위치와 NV링크 4.0
  • 4세대 인텔 제온 스케일러블 프로세서
  • GPU당 64GB/s 대역폭으로 연결한 GPU에 PCIE Gen5 호스트 제공
  • 16채널의 4800MHz DDR5 DIMMs

애저는 이 슈퍼컴퓨팅 성능에 해당하는 하드웨어 인프라를 인플렉션, 엔비디아, 오픈AI 등에 제공할 예정이다. 예전부터 마이크로소프트는 ‘대규모 AI(AI at scale)’이라는 이름으로 애저의 기본 DNA로 선언했으며 애저 머신 러닝과 같은 애저 서비스를 통해서 고객이 모델 학습하도록 하고 애저 오픈AI 서비스를 통해 대규모 생성 모델의 성능을 활용할 수 있게 하고자 한다.

엔비디아의 H100 텐서 코어 GPU는 최대 256개를 연결할 수 있으며 A100에 비해 학습 속도가 9배, 추론 속도는 최대 30배 빠르다고 말하고 있다.

H100과 A100의 학습 속도 비교

이런 고가의 장비와 컴퓨팅 자원을 한 기업에서 제공하기에는 이제 너무 큰 비용이 드는 상황이다. 이에 따라 오픈AI는 자신들이 제공하는 모델을 전용 컴퓨팅 용량으로 제공하는 파운드리(Foundry) 플랫폼을 제공할 예정이다. 파운드리는 모델 구성과 성능 프로필을 제어해 대규모 추론을 지원할 수 있다. 또한, 가동 시간 및 온-캘린터 엔지니어링 지원과 같은 서비스 수준의 약정도 제공한다. 컴퓨팅 플랫폼에 대한 렌탈은 3개월 또는 1년 약정의 전용 컴퓨팅 유닛을 기반으로 하며, 개별 인스턴스를 실행하려면 특정 개수의 컴퓨팅 유닛이 필요하다.

렌탈하는 인스턴스 비용도 저렴하지는 않다. 가장 가벼운 GPT-3.5 버전은 3개월 약정 시 78,000달러이며 1년 약정에는 264,000달러가 든다. 그러나 기존에 엔비디아의 DGX 스테이션 가격이 유니트 당 149,000달러인 점을 비교하면 검토할 만한 가격대를 제시하고 있다.

오픈AI 파운드리 사용료 비교표

LLM을 서비스에 도입하는 클라우드

인공지능 서비스는 모든 클라우드 서비스에서 제공하는 필수 아이템이다. LLM에 대한 관심이 폭증하면서 주요 클라우드 기업은 빠르게 오픈AI 서비스를 포함해 주요 LLM 모델을 서비스 안에서 제공하는 움직임을 보였다.

먼저 오픈AI와 전략적 제휴를 하는 마이크로소프트는 애저 클라우드에 오픈AI 서비스를 공개했다. 애저 오픈AI 서비스는 GPT-3, 달리2(Dall-E 2), 코덱스 및 임베딩 모델 시리즈를 포함해 오픈AI의 언어 모델에 대한 REST API 접근을 제공하는 것을 말한다.

이러한 모델은 콘텐츠 생성, 요약, 시맨틱 검색, 자연어에서 코드로의 번역을 포함하되 이에 국한되지 않는 특정 작업에 쉽게 적용될 수 있다. 사용자는 REST API, 파이썬 SDK 또는 애저 오픈AI 스튜디오의 웹 기반 인터페이스를 통해 서비스에 접근할 수 있다.

제공하는 모델은 새로운 챗GPT 모델을 포함해 자연어를 이해하고 생성할 수 있는 GPT-3, 자연어를 코드로 번역하는 등 코드를 이해하고 생성할 수 있는 일련의 모델인 코덱스, 임베딩을 이해하고 사용할 수 있는 모델 세트인 임베딩스이다. 임베딩은 텍스트의 의미론적 의미를 밀도 있게 표현한 정보이다. 현재 유사도, 텍스트 검색, 코드 검색 등 다양한 기능을 위한 세 가지 임베딩 모델 제품군을 제공하고 있다.

가격 정책은 언어 모델은 토큰 천 개당, 이미지 모델은 이미지 100장당, 미세 조정은 토큰 또는 학습에 따른 컴퓨팅 시간, 미세 조정 모델의 호스팅 비용 등 다양하게 책정되어 있다. 아래 그림은 언어 모델 사용에 대한 토큰 1천 개당 요금표이다.

오픈AI 자체도 챗GPT와 GPT-4에 대한 API 서비스 및 사용료를 책정하고 있으며 애저의 서비스와 비교할 필요가 있다. 특히 애저는 모델의 미세 조정(파인 튜닝)을 하고 이를 호스팅하는 서비스가 있기 때문에 필요에 따라 선택할 수 있다.

참고로 오픈AI의 챗 GPT API 요금은 1천 토큰 당 0.002달러애저 서비스와 동일하다. 이는 전의 GPT-3.5 모델보다 10배 싼 가격이라는 것이 오픈AI의 주장이다. GPT-4에 대한 가격은 기본 모델은 1천 개 프롬프트 토큰 당 0.03달러이며 완성된 토큰 천 개당 0.06달러를 과금한다. 더 큰 모델은 천 개의 프롬프트 토큰에 0.06달러, 완성 토큰에 0.12달러를 내야 한다. 또한 현재는 하루에 사용할 수 있는 토큰 수와 한 번에 보낼 수 있는 토큰 수가 모델마다 다른 한계가 있다.

구글 역시 클라우드 개발자와 사용 기업, 정부에게 생성형 인공지능을 지원한다고 발표했다. 이번 발표는 두 가지가 중심인데 1) 버텍스AI에서 생성형 인공지능 지원 2) 생성형 인공지능 앱 빌더이다. 2021년에 발표한 버텍스AI는 이번이 역대 최대의 업그레이드라고 말하고 있다.

구글에 따르면 데이터 과학팀은 버텍스AI의 생성형 인공지능 지원을 통해 구글 등의 기본 모델에 접근할 수 있으며, 자체 개발한 ML 모델 및 MLOps에 사용하는 것과 동일한 플랫폼에서 이러한 모델을 기반으로 구축 및 커스터마이징 할 수 있다. 또한, 생성형 인공지능 앱 빌더를 사용하면 개발자가 봇, 채팅 인터페이스, 맞춤 검색 엔진, 디지털 비서 등 새로운 경험을 빠르게 출시할 수 있다.

개발자는 구글의 기본 모델에 대한 API 액세스 권한이 있으며, 즉시 사용 가능한 템플릿을 사용하여 몇 분 또는 몇 시간 안에 생성형 앱 제작을 시작할 수 있다. 이 모든 과정에서 구글 클라우드는 조직이 데이터 사용 여부, 사용 방법 및 용도를 완벽하게 제어할 수 있도록 보장한다.

버텍스 AI(Vertex AI)는 머신 러닝 모델과 인공지능 애플리케이션을 학습하고 배포하기 위한 구글 클라우드의 머신 러닝 플랫폼이다. 이번 발표에서는 다음과 같은 기능을 제시하고 있다.

  • 해결하고자 하는 사용 사례를 선택: 이제 개발자는 콘텐츠 생성, 채팅, 요약, 분류 등과 같은 사용 사례를 즉시 해결하기 위해 버텍스 AI의 PaLM API에 쉽게 액세스할 수 있다.
  • 구글의 최신 파운데이션 모델 중에서 선택: 옵션에는 구글 리서치와 딥마인드에서 개발한 모델과 텍스트, 이미지, 동영상, 코드, 오디오 등 다양한 데이터 형식에 대한 지원을 포함한다.
  • 다양한 모델 중에서 선택: 시간이 지남에 따라 버텍스 AI는 오픈 소스 및 타사 모델을 지원할 예정이다. 가장 다양한 모델 유형과 크기를 한 곳에서 사용할 수 있는 버텍스 AI는 고객이 비즈니스 요구 사항에 가장 적합한 리소스를 유연하게 사용할 수 있도록 지원한다.
  • 프롬프트를 조정, 사용자 지정 및 최적화하는 방법을 선택: 비즈니스 데이터를 사용하여 파운데이션 모델 결과의 관련성을 높이고 비용에 대한 제어를 유지하면서 데이터 주권과 개인 정보 보호를 보장한다.
  • 모델에 참여하는 방법을 선택: 노트북, API 또는 대화형 프롬프트 등 다양한 도구를 통해 개발자, 데이터 과학자, 데이터 엔지니어 모두 차세대 앱과 맞춤형 모델을 구축하는 데 기여할 수 있다.

이어서 구글은 지메일, 닥스, 슬라이드, 시트, 미트, 챗 등의 워크스페이스에서 인공지능을 협력 파트너로 진화시키겠다는 선언도 했다. 이는 마이크로소프트가 발표한 마이크로소프트 365 코파일럿에 대응하는 구글의 맞대응이라고 볼 수 있다.

구글이 제시하는 새로운 인공지능 파트너 에코시스템을 도식화하면 다음과 같다.

구글의 자체 파운데이션 모델이 아닌 다른 기업으로 모델을 제공하는 기업은 앤쓰로픽(Anthropic)코히어(Cohere)가 현재 있다. 애저와 마찬가지로 인공지능 인프라를 통해 대량의 컴퓨팅 기능을 제공하기 위해 TPU 클러스터를 제공하고 있다. 또한 더 많은 AI-퍼스트 스타트업에 구글 클라우드 프로그램에 들어오게 하도록 첫해에 25만 달러의 크레딧을 제공하며 2차년도에는 클라우드 비용을 최대 10만 달러까지 20% 지원하는 제안을 하고 있다.

현재 생성형 모델을 구글 클라우드 위에서 제공하는 파트너로는 AI21 랩스, 미드저니, 오스모(Osmo)가 있으며 파트너를 지원하기 위해 ‘구글 클라우드 AI와 함께 만들기’ 이니셔티브를 추진 중이다.

아마존은 2월에 허깅 페이스와 생성형 AI 접근성 및 비용 효율성을 위한 협력을 발표했는데 기존에 제공하던 대규모 언어 및 비전 모델 학습을 위한 AWS Trainium과 추론을 위한 AWS Inferentia 그리고 세이지메이커, 코드위스퍼러 등을 활용한다는 얘기이다.

2023, 인공지능 서비스 제품화 실용화 경쟁 본격화 

클라우드 서비스 사업자들이 생성형 인공지능의 가능성에 초점을 맞추면서 이에 대한 지원을 빠르게 하고 있다. 가장 공격적인 곳은 오픈AI와 협력하는 마이크로소프트의 애저 클라우드이지만, 아직은 애저에 오픈AI 서비스를 추가한 상황이다.

구글 역시 구글 클라우드에 지금까지 구글에서 개발한 모델과 외부 파트너의 파운데이션 모델을 같이 제공하고 이를 버텍스AI를 확장하는 것으로 시작하고 있다. 아마존의 경우는 기존의 서비스 그룹에 SaaS 서비스 사업자들을 끌어안으면서 이에 접근하고 있는 수준이다.

아마 2023년은 클라우드 서비스가 본격적으로 인공지능 서비스를 제품화하고 실용 서비스하고자 하는 많은 SaaS 기업을 대상으로 치열한 경쟁을 할 것이며 각 클라우드 서비스 사업자는 더 체계적이고 기능이 뛰어난 서비스를 속속 발표할 것으로 본다.

특히 하드웨어 인프라 비용이 매우 높아질 전망이기 때문에 각 기업이 이에 대한 새로운 과금 체계와 지원 방식을 내놓을 수밖에 없을 것이고, 누가 더 효과적인 컴퓨트 인프라를 제공할 것인가가 서비스 기업들이 클라우드 사업자의 생태계에 들어가는 것을 결정하는 핵심 요인이 될 것이다.

참고문헌

  • Open AI, “Aligning language models to follow instructions,” Jan 27, 2022
  • Open AI, “Introducing ChatGPT,” Nov 30, 2022
  • Google, “An important next step on our AI journey,” Feb 6, 2023
  • Financial Times, “Google invests $300mn in artificial intelligence start-up Anthropic,” Feb 4, 2023
  • Meta, “Introducing LLaMA: A foundational, 65-billion-parameter large language model,” Feb 24, 2023
  • Together, “Announcing OpenChatKit,” Mar 10, 2023
  • The New York Times, “With $1 Billion From Microsoft, an A.I. Lab Wants to Mimic the Brain,” Jul 22, 2022
  • The New York Times, “Microsoft Bets Big on the Creator of ChatGPT in Race to Dominate A.I.,” Jan 12, 2023
  • Microsoft, “Microsoft announces new supercomputer, lays out vision for future AI work,” May 19, 2020
  • CNBC, “ChatGPT and generative AI are booming, but the costs can be extraordinary,” Mar 13, 2023
  • Microsoft Azure, “Azure previews powerful and scalable virtual machine series to accelerate generative AI,” Mar 13, 2023
  • TechCrunch, “OpenAI’s Foundry will let customers buy dedicated compute to run its AI models,” Feb 22, 2023
  • Microsoft, “What is Azure Open AI Service?” May 10, 2023
  • Google Cloud, “Google Cloud brings generative AI to developers, businesses, and governments,” Mar 15, 2023
  • Google Workspace, “A new era for AI and Google Workspace,” Mar 15, 2023
  • AWS, “AWS와 Hugging Face, 생성형 AI 접근성 및 비용 효율성을 위한 협력 발표,” 2023년 2월 23일

본 글은 한국지능정보사회진흥원의 지원을 받아 작성되었으며, 디지털서비스 이용지원시스템에 동시 게재합니다.

관련 글