아마존의 생성형 AI 전략: 베드락, 트레이니엄과 인퍼런시아 그리고 코드위스퍼러

최근 몇 달 동안은 오픈AI와 마이크로소프트의 발표, 구글 브레인과 딥마인드의 협업 및 통합, 메타의 람다 배포와 이를 기반으로 하는 오픈 소스 진영의 파상 공세, 기존 모델을 강화하거나 업그레이드하는 다양한 스타트업의 협업 등으로 뜨거운 기간이었다.

특히 클라우드 서비스 관점으로 보면 마이크로소프트의 애저 오픈AI 서비스 발표와 구글의 버텍스AI의 업그레이드가 있었지만, 클라우드의 최강자인 아마존 AWS의 대응이 무엇일지 업계에서 궁금해했다. 심지어 아마존 내부에서도 우리가 뒤처지는 것 아니냐는 불만이 나오기도 했다고 한다.

사실 2월에 아마존은 허깅 페이스(기계학습 모델을 빌드하고 공유하기 위한 도구와 라이브러리를 전문적으로 개발하는 스타트업, 편집자 주)와 생성형 AI 접근성 및 비용 효율성을 위한 협력을 발표했는데 기존에 제공하던 대규모 언어 및 비전 모델 학습을 위한 AWS 트레이니움(Trainium)과 추론을 위한 AWS 인퍼런시아(Inferentia) 그리고 세이지메이커, 코드위스퍼러 등을 활용한다고 했다.

그러나 이 정도로는 시장에 주는 메시지가 크지 않았기 때문에 4월 13일에 AWS의 앤디 재시 CEO는 주주들에게 보내는 편지를 통해 생성형 AI에 아마존이 본격 참여하며, 머신러닝에 대한 지속적 투자로 아마존이 실제로 오랜 기간 유리한 고지를 점하고 있다고 주장했다.

같은 날 AWS도 생성형 AI 시스템을 구축하고 호스트하기 위해 AWS 클라우드를 사용하는 개발자들이 안심하게 만들기 위한 여러 개의 도구와 서비스를 발표했다. 그러나 자체의 생성형 AI를 위한 파운데이션 모델을 발표하는 것이 아닌 제3의 사업자나 스타트업 생태계를 구축하기 위한 기반(베드락)을 제공하겠다고 했다.

이와 함께 트레이니엄과 인퍼런시어 칩을 기반으로 하는 EC2 컴퓨트 그리고 2022년 6월에 발표한 코드위스퍼러(CodeWhisperer)의 일반 공개(GA)를 단행하면서 개발자에게 사용의 제약 없이 무료로 쓸 수 있음을 발표했다. 즉, 이번 아마존 AWS가 생성형 AI를 위한 패키지에는 베드락과 두 가지의 전용 칩을 지원하는 EC2, 그리고 코드위스퍼러가 함께 하나의 묶음으로 이루어진 것이다.

베드락의 주요 특징

기반암이라는 의미의 베드락은 파운데이션이라는 단어와 가장 가까운 단어를 선택해서 내세웠다고 한다. 베드락은 AI21랩스, 앤스로픽, 스태빌리티 AI와 같은 회사가 제공하는 사전 학습된 모델을 지원하면서 그 위에서 스타트업이 생성형 인공지능 기반 애플리케이션을 만들 수 있게 하겠다는 의미다. 또한, AWS 자체에서 개발한 파운데이션 모델 패밀리 이름인 타이탄(Titan)을 지원하고 있다.

아마존 AWS에서는 베드락을 ‘파운데이션 모델(FM)을 사용하여 생성형 AI 애플리케이션을 빌드하고 확장하는 가장 쉬운 방법’이라고 선언하고 있다. 또한 제공하는 주요 특징으로 다음과 같은 점을 제시하고 있다.

즉, 인프라 관리 없이 API를 통해 FM을 사용하여 생성형 AI 애플리케이션을 빠르게 개발할 수 있으며, 사용 사례에 적합한 FM을 찾으려면 AI21랩스, 앤스로픽, 스태빌리티 AI, 아마존에서 FM을 선택할 수 있고, 조직의 데이터를 사용하여 FM을 개별적으로 주문 제작할 수 있으며, 익숙한 AWS 도구와 기능을 사용하여 확장 가능하고 안정적이며 안전한 생성형 AI 애플리케이션을 배포할 수 있다는 것이다.

다시 말해 마이크로소프트의 애저 오픈AI 서비스처럼 한 회사의 모델에 종속하지 말고, 기업이 하고자 하는 일에 가장 적합한 모델을 선택하고, 각자의 데이터를 통해 파운데이션 모델을 자신에 맞게 특화하도록 도울 것이고, AWS의 세이지메이커 ML과 통합한 환경, 엑스페리먼츠로 서로 다른 모델의 테스트, 파이프라인을 통해 확장할 수 있는 파운데이션 모델을 관리하라는 것이다.

베드락으로 만들어 낼 수 있는 사용 케이스로는 텍스트 생성, 챗봇, 검색, 텍스트 요약, 이미지 생성, 개인화 등을 제시하고 있다.

베드락이 지원하는 파운데이션 모델

현재 베드락에서 지원하는 파운데이션 모델은 각각 그 특징을 갖고 있다.

이스라엘 텔아비브에서 창업한 스타트업 AI21랩스의 쥐라식-2(Jurassic-2)는 스페인어, 프랑스어, 독일어, 포르투갈어, 이탈리아어, 네덜란드어로 텍스트를 생성할 수 있는 다국어 초거대 언어모델(LLM)이다.
앤스로픽은 전직 오픈AI의 주요 개발자들이 나와서 창업한 회사로 최근 발표한 클로드(Claude)는 정직하고 책임감 있는 인공지능 시스템 학습 연구를 기반으로 한 대화, 질문 답변 및 워크플로 자동화를 위한 LLM이며, 이미 구글로부터 3억 달러의 투자를 받았다. 이런 측면에서 앤스로픽은 구글과의 협업도 선언했기 때문에 자연스럽게 구글 클라우드에서도 지원이 이루어질 것이다.
스테이블 디퓨전으로 널리 알려진 스태빌리티 AI는 독특하고 사실적인 고품질 이미지, 아트, 로고 및 디자인 생성할 수 있는 모델로 등장하자마자 10억 달러의 가치로 1억1백만 달러의 투자를 받았고, 최근에는 40억 달러의 가치로 투자받으려고 하고 있다.
아마존의 타이탄 모델은 텍스트 요약, 생성, 분류, 개방형 Q&A, 정보 추출, 임베딩 및 검색을 지원하는 모델이다. 현재는 텍스트 생성 모델과 임베딩 모델 두 개를 지원하고 있으며 곧 추가 모델 지원이 이루어질 예정이다. 타이탄 임베딩스는 텍스트 입력(단어, 구문 또는 큰 텍스트 단위)을 텍스트의 의미론적 의미를 포함하는 숫자 표현(임베딩이라고 함)으로 변환하는 LLM이다. 이 LLM은 텍스트를 생성하지는 않지만, 임베딩을 비교함으로써 모델이 단어 매칭보다 더 관련성 있고 문맥에 맞는 응답을 생성할 수 있기 때문에 개인화 및 검색과 같은 애플리케이션에 유용하다고 한다. 또한, 타이탄 FM은 데이터에서 유해한 콘텐츠를 감지 및 제거하고, 사용자 입력에서 부적절한 콘텐츠를 거부하며, 부적절한 콘텐츠(예: 혐오 발언, 욕설, 폭력)가 포함된 모델 출력을 필터링하도록 구축했다.

트레이니엄(Trainium)과 인퍼런시아

아마존이 생성형 AI의 도구 중 제시하는 두 개의 특별한 칩에는 트레이니엄과 인퍼런시아가 있다. 트레이니엄은 비교 대상인 표준 GPU EC2 인스턴스에 비해 학습 비용을 50% 절감할 수 있는 2세대 머신러닝 전용 칩이다. EC2 Trn1 인스턴스는 최대 16개의 AWS 트레니엄 가속기를 배포하여 클라우드에서 딥러닝 학습을 위한 고성능 솔루션을 저렴한 비용으로 제공한다.

각 트레이니엄 가속기에는 딥 러닝 알고리듬을 위해 특별히 구축된 2세대 뉴론코어(NeuronCore) 2개가 포함되어 있다. 효율적인 데이터 및 모델 병렬 처리를 지원하기 위해 각 트레이니엄 가속기에는 32GB의 고대역폭 메모리가 탑재되어 있고 최대 210TFLOPS의 FP16/BF16 컴퓨팅 파워를 제공하며 인스턴스 내 초고속 비차단 인터커넥트 기술인 뉴론링크(NeuronLink)를 제공한다.

같이 제공하는 뉴론 SDK는 AWS 트레이니엄 기반 EC2 Trn1 인스턴스에서 고성능 학습을 실행할 때 사용할 수 있는 컴파일러, 런타임 및 프로파일링 도구로 구성한 SDK이다. 뉴론을 사용하면 텐서플로우 및 파이토치와 같은 유명 프레임워크에서 기존 워크플로를 사용할 수 있고 최소한의 코드 변경으로 EC2 Trn1 인스턴스에서 최적화된 학습을 시작할 수 있다. 뉴론은 AWS 딥 러닝 AMI(DLAMI) 및 AWS 딥 러닝 콘테이너에 사전 구성되어 제공하므로 Trn1 인스턴스에서 쉽게 시작할 수 있다.

AWS 인퍼런시아는 클라우드에서 저렴한 비용으로 높은 성능의 ML 추론을 제공하기 위해 AWS가 설계한 ML 추론 가속기이다. 1세대 AWS 인퍼런시아 가속기 기반의 아마존 EC2 Inf1 인스턴스는 비교 가능한 최신 세대의 GPU 기반 아마존 EC2 인스턴스에 비해 추론 당 최대 70% 저렴한 비용으로 최대 2.3배 더 많은 처리량(throughput)을 제공했다. 이미 에어비앤비, 스프링클러, 머니 포워드 및 아마존 알렉사 등이 Inf1 인스턴스를 채택해 성능과 비용에서 이점을 얻었다고 한다.

인퍼런시아2 가속기는 1세대에 비해 성능과 기능이 크게 향상되어 1세대 대비 최대 4배 높은 처리량과 최대 10배 더 짧은 지연 시간을 제공한다. Inf2 인스턴스는 아마존 EC2 최초의 추론 최적화 인스턴스로, 가속기 간의 초고속 연결을 통한 스케일 아웃 분산 추론을 지원한다. 이제 1,750억 개의 파라미터가 포함된 추론용 모델을 단일 Inf2 인스턴스의 여러 가속기에 효율적으로 배포할 수 있다고 한다.

2세대 인퍼런시아2 가속기에는 2개의 2세대 뉴론코어와 EC2 Inf2 인스턴스 당 최대 12개의 인퍼런시아2 가속기를 포함한다. 각 인퍼런시아2 가속기는 최대 190테라플롭스의 FP16 성능을 지원한다. 또 인퍼런시아2는 가속기당 32GB의 HMB2e를 제공해 총 메모리를 4배 늘리고 메모리 대역표도 10배 높였다. 마찬가지로 뉴론 SDK를 이용해 2가지 유형의 인퍼런시아 가속기에 DL 모델을 최적화해서 배포할 수 있다.

사실 LLM 모델을 제공할 때는 학습은 빈번하지 않고 추론에 더 큰 비용과 에너지가 들어가기 때문에 인퍼런시아2 가속기 같은 커스텀 칩은 앞으로도 더 많은 관심을 가질 것이고 국내에서도 네이버와 삼성전자가 NPU 방식의 추론 칩을 만들 계획이다.

코드위스퍼러

이번 발표에서 개발자들이 가장 관심을 가졌던 내용은 2022년 6월에 발표한 이후 일부 개발자에게 프리뷰 상태로 제공해 왔던 코드위스퍼러가 이제 일반 공개되었다는 점이다. 특히 마이크로소프트가 라이벌인 코파일럿 사용 요금을 월 10달러로 한 것에 대응해 개인 개발자에게 무료로 제공한다고 한 것은 큰 환영을 받았다. 원래는 AWS 고객에게만 제공할 예정이었으나 이제는 AWS와 상관없이 누구나 사용할 수 있다는 것이다.

코드위스퍼러는 기본적으로 실시간 인공지능 코딩 동료라고 정의하고 있다. 개발자는 현재 이를 비쥬얼 스튜디오 코드, 인텔리제이 IDEA, 파이참, 웹스톰, 아마존의 자체 AWS 클라우드 9과 같은 AWS IDE 툴킷의 일부로 프리뷰 모드로 사용할 수 있으며 텍스트 기반 프롬프트에 기반에 프로그램 코드를 생성해 준다. AWS 람다 콘솔에 대한 지원은 곧 이루어질 예정이다.

아마존은 코드위스퍼러를 단지 코파일럿의 복제품이 돼서는 안 된다는 생각으로 AI 코드 리뷰어이며 성능 프로파일러인 코드구루(CodeGuru), 운영 이슈를 찾아내는 도구인 데브옵스 구루와 함께 사용할 수 있음을 언급했다.

프리뷰 동안 생산성 챌린지를 실시한 결과, 코드위스퍼러를 사용한 참가자는 그렇지 않은 참가자에 비해 작업을 성공적으로 완료할 확률이 27% 더 높았으며, 평균 57% 더 빠르게 완료한 것으로 나타났다.

특히 안전하고 책임감 있는 인공지능 개발을 위해 책임감 있게 코딩할 수 있도록 편향되거나 불공정한 것으로 간주할 수 있는 코드 제안을 걸러내고, 특정 오픈 소스 학습데이터와 유사할 수 있는 코드 제안을 필터링하거나 플래그를 지정할 수 있는 유일한 코딩 컴패니언이라고 주장한다. 학습데이터와 유사한 코드가 생성될 때 제안에 대한 추가 데이터(예: 리포지토리 URL 및 라이선스)를 제공하여 코드 사용의 위험을 낮추고 개발자가 안심하고 재사용할 수 있도록 지원한다.

또한, 탐지하기 어려운 취약점을 찾아 해결 방법을 제안하는 보안 스캔 기능을 갖춘 AI 코딩 동반자로, 생성된 코드와 개발자가 작성한 코드를 모두 스캔하여 OWASP(오픈 웹 애플리케이션 보안 프로젝트)에 나열된 상위 10개에 포함된 취약점과 같은 취약점을 찾아내어 해결 방법을 제시한다.

코드위스퍼러에서 제공하는 코드 제안은 AWS 작업에만 국한하지는 않지만, 가장 많이 사용하는 AWS API(예: AWS 람다 또는 Amazon S3)에 최적화되어 있으므로 AWS에서 애플리케이션을 빌드하는 사용자에게 더 좋은 동반자가 될 수 있다. 또한 다양한 언어에 걸쳐 범용 사용 사례에 대한 제안을 제공하지만, AWS API의 추가 데이터를 사용하여 튜닝을 수행하므로 AWS 작업 시 얻을 수 있는 최고 품질의 가장 정확한 코드를 생성할 수 있음을 강조해서 AWS 환경에서 사용할 것을 권하고 있다.

아마존이 베드락 전략을 선택한 이유

아마존이 이와 같은 움직임을 보인 것은 이미 아마존이 인공지능과 머신러닝을 깊이 있게 개발하고 이를 모든 비즈니스 유닛에 녹여 넣은 기간이 25년이며, 수십 개의 인공지능과 머신러닝 서비스를 사용하는 고객이 10만이 넘지만, 최근 생성형 AI 주도권이 마이크로소프트의 애저로 넘어가고 있다는 인식에서 비롯했다고 본다.

이미 AWS를 사용하는 많은 기업 고객이나 스타트업이 챗GPT나 GPT-4 때문에 마이크로소프트의 애저 서비스로 전환해야 하는 고민을 하고 있을 때, 하나의 모델에 종속되지 않고 각 문제나 도메인에 따라 얼마든지 서로 다른 LLM을 선택해서 최적화하거나 커스터마이징 할 수 있다는 것을 보여줌으로써 기존 고객을 지키고, 좀 더 유연한 선택을 할 수 있다는 안도감을 주기 위함이다. 이는 그동안 AWS에 대부분 컴퓨팅 기반을 두고 있던 대형 기업에 GPT 수준의 모델을 얼마든지 다양하게 사용할 수 있으며, 기존 노하우를 그대로 유지할 수 있다는 점을 강조한 것이다.

또한 그동안 인공지능의 발전을 이끌어 왔던 동력이 오픈 소스를 통한 공개와 공유이고 이를 지지하는 커뮤니티의 규모와 힘이 상당하다는 것을 인식하고 이들을 자사의 AWS 환경으로 끌고 오고 싶은 것이다. 이미 2월에 이런 그룹의 리더 격인 허깅 페이스와 손잡은 것이 그런 의지를 표명한 것으로 해석할 수 있다. 사실 많은 인공지능 스타트업이 AWS를 사용하고 있었으나, ChatGPT API와 플러그인 발표는 이런 기업들이 예전 오픈AI 서비스나 오픈AI 파운드리 서비스를 검토하도록 하게 만들었기 때문이다.

경영 측면에서는 취임 3년을 맞는 앤디 재시의 입장은 그동안 팬데믹으로 AWS 사용이 급증했다가 이제는 모두 비용 절감에 민감해지면서 성장이 주춤하고 있고, 지난 12개월 동안 주가가 40%까지 떨어진 것에 대해 주주들이 아마존 성장 전략에 대해 의구심이 들고 있는 것을 의식할 수밖에 없다.

특히 세상이 인공지능 특히 생성형 인공지능에 미래가 달려 있다고 모든 미디어가 외치는 가운데 인공지능이 자사의 핵심 포커스임을 선언할 필요가 있었으며, 고전을 하던 메타가 인공지능을 강조하면서 주가가 20% 정도 오른 것을 봐도 누구나 인공지능을 강조 하지 않을 수가 없는 것이다.

앤디 재시가 이번 주주에게 보내는 편지에서 ‘편지 전체를 LLM과 생성형 AI에 관해서 쓸 수 있으나 이는 다음 편지로 남겨 놓겠다’라고 한 것은 앞으로 아마존이 이 분야에 대해 매우 과감한 투자와 적극적인 서비스 개발을 할 수 있음을 말한다. 이제 인공지능의 미래를 향한 전략적 이니셔티브를 누가 주도할 것인가라는 관점으로 클라우드 사업자 톱 3의 치열한 경쟁을 지켜봐야 할 것이다.

참고문헌

AWS, “AWS와 Hugging Face, 생성형 AI 접근성 및 비용 효율성을 위한 협력 발표,” 2023년 2월 23일
GeekWire, “Amazon is working on generative AI, too, CEO Andy Jassy assures shareholders in annual letter,” Apr 13, 2023
AXIOS, “Amazon cloud’s big AI play,” Apr 13, 2023
VentureBeat, “Google invests $300 million in Anthropic as race to compete with ChatGPT heats up,” Feb 3, 2023
Fortune, “Stability AI looks to raise funds at $4B valuation as artificial intelligence captivates investors,” Mar 5, 2023
The Verge, “Amazon offers free access to its AI coding assistant to undercut Microsoft ,” Apr 14, 2023

본 글은 한국지능정보사회진흥원의 지원을 받아 작성되었으며, 디지털서비스 이용지원시스템에 동시 게재합니다.