GPU 시대에서 맞춤 프로세서 시대로: 인공지능 전용 하드웨어 경쟁 본격화

인공지능은 이제 모든 기업의 가장 중요한 전략 축이 되고 있다. 가트너(Gartner, Inc.)는 최근 보고서를 통해 2020년이 되면, 거의 모든 소프트웨어에 인공지능 기술이 채택될 것으로 예상한다.[footnote]Gartner, “Gartner says AI technologies will be in almost every new software product by 2020”, July 18, 2020.[/footnote]

대다수 소프트웨어에 도입되고, 컴퓨터 운영환경에 기본으로 인공지능이 도입되면 첫 번째로 나타날 문제는 회사간 차별성이 없어지거나, 단지 주요 키워드를 통해 인공지능 기능을 강조할 경우 어떤 기술이 더 뛰어난 것인지 고객들이 판단하기 어려워진다는 점이다.

또한, 딥러닝이나 머신러닝 기술 중 이미 많이 증명된 알고리즘을 사용하는 경우, 다양한 분야에서 유사한 애플리케이션끼리 경쟁하면, 누구의 구현이 더 뛰어난 것인지 역시 판단이 어려울 수 있다.

이미 널리 알려진 뉴럴 네트워크 모델과 사전에 학습된 버전을 클라우드로 제공하는 기업 입장에서는 자사 서비스가 다른 클라우드 서비스에 비해 차별적인 성능 우월성을 보이도록 하는 것이 하나의 전략적 선택일 수 있다.

또 다른 전략으로는 다양한 스마트 기기 자체에서 인공지능 기술을 활용하면서도, 보다 빠르고 전력 소모가 적은 기기를 만들어 내야 한다. 즉, 인공지능 기술에 특화된 칩을 통해 자체적인 지능형 기술을 클라우드를 사용하지 않더라도 제공할 수 있게 만들어야 한다.

인공지능 전용 또는 특화 하드웨어 시장은 1) 클라우드 서버 사이드에서 인공지능 성능을 가속화하고자 하는 방향과 2) 스마트 기기 내부에서 인공지능 성능을 지원하는 두 가지 방향으로 경쟁이 진행 중이다.

독자적인 인공지능 기술 지원

1. 애플, 애플 뉴럴 엔진

애플은 내부적으로 ‘애플 뉴럴 엔진’이라고 부르는 인공지능 칩을 개발하고 있는 것으로 알려졌다.[footnote]Bloomberg, “Apple is working on a dedicated chip to power AI on devices,” May 27, 2017.[/footnote] 얼굴 인식이나 음성 인식같은 인공지능 기능을 처리하기 위한 전용 칩으로, 이를 통해 자사 기기의 성능을 향상하겠다는 의미이다.

이를 통해 아마존 ‘에코’나 구글의 ‘홈’같은 가상 비서나 스마트 스피커 시장에서 시리의 성능을 차별적으로 향상시킬 필요가 있다.

특히 아마존이나 구글처럼 대부분의 데이터를 클라우드로 옮겨 처리하겠다는 것과는 달리 많은 경우 디바이스 자체에서 처리하겠다는 애플의 전략으로는 인공지능 전용 칩은 매우 중요한 역할을 할 수 있다. 이는 프라이버시 보장을 또 다른 차별점으로 내세우는 애플의 기본 전략과 부합하는 것이다.

나아가서 단지 이미지나 음성과 같은 패턴 인식뿐만 아니라, 애플이 미래 기술로 관심을 표하고 있는 증강현실(AR)이나 자율주행차에서도 인공지능 기술이 중요한 역할을 할 것이기 때문에 향후 미래 사업 전개에서 선택할 수밖에 없는 방향이다.

2. 퀄컴, 스냅드래곤 835

퀄컴 역시 최신 스냅드래곤 칩에 인공지능 기능을 추가했다. ‘스냅드래곤 835’라고 부르는 이 칩에서는 물체 확인과 인식, 배경 노이즈 제거, 음성과 언어 인식 등에 필요한 딥러닝이나 머신러닝 기능을 칩에서 지원함으로써 클라우드가 아닌 디바이스 자체에서 인공지능 기능을 활용할 수 있는 방안을 제시했다.[footnote]Qualcomm, “Artificial intelligence tech in Sanpdragon 835: personalized experiences created by machine learning,” April 14, 2017.[/footnote]

이는 클라우드 연결이 어려운 상황에서도 다양한 지능 애플리케이션을 수행할 수 있는 디바이스를 개발할 수 있는 가능성을 제시하겠다는 퀄컴의 전략이다.

스냅드래곤 835는 헥사곤 682 DSP와 아드레노 GPU를 통해 일반 CPU보다 8배 빠르고, 25배 전력 효율이 좋으며, 이를 통해 ‘텐서플로’의 뉴럴 프로세싱 같은 기능을 보다 효과적으로 지원할 수 있다.

또한, 스냅드래곤 뉴럴 처리 엔진 SDK를 제공함으로써 개발자들이 자신의 뉴럴 네트워크 기반 애플리케이션을 어디에서 처리할 것인가를 선택할 수 있도록 했다. 이 SDK는 카페나 텐서플로에서 사용되는 CNN이나 LSTM 같은 인공신경망 모델을 지원하고 있다.

3. 마이크로소프트, 홀로렌즈 칩

마이크로소프트는 인텔리전트 클라우드와 인텔리전트 엣지 전략을 발표하면서 클라우드와 엣지 양측에서 원활한 머신 지능을 지원하기 위한 컴퓨팅 모델을 제시한다.

최근에는 홀로그래픽 컴퓨팅을 위한 인공지능 기능을 지원하기 위한 홀로렌즈 칩을 독자적으로 개발하고 있음을 밝혔다. [footnote]Bloomberg Technology, “Inside Microsoft’s Plan to bring AI to its Hololens goggles,” July 23, 2017.[/footnote] 이를 통해 그래픽 처리뿐만 아니라 이미지 인식과 음성 인식을 보다 빠르게 처리하려고 한다.

https://youtu.be/pLd9WPlaMpY

서버와 클라우드에서 인공지능 가속

1. 구글, TPU(텐서 처리 유닛)

구글은 2016년 텐서 처리 유닛(TPU)을 제시하면서 인공지능 하드웨어 경쟁에 참여했다. 이는 클라우드에서 인공지능, 특히 딥러닝 지원을 강화하기 위한 방식으로, 2017년 I/O 컨퍼런스에서는 보다 향상된 버전을 공개했다.

구글의 TPU는 커스텀 ASIC 칩으로 텐서플로에 특화된 성능을 보인다. [footnote]Google Cloud Platform Blog, “Google supercharges machine learning task with TPU custom chip,” May 18, 2016.[/footnote]

구글은 이미 내부적으로 TPU를 활용해 인공지능 기반 서비스의 향상을 확인했다. 랭크브레인에서 검색 결과의 연관성을 향상하고, 스트리트뷰에서 지도와 내비게이션의 정확도와 품질을 개선했으며, 알파고의 성능을 올리는 데에서 활용했다.

구글 클라우드 TPU (출처: 구글블로그) https://www.blog.google/topics/google-cloud/google-cloud-offer-tpus-machine-learning/ — 구글 클라우드 TPU (출처: 구글블로그)

구글이 클라우드에서도 활용할 수 있게 만든 차세대 클라우드 TPU는 최대 180테라플롭스의 성능을 제공하며, 고속 네트워크로 연결하여 다수의 TPU로 구성하면 머신러닝 수퍼컴퓨터를 구성할 수 있다. 64개를 연결한 것을 TPU 팟(Pods)이라 부르는데, 11.5페타플롭스의 성능을 제공한다. [footnote]Google Blog, “Build and train machine learning models on our new Google Cloud TPUs,” May 17, 2017.[/footnote]

2. 엔비디아

서버 사이드에서 인공지능 칩 경쟁에는 엔비디아가 가장 적극적이다. 지난 5월 GPU 테크놀로지 컨퍼런스에서 엔비디아는 ‘테슬라 V100’을 발표했는데, 이는 ‘볼타’라는 차세대 그래픽스 아키텍처에 기반한 제품으로 서버 시장을 겨냥했다. [footnote]Forbes, “Nvidia hopes to stave off AI chip competition with Volta graphics card,” May 10, 2017.[/footnote]

이 칩은 210억 개의 트랜지스터와 5,120개의 컴퓨팅 코어를 갖고 있다. 여기에는 딥러닝 계산을 위한 640개의 텐서 코어가 구성되어 있는데, 이를 통해 120테라플롭스의 성능을 제공하고 있다.

자사의 과거 칩에 비해 12배의 학습 성능과 6배의 추론 성능을 보인다. 이는 현재 인텔 CPU 100개에 해당하는 성능이다. 또한 텐서RT라는 컴파일러를 통해 카페나 텐서플로 프레임워크 기반 소프트웨어를 최적화할 수 있다.

3. GPU vs. TPU 그리고 인수 러시

그러나 GPU를 통한 인공지능 기술 지원은 근본적인 한계가 있다는 것이 전문가들의 지적인데, GPU의 기본 기능인 그래픽스 가속 기능을 제공해야 하기 때문에 앞으로 나올 인공지능 특화 칩에 비해 성능이 떨어질 수밖에 없다.

구글은 이미 블로그에서 TPU가 일반 GPU에 비해 15배에서 30배 성능이 뛰어나며, 30~80배의 에너지 소모가 적다는 점을 강조하고 있다.

인텔이 153억 달러라는 거액으로 모빌아이를 인수한 이유 역시 머신러닝 지원 하드웨어 시장에서 자사의 위치를 확보하기 위함이다. [footnote]Wired,”Intel’s 15 billion reasons why an AI chip revolution has arrived,” March 14, 2017.[/footnote]

이미 그 전에 보다 큰 규모의 인수인 알테라를 167억 달러에 인수한 이유도 마이크로소프트가 자사의 인공지능 애플리케이션을 알테라 위에서 특화시키겠다고 발표한 이유가 크다. [footnote]Wired, “Microsoft bets its future on a reprogrammable computer chip,” Sept. 25, 2016.[/footnote]

사실 인공지능 특화 하드웨어는 데이터센터에 있는 서버에서도 활용해야 하며, 다양한 모바일 기기 자체에서도 활용해야 한다. 인텔은 이런 측면에서 2016년 9월 모비디우스 인수 이후에 모빌아이를 인수한 것이다.

모비디우스의 비전 프로세싱 유닛은 인텔의 리얼센스 기술과 함께 주변 환경을 3D로 인식하고 이해하기 위해 가장 필요한 기술 중 하나이다. 이미 드론, 감시 카메라, 가상·증강현실 헤드셋 등에서 활용되는 칩이다.

또 다른 인수로는 너바나라는 인공지능 칩 스타트업을 4억 달러에 인수했는데, 인텔은 2020년까지 딥러닝 학습 성능을 100배 향상시키겠다는 목표를 세웠다.

4. 그래프코어, IPU(머신 지능 프로세서)

머신 지능 칩 또는 인공지능 칩 경쟁에 뛰어든 또 다른 스타트업은 영국 브리스톨에 있는 ‘그래프코어’다. 최근 시리즈 B 투자로 3000만 달러의 투자를 확보한 그래프코어는 이미 2016년 시리즈 A에서 3,200만 달러의 투자를 받았었다. [footnote]TechCrunch, “Graphcore’s AI chips now backed by Atomico, DeepMind’s Hassabis,” July 21, 2017.[/footnote]

흥미로운 점은 그래프코어의 이사진에는 딥마인드의 데미스 하사비스나 우버의 수석 과학자 조빈 가라마니가 합류했다는 점이다. 하사비스는 이 회사의 엔젤 투자자이기도 하다.

또한, 오픈AI의 그렉 브로크만, 일리야 서츠케바 등 쟁쟁한 인물들이 시리즈 B에서 엔젤 투자자로 참여했다는 점은 이 회사의 장래에 대해 매우 긍정적인 전망을 하게 다. 삼성 카탈리스트 펀드 역시 이번 투자에 참여했다.

그래프코어 역시 클라우드와 같은 서버 측면에서 활용되는 하드웨어를 상정하고 있다. 그래프코어의 하드웨어는 ‘머신 지능 프로세서'(IPU; Intelligence Processing Unit)라 부르며 이미 기존 칩보다 수십 배의 성능 향상을 보여준다고 얘기한다.

graphcore https://www.graphcore.ai/technology — graphcore

그 동안 주요 역할을 한 GPU가 모두 동일한 처리를 하는 것에 반해 그래프코어의 IPU는 수천개의 프로세서가 서로 다른 일을 수행하거나 함께 머신러닝 태스크를 공동으로 처리할 수 있는 유연성이 있다고 한다.

또한, C++ 기반의 포플라라는 그래프 프레임워크 소프트웨어를 통해 서로 다른 머신 러닝 프레임워크를 메시로 엮어서 머신러닝 학습과 추론을 10배, 100배 가속할 수 있다고 말한다. 2017년 말에 시스템의 형태로 초기 모델을 얼리 액세스 고객에게 제공할 예정이다.

GPU 시대에서 맞춤 프로세서 시대로

이제 모든 반도체 회사는 인공지능의 기본 프레임워크와 딥러닝 모델들의 실제적 표준이 정립됨에 따라 본격적인 인공지능 특화 칩과 하드웨어를 개발하고 있다. 많은 데이터를 고속으로 계산해야 하기 때문에 그 동안 활용되었던 GPU 시대에서 이제는 딥러닝 자체에 특화되거나 다양한 머신러닝 기법을 효과적으로 지원하기 위한 맞춤 프로세서 시장으로 진화하는 중이다.

많은 클라우드 기업이 머신러닝·딥러닝 프레임워크를 클라우드 환경에서 제공하기 때문에, 이제는 클라우드 서버에서 얼마나 고속으로 처리할 수 있는 지에 관해 경쟁이 이루어지고 있다. 이런 측면에서 구글의 TPU 외에도 다양한 전문 프로세서와 하드웨어 시스템이 지속적으로 나타날 것이다.

또 다른 영역에서는 매우 다양한 모바일 기기나 스마트 기기 자체에서 데이터를 빠르게 처리해야 하거나 서버와 독립적인 프로세싱을 수행해야 하기 때문에 기기에 장착할 전용 칩 역시 필요하다. 이는 특히 데이터를 어떻게 보호할 것인가 하는 프라이버시 정책과도 연관성이 크다.

사용자와 접점을 이루는 엣지에서 처리해야 하는 기능과 서버를 통해서 보다 광범위한 데이터와 학습을 이루어야 하는 상황 모두에 인공지능 전용 하드웨어가 필요할 것이다.

장기적으로는 IBM의 뉴로시냅틱 모델을 기반으로 하는 트루노스 칩과 같은 뉴론과 시냅스를 기반으로 하는 전혀 새로운 유형을 칩을 통한 또 다른 단계의 혁신이 필요할 수 있다. 현재 IBM은 16개의 칩을 연결해 1600만 개의 뉴론과 40억 개의 시냅스를 갖춘 보드를 제공하고 있다. [footnote]Dharmendra S. Modha, “Introducing a Brain-inspired computer,” IBM Research.[/footnote]