기사 공유하기

데이터 플랫폼은 데이터 분석가, 데이터 과학자, 데이터 엔지니어가 데이터를 기반으로 작업하도록 지원하며, 규모와 관계없이 성능과 유연성을 제공해야 한다. 그러나 실제로 빅데이터 솔루션이나 일반적인 데이터 플랫폼은 이런 요구 사항을 충족하지 못하는 경우가 많았기 때문에, 몇몇 주요 데이터 플랫폼 업체는 클라우드 기반의 클라우드 데이터 플랫폼 구조를 통해 이를 구현하고자 한다. (아래 그림 참조)

기존 데이터 플랫폼의 구조 [출처: 스노우플레이크]
기존 데이터 플랫폼의 구조 [출처: 스노우플레이크]
클라우드 데이터 플랫폼(이하 ‘CDP’)는 아마존, 마이크로소프트, 구글과 같은 클라우드 서비스 제공자와 기업의 프로그램 사이에 가상의 데이터 레이크를 제공해, 고객이 쉽게 데이터를 저장하고, 여러 클라우드 서비스 간에 쉽게 데이터를 활용하게 함으로써 대기업 입장에서는 매우 유용한 서비스를 제공한다. 또한, 파트너나 다른 사업자와도 물리적인 이동 없이 데이터를 공유할 수 있도록 하는 역할을 한다. (아래 그림 참조)

클라우드 데이터 플랫폼의 구조 [출처: 스노우플레이크]
클라우드 데이터 플랫폼의 구조 [출처: 스노우플레이크]
대표적인 기업이 스노우플레이크(Snowflake)클라우데라(Cloudera)의 CDP이다. 이번 글에서는 두 회사가 제공하는 기술과 서비스, 그리고 최근에 이루어지고 있는 변화와 움직임을 비교해 보도록 한다.

스노우플레이크

스노우플레이크는 2012년에 설립한 회사로 가장 성공적인 스타트업 중 하나다. 2020년 2월 펀딩 기준으로 124억 달러의 기업 가치로 평가받는다. 스노우플레이크의 강력한 협력 파트너 ‘세일즈포스’다. 2월 투자에도 참여했고, 6월에는 데이터 클라우드 분야에서 협력을 확장했다. 즉, 세일즈포스의 데이터를 스노우플레이크의 클라우드 데이터 웨어하우스에 저장하고, 이를 다시 세일즈포스의 아인슈타인이나 태블로를 이용해 분석할 수 있도록 하겠다는 것이다.

스노우플레이크는 서비스나우의 회장과 CEO를 역임했던 프랭크 슬루트만이 2019년 5월부터 최고 경영자로 이끌고 있으며, 창업자인 베노이트 데이지빌은 CTO를 맡고 있다. 2019년 10월 기준으로 2,500개의 비즈니스 고객을 갖고 있으며 그중에는 도어대시, 넷플릭스, 오피스 디포, 야마하 등이 있다.

초기부터 세콰이어 캐피탈이 투자를 주도했으며, 알티미터, 캐피털 원, 레드포인트, 마드로나, 메리테크 등 쟁쟁한 투자자들이 참여해 지금까지 14억 달러를 투자한 것으로 알려졌다. 최근 투자는 후기 투자에 주로 참여하는 드래곤니어(Dragoneer)와 세일즈포스가 주도했다고 한다. 지난 6월 10일 뉴스에 따르면 스노우플레이크가 조용히 기업 공개를 위한 작업에 들어갔다고 한다.

스노우플레이크 아키텍처
스노우플레이크 아키텍처

스노우플레이크는 기본적으로 멀티 클라우드 전략을 지원하며 클라우드 서비스를 적절히 섞을 수 있는 크로스 클라우드 접근 방식 역시 지원한다. 글로벌 데이터 복제를 통해 데이터를 어느 리전, 어느 클라우드라도 이동할 수 있다.

확장 가능한 클라우드 블롭(Blob) 저장 장치 위에서 스토리지 레이어는 다양한 유형의 데이터와 테이블, 질의어 결과를 저장한다. 또한, 고객 데이터를 안전하고 효율적으로 저장하기 위해 적절한 크기로 나누어 저장하는 마이크로 파티션 기능을 활용한다. 이 마이크로 파티션을 암호키 계층을 이용해 압축하고 암호화해서 저장한다.

컴퓨트 계층에서는 막대한 양의 데이터를 빠르고 효율적으로 처리하도록 지원한다. 이때, 가상 웨어하우스와 캐싱이 이용되며, 다중의 웨어하우스가 같은 데이터에 동시에 접근하도록 한다. 서비스 계층은 사용자 세션을 인증하고, 관리, 보안 기능, 질의어 해석과 최적화, 그리고 모든 트랜잭션을 조율한다. 서비스 계층은 모든 종류의 암호와 보안 기능을 지원하고 있다.

이를 통해 진정한 의미의 ‘서비스로서의 데이터 플랫폼 (Data Platform as a Service)’를 구현하고자 하는 것이 스노우플레이크의 CDP 전략이다. 스노우플레이크는 외부에 여러 기술 및 솔루션 파트너를 갖고 있으며, 네이티브와 표준 기반의 커넥터를 지원해 다양한 프레임워크와 언어를 통해 개발자들이 활용할 수 있다.

스노우플레이크가 지원하는 커넥터들
스노우플레이크가 지원하는 커넥터들

클라우데라

클라우데라는 기업용 데이터 플랫폼의 초기 리더이며 배포, 관리 및 사용이 간편한 통합 데이터 플랫폼 제공 기업이다. 2018년 10월 기업용 하둡 제공자인 호톤웍스와 합병 발표를 했으며, 2019년 1월에 완전 통합을 이루었다. 이를 통해, 멀티 클라우드, 온프레미스, 엣지 컴퓨팅을 아우르는 차세대 데이터 플랫폼 회사가 되었다. 두 회사는 고객 측면에서도 상호 보완적인 입장을 갖고 있었다. 따라서 이를 통해 AI와 사물 인터넷 분야까지 시장을 넓히겠다는 전략을 취했다.

클라우데라와 호톤웍스의 상호 보완적 위치
클라우데라와 호톤웍스의 상호 보완적 위치

합병을 통해 두 회사가 가졌던 하둡 전통을 기반으로 클라우드형의 배포와 관리 추상화 계층을 제공하며, 복잡한 엣지/IoT 스트리밍 데이터 기능을 갖는 계층과 최근에 정비한 머신 러닝 플랫폼까지 제공한다.

클라우데라의 CDP는 광범위한 자산을 함께 관리하도록 중앙 집중형 공유 데이터 경험 (Shared Data Experience: SDX) 기반 운영과 거버넌스 환경을 갖고 있다. 퍼블릭 클라우드에서는 AWS, 애저를 지원하고 구글 클라우드 플랫폼은 조만간 지원할 예정이다.

클라우데라 CDP 구조
클라우데라 CDP 구조

그러나 퍼블릭 클라우드 서비스 기업이 대부분 자체 관리형 하둡·스파크 서비스를 제공하고 있기 때문에, 이 영역에서 독립적인 서비스 제공자가 된다는 것은 도전이다. 그러나 다중 클라우드에서 유연한 호환성을 제공하고, 스트리밍 데이터, 애널리틱스, 데이터 파이프라인/엔지니어링 그리고 머신 러닝까지 높은 단계의 통합을 제공하면서 경쟁력을 키우고 있다.

현재 클라우데라 데이터 플로우(CDF)를 통해 실시간 스트리밍 데이터를 수집 정리 분석을 하며, 데이터 웨어하우스를 통해 다양한 데이터 소스를 통합할 수 있고, 클라우데라 머신 러닝을 통해 머신 러닝이나 AI 앱을 구축해 배포 및 확장할 수 있다.

2020년 6월, 그동안 빠져있던 부분인 프라이빗 클라우드를 위한 CDP 테크 리뷰를 발표하고 이번 여름에 일반 공개할 예정이라고 말했다. 퍼블릭 버전과 마찬가지로 K8(쿠버네티스) 기반이며 레드햇의 오픈쉬프트에 특화되어 있다. 이를 통해 이제 CDP 업무를 퍼블릭 클라우드 사이, 또한 프라이빗 클라우드와 퍼블릭 클라우드 사이에 이식이 가능하게 되었다. 고객은 이제 자신이 제일 편하거나 경제적인 측면을 고려해 원하는 방식으로 클러스터를 취할 수 있다.

클라우데라의 산업 고객은 정유와 가스 기업 외에 금융 기업으로 이번 팬데믹에 큰 영향을 받지 않았다. 그럼에도 호톤웍스와 통합될 때 52억 달러에 평가받았던 회사가 최근 40억 달러 수준으로 내려앉았고, CEO는 매각을 생각한다고 말했다. 투자 전문가들은 이제 IBM이 레드햇에 이어 클라우데라를 인수해야 한다고 본다. 이를 통해 하둡·스파크 생태계에서 리더십을 가질 수 있다고 보는 것이다. 그러나 지난 4월 블룸버그 보도에 따르면 사모 펀드가 인수 의향이 있음을 밝혀서 데이터 플랫폼 영역도 또 한번의 지각 변동을 겪을 가능성이 있다.

 

[divide style=”2″]

[box type=”note”]

본 글은 한국정보화진흥원의 지원을 받아 작성되었으며, 클라우드스토어 씨앗 이슈리포트에 동시 게재합니다.

[/box]

관련 글