'데이터 클라우드'란 무엇인가 (ft. 스노우플레이크, 구글)

데이터 클라우드는 데이터셋이 전 세계에 사일로(Silo) 방식으로 쌓여 있고 클라우드 데이터 스토리지나 온프레미스 데이터 센터에 고립되어 있는 상황을 벗어나도록 사일로를 제거하고 이를 통합, 분석, 공유, 그리고 수익 창출을 하게 만들기 위한 것이다.

‘데이터 클라우드’란 무엇인가

데이터가 아무리 중요한 자산이라고 해도 실제 기업에서 겪는 문제는, 데이터가 대부분 조각나서 저장되어 있다는 조각화 문제인데 대부분 데이터가 제대로 목록으로 정리되어 있지 않고, 중복적이며, 접근하기에 비싸고 어렵다는 문제가 있다. 20%의 주요 데이터는 비교적 접근이 쉽지만, 나머지 80%는 활용하거나 적합한 용도로 사용하기에 문제가 있고 비용과 보안 문제가 많다는 것이다(관련 링크: 포브스). 가트너 보고서에 따르면 나쁜 데이터 품질로 인한 비용이 기업 당 연간 평균 1,280만 달러에 달한다고 하며,[footnote]Gartner, “Cost Optimization Is Crucila for Modern Data Management Programs,” Jun 22, 2020[/footnote] 포레스터에 따르면 60-73%의 기업 데이터는 분석에 사용조차 되고 있지 않다는 문제가 있다.

이런 문제를 해결하기 위해 클라우드 기업이 제시하는 솔루션이 데이터 클라우드이다. 소프트웨어 기반의 데이터 인프라, 하나의 관리 인터페이스, 온디맨드로 자원을 활용할 수 있고, 하나의 플랫폼에서 애플리케이션이 동작하게 하고, 클라우드 네이티브 구조를 지원하며, 데이터에 대한 프라이버시나 진실성을 보호하는 보안 등을 제공하고자 하는 서비스이다. 다시 말해, 수천 개의 사업체나 기관이 자체 데이터를 연결하는 것만 아니라 공유 데이터나 데이터 서비스를 손쉽게 공유하거나 소비할 수 있게 서로를 연결해주는 생태계라고 볼 수 있다.

최근 데이터 클라우드와 관련이 높은 두 개의 행사가 있었는데, 하나가 스노우플레이크의 연례 서밋이고 또 다른 하나는 구글의 데이터 클라우드 서밋이다. 이 두 행사에서 발표한 주요 기능과 기술이 앞으로 데이터 클라우드 영역에서 주목할 수 있는 솔루션과 서비스이기 때문에 이 두 회사에서 최근 발표한 내용을 소개하기로 한다.

스노우플레이크의 데이터 클라우드 서비스

가장 대표적인 데이터 클라우드 서비스 기업인 스노우플레이크는 다수의 클라우드 제공자나 지역에 상관없이 데이터 웨어하우징, 데이터 레이크, 데이터 엔지니어링, 데이터 사이언스, 데이터 애플리케이션을 개발할 수 있는 클라우드 데이터 플랫폼을 지원한다. 스노우플레이크 데이터 클라우드 서비스는 2020년 10월 기준 3,500개 이상의 고객을 보유하고 있으며, 하루 230만 건 이상의 데이터 공유 쿼리를 처리하고 있다.

또한, 스노우플레이크 데이터 마켓플레이스를 통해 기업들이 데이터나 데이터 서비스를 제공하거나 발견하고, 구입할 수 있도록 하고 있다. 데이터 마켓플레이스를 통해 웨더 소스(Weather Source), 세이프그래프(SafeGraph), 팩트셋(FactSet), 질로우(Zilliow) 같은 데이터 기업에서 제공하는 데이터셋에 접근할 수 있도록 하고 있다. 현재 125개 이상의 데이터 기업으로부터 데이터를 제공하고 있다.

데이터 익스체인지를 통해서는 기업이 자체 버전의 데이터 마켓플레이스를 만들어 사업 부문, 파트너, 고객, 다른 이해 관계자들 사이에서 전체 공급망을 통해 데이터 접근을 관리하도록 할 수도 있다. 전통적으로 데이터를 공유하려면 FTP, API, 클라우드 저장소의 데이터를 가져다가 정제, 중복 제거, 개인 정보 제거, 압축, 일정 수립, 에러 처리를 해서 전환한 후 이를 다시 데이터 웨어하우스, 데이터 레이크, 백업 등에 저장하는 과정을 거친다.

이를 하나의 플랫폼을 통해 지원함으로써 최신 데이터 유지, 중복 제거, 안전한 공유가 가능하도록 하는 것이다. 또한, 구글, 아마존, 마이크로소프트 등 모든 클라우드 서비스를 지원하고 있어서, 이미 수천 개의 기업이나 기관이 이를 이용하고 있다.

스노우플레이크는 지난 6월 8일, 매년 개최하는 스노우플레이크 서밋을 통해서 데이터의 프로그램 가능성, 글로벌 데이터 거버넌스, 더 많은 데이터를 데이터 클라우드에서 사용할 수 있는 플랫폼 최적화, 데이터로부터 더 깊이 있는 가치와 강력한 비즈니스 통찰을 획득할 방안 등에 대해 발표했다.

데이터 프로그래머빌리티(Programmability) 혁신으로는 스노우파크, 자바 UDF, 비구조화 데이터, SQL API 등에 대한 발표가 있다. 스노우파크는 자바와 스칼라를 지원하는데, 데이터 엔지니어, 데이터 과학자, 개발자가 자신들이 선호하는 언어와 익숙한 프로그래밍 개념으로 개발 경험을 구축하고 스노우플레이크 안에서의 워크로드를 실행하도록 한다는 것이다.

자바 UDF(Usef-Defined-Functions)은 고객이 자신의 커스텀 코드와 비즈니스 로직을 스노우플레이크 안으로 가져올 수 있다는 것이고, 비구조화 데이터에 대해서는 좀 더 가속화된 기능을 제공하고, SQL API는 커스텀이나 시중에서 구할 수 있는 애플리케이션에서 REST API를 이용해 스노우플레이크를 호출할 수 있다는 얘기이다.

또한, 스노우플레이크 액셀러레이티드 프로그램을 통해 기술 전문가들이나 기업이 스노우플레이크 고객에게 좀 더 향상된 서비스를 제공하도록 했다. 예를 들어 AWS는 아마존 세이지메이커 데이터 랭글러(Wrangler)를 스노우플레이크와 통합한다고 발표했는데, 이는 스노우플레이크를 랭글러 데이터 소스로 사용할 수 있다는 것이다.

글로벌 거버넌스 분야에서는 주어진 테이블에서 개인 정보를 자동으로 탐지하고 데이터에 주석을 넣을 수 있는 프레임워크인 분류(Classification) 기능을 프라이빗 프리뷰로 제시했다고 한다. 이는 데이터에 대한 접근을 제어하기 위해 역할 기반의 정책을 지원하는 것을 포함한다. 또한, 익명화 뷰(Anonymized View)를 통해 데이터에서 프라이버시나 아이덴티티를 보호하면서도 분석을 할 수 있도록 했다.

이 밖에도 객체 태깅을 통해 민감한 데이터를 추적하도록 하며, 컴플라이언스 감사를 위한 접근 이력, 민감한 데이터 접근에 대해 정책 기반의 솔루션으로 데이터의 특정 열에 대한 접근을 제한하는 방안, 에이레이션(Alation)과의 통합을 통해 정책 센터와 데이터 카달로그로부터 스노우플레이크 정책을 강제화하도록 했다.

플랫폼 최적화 영역에서는 스토리지 경제성 개선(더 발전한 압축과 저장장치 비용의 감소), 인터랙티브 경험을 위한 개선된 지원, 사용에 대해 쉽게 알려주는 대시보드가 있다.

좀 더 발전한 협업과 데이터 구매를 손쉽게 하기 위한 기능도 소개를 했는데, 데이터 마켓플레이스에서 사용하는 기능으로 ‘발견과 거래’는 마켓플레이스에서 사용에 따른 가격 모델을 제공하는 것이고, ‘구입 전에 시도’ 기능은 샘플 데이터에 접근해 사전에 사용을 경험해 보도록 하는 서비스이다.

구글의 새로운 데이터 클라우드 기능들

스노우플레이크 서밋보다 먼저, 지난 5월 27일에는 구글이 주관하는 데이터 클라우드 서밋이 있었다. 구글은 기업이나 조직에 통합 데이터 플랫폼을 제공하기 위해, 데이터베이스와 데이터 분석 포트폴리오 전반에 걸쳐 구글 클라우드에서 지원하는 세 가지 솔루션을 제시했다. 데이터플렉스, 어낼리틱스 허브, 그리고 데이터스트림이다.

아직 프리뷰인 데이터스트림은 새로운 서버리스 체인지 데이터 캡처(CDC)이며 복제 서비스이다. 데이터스트림은 오라클이나 마이SQL 데이터베이스에서 빅쿼리, 클라우드 SQL, 구글 클라우드 스토리지, 클라우드 스패너와 같은 구글 클라우드 서비스로 데이터 스트림을 실시간으로 복제할 수 있게 하는 서비스다. 이 솔루션을 통해 기업은 실시간 분석, 데이터베이스 복제, 이벤트 기반 아키텍처를 강화할 수 있다. 이미 MLB와 쉬너크 마켓(Schnuck Markets) 등의 고객을 갖고 있다.

애널리틱스 허브는 기업이 동적 대시보드나 머신러닝 모델과 같은 기능을 안전하게 조직 내부와 외부에서 공유하게 하는 기능이다. 또한 기업의 데이터셋을 구글 데이터나 상용 데이터, 기업 데이터, 공공 데이터와 결합하게 한다. 올해 3분기에 제공할 예정인데 이를 통해 데이터 공유의 가치를 높이고 새로운 통찰과 사업 가치를 올릴 수 있다고 말하고 있다. 여기에서 제공하는 특장점은 다음과 같다.

분석 준비가 된 데이터셋을 퍼블리싱하거나 구입할 수 있는 풍부한 데이터 생태계
데이터를 한 곳에서 공유해 고객 데이터가 어떻게 사용되는지 제어하고 모니터링하는 기능
구글의 데이터를 포함해 가치 있고 신뢰할 수 있는 데이터 자산에 접근할 수 있는 셀프 서비스 방식
인프라 구축 비용 없이 데이터 자산을 수익화 할 수 있는 쉬운 방법

또 다른 프리뷰로 소개한 데이터플렉스는 구글 클라우드와 오픈소스 중에서 최고의 것을 모아서 통합 분석 경험을 제공하는 지능형 데이터 패브릭이라고 소개하고 있다. 데이터 품질의 자동화, 인공지능과 머신러닝 기능을 이용하는 내장된 데이터 지능 분석 등을 통해 대규모 데이터를 모으고, 통합하며, 안전하게 보호하고, 분석할 수 있도록 한다.

에퀴팩스 같은 초기 고객은 데이터플렉스를 자사의 핵심 분석 플랫폼으로 사용하고 있다고 한다. 이를 통해 데이터 과학자, 분석가, 엔지니어가 노트북이나 SQL-워크벤치를 사용해 분석을 돌릴 수 있는 턴키 경험을 갖도록 하며, 협력적 방식으로 분석이 가능하다.

이 외에도 멀티 클라우드 분석 솔루션인 빅쿼리 옴니(Omni) 발표를 통해 구글 클라우드, AWS, 마이크로소프트 애저의 데이터를 안전하게 접근해서 분석할 수 있다고 했다.

스노우플레이크가 큰 관심을 얻으면서 구글 같은 클라우드 사업자도 데이터 클라우드에 대한 솔루션 개선과 확장을 꾀하고 있으며, 이제는 단지 데이터 통합의 문제가 아니라 개인 정보나 민감한 정보에 대한 접근 제어, 각종 정책을 기반으로 하는 접근, 민감 데이터에 대한 익명화 등의 시대가 요구하는 기능이 데이터 클라우드에서 구현하고 있는 흐름을 알 수 있다.

[divide style=”2″]

[box type=”note”]

본 글은 한국지능정보사회진흥원의 지원을 받아 작성되었으며, 디지털서비스 이용지원시스템에 동시 게재합니다.

[/box]