기사 공유하기

2014년 9월 9일 애플은 아이폰 6, 애플 워치 등 새로운 제품을 선보였다. 그 자리를 U2가 함께 빛냈다. 애플은 U2의 새로운 앨범 “Songs of Innocence”를 약 5억 명에 이르는 아이튠즈 고객에게 무료로 선물하는 선심을 보였다. 이를 위해 애플이 쓴 돈은 1억 달러에 이른다. 6억 달러는 아이폰 6 (그리고 6 플러스)와 애플 워치의 PR 비용이다. 여기서 가장 큰 이익을 본 주인공은 U2다.

스트리밍과 다운로드: 스트리밍이 다운로드 시장을 죽인다

여기서 문제는 아이튠즈 이용자에게 발생했다. ‘구매’를 하지 않았음에도 불구하고 U2의 이번 새 앨범은 아이튠즈 이용자 계정에 ‘구매한 아이템’에 자동으로 등록되었다. 선물이라며 이용자의 저장 공간에 마음대로 들락날락하는 애플의 행위는 바람직하지 않다.

U2의 앨범은 아이튠즈 모든 이용자에게 무료로 제공된다.

음악시장 관련해서 주목해야 할 사실이 있다. 바로 아이튠즈의 성장률 감소 현상이다. 아래의 그림에서 확인할 수 있는 것처럼 아이튠즈를 통해 음악을 다운로드 흐름이 점차 축소하고 있다.

아이튠즈 음악 다운로드 성장 그래프
아이튠즈 음악 다운로드 성장 그래프. 점점 줄어들고 있다. (소스: 닐슨 사운드스캔)

이와 대조적으로 음악 스트리밍 서비스의 대표주자인 스포티파이(Spotify)의 성장세가 눈에 띈다.

스포티파이의 액티브 이용자 증가 추세를 보여주는 그래프
스포티파이의 액티브 이용자 증가 추세를 보여주는 그래프

2014년 8월 미디어 리서치(MIDIA Research)에서 발표한 자료, The Streaming Effect: Assessing The Impact Of Streaming Music Behaviour에 따르면,

  • 2013년 스트리밍 음악시장은 238% 성장
  • (조사대상 기준) 음악 소비자의 30%가 스트리밍 서비스를 통해 음악을 소비하고 있으며, 이들 중 1/5이 유료 음악 스트리밍 서비스를 이용하고 있음
  • (조사대상 기준) 음악 스트리밍 서비스 이용자 중 45%가 동시에 음악 다운로드 소비자이다. (이들의 다운로드가 줄어들 가능성을 예측할 수 있는 부분)
  • 2019년 세계 스트리밍 음악시장 규모는 80억 달러 수준으로 발전, 스트리밍 서비스가 디지털 음악시장의 약 70%를 차지할 전망

이렇게 ‘디지털’ 음악시장은 다운로드에서 스트리밍으로 전환하고 있다. 음악 스트리밍 시장을 주도하는 스포티파이는 2014년 3월에 에코네스트(The Echo Nest)라는 음악 데이터 분석 기업을 인수한다. 에코네스트는 미국 MIT 미디어랩의 일부 연구조직이 2005년에 독립해서 회사로 전환했다.

데이터와 메타데이터

에코네스트를 비롯 음악 데이터와 관련된 이야기를 시작하기 전에 몇 가지 살펴볼 개념이 있다.

첫 번째는 메타데이터다.

Metadata is “data about data”.

메타데이터는 특정 데이터를 설명하는 데이터를 말한다. 여기서 데이터를 확장해서 이해할 경우, 데이터는 다른 사물과 구별되는 사물을 지칭할 수 있다. 예를 들면 특정 책, 특정 음반 또는 특정 인물을 지칭한다고 가정해 보자.

  • “책”에 대한 메타데이터는 저자, 제목, 출판년도, 출판사, ISBN 등이다.
  • 음악 앨범이나 개별 곡의 경우 아티스트, 장르, 발표 시간, 곡의 길이, 파일 형식 등이 메타데이터다.

형이상학으로 번역되는 영어 표현은 메타피직스(Metaphysics)다. 여기서 메타(meta)는 about(~관한) 또는 beyond(~를 넘어서)라는 의미를 가지고 있다. 따라서 형이상학은 자연(학)(Physics)에 대한 설명을 시도하는 학문으로 이해할 수 있다. 형이상학은 존재 또는 현실태에 대한 전제조건, 원인, 일반적 구조, 합법칙성 또는 의미와 목적 등을 설명하려고 한다.

은유로 번역되는 영어 표현은 메타포(Metaphor)다. 윌리엄 셰익스피어는 [뜻대로 하세요](As You Like It, 1599년)에서 다음과 같이 인간의 삶을 은유한다.

이 세상은 무대다.
그리고 모든 사람들은 배우다.
그들은 퇴장과 등장을 되풀이한다.

All the world’s a stage.
And all the men and women merely players.
They have their exits and their entrances.

메타데이터는 데이터에서 분석하고자 하는 데이터를 분류하는 작업인 데이터 마이닝에서 중요한 역할을 담당한다.

아래 그림은 2014년 2월 탐사 저널리즘을 대표하는 프로퍼블리카(ProPublica)에서 공개한 구 동독 국가보안부 또는 슈타지(Stasi; Staatssicherheit의 줄인 표현으로 영어로는 state security) 문서다. 특정 인물을 메타데이터로 표현한 훌륭한 예다.

슈타지의 인물 네트워크 분석 예
슈타지의 인물 네트워크 분석 예 (출처: 프로퍼블리카)

메타데이터 수집에 열을 올리는 집단은 지금도 존재한다. 바로 미국의 NSA(National Security Agency)다. NSA가 스마트폰 이용자의 메타데이터를 수집한 사실에 대해 다수 정치인과 언론은 ‘데이터가 아닌 메타데이터로 특정 개인에 대해 알 수 있는 것은 크지 않다’고 말한다. 과연 그럴까? 네덜란드 탐사 저널리즘 드코레스퐁뎅트(De Correspondent)의 디미트리 톡멧지스(Dimitri Tokmetzis)는 스마트폰의 메타데이터가 특정인의 정치 성향, 건강 상태 등을 정확하게 설명할 수 있음을 증명하고 있다.

아래의 예를 살펴보자.

한 인물의 이메일 계정과 연결된 네트워크 지도
한 인물의 이메일 계정과 연결된 네트워크 지도 (출처: 드코레스퐁뎅트)

아래 그림은 “톤(Ton)”이라는 인물의 메일에서 뽑아낸 메타데이터를 이용해 녹색좌파당(“GroenLinks”)과 연결된 이메일 계정을을 표현한 네트워크 지도다.

GroenLinks와 연결된 이메일 계정의 네트워크 지도
GroenLinks와 연결된 이메일 계정의 네트워크 지도 (출처: 드코레스퐁뎅트)

메타데이터의 위력은 2014년 3월에 공개된 미국 스탠포드 대학교 연구결과에서도 확인할 수 있다. 스탠포드 대학교 시큐리티랩 연구진은 2013년 11월 스마트폰의 메타데이터를 수집하는 메타폰(MetaPhone) 앱을 실험대상자의 휴대폰에 설치했다. 연구 결과는 메타데이터 분석을 통해 스마트폰 이용자의 종교, 성적 취향, 정치적 성향, 건강 상태를 진단할 수 있다고 주장하고 있다.

메타데이터 수집과 분석이 그렇다고 부정적 영역에 제한되는 것은 아니다. 잘 짜인 메타데이터 구조는 데이터 표준화, 데이터 상호 호환성 등을 위해 절대적으로 필요하다. 대표적인 표준 메타데이터 구조가 더블린 코어(Dublin Core), RDF이다.

더블린 코어는 도서관 및 웹의 자원/데이터를 표준화하고, 서로를 연결하는 15개의 메타데이터를 담은 메타데이터 목록이다.

더블린 코어 엘리먼트
더블린 코어 엘리먼트

1994년 월드와이드웹 컨퍼런스에서 결정된 더블린 코어는 표제, 제작자, 유형 등 15개의 메타데이터로 구성되어 있다.

  • 표제(Title)
  • 제작자(Creator)
  • 유형(Type)
  • 기타 제작자(Contributor)
  • 발행처(Publisher)
  • 날짜(Date)
  • 언어(Language)
  • 형식(Format)
  • 설명(Description)
  • 주제(Subject)
  • 관계(Relation)
  • 식별자(Identifier)
  • 권한(Rights)
  • 출처(Source)
  • 범위(Coverage)

더블린 코어가 더 진화한 형태로 기계(컴퓨터) 스스로 서로 다른 시스템에서 생산된 메타데이터를 판독하고, 분류하고, 저장할 수 있도록 만든 메타데이터 ‘문법’을 RDF(Resource Description Framework)라 부른다.

6단계 분리 이론(six degrees of separation)

두 번째로 살펴볼 개념은 6단계 분리 이론(six degrees of separation)이다. 1967년 미국 사회학자 스탠리 밀그램(Stanly Milgram)은 현대 사회는 매우 작은 수의 인간관계로 서로 연결된 관계망이라고 주장한다. 이를 증명하기 위해, 밀그램은 특정 편지가 미국 서부에 살고 있는 사람(X)으로부터 시작하여 자신의 지인에게 전달하는 방식으로 미국 동부에 살고있는 최종 수신자(Y)에게 도달하는 길을 추적하였다. 300명을 대상으로 했던 이 실험에서 편지가 X를 출발하여 Y에 도착하는 과정에서 거친 사람의 수는 평균 5.5명이었다.

6단계 분리 이론의 예

밀그램의 실험은 ‘작은 세상 실험'(Small World Experiment)으로도 불린다. 작은 세상 실험은 네트워크 이론과 결합하면서 다양한 모델 실험으로 이어진다. 특히 1999년 이후 얼베르트-라슬로 버러바시(Albert-László Barabási)의 주도 아래 발전된 ‘척도 없는 네트워크'(scale-free network)은, 승자독식 현상(A Winner Takes All) 등 작은 세상(Small World)의 다양한 속성을 분석하는데 뛰어난 설명력을 가지고 있다.

작은 세상 네트워크와 척도 없는 네트워크

음악 메타데이터와 뮤지션의 6단계

6단계 분리 이론을 네트워크 구조에만 적용할 필요는 없다. 음악의 메타데이터를 활용하여 뮤지션 사이의 연결 구조를 살펴보자.

에릭 클랩튼과 저스틴 비버

  • 에릭 클랩튼은 “I wish it would Rain”라는 곡에 필 콜린스(Phill Collins)와 함께 했다.
  • 필 콜린스는 어셔(Usher)가 부른 “You’ll be in my Heart”를 작곡하였다.
  • 어셔는 저스틴 비버의 “First Dance”에 참여했다.
  • 이렇게 에릭 클랩튼과 저스틴 비버는 3단계를 통해 연결되어 있다.

비욘세(Beyoncé)와 2NE1

  • 비욘세는 걸그룹 데스티니스 차일드(Destiny’s Child)의 리드 싱어였다.
  • 데스티니스 차일드에서 백 보컬을 담당한 사람은 켈리 롤런드(Kelly Rowland)다.
  • 켈리 롤런드는 DJ 겸 프로듀서인 데이비드 게타(David Guetta)와 함께 “When Love Takes Over”라는 곡에 참여했다.
  • 데이비드 게타는 윌아이엠(will.i.am)과 함께 “I Wanna Go Crazy”라는 곡에 참여했다.
  • 윌아이엠은 2NE1과 함께 “Gettin’ Dumb”에 참여했다.
  • 비욘세와 2NE1은 다섯 단계를 통해 연결되어 있다.

위의 두 사례는 큰 의미가 있지도 않으며, 그 관계망을 분석하기 위해 대단히 뛰어난 기술력을 필요로 하지 않는다. 다만 음악과 뮤지션에 대한 메타데이터가 충실하게 갖춰져 있을 경우 쉽게 발견할 수 있는 관계망이다. 에코네스트가 제공하는 블랙 사바스(Black Sabbath)를 통해 뮤지션 사이의 작은 세상(Small World)을 직접 확인할 수 있다.

음악 관련 (메타)데이터를 얻을 수 있는 곳으로 다음 두 곳을 추천한다.

메타데이터와 추천 알고리즘

특정 음악 또는 뮤지션에 대한 (메타)데이터가 증가하고 정교할수록, 음악 또는 뮤지션 추천 알고리즘은 함께 진화한다. 아례의 예시를 보자.

► 초기 음악 추천 알고리즘은, 특정 음악 또는 뮤지션의 1차 메타데이터로부터 또 다른 음악 또는 뮤지션을 추천한다. 예를 들면, 비틀즈를 소비한 이용자에게 폴 매카트니 또는 존 레논을 추천하는 방식이다.

유사한 아티스트를 소개하는 방식

► 추천 알고리즘의 진화는 (1) 메타데이터의 병합과 (2) 새로운 데이터 생성을 통해 가능하다.

► 새로운 데이터로 ‘팬 열정 지수(fan passion index)’를 만들 수 있다.

  • 헤비메탈 팬과 R&B 팬 중 어느 그룹이 더욱 열정적인 팬일까?
    • 팬 그룹마다 월 기준 평균 플레이 수와 평균 곡 수를 이용해 ‘팬 열정 지수’를 만들 수 있다.
    • 헤비 메탈 팬의 팬 열정 지수가 R&B 팬의 팬 열정 지수보다 높을 가능성이 크다다.

팬 열정 지수로 만든 표

► 개별 메타데이터에 가중치를 부여하는 일이 추천 알고리즘에 있어 가장 중요하다. 아래 그림은 비틀즈에서 도출할 수 있는 이른바 워드 클라우드(Word Cloud)다.

  • 뮤지션의 인기도(popularity)를 고려한다.
  • 뮤지션과 친밀도(familiarity)가 높은 메타데이터를 도출한다.
  • 뮤지션 사이의 관계(relations)을 고려한다.
  • 뮤지션이 주요 활동 시기(years)를 고려한다.
  • 팬 열정 지수를 고려한다.

비틀즈에서 도출한 워드 클라우드

► 아래 그럼처럼 뮤지션의 이웃 관계망(neighbor graph)을 그린다. 이웃 관계망의 품질 또는 소비자 만족도가 추천 알고리즘의 유효성을 결정한다.

비틀즈의 이웃 관계망 다이어그램

► 비틀즈를 좋아한다면, 보 브러멜스(The Beau Brummels)를 추천한다.

보 브러멜스를 추천

► 비틀즈를 좋아한다면 에밋 로드(Emitt Rhodes)를 추천한다.

에밋 로드를 추천

음악 또는 뮤지션 등 특정 데이터에 대한 메타데이터는 고정된 상태에 머물러서는 안된다. 연관 (메타)데이터를 분석하여 끊임없이 새로운 메타데이터를 생산해야 한다. A/B Test 등 새롭게 생산한 메타데이터의 유효성 점검을 진행하는 일이 추천 알고리즘을 고도화하는 과정이다.

메타데이터의 유효성은, 특정 소비가 또 다른 소비를 연결하는 가능성 수준으로 판단한다. 때문에 메타데이터는 새로운 소비로 이어지는 길과 다리로 이해할 수 있다.

메타데이터와 이에 기반을 둔 추천 알고리즘은 한편으로 소비의 만족도를 높일 수 있지만, 다른 한편으로 이용자를 소비 자본주의의 극한으로 몰고 간다.

관련 글

2 댓글

  1. 맨 마지막 문장에서 ‘소비자본주의의 극한으로 몰고간다’가 무슨뜻인지 여쭤봐도 될까요? 저도 비슷한 분야의 엔지니어인데 ‘소비의 만족도를 높일 수 있다’라는 측면으로밖에는 생각해본 적이 없어서요.

  2. 맥락으로 봤을 때 소비자를 분석해서 다른 컨텐츠로 연결 시켜줌으로서 새로운 소비를 야기한다는 의미인 것 같습니다. 필요 이상의 과소비로 이어질 수 있다는 의미 같습니다.

댓글이 닫혔습니다.