넷플릭스와 허핑턴포스트가 훔쳐가는 것들

넷플릭스는 온라인 비디오 대여 서비스로 시작해서 동영상 스트리밍 서비스 업체로 변신한 기업으로 콘텐츠 산업 전반에 충격을 안겨줬다. 넷플릭스가 만든 드라마 [하우스 오브 카드]는 엄청난 흥행 돌풍을 일으키면서 공식적으로 미국과 40여 개 다른 나라에서 가장 많이 스트리밍한 콘텐츠로 기록됐다. 소름 끼치는 사실은 이러한 흥행을 넷플릭스는 예측했다는 것이다.

넷플릭스는 2,900만 개의 동영상을 보유하고 세계적으로 3,300만 명의 회원을 확보하고 있다. 넷플릭스는 고객들의 콘텐츠 소비 패턴을 분석해 영화 ‘소셜 네트워크’의 감독 데이빗 핀처가 광범위한 마니아층을 형성하고 있다는 사실을 파악했다. 영국 BBC에서 만든 [하우스 오브 카드]가 이미 엄청난 흥행을 기록한 데다 그동안 케빈 스페이시가 주인공으로 나온 영화가 거의 실패하지 않았다는 사실도 비중 있게 고려했다.

넷플릭스는 이 세 가지 요소를 벤 다이어그램으로 그려 겹치는 부분을 찾아냈다. 이를 분석한 결과 이 시리즈 판권을 사들여 직접 제작하는 게 해볼 만한 투자라는 결론을 끌어냈다. 시장이 있고 팔 물건이 뭔지 안다면 그걸 만들지 않을 이유가 없다고 봤기 때문이다. 빅데이터의 힘이지만 애초에 광범위한 잠재적 시청자들에 대한 정확한 분석이 가능했기 때문에 이런 방정식이 먹혀들었다고 볼 수 있다. 넷플릭스는 과감하게 1억 달러를 투자했다.

실패할 수가 없는 완벽한 콘텐츠 기획

넷플릭스는 날마다 3,000만 건 이상의 콘텐츠 이용 정보를 수집한다. 여기에는 이용자들이 스트리밍 콘텐츠를 재생하고, 뒤로 돌려보고, 일시 정지하는 등의 모든 동작이 포함된다. 각각의 동작에 모두 의미 부여를 할 수 있다. 넷플릭스의 모든 TV 쇼와 드라마, 영화 등의 콘텐츠에는 수백 개의 태그가 달려 있다. 콘텐츠 카테고리와 줄거리, 배우와 감독, 이용자 정보와 이용 행태를 교차 결합하면 무궁무진한 정보를 뽑아낼 수 있다.

그래서 “넷플릭스에는 3,300만 개의 다른 버전이 존재한다”고도 한다. “넷플릭스가 나보다 내 영화 취향을 더 잘 안다”는 말이 나올 정도다. 과거에는 이런 메타 데이터를 활용해 개별적으로 맞춤형 추천 리스트를 제안하거나 롱테일 콘텐츠 소비를 유도했다면 최근에는 블록버스터가 될 만한 자체 제작 오리지널 콘텐츠를 만드는 단계까지 진화했다. 이용자들이 무엇을 원하는지 충분히 알고 있어서 가능한 전략이다.

넷플릭스는 빅데이터 분석으로 광고 비용도 혁신적으로 절감하고 있다. 누가 [하우스 오브 카드] 같은 드라마를 좋아하는지 예측할 수 있고 그들에게만 광고를 뿌리면 되기 때문이다. 실제로 광고를 접한 잠재적 시청자 중 [하우스 오브 카드]의 높은 평점과 우호적인 리뷰를 보고 이 드라마를 선택하는 확률이 굉장히 높게 나타났다. 플랫폼 사업자가 직접 콘텐츠 사업까지 하고 있어서 가능한 전략이다.

게다가 [하우스 오브 카드]의 예고편은 하나가 아니었다. 케빈 스페이시의 팬에게는 케빈 스페이시가 나오는 예고편을 보여주고 영화 ‘델마와 루이스’ 같은 스타일을 좋아하는 여성들에게는 여성 캐릭터들이 나오는 예고편을 보여준다. 좀 심각한 분위기의 영화를 좋아하는 이용자들에게는 데이비드 핀처 스타일을 잘 드러내는 예고편을 보여준다. 이를테면 이런 느낌이다.

“이래도 이 드라마를 안 볼 수 있겠어?”

그러나 살롱닷컴은 넷플릭스의 마케팅 전략에 냉소적인 평가를 하고 있다. 넷플릭스가 너무 많은 정보를 수집한다고 보기 때문이다. 넷플릭스는 당신이 무엇을 검색하는지, 어떤 영화에 별점을 몇 점을 주는지 등의 정보를 닐슨 같은 써드파티 업체에 넘긴다. 이용자가 어느 지역에서 살고 어느 시간대에 어떤 디바이스로 접속해서 무슨 영화를 봤는지 등의 정보를 결합하면 이용자에 대해 굉장히 많은 걸 알아낼 수 있다.

물론 넷플릭스는 이용자가 왜 멈춤 버튼을 눌렀는지는 모를 수도 있다. 그냥 잠깐 화장실을 다녀왔을 수도 있고 전화가 걸려왔을 수도 있다. 그러나 많은 사람이 특정 구간에서 멈춤 버튼을 누르거나 빨리 감기나 뒤로 감기 버튼을 누른다면 여기에서 의미를 짚어낼 수 있다. 빨리 감기는 지루하다는 의미일 거고 키스 신이나 섹스 신이라면 뒤로 감아서 다시 보는 사람이 많을 가능성이 크다.

넷플릭스가 나보다 나를 더 잘 안다고?

넷플릭스는 당신이 스릴러물을 일요일 오후보다 토요일 저녁에 보는 걸 더 좋아한다는 걸 모를 수도 있다. 그러나 당신이 휴대전화나 노트북 컴퓨터보다 태블릿으로 보는 걸 더 좋아한다는 건 알고 있다. 특정 지역에 사는 사람들의 영화 취향도 쉽게 알아낼 수 있다. 심지어 넷플릭스는 영화가 끝나고 자막이 올라갈 때 얼마나 많은 사람이 프로그램을 중단시키는지에 대한 데이터도 갖고 있다.

실제로 넷플릭스에 따르면 75%의 이용자들이 넷플릭스가 추천하는 영화를 본다. 이런 맞춤형 마케팅은 마케팅 비용을 크게 줄여준다. 넷플릭스의 부사장 스티브 스웨이지(Steve Swasey)는 기가옴과의 인터뷰에서 이렇게 말하기도 했다.

“우리는 뭔가를 억지로 보게 할 필요가 없다. 이미 알고리즘 분석으로 누가 이 드라마를 좋아할지 알기 때문에 ‘이런 거 보고 싶으시죠?’라고 말해주기만 하면 된다.”

데이터 분석 전문가 모하마드 사바(Mohammad Sabah)에 따르면 넷플릭스는 이용자들이 반응을 보이는 스크린 샷을 캡처해서 분석하고 다른 이용자들의 이용 행태와 비교하면서 이용자들이 어떤 장면을 좋아하는지에 대한 정보를 축적한다. 전통적인 방송 사업자들과 달리 넷플릭스의 이용자들은 구체적으로 특정할 수(addressable)하다. 넷플릭스는 이들이 무엇을 좋아하고 싫어하는지 이미 알고 있다.

넷플릭스는 나보다 내 영화 취향을 더 잘 안다. 여기에 필요한 정보는 모두 내가 제공한 것들이다.

물론 데이터 중심 콘텐츠 전략이 늘 성공하는 건 아니다. 케빈 스페이시도 흥행에 실패한 적이 있고 데이빗 핀처도 늘 완벽한 작품을 만드는 건 아니다. 콘텐츠 유통을 넘어 HBO처럼 직접 드라마 왕국을 구축하려는 넷플릭스의 야망은 빅데이터 분석만으로는 불가능하다. 결국은 기획력과 작품성이 뒷받침돼야 한다. 우려스러운 대목은 빅데이터 분석이 제작자들을 엉뚱한 방향으로 이끌 가능성이다.

빅데이터 분석에 따르면 넷플릭스의 많은 이용자는 끔찍한 고문 장면을 건너뛰기를 바라지만 자위행위 장면은 열심히 본다. 실제로 이런 요구를 모든 드라마나 영화에 반영할 수 있을까. 이런 고민은 마치 뉴스 사이트들이 페이지뷰를 높이려고 낚시질을 하는 것과 같은 맥락에 있다. 우리가 얼마나 많이 채널을 돌리는지 계산하는 알고리즘에 따라 만든 뉴스가 과연 우리가 원하는 뉴스인가.

빅데이터 분석의 가치에 동의하지 않는 사람들도 많다. FX 네트워크의 회장인 존 랜드라프(John Langdraf)는 드라마 [소프라노스](The Sopranos)나 [사우스 파크](South Park) 같은 작품들의 성공은 빅데이터를 통한 예상 수치를 훨씬 뛰어넘었다고 이야기하며 “데이터는 단지 사람들이 이전에 무엇을 좋아했는지 보여줄 뿐”이라고 말한다. [하우스 오브 카드] 역시 잘 기획된 작품이지만 빅데이터의 성과를 지나치게 과장할 필요는 없다는 이야기다.

이게 정말 우리가 원하는 거라고?

빅데이터에 대한 지나친 선호가 프로그램의 질과 다양성을 낮춘다는 우려도 있다. 앤드류 레너드(Andrew Leonard)는 다음과 같이 경고했다.

“빅데이터가 작가와 프로듀서들의 장인정신과 자율성을 침해할 수 있다”

물론 넷플릭스는 그러한 종류의 결정은 빅데이터가 아니라 제작자의 손에 달려 있다고 반박하지만, 넷플릭스가 철저하게 잘 팔리거나 잘 팔릴 듯한 드라마에 올인하고 있는 것은 분명해 보인다.

넷플릭스는 오늘 우리에게 어떤 드라마를 추천할 것인가를 결정하기 위해 우리가 어제까지 봤던 드라마를 분석해 왔다. 이제 이 시스템을 이용해 우리가 어떤 드라마를 보고 싶어하는가 계산하고 그런 드라마를 만들어 내고 있다. 넷플릭스뿐만 아니다. 버락 오바마 대통령은 선거 캠페인에 빅데이터 기법을 활용했고 온라인 광고 대행사들도 광범위하게 개인정보를 수집해 데이터 분석을 하고 있다.

IBM 리서치의 부사장 마이클 캐러식(Michael Karasick)에 따르면 인류가 지금까지 만든 데이터의 양은 1,000EB(엑사바이트)에 이른다. 캐러식에 따르면 앞으로 2년 동안 데이터의 양은 9천 EB에서 1만 EB까지 늘어날 전망이다.

[box type=”note”]
1EB = 1,000⁶바이트 = 10억 GB
[/box]

빅데이터를 활용하는 기업들이 우리가 우리를 알고 있는 것보다 우리를 더 잘 알게 될 것이고 우리가 가고 싶은 곳보다는 그들이 우리를 가게 하고 싶은 곳으로 끌고 가는 그런 시대로 가고 있다.

이런 변화가 넷플릭스 같은 기업들에는 엄청난 기회가 되겠지만, 과연 넷플릭스의 이용자들에게도 그럴까. 미국의 경우 이미 2012년부터 DVD나 블루레이보다 인터넷 스트리밍으로 더 많은 드라마와 영화를 본다. 그 지각변동의 선두에 넷플릭스가 있다. 넷플릭스의 빅데이터 분석은 갈수록 진화하고 있다. 이러다가 언젠가 우리는 그들이 이끄는 대로 따라가고 감동하고 결제 버튼을 누르는 생각 없는 꼭두각시가 되는 건 아닐까.

독자의 뒤를 캐는 뉴스 사이트들

당신이 어떤 사이트를 방문할 때 웹 브라우저는 웹 서버에 신호를 보낸다. 웹 서버는 이용자의 디바이스에 데이터를 보내고 이는 화면에 표출된다. 단 몇 초 만에 벌어지는 일이다. 그러나 이 스크린 이면에서 굉장히 많은 스크립트가 작동되고 있고 이용자 정보가 수집되고 보고된다는 사실을 흔히 간과하곤 한다. 쇼핑몰에서 눈여겨본 제품이 가는 곳마다 배너광고에 뜨는 걸 보고 깜짝 놀란 경험이 누구에게나 있을 것이다.

허핑턴포스트와 버즈피드 등은 다양한 독자 분석 기법을 활용해 맞춤형 콘텐츠를 제공하고 독자들의 관여도를 높이는 전략으로 올드 미디어들의 틈새시장을 공략해 왔다.

웹 트래킹(tracking) 기법은 온라인 광고에서는 보편화한 기술이지만 언론사들이 독자 분석에 활용하기 시작한 건 얼마 되지 않았다. 이용자의 성별과 나이는 물론이고 이용자가 어디에서 접속했고 관심이 무엇이며 어떤 경로로 들어와 어떤 기사를 읽고 몇 분 만에 나가는지 등의 정보는 언론사와 편집자들에게 엄청난 가치를 갖는 데이터베이스가 된다. 많은 사람이 이런 인비저블(invisible) 웹에서 어떤 일이 벌어지고 있는지 궁금해하고 두려워한다.

흔히 웹 트래킹은 쿠키(cookie)와 IP 주소 기반으로 이뤄진다. 쿠키는 방문기록을 저장하는 파일을 말한다. 쿠키 값이 웹 브라우저에 저장돼 있으면 다음에 방문할 때 당신이 처음 방문한 게 아니라는 걸 알 수 있다. 쿠키 값을 아이디나 IP주소와 연계하고 로그 기록을 결합해 분석하면 당신이 누구인지에 대한 어마어마한 정보를 얻을 수 있다. 만약 여러 웹 사이트에서 쿠키 값을 공유한다면 손바닥 들여다보듯이 당신의 취향을 파악할 수도 있다.

더욱 놀라운 건 여러 언론사 사이트에 광고를 서비스하는 광고 대행사가 각각의 사이트에서 취합한 쿠키를 연계해 데이터베이스를 구축하고 맞춤형 광고를 내보낸다는 사실이다. 쇼핑몰 장바구니에 넣어둔 제품 사진이 가는 곳마다 뜨는 것도 이런 메커니즘 때문이다. 페이스북 ‘좋아요’ 버튼을 삽입하는(embeded) 경우나 소셜 로그인 기능을 적용한 사이트에서도 개인정보가 빠져나가 하나의 계정 정보 아래 집적된다.

에비던(Evidon)의 데이터 애널리스트 앤디 칼(Andy Kahl)은 4년 전 고스터리(Ghostery)라는 소프트웨어를 구매했다. 트래킹 스크립트를 식별하는 브라우저 플러그인인데 세계적으로 2,200만 명이 이 플러그인을 이용하고 있고 이 가운데 1,000만 명이 에비던이 트래킹 스크립트를 추적하는 걸 돕기 위해 에비던에 데이터 공유를 허용하고 있다. 에비던은 고스터리에서 수집한 데이터를 프로그래밍 언어로 옮겨서 트래커 지도를 만든다.

독자 분석과 프라이버시의 양면성

고스터리는 어떤 정보가 빠져나가고 있는지 확인하고 필요한 경우 차단하는 기능을 제공한다. 트래커를 트래킹하는 프로그램인 셈이다. 미국 정부의 사생활 감시를 폭로했던 에드워드 스노든(Edward Snowden)이 모든 이에게 추천했던 프로그램이기도 하다. 앤디 칼에 따르면 고스터리 스크립트를 설치한 사람들이 수집한 트래커가 2012년 1분기 645개에서 그 해 4분기 말에는 987개로 53%나 늘었다.

https://www.youtube.com/watch?v=3XI1VGfGxnI

고스터리가 추적한 스크립트 리스트의 1위는 구글 애널리틱스, 2위는 유저보이스닷컴이었다. 아래 도표는 허핑턴포스트의 트래픽에서 추출한 트래커 지도인데 오렌지색 점이 분석 소프트웨어, 빨간색 점은 트래커를 의미한다. 허핑턴포스트는 27개의 트래커 가운데 13개만 자체 서브 도메인에서 관리하고 나머지는 외부 업체에 맡기는데 데이터 유출 위험이 없다고 보기는 어렵다. (미국 허핑턴포스트의 경우다. 한국은 잘 모르겠다.)

허핑턴포스트의 트래픽 트래킹 지도. https://wiki.digitalmethods.net/Dmi/DmiWinterSchool2012TrackingTheTrackers — 허핑턴포스트의 트래픽 트래킹 지도. (출처: Dmi wiki – Track the Trackers)

허핑턴포스트는 구글 애널리틱스를 비롯해 컴스코어의 스코어카드 리서치 비콘, 닐슨의 넷레이팅 사이트센서스, 옴니처 등의 트래커 스크립트를 쓰고 있다. 허핑턴포스트가 가장 많이 사용하는 트래커는 애드버타이징닷컴이다. 애드버타이징닷컴은 허핑턴포스트처럼 AOL 소유다. 애드버타이징닷컴은 광고 구매자와 AOL 소유 사이트의 광고 인벤토리를 매칭시켜주고 애드 서버와 데이터를 교환하는 역할을 한다.

허핑턴포스트뿐만 아니라 다른 뉴스 사이트들은 얼마나 많은 트래킹 프로그램이 가동되고 있는지조차 분석된 바 없다. 엄청난 개인정보가 빠져나가지만, 이 트래킹 프로그램의 보안 정책 역시 확인할 바가 없다. 앤디 칼은 다음과 같이 지적했다.

“비즈니스적 목적으로 트래커를 운영하는 것 자체를 문제 삼을 수는 없지만, 저가형 광고 인벤토리가 많은 언론사는 최대한 많은 애드 서버와 계약을 하는데 이 업체들은 고객 데이터 관리에 무지한 경우가 대부분이다.”

앤디 칼에 따르면 데이터 수집 산업이 급속도로 팽창하면서 분석 기술이 따라잡지 못할 정도다. 이용자들의 행태를 추적하는(user-intelligence) 데이터베이스는 좀 더 큰 규모로 좀 더 빠르고 안정적으로 성장하고 있다. 맞춤형 광고와 독자 추적, 사이트 분석 툴 등을 묶어서 광고 기술 산업을 상업화하는 업체들이 늘어나고 있지만 아직 완벽하다고 보기는 어렵다. 이 시장은 급속도로 성장하는 중이다.

앤디 칼은 고객 데이터를 분석하는 작업을 할 때 익명성을 유지하는 게 핵심이라고 거듭 강조한다. 관리자가 의도적으로 식별 가능한 개인정보를 수집하지 않더라도 데이터베이스가 충분히 쌓이면 이용자 개개인을 특정할 수 있는 정보를 수집하게 될 가능성이 있다는 이야기다. 개별 사이트 차원을 넘어 웹 전체의 데이터를 모으는 빅데이터가 나타날 가능성도 배제할 수 없다.

앤디 칼은 고객 개인정보 보호의 기본은 투명성 확보라고 조언한다. 적어도 이용자들에게 무슨 일이 벌어지고 있는지는 알려줘야 한다는 이야기다. 충분히 알려주고 이용자가 선택할 수 있도록 기회를 준다면 최소한의 책임을 다했다고 할 수 있다. 그러나 얼굴 없는 빅 브라더들에게 이런 책임을 일깨우는 게 가능할까. 광활한 인터넷의 바다에서 개인정보를 어느 수준까지 차단하고 보호할 수 있을까.

트위터나 페이스북으로 로그인하는 소셜 플러그인이 확산되고 소셜 그래프가 확장되면서 개인정보가 소셜 네트워크 서비스에 집적되는 속도도 빨라졌다. 영국의 더위크(theWeek)는 커밍아웃을 하기도 전에 페이스북 타임라인에서 커밍아웃을 도와주겠다는 스폰서 링크를 발견한 한 게이 독자의 사연을 소개한 바 있다. 페이스북은 이 청년이 여기저기 남겨놓은 댓글을 종합해 이 청년의 취향을 알아냈을 가능성이 크다.

이를테면 상원의원 아무개가 동성 결혼을 지지한다고 발표했다는 버즈피드 기사에 댓글을 달았을 때 페이스북은 이 사람이 동성애에 관심이 있다고 분류한다. 만약 비슷한 내용의 데이터가 축적되면 이 사람은 동성애 관련 광고의 대상이 될 수 있다. 페이스북 외부에서 벌어진 사건인데도 페이스북이 손바닥 보듯 들여다보고 있다는 이야기다. 넷플릭스와 또 다른 방식으로 페이스북이 나보다 내 취향을 더 잘 알게 될 수도 있다는 것이다.

10대 소녀가 부모 몰래 임신을 했는데 대형 할인마트가 기저귀와 요람 등을 할인 가격에 살 수 있는 쿠폰을 우편으로 보내서 들통 난 황당무계한 사건도 있었다. 빅데이터는 테러 위험을 미리 경고하기도 하고 마약 범죄를 추적하는 데 활용되기도 한다. 무서운 것은 페이스북이나 구글 또는 어떤 알려지지 않은 기업들이 당신의 모든 것을 알아낼 수 있다는 사실이다. 당신이 숨기고 싶어하는 어떤 것들까지도.

트래커를 차단하려면 파이어폭스나 크롬 확장 기능으로 라이트빔(LightBeam)이나 고스터리를 이용할 수 있다. 쿠키 수집을 거부하려면 애드블록(AdBlock) 같은 플러그인도 있다. 어떤 경우에도 액티브엑스 설치는 최소화하는 게 좋다. 이왕이면 아예 마이크로소프트 인터넷익스플로러(IE) 대신에 파이어폭스나 크롬을 쓰고 주기적으로 브라우저 설정을 초기화하는 것도 방법이다.

[box type=”note”]이 글은 2014년 12월 출간된 언론재단 해외 미디어 동향 보고서를 추가 보완하고 수정한 글입니다. 그리고 아래는 광고입니다. (필자)[/box]