빅데이터: 이론의 종말 아닌 질문의 시작

바야흐로 빅데이터 전성시대가 시작됐다. 박근혜 정부부터 시작해서 대학교 빅데이터 동아리까지, 각종 빅데이터 행사(를 빙자한 컴퓨터 시스템 판매업자의 마케팅)에서부터 다양한 학술단체 학회에 이르기까지 빅데이터는 정부, 산업계, 학계 등 다양한 영역에서 화두로 자리 잡고 있다. 경험과 감각에 의존한 경영, 천 명 샘플링에 기초한 학술논문, 개인의 차별성을 고려하지 않는 커뮤니케이션 등과 대비되는 빅데이터는 새로운 가능성이 논의되고 있다.

롱테일(Long tail) 현상을 소개한 뛰어난 안목의 소유자 크리스 앤더슨(Chris Anderson), 그는 전통 (통계)연구방법론과 빅데이터가 가져오는 연구대상의 확장이 충돌하게 되는 현상을 지난 2008년 “이론의 종말(The End of Theory: The Data Deluge Makes the Scientific Method Obsolete)“을 통해 분석한 바 있다. 앤더슨은 지금까지 이론을 입증하는 것으로만 데이터의 역할이 한정됐다면, 이제는 빅데이터로부터 다양한 이론화가 가능하다고 주장한다. 이렇게 이론(theory) 생산을 위한 전통적 방법을 비판하고 사실(fact)에 집중하는 경향을 최근 한국사회에서도 어렵지 않게 만날 수 있다. 그러나 찾고자 하는 바를 알고 있을 때에만, 끝없는 질문을 이어가며 가설을 검증하는 과정이 존재할 때에만 빅데이터 분석은 유용한 결과를 만들어 낼 수 있다.

신생아와 황새, 기저귀와 맥주: 상관관계와 인과관계의 차이

첫 번째 고백: 통계프로그램 하나 제대로 돌릴 수 없고, 통계방법론으로 학술논문 한 편 써본 경험은 없지만, 독일에서 경제학 석사과정을 공부할 때 나의 부전공은 통계학이었다. 석사논문도 통계방법론에 대한 비판적 분석이었다. 통계학을 배우다 보면 꼭 듣게 되는 이야기가 있다. 바로 ‘신생아와 황새’의 상관관계다. 19세기 유럽 도시에 황새가 증가할 때 새로 태어나는 아기의 숫자도 함께 늘어났다. 일부 사람들은 황새와 신생아 사이의 ‘관계’를 주장했다. 이 주장이 옳건 그르건, 신생아와 황새의 증가 및 감소 사이에서 우리는 상관관계와 인과관계의 차이를 명쾌하게 이해할 수 있다. 두 개의 값 사이에 관계성 및 상관관계가 존재한다고 해도, 하나의 값이 또 다른 값의 원인이 된다고 주장해서는 결코 안 된다. 따뜻한 도시 주택가의 굴뚝에 늘어나는 황새와 도시화로 인한 거주민의 증가에 따른 출생률의 상승 사이에는 원인과 결과라는 인과관계가 성립할 수 없기 때문이다. 기저귀와 맥주의 연관성(출처)

그러나 두 가지 현상 사이의 상관성을 밝혀내는 일은 매우 가치 있는 일이다. 예를 들어 빨간색, 은색, 파란색, 녹색, 회색 자동차가 흰색 자동차보다 자동차 사고율이 높은 경향이 존재한다. 그 이유는 (아직) 알 길이 없다. 하지만 자동차 색상과 자동차 사고율의 관계에 대한 정보는 자동차 구매자와 판매자에게는 높은 가치를 지닌다. 1990년대 미국 월마트 영수증 분석을 통한 기저귀와 맥주 판매의 연관성 발견은 ‘기저귀와 맥주 묶음상품’으로 탄생했다. 기업에는 매출 증가라는 유익으로, 소비자에게는 상대적으로 저렴한 상품구매라는 유익으로 이어진 것이다. 이렇게 상관관계는 데이터 연구에서 매우 가치 있는 보물이다.

가치가 매우 높은 수많은 상관관계를 숨기고 있는 데이터 덩어리가 빅데이터다. 그러나 이러한 보물이 존재한다는 것을 예감할 수 있지만, 아직 그 보물이 어디에 존재하는지 알지 못하는 것 또는 그 보물을 찾을 수 있는 도구를 갖고 있지 못한 것이 빅데이터 연구의 현재 한계이기도 하다. 데이터 덩어리가 지나치게 크고 터무니없이 복잡하다.

빅데이터: 지나치게 많아서 관계를 이해하기 힘들다

빅데이터는 두 가지 특징을 가지고 있다. 첫 번째 특징은 데이터의 ‘양’이 과하게 많다는 점이고, 두 번째 수집 가능한 데이터 대부분이 정리되어 있지 않은 비정형 상태라는 점이다. 이 두 가지 특징이 보물을 찾을 수 있는 도구가 없는 이유이기도 하다. 전통적인 데이터베이스 질의문(SQL)이 제 기능을 하지 못하고, 전통적인 서버 시스템은 연산처리 속도에서 한계를 보이고 있다. 이러한 한계를 극복하는 과정에서 하둡(Hadoop), 맵리듀스(MapReduce) 등 대용량 데이터 분산처리 기술 및 시스템이 발전하고 있다.

수집 가능한 데이터의 원천은 크게 두 가지로 구별될 수 있다. 첫 번째는 인터넷 이용자가 생산하는 데이터다. 블로그, 위키피디아, 유튜브, 트위터, 페이스북, 텀블러, 스포티파이 등 소셜 미디어 서비스와 G마켓, 아마존 등 소비자 구매정보가 생산되는 온라인 쇼핑 서비스 등이 여기서 큰 역할을 맡고 있다.

두 번째 데이터 원천은 인터넷과 연결된 기계로서, 데이터 규모 면에서 첫 번째 그것과 비교할 수 없을 정도로 크다. (무인) 비행기 센서에서 생산되는 정보, 스마트폰의 위치정보, 인터넷에 연결된 CCTV, 날씨측정 정보 그리고 무인 자동차, 구글 글래스 등이 두 번째 예이다. 사물의 인터넷이 빠르게 현실화될수록 이와 관련된 데이터의 양과 영역은 무한하게 확대될 것이다. 이에 조응하는 자료수집 시스템은 더욱 빨라질 것이고 자료수집 대상도 인간 삶의 대부분을 포괄할 것이다.

첫 번째 데이터 원천은 전통적인 데이터 마이닝(data-mining)과 비교하여 규모가 매우 증가했을 뿐이지 데이터 수집, 처리 및 분석에 있어 새로운 도전은 아니다. 이 영역의 데이터 수집과 분석을 적지 않게 ‘빅데이터’로 칭하고 있는데, 이는 빅데이터를 잘못 이해하는 데서 비롯된다. 수집 및 분석, 상품화, 그리고 학술적 연구 측면에서 도전과 위협(!)이 존재하는 영역은 오히려 두 번째 데이터 원천이다.

글로벌 데이터 네트워크의 정점: 육체와 인터넷의 연결, 구글 글래스

인터넷은 전 세계 인간과 사물을 연결하는 방향으로 발전하고 있다. 그 과정에서 무한에 가까운 데이터를 생산하고, 이를 수집하며, 관계화한다. (데이터) 네트워크는 크게 네 단계로 진행되고 있다.

첫 번째 단계는 존재하는 컴퓨터가 인터넷에 연결되는 과정이다. 이 단계는 현재 사실상 완료된 상태다. 인터넷에 연결되지 않은 컴퓨터를 더 이상 정상적인 컴퓨터로 간주하지 않는 최근의 인식이 그 결과라고 볼 수 있다.

두 번째 단계는 인터넷에 연결되는 모바일 기기 및 태블릿의 확산이다. 이 과정은 현재 완료형은 아니지만, 전 세계의 대다수 사회에서 빠른 속도로 진행되고 있으며 일상의 많은 영역을 변화시키고 있다.

세 번째 단계는 이른바 ‘사물의 인터넷’으로 지칭되는 인터넷과 연결된 기계의 확산이다. 사진기, 자동차, 냉장고, 각종 감지기 등이 인터넷으로 연결되고 있으며, 우리를 둘러싼 모든 기계가 인터넷과 연결되는 시대가 성큼성큼 다가오고 있다. 사물의 인터넷과 함께 비로소 빅데이터는 수많은 상관관계 연구를 가능케 할 것이다.

마지막 네 번째 단계는 육체와 인터넷이 연결되는 과정이다. 2013년 말에 상용화가 예정된 구글 글래스가 그 첫 번째 시도가 될 것으로 보인다. 인간의 귀와 눈 등 감각기관이 네트워크로 연결되는 것이다. 그러나 인간 감각기관의 인터넷 확장은, 그 환상적인 가능성에도 불구하고, 타인이 인지하지 못하는 상황에서 동영상 촬영(Always-on-Camera), 사기업 구글 서버에 전 세계 영상 및 소리 데이터가 수집되는 문제 등 다양한 윤리문제, 법률문제, 사회문제를 안고 있다.

질문이 없으면 답변도 없다

빅데이터는 기계에 의해 데이터가 생산 및 수집되는 세 번째 네트워크 단계와 관련이 깊다. 첫 번째 단계와 두 번째 단계의 경우, 1990년대 시작된 데이터 마이닝과 빅데이터 사이에서 차별점을 찾을 수 없기 때문이다. 빅데이터에 대한 정의보다 중요하고 해결되지 않는 질문은 이렇다: 가치 있는 데이터 사이의 상관관계를 어떻게 찾을 수 있을 것인가. 이 또한 기계가 자동으로 수행할 수 있는 영역일까? 보석에 접근하기 위한 도구는 무엇일까? 하둡과 맵리듀스가 그 도구일까?

한국에도 소셜 데이터를 분석하는 다양한 기업 및 서비스가 존재한다. 또한 매장, 온라인 쇼핑몰, 스마트TV 등 소비자 행위를 분석하는 시스템을 구축하고 관련 분석 서비스를 운영하는 기업들도 속속 등장하고 있다. 이러한 데이터 분석에서 중요시되는 것은 패턴(pattern)이다. A란 재화를 구매한 소비자가 B라는 재화를 구매할 가능성 등이 조사된다. 특히 지금까지 알려지지 않은 패턴을 발견하고자 엄청난 노력이 집중된다.

예를 들어 페이스북 ‘좋아요(like)’와 정치정당 선호도의 상관관계 분석이 진행되기도 하고, 음악 파일공유가 디지털 판매에 도움이 되는 패턴과 그렇지 않은 패턴이 서로 충돌하며 조사되기도 한다. 또는 지금까지 알려지지 않은 패턴, 다시 말해 대답은 고사하고 질문조차 하지 않았던 그 무언가를 찾기 위해 수많은 노력이 집중된다. 신생아와 황새의 상관관계가 여기에 해당할 것이다. 그렇다면 이러한 패턴, 질문이 비로소 가능해지는 패턴은 어떻게 찾을 수 있을까? 수리적 알고리즘으로? 아니면 뛰어난 프로그래밍 능력으로?

빅데이터는 이론의 종말이 아니라 질문의 시작이다

크리스 앤더슨은 빅데이터가 이론의 종말로 이어지고 있다고 주장한다. 무한한 사실이 데이터로 존재한다. 그래서 중요한 과제는 이 데이터를 효과적으로 수집하는 일이다. 이론이 왜 필요하단 말인가? 데이터를 관계화하는 멋진 알고리즘과 빠른 연산능력을 자랑하는 훌륭한 컴퓨팅 파워가 필요할 뿐이다. 직관, 모델 그리고 이론 등 분석을 통해 인식에 이르게 하는 전통적인 방법론은 이제 쓸모 없는 것이 되었다.

과연 그런가?
아니다!

작은 답변을 얻기 위해서도 질문을 던지고 질문을 검증하는 과정이 필요하다. 의미 있는 질문을 던지는 것을 우리는 ‘가설’이라고 칭한다. 그리고 현실에 던지는 질문인 가설은 이론으로부터 도출된다.

데이터를 수집한 결과값을 늘어놓는 방식인 서술식(descriptive) 분석 또는 네트워크 분석은 물론 그 자체로도 가치 있는 행위이다. 그러나 그 한계 또한 명확하다. 개인적으로 참여하고 있는 음악 데이터 분석 서비스 ‘더 보다‘가 계속해서 한계에 부닥치는 이유도 가설 없는 서술식 분석에 머물고 있기 때문이다. 찾고자 하는 것이 무엇인지 정확하게 모르는 것은 찾고자 하는 바를 질문으로 표현하지 못하기 때문이다. 서술식 분석 또는 네트워크 분석을 통해 얻을 수 있는 것은 ‘우연하게(!)’ 상관관계를 발견하는 것뿐이다. 추가적인 분석과 상업적인 활용으로 이어질 수 있는 상관관계 그리고 나아가 인과관계를 찾아내기 위해서는 다양한 질문을 제기하는 것이 무엇보다 중요하다.

스스로 말하는 데이터는 존재하지 않는다. 데이터는 언제나 해석을 기다리고 있다. 무엇을 찾고자 하는지를 알지 못할 때 알고리즘을 만들 수는 없는 노릇이다. 무엇이 의미 있는 질문인지 아닌지를 판단하는 기준은 이론에서 나온다. 이론이 질문을 만들고 질문의 의미를 찾게 도와주며 이론이 원인을 발견하게 한다. 그래서 빅데이터는 이론의 종말이 아니다. 데이터와 이론, 이론과 데이터는 선후의 문제가 아니다. 오히려 빅데이터는 모든 고민과 근심, 그 도전어린 질문의 시작인 것이다.