[box type=”note”]
리수령 인터뷰는 리수령 특유의 직설적인 질문과 거침 없는 파격으로 다양한 전문가/관계자와 함께 현상의 이면에 숨겨진 진실을 파헤칩니다. 첫 인터뷰와 두 번째 인터뷰는 ‘트위터와 여론조사’에 대해 데이터 전문가와 관련 서비스 CEO를 인터뷰합니다. (편집자)
[/box]
[box id=”tip” head=”인터뷰어/인터뷰이 소개”]
Q. 리승환 : 8년차 블로거, 4년차 직장인. 자본가와 대주주를 꿈꾸지만, 크고 아름다운 자본주의 속에서 노동자와 개미로 하루하루를 보내는 디지털 한량. 통칭 웹에서는 ‘리승환 수령’으로 불리고 있음. 블로그 현실창조공간을 운영 중. 트위터는 @nudemodel
A. 양서류 : 개인정보를 드러내기 극구 꺼리는 데이터 전문가. 알만한 학교와 기업에서 아무도 이해못할 연구를 수행했다. 양서류는 육지와 물이 인접한 지역에만 살 수 있는 슬픈 짐승이지만, 동시에 어디든 살 수 있는 가장 완전한 존재라고 주장. 블로그 정보시각화 아뜰리에를 운영 중. 트위터는 @cfr0g
[/box]
리 : 그러면 인터뷰를 시작한다.
양 : 데이터 전공이고 통계 전공은 아니라 다 맞다고는 못하겠지만 대답하겠다.
리 : 요즘 트위터 트윗을 여론분석에 써먹는 곳이 많다.
양 : 뉴스가 공짜인 더러운 시대 덕택에, 종종 보고 있다.
리 : 의미가 있다고 보는가?
양 : 어쨌든 모든 데이터는 의미가 있다. 다만 그 분석이 얼마나 유의미한가는 다른 문제다.
리 : 선거 시즌 트위터를 통한 정치 여론 조사를 어떻게 보는가?
양 : poll(투표)과 데이터마이닝, 둘로 나눠봐야 하는데… poll 방식은 당연히 망한다. 하지만 사람들이 어떻게 떠드는지를 분석하는 데이터마이닝 작업은 잘 다루면 의미가 있을만하다고 본다. 이건 통계와는 다른 것인데 방법론이 워낙 다양해서 일괄적으로 이야기하거나, 막 까기는 좀 힘들다. 까려면 하나하나 깔 수는 있겠지만 귀찮…
리 : poll 방식이 망하는 건 어떤 문제인가?
양 : 여론조사는 기본적으로 ‘샘플이 모집단을 얼마나 잘 대표하는가?’라는 문제가 핵심이다. 이를 위해서는 샘플 크기도 중요하고, 샘플 내부 개체에 대한 세부 정보도 중요하다.
리 : 트위터는 이 둘을 충족하지 못한다?
양 : 샘플 사이즈는 사실 그 정도면 꽤 크다. 문제는 모집단에 대한 정보가 별로 없고… 그 모집단 자체가 상당히 편향되어 있는 집단이라는 거다. 이미 트위터 많이 써봤으니 알지 않는가? 그들 자체의 편향성이 매우 강하고 액티브 사용자가 소수라는 점도 문제다. 개개인이 자신에 대해 엄청나게 정보를 쏟아내는 상황도 아니고…
리 : 현행 여론조사와 비교하면 어떤가?
양 : 요즘 여론조사가 점점 현실과 맞지 않는데 이는 조사가 집전화에서 휴대전화로 넘어가면서 그만큼 완벽한 캐치가 힘들어진 게 큰 원인이다. 집전화가 없는 사람이 늘어나고 휴대폰이 보급되며, 집전화라는 집단에 편향이 좀 생겼다. 그런데 웹에서의 편향성은 집전화, 휴대전화보다 훨씬 심하고, 트위터는 웹보다 더 심하다. NHN이나 다음처럼 (그나마 국내에서) 엄청난 데이터를 가지고 있다면 모를까… 단순 트위터로는 솔직히 답이 잘 안 선다.
리 : 그럼 트위터의 데이터마이닝은 어떻게 보는가?
양 : 앞서 밝혔듯 모든 데이터는 나름의 의미가 있고, 트위터도 마찬가지다. 현재 트위터에서의 데이터마이닝은 어찌 보면 장님 코끼리 만지기에 가까운데, 그렇다고 다 같지는 않다. 좀 더 본질에 가깝게 만지는 사람도 있고 대충 만지는 사람도 있다. 문제는 많은 언론보도가 약한 상관관계를 너무 쉽게 인과관계로 보도한다는 점이다. 사실 트위터의 데이터마이닝도 쉽지 않다. 소셜네트워크의 특성을 생각하면 그냥 직관적으로 판단할 문제는 아니다.
리 : 소셜네트워크의 특성이란?
양 : 많지만 대충 세 가지를 들고 싶다. 먼저 활동성이 다르다. 떠드는 건 소수고 침묵하는 건 다수다. 다음으로 그룹화인데 특정 집단끼리 모이는 성향이 강하다. 마지막으로 서로가 영향을 되먹이는 재귀성도 따져봐야 한다. 그저 말하는 사람만 샘플링하면 실제 현실과는 큰 차이를 보일 수밖에.
리 : 뭔가 굉장히 어렵지만 동시에 흥미로운 동네인 것 같다?
양 : 그렇다. 사실 데이터 관련자들도 트위터를 통해 미디어 파워가 어떻게 움직이는지는 흥미롭게 바라보고 있다. 쉽게 답이 서지 않아서 그렇지.
리 : 미디어 파워의 작동이란 건 누가 Big mouth이고 전파자인지 팔로워, RT 등으로 파악할 수 있지 않나?
양 : 이도 손쉽게 볼 문제가 아니다. 트위터 자체의 파워는 인정한다. 다만 그 영향력이 어느 정도인지, 어떻게 작동하는지 알기는 엄청 어렵다. 트위터에서 동작하는 미디어 파워도 단순히 트위터를 통해 구성되는 게 아니다. 유명인 이전에 매스 미디어로부터의 영향도 받기 때문이다. 어디가 정말 영향력을 갖는지는 온갖 요인이 작동하기에 쉽게 이야기할 수 없다.
리 : 결국 트위터 데이터 분석을 통해 유의미한 여론 분석이나 미디어 파워 흐름을 체크하려면 필요한 것은?
양 : 복잡하다. 나도 꽤 그 쪽과 관련되어 있지만 엄청 전문도 아니고 쉽게 답을 내리기 힘들다. 데이터가 엄청 많으면 뭐 좋은 게 나올 수 있을지도 모르겠다. 그래도 편향이 심해서 원활히 작동하는 걸 만드는 게 쉬운 일은 아니겠지만…
리 : 정윤호 사장의 인터뷰에 대해서는 어떻게 생각하는가?
양 : ‘관찰’을 중시하는 관점은 옳고 또 그래야 한다고 본다. 아직까지 트위터를 통한 데이터마이닝은 뭔가를 내세우기에는 초보적 수준이다. 확고한 방법론이 검증되기까지는 시간이 필요하다. 물론 상업적으로 어떻게 활용되는지는 다른 문제이기에 다루지 않겠다.
리 : 그렇다면 현재 트위터 분석을 통해 얻을 수 있는 게 있다면?
양 : 트위터 사용자에 제한된 소극적인 의미 캐치가 아닐지… 트위터에서 떠드는 각종 버즈워드들을 분석하면 현실을 얼마나 반영할지… 지금은 솔직히 너도 모르고 나도 모르니까 막 떠드는 느낌. 나라고 잘 알지는 못하지만 트위터 분석은 이제 막 태동한 단계고, 심지어 현업 전문가들도 정확한 의미를 모른다. 트위터가 여론을 어쩌고, 현실 영향력이 어쩌고 등 너무 앞서나가는 이야기에 홀리지 말았으면 한다.
리 : 마지막으로 한 마디?
양 : 사실 내가 이야기한 것도 디테일한 점에서는 좀 틀린 부분이 있지만 일반인에게 전달하는 내용으로는 큰 문제가 없으니 양해 부탁 드린다.
리 : 좀 자세히 이야기해 줄 수 없는가?
양 : 없다.
리 : 왜 그런가? 당신 밥줄이라 그런가?
양 : 아니… 솔직히 님하 수준으로는 알아먹기 힘들다.
리 : ……
양 : 요즘 내가 아프니까 청춘인데, 조공으로 고기를 바친다면 좀 더 자세히 설명해주도록 하겠다.
리 : 님하는 언론으로부터 전문가 인용될 일이 없을 듯?
양 : 어차피 제대로 된 질문이 들어올 것 같지도 않고… 헛소리하느니 입 닫고 적당히 살지, 뭐.
글 재미있게 보았습니다. 미디어라는 관점에서 볼 때, 설문과 트위터는 다양한 인사이트를 주는 것 같네요.
트위터는 인사이트는 넘치는데 큰 데이터에서 이를 추려내기가 참 곤란하다는 생각이 들더군요(…)