[box] ‘종북’과 ‘북한’이란 단어를 유독 사랑하는 트위터들이 있었다. ‘종북’과 ‘북한’, ‘좌파’와 ‘대한민국’을 키워드로 무수히 많은 재잘거림을 만들어내던 그 트위터들. 뉴스타파는 그 트위터의 정체에 의혹을 제기했다. 국정원의 정치 개입과 관련이 있다는 의심이었다. 그리고 “취재과정에서 확보한 국정원 확인 트위터 계정 및 의심 계정 6백여 개와 이들이 게시한 트윗 23만여 건을 전격 공개”하기에 이른다(2013년 6월 26일).
이에 통계를 업으로 하는 한 블로거는 뉴스타파가 제공한 자료를 분석하고, 워드 클라우드로 만들기로 결심한다. 슬로우뉴스는 국정원 의심 트위터 계정의 메시지에 관한 워드 클라우드 작업을 한 양우성(@wyang72)과 서면 인터뷰를 진행했다. 그리고 작업의 이모저모와 앞으로의 작업 계획에 관해 물었다.
*워드 클라우드(word cloud): 데이터 시각화 기법의 하나. 특정 단어 빈도가 높을수록 그 단어의 크기가 크게 표시되는 방법. [/box]
– 독자를 위해 간단한 자기 소개를 부탁드립니다.
양우성(이하 ‘양’): 안녕하세요. 저는 양우성이라고 하고, 현재 일본에서 임상 데이터 및 유전체(遺傳體 혹은 게놈) 연구 데이터 통계분석을 주 업무로 하는 직장에서 일하고 있습니다.
– 본격적으로 작업에 관해 여쭙겠습니다. 작업을 시작한 구체적인 계기가 궁금한데요.
양: 평소 통계 분석에 많이 쓰이는 R이라는 언어를 이용해 공개된 데이터를 가지고 간단한 통계분석이나 시각화 방법에 관한 글을 블로그에 정리하곤 했습니다. 안 그래도 최근 SNS 데이터 분석에 관심이 있었는데 마침 뉴스타파에서 국정원 의심 계정의 트윗 데이터를 공개했다는 소식을 트위터에서 보고 좋은 연습거리가 되겠다 싶어 이 데이터를 이용한 분석을 시도해 보았습니다. 그러니까 처음부터 정치적 목적을 가지고 시작한 것은 아닙니다만, 결과가 너무 뚜렷하게 나와서 트위터에 올렸는데 제가 생각하지도 못할 만큼 반응이 있었던 거죠. 그런 결과는 분석 방법의 교과서에나 나올 법한 결과가 아닐까 생각합니다.
– 작업 시간은 얼마나 걸렸는지요.
양: 트위터에 올린 워드 클라우드는 국정원 의심 계정이 직접 작성한 대선 및 정치 관련 트윗 3,744개만을 대상으로 했기 때문에 처음 데이터를 내려받아서 그래프 작성까지 약 30분 정도 걸린 것으로 기억합니다. 나중에 뉴스타파에서 공개한 237,494개의 전체 데이터도 같은 방법으로 분석해 보았는데 두 시간 정도 걸리더군요.
– 저와 같은 문외한을 위해 작업 설계 과정의 개요를 설명해주시면 고맙겠습니다.
양: 일단 국정원이 조직적으로 여론조작을 위해 트위터에 글을 남겼다면 일정 키워드를 정해 놓고 그에 관한 글을 중점적으로 남겼으리라 가정해 보았습니다. 그래서 트윗 메시지를 각 형태소로 분리하고 그중에서 가장 높은 빈도로 사용된 단어가 무엇인가를 찾아보고 싶었죠. 그 결과를 테이블이나 히스토그램으로 정리할 수도 있지만, 숫자와 문자를 동시에 봐야 하기 때문에 대안으로 직관적으로 한눈에 키워드를 알아볼 수 있는 방법으로 워드 클라우드를 선택했습니다. 워드 클라우드는 데이터 시각화 기법의 하나로 특정 단어의 빈도가 높을수록 그 단어의 크기가 크게 표시되는 방법입니다.
– 그렇군요. 작업 과정에서 가장 어려웠던 점은 무엇이었나요.
양: 보통 데이터 분석에서 약 70~80%의 시간은 데이터를 분석 가능한 형태로 만드는 데 쓰입니다. 하지만 뉴스타파에서 데이터 정리가 끝난 상태로 공개했기 때문에 별다른 어려움은 없었습니다. 그리고 이번 작업에 필요했던 형태소 분리 작업이나 워드 클라우드를 만드는 기능도 R에서 패키지 형태로 추가할 수 있기 때문에 짧은 시간에 만들 수 있었습니다.
– 작업하신 결과가 의미하는 것은 무엇인가요.
양: 보시는 그대로 국정원 의심 계정이 직접 작성한 대선 및 정치 관련 트윗 3,744개 중 가장 빈번하게 등장한 단어가 ‘종북’과 ‘북한’입니다. 좀 더 구체적으로 들여다보면 3,744개의 트윗 중 약 62.7%에 ‘종북’ 이란 단어가 포함되어 있고, ‘북한’ 약 60.7%, ‘좌파’, ‘대한민국’이 약 21% 정도 포함되어 있습니다. 이 빈도를 글자의 크기로 표현한 것이죠.
– 작업의 한계라고 생각하는 점은 무엇인지 궁금합니다. 물리적 형태소 분석이므로 맥락은 가정적으로 추정된다는 점 등이 약점이라고 생각합니다.
양: 지적하신 대로 워드 클라우드는 문맥에 상관없이 문장에서 형태소를 분리해 빈도를 표현하는 방법이므로 이 단어들이 어떤 방향으로 사용되었는지는 직접 트윗 메시지를 읽어 보거나 단어의 연관성 분석을 해야 합니다. 그리고 트윗 글이 정확히 문법에 들어맞는 형태의 문장이 아닌 경우도 많으므로 형태소 분리가 완벽하게 되었다고도 할 수 없습니다. 이건 사용자 사전에 적절한 단어를 등록해 가면서 필터링을 해야 합니다. 다만 저는 키워드를 찾고 싶었을 뿐이죠. 마지막으로 이번 분석결과는 데이터의 전체적인 모습을 들여다보고 특징적인 이벤트를 찾아내는 탐색적 방법의 결과일 뿐입니다. 그러므로 보는 사람에 따라 그 해석이 달라질 수 있습니다.
– 작업 소재라고 할 수 있는 국정원 사건에 관해 개인적 견해가 궁금합니다.
양: 데이터를 분석하는 사람이 어떤 의도를 가지고 데이터에 접근하면 안 된다는 것이 저의 지론입니다만, 개인적 견해를 물으시니 답변하자면, 불순한 의도를 가지고 여론을 몰아가는 행위를 하는 것은 그들이 주적(主敵)으로 삼고 있는 북한 간첩의 주요 활동 아닌가요? 그렇게까지 해서 정권을 유지해야 하나 싶기도 하고요. 국정원은 정보 수집기관입니다. 그런데 이번에 드러난 정황을 보면 특정한 목적으로 정보를 생산해 내었잖아요. 즉, 국정원은 정보의 생산자가 아닌 소비자가 되어야 한다고 생각합니다. 게다가 정해진 법을 어기면서까지 조직적으로 정치에 관여했다는 점에 대해서는 중대한 범죄행위라 생각합니다.
– 작업을 수행하는 과정에서 원동력이랄까요. 추진력이랄까요.
양: 앞서 말씀드린 대로 정치적 목적을 가지고 시작한 분석이 아니었기 때문에 호기심이라 밖에 할 수 없겠네요.
– 혹시 영감을 주거나 전범으로 작용한 다른 작업들이 있다면 소개를 부탁합니다.
양: 워드 클라우드를 만드는 방법에 대한 글을 본 건 ‘Word Cloud in R’이 처음으로 기억합니다. 영문으로는 연습도 해보곤 했는데 한글을 형태소 분리하는 건 엄두도 안 났거든요. 그런 차에 전희원 님(@gogamza)이 한글 형태소 분리를 R에서 가능하게 패키지로 만드셨고, 그분의 블로그 글 “안철수 교수 대선 출마 선언문 텍스트 요약”이 가장 유사한 작업이겠네요. 사실 제 작업은 이 분이 만든 코드에 데이터만 바꾼 것에 지나지 않습니다.
– 앞으로 관련 작업을 이어갈 생각이신지요. 앞으로 하고 싶은 작업이 무엇인지도 궁금합니다.
양: 여기에 사회 과학, 데이터 과학 등에서 사용하는 방법을 이용하면 더 재미있는 결과가 나올 수 있겠죠. 일단은 트윗 데이터를 시각화해보는 것이 첫 번째 목적이었고 제 블로그에 몇몇 결과도 정리했으니 당분간 추가 작업에 대한 계획은 없습니다. 단, 분석에 사용한 소스코드를 모두 공개했기 때문에 오류나 피드백이 있다면 약간의 추가 작업이 있을지도 모르겠습니다. 그리고 나중에 시간이 날 때 이 데이터를 가지고 텍스트 마이닝 기법 및 통계적 방법을 이용해 조금 더 복잡한 분석을 해 보고 싶습니다.
– 미처 하지 못한 독자에게 하고 싶은 말씀이 계시다면 끝인사를 겸해 부탁합니다.
양: 단순한 호기심으로 시작한 분석으로 이렇게 인터뷰까지 하게 될 줄은 몰랐습니다. 그만큼 사회적인 이슈가 되고 있는 문제기 때문이겠죠. 개인적으로는 분석 결과를 내놓음에 그 결과가 미치는 영향에 대해 다시금 생각할 좋은 기회가 되었습니다. 마지막으로, 정치색이 강한 데이터라 하더라도 통계학, 데이터 과학, 사회과학에 관심이 있는 분들이 많은 분석 결과를 내놓고, 그 결과에 대해 이성적이고 객관적인 토론을 나눌 수 있는 문화가 하루빨리 정착되었으면 좋겠습니다.
2 댓글
댓글이 닫혔습니다.