2016 미국 대선을 보여주는 텍스트 마이닝 분석방법들

미국 현지시각으로 지난 2016년 11월 8일, 도널드 트럼프가 45대 대통령으로 당선됐다. 대선 경쟁의 본격적인 레이스가 시작된 공화당 전당대회에서 도널드 트럼프가 공식적인 대선 후보로 선출된 이후 110여 일 만에 대통령으로 당선된 것이다. ‘예상을 뒤엎다’, ‘충격적이다’, ‘흥미진진하다’ 등 이번 미국 대선의 결과를 평가하는데 많은 표현이 쏟아져 나왔다. 무엇보다 예측이 빗나간 데 따른 놀라움의 표현들이 주를 이뤘다.

최근 한국을 포함한 전 세계적으로 선거결과 예측을 위한 방법들은 결과적으로 좀 실망스러운 부분을 드러내고 있다. 선거 예측을 위한 조사방식과 통계분석 방법론에 대한 회의론까지 일고 있다. 이는 그간 선거의 예측 결과가 특정 후보의 우위로 점쳐지는 상황에서 표심은 다수에 편승할 가능성이 높다는 기존의 선거공식도 깨지고 있다는 것을 의미한다. 이제, 선거 과정에서 주목해볼 만한 분석은 단지 후보자들의 면면이나 공약을 살펴보는 정도가 아닌가 생각도 든다.

이번 원고는 2016 미국 대선 과정에서 선보인 텍스트 마이닝 분석방법들을 다뤘다. 대선 후보들이 선거운동 수단인 미디어를 활용할 때마다, 미디어에 노출된 의견들은 텍스트 데이터로 생산되게 마련이다. 트위터에 자신의 의견을 피력하고 보도자료를 배포하거나 TV 토론을 하는 동안, 후보자들은 다양한 입장을 피력한다. 본 원고는 이처럼 후보자 입장을 분석하는 텍스트 데이터의 분석방법들을 짚어보며 이를 통해 후보자들의 면면을 살펴볼 수 있는 분석결과들을 살펴봤다.

후보들의 포지셔닝 나타내기

미국 대선에서는 거대 양당인 민주당과 공화당의 대선 후보들이 지명되는 과정에서 예비 후보들 간에 무수히 많은 토론이 진행된다. 아래의 표는 양당의 후보가 지명되기 이전 시점까지 각 정당 예비 후보들이 토론에서 사용한 단어들을 분석한 내용이다. 분석방식은 문장 중 어간(word stem)을 분석하는 일반적인 텍스트 마이닝 기법이다.

문장에 포함된 어간을 분석할 경우, 언급하고자 하는 의견의 맥락을 쉽게 파악할 수 있어서 무수히 많은 문장도 축약해 파악할 수 있다. 이처럼 아래 표에서는 각 정당의 예비 후보들이 토론에서 사용한 어간을 분석했기 때문에, 후보들이 평소에 지녔던 의견에 대한 주제들을 요약해 보여주는 것이기도 하다.

아래 표에서 보듯이 예비 후보들이 사용한 가장 진보적인 단어가 ‘wealth(부, 재산)’였고, 가장 보수적인 단어는 ‘amnesti(국가원수의 특사, 사면)’로 나타났다. 이처럼 이들 단어의 순위를 대략 살펴보는 것만으로도 후보들이 각 정치 이념의 스펙트럼 안에서 어떠한 이슈에 관심을 가지고 주로 언급하는지를 살펴볼 수 있다.

각 정당 예비후보들이 토론에서 사용한 ‘진보적인’, 혹은 ‘보수적인’ 단어들의 빈도 순위 (출처: 웨이펑 종/미국기업연구소(aei.org))

각 후보의 트위터 메시지를 분석하는 경우도 있다. 트위터는 소셜미디어 중에서도 분석이 용이한 오픈 데이터 형식으로 제공되기 때문에 대표적인 텍스트 마이닝 데이터로 줄곧 여겨져 왔다.

아래 그림에서는 후보별로 트위터에서 어떠한 단어를 가장 많이 언급하였는지, 어떤 트위터 계정에서 가장 빈번하게 언급되었는지, 주요 정책적인 키워드는 무엇이었는지를 보여준다. 데이터 시각화 기법의 하나인 단어 구름(word cloud)이나, 관계분석 및 형태소 빈도 분석 등의 기법들이 그 방식으로 활용되고 있다.

트위터는 후보들이 대중들과 자유롭게 만날 수 있는 접점이자, 대표적인 양방향 미디어에 해당한다. 따라서 트위터 분석 결과는 후보들이 대중을 상대로 보다 ‘직관적인’ 선거전략을 ‘어떻게’ 펼치고 있는지 분석하는데 용이하다. 어떻게 짧고 강렬한 메시지를 던지고 공유하고 프레임화해나가는지 이를 통해 예측할 수 있다.

트위터에서 후보별 언급단어(좌측), 언급빈도 높은 트위터(우측 위), 정책 관련 주요 키워드(우측 아래) (출처: SAS)

후보들의 의견 살펴보기: 이슈에 대한 입장 및 발언에 대한 팩트 체크

미국은 그 어떠한 이벤트도 흥미진진한 ‘쇼’로 승화시킬 줄 아는 재주를 가진 나라다. 또한, 커뮤니케이션 과정과 메시지의 내용에 흥미와 오락적 요소를 담으려 노력을 게을리하지 않는 나라이기도 하다. 대선 후보들의 의견을 분석해 유권자들에게 제공하는 데에도 이러한 흥미와 오락적인 요소들은 다분히 포함되어 있다.

아래는 다소 논쟁적인 이슈들에 대한 후보자들의 찬반양론(pros and cons)을 다루는 사이트(ProCon.org)이다. 대선 후보들이 사회적 이슈들에 어떠한 찬반양론을 가지고 있는지 주요 사회적 이슈들을 촘촘히 나눠주고 이에 대한 각 후보자들의 찬반 의견들을 모아 놓았다.

후보자들의 찬반 입장은 신문과 방송의 인터뷰 자료, 트위터 등 소셜미디어 게시 내용, 연설문, 토론자료 등을 기반으로 분석되었고, 관련 내용이 요약된 형태로 제공된다. 따라서 특정한 사회적인 이슈에 대해 ‘어떠한 후보가, 언제, 어떻게, 어떠한 매체를 통해, 무엇을’ 발언했는지 한눈에 살펴볼 수 있다. 각 정당 대선 후보에 지명되는 정도의 인사라면 평소 자기 의견에 대한 일관성이나 신뢰감, 소신, 철학 등을 표출하면서 표심을 얻게 된다. 이 서비스에서는 유권자로 하여금 대선 후보들의 평소 의견을 더욱 구조적으로 조망할 수 있게 해주면서, 후보자 분석과정을 재미있는 학습의 과정으로 만들어주고 있다.

대선후보들의 주요 이슈(좌측)에 대한 입장을 설명(우측)해주는 서비스 (출처: 프로콘(procon.org))

워싱턴포스트나 뉴욕타임스와 같은 유력 일간지들은 대선 과정에서 후보자들이 언급한 내용을 확인하는 서비스로 ‘팩트 체크’ 홈페이지를 오픈해 운영 중이다. 이들 서비스도 후보들이 언급한 의견의 주요 문장만을 요약해 보여줌으로써 그러한 문장이 어떠한 상황에서 언급한 내용 중에 포함되어 있었는지 맥락을 파악해, 의견의 사실 여부를 검증해준다.

워싱턴포스트의 ‘The 2016 Election Fact Checker’는 후보자를 선택할 수 있게 하거나, 정책 테마를 – 가령, ‘abortion’, ‘biography’, ‘campaign’, ‘crime’, ‘economy’ 등과 같은 – 선택해 해당 내용을 보여주는 필터링 옵션 서비스를 제공한다. 그리고 선택된 옵션에 따라 한눈에 후보자들 발언의 사실 여부를 살펴볼 수 있게 했다.

또한, 팩트 체크를 원하는 문장을 클릭하면 해당 문장이 포함된 기사나 연설문, 토론문 등으로 링크되어 이용자들 스스로 손쉽게 사실을 검증할 수도 있다. 각 후보의 발언 내용을 진실과 거짓으로 지수화해 제시하기도 하는데, 이를 통해 서비스 이용자들이 사실 검증을 더욱 흥미롭게 여길 수 있게 했다.

후보들의 토론 내용 보여주기

미국 대선 과정에서 가장 주목도가 높은 순간은 거대 양당의 두 후보가 펼치는 3차에 걸친 TV 토론의 순간일 것이다. 주목도가 워낙 높아 토론 직후에는 이를 분석한 뉴스 기사와 논평들이 쏟아져 나온다.

이러한 후보자들의 토론 과정도 텍스트 마이닝 기법으로 분석된다. 캐나다의 게놈 사이언스 센터에 근무 중인 생물정보학자 마틴 크리빈스키(Martin Krzywinski)의 홈페이지는 이러한 분석결과들을 살펴보는 데 유용하다. 크리빈스키는 후보자들이 토론과정에서 발언한 문장을 형태소 단위로 쪼개어 보다 구조적으로 분석해, 그 결과를 다양한 지수와 그래픽으로 제시한다.

아래 <그림 4>는 대선후보의 토론에서 나타난 발언들의 ‘복잡함’을 측정하기 위해 고안된 ‘윈드백 인덱스(Windbag Index; 수다쟁이 지표)’ 분석 결과이다. 지표의 수치가 낮을수록 문장이 간단명료하게 표현되었음을 의미한다. 가령 클린턴은 평균 185, 트럼프가 864 정도의 수치를 보여주고 있으니 트럼프가 언급한 내용이 클린턴보다 복잡했고, 간명하지 않은 표현도 자주 사용되었다는 것을 알 수 있다.

대선후보 토론에서 나타난 발언의 복잡함을 측정하는 지표 사례: 윈드백 인덱스(Windbag Index) (출처: 마틴 크리빈스키 홈페이지)

토론 과정에서 언급된 단어들의 빈도를 아래 그림과 같이 명사와 동사로 나누어 보여주기도 한다. 명사의 빈도를 살펴보면, 클린턴의 경우에 ‘가족들(families)’, ‘부모들(parents)’에 대한 언급수가 눈에 띄게 많았지만, 트럼프의 경우 ‘도시들(cities)’, ‘시카고(Chicago)’ 등의 단어들을 언급해 대비되는 모습을 보였다.

동사의 경우에도 클린턴은 ‘시도하다(try)’, ‘희망하다(hope)’ 등의 단어를 토론 시에 자주 사용하였지만 트럼프의 경우에 ‘지지했다(endorsed)’, 혹은 ‘주었다(gave)’ 등의 단어를 언급한 것으로 차이를 보였다.

이와 같은 결과를 통해 대선후보들이 어떠한 단어들을 주로 사용해 토론 문장을 구성했는지 짐작해볼 수 있으며 각각 대비되는 입장은 어떠한 단어로 요약되는지도 알 수 있다.

대선후보 토론에서 자주 언급된 단어 (좌측은 명사, 우측은 동사. 클린턴의 단어는 빨간색, 트럼프의 단어는 파란색, 함께 쓴 단어는 회색) (출처: 마틴 크리빈스키 홈페이지)

더욱 수치화된 형태소 분석 결과는 아래 그림에서 살펴볼 수 있다. 아래 그림은 각 후보자의 토론문장 길이는 어떠한지, 형태소들의 빈도는 어떠한지, 문장은 연결되는지 끊기는지, 형태소들은 어떠한 조합으로 구성되어 있는지 등의 분석결과들을 제시하고 있다.

이러한 분석 결과는 후보자들의 입장에서는 상대의 토론전략을 가늠할 수 있는 자료로 쓰일 수 있고, 유권자들의 입장에서는 후보별로 토론 스타일을 자세히 관찰할 수 있다는 측면에서 그 의미를 찾아볼 수 있다.

대선후보 토론 시 후보자별 문장 길이(위)와 단어 구성(아래) (출처: 마틴 크리빈스키 홈페이지)

나오며

앞서 살펴본 텍스트 마이닝 방법들은 후보자들이 어떠한 방식으로 이야기하고 있는지를 주로 분석한 내용이다. 후보자들은 어떤 단어를 가장 많이 쓰는지, 사회적 이슈에 대한 입장은 어떠한지, 어떠한 맥락으로 이야기하고 있는지, 그들의 말은 사실인지 아닌지, 문장은 어떠한 형태소로 구성되는지… 후보자들의 말들은 분석방법을 통해 쪼개지고 요약되어, 결국에는 후보자들이 했던 모든 이야기가 낱낱이 파헤쳐진다.

선거에서 후보자들이 궁금한 것은 유권자들의 생각이다. 그래서 후보자들은 조사를 통해 지지율이나 인지도, 호감도 같은 자료들을 살펴본다. 그로써 유권자들의 표심을 파악하려 하는 것이다. 마찬가지로 선거에서 쏟아지는 무수한 말들 속에서 유권자들이 정작 알고 싶은 것은, 그러한 말들 속에 숨겨진 후보자들의 ‘진짜 생각’이다.

그래서 말들에 포함된 핵심적인 뼈대를 파악하는 것이 중요하고 이를 포장하기 위해 어떠한 진술 전략을 펼치고 있는지 아는 것이 중요하다. 이들을 분석하면 후보자들의 ‘진짜 생각’에 조금은 접근할 수 있기 때문이다.

미디어에 노출된 모든 문자, 음성, 영상의 데이터화가 가능해지면서, 후보자들이 쏟아내는 말들 정도는 이제 쉽게 분석 가능한 데이터로 변환된다. 텍스트 마이닝 분석방법의 기술은 향후 더욱 고도화될 것이 분명하며, 마찬가지로 앞으로의 선거에서 후보자들의 모든 말들은 더욱 정교한 방식으로 분석될 것이다. 동시에 유권자도 정치인의 생각에 더욱 가깝게 접근할 수 있게 될 것이다.

이런 측면에서 2016 미국 대선에서 나타나는 텍스트 마이닝 분석 방법들은 대선 후보자들의 진짜 생각을 살펴보는 방식들이 어떻게 진보하고 있는지 여실히 보여준다.

[divide style=”2″]