대통령 선거가 20여 일 앞으로 다가왔다. 공식적인 선거 운동도 시작되었다. 각 후보 진영은 막판 표 늘리기에 마지막 힘을 다 쏟아야 하는 시기다. 특히 안철수 후보 사퇴 이후 여론 조사에서 박근혜와 문재인 두 후보 간에 실질적인 차이가 없는 것으로 나타나는 마당이라, 두 선거 캠프는 유권자의 한 표가 아쉬울 것이다. 그런 시기에 이런 기사를 보게 되었다.
문재인 측, 본선 대비 `입’보강..공보단 확대ㆍ개편 (연합뉴스/<한국일보>)
기사에 따르면 이렇다고 한다:
민주통합당 문재인 대선후보 측은 26일 그동안 당 대변인단과 선대위 대변인단으로 이원화돼있던 대변인단 체제를 선대위 산하로 흡수 통합해 일원화했다. 새누리당 박근혜 대선후보와의 본선 국면을 맞아 대여 화력을 대폭 보강하기 위해 공보단을 확대 개편한 것이다. 문 후보 측은 향후 무소속 안철수 전 대선후보 캠프 인사들과 외부인사 출신들도 영입해 `매머드급 대변인단’을 꾸린다는 구상이다.
조직을 정비하여 효율적 구조로 개편하는 것은 좋은 일일 것이다. 그러나 ‘대여 화력 대폭 보강’, ‘매머드급 대변인단’ 같은 말들이 걸린다. 입은 할 말이 있어야 쓸모가 있는 존재다. 할 말이 없는데 입만 많으면, 할 것은 무의미한 공론이나 말싸움밖에 없다. 그것이 선거에서, 특히 구태의연한 정치의 개혁을 바라는 국민 정서 때문에 전대미문의 무소속 후보 태풍까지 불었던 이번 선거판에서 얼마나 효율적일지는 둘째치고, 지금 그렇게 총력을 기울어야 할 영역인가 고개가 갸웃거려진다.
정작 중요한 것은 할 말을 어떻게 만들 것인가, 다시 말하면 누구에게 어떤 말을 어떻게 할 것인가가 아닌가. 투표일을 코앞에 두고 표본오차도 넘지 못하는 여론 조사 결과에 속이 타는 선거 진영이 막판에 주력해야 할 일은, 바로 이 미세한 공간을 파고드는 섬세한 활동이 아닌가 싶다. 막판 부동표를 중심으로 한 표심의 방향을 유리하게 이끌 수 있는 효과적인 방법이기 때문이다.
“자로 잴 수 있는 선거 운동”
선거 전략의 양상이 변하는 것 같다. 지금까지는 뛰어난 정치 감각과 직관적인 분석력, 웅대한 의지와 달변을 갖춘 모사와 책사들이 선거판을 누볐다. 앞으로는 소심하고 쪼잔한 통계 전문가들이 이들의 역할을 대신하지 않을까 싶다. 유권자들의 생각과 행동을 기록하는 데이터가 풍부해지면서, 이런 데이터를 치밀하게 분석하면 칼날 위에 송곳을 세울 정도로 정확하게 표심을 찌를 수 있는 상황이 전개되고 있기 때문이다. 그런 점에서 지난 11월 초에 치러진 미국 대통령 선거는 ‘데이터 분석에 기반한 선거 운동’의 획기적인 사례로 기록될 듯하다.
버락 오바마가 재선에 성공한 이번 선거에서 데이터 분석을 통한 예측력의 힘이 입증된 사실은 이미 널리 알려져 있다. 내로라 하는 수많은 정치평론가의 의견과는 달리, 통계적 방식을 통해 오바마의 낙승을 예측하고 이를 적중시킨 네이트 실버는 이미 유명 인사다.
그러나 이렇게 치밀한 통계 분석 작업이 각 후보 진영, 특히 오바마 진영에서 선거전의 강력한 도구로 사용되었다는 사실은 비교적 덜 알려졌다. 오마바와 롬니가 치열한 경합을 벌일 것이라고 정치평론가들이 예상했던 여러 주에서 오바마가 줄줄이 승리를 거둔 뒷면에는, 어두컴컴한 사무실에서 오로지 데이터만 죽어라 파며 숫자로부터 유권자의 표심을 읽어내고 이를 선거 운동에 반영시킨 통계분석팀의 숨은 노력이 자리하고 있다. 실버의 데이터 분석이 대선 결과를 올바로 예측했듯이, 오바마 선거본부 통계분석팀의 데이터 분석 작업이 대선을 승리로 이끄는 기초를 제공한 것이다. 두 작업의 기본 성격은 똑같다. 다만, 하나는 객관적인 예측을 목적으로 했고, 다른 하나는 자기 편의 승리를 위한 전략적 활용을 목적으로 했다는 점만 다르다.
이번 선거에서 오바마 선거운동본부는 통계분석팀을 초선 때인 4년 전의 다섯 배로 대폭 확대했다. 그 책임자인 ‘수석 과학자(chief scientist)’로는 데이터 파헤치기(data mining)의 전문가로서, 이런 기법을 수퍼마켓 이벤트 전략에서부터 제약회사 판촉 전략에까지 다양한 분야에 적용해 온 통계 전문가 라이드 가니를 선임했다. 오마바 선거본부 책임자 짐 메시너는 선거 운동의 초기에, 선거의 목적은 정치지만 그 수단은 정치적 감각이 아니라 자로 잴 수 있는(metric-driven) 방식으로 하겠다고 천명한 바 있다. 선거 책임자로 임명된 뒤 그는 “이 선거 운동의 모든 것을 하나도 빠뜨리지 않고 계측하겠다”라고 말하기도 했다.
오바마의 통계분석팀 수십 명이 어떤 활동을 했는가. 이것은 선거 기간 내내 장막에 감추어져 있었다. 이 팀이 수행하는 프로젝트에는 Narwhal(일각고래), Dreamcatcher(드림캐처) 등 수수께끼 같은 암호명이 붙었다. 분석팀원들은 시카고의 선거본부 북쪽 끝, 창문도 없는 사무실에서 하루종일 테이터만 팠다. 선거본부의 핵심 책임자들만이 이 팀의 활동을 파악하고 있었다. 그러나 이 팀의 분석과 제안은 수시로 백악관의 루즈벨트 룸으로 직보되었다.
‘시카고 과학자들’의 활동은 오마바 선거 운동의 전 영역에 걸쳐 큰 영향력을 발휘한 것으로 전해진다. 이들은 선거 자금 모금에서부터 온라인 조직화 방향에 이르기까지 선거 운동 기간 내내 거의 모든 영역에 관여했다. 대표적인 일은 △ 선거 자금 모금 △ 유권자 분석 △ 공략 대상 선정 △ 선거 운동 방법 선정 △ TV 광고의 목표 설정 △ 선거 시뮬레이션 수행 및 제안 △ 온라인 대응 등이다. 이런 일을 오로지 데이터만 파면서 했다.
세라 제시카 파커를 고른 ‘과학자들’
지난 5월의 어느 날, 오바마는 하룻밤에 1천500만 달러(160억 원)라는 사상 유래없는 거액의 선거 자금을 모았다. 영화배우 조지 클루니의 집에서 열린 모금 행사에서였다. 저녁 식사를 제공하는 이 파티의 입장권은 한 장에 4만 달러였으며, 150명이 들어갈 수 있었다. 입장권을 다 팔아봐야 모금액은 600만 달러에 지나지 않았을 것이다. 그러나 오바마와 클루니는 이 표의 일부를 대중에게 공개하는 방식을 첨가했다. 오바마에게 소액 기부를 하는 사람 중 일부를 추첨하여 행사 입장권을 제공하기로 했던 것이다. 이에 따라 수만 명이 온라인으로 기부금을 냈다. 1인당 평균 23달러였다. 그 중 다수가 오바마보다는 클루니 때문에 이 추첨에 응모했다. 할리우드에 있는 클루니의 집에서 그와 함께 저녁을 먹는다는 것은, 미국 서부 지역 주민에게 매우 큰 매력으로 받아들여진 것이다.
통계분석팀은 이 응모자들 중 상당수가 40대 여성이라는 점에 주목했다. 이들이 가진 여러 특징을 고려하면, 다른 행사도 이들이 주요 목표가 되어야 했다. 동부에서 이들을 움직일 수 있는 연예인은 누가 있을까. 각종 데이터를 종합하여 분석한 끝에, <섹스 앤 더 시티>에 나왔던 세라 제시카 파커가 적임자로 선택되었다. 6월 오바마의 선거 모금 행사는 파커의 뉴욕 웨스트 빌리지 자택에서 열렸으며, 그 자신이 부자인 밋 롬니로부터 돈잔치라는 비난을 받을 정도로 엄청난 성공을 거두었다. 이 행사는 뜨거운 화제가 되었지만, 이 화려한 파티의 여주인공을 파커로 결정한 것은 시카고의 어두컴컴한 통계분석팀 사무실에 죽치고 있는 우중충한 통계 전문가들이었다는 사실을 아는 사람은 많지 않았다.
선거 운동 초기에 통계분석팀은 수많은 형태로 쪼개져 있던 기존의 데이터를 하나로 통합하는 일에 전력을 기울였다. 데이터의 주요 내용은 민주당 지지자 데이터, 일반 소비자 데이터, 소셜 미디어와 모바일 연락처 데이터 등이었다. 과거에 이들 자료는 관리하고 운영하는 팀에 따라 각기 개별적인 데이터로 존재했다. 이를 모두 합쳐 하나의 거대 파일, 이른바 메가파일(megafile) 혹은 빅 데이터(big data)를 만든 것이다. 이렇게 통합된 데이터에는 사람들이 민주당에 대해 갖는 지지 정도와 활동, 과거의 투표 패턴, 온라인 활동, 연락처 등이 모두 망라되어 담겼다. 이제 선거운동본부는, 어떤 사람을 어떻게 접촉하여 어떤 말을 어떻게 해야 자기네 편으로 만들 수 있는지를 개개인의 차원으로 보여주는 데이터를 갖게 된 것이다.
이를테면 과거에는 전화 선거 운동원이 리스트에 적힌 사람들에게 무작정 전화를 걸어서 지지를 호소했다. 통계 방식을 이용한 이번 선거에서는 이런 방법이 잘 적용되는 사람들을 따로 분류했다. 변수들을 묶어 이들이 얼마나 잘 설득될 수 있는지를 평가한 뒤, 이를 기준으로 하여 순서를 매기고, 하위 순번에 속하는 사람들(즉 덜 설득되는 사람들)에게 더욱 자주 공들여 전화를 했다. 또 유권자 개개인의 일반 우편, 모바일, 온라인 이용도를 활용하여, 각자가 가장 빈번하게 사용하는 방식으로 홍보 메시지를 보냈다. 하릴없이 쓰레기통으로 들어가는 선거 홍보물을 대폭 줄인 것이다. 이런 접근으로 인해 선거 운동의 시간과 노력, 비용이 훨씬 효율적으로 사용되었으며, 이러한 효율성은 바로 지지표의 증대로 이어졌다. 미세한 선거 국면에서 이러한 차이가 얼마나 중요한지는 두말할 필요도 없다.
숫자로 뒷받침되지 않는 제안은 버려라
통계분석팀의 초기 제안 중의 하나는, 2008년 오바마 초선 때 민주당 지지자로 등록했으나 이후 이메일 수신을 취소한 사람들을 골라내 첫째 설득 대상으로 삼으라는 것이었다. 이런 제안은 의미가 있었다. 이들은 민주당을 지지하거나 공화당을 싫어하는 사람들인데, 여러 이유에서, 특히 오바마에 대한 실망에서 더 이상의 접촉을 중단한 것으로 볼 수 있다. 이들이 롬니를 찍을 가능성은 별로 없지만, 투표를 하지 않을 가능성은 높았다. 이들은 조금만 더 설득하면 다시 지지자로 돌아올 수 있는 사람들이다. 물론 ‘과학자들’은 이런 제안조차 주먹구구로 내놓지 않았다. 통계는 감으로 하는 장사가 아니기 때문이다. 이들은 해당 범주에 속하는 사람 중에서 표본을 추출해 테스트를 해 봤다. 그 결과 강력한 설득 효과가 났고, 그래서 나온 제안이었다. 숫자로 뒷받침되지 않는 제안은 설 땅이 없었다.
이들은 각 범주 유권자에게 어떤 메시지를 보여 주어야 하는지도 치밀한 과정을 거쳐 결정했다. 선거 운동 초기에 유권자들이 오바마 캠프로부터 받은 지지 호소 이메일의 상당수는 본격 이메일 전송을 위한 사전 조사(pre-test)였다. 본인들은 몰랐겠지만 말이다. 다양한 형식의 메시지가 실험되었고, 그 중 가장 효과가 큰 것으로 확인된 메시지가 목표하는 범주의 사람에게 전송되었다. 이것은 대표적인 통계 조사 설계 방법이다. 심지어 가까운 데 사는 사람(같은 주 선거운동원)이 설득 전화를 하는 것과 먼 데 사는 사람(캘리포니아 같은 지역의 운동원)이 하는 것의 차이도 검증해 보았다. 표를 얻기 위해 할 수 있는 모든 것이 테스트되었고, 그 결과가 모두 수치화되어 제안으로 올라가고 실행되었다.
메가파일에서 유권자의 특성을 보여주는 가장 중요한 항목은 ‘설득 가능성’이었는데, 이에 따라 해당 유권자에 대한 설득 방식이 결정되었기 때문이었다. 이런 설득 가능성을 결정하는 요인은 일반적인 인구학적 요인, 즉 연령, 성별, 인종, 거주 지역 등과 과거의 투표 경력이었다. 이 다섯 가지 변수가 설득 가능성의 75%를 결정하는 것으로 분석되었다. (이 점은 한국도 비슷하지 않을까 싶다. 인종과 성별을 뺀 연령, 거주 지역, 과거 투표 경향이 지지 후보를 결정하는 데 큰 영향을 미치는 것으로 쉽게 예상할 수 있다.)
매일 밤 6만6천 번의 모의 선거 시행
10월 초, 오바마와 롬니가 첫 TV 토론을 벌인 뒤 롬니의 지지율이 급등하는 상황이 벌어졌다. 오바마가 패배했다는 평을 받은 토론이라서 이러한 결과는 예상할 수 있었지만, 선거를 한 달 앞둔 상황에서는 기절초풍할 일이었을 것이다. 그러나 통계분석팀은 이게 크게 걱정할 일이 아니라는 평가를 내놓았다. 토론 이후 벌어진 상황은 오바마 지지자들이 떨어져 나가는 것이 아니라, 그동안 롬니에 만족하지 못했던 롬니 지지자들이 다시 결집하는 현상으로 판단되었기 때문이었다. 이들은 언젠가는 롬니표가 될 사람들이었다. 이런 평가에 따라 오바마 선거본부의 핵심은 의외로 침착한 자세를 유지할 수 있었다.
물론 이러한 분석도 감으로 나온 것이 아니었다. 통계분석팀이 보유하고 있던 주요 주(州)의 유권자 표본을 분석한 결과였다. 이들은 인구학적 정보를 포함한 상당한 수의 표본 데이터를 갖고 있었는데, 예컨대 경합 주 중 하나였던 오하이오에서는 2만9천 명의 표본을 상시 운영하고 있었다. 따라서 무슨 일이 발생하면 즉시 신뢰할 만한 검증을 자체적으로 해볼 수 있었던 것이다.
감이 아닌 통계 분석 방식의 선거 운동만이 갖는 또 다른 장점이 있었다. 바로 선거를 시뮬레이션해 볼 수 있다는 점이었다. 선거 판도가 구체화되어가자 통계분석팀은 가능한 모든 변수를 투입하여, 상상할 수 있는 모든 시나리오를 가설로 세우고 시뮬레이션을 돌렸다. 매일 저녁 6만6천 번의 모의 선거를 시행하여, 각각의 경우 오바마가 승리할 가능성을 검증해 보았다. 아침에 그 결과가 정리되고, 이러한 결과는 선거본부가 어떤 주에 어떤 자원을 투입할 것인가를 결정하는 근거로 활용되었다.
이러한 통계 분석 접근은 페이스북을 중심으로 한 온라인 선거 운동과 TV 광고 전략에도 그대로 적용되었다. 지난 8월에 오바마는 핵심 선거 참모들이 들어보지도 못한 소셜네트워크 웹사이트에 등장해 이용자의 질문에 대답하는 일을 벌였다. 주요 득표 대상으로 분석된 어떤 주 유권자 다수가 이 웹사이트를 이용하는 것으로 분석되었기 때문이다. 이런 상황을 우리 선거에 대입해 보자. 문재인 후보나 박근혜 후보가 젊은 온라인 유권자의 마음을 잡기 위해 주요 웹사이트에 나가려 한다. 어디를 선택해야 할 것인가. 디씨? 일베? 오유? 엠팍? 82쿡? 각각에 나갔을 경우 기대할 수 있는 득표 기여치는 얼마나 될까? 누가 이런 점을 딱딱 찍어주면 얼마나 편하겠는가. 감이 아니라 ‘숫자로 뒷받침된’ 근거에 기반해서 말이다.
200 대 1의 힘을 발휘하는 과학적 접근
잘 알려진 이야기지만, 선거에 과학적인 통계 방식을 도입하여 그 효율성을 극적으로 과시한 것은 1936년 미국 대통령 선거 때다. 선거를 앞두고 시사잡지 <리터러리 다이제스트>는 선거 결과 예측을 위해, 각종 문건에 등재된 유권자들의 주소를 활용하여 모의 투표 용지를 1천만 장 이상 보냈다. 이 결과를 바탕으로 하여, 도전자인 공화당의 알프레드 랜든이 57%의 지지를 얻어 프랭클린 루즈벨트 대통령을 물리칠 것이라고 예견하였다. 그러나 저널리즘 교수직을 집어치우고 자신의 여론 조사 회사를 세운 당시 35세의 조지 갤럽은 불과 5만 명의 표본을 조사한 뒤 <리터러리 다이제스트>와는 정반대의 예측을 내어 놓았다. 선거 결과는 갤럽이 예측한 대로 루즈벨트의 압도적인 승리였다.
1천만 대 5만, 혹은 200 대 1. 이것이 과학적인 분석 방식의 힘이라고 할 수 있을 것이다. 말하자면 주먹구구로 세운 전략에 따라 알바들을 고용하여 트위터나 기사 댓글에서 하루종일 여론 조작을 해 봐야, 과학적 분석 방식을 통해 주요 공략층을 정확히 설정한 촌철살인의 접근 방식을 당하지 못한다는 뜻이다.
이와 같은 방식을 선거 운동에 도입하는 데 있어 생각해 볼 점도 몇 가지 있다. 첫째, 무엇보다 데이터가 있어야 이런 일이 가능하다. 과학자에게 데이터는 아르키메데스의 지렛대와 같다. 그것이 있으면 지구도 움직일 수 있고, 거꾸로 지구를 움직이려는 거대한 의지와 열정이 있어도 그것 없이는 말짱 황인 지렛대 같은 존재, 그게 데이터다. 그런 데이터를 어디서 구하나? 민주당은 지지자들이 자발적으로 제출한 인적 데이터에서부터 출발했다. 여기에 다른 데이터를 합치고 추가하여 거대한 데이터 셋을 만들어 냈다. 뿐만 아니라, 민간과 정부의 활동이 온라인 공간에 정리되는 경우가 늘어나면서, 과거에는 구하기 어려웠던 데이터가 온라인으로 공개되는 일이 잦아졌다. <와이어드>는 2011년 7월호의 한 기사에서, 이제 문제는 데이터를 공개하는 투명성이 아니라 이렇게 공개된 데이터를 누가 어떻게 쓰는가 하는 활용성이라고 지적한 바 있다.
둘째, 이렇게 수집되는 데이터가 개인의 프라이버시를 침해하면 안 된다는 점이다. 선거 운동을 위한 데이터 운용은 개개인에 대한 설득을 목표로 하므로, 특정인을 지목할 수 있는 구체적인 정보를 담게 된다. 이것은 프라이버시의 측면에서 볼 때 매우 조심해야 하는 장면이라고 할 수 있다. 이런 걱정을 덜 가장 좋은 방법은 자발적 협조자(이를테면 지지자, 자원봉사자 등으로 등록을 한 사람)나 온라인 이벤트를 통해 정보 수집에 동의한 사람들의 정보를 데이터화하는 것이다. 또 데이터를 수집하고 분석하는 과정에 프라이버시 전문가를 개입시켜, 유권자 개인의 권익이 침해되는 일이 없게 관리하도록 한다. 이것은 나중에 소송을 당하지 않기 위해서도 중요한 일이 아닐 수 없다.
셋째, 아무리 탁월한 통계분석팀이 밤을 새며 유권자를 분석하고 송곳 맞춤 홍보를 한다고 해도, 후보자가 취약하면 아무런 소용이 없다. 데이터 파헤치기로 남들이 보지 못하는 구석을 찾아내어 밝힐 수는 있어도, 자격 미달 후보자의 얼굴에 화장을 해줄 수는 없다. 선거에서 가장 중요한 상품은 후보자의 철학과 신념과 비전과 능력이다. 그런 점이 충족된 뒤에야 통계 분석적 방법이 가치를 갖게 된다. 아울러, 후보자 간 차이가 크게 벌어지는 상황에서 이러한 접근이 판세를 뒤집은 사례는 아직 없어서, 현재까지는 팽팽한 접전에서 강력한 효과가 난다는 점을 기억해야 할 듯하다.
어쨌든 감으로 선거를 치르는 시대는 끝났다. 승부가 미세한 것으로 예측될수록 치밀한 접근은 더욱 중요하다. 앞으로 선거 결과는 음지에서 일하며 양지를 지향하는 통계 분석가와 너드 개발자들의 역량으로 결정될지도 모른다. 단순한 여야 성향으로 유권자들의 투표 패턴이 결정되던 과거와는 달리, 다양한 이익의 표출에 따라 투표 행위가 분기될수록 이러한 접근이 중요해질 것이다. 나는 내 개인적인 선호와는 상관없이, 앞으로 이런 접근 방식의 중요성을 먼저 인식하고 채택하는 후보가 승리한다는 데 걸겠다. 비록 통계 방식을 동원한 과학적인 예측은 아니지만, 아마 아주 안전한 도박이 될 것이다.
미국 대선에 대해 별다른 지식이 없었던 터라 기사에서 설명된 내용들이 흥미로웠습니다. 잘 읽었어요. 통계의 중요성을 앞으로 정치할 사람들이 잘 깨닫고 똑똑하게 이용하면 항상 좋은 결과를 얻어가겠죠. 이번 우리나라 대선에선 어느 정당이 통계와 각종 지표의 수치화를 잘 했나 모르겠네요..