기사 공유하기

지난 26년간 언론에서 가장 중요한 정보원은 누구였을까? 각 매체별로는 어떤 해에 어떤 주제가 주요 쟁점이었을까? 이 모든 걸 로봇이 찾아줄 수 있을까?

언론과 빅 데이터 

빅 데이터가 화두가 된 지는 벌써 오래다. 상품 유통과 소비자 성향에 관한 빅 데이터 연구는 자본주의적 메커니즘으로 진화한다. 하지만 저널리즘의 영역에서 빅 데이터는 아직 원석에 가깝다. 한국언론재단 미디어연구센터 연구팀(이하 ‘연구팀’)이 그 원석을 가공하는 일을 본격적으로 시작했다.

분석 시스템의 이름은 ‘빅카인즈’. 기계학습, 자연어처리, 의미연결망 분석 등 다양한 뉴스 빅데이터 분석 방법을 적용한 시스템이다. 이제 기존의 카인즈 시스템은 빅카인즈로 통합됐다.

빅카인즈. 기존의 카인즈 시스템은 이제 '빅카인즈' 시스템으로 통합됐다. http://www.kinds.or.kr/search/totalSearchMain.do
빅카인즈. 기존의 카인즈 시스템은 이제 ‘빅카인즈’ 시스템으로 통합됐다.

연구팀은 빅카인즈의 빅데이터 분석을 이용해 뉴스 전문보고서 ‘뉴스 애널리스틱스 인사이트'(NAI; News Big Data Analytics & Insights)를 창간했다. NAI 창간호는 1990년부터 2015년까지 26년간 보도된 정치면, 사회면, 경제면 기사 약 150만 건의 기사의 정보원과 인용문 주제를 분석했다. 이는 국내 뉴스 빅 데이터 분석 규모로는 최대다.

분석 매체는 경향신문, 국민일보, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레신문, 한국일보 등 ‘빅카인즈’에서 서비스 예정인 주요 전국일간지 8개다. 디지털화된 종이신문 기사는 물론 이들 신문이 언론사 닷컴에 게재한 인터넷신문, 잡지, 방송 등의 기사를 모두 분석했다. 그 내용을 먼저 개괄적으로 살펴보자.

26년 동안 변화한 언론의 모습 

신문 26년 : 뉴스 빅데이터 시각화로 본 신문 보도의 역사 (뉴스 & 인사이트(BAI) 창간호 를 시각화한 웹페이지) http://story.visualdive.co.kr/2016/04/newspaper26y/#1459749176810-5c81bc80-d20c
신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사 ( NAI 창간호를 시각화한 웹페이지)

1. 정보원 

  • 정치: 야당 대변인 → 대통령
  • 사회: 정치인 →  교육부
  • 경제: 2002~2007년 재태크 열풍. 재정‧금융 관료 중시

빅데이터 카인즈 정보원

빅 카인즈 정보원 교육부

빅 카인즈 정보원 경제

2. 주제 

  • 정치: 보수정당 중시. 지정학적 요인 반영 ‘미국’ 거론 많아
  • 사회: 한겨레는 ‘노동자’ vs. 서울신문은 ‘공무원’ 중시
  • 경제: 주요 주제 금융위기 후 ‘미국’에서 ‘중국’으로. 최근 ‘소비자’ 중시는 홍보 기사 탓

i_003_compressed i_004_compressed i_005_compressed

3. 전체 통계

  • 기사는 늘었지만, 기사당 정보원 수와 주제 수는 줄었다.

빅 카인즈 뉴스 인사이트

빅 카인즈 뉴스 인사이트 빅 카인즈 뉴스 인사이트

[divide style=”2″]

 

박대민 책임연구원 일문일답 

 

박대민NAI의 책임연구를 담당한 박대민 박사(사진)에게 뉴스 빅 데이터의 의미와 분석 방법, 그리고 빅카인즈의 지향점 등에 관해 물었다.

-뉴스 빅 데이터를 간단히 설명하면. 

비정형인 기사를 자연어처리를 통해 정형 데이터로 만든 것이다. 뉴스를 뉴스 빅 데이터로 만드는 과정이 뉴스 빅 데이터 분석이다. 뉴스 빅데이터 분석은 자연어 처리와 의미 연결망 분석을 핵심으로 한다. 텍스트가 아닌 동영상의 경우, 자연어처리 대신 영상처리가 활용될 수 있을 것이다.

빅 데이터란 단어가 요즘엔 흘러간 유행어 같지만, 사실 자연어처리나 영상처리, 의미 연결망 분석은 사물인터넷이든 인공지능이든 예전에도 앞으로도 계속 사용됐고, 사용될 것이다.  

big-data-1084656_640_compressed

-뉴스에서 데이터를 추출한다고 했다. 그 추출 방법(분석 방식)이 궁금하다. 

그렇다. 뉴스 빅데이터 분석의 핵심은 자연어 처리와 의미 연결망 분석이다. 뉴스 기사 자연어처리는 5W1H(누가, 언제, 어디서, 무엇을, 어떻게, 왜)를 담고 있는 개체명과 문장을 특별히 중시하지만, 사실 일반적인 자연어처리 방법과 크게 다르지 않다.

핵심은 자연어처리 데이터에 대한 뉴스 정보원 연결망 분석 등 의미연결망분석이다. 사실 뉴스 의미연결망 분석의 알고리즘 자체도 각종 중앙성(centrality)을 계산하는 사회연결망 분석 방법과 다르지 않다. 중요한 것은 해석이다.

-중요한 것은 해석? 

가장 간단한 뉴스 정보원 연결망을 예를 들자. 뉴스 정보원 연결망은 결점을 정보원으로 하고, 기사 공동 출현 여부로 결점 간의 연결을 정의한다. 이어 각 결점의 연결 정도 중앙성을 구한다. 이는 해당 정보원이 모든 기사를 통틀어 공동 인용된 정보원 수를 뜻한다.

흔히 정보원의 중요도는 기사에 몇 번 등장했느냐로 따진다. 문제는 요즘처럼 속칭 ‘우라까이’, 즉 다른 기사를 비슷하게 베껴서 쓰는 경우가 많을 때, 빈도로 하면 정보원의 중요도가 과장될 수 있다는 점이다.

-그런 ‘노이즈’는 어떻게 제거하나. 

가령 연예인이 기자회견을 했다고 치면, 똑같은 기사가 수십 개 등장해도 마찬가지다. 새로운 정보가 없다. 그러나 공동 인용 정보원 수로 정보원의 중요도를 따지면 중복은 자동으로 제거된다.

기자가 기사 하나에 여러 명의 멘트를 딴, 공들인 기사에 등장한 정보원이 중시된다. 기사를 하나의 토론장이라고 하면, 뉴스 정보원 연결망 분석은 다양한 논객들과 다양한 토론회에서 자주 설전을 벌이는 정보원을 중시한다.

-빅카인즈가 발전해온 과정을 설명하면.

우선 뉴스 빅데이터 분석의 발전사를 잠깐 소개하자.

2010년 가장 기본적인 뉴스 정보원 연결망 분석 알고리즘이 제안됐다. 2012년 엑셀로 대학원생 몇 명이 매우 간단한 자연어처리, 의미 연결망 분석, 시각화한 프로토타입을 만들었다.

그리고 2013년엔 서울대 융합과학기술대학원 강남준 교수님 팀에서 뉴스 빅데이터 분석 시스템 베타버전인 ‘뉴스소스 베타’를 만들어 언론재단에서 서비스했다. 학교 서버를 이용한 불안정한 베타버전이지만 검색과 연결망 시각화까지 핵심 기능을 갖췄다. 외국은 2015년에 인공지능으로 유명한 IBM 왓슨이 거의 비슷한 시스템으로 ‘뉴스 익스플로어’를 만들었다.

뉴스 익스플로러 http://news-explorer.mybluemix.net/
뉴스 익스플로러

2016년 언론재단이 자연어처리 기능이 강화된 ‘빅카인즈’를 공개했다. ‘빅카인즈’ 전문가 버전은 로그인만 하면 메타데이터와 자연어처리 데이터를 다운로드 받을 수 있다. 오픈API를 활용해 다양한 서비스를 만드는 것도 가능할 것으로도 기대된다.

-NAI 창간호를 시각화했는데. 

이제 분석 사례도 꽤 많아졌다. 최근엔 앞서 말한 NAI 창간호와 이와 함께 만든 시각화 사이트가 있다. 12개 매체[footnote]경향신문, 국민일보, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레신문, 한국일보, 매일경제, 서울경제, 헤럴드경제, 파이낸셜뉴스[/footnote]의 26년 치 정치, 사회, 경제, 문화 310만 건 기사에 대해 뉴스 빅데이터 분석을 하고 정보원과 기관, 주제를 중심으로 한 연결망을 시각화했다.

검색이 안 되어 아쉽지만, 흔히 보는 26년 디지털 뉴스의 역사를 이렇게 저렇게 들여다볼 수 있는 셈이다. 정보원과 주제의 리스트와 순위 데이터도 공개했다.

-빅카인즈가 추구하는 최종 목표는 무엇인가. 

흔히 뉴스 빅 데이터 분석을 데이터 저널리즘과 혼동하는 경우가 종종 있다. 사실 둘은 정 반대다. 데이터 저널리즘은 데이터를 뉴스로 만드는 과정이다. 반면 뉴스 빅데이터 분석은 뉴스를 데이터로 만드는 것이다. 왜? 다른 데이터와 결합해 다양한 콘텐츠와 서비스를 다시 만들기 위해서다.

예를 들어 뉴스 빅 데이터는 기자에겐 뉴스 빅 데이터 활용 기사가 될 수 있지만, 학자에겐 논문이, 변호사에겐 변론문이, 작가에겐 시나리오가, 컨설턴트한텐 보고서가, 대학생에겐 리포트가, 일반 사용자에겐 UGC(user generated content)가 될 수 있다.

물론 뉴스만으론 부족하고 논문이나 판결문, 소설, 방송, 영화와 같은 비정형 데이터 형태의 다른 콘텐츠도 데이터가 되면 더 좋다. 이들이 모두 정형화된 빅 데이터가 돼 다시 만나서 새로운 생명을 얻게 된다.

뉴스 빅 데이터 분석이 겨냥하는 건 언론사나 미디어 스타트업이 데이터와 기술 기반 인터넷 회사가 되는 것이다. 개발자 컨퍼런스를 열고 스타트업에도 투자하지만, 저널리즘이란 사회적 가치 추구한다는 점에서 여전히 언론이 중요하다.

관련 글