로봇 저널리즘 (상): 로봇은 지식을 생산할 수 있을까

17세기 초 금속활자 인쇄기술의 확산과 더불어 유럽에서 시작한 종이신문. 종이신문은 그 화려하고 영광스러운 역사를 뒤로하고 마침내 소멸의 과정을 시작하고 있다.

소멸하는 종이신문, 왜 미국 영국이 먼저 사라질까?

지난 2010년 호주의 미래학자 로스 도슨(Ross Dawson)은 종이신문이 완전히 사라지는 시점을 국가별로 예측했다. 도슨은 미국은 2017년, 영국은 2019년에 종이신문이 사라질 것으로 예측했다. 한국은 이보다 한참 뒤인 2026년, 인쇄 문화가 여전히 강세인 일본은 2031년에 종이신문을 역사의 뒤안길로 남겨둘 것으로 전망된다.

이러한 예측 시나리오의 정확성은 그리 높지 않다. 언론사 문화, 정부지원 규모, 소비자 취향 등 다양한 변수가 종이신문의 운명을 연장할 수 있기 때문이다. 그러나 ‘왜 미국과 영국의 종이신문이 한국보다 먼저 사라질까?’라는 의문이 생긴다.

이렇게 나라마다 종이신문 소멸 속도에 차이를 주는 가장 큰 변수는 종이신문을 대체하는 저널리즘의 혁신 수준이다. 디지털 저널리즘의 혁신 강도가 높으면 높을수록 종이신문 소멸 속도가 빨라질 가능성이 높기 때문이다. 디지털 저널리즘 혁신에는 뉴스룸 등 조직 혁신, 이용자 참여 및 분석 등 시장과 고객 혁신, 비즈니스 모델 혁신, 저널리즘 표현 형식 혁신, CMS 등 기술 혁신 등이 포함된다.

저널리즘 표현 형식에 대한 실험들도 이어지고 있다. 데이터 저널리즘, 구조화된 저널리즘, 라이브 블로깅, 드론 저널리즘 그리고 로봇 저널리즘이 여기에 해당한다. 로봇 저널리즘 또는 알고리즘 저널리즘은 보도 기사를 자동으로 생성하는 소프트웨어에 기반을 둔 저널리즘을 말한다.

알고리즘으로 생산한 기사들

프로야구 최종 승자를 가를 한국시리즈 7차전. 경기 진행 상황을 순간순간 속보로 전하는 기자들로 으레 붐비기 마련인 기자석은 한산하다. 경기 종료 뒤 진행할 감독이나 선수 인터뷰를 미리 준비하는 몇몇 기자만이 눈에 띌 뿐이다. 대신 그 자리를 차지한 주인공은 따로 있는 게 아닌가.

알고리즘으로 무장한 로봇이 기자를 대신해서 열띤 승부의 한 장면 한 장면을 뉴스로 ‘생산’해내고 있다. 마치 용접로봇이 수천 개의 파란 불꽃만을 나부끼며 자동차를 조립해내듯 로봇이 멋진 기사를 써내는 야구장 기자석 풍경. 과연 상상 속에서나 가능한 것일까?

미국에서 나타난 움직임은 현실임을 일깨워준다. 미국의 온라인 콘텐츠 회사 오토메이티드 인사이트(Automated Insights)는 초당 9.5개의 기사를 생산하는 속도로 2013년 총 3억 개에 이르는 기사를 생산했으며, 2013년 로봇이 생산한 월평균 1만 5천 개의 기사를 미국 주요 언론사에 판매했다. 내러티브 사이언스(Narrative Science)는 한발 더 나아가 스포츠 기사뿐 아니라 경제 전문 미디어 기업 포브스에 알고리즘으로 만들어낸 금융 기사를 판매하고 있다.

[포브스]에 실린 [내러티브 사이언스]의 알고리즘에 의해 생산된 기사 — 포브스에 실린 내러티브 사이언스의 알고리즘에 의해 생산된 기사

영국의 가디언은 지난 2013년 11월부터 종이신문을 사람이 아닌 알고리즘으로 생산하는 프로젝트를 시작했다. “길지만 좋은 읽을거리(The Long Good Read)” 라는 이름의 알고리즘에 의해 자동 생산되는 주간 신문은, 가디언 뉴스사이트에서 길이가 긴 기사를 댓글, 소셜 공유 등의 기준에 따라 선별하여 자동으로 편집하여 24쪽의 타블로이드 판형으로 인쇄한 종이신문이다. 사람의 편집을 거치지 않는 최초의 종이신문인 것이다.

바야흐로 알고리즘에 기초한 자동 기사생산은, 종이신문이든 디지털 뉴스든, 2013년을 통과하면서 영미권을 중심으로 빠른 속도로 퍼져나가고 있다.

알고리즘 저널리즘 1단계: 데이터를 분류하고 정리하기

로봇 저널리즘 또는 알고리즘 저널리즘의 첫 번째 단계는 편집국 보조수단으로 발전했다. 예를 들면, 로스앤젤레스 타임즈는 로스앤젤레스와 그 주변 지역에서 발생하는 지진 관련 정보를 자동으로 수집하고, 정리하고, 사실을 확인 및 요약하기 위해 퀘이크봇(Quakebot)이라는 소프트웨어를 이용하고 있다.

기자가 특정 뉴스를 제작하고 있는 동안, 보조수단으로서 소프트웨어는 지금까지 작성된 뉴스를 계속 요약하고, 녹취 자료를 글로 전환하고, 글에 어울리는 도표 및 이미지를 제안하는 일들을 담당하고 있다. 유튜브의 자동 자막 기능처럼, 소프트웨어는 정치인의 국회연설 음성을 자동으로 글로 전환할 수 있으며, 해당 정치인의 과거 자료와 빠른 비교분석을 가능케 한다.

다시 말해 알고리즘 저널리즘의 첫 번째 단계는 빠른 속도로 생산되는 막대한 양의 데이터 또는 서로 다른 출처를 가진 데이터를 분류하고 정리하는 기술을 말한다. 예를 들어 적지 않은 뉴스사이트는 구글 애널리틱스(Google Analytics)를 분석도구로 활용하고 있다. 하지만 날로 진화하는 구글 애널리틱스의 데이터를 정리하여 매일 요약 보고서를 만들어내는 일은 결코 쉬운 일이 아니다. 내러티브 사이언스는 2014년 퀼 인게이지(Quill Engage)라는 서비스를 선보였다. 퀼 인게이지는 구글 애널리틱스 자료를 평가하여 매일 간략한 보고서를 자동으로 생산한다.

http://vimeo.com/85972804

이와 같은 데이터 분류 및 요약 기술은 저널리즘에 제한되지 않으며 데이터 분석(data mining)의 일반 기술이라 말할 수 있다. 이러한 맥락에서 미국 중앙정보국(CIA)이 데이터 분류 및 요약 기술을 가지고 있는 내러티브 사이언스에 (간접적으로) 투자한 이유를 찾을 수 있다.

알고리즘 저널리즘 2단계: 의미를 해석 후 스스로 기사 작성

알고리즘 저널리즘의 두 번째 단계는 수집된 데이터 및 정보에 기초해서 소프트웨어가 의미를 해석하고 스스로 기사 생성을 진행하는 수준이다. 물론 최종 발행 결정, 전체 과정에 대한 감독, 해당 알고리즘의 생산 등에 인간의 노동이 필요하다. 그러나 이 두 번째 단계는 기사 생성의 자동화 수준에서 볼 때 진정한 의미의 알고리즘 저널리즘으로 부를 수 있다.

이러한 알고리즘에 기초한 기사 자동 생산의 역사는 2009년 4월 미국 노스웨스턴대학교 저널리즘과 및 컴퓨터공학과 학생 4명으로부터 시작됐다. 이들 4명은 한 수업에서 조별 연구과제를 작성하기 위해 뭉친 팀원이었다. 당시 그들에게 주어진 협업 연구과제는 디지털 뉴스시장의 확대에 따라 지역 언론사가 겪고 있는 문제가 무엇인지 정의하고 그 해결책을 제시하는 것이었다.

점점 더 많은 사람이 종이매체보다 온라인에서 정보를 얻고 있다. 독자의 이동 경로를 따라, 전통적인 미디어 기업들도 종이매체에서 인터넷으로 옮겨가며 새로운 수익을 만들어내야 한다는, 쉽지 않은 과제에 맞닥뜨리고 있다. 특히 미국 내 지역 언론사는 구인/구직, 중고차 매매, 부동산 매매 등 종이매체 안내광고가 온라인으로 옮겨감에 따라 재정적 어려움을 겪고 있다. 다른 한편으로 기자들 역시 마감 시간이 따로 없이 계속해서 터지는 이슈와 사건을 속보로 전해야 하는 온라인 뉴스 생산 방식에 힘겹게 적응하는 중이다.

이런 상황에 놓인 미국 지역 언론사와 기자들에게 어떤 해결책을 만들어줄 수 있을까를 놓고 이들 4명은 머리를 맞댔다. 이들은 지역 언론의 편집국이 빠르게 축소되고 개별 기자들의 노동강도가 더욱 높아지는 현실을 눈으로 확인했다. 기자들의 단순노동을 줄여 그들이 좀더 가치 있는 일에 집중하도록 돕자는 데 학생들은 뜻을 모았다.

이런 배경에서 개발된 스탯몽키(Stats Monkey)라는 이름의 알고리즘은 지역 리그 야구경기에 대한 뉴스를 자동으로 생산하는 기능을 가지고 있다. 이들이 품은 기대는 의외로 단순했다. 기자들은 스탯몽키를 활용해 매일매일 진행되는 야구경기를 요약하는 기사 생산을 컴퓨터에 맡기는 대신, 분석 기사와 인터뷰 등 좀 더 깊이 있는 기사 생산에 집중할 수 있는 시간적 여유를 갖게 될 것이다.

스탯몽키는 크게 두 가지 기술 요소로 구성돼 있다. 먼저 월드와이드웹에서 경기와 관련된 정보를 실시간으로 수집한다. 이렇게 수집된 비정형 데이터는 이른바 ‘의사결정나무 학습 알고리즘’에 의해 분류된다. 의사결정나무 학습 알고리즘을 통해 해당 야구경기에 나선 주요 선수와 경기 진행 상황이 분석되고, 그 결과가 이미 제작된 기본 문장에 입력된다. 이런 방식으로 단 몇 초 만에 야구경기 기사가 완성된다. 데이터베이스에서 텍스트를 자동 생산하는 스탯몽키의 기술은 진화를 거듭하면서 내러티브 사이언스라는 기업의 탄생으로 이어진다.

인간과 알고리즘 생산 기사, 구별 어려워

그렇다면 알고리즘 기사와 사람이 손수 만든 기사 사이엔 어떤 차이가 있을까? 둘의 차이점을 알아보기 위해 스탯몽키에 의해 자동 생산된 LA 에인절스 대 보스턴 레드삭스의 경기 기사 일부와, 같은 경기를 다룬 뉴욕타임스 기사의 한 부분을 비교해보자.

“9회 2명의 주자가 나가 있었지만, LA 에인절스의 상황은 다소 비관적이었다. 그러나 블라디미르 게레로의 적시타로 에인절스는 지난 일요일 펜웨이파크에서 열린 보스턴 레드삭스와의 경기를 7 대 6으로 승리했다. 게레로는 에인절스 주자 2명을 홈으로 불러들였다. 이로써 게레로는 4타수 2안타를 기록했다.”

– 스탯몽키 기사 일부분

“보스턴 레드삭스는 23년 만에 포스트시즌 경기에 도전한다는 희망을 갖고 있었다. 데이비드 핸더슨이 기념 시구를 던졌다. 핸더슨은 1986년 레드삭스와 에인절스의 아메리칸리그 챔피언십 경기에서 레드삭스가 쳐낸 9회 마지막 공격 역전 홈런의 주인공이다. 그러나 이번에는 레드삭스가 에인절스에 의해 챔피언십 경기에서 탈락했고, 핸더슨은 이번에도 경기는 마지막 순간까지 안심할 수 없다는 것을 증명했다.”

– 뉴욕타임스 기사 일부분

정보 위주로 구성된 메마른 알고리즘 기사와 풍부한 역사적 지식을 담고 있어 읽는 재미를 더하는 뉴욕타임스 기사는 아직은 분명한 질적 차이를 보인다.

2014년 3월 스웨덴 클러월 교수가 발표한 실험 논문을 보면, 대학생 46명으로 구성된 작은 규모의 실험참가자는 인간과 알고리즘에 의해 각각 생산된 미국미식축구 보도 기사에 대한 평가를 진행했다. 물론 기사 생산자가 인간인지 알고리즘 소프트웨어인지 실험참가자에게 사전에 알려주지 않은 블라인드 테스트였다. 그리고 인간과 소프트웨어가 쓴 기사는 각각 다음의 항목에서 더 높은 점수를 받았다.

기자가 쓴 기사
- 조리 있다(cohrent)
- 잘 썼다(well written)
- 명쾌하다(clear)
- 읽기 편하다(pleasant to read)
- 읽는 재미가 있다(interesting)
소프트웨어가 생산한 기사
- 설명적이다(descriptive)
- 이용하기 좋다(useable)
- 정보가 풍부하다(informative)
- 지루하다(boring)
- 정확하다(accurate)
- 신뢰할 수 있다(trustworthy)
- 객관적이다(objective)

클러월 교수의 실험 논문 중에서 — 클러월 교수의 실험을 따르면, 인간이 쓴 기사는 읽기 편하지만, 소프트웨어가 쓴 기사는 정보가 풍부하고 믿을만했다.

한편 알고리즘이라는 자동화 기술이 지금까지 온전하게 인간의 지식노동 영역이던 기사 작성마저 대체할 수 있다는 사실을, 스탯몽키는 보여준다. 물론 알고리즘 또는 소프트웨어에 의한 기사 생산의 자동화 수준은 고품격 저널리즘의 수준과 비교할 수 없다.

그러나 (단순) 사건 보도, 주식시장 동향, 스포츠 단신 뉴스 등은 인간의 영역에서 큰 문제 없이 로봇의 영역으로 넘어갈 수 있다. 나아가 인간 노동력으로는 경제적 효율성을 담보하지 못하는 특정 사건에 대한 지속적인 업데이트, 독자 개인별 취향에 최적화된 맞춤형 뉴스 서비스 생산 등에 알고리즘 저널리즘 기술을 이용할 수 있다.

[box type=”note”]이 글은 “로봇 저널리즘 (하): 기술의 도약과 인간의 불안”으로 이어집니다. 이 글은 정보통신정책연구원(KISDI) [ICT 인문사회 융합동향](2014년 6월호)에 게재된 필자의 글을 수정 보완한 것입니다. (편집자) [/box]

5 댓글

kipact 댓글:

2014년 06월18일., 7:56 오후

와웅~!
catcloud 댓글:

2014년 06월19일., 3:24 오후

흥미롭게 읽었습니다. 다음 편도 기대됩니다. 혹시 이글을 퍼가도 될까요? 링크를 남기겠습니다. http://cafe.daum.net/Europa/LmVK/533
민노씨 댓글:

2014년 06월19일., 4:17 오후

전문을 퍼가는 것은 권장하지 않고, (굳이 전문을 모두 퍼가시면 어쩔 수 없지만.. ^ ^)
글 일부를 소개하고, 글쓴이(강정수)와 매체명(슬로우뉴스) 원래 주소(링크)를 표시해주시면 고맙겠습니다.
핑백: 대학을 보다 | [선배들의 솔직한 직장생활] 신입사원 퇴근일지③
yuri choi 댓글:

2015년 05월20일., 9:07 오전

로봇의 등장으로 많은 직업이 영향을 미치는 것은 당연한 일이지만, 기사까지 쓰리라고는 생각하지 못했네요. 창의적인 작업까지 하게될까요. 한편 놀랍고 한편 두렵습니다

댓글이 닫혔습니다.

로봇 저널리즘 (상): 로봇은 지식을 생산할 수 있을까

소멸하는 종이신문, 왜 미국 영국이 먼저 사라질까?

알고리즘으로 생산한 기사들

알고리즘 저널리즘 1단계: 데이터를 분류하고 정리하기

알고리즘 저널리즘 2단계: 의미를 해석 후 스스로 기사 작성

인간과 알고리즘 생산 기사, 구별 어려워

기사형 광고의 법적 쟁점과 개선 방향

소년의 시간: 영원의 시간에 갇힌 죽음의 구조

로봇이 인간 가치를 학습하기 위한 조건

테크 거물들의 발표: "치명적인 오류가 발생하였습니다."

아마존닷컴, 오프라인 서점 300~400개 연다고?

5 댓글

Slow Letter: July 14, 2026.

“광주 반도체 클러스터, 원전 없이는 불가능? 어디서 거짓말을.”

세수 대박? 800조+알파, 확실하게 돈 쓰는 정부로 간다: 슬로우레터 7월14일.

1인 1에이전트, 세계 최초 전 국민 무료 AI 올해 나온다.

가난의 대물림이 끝나고 있다…결혼도 출산도 안 하니까

슬로우레터 구독 신청.

개인정보 수집 및 이용

소비자에겐 세 가지 무기가 필요하다

Slow Letter: July 13, 2026.

보완 수사권 국물도 남김 없이 폐지, 민주당 교통정리도 안 됐다: 슬로우레터 7월13일.

소멸하는 종이신문, 왜 미국 영국이 먼저 사라질까?

알고리즘으로 생산한 기사들

알고리즘 저널리즘 1단계: 데이터를 분류하고 정리하기

알고리즘 저널리즘 2단계: 의미를 해석 후 스스로 기사 작성

인간과 알고리즘 생산 기사, 구별 어려워

관련 글

5 댓글

개인정보 수집 및 이용