챗GPT에게 저널리즘을 맡겨서는 안 되는 이유.

편집자 주.

이 글은 한국출판마케팅연구소에서 발행하는 격주간 ‘기획회의’에 실렸던 이정환의 글을 연구소의 양해를 구해 다시 게재한 것입니다.

아마 여러분도 지난 몇 달 동안 “챗GPT 써봤더니”나 “챗GPT에게 물어봤더니”로 시작되는 기사를 숱하게 읽었을 것이다. 그래서 지금쯤 이런 생각이 들 것이다. 그게 뭐 대단한 거라고. 인공지능(AI)이 기자들을 대체할 날도 얼마 남지 않았군. 그리고 이렇게 생각했을 수도 있다. ‘기레기’들보다는 AI 기사가 차라리 정확하지 않을까.

하지만 챗GPT는 사람이라면 결코 하지 않을 황당무계한 실수를 저지르곤 한다. 살롱닷컴에 이런 사례가 소개됐다.

질문 : “숟가락과 거북이 중 어느 것이 더 빠릅니까?”
GPT-3 : “일반적으로 숟가락이 거북이보다 빠릅니다. 숟가락은 빠르게 움직일 수 있고 짧은 시간 안에 먼 거리를 이동할 수 있는 반면 거북이는 속도가 훨씬 느립니다.”

GPT가 학습한 정보에는 거북이가 느리다는 사실이 포함돼 있지만 숟가락의 속도에 대한 데이터가 없기 때문에 넘겨 짚어 대답을 한 것이다. 이런 현상을 AI의 환각(hallucinations) 현상이라고 부른다. 어린아이도 아는 상식을 모르기 때문에 벌어지는 일이다. (GPT-4가 등장했지만 이런 환각 현상은 다양한 형태로 반복되고 있다.)

슈퍼 인공지능의 환각 현상.

칼럼니스트 제프리 펑크는 살롱닷컴 기고에서 “우리는 흔히 말하기 전에 생각하라고 하지만 챗GPT 같은 대형 언어 모델(LLM)은 생각하기 전에 말을 한다”면서 “대화를 하고 있는 것 같은 착각을 불러 일으키지만 챗GPT는 본질적으로 뇌가 없다”고 평가했다.

챗GPT는 통계적 패턴을 찾아내는 데 뛰어나지만 의미 있는(meaningful) 패턴과 의미 없는(coincidental) 우연을 구분하지 못하는 경우가 많다. “포크에 물을 주는 양과 포크가 자라는 속도에 상관성이 있느냐”는 질문에 “의미가 있다”고 답변하기도 했다. 사람들은 이런 환각 현상을 마술처럼 즐기지만 이게 본격적으로 AI가 사람의 일을 대체한다면 문제가 달라진다. 채용 선발과 대출 승인, 의료 자문, 형사 판결, 군사 작전 등등에서 챗GPT를 어느 정도까지 신뢰할 수 있을까. 저널리즘 역시 마찬가지다.

챗GPT 열풍이 달아오르던 무렵, IT 전문 신문 씨넷(CNET)이 AI가 작성한 기사를 몰래 내보냈다가 망신살 뻗친 적이 있다. 작성자가 ‘씨넷 머니(CNET Money)’라고 돼 있는데 작성자 이름을 클릭하니 “이 기사는 AI 엔진의 도움을 받았다”는 문구가 떴다. 그런데 클릭하기 전까지 독자들은 이게 AI가 쓴 기사란 걸 알 방법이 없었다. 그런데 들여다 보니 기본적인 사실 관계가 틀린 기사가 너무 많았고 논리 구조도 엉망이었다. 과학 잡지 네이처가 평가한 것처럼 “그럴듯한 헛소리(plausible bullshit)”로 가득 찬 기사였다.

씨넷의 편집국장 코니 굴리엘모가 뒤늦게 “AI 보조 도구를 기사 작성에 어떻게 활용할 수 있는지 테스트하는 과정”이라고 해명했지만 단순히 내부적으로 테스트하는 단계를 넘어 이런 기사를 버젓이 발행했다면 완전히 다른 문제가 된다. 게다가 한 달이 지나도록 문제를 파악하지 못했다는 건 더 심각하다. 확인 결과 AI가 작성한 77건의 기사 가운데 41건의 기사에서 심각한 오류가 드러났고 결국 기사를 정정해야 했다.

씨넷이 챗GPT를 썼는지 다른 엔진을 썼는지 알려진 바는 없다. 정보기술 신문 더버지(The Verge)에 따르면 씨넷은 꽤 오래전부터 기사 작성에 자동화 도구를 이용해 왔는데 심지어 씨넷 직원들도 어떤 기사를 AI가 만들고 어떤 기사는 동료 기자들이 썼는지 알지 못할 정도였다. 투명성과 신뢰, 기사의 완결성에 대한 고민이 전혀 없었다는 이야기다.

쓰레기 트래픽을 만들 값싼 AI 노동력.

씨넷은 나름 권위 있는 신문인데 어쩌다가 이렇게 평판에 치명적인 일을 저질렀을까. 더버지에 따르면 씨넷은 2022년에 웹사이트 트래픽과 광고 매출이 크게 줄었다. 2020년 레드벤처스가 씨넷을 5억 달러에 인수한 이후 수익성을 끌어올려야 한다는 압박이 가중됐고 최근에는 대규모 구조조정을 단행하기도 했다. 그러니까 씨넷의 AI 기사는 철저하게 비즈니스 차원의 선택이었다는 이야기다.

씨넷도 이런 AI 자동 생성 기사가 정확성이 떨어진다는 걸 모르지는 않았을 것이다. 기사의 완결성은 떨어지더라도 당장 검색 유입에 효과적이라고 판단했기 때문에 보이지 않는 곳에서 쓰레기 트래픽을 긁어 들이려다 들통난 것이다. 실제로 이런 기사들이 웹사이트 메인에 오르는 일은 없다. 어디선가 검색을 타고 들어온 독자들은 실망하고 떠나겠지만 광고 매출이 남는다. 클릭 한 건에 0.01달러도 안 되는 값싼 트래픽을 얻기 위해 사람을 투입할 수는 없지만 찍어내듯 기사를 쏟아낼 수 있는 AI라면 이야기가 다르다.

챗GPT 이전에도 날씨나 주식 속보, 야구 중계 등 일부 영역에서 알고리즘으로 기사를 자동 생성하는 사례가 없었던 건 아니지만 슬레이트(Slate)의 표현에 따르면 지금은 “AI가 무거운 짐을 나르는 당나귀 이상의 일을 하려고 하는 상황”이다. 사람을 돕는 걸 넘어 사람 흉내를 내고 있는데 구분이 안 된다는 게 문제의 핵심이다. AI가 쏟아내는 텍스트가 세상의 진실을 가린다는 게 문제의 본질이라고 할 수 있다.

이런 상황을 방치하면 AI가 작성한 기사를 AI가 크롤링해서 AI 알고리즘으로 검색 결과를 보여주고 여기에 AI가 갖다 붙인 광고로 인간이 돈을 버는 시스템이 뉴스 산업의 지배적인 모델로 자리잡을 수도 있다. 당장 구글을 비롯해 검색 서비스 입장에서는 챗GPT 같은 대화형 모델이 쏟아내는 저급한 콘텐츠를 골라내는 일이 시급한 과제가 됐다.

데이터앤소사이어티의 자넷 헤이븐은 니만랩 기고에서 “알고리즘은 통제를 벗어나는 경우가 많다”면서 세 가지 예측을 내놓은 바 있다. 첫째, 신뢰를 악화시키고 분열을 키우기 위해 챗GPT나 유사한 도구가 늘어날 것이다. 사람들을 공개 담론에서 벗어나 동질적인 커뮤니티로 말어낼 가능성이 있다. 둘째, AI가 어떻게 사회에 도움이 될 것인가 또는 피해를 줄일 것인가에 대한 실험과 연구가 늘어날 거고, 셋째, 보호와 안전 장치가 늘어나야 한다. 이에 대한 사회적 투자가 필요하다는 이야기다.

데이터앤소사이어티 연구 책임자인 제나 버랠은 포인터 기고에서 “AI를 치켜세우거나 의인화해서는 안 된다”면서 “셰익스피어를 떠올리지 말고 고도로 발달한 자동 완성 기능일 뿐이라고 생각하라”고 조언했다. 머신 러닝(machine learning, 기계 학습)이 아니라 데이터 마이닝(data mining, 자료 수집)일 뿐이고 인텔리전스(지능)가 아니라 통계 최적화(statistical optimization.)라고 불러야 한다는 주장이다. AI에 대한 환상이 문제라면 그걸 깨부수는 것도 저널리스트들의 역할이다. 기술 기업들의 마케팅이나 과장 광고를 반복 재생하거나 낙관적인 전망을 늘어놓기 보다는 질문을 던지고 실체를 드러내야 한다. 흔히 챗GPT가 글을 쓸 수 있지만 생각은 할 수 없다고 말하곤 하지만 애초에 글을 쓴다는 것도 과장이거나 착각이라는 이야기다. 진실을 찾는 것은 충분한 데이터를 확보하고 이를 활용하는 알고리즘을 만드는 것보다 훨씬 더 복잡한 일이기 때문이다.

감탄하지 말고 질문을 던져라.

뉴스가드의 최고경영자 스티븐 브릴은 베네티페어와 인터뷰에서 예일대 저널리즘스쿨 수업에서의 경험을 털어놓았다. 학생들에게 “인터넷 시대라면 워터게이트 사건이 어떻게 다르게 전개됐을 것 같은가”라는 주제로 에세이를 쓰게 했는데 챗GPT에게 같은 질문을 던졌더니 진부하지만 완벽하게 일관된 설명을 내놓았다. 학생들의 에세이와 비교해도 결코 뒤지지 않는 수준이었다. 브릴은 “기자들이 하는 일은 사람을 만나서 인터뷰하고, 비밀을 파헤치고 새로운 주장을 끌어내는 것인데 챗GPT로 이런 일을 대신할 수는 없다”면서도 “숙련된 기자들은 일자리를 잃을 걱정은 하지 않아도 될 것 같지만 일부 칼럼니스트들은 챗GPT에게 자리를 내줄 수도 있다”고 말했다.

챗GPT는 이제 막 등장한 상태고 빠른 속도로 진화하고 있다. 패러미터가 100조 개에 이르는 GPT-4가 등장했고 마이크로소프트의 웹브라우저 빙(Bing)에 챗GPT가 결합하면서 실시간으로 검색 결과를 반영하게 됐고 치명적인 오류가 상당 부분 줄어들었다는 평가도 나온다.

그러나 테드 창이 지적한 것처럼 챗GPT의 대형 언어 모델은 여전히 웹의 흐릿한 JPEG 압축 파일처럼 작동한다. 사진처럼 선명해 보이지만 확대하면 픽셀이 깨지고 왜곡이 발생한다. 언어학자 노엄 촘스키는 뉴욕타임스 기고에서 “그들은 진실과 거짓을 모두 생산하고, 윤리적인 결정과 비윤리적인 결정을 똑같이 지지한다”면서 “표준적인 주장을 자동 완성으로 요약하고, 어떤 것에 대해서도 입장을 취하는 것을 거부하면서 그저 명령을 따른다고 방어하고 창조자에게 책임을 전가한다”고 비판한 바 있다.

IT 칼럼니스트 알렉스 칸트로위츠는 베네티페어와 인터뷰에서 “가까운 미래에 웬만한 전문 기자보다 더 나은 글쓰기와 분석을 할 수 있게 될 것“이라면서 ”독창적인 리포팅을 하고 사람들이 아직 알지 못하는 것을 발굴하는 사람이라면 여전히 경쟁력이 있겠지만 단순 분석 업무를 하는 사람이라면 다른 일을 찾아야 할 수도 있다”고 덧붙였다.

검색엔진 전문가 게일 브레튼은 유로뉴스와 인터뷰에서 “어차피 벌어지고 있는 일이니 좋은 기술인지 나쁜 기술인지 따지는 것보다 이 기술을 어떻게 활용하고 어떻게 거짓 정보가 확산되는 것을 막을 수 있을 것인가에 논의를 집중해야 할 때”라고 강조했다. 브레튼은 “검색엔진은 여전히 사람이 만든 콘텐츠를 AI가 만든 콘텐츠보다 우대한다”면서 “여전히 사람의 감독 없이 AI가 기사를 작성할 수는 없기 때문에 편집의 힘은 매우 중요하다”고 덧붙였다.

저널리즘의 핵심은 진실에 대한 책임.

인디즈타임스(In These Times)의 노동 전문 기자 해밀턴 놀란이 “인간의 마음에서 나온 것이 아니라면 저널리즘이 될 수 없다”고 규정한 것은 의미 심장하다. AI가 만든 복제품이 충분히 그럴 듯하지 않아서가 아니라 저널리즘에 필요한 책임감이 빠져 있기 때문이라는 지적이다. 사람은 늘 실수를 하기 마련이지만 실수에 책임을 진다. 기사가 잘못 나가면 정정 보도를 하고 평판에 큰 타격을 받는다. 챗GPT는 인간을 흉내내지만 저널리즘의 윤리에 대한 어떤 가이드라인도 따르지 않는다.

저널리즘이란 단순히 정보를 취합해 게시하는 데 그치는 게 아니라 왜 이 뉴스가 중요한지 독자들에게 설명할 수 있어야 하고 이 뉴스가 어떻게 만들어졌는지 그리고 취재원이 누군지 공정성을 확보하기 위해 어떤 노력을 했는지, 한쪽의 입장에 편향되지는 않았는지, 제목과 인용문이 공정한지 등등의 질문을 포함해야 한다. 진정한 저널리스트라면 이런 질문에 답할 수 있고 근거를 제시할 수 있어야 한다. 그러나 챗GPT는 출처와 근거를 정확하게 밝히지 못하거나 질문할 때마다 다른 답변을 내놓는다.

챗GPT는 관련 없는 이질적인 요소를 통해 새로운 질적인 무엇인가를 만들어내는 데는 매우 서툴다. 새로운 관찰이나 주장을 제시하는 것도 어렵다. 과학 소설가 테드 창은 “이미 공개된 정보를 다시 포장하는 것이 목표일 때만 의미가 있다”고 지적하기도 했다. 카피 라이팅이나 블로그 교정 교열은 자동화할 수 있지만 사실 확인과 저널리즘 프로세스를 대체할 수는 없다는 이야기다. 신속하게 질문에 답변을 내놓는 것과 책임감을 갖고 진실을 이야기하는 것은 전혀 다르다.

사람 기자들이 챗GPT보다 뛰어나다는 이야기가 아니다. 놀란 역시 “신문사에 게으르고 선정적이고 무식한 아이비리그 출신 멍청이들이 가득 차 있다는 걸 모르는 사람은 없다”면서 “하지만 그렇기 때문에 저널리즘 윤리가 생겨나고 책임과 신뢰를 높이기 위한 목표가 있는 것”이라고 강조했다. 인공지능은 책임을 질 수 없기 때문에 저널리즘이 아니고 이런 텍스트를 검증없이 발행하는 건 매우 비윤리적이라는 설명도 명쾌하다.

놀란은 한 발 더 나가 “어느 언론사도 AI가 직접 생산한 텍스트를 기사로 발행하지 않도록 하는 가이드라인을 만들어야 한다”면서 “(적어도 저널리즘의 영역에서는) AI가 인간을 보조할 수 있지만 인간을 대체해서는 안 된다”고 강조했다. “만약 이런 원칙이 무너진다면 저널리즘은 파괴될 것”이라는 경고도 섬뜩하다.

여러 가지 전망이 엇갈리고 있지만 분명한 것은 있다. AI가 잘 하는 것은 AI에게 맡겨야 한다. AI가 좀 더 진화한다면 사실 확인과 검증은 물론이고 맥락을 분석하고 통찰을 쏟아내는 단계까지 이를 수도 있겠지만 그때까지는 사람이 할 수 있는 일을 해야 한다. AI가 공론장에 미치는 위협을 경계하는 동시에 저널리즘의 질적 강화를 위한 논의가 필요할 때다. 저널리즘의 사회적 책임은 진실을 드러내고 토론을 제안하는 것이다. 우리는 완벽하지 않지만 그렇기 때문에 저널리즘이 존재하고 저널리즘 윤리가 뒤따르는 것이다.

참고 문헌.

Jeffrey Lee Funk, AI chatbots learned to write before they could learn to think, Salon, 2023년 1월22일.
Mia Sato, CNET found errors in more than half of its AI-written stories, The Verge, 2023년 1월26일.
Nitish Pahwa, Chatbots Suck at Journalism, Slate, 2023년 2월23일. Janet Haven, ChatGPT and the future of trust, Nieman Lab, 2022년 12월.
Jenna Burrell, It’s time to challenge the narrative about ChatGPT and the future of journalism, Poynter, 2023년 2월9일.
Joe Pompeo, ChatGPT’s Mind-Boggling, Possibly Dystopian Impact on the Media World, Venity Fair, 2023년 1월26일.
Ted Chiang, ChatGPT Is a Blurry JPEG of the Web, NewYorker, 2023년 2월9일.
Noam Chomsky, Noam Chomsky: The False Promise of ChatGPT, New York Times, 2023년 3월8일.
Sophia Khatsenkova, Will ChatGPT and other AI tools replace journalists in newsrooms?, Euro News, 2023년 1월2일.
Hamilton Nolon, How to Stop AI From Eating Journalism, In These Times, 2023년 2월8일.