[box type=”note”]이 글은 “로봇 저널리즘 (상): 로봇은 지식을 생산할 수 있을까”에서 이어집니다. (편집자)[/box]
스탯몽키 등 기사생산 알고리즘은 인간이 이야기를 전개하는 독특한 방식과 이야기에 주장과 감정 등을 담아내는 능력을 가지고 있지 않다. 그러나 스탯몽키를 통해 시작된 알고리즘 기술진화는 데이터를 수집하고, 주어진 규칙에 따라 데이터에 의미를 부여하고, 다양한 정보를 종합적으로 판단하는 등 지식생산을 자동화하는 수준까지 발전하고 있다.
지식의 의미 변화
데이비드 와인버거(David Weinberger)는 2012년 쓴 책 [지나치게 많아서 알 수 없는(Too Big to Know)]에서 다음과 같이 주장했다.
“도서관 또는 과학 학술지 등에서 지식을 얻는 익숙한 방법은 축소를 통한 지식획득(knowing-by-reducing)이다. 이와는 다르게 거대하고 서로 연결된 웹에서 지식은 포함하는 과정(knowing-including)이다. 포함하는 지식은 과거의 축소하는 지식과 다르다. 과학 지식이 달라지고, 경제 지식이 변화하고, 교육 지식이 바뀌고 있으며, 정부에게 있어 지식은 과거의 그것이 아니며, 우리 모두에게 있어 과거의 지식과 오늘의 지식은 다르다.”
와인버거가 내세우는 달라진 지식 개념을 이해하기에 앞서, 지식에 대한 전통적인 의미는 무엇인지, 데이터 및 정보와 지식은 서로 어떻게 구별되는지를 살펴보자. 지식은 고대 그리스에도 등장하고 있는 매우 오래된 개념이다. 반면 정보는 20세기 중반 이후부터 비로소 널리 사용되고 있는 개념이다. 역사적으로 서로 다른 맥락에서 형성된 지식과 정보라는 두 개의 개념은 그렇다면 어느 수준에서 상호보완 관계를 이룰까 또는 어떤 점에서 서로 충돌할까?
정보와 지식의 구별
정보라는 개념은 컴퓨터 시스템이 발전하면서부터 널리 사용되어 왔다. 그러나 정보를 몇 개의 단어 또는 몇 문장으로 정의하거나 설명하는 것은 쉽지 않은 일이다. 때론 컴퓨터 시스템에서 흐르는 데이터나 인간과 컴퓨터 사이에서 오고가는 데이터가 정보라고 불리기도 한다. 한편 컴퓨터, 스마트폰 등 정보를 접하고 다루는 장치가 정보기기라는 이름을 얻고 있다. 서로 다른 문맥에서 정보라는 개념이 사용되고 있다. 한국어 위키백과를 살펴보면 정보 개념의 모호성은 더욱 커져간다.
“정보를 ‘뜻을 가지는 자료(데이터)’라고 생각하는 의견도 있지만, 이러한 분야(컴퓨터 정보처리)에서는 전체적으로 정보의 뜻을 가지고 문제 삼는 경우는 별로 없으므로, 특별히 정보와 자료는 구별하지 않는다. 구분하자면, 데이터를 모아 둔 것이 자료라면 자료를 특정한 목적의 의사결정을 위해 가공한 형태를 정보라고 할 수 있다.”
– 위키백과 중에서
한편 국립국어원 표준국어대사전은 정보를 다음과 같이 정의한다.
- 관찰이나 측정을 통하여 수집한 자료를 실제 문제에 도움이 될 수 있도록 정리한 지식. 또는 그 자료.
- 『군사』 일차적으로 수집한 첩보를 분석ㆍ평가하여 얻은, 적의 실정에 관한 구체적인 소식이나 자료
- 『컴퓨터』 어떤 자료나 소식을 통하여 얻는 지식이나 상태의 총량. 정보 원천에서 발생하며 구체적 양, 즉 정보량으로 측정할 수 있다. 자동화 부문이나 응용 언어학 분야에서도 쓰인다
– 국립국어원 표준국어대사전 중에서
옥스포드 사전은 ‘정보’와 ‘지식’을 각각 다음과 같이 정의한다. 표준국어대사전이 정보를 지식의 한 형태로 보고 있다면, 옥스포드 사전은 정보와 지식의 차이를 뚜렷하게 구별하기 위해 노력한다.
“어떤 사물 또는 사람에 대해서 전달되거나 익힌 사실” (정보)
“경험 또는 교육을 통해 얻는 사실, 정보 그리고 능력” (지식)
그러나 지금까지 살펴본 정보 및 지식에 대한 개념정의와 정보와 지식의 차이성에 기초해서는 지식생산의 자동화 및 지식 개념의 변화를 이해하기는 쉽지 않다. 정보와 지식 개념에 대해 더욱 체계적인 구별이 필요하다.
정보: 형식, 내용 그리고 효과의 삼원체계
정보는 형식, 의미 그리고 효과라는 세 개의 항목(triad)으로 구성되어 있다.(Aamodt & Nygard 1995, 196쪽 이하) 형식, 내용 및 효과는 기호학의 개념으로는 각각 구문론(syntax), 의미론(semantics) 그리고 화용론(pragmatics)과 조응한다. 구성요소 다시 말해 구문론 측면에서 볼 때, 정보는 기호(sign), 문자(characters), 숫자(numerals) 등의 결합이다. 이미지 또는 음성 신호 또한 정보로 분류될 수 있다.
여기서 이미지의 구문(syntax)은 선 또는 점이며, 음성 신호의 구문은 서로 다른 길이의 음(sound), 음량(volume), 진동수(frequency)다. 구문은 인간 또는 컴퓨터 시스템에 어떤 유용성도 없다는 점에서 의미(semantics)와 구별된다. 기호의 묶음 또는 이미지에 뜻이 부여되고, 인간의 해석이 더해진 결과물이 뜻 또는 의미(semantics)로 불린다. 그러나 특정 기호의 결합체(syntax)에서 단일한 의미가 추출되는 것이 아니라, 서로 다른 의미가 부여될 수 있다. 데이터를 해석하거나 주어진 데이터로부터 어떤 의미를 찾는 과정은 논리적 사고, 경험, 그리고 주어진 다른 정보를 필요로 하기 때문이다. 아모트와 나이가드(Aamodt & Nygard, 1995)는 데이터를 구문론의 단위(syntactic entities)로, 정보를 해석된 데이터 (interpreted data)로 정의하고 있다. (196쪽)
또한 주어진 기호 묶음 또는 데이터로 부터 100퍼센트 정확한 그리고 누구나 동의하는 해석은 불가능하기 때문이다. 동일한 기호 묶음에 대한 서로 다른 해석의 가능성과 그로인한 갈등의 잠재력은, 의미(semantics)가 전달체로서 구문(syntax)을 필요로하는 속성으로 인해 불가피하다.
예로서 “11/06″이라는 정보를 가정하자. 여기서 구문(syntax)은 네 개의 숫자와 한 개의 사선으로 구성되어 있다. “11/06″에 대한 해석은 단일하지 않다. “11/06″은 미국식 날짜형식 또는 독일식 날짜형식일 수 있다. 한편 “11/06″은 호텔 방 번호로 해석될 수 있다. “11/06″과 관련된 문맥(context)이 주어질 때만 비로소 “11/06″에는 적절한 의미가 부여된다. “11/06″에 “날짜”, “미국 형식”이라는 추가적 정보가 주어진다면, 누구나 “11/06″을 “11월 6일”로 이해할 수 있다. (만약 “독일 형식”이 추가정보로 주어진다면, “11/06”에는 “6월 11일”이라는 의미가 부여된다.)
이처럼 의미론은 주어진 문맥을 고려한 ‘기호로부터 해석된 결과물’과 다름이 없다.
다시 한 번 설명하면, 기호 또는 데이터는 본질적으로 구문론의 성격을 가지고 있으며, 기호 또는 데이터에 대한 해석이 정보이다. 정보는 해석된 데이터이다. 따라서 데이터는 현실태이며, 정보는 다양한 해석 가능성으로 인해 상황적 성격을 가지고 있다. 이렇게 데이터/구문론과 정보/의미론이 뚜렷하게 구분된다는 점은 정보라는 개념을 이해함에 있어 중요하다.
정보 개념과 관련하여 추가로 살펴봐야 할 측면은 화용론 또는 효과이다. 구문에서 의미가 만들어지지만, 정보는 그 자체로서 유용성을 가지고 있지 않다. 정보가 효과, 다시 말해 그 무언가를 연쇄작용으로 일으킬 때, 정보는 비로소 유용성을 만들어낸다. 효과는 정보가 가지는 의미가 발신자로부터 수신자에게 정확하게 전달될 때 만들어진다. 바로 정보가 효과 또는 발신자의 반응을 가능케 할 수 있다는 점에서, 정보는 데이터, 사실(fact), 지표(indication) 등과 구별된다.
구문, 의미, 효과의 관계를 컴퓨터 네트워크에서 정보를 전달하는 OSI 모형(Open Systems Interconnection Reference Model) 으로 설명하면, 발신자는 수신자가 특정한 행위- 화용론-를 수행하길 원한다. 이를 위해 발신자는 특정한 행위에 의미를 부여하며-의미론-, 이 의미는 특정 형식으로 표현-구문론-되어야 한다. 그리고 이 특정 형식은 발신자로부터 수신자에게로 전달되며, 그 이후 재구성 및 재구조화 과정이 일어난다. 수신자는 구문론 계층에서 데이터를 받으며, 여기에 의미를 부여한다-의미론-. 그리고 수신자는 이어서 발신자가 희망했던 행위를 수행한다-화용론-. 정보는 형식에 의미가 부여되고 이로부터 효과가 일어날 때 탄생한다.
이렇게 정보는 앞서 말한 것처럼 형식, 의미 그리고 효과라는 세 개의 항목(triad)으로 구성되어 있다. (엄밀하게 말하면 형식, 의미 그리고 효과는 정보의 직접적인 구성요소는 아니다. 오히려 이 세 가지는 정보를 바라보는, 이를 통해 정보를 개념화하려는 서로 다른 관점에 불과하다.)
그렇다면 정보와 달리 ‘지식’은 어떻게 정의할 수 있을까. 먼저 플라톤의 목소리를 들어보자. 플라톤은 테아이테토스(Theaitetos)에서 지식을 “진실되고, (정당함이) 인정된 의견(Justified true belief) “이라고 정의한다. 여기서 ‘진실하고 의견’ 모두가 지식이 되는 것이 아니다. 예언능력을 가진 사람은 다음 주-미래-에 있을 로또의 6개 숫자에 대한 진실한 의견을 가질 수 있다. 그러나 이는 다음 주-미래- 로또 숫자에 대한 지식이 될 수는 없다. 그 때문에 진실한 의견은 지식의 충분조건일 뿐이다. 진실한 의견이 지식이 되기 위해서는 정당화가 필요하다.
어떤 사람이 방송 또는 인터넷에서 로또 숫자를 경험하게 되고, 그 경험의 출처를 밝힐 수 있다면 로또 숫자는 지식이 된다. 이러한 플라톤의 지식에 대한 정의는 이후 많은 철학자들에게 수용되었고, 이에 기초하여 지식은 단순 의견, 믿음 등과 구별되고 있다. 하지만 플라톤은 정보와 지식을 뚜렷하게 구별하지 않고 있지만, 플라톤의 지식 개념에는 정보와 지식의 관계를 추론할 여지가 훌륭하게 담겨 있다. 그는 지식의 필요조건으로 “정당화”, 다시 말해 근거 및 참조(reference)를 제시하고 있다. 지식에 근거를 제공하는 복수의 정보가 지식의 필요조건임을 플라톤은 강조하고 있다. 따라서 형식, 내용 및 의미 그리고 효과를 포함하고 있는 정보가 없다면 지식은 존재할 수 없다.
아모트와 나이가드(Aamodt & Nygard 1995)에 따르면, 지식은 복수의 그리고 서로 관계를 맺고 있는 정보들의 합성이다. 지식은 인간이 정보를 관계화하고, 정보를 분류하고, 정보를 해석하고 이해하는 과정을 통해 만들어진다. 정보로 만들어진 지식으로부터 인간은 적절한 결정을 내리고, 이를 통해 특정 행위를 수행한다(<그림1> 참조). 이뿐만 아니라 지식은 새로운 지식의 탄생을 가능케 한다. 나아가 (새로운) 지식은 형식을 가지고 저장되는 과정을 거쳐 다시 정보로 전환된다. 정보는 타 주체-사람, 컴퓨터 시스템-에 전달되고 타 주체와 소통되기 위해 기호로 부호화(encoding)되고, 타 주체에 의해 복호(decoding) 과정, 그리고 그 이후 해석되고 배열되는 과정을 거쳐 또 다시 정보로 전환되고 지식으로 구성된다.
다양한 정보를 처리하는 과정에서 발생하는 지식은, 인공지능 전문가인 아모트와 나이가드에 따르면, (아직까지는) 온전히 인간의 이성을 통해서만 가능하다. 컴퓨터 시스템을 통해 정보를 이해하고 연결하는 수준은 아직까지 의미있는 행동이 유발되거나 새로운 지식이 탄생하는 정도까지 발전하지 못했다. 특히 컴퓨터 시스템은 행동에 대한 책임을 짊어지지 않는다는 점에서 인간과 다르다.
그러나 20여 년 전 일반적으로 수용되었던 정보 및 지식 생산에 있어 인간과 컴퓨터 시스템의 뚜렷한 역할 구분은 여전히 타당할 수 있을까. 스탯몽키에 의해 생산된 기사는 인간에게 가공을 위해 제공되는 근거 정보일까, 아니면 기사에 담긴 내용은 그 자체로서 (새로운) 지식일까?
기술 도약의 순간
에릭 브린욜프슨(Erik Brynjolfsson)과 앤드루 매카피(Andres McAffee)는 2011년 [기계와의 경쟁](Race Against The Machine), 2013년 하반기에 출판한 [제2의 기계 시대](The Second Machine Age)에서 진화하는 알고리즘 및 로봇 기술이 (노동)사회의 근본질서를 변화시키고 있음을 지적한다. 이 두 책에 드러난 저자의 다소 가벼운 기술 낙관주의를 공감하기는 쉽지 않다. 그러나 브린욜프슨과 매카피가 제2의 산업혁명의 여명이 어떻게 밝아오는지를 규명하는 부분은 매우 흥미롭다.
그들의 입장에 따르면, 디지털 기술은 우리가 생각하는 것보다 빠른 속도로 기술 일반을 보다 효율적으로 그리고 저렴하게 만들고 있다. 캡챠(CAPTCHA) 과제를 완벽하게 풀어내는 구글 스트리트뷰 기술이 구글 무인운전(self-driving car)을 가능케 한 결정적 요소다. 연관 영역에서 독립적으로 진행되는 디지털 기술 진화는 어는 순간 갑작스러운 기술도약을 만들어낸다. 브린욜프슨과 매카피는 기술도약 순간이 찾아오면 인간은 더 이상 기계를 상대로 더는 경쟁력을 유지할 수 없다고 말한다.
[box type=”info” head=”캡챠”]캡챠는 인터넷 카페에 가입할 때 일그러진 모양의 숫자와 영문 글자를 입력하는 과정이다. 캡차는, 사람은 구별할 수 있지만 컴퓨터는 구별하기 힘들게 의도적으로 비틀거나 덧칠한 그림을 주고 그 그림에 쓰여 있는 내용을 물어보는 방법이다. 이를 통해 특정 사용자가 실제 사람인지 컴퓨터 프로그램인지를 구별하기 위해 사용되는 방법이다 [/box]
로봇 저널리즘은 그 자체 기술연구에 의해서도 진화하지만, 연관 기술인 (인공)신경망 분석(neural network), 심층학습(deep learning) 등의 기술 진화에 직접 영향을 받는다. 또한 영국 BBC의 구조화된 데이터(structured data) 실험 , 링크드 데이터(Linked Data) 등과 같은 영역에서 진화하는 기술에 의해서도 로봇 저널리즘은 예상치 못한 기술도약의 순간을 만날 수 있다. 어쩌면 로봇 저널리즘 또능 알고리즘 저널리즘은 기계에게 인간의 마지막 성역으로 존재했던 지식 생산의 자리를 내주는 첫 번째 신호일 수 있다.
알고리즘 사회가 유발하는 현존재 인간의 불안
산업화가 노동을 재조직화했던 것처럼, 지식의 자동화는 지식사회의 재편으로 이어질 가능성이 높다. 알고리즘은, 데이터를 수집하고 이로부터 전체에 대한 시각을 도출하는 인간 노동을 대체하고 있기 때문이다. 변호사, 기술자, 의사, 금융전문가, 교육자, 작가, 경영인, 기자 등 현대 사회를 전문가 사회로 부를 수 있게 만들었던 직업군 대부분이 알고리즘의 영향 아래 놓여있다.
이 때 알고리즘에 기초해서 정보를 처리하고 지식을 만들어가는 과정은, 일자리 걱정 등 인간의 염려(Sorge)와 맞닿는다. 영어로 ‘care’로 번역할 수 있는 독일어 ‘Sorge'(염려)는, 하이데거에 따르면 인간의 본질이다. 인간은 항상 미래 또는 과거에 또는 무언인가에 또는 누군가에 마음을 쓰면서 살아간다. 염려하는 인간을 사로잡는 것은 공포와 불안이다. 공포는 인간의 불안한 감정을 일으키는 대상이 분명한 반면, 불안은 대상이 불분명하다. 공포의 대상은 특정 사물이거나 사람일 수도 있다. 반면 불안에는 대상이 없다. 그 때문에 이유 없는 불안은 여러 불안 중 특정한 불안의 모습이 아니라, 불안만이 가지고 있는 불안의 고유한 성질이다. 한편 공포와 불안의 경계선은 뚜렷하지 않다. 공포의 대상이란 불안이 특정 대상에 투영된 것이기도 하기 때문이다(김동규 2013, 41쪽 이하).
알고리즘은 노동의 조직화 양식에 변화를 가져올 뿐 아니라, 인간과 기계의 관계에 대해 근본적인 질문을 던지고 있다. 우리 인간은 진화하는 알고리즘 기술을 따라갈 수 있을까. 과연 인간은 기계가 도달할 수 없는 지적 능력을 소유하고 있을까. 인간은 기계와 경쟁하며 치열한 생존투쟁을 피할 수 없는가. 알고리즘으로 무장한 기계는 인간에게 공포의 대상인가. 하이데거의 기술철학에 따르면 질문은 감추어진 것을 드러내는 과정이며, 보이지 않는 것을 드러내 보이는 것이 기술의 본질이다(Heidegger, 1982, 5쪽).
통계 원숭이(Stats Monkey)에서 시작한 로봇 저널리즘은 기자에게 위협임에는 분명하다. 택시 운전자에게 구글의 무인 자동차는 생존권을 빼앗는 공포다. 인간을 불안하게 만들고 현존재를 잠식하는 기술도약의 순간이 찾아오고 있다.
참고 문헌
- 김동규 2013, 철학의 모비딕: 예술, 존재, 하이데거, 문학동네.
- Aamodt, A. / Nygard, M. 1995, Different roles and mutual dependencies of Data, Information and knowledge – an AI perspective on their integration, in: Data & Knowledge Engineering Vol. 16, pp. 191 – 222.
- Clerwall, Christer 2014, Enter the Robot Journalist: Users’ perceptions of automated content
- Heidegger, Martin, 1982, Die Frage nach der Technik, in: Heidegger, Martin, Die Technik und Die Kehre, Pfullingen.
- Weinberger, David, 2012, Too Big to Know: Rethinking Knowledge Now that the Facts aren’t the Facts, Experts are Everywhere, and the Smartest Person in the Room is the Room
[divide style=”2″]
이 글은 정보통신정책연구원(KISDI) [ICT 인문사회 융합동향](2014년 6월호)에 게재된 필자의 글을 수정 보완한 것입니다. (편집자)