무한경쟁사회에서 ‘경쟁자 줄 세우기’는 참 피해가기 힘든 ‘필요악’ 중 하나입니다. 줄 세우기가 참 많은 문제를 안고 있음에도 불구하고, 많은 사람을 모두 주관적으로 비교 평가할 수 없기에 사람들은 객관적 수치, 일명 ‘스펙’에 따라 서로의 상대순위를 결정하곤 합니다. 대입을 앞둔 고등학생들에겐 내신과 수능성적, 취직을 앞둔 대학생들에겐 학점과 토익점수, 승진을 앞둔 회사원들에겐 인사고과점수 등 현대사회에서 수치화된 ‘스펙’은 참 질기게 따라붙는 꼬리표가 아닐 수 없습니다.
그렇다면 연구를 하며 논문을 쓰는 학자들에겐 과연 어떠한 ‘스펙’, 어떠한 평가지표가 존재할까요? 어떤 분들은 “A 교수가 임팩트 팩터(impact factor) O.OO의 네이처지에 논문을 게재했다.”라는 기사를 보신 적이 있으실 겁니다. 하지만 사실 임팩트 팩터는 논문집(저널)에 대한 평가일 뿐, 어떤 학자의 누적 연구 성과에 대한 평가는 아닙니다. 사실 학자의 능력치(?)를 숫자로 평가하는 풍토는 그리 오래되지 않았는데요. 그 대표적인 것이 바로 2005년 미국의 물리학자 호르헤 E. 허쉬(Jorge E. Hirsch)가 주창한 h-인덱스(h-index)입니다.
연구자의 스펙, h-인덱스(h-index)
h-인덱스의 정의는 다음과 같습니다.
어느 과학자가 h개의 논문이 h번 이상 인용되고 나머지 논문들은 h번 미만 인용되었다면, 그 과학자의 h-index는 h이다.
A scientist has index h if h of his/her Np papers have at least h citations each, and the other (Np − h) papers have no more than h citations each.
즉, 어떤 사람이 만약 n번 이상 인용된 논문을 n개 가지고 있다면 그 사람의 h-인덱스는 n이라고 부를 수 있다는 것이죠. 예를 들어 어떤 사람이 논문을 100개 썼는데 각각의 인용수가 3, 2, 0, 0, 0, 0, … 이라면 이 사람은 2회 이상 인용된 논문이 두 편 이상 있으므로 h-인덱스는 2이고, 또 다른 예로 어떤 사람이 다섯 편의 논문을 썼는데, 그 다섯 편의 논문이 모두 5회 이상의 인용수를 가졌다면 그 사람의 h-인덱스는 5가 됩니다.
이러한 평가지표의 바탕엔 ‘많이 인용된 논문이 좋은 논문’이라는 전제가 깔려있습니다. 즉, 한 학자의 ‘연구의 양’을 측정할 수 있는 발간 논문의 수와 논문들의 ‘질’을 측정할 수 있는 논문의 인용 횟수를 적절히 조합함으로써 학자에 대한 간단하고도 아주 강력한 평가 지표를 만들어 낸 것이지요. 결국, 이 평가지표에 따르자면 학자는 많이 인용되는 논문을 많이 쓸수록 더 높은 h-인덱스를 부여받게 되어 있습니다. (참고로 위 그림의 구글 학술 검색에 제공된 또 다른 정보인 i10-인덱스는 인용 횟수가 10번 이상인 논문의 개수를 뜻합니다.)
그렇다면 논문들의 인용횟수 편차가 커, 몇 개의 걸출한 논문들을 게재한 학자들(예를 들면 인용수 1,000회의 이상의 논문을 딱 열 편 제출한 학자)은 좀 불리하지 않을까요? 그래서 활용되는 또 하나의 정량적 평가지표가 (많이 사용되진 않지만) 바로 g-인덱스입니다.
한 연구자의 논문들을 피인용된 수가 큰 것부터 작은 순으로 정렬했을 때, g-index는 상위 g개의 논문이 피인용 된 수의 합이 g2보다 작지 않은 가장 큰 g이다.
Given a set of articles ranked in decreasing order of the number of citations that they received, the g-index is the (unique) largest number such that the top g articles received (together) at least g2 citations
이 개념에서는 어떤 학자의 n2번 이상 인용된 논문의 수가 n개 이상일 때 그 학자의 g-인덱스를 n이라고 부릅니다. 예를 들면, 100번 이상 인용된 논문 수가 10개 이상이어야 g-인덱스가 10이 된다는 뜻입니다.
정량적 지표, 문제는 없을까?
이런 간단한 셈법으로 모든 평가가 쉽게 끝나면 얼마나 좋겠습니까 만은, 사실 이 지표에도 몇 가지 맹점이 있습니다. 우선 이 숫자(h-index)들이 학자의 능력을 제대로 평가하지 못하는 경우들을 한 번 살펴보겠습니다.
1. 학계의 떠오르는 샛별에게 불리하다
사실 혁신적인 연구 결과는 주로 30~40대의 연구자에 의해 이루어지는 경우가 많습니다. 소위 “떠오르는 샛별”이라 불리는 이들은 인용수 300회 이상의 글들을 쏟아내곤 하죠. 하지만 떠오르는 샛별의 경우 아직 발간한 논문의 수가 적기 때문에 h-인덱스 평가에서는 높은 점수를 받기 힘들다는 단점이 있습니다.
2. 공동 저자의 수, 저자의 순서를 고려하지 않는다.
어떤 논문은 한두 명의 저자에 의해 쓰이는 반면, 입자 가속기 실험과 같이 대형 실험과 관련된 논문의 경우 논문의 저자가 몇십 명, 최대 몇천 명이 되기도 합니다. 또한, 1저자, 2저자와 같이 저자의 순서에 따라 그 논문에 대한 기여도가 확연히 차이 나기도 하죠. 하지만 h-인덱스는 저자의 순서나 공저자의 수와 관계없이 모든 저자를 똑같은 저자의 지위로서 인정하기 때문에, 많은 저자를 갖는 논문이 h-인덱스 평가에 유리하다는 맹점을 가지고 있습니다.
3. 단지 인용 횟수만 셀 뿐, 인용된 위치, 인용된 정도를 구분하지 않는다
어떤 인용 논문들은 본문과 실험 부분 내내 인용되며 해당 연구 수행에 매우 중요한 의미를 가지는 반면, 어떤 논문들은 서론에서 단지 예시 중 하나로서만 한번 언급되고 말기도 합니다. 후자의 경우 사실 다른 예시로서 대체될 수 있는 경우도 많아서 전자의 인용과 동일한 중요성의 인용이라 보기 힘들지요. 하지만 h-인덱스는 논문의 인용 위치, 인용 정도와 상관없이 모두를 동등한 인용 1회로 본다는 불합리함을 가지고 있습니다.
4. 자가 인용(self-citation)에 의한 h-인덱스 조작이 가능하다
사실 필자도 작년에 논문을 쓰며 저의 다른 논문들을 서론에서 언급해 그들의 인용 횟수를 높이고 싶다는 욕심이 들었었습니다. 굳이 지금 연구와 큰 관계가 없더라도 “현재의 로봇들은 여러 도전과제(e.g.[1], [2])들을 안고 있다.”와 같이 쓰면 되니까 말이죠. (하지만 그러지 않았습니다.)
이처럼 h-인덱스를 자가 인용 시도를 통해 조작할 수 있다는 단점이 있습니다. 이와 관련해 MIT 과학자들은 자기 논문을 인용하는 가짜 논문을 자동으로 생성해주는 ‘사이젠(SCIgen)’이란 프로그램을 공개하기도 하였는데요, 실제 주요 학술지에서는 이 프로그램을 통한 h-인덱스 조작 시도를 상당수 발견하기도 하였습니다.
h-인덱스가 무시하는 가치들
현재 종신교수(tenure)의 자격 심사나 학회의 수상자 선정 등에 h-인덱스를 반영하고 있는 곳은 공식적으로 존재하지 않습니다. 하지만 학계에서는 h-인덱스가 학자의 상대 평가에 암묵적으로 활용하고 있음을 인정하는 분위기입니다. 특히 학자 사회는 (돈, 명예, 권력 중 굳이 꼽자면) 명예를 중시하는 사회인 만큼, 세계의 많은 학자가 h-인덱스에 관심을 기울이고 있고, 또 더 높은 h-인덱스를 가지기 위해 노력하고 있는 것이 사실입니다.
이렇듯 학자의 평가 기준은 전체 학자들의 연구 성향까지 바꿀 힘이 있기에, 그것이 과연 바람직한 지표인가에 대해서는 다시 한 번 자세히 따져볼 필요가 있습니다. 시험 위주의 학생 평가 방식이 어린 학생들을 사교육으로 내몰기도 하고, 또 클릭 수 위주의 미디어 평가 방식이 충격 고로케 기사를 양산하기도 하듯, 만약 학자를 평가하는 기준인 h-인덱스에도 어떤 불합리성이나 편향이 내포되어 있다면, 그것은 학계의 연구 풍토에 있어 어두운 그림자를 드리우게 될지도 모릅니다.
수치와 인용수로만 학자를 평가해도 좋을까?
h-인덱스 평가기준이 가져올지도 모를 학계의 부정적 미래는 다음과 같습니다.
첫째, 논문을 많이 찍어내고 (스스로라도) 많이 인용하는 풍토를 권장하게 될 것입니다. 이에 따라 학자는 오랜 시간 동안 깊이 있고 엄밀한 한 개의 논문을 작성하기보다 일단 심사에 통과하는 논문을 다량 생산하려 할 가능성도 있습니다. 그러다 보면 세상에는 획기적이고 뚜렷한 족적의 연구 논문들보다 오직 연구를 위한 연구, 인용을 위한 인용들이 넘쳐나게 될지도 모르지요. 또한, 연구 결과를 잘게 잘라서 개별적으로 출판해 논문 수를 늘리는 편법도 더욱 횡행하게 될 것입니다.
둘째, 학자들이 좋은 논문보다는 많이 인용되는 논문을 쓰기 위해 노력할 가능성도 있습니다. ‘많이 인용되는 논문이 좋은 논문 아니냐’라고 생각할 수 있지만 사실 꼭 그런 것만은 아닙니다. 훌륭한 역작이지만 그 내용이 어렵기에 잘 인용되지 않는 논문들도 있고, 또 별로 좋은 논문은 아니지만 단지 리뷰 논문(주제와 관련된 논문들을 모아서 보여주는 일종의 가이드북 같은 논문)에 올랐다는 이유만으로 자주 인용되는 논문도 있습니다. (맛집리스트에 오른 맛없는 집을 생각하시면 되겠네요.) 하다못해 구글 검색에서 검색 상단에 오른다는 이유만으로 다른 논문보다 더 많이 읽히는 경우도 있습니다. 이렇게 인용에 너무 큰 신경을 쓰다 보면 나중에는 “충격 고로케”와 같은 논문 제목이 등장하거나, 논문 작성에 검색엔진 최적화(SEO) 이론이 적용되는 것은 아닌지 모르겠습니다.
마지막으로, 학자들이 점점 논문이 적게 나오는 분야를 기피하게 될지도 모릅니다. 사실 지금도 대학원생들이 자신의 연구 분야를 정할 때 ‘그 분야는 논문 잘 나오니?’라고 묻는 것을 심심치 않게 볼 수 있습니다. 마치 대학교 학과를 정할 때 ‘그 과는 취직 잘되니?’나 수업을 들을 때 ‘그 수업은 학점 잘 주니?’와 같이 말이지요. 이렇게 논문의 숫자에 따라 임용 등이 결정되게 된다면 사람들은 점점 어려운 이론 연구나 소수만이 수행하고 있는 연구 주제를 기피하게 될지도 모릅니다. 논문도 나오기 힘들고 또 인용도 잘 안될 테니 말이죠. 심해지면 이는 기초학문의 고사라는 결과까지도 초래할지 모릅니다.
그렇다면 학계를 올바른 방향으로 이끌어 가기 위한 바람직한 평가 방법은 과연 무엇일까요? 짧은 시간의 고민으로 결론을 도출하긴 힘들겠지만, 그래도 분명한 것은 어떠한 학자를 평가하는 데 있어 한 개의 숫자(평가지표)는 너무 부족하다는 것입니다. 평가해야 할 대상이 많아 학자들을 꼭 숫자로 비교 평가해야겠다면 마치 야구에서 승률, 방어율, 탈삼진 등등 다양한 지표들이 존재하듯이, 학자에게도 h-인덱스 외에 더 다양한 평가지표가 생겨나야 할 것입니다. 가급적이면 논문 수와 인용 횟수가 말해주지 못하는 그 무언가를 설명해 줄 지표로서 말이지요.
2013년 노벨상 수상자인 피터 힉스 교수는 “요즘과 같은 (경쟁적인 연구평가를 강조하는) 아카데미 풍토라면 나는 생산적 과학자가 되지 못했을 것”이라며 현재의 경쟁적 학계 풍토를 비판하였고, 랜디 셰크먼 교수 역시 임팩트 팩터와 같은 숫자에 의해 형성되는 권력과 인용수로만 평가되는 학계의 평가 풍토에 대해 크게 우려한 바 있습니다. 물론 수많은 정보가 비교 평가되는 현대사회에서 학계만 이 경쟁의 물결을 피해갈 수는 없겠지만, 상아탑이 현실과 거리를 둔 상아탑일 때 가질 수 있는 유의미한 이점이 있듯 학자의 평가에 있어서도 조금 더 다각적인 평가 기준을 고려해야 하지 않을까 생각합니다.