AI 인덱스: 인공지능은 지금 어디까지 왔는가

인공지능의 발전 단계를 예측하는 방법은 다양한 채널과 방식을 통해서 이루어져 왔다. 가장 많이 사용한 방식은 전문가 투표로 어떤 기술이 언제 가능해질 것이며, 인간 지능을 넘어서는 기계 지능은 언제 나타날 것인가에 대한 의견 수렴이었다.

‘생명의 미래’ 연구소가 매년 주최하는 컨퍼런스에서도 참가자들을 대상으로 언제쯤 주요 인지 과제에서 기계 지능이 인간을 넘어설 것인가를 투표했다. 2015년 참가자는 대부분 30~60년 사이에 이루어질 것이라 예측했다.[footnote]Nick Bostrom, “The Road Ahead” AI Safety Conference, Puerto Rico, Oct. 12, 2015[/footnote]

또 다른 연구로는 옥스포드 대학 ‘인류의 미래 연구소’와 예일 대학 정치학과 교수들이 인공지능 분야의 대표적인 학술대회인 NIPS와 ICML에 논문을 발표한 연구자들을 대상으로 서베이한 결과이다.[footnote]K. Grace et. al., “When Will AI Exceed Human Performance? Evidence from AI Experts,” ArXiv, May 30, 2017[/footnote]

352명이 대답한 결과는 인간의 노동을 완전 자동화하는 수준의 고도 기계 지능은 50%의 확률로 122년 뒤에 가능하다는 것이다.

이와 같이 인공지능의 발전 단계를 예측하는 것은 언제쯤 어떤 수준의 기계 지능이 가능할 것인가를 기반으로 각 연구자들의 연구 평가나 각국의 정책 수립에 매우 중요하다. 오바마 정부 시절 미국의 인공지능 전략 보고서에서도 인공지능 기술의 수준을 측정하고 평가하는 것이 중요한 전략으로 제시됐다.[footnote]NSTC, “The National Artificial Intelligence Research and Development Strategic Plan,” Oct. 2016[/footnote]

최근 인공지능의 100년 연구를 주도하는 스탠퍼드 대학은 MIT, SRI 인터내셔날, 오픈AI와 협력해 인공지능에 관련된 데이터를 추적, 분석, 가공, 시각화한 결과를 ‘AI 인덱스 연차보고서’ 형식으로 발간했다.[footnote]Y. Shoham, R. Perrault, E. Brynjolfsson, J. Clark, “AI Index 2017 Annual Report,” Nov. 2017[/footnote]

AI 인덱스: 2017 연례보고서

이런 보고서를 발간한 이유는, 아직도 인공지능 분야가 빠르게 진화하고 있고, 전문가들도 전체 영역을 아우르는 내용을 이해하거나 추적하기 어렵기 때문이다.

AI 인덱스 https://aiindex.org/2017-report.pdf — AI 인덱스

AI 인덱스의 주요 내용

스탠퍼드의 인공지능 100년 연구의 한 프로젝트로 시작한 ‘AI 인덱스’ 프로젝트는 개방된 방식의 비영리 과제로 인공지능 관련 활동과 진보를 추적하기 위한 과제이다. 또한, 이 과제를 위해 수집한 모든 데이터는 ‘aiindex.org’ 사이트에 공개해 다른 사람도 추가 데이터를 제공하거나, 모인 데이터를 분석하고, 어떤 주제를 추적하기 원하는지 주고받을 수 있는 더 큰 규모의 커뮤니티 구성 프로젝트이다.
이 보고서에서 수집한 데이터는 크게 네 가지 부문으로 구별한다.

활동량
기술 성능
파생 측정 기준
인간 수준 성능에 도달 수준

활동량은 인공지능 컨퍼런스 참석자나 인공지능 스타트업에 대한 벤처 캐피털 투자 상황들을 측정한 결과이다. 기술 성능은 인공지능 기술이 얼마나 주어진 과제를 잘 푸는 가를 파악한다. 이 두 가지 지표는 이미 잘 정립되어 있다.

파생 측정 기준은 트렌드 사이의 관계를 조사했는데, 이번에 좀 더 탐구적인 측정 지표를 소개했다. ‘AI 활성 인덱스’로 학교와 산업을 아우르는 트렌드를 결합해 인공지능이 하나의 분야로 얼마나 활성화되어 있는가를 측정하는 방식이다.

인공지능 시스템의 성능을 평가할 때 가장 자연스러운 것은 인간 성능과 비교를 해 보는 것으로 ‘인간 수준 성능’ 데이터는 인공지능 시스템이 인간 성능과 맞먹거나 능가하는 중요한 진전을 이룬 영역을 나열하는 것이다.

주요 활동량 관련 데이터 지표를 정리하면 다음과 같다.

인공지능 관련 논문은 1996년 이후 9배 이상 증가했다.

1996년 이후 스탠퍼드 대학에서 인공지능 수업 수강 신청은 11배 늘었다.

주요 학술대회 참가자들의 참석자 수는 급속하게 증가하고 있으며, 연구 주제는 기호 기반 추론에서 기계 학습과 딥 러닝으로 이동하고 있다.
연구 주제 관심이 변화하고 있지만, 작은 연구 커뮤니티에서 기호 기반 추론 방식 역시 지속적으로 발전하고 있다.
미국에서 인공지능 관련 활동 중인 스타트업은 2000년 이후 14배 증가했다.

미국 인공지능 스타트업에 대한 벤처 투자는 2000년 이후 6배 증가했다.
미국에서 인공지능 기술을 요구하는 일자리 비중도 2013년 이래 4.5배 증가했다. 증가 추세는 캐나다와 영국이 더 높은 증가율을 보이고 있다. 분야 별로는 기계 학습과 딥 러닝에 관련된 일자리 증가가 가장 크다.
오픈 소스 영역에서는 텐서플로우가 가장 널리 사용되고 있다.

인공지능에 대한 미디어 보도는 긍정적인 보도가 25% 이상, 부정적인 기사가 5% 수준이다.
객체 인식 분야에서 인공지능 시스템의 성능은 인간을 넘어서, 이미지 레이블 정하기의 에러율이 2010년 이래 28.5%에서 2.5% 이하로 내려갔다.
일반적인 이미지에 대한 질의 응답은 인간 수준이 80% 대라면 가장 뛰어난 시스템도 아직 60% 후반대에 머물고 있다.

자연어 문장의 구문 구조 분석은 이제 95%에 근접하는 수준이다.
스위치보드라는 표준의 전화 음성 데이터 기반의 음성 인식은 인간 수준에 도달했다.
SAT 문제 풀이는 80% 조금 넘는 수준이다.

연구계와 산업계의 여러 데이터를 모아서 인공지능 분야의 활성도 수준을 측정하면, 2010년부터 투자자들이 인지하기 시작해서 2013년에 빠른 성장을 보임을 알 수 있었다.

인간 수준의 성능을 평가해보면 아직도 매우 좁은 영역에서 좋은 성능을 보이지만, 문제를 조금만 바꿔도 기계의 성능은 급격히 하락하고 있다. 인간 수준을 넘어서는 영역을 연도에 따라 분석하면 아래 그림과 같다. 2015년에 아타리 게임을, 2016년에 이미지넷 기반 이미지 인식, 바둑 영역에서 넘어섰고, 2017년 피부암 분류, 스위치보드 음성 데이터 인식, 포커와 팩맨 게임에서 인간을 넘어섰다.

AI 인덱스, 그 성취와 한계 그리고 시사점

이번 ‘AI 인덱스’ 보고서는 처음으로 전반적인 인공지능 기술이 어느 수준에 와 있는지 가늠할 수 있게 하고, 학계와 산업계의 여러 데이터를 한 눈에 볼 수 있는 자료다. 그러나 더 많은 기술 분야를 다루지 못했는데 이는 아직 표준화된 벤치마크가 명확하지 않기 때문이다. 더군다나 각 기술이 헬스케어, 자동차, 금융, 교육 등에서 어떤 영향을 주고 있는지도 설명하지 못하고 있다.

또한, 미국 중심의 조사라서 전 세계적인 수준을 커버하지 못했는데, 특히 중국의 인공지능이 급속도로 발전하고 있어서 이 부분은 아직 미흡하다. 인공지능 기술의 사회적 영향에 관한 부분, 즉 안전, 예측성, 정당성, 프라이버시, 윤리적 함의 등도 이번 보고서에서는 다루지 못했음을 저자들이 인정한다.

그럼에도 단지 전문가들의 투표나 의견에 의한 인공지능 기술 수준의 분석이 아닌, 데이터를 기반으로 하는 평가와 분석이 이루어졌다는 점에서 이 보고서는 인공지능 기술과 산업에서 하나의 시작점이 될 것이다. 보고서 뒤에 나오는 각 전문가들의 의견과 평가도 우리가 정책을 만들고 기술 평가를 할 때 좋은 참조가 될 것이다.

우리도 우리의 인공지능 수준을 데이터 기반으로 파악하고, AI 인덱스가 제시한 기준으로 평가하는 작업이 필요하다. 단지 전문가들의 감으로 격차를 판단하거나 우리 수준을 평가하는 방식에서 이제 탈피해야 한다.

[divide style=”2″]