빅데이터 시대의 알고리즘 의사와 의료 불평등

2009년 캐나다 토론도 대학병원에서는 조숙아/미숙아에 대한 실시간 데이터 마이닝 실험이 진행되었다. 조숙아의 생체 기능에 대한 분석을 통해서 감염 징후가 나타나기 24시간 이전에 감영 가능성을 진단하는 연구였다. 캐롤린 맥그레거(Carolyn McGregor)의 주도 아래 진행된 연구는 성공적이었고, 조숙아가 감염에 걸리기 이전 예상 밖으로 생체 기능이 안정되는 시기를 거칠 가능성이 매우 높음이 밝혀졌다.

연구결과 보기 – IGI 글로벌 – A Framework for Multidimensional Real-Time Data Analysis: A Case Study for the Detection of Apnoea of Prematurity

사람 살리는 데이터 과학

영국 정부는 2012년 CPRD(Clinical Practice Research Datalink)라는 프로젝트를 시작했다. 이 프로젝트에서는 영국 거주민의 모든 의학 데이터를 중앙집중 방식으로 모아 유전자 데이터 또는 환경 데이터와 결합하고 있다. 영국 가디언의 보도를 따르면, 이렇게 집적된 개인의 의료 데이터는 익명화되어 연구기관에 제공되고 있다.

2013년 독일정부는 모든 병원과 연구기관이 가지고 있는 암환자에 대한 데이터를 등록 및 수집하는 프로젝트를 시작했다. 궁극의 목표는 암환자의 세포 데이터까지 상시로 수집하여 암세포의 생애주기를 정확히 실시간으로 분석하고 이에 기초한 치료법 개발에 있다. 또한, 암 재발 과정, 치료 과정에 대한 데이터 수집과 분석 등도 함께 진행되고 있다.

미국 뉴욕에 위치한 슬론-케터링 기념 암센터(Memorial Sloan-Kettering Cancer Center)는 IBM의 인공지능 슈퍼컴퓨터인 왓슨(Watson)의 도움을 받아 서로 다른 환자에게 맞춤형 암 치료법을 제안하는 소프트웨어를 개발 중이다. 이를 위해 왓슨은 약 15억 명에 이르는 환자의 데이터, 60만 개에 이르는 연구보고서와 학술논문을 수집하여 분석하고 있다.

진화한 알고리즘이 없다면 이렇게 많은 양의 데이터를 수집하여도 데이터 분석은 불가능하다. 당뇨병에 대한 영어 학술논문은 약 40만 개에 이른다. 이 모든 논문을 인간 한 명에 읽기 위해선 전 생애를 바쳐야 할지 모른다.

암, 당뇨 등 특정 질병에 대한 진단과 치료와 관련한 중요 정보를 환자 데이터와 전 세계 연구보고서 및 학술논문으로부터 분류해내고 이를 통해 스스로 ‘가설’을 세우는 지능형 알고리즘이 탄생하고 있다. 미국 투자자 비노드 코슬라(Vinod Khosla)은, 의학 데이터 분석 기술의 진화에 따라 소프트웨어 또는 “알고리즘 의사”가 전통 의사의 약 80%까지 대체할 것이라는 테제를 용기 있게 제시하고 있다.

아래에서는 의학 데이터 분석 기술과 더불어 진화하고 있는 데이터 과학의 면모를 살펴보고, 의학 데이터 분석 기술에 사회에 던지는 문제점이 무엇인지 분석한다.

알고리즘은 스스로 연구 가설을 세운다

의학 영역에서 데이터 분석과 IT 기술은 새롭지는 않다. 하지만 데이터의 양이 절대적으로 증가한 빅데이터 분석은 지금까지 연구 방법론의 변화를 동반하고 있다. 현상의 특정 연관성을 분석하기 위해 전통적인 방법은 가설을 세우고 이 가설을 데이터로 검증하는 순서를 거쳤다.

이미 데이터 수집의 목표가 존재한다. 자연스럽게 목표한 데이터는 쉽게 수집하기 어렵고 그에 따라 비용도 적지 않다. 가설은 일반적으로 ‘X, Y, Z라는 요소 및 물질이 특정 병에 미치는 영향’이라는 형식을 띤다.

빅데이터 분석 방법론은 전통 방법론과 달리 ‘데이터에서 가설’이라는 방향으로 진행된다. 수억 명에 이르는 환자의 의학 데이터 및 환경 데이터 등에서 자동 알고리즘은 검증하고자 하는 연관성을 찾아낸다. 기존 연구에서 묻지 않았던 연관성 가설을 도출한 이후 그 가설에 대한 데이터 검증을 진행하여 상관관계(correlation) 분석을 진행한다.

물론 이 연구방법에도 연구자의 개입은 필요하다. 알고리즘에 의해 도출될 ‘가설’을 평가하고 이 가설에 대한 검증 필요성을 결정하는 일이 연구자의 몫이다. 다시 말해 ‘질문’ 및 ‘가설’을 세우는 연구자의 상상력이 알고리즘 지능에 의해 보완된다.

이러한 의학 데이터 분석방법이 가져다줄 수 있는 경제 가치 및 사회 가치는 결코 무시할 수 없다. 흩어진 데이터를 통합하고 연구의 빈틈을 찾아내 검증해야 할 가설을 자동으로 도출할 수 있다면 치매, 암 등과 같은 병을 연구하고 치료법을 찾아내는 데 있어 효율성을 급증할 수 있기 때문이다.

그러나 이러한 빅데이터 기반 연구방법론이 연관성 및 가설에 대한 ‘설명’을 제공하지는 않는다. 서울의 소주 소비량과 도쿄의 교통사고 빈도 사이에는 데이터 상관관계가 존재할 수 있으나 인과관계(causality)는 존재하지 않는다. 특정 요인과 병사이의 인과관계를 설명할 수 없다면, 알고리즘에 기초한 의학연구는 원인 진단과 치료법 연구에 대한 지속 가능한 대안이 될 수 없다. 오히려 성급한 의학 판단이 부정적인 결과를 초래할 위험성을 가지고 있다.

구글은 검색과 독감 확산의 (과거) 연관성을 분석하는 ‘구글 독감 트렌드 분석 서비스’를 제공하고 있다. 이 서비스를 운영하면서 구글은 매우 정확하고 빠른 독감 예측 서비스를 제공하고 있다.

아랍 에미리트 연합국(UAE), 이집트 등은 구글 독감 예측 서비스의 진화된 형태를 적용하고 있다. 빅데이터의 의학 적용 사례를 언급되는 ‘구글 독감 트렌드 분석 서비스’는 인과관계를 설명하지 못하는 한계 외에도 통계 바이어스 문제점을 가지고 있다. 독감에 대한 언론의 보도가 독감에 대한 검색에 영향을 미칠 수 있고, 이용자 누구에게나 접근을 제공하고 있는 구글의 독감 트렌드 분석 서비스 자체가 독감 징후를 구글에서 검색하도록 유도할 수 있기 때문이다.

네이처(Nature)의 보도를 따르면 구글 독감 트렌드 분석 서비스는 2013년 미국 독감 감염자 수를 실제보다 2배 높게 측정하고 있다.

그렇다고 연관성을 설명하지 못하는 빅데이터 분석 방법론이 결정적 문제가 되는 것은 아니다. 의학연구의 중심은 ‘오류 없는’ 치료방법을 개발하는 데 있기보다는 지금까지 알려진 가장 효과적인 방법보다 상대적으로 좋은 진단방법과 치료방법을 찾아내는 데 있기 때문이다. 새로운 의학지식은 설정된 연구환경과 다른 상황에서 다시 한 번 입증하는 과정을 거치기 때문이다.

개인정보 침해와 의료 불평등

의학 영역에서 치매, 암, 당뇨에 대한 새롭고 효과적인 치료법이 나오기까지는 앞으로도 간단치 않으며 먼 길이 놓여 있다. 분산된 의학 데이터를 수집하는 일도 쉽지 않다. 데이터의 형식 또한 서로 달라 이른바 상호운용성(interoperability)이 크게 떨어진다. 더글라스 존스턴(Douglas Johnsten)의 평가처럼, 100년 넘게 지속된 의학 필기법은 판독하기 매우 어려워 의학 정보의 디지털화에 있어 작지 않은 걸림돌이다. 존스턴은 (거대) 제약기업의 연구결과를 신뢰하기 쉽지 않다는 점 또한 빅데이터 기반 자동화된 의학연구의 한계라고 주장하고 있다.

인간의 건강 정보는 매우 민감한 개인정보에 속한다. 환자가 자신의 건강 및 신체 데이터를 활용한 연구에 동의한다고 하여도, 잠재적 위험성에 대한 인지를 가지기란 불가능에 가깝다. 이러한 배경에서 유럽연합은 익명처리한 데이터 분석법(Privacy Preserving Data Mining; PPDM)인 EURECA 프로그램을 개발하였다.

건강 및 의학 개인정보 문제는 연구 영역에만 제한되지 않는다. 만약 특정인의 건강 개인정보가 의료보험회사 또는 생명보험회사에 흘러들어 가게 된다면 어떤 일이 발생할 수 있을까. 가난하고 현재 기술로 치료할 수 없는 병에 걸린 환자를 보험에서 배제하거나, 데이터 분석으로만 높은 보험료를 요구할 경우 발생할 수 있는 의료 정의 또는 의료 불평등 문제가 여전히 풀리지 않은 과제로 남겨져 있다.

다른 사회 및 경제 영역과 유사하게 의학 및 의료 영역에서 빅데이터는 희망이자 동시에 위협이다.