기사 공유하기

검색이 되지 않는 웹사이트는 어떤 의미가 있을까? 디자이너, 프로그래머, 컨텐츠 기획자 등 다양한 사람들이 힘을 합쳐 웹사이트를 만들고 거기에 유용한 정보를 올려놓았지만 사람들이 그 정보가 어디에 있는지 몰라서 방문하지 않는다면?

얼마 전 우리나라의 주요 관공서 등 주요 웹사이트가 검색엔진이 검색을 할 수 없도록 차단하고 있다는 뉴스가 난 적이 있다. 얼마나 많은 관공서 웹사이트들이 검색 엔진을 차단하고 있을까. 대표적인 관공서 웹사이트를 분류에 따라 선정하고 조사를 해보았다.

웹에서 검색은 필수

1993년 최초의 웹페이지가 만들어진지 20년이 지난 2013년 지금 전세계에는 6억7천 개가 넘는 웹사이트가 존재한다고 한다. (넷크래프트 기준 672,837,096개)

이렇게 웹사이트가 많다 보니 일반 이용자들이 어떤 웹사이트에 어떤 내용이 있는지 아는 것은 불가능에 가깝다. 아예 웹사이트가 존재하는지 조차 알고있는 것 자체가 어려운 게 사실이다. 그래서 야후!로 시작해서 요즘에는 구글, 네이버, 다음과 같은 검색 서비스들이 사용되고 있다.

search-engines

야후!와 같은 초창기 검색엔진들이 웹사이트를 하나씩 등록해서 그 사이트의 유무를 보여주는 방식이었다면, 웹사이트와 웹페이지의 수가 기하급수적으로 많아진 이후에는 검색 로봇이 자동으로 웹사이트들을 찾아다니며 그 웹사이트의 각종 정보를 색인했다가 이용자들에게 보여주는 방식이 이용되고 있다.

검색 로봇에게 검색 가능 유무를 알려주는 robots.txt

웹사이트의 관리자는 웹사이트를 방문하는 검색 로봇에게 특정 내용을 색인하지 못하게 하거나 웹사이트 전체를 색인하지 못하게 설정할 수 있다. 검색 로봇이 색인하는 주기를 지정할 수도 있고, 특정 검색 로봇만 차단 및 허용하도록 설정할 수도 있다.

이 방법은 의외로 단순하다. 웹사이트가 운영되고 있는 서버에 robots.txt 라는 파일을 생성한 후 그 안에 원하는 형태를 규칙에 맞게 설정해 놓으면 전세계의 검색 엔진은 이 설정을 따르게 되는 것이다. 예를 몇 가지 들면 다음과 같다.

[box type=”note” head=”robots.txt 사용 예”]

User-agent: *
Disallow: /
=> 모든 검색 로봇에 대해 웹사이트 전체를 차단한다.

User-agent: Googlebot
Disallow: /admin
=> 구글 검색 로봇에 대해 /admin 으로 시작하는 부분을 차단한다.

User-agent: NaverBot
Disallow: /images
User-agent: daumoa
Disallow: /upload
=> 네이버 검색 로봇에 대해 /images 로 시작하는 부분을 차단하고 다음 검색 로봇에 대해 /upload 로 시작하는 부분을 차단한다.

이처럼 robots.txt 는 사람이 봐도 그 내용을 쉽게 알 수 있는 문법으로 작성할 수 있다. 자세한 내용은 robotstxt.org를 참고하면 된다.

[/box]

국내 주요 관공서의 검색 차단 여부 조사 결과

이에 슬로우뉴스는 대한민국 주요 관공서와 대국민 서비스, 공기업의 웹사이트 그리고 지방자치단체와 각 시도 교육청의 웹사이트의 robots.txt 설정을 확인해 보았다.

[box type=”info” head=”조사 기준”]

조사 대상: 155개 기관의 193개 웹사이트

  • 중앙행정기관 57곳
  • 중앙행정기관 대민서비스 55곳
  • 민간/공공분야 9곳
  • 지방 자치단체 17곳
  • 교육청 17곳

(한글과 영문 웹사이트의 도메인이 별개로 존재하는 곳은 각각의 별도 사이트로 처리하였기 때문에 기관 수보다 웹사이트 수가 더 많음)

조사 일시: 2013년 5월 19일 ~ 5월 22일

[/box]

[box type=”info” head=”조사 결과”]

조사 결과에 대한 전체 내용은 대한민국 관공서 웹사이트 검색로봇 설정 현황 (2013년 5월) 페이지에서 확인이 가능하다.

[/box]

[box type=”info” head=”조사 결과 요약”]

중앙행정기관 (전체 79개 웹사이트)

  • 검색 로봇 모두 허용: 8개
  • 검색 로봇 일부 차단: 27개
  • 검색 로봇 모두 차단: 11개
  • 검색 로봇 설정 안함: 33개

중앙행정기관 대민서비스 (전체 55개 웹사이트)

  • 검색 로봇 모두 허용: 0개
  • 검색 로봇 일부 차단: 11개
  • 검색 로봇 모두 차단: 17개
  • 검색 로봇 설정 안함: 27개

민간/공공분야 (전체 13개 웹사이트)

  • 검색 로봇 모두 허용: 0개
  • 검색 로봇 일부 차단: 2개
  • 검색 로봇 모두 차단: 6개
  • 검색 로봇 설정 안함: 5개

지방자치단체 (전체 29개 웹사이트)

  • 검색 로봇 모두 허용: 3개
  • 검색 로봇 일부 차단: 6개
  • 검색 로봇 모두 차단: 6개
  • 검색 로봇 설정 안함: 14개

교육청 (전체 17개 웹사이트)

  • 검색 로봇 모두 허용: 0개
  • 검색 로봇 일부 차단: 1개
  • 검색 로봇 모두 차단: 10개
  • 검색 로봇 설정 안함: 6개

[/box]

robots.txt를 설정한 비율

  • 중앙행정기관: 58.2%
  • 중앙행정기관 대민서비스: 50.1%
  • 민간/공공분야: 61.5%
  • 지방자치단체: 51.7%
  • 교육청: 64.7%

robots.txt를 설정하지 않으면 일반적으로 검색 로봇을 모두 허용하는 것과 같은 효과를 내기는 한다. 하지만, 그렇다고 아예 설정 자체를 하지 않은 것은 모두 허용하려는 의도보다는 어떤 것이 검색되어야 하고 어떤 것은 검색되지 않는 게 좋은 것인지를 고려하지 않았다고 보는 게 더 타당하다. 웹사이트의 기획 의도나 구성에 따라 관리자만 사용하거나 검색 목적에 적합하지 않는 컨텐츠들이 있기 마련이기 때문에 웹사이트의 대부분은 검색을 일부 차단해야 할 경우가 생기기 때문이다.

그런 점에 있어 조사 대상 중 44% 정도의 웹사이트가 아예 robots.txt를 설정하지 않았다는 것은 검색의 중요성을 확실히 모르고 있다는 것을 의미한다고 볼 수 있다.

모든 검색 로봇 일괄 차단 비율

  • 중앙행정기관: 13.9%
  • 중앙행정기관 대민서비스: 30.9%
  • 민간/공공분야: 46.2%
  • 지방자치단체: 20.7%
  • 교육청: 58.8%

또한 모든 검색 로봇을 아예 차단한 비율이 약 13.9% 에서 58.8% 까지 된다는 점은 놀랍다. 특히 국민들의 편의를 위해 여러 대민서비스를 제공하는 웹사이트의 30.9%와 교육에 관심이 많은 우리나라의 각 시도 교육청의 58.8%가 모든 검색 엔진을 완전히 차단했다는 사실은 놀라움을 넘어 황당했다. 조사를 하면서도 세금으로 운영되는 웹사이트들이 이렇게 폐쇄적으로 운영되고 있을 줄은 예상하지 못했기 때문이다.

글로벌화에 반대하는 국내 행정기관 웹사이트들?

구글에 보여주면 안돼?! 영어 웹사이트도 막아?!

여기에 더욱 쉽게 이해하기 어려운 사실이 있는데, 이 중에서 다른 검색 로봇은 허용하면서 유독 구글만 차단하는 경우가 상당히 많다는 점이다. 특히 중앙행정기관은 조사대상 81개 웹사이트 중에서 9곳(11.1%)이 구글 검색만 차단을 했다. 네이버나 다음은 왜 차단하지 않고 글로벌 서비스인 구글만 차단했을까?

only-googlebot
구글 검색만 차단한 홈택스의 예

게다가 미래창조과학부, 국회, 대법원, 법무부, 국토교통부, 경찰청, 조달청, 국세청, 국방부, 국가보훈처, 감사원, 국민신문고 등의 웹사이트는 영문 사이트를 만들어 놓고 구글 검색이나 아예 모든 검색을 차단한 것으로 밝혀졌다. 영문 사이트를 만들어 운영하는 목표가 무엇인지 의심이 되는 지점이다.

그외 또 황당한 사례들

적지 않은 웹사이트가 한글과 영문 웹사이트의 검색 설정을 다르게 해 둔 곳들이 있었다. 국토교통부, 충청북도첨의 경우 한글 웹사이트는 미설정, 영문 웹사이트는 모두 차단으로 설정했고, 소방방재청은 한글 웹사이트는 구글 검색만 차단하고 영문 사이트는 미설정으로 적용해두었다.

예를 들어 부산광역시청의 경우 robots.txt에 검색 로봇이 알아들을 수 있는 문장이 아닌 사람에게 전달하는 문장을 적어 놓았다. 게다가 이 robots.txt는 보안과는 아무런 관계가 없는 설정임에도 보안수준을 강화하기 때문이라는 내용을 적었다.

10883-2

청와대 한글 웹사이트나 경기도청 한글 웹사이트의 경우 robots.txt를 잘못된 곳에 위치시키거나 중복 설정해 둔 것들이 발견되었다. robots.txt 의 용법에 대해 제대로 안다면 일어나지 않을 일이다.

검색 로봇을 차단하는 이유는 무엇일까

그렇다면 왜 정부는 시간과 비용을 들여 웹사이트를 제작해놓고 왜 외부에서 검색을 하지 못하게 차단하는 것일까? 안전행정부(과거 행정자치부, 행정안정부)의 가이드라인에서 그 실마리를 발견할 수 있었다.

안전행정부는 2008년부터 “홈페이지 개인정보 노출방지 가이드라인”을 발표해 오고 있다. 가장 최근인 2012년에 배포한 버전4.0 문서를 보면 ‘III. 개인정보 노출 방지대책’이라는 항목 아래 “검색로봇 배제 표준 적용방법”에 대해 설명하는 부분이 있다.

출처: 안전행정부의 "홈페이지 개인정보 노출방지 가이드라인" 중에서
출처: 안전행정부의 “홈페이지 개인정보 노출방지 가이드라인” 중에서

그런데 이 가이드라인에서도 밝히고 있듯이 robots.txt는 개인정보의 노출 및 해킹을 막아주는 마법의 주문이나 성능좋은 방화벽이 아니라 단순히 검색 로봇의 운영을 위한 약속일 뿐이다. 그리고 이 약속은 어떤 국제적인 표준에 의해 정해진 게 아니라 표준처럼 사용되고 있을 뿐이다.

예를 들어 아무리 특정 검색 로봇을 차단하는 문구를 robots.txt에 넣어놓았다 하더라도 그 검색 로봇을 운영하는 자가 마음만 먹는다면 얼마든지 색인을 해서 이용할 수가 있다. 이것은 일종의 합의(convention)이지 국제 표준(standard)가 아니기 때문이다. 지금도 robots.txt의 규칙을 지키지 않고 몰래 정보를 수집하는 검색 로봇들이 있을 수 있다. 하지만, 현재 공개적으로 검색 서비스를 운영하는 회사들은 대부분 이 규약을 지킨다.

한가지 재밌는 사실은 가이드라인에는 이 외에도 ‘구글에 노출된 개인정보 확인 및 삭제방법’이 나오는데, 네이버나 다음 등 검색 서비스를 운영하는 국내 포털의 경우는 해결 방법이나 포털의 개인정보 담당 연락처 등이 아예 명시되지 않고 유독 구글만 삭제방법이 나오는 이유는 무엇일까. 다음 셋 중의 하나가 아닐까?

  • 구글의 고객 관련 업무 처리는 일반화된 방식으로 통일된 프로세스가 존재한다.
  • 국내 포털들은 검색 수준이 낮아 개인정보가 노출이 되지 않는다.
  • 국내 포털들은 색인을 하더라도 검색 결과의 일부를 보여주지 않는다.

[box type=”note” head=”robots.txt와 관련된 사례들”]

예를 들어 보자. 지금은 사라진 검색 포털 서비스 엠파스가 2005년에 ‘열린 검색’이라는 서비스를 2005년 6월 1일 시작했다. 엠파스는 이 때 경쟁 포털의 데이터까지 검색 결과에 나오게 하겠다고 선언하며 네이버의 지식인 서비스에 담긴 정보들까지 마구 색인해서 보여주기 시작했다. 이에 네이버는 심하게 반발하며 법적 대응까지 불사하겠다고 했었다.

당시만 하더라도 자사의 서버에 데이터를 담아두고 그것만 보여주는 폐쇄적인 검색 방법이 일반적인 방식이었다. 따라서 네이버는 “네이버 지식iN에 글을 쓴 사람들은 네이버에 검색을 허락한 것이지 엠파스에 허락한 것은 아니다”라며 저작권 침해 등을 이유로 들며 항의를 했지 robots.txt를 어겼기 때문에 반발한 것이 아니라는 것이다.

참고로 그 이후 네이버는 기존에 서비스되고 있던 지식IN의 모든 퍼머링크를 갑자기 수정하여 엠파스를 의식한 것이 아니냐는 의심을 받았고, 그 결과 그 이전까지 존재하던 지식IN의 모든 퍼머링크는 사라지게 되었다.

재밌는 것은 한 때 네이버 역시 이 robots.txt를 지키지 않는 것으로 유명했는데 심지어 구글 검색 로봇을 사칭하기도 했고, 문제점이 많은 성능 또한 유명했다.

하지만, 요즘은 검색이 잘 안되면 검색 품질이 좋지 않다는 정도의 이야기만 있을 뿐 robots.txt 관련하여 문제가 발생하거나 하지 않고 있다.

[/box]

제대로 열린 웹사이트를 위하여

이상 국내 주요 관공서의 robots.txt 설정을 들여다 보았다. 웹사이트에서 개인정보가 노출되지 않기 위해 노력하는 것은 중요하다. 개인적인 정보 뿐만 아니라 중요한 정보라면 그 무엇이든 널리 알려지거나 자동으로 수집되게 방치하면 안된다.

보안을 위해 웹사이트를 닫아두는 것은 좋은 선택이 아니다. 웹사이트에는 최대한 필요한 정보만을 올리도록 기획하고 운영해야지 애써 만든 웹사이트를 남들이 보게 힘들게 설정해 두는 것은 그 자체가 낭비라 할 수 있다. 조사 결과를 보면 한국 정부가 국민들에게 널리 알려야 할 정보를 막아둔 경우가 적지 않을 뿐만 아니라 외국 사람들이 한국을 이해할 수 있는 매우 쉬운 방법을 정부가 앞장서서 차단한 웹사이트들이 있는 것이다.

얼마 전까지만 해도 인터넷을 사용하는데 굳이 필요없는 주민번호와 같은 개인정보를 너도 나도 수집하다가 대규모의 해킹으로 엄청난 사람들의 정보가 여러 사이트에서 유출된 사건들이 여럿 있었다. 애시당초 그런 중요한 정보를 요구하거나 수집하지 않는 쪽으로 웹사이트를 기획하고 서비스를 발전시켜 나가야지 다양한 서비스를 제공한답시고 오히려 검색을 차단하면 이용자의 불편은 두 배, 세 배로 늘어날 뿐이다.

인터넷 세상에서 검색 서비스는 위험한 도구가 아니다. 안전행정부의 가이드라인과 한국 관공서의 robots.txt 설정을 보면 게임 셧다운제나 아청법의 경우에서도 지적된 바와 같이 원리를 정확히 이해하고 문제의 근원을 해결한다기 보다는 지금 당장 눈앞에 발현된 현상을 차단하거나 거부하는 것처럼 보이기도 한다.

열린 인터넷과 가치있는 정보를 위하여

물론 웹사이트가 모든 검색 엔진의 접근을 차단한 후 자신이 마음에 드는 검색 서비스에만 비공식적으로 연락을 취해 정보를 색인해 가라고 할 수도 있다. 인터넷의 누구에게나 통용되는 기술과 규약을 사용하지 않고 특정 웹서비스에만 데이터를 넘겨주고 그것들을 자신들의 취향에 맞게 가공하여 정보를 보여주게 하는 방식을 쓸 수 있다.

하지만 인터넷의 정보는 누구에게나 자유롭게 유통되고 널리 퍼져야 그 가치가 있다. robots.txt는 검색 로봇들에게 적절한 컨텐츠를 색인할 수 있게 도와주는 매우 사소한 시작이다. 게다가 웹사이트의 보안과는 관계도 없다. 이제라도 정부가 국민을 위한 다양한 정보가 널리 퍼질 수 있도록 관공서나 공공기관의 웹사이트들을 잘 확인하고 관리할 필요가 있다. 그리고 robots.txt를 적절하게 적용하는 것은 그 중에서도 아주 손쉬우면서도 강력한 방법이다.

법은 “공공기관은 정보의 적절한 보존과 신속한 검색이 이루어지도록 정보관리체계를 정비”해야하고, “정보통신망을 활용한 정보공개시스템 등을 구축하도록 노력하여야”한다고 공공기관의 의무를 명시하고 있다. (‘공공기관의 정보공개에 관한 법률’ 6조 2항)

관련 글

6 댓글

  1. 구글이 국내 진출할 무렵 생긴 조치가 유지되고 있는거죠.
    국내 관공서 웹사이트들이 보안이나 개인정보보호 같은게 미흡하던 시절(민원 게시판에 이메일 주소가 그대로 노출된다거나, 다른사람이 쓴 글의 글쓰기폼 링크가 나온다거나 -_-) 구글하면 그런게 다 나왔기 때문에 적용하기 시작한게 robots.txt 인데, 아직도 공무원들과 이야기 해보면 그걸 ‘개인정보 보안조치’ 쯤으로 이해하고 있는 사람 꽤 있습니다.
    검색이 안되더라도 시키는대로 했으니 문제없다는거지요. 정부가 기관에게 웹사이트 관리를 어느 범위 내에서 자율적으로 하되 검색에는 제대로 노출되도록 할 필요가 있어 보입니다.

  2. 엉뚱한데 돈쓰지 말고 제대로 된 곳에 컨설팅을 받아야 할 듯. 저런 엉터리로 만든 회사가 어딘지 담당자들이 누군지 궁금해지네.

댓글이 닫혔습니다.