모니터링을 넘어서: '통합 가시성'이란 무엇인가

가트너는 2023년 기술 트렌드 예측 보고서를 통해 ‘적용된 통합 가시성’을 그중 하나로 선정했다. 보고서에서 가트너가 제시하는 기회는 “적용된 통합 가시성은 조직에서 생성되는 데이터를 통해 작동하며, 인공지능을 사용하여 분석해 권장 사항을 제시함으로써 기업이 더 빠르고 정확한 미래 의사 결정을 내릴 수 있도록 지원한다. 이를 체계적으로 적용하면 대응 지연 시간을 줄이고 실시간으로 비즈니스 운영을 최적화할 수 있다.”고 설명하고 있다. 이는 특히 최적화라는 주제에서 디지털 면역 시스템, 인공지능 TRiSM(거버넌스, 신뢰성, 공정성, 신뢰성, 견고성, 효율성 및 데이터 보호에 대한 가트너의 용어)과 함께 선정했다.

통합 가시성의 의미와 필요성

아마존 AWS에서는 모니터링과 관측성(한국 AWS에서는 가시성을 관측성이라고 번역하고 있다)이라는 주제에서 AWS의 풀 스택 가시성에는 AWS 네이티브 애플리케이션 성능 모니터링(APM)과 오픈소스 솔루션을 포함하며, 언제든지 기술 스택 전반의 상황을 파악할 수 있다고 설명하고 있다. 또한 “AWS의 관측성 기능을 사용하면 클라우드, 하이브리드 또는 온프레미스 환경에서 네트워크, 인프라 및 애플리케이션의 원격 측정을 수집, 연관, 집계 및 분석하여 시스템의 동작, 성능 및 상태에 대한 인사이트를 얻을 수 있으며, 이러한 인사이트는 문제를 더 빠르게 감지, 조사 및 해결하는 데 도움이 된다. 또한 인공지능 및 기계 학습과 결합하여 문제를 선제적으로 대응, 예측 및 방지할 수 있다.”고 자사의 가시성 기술 스택 특성을 소개하고 있다.

이를 통해 얻을 수 있는 이점으로는 애플리케이션 상태를 파악해 최상의 사용자 경험을 제시하고, 협업 속도를 개선하며, 운영 비용의 절감과 고객 만족도 증가를 꾀할 수 있다고 말한다. 관련 서비스로는 클라우드와치, 엑스레이, 매니지드 그라파나, 프로메테우스를 위한 매니지드 서비스를 제시하고 있다.

여기에서 그러면 그동안 우리가 알던 클라우드 모니터링과 클라우드 가시성은 무엇이 다른지 알아볼 필요가 있다. 클라우드 모니터링은 다운타임을 줄이고 리소스를 더 잘 할당하기 위한 목적으로 애플리케이션에서 수신하는 정보를 말한다. 장애가 비즈니스나 프로세스에 영향을 미치기 전에 장애에 대한 알림과 데이터를 받는다. 모니터링은 주로 도구를 사용하여 수행되며, 주요 요점은 감지 및 완화 시간을 단축하여 고가용성을 달성하는 것이다.

그 반면 클라우드 가시성은 생성된 로그를 모두 가져오는 것이 아니며 통합 가시성을 정의하는 것은 로그에 포함된 정보이다. 시스템에서 생성된 로그, 특히 실행할 수 있는 인사이트를 제공하는 로그를 모니터링하고 분석할 수 있는 기능에 관한 것이다. 클라우드에서 생성되는 이벤트 로그, 메트릭, 추적 등 세 가지 주요 데이터 형식을 통해 통합 가시성을 향상시킬 수 있다. 다시 말해 시스템이 상태 정보를 식별하지 못한다면 문제나 장애를 알릴 통합 가시성이 부족하다고 판단할 수 있다. 즉, 클라우드에서 통합 가시성이란 운영 중인 시스템과 서비스를 이해하고 새로운 질문을 던지고 관련성 있는 새로운 데이터를 생성할 수 있는 역량을 갖추는 것을 의미한다.

통합 가시성을 위해 우리가 던지는 질문은 다음과 같은 것이다.

누가 어떤 작업을 수행하고 있는가?
내 네트워크에서 무엇이 전송 중인가?
현재 질문에 답하는 데 필요한 정보뿐만 아니라 앞으로 어떤 질문이 제기될 수 있는가?
이 모든 정보가 중앙 집중화되어 있고 환경을 변경하는 사람들이 액세스할 수 있는가?

마찬가지로 마이크로소프트의 애저에서도 모니터링과 통합 가시성을 분별할 것을 요구하고 있다.

“모니터링은 정보를 수집하고 사용자가 해당 조건을 모니터링하도록 구성한 것을 기반으로 문제를 감지했음을 알려준다. 간단히 말해, 알려진 장애 또는 예측할 수 있는 장애를 모니터링하는 것이다. 통합 가시성은 모니터링 도구에서 수집한 모든 데이터를 살펴보고 해당 시스템의 동작을 이해할 수 있는 기회를 찾는 데 중점을 둔다. 그리고 이러한 지식을 사용하여 이러한 증상이나 상태를 감지할 수 있도록 모니터링을 더욱 조정한다.”

애저에서는 다시 통합 가시성을 ‘시스템 제어 이론에서 비롯된 시스템의 속성이며 시스템의 또 다른 속성인 제어 가능성과 함께 시스템의 외부 출력에서 시스템의 내부 상태를 얼마나 잘 추론할 수 있는지를 측정하는 척도’라고 정의하고 있다.

마이크로소프트는 클라우드 채택(Adoption) 프레임워크를 통해 클라우드 채택을 가속할 수 있는 지침을 제공하고 있다. 또한 클라우드 채택 프레임워크의 핵심 모니터링 전략 중 하나는 통합 가시성이고 통합 가시성을 통해 모니터링이 가능하다고 믿는다. 초기 통합 가시성을 확보하면 실행할 수 있는 경고를 인지하고, 유용한 대시보드를 만들며, AIOps 솔루션을 평가할 수 있다. 이를 통해 모든 기본 메트릭과 로그 데이터에 익숙해질 수 있다는 것이 마이크로소프트의 입장이다.

이러한 가시성을 통해 고객 대면 트랜잭션이나 비즈니스에 중요한 내부 애플리케이션의 성능 문제가 발생하지 않도록 할 수 있다. 모르는 것은 모니터링 할 수 없으며 전체 기술 스택을 인식하려면 애플리케이션, 해당 서비스 및 트랜잭션에 대한 코드 수준까지의 통합 가시성이 필요하다. 애저 인프라 및 인프라가 지원하는 모든 서비스에 대한 통합 가시성은 성능 문제를 정확히 찾아내고 추측을 없애는 데 도움이 된다.

IBM 역시 통합 가시성에 대한 설명과 정의를 제공하고 있다.

“통합 가시성은 종종 과장된 유행어 또는 시스템 모니터링, 애플리케이션 성능 모니터링(APM), 네트워크 성능 관리(NPM)의 ‘리브랜딩’으로 잘못 인식되는 경우가 많다. 사실 통합 가시성은 클라우드 네이티브 애플리케이션 배포의 점점 더 빠르게 분산되며 동적인 특성을 더 잘 처리할 수 있는 APM 및 NPM 데이터 수집 방법의 자연스러운 진화이다. 통합 가시성은 모니터링을 대체하는 것이 아니라 더 나은 모니터링과 더 나은 APM 및 NPM을 가능하게 한다.”

통합 가시성의 필요에 대해서는 “지금 기업은 애자일 개발, 지속적 통합 및 지속적 배포(CI/CD), 데브옵스, 여러 프로그래밍 언어와 같은 최신 개발 관행과 마이크로서비스, 도커 컨테이너, 쿠버네티스 및 서버 리스 기능과 같은 클라우드 네이티브 기술을 빠르게 채택하고 있다. 그 결과 그 어느 때보다 빠르게 더 많은 서비스를 시장에 출시하고 있으나 이 과정에서 새로운 애플리케이션 구성 요소를 너무 자주, 너무 많은 장소에, 너무 다양한 언어로, 너무 다양한 기간 동안(서버 리스 기능의 경우 몇 초 또는 몇 분의 1초) 배포하고 있으므로 1분에 한 번 데이터 샘플링을 하는 APM으로는 그 속도를 따라잡을 수 없다.”고 말한다.

스플렁크는 통합 가시성을 위한 12개 불변의 법칙을 전자책 방식으로 다음과 같이 제시하고 있다. 먼저 스플렁크는 가시성이 원격 측정 데이터(지표, 추적 및 로그)를 사용하여 시스템(인프라, 서비스 등) 상태에 관한 질문에 대해 얼마나 잘 추론하거나 답변할 수 있는지를 측정하는 것이라는 정의를 내리고 있다.

가시성 솔루션은 모든 데이터를 사용하여 사각지대를 방지한다.
새로운 소프트웨어 정의(또는 클라우드) 인프라의 속도와 해상도로 운영한다.
개방적이고 유연한 계측을 활용하고 개발자가 쉽게 사용할 수 있다.
메트릭, 추적 및 로그 간의 상관관계 및 데이터 링크를 통해 모니터링, 문제 해결 및 해결 전반에 걸쳐 원활한 워크플로우를 지원한다.
즉시 사용할 수 있는 데이터를 쉽게 사용, 시각화 및 탐색할 수 있다.
인스트림 인공지능을 활용하여 더 빠르고 정확한 경고, 지시된 문제 해결 및 빠른 통찰력 제공한다.
프로덕션 환경에서도 (코드) 변경 사항에 대한 빠른 피드백 제공한다.
“코드만큼” 많은 작업을 자동화하고 가능하게 한다.
비즈니스 성과 측정의 핵심 부분이다.
가시성을 서비스로 제공한다.
협업, 지식 관리 및 사고 대응을 원활하게 내포한다.
미래의 성장과 탄력성을 지원하는 확장성을 갖는다.

통합 가시성 지원 도구들

2022년 6월에 가트너에서 발표한 APM과 통합 가시성을 제공하는 기업에 대한 매직 쿼드런트를 보면 다음 도표와 같다. 다음 도표에서 보듯이 퍼블릭 클라우드 기업에서 자체 제공하는 서비스보다 데이터도그, 다이나트레이스, 뉴렐릭, 하니콤 등의 전문 기업 서비스가 좀 더 경쟁력이 뛰어난 것으로 평가하고 있다.

데이터도그는 엔드투엔드 추적, 메트릭, 로그를 통합하여 애플리케이션, 인프라, 타사 서비스를 완벽하게 관찰할 수 있도록 지원하는 서비스를 제공하는데, 다중의 데이터 소스를 모니터링 분석하는 플랫폼 서비스와 제품을 하나의 창으로 파악할 수 있게 한다.

데이터도그는 자산의 통합 가시성 서비스가 제공하는 혜택을 다음과 같이 얘기하고 있다.

복잡한 세상을 위한 최신 모니터링

단일 통합 가시성 플랫폼에서 시스템, 앱, 서비스 전반을 확인
실행할 수 있는 컨텍스트를 생성하여 모든 규모에서 속도를 높이고, 비용을 절감하고, 다운타임을 방지
하나의 강력한 통합 가시성 플랫폼에서 최신 모니터링 및 보안을 신속하게 배포
600개 이상의 통합을 사용하여 몇 분 안에 모든 스택에서 실시간 데이터 캡처 시작

하나의 통합 가시성 플랫폼에서 모든 것을 보기

탐색하기 쉬운 통합 가시성 플랫폼을 사용하여 데이터를 탐색하고 분석
시스템 전반의 데이터에 대한 대시보드 및 기타 시각화를 만들고 사용자 지정
실행할 수 있는 알림, 위협 탐지 규칙, 데이터도그 API와 같은 통합 가시성 플랫폼 기능을 활용
인공지능 기반 이상 징후 탐색으로 최신 시스템의 복잡성 해결

실행할 수 있는 인사이트를 얻기 위한 컨텍스트 생성

하나의 플랫폼에서 전체 스택의 통합 가시성 데이터를 수집, 처리 및 상호 연관시키기
공유된 단일 창을 사용하여 다른 팀과 협업하여 빠른 속도로 문제 해결
클릭 한 번으로 메트릭, 추적, 로그 및 기타 통합 가시성 플랫폼 구성 요소 사이를 피벗하기
코드 수준까지 문제를 조사하여 모든 인시던트 및 오류에 대한 올바른 대응을 식별

배포가 간단하고 관리가 쉬운 모니터링

수만 개의 인프라 메트릭과 수백 개의 드릴다운 쿼리 메트릭을 즉시 추적
전문 서비스나 광범위한 교육 없이도 배포하고 모니터링을 시작할 수 있음
쿼리 언어가 필요 없고 누구나 사용할 수 있는 직관적인 사용자 인터페이스를 통해 조직 전체에서 채택을 촉진

모든 스택, 모든 앱, 모든 규모, 모든 위치에서 내부 보기

600개 이상의 공급업체 지원 통합을 통해 클라우드 서비스, 서버리스 기능, 데이터베이스, 온프레미스 서버, 컨테이너 등을 한곳에서 모니터링
몇 초 내에 사용자 정의 드래그 앤드 드롭 대시보드 생성
하나의 플랫폼에서 로그, 인프라 메트릭, 애플리케이션 추적, 트리거된 보안 신호 사이를 원활하게 탐색

IBM이 통합 가시성 영역에서 제시하는 서비스는 기본적으로 IT 자동화 도구들이며 다음과 같다.

특히 인스타나 서비스는 통합 가시성 영역에서 리더 그룹에 속하는데 AWS에서 제공하고 있다. 여기에는 APM 모니터링, CI/CD 파이프라인 가속, 분산 트레이싱, 근본 원인 분석, 모바일에서 메인프레임까지의 기능을 제공하고 있다.

대표적인 퍼블릭 클라우드 기업인 AWS에서 통합 가시성과 관련한 서비스는 다음과 같다.

클라우드왓치는 실시간 로그, 지표 및 이벤트 데이터를 자동화된 대시보드에 수집하고 이를 시각화하여 인프라 및 애플리케이션 유지 관리를 간소화한다. 이를 통해 애플리케이션 성능 모니터링, 근본 원인 분석 수행, 사전에 리소스 최적화, 웹사이트 영향력 테스트를 실행할 수 있다.

AWS 엑스레이(X-Ray)는 노 코드 및 로우 코드 동작을 통해 애플리케이션을 통과하는 요청을 전체적으로 보여주고 페이로드, 함수, 추적, 서비스, API 등에 걸쳐 시각적 데이터를 필터링한다. 아마존 매니지드 그라파나는 저장 위치에 관계없이 지표를 쿼리, 시각화 및 이해하고 지표에 대한 알림을 받을 수 있는 유명 오픈 소스 분석 플랫폼인 그라파나를 위한 완전 관리형 서비스를 말한다.

마지막으로 프로메테우스를 위한 매니지드 서비스는 대규모의 컨테이너식 애플리케이션 및 인프라를 모니터링하고 그에 대한 알림을 제공하는 새로운 프로메테우스 호환 서비스이다. 이 서비스는 아마존 엘라스틱 쿠버네티스 서비스(EKS), 아마존 엘라스틱 컨테이너 서비스(ECS), AWS 오픈 텔레메트리를 위한 디스트로(Distro)와도 통합된다. 특히 모니터링, 경고 및 대시보드 보기를 위해 AWS 및 하이브리드 환경에서 실행되는 컨테이너를 모니터링하고 그라파나를 위한 매니지드 서비스와 통합, 문제 해결과 근본 원인 분석을 위해 PromQL을 사용하여 컨테이너 성능 및 시스템 상태를 추적하고, 오류를 감지하며, 경고를 통해 평균 해결 시간을 줄인다.

워크로드 및 애플리케이션 지표 모니터링을 위해서 AWS 오픈 텔레미트리를 위한 디스트로를 사용하여 어디에서나 지표를 수집하고 오픈소스 내보내기를 사용하여 해당 지표를 프로메테우스를 위한 매니지드 서비스로 전송한다. 또한 비디오 스트림, 네트워크 애플리케이션 및 IoT 디바이스의 시계열 데이터와 같은 카디널리티가 높은 데이터를 모니터링하고 경고하는 기능을 제공한다.

모니터링을 넘어서

기업에 따라 적게는 수백 개, 많게는 수만 개에 이르는 애플리케이션이 활용되고 있는 오늘날, 애플리케이션 범람과 비가시성을 의미하는 애플리케이션 흩어짐은 심각한 수준의 각종 문제로 이어진다. 또한 관리되지 않는 레거시 플랫폼을 사용하거나 인프라 자원과 매핑 기반으로 관리되지 않는 애플리케이션으로 인해 기술 리스크를 명확하게 파악하기 어려워진다. 명료한 애플리케이션 가시성을 기반으로 기업은 전략 목표에 기반해 비즈니스 애플리케이션을 조정하고 애플리케이션 최적화 및 리스크 관리를 수행할 수 있다.

클라우드 환경에서는 이제 모니터링 수준을 넘어서 AIOps(AI; 인공지능+ITOps; 운영)가 가능한 수준으로 전체 시스템의 움직임과 애플리케이션 상태 가치를 평가해야 하며, 애플리케이션 사이의 연관 관계를 분석하고 생애 관리 및 우선 순위 등에 대한 적절한 결정을 내리는 인사이트가 필요하다.

애플리케이션 통합 가시성은 클라우드 자원과의 연계성, 특정 벤더가 제공하는 애플리케이션의 서비스 종료, 존속 여부 데이터를 비롯해 다각적인 TCO 데이터 및 이용자의 만족도까지 한눈에 확인할 수 있는 수준으로 발전하고 있다. 그 뿐만 아니라 애플리케이션이 기업 비즈니스 역량을 제대로 지원하도록 계획하게 도우며, 근간의 기술 리스크를 관리하는 거버넌스를 구현하게 하고 있다.

주요 퍼블릭 클라우드 서비스 사업자들도 자체적으로 통합 가시성을 위한 서비스 군을 제공하고 있지만, 아직 이 시장에서는 전문화된 서비스 기업의 역할이 눈에 띄고 있으며, 데이터 클라우드를 제공하는 기업 역시 이런 애플리케이션 통합 가시성을 제공하기 위한 솔루션을 갖추기 시작하고 있다.

[divide style=”2″]

[box type=”note”]

본 글은 한국지능정보사회진흥원의 지원을 받아 작성되었으며, 디지털서비스 이용지원시스템에 동시 게재합니다.

[/box]