인공지능 기술을 클라우드컴퓨팅에 결합할 때 얻을 수 있는 효과

인공지능 기술이 클라우드서비스를 통해서 하나의 플랫폼이나 프레임워크 등으로 제공하고 있는 것은 이제 기본적인 사항이다. 반대 방향으로 발전하는 인공지능 기술을 클라우드컴퓨팅이나 서비스에 적용해 클라우드서비스의 성능과 효율을 증가시키고자 하는 방향도 여러 측면에서 나타난다. 이를 통해 좀 더 효율적이고 전략적이며 통찰력 있는 방식으로 클라우드서비스를 제공하고 동시에 추가적인 유연성, 민첩성, 경비 절감을 얻을 수 있다. 데이터퀘스트는 인공지능 기술을 클라우드컴퓨팅에 적용하면서 얻을 수 있는 이점을 다음과 같이 제시하고 있다.

비용 효율성 (Cost-effectiveness)
향상된 데이터 관리 (Enhanced data management)
생산성 가속화 (Accelerated productivity)
지능형 자동화 (Intelligent automation)
더욱 심층적인 실행 가능한 통찰력 (Deeper actionable insights)
보안 향상 (Increased security)
신뢰 증가 (Reliability)

이 글에서는 인공지능을 클라우드컴퓨팅에 결합하면 어떤 효과가 있는지 여러 전문가와 미디어에서 언급한 내용을 모아서 정리해 보도록 한다.

클라우드 관리와 자율 구동

클라우드에 인공지능을 적용하는 방안 중 가장 대표적인 것이 반복적인 프로세스를 자동하고 워크로드를 완화하는 것을 보장하는 기능이다. 인스턴스를 모니터하고 관리하면서 나아가 문제가 발생했을 때 이를 스스로 고칠 수 있게 할 수 있다. 많은 클라우드 공급업체는 인공지능을 사용해 프라이빗 클라우드 배포 및 관리를 단순화하고 클라우드가 자가 설치, 자기 복구 및 자가 관리 할 수 있도록 자율 구동한다.

여기에는 다음과 같은 기술 목록이 있으며 이에 대한 자동화 문제를 해결해야 한다(참고 링크).

자동 설치 및 구성: ‘No Day 0’라고도 하며 사람의 개입이 많이 필요하지 않은 설치 프로세스를 자동화하는 것을 말한다.
다른 클라우드 및 내부 시스템과 통합: 기존 가상화 인프라 및 기타 퍼블릭 클라우드와 빠르게 연결하도록 한다.
셀프서비스 방식으로 애플리케이션 배포: 모든 클라우드는 다양한 팀이 셀프서비스 방식으로 사용할 수 있는 IaaS 및 PaaS 플랫폼을 제공한다는 목표를 갖고 있다. 너무 많은 시간을 들이지 않고 반복할 수 있도록 자동화해야 한다.
이벤트, 통계, 로깅 및 감사에 대한 실시간 모니터링
자가 모니터링 및 자가 치유
장기 의사 결정을 위한 머신러닝

처음에는 필수적인 운영을 자동화하지만, 분석 능력의 발전을 통해 대부분 독립적인 상위 프로세스를 디자인하는 데 활용할 수 있다. 일상적인 과정에 대한 시스템 지원 관리는 IT 팀이 클라우드컴퓨팅의 이익을 실현하면서도 좀 더 가치가 높은 전략적인 이니셔티브에 보다 집중할 수 있도록 도와줄 수 있다. 사실 이는 가트너가 얘기했던 IT 운영 프로세스의 자동화를 의미하는 AIOps 개념을 클라우드에 특화해 적용하는 것으로 이해할 수 있다. 마이크로소프트의 애저에서는 AIOps와 AI-지원 플랫폼을 묶어서 클라우드를 위한 인공지능으로 제시하고 있으며 시스템을 위한 인공지능과 데브옵스를 위한 인공지능, 고객을 위한 인공지능을 나누어서 그 역할과 효과를 제시하고 있다.

이번에 우리가 관심을 갖는 주제는 시스템을 위한 인공지능과 데브옵스를 위한 인공지능 영역에서 클라우드서비스 자체를 위한 인공지능 기술 영역이다. 클라우드 관리에서 자동화는 많은 역할을 할 수 있다. 클라우드 환경은 매우 역동적이며 효율적으로 관리하려면 자동화가 필요하다. 여기에는 용량 계획, 자원 스케줄링, 비용 최적화 등과 같은 자동화 작업을 포함한다. 머신러닝 알고리즘은 예측 분석 및 자동화된 의사 결정에 사용할 수 있으므로 사람의 개입을 줄일 수 있다. 기계 학습 모델은 과거 데이터에서 지속적으로 학습하고 다양한 센서의 실시간 입력을 기반으로 이상 징후를 감지하거나 미래 결과를 예측할 수 있다.

또한, 기존의 엔터프라이즈 IT 설정에서 IT 리소스의 프로비저닝 및 디프로비저닝은 사람이 수동으로 수행했다. 그러나 표준 프로토콜이 없기 때문에 시간이 많이 걸리고 오류가 발생하기 쉬운 프로세스이며, 더욱이 이러한 수동 프로세스는 피크 시간대에 사람이 따라가기가 어려워진다. 오늘날 많은 조직은 API 및 기계 학습 알고리즘을 사용하여 이러한 프로세스를 자동화하는 자동 프로비저닝 및 디프로비저닝 도구를 채택한다. 데이터 센터에서도 자동화를 통해 시설의 일상적인 활동을 사람 없이 완벽하게 관리하고 실행할 수 있다.

관련 작업에는 예약, 모니터링, 일반 유지 관리 및 애플리케이션 제공이 포함된다. 이러한 솔루션을 통해 데이터 센터 관리팀은 미션 크리티컬 작업에 더 많은 관심과 시간을 집중할 수 있게 된다. 최근 AFCOM 연구에 따르면 설문조사에 참여한 데이터 센터 공급자의 40%가 향후 3년 이내에 시설에 로봇 공학 또는 자동화 소프트웨어를 배포할 것이라고 밝혔다. 이러한 기술이 지속적인 성공을 추구하는 모든 데이터 센터 운영자의 목표가 되고 있다.

데이터 관리 개선과 더 깊은 통찰력

데이터 플랫폼이나 범용의 퍼블릭 클라우드 모두 데이터 처리와 분석 기능을 제공하기 위해 경쟁하고 있다. 데이터를 인식하고 수집하며 분류와 관리를 시간 경과에 따라 처리해야 한다. 이런 데이터 플랫폼에서 인공지능의 역할은 클라우드 인공지능 서비스의 역할을 하면서도 동시에 자체 기능의 고도화를 위해서 반드시 필요로 하는 기능이다. 고객이 필요로 하는 데이터 처리 주기 문제, 위험 감지, 마케팅, 고객 서비스, 공급망 데이터 관리 기능은 인공지능 기술을 통해서 더욱 더 지능화할 수 있으며 이는 클라우드서비스 기술 수준을 업그레이드하는 데 필수적이다.

또한, 데이터 관리 시스템과 인공지능 통합은 시스템 리소스를 절약하면서 데이터베이스 쿼리 정확도와 성능을 향상시킬 수 있다. 나아가 과거 데이터와 최신 데이터를 비교해 IT 팀에게 충분한 정보를 제공하는 데이터 기반 인텔리전스를 제공한다. 이는 클라우드 관리를 위해서도 사용할 수 있으며 고객을 위한 서비스 영역에서도 제공할 수 있다.

오류 및 비용의 감소

오늘날 기업의 클라우드 우선순위 1순위는 비용 최적화이다. 클라우드 비용 문제는 동적 프로비저닝, 지원의 자동 확장, 미사용 클라우드 리소스에 대한 가비지 수집 부족으로 인해 재무, 제품 및 엔지니어링 팀에 엄청난 고민을 제공하고 있다.

인공지능을 클라우드컴퓨팅에 통합해 작업 자동화를 하게 되면 사람의 간섭을 최소화하고 자체 학습 모델을 생성함으로써 기업이 더 빠른 의사 결정, 참여하는 사람 수 감소 등의 긍정적인 효과를 얻을 수 있다. 이는 비용에 직접적인 영향을 미치고 오류도 줄일 수 있다. 또 다른 비용 감소는 클라우드 지출을 줄이기 위해 인공지능을 사용하는 것이다. 인공지능은 예측 분석을 통해 과거 사용량을 기반으로 해당 월의 예상 클라우드 지출에 대한 통찰력을 제공할 수 있다. 이를 바탕으로 사용 습관에 더 적합한 클라우드 계획으로 전환해 지출을 줄일 수 있다. 예를 들어 콘트롤 플레인의 ‘캐패시티 AI’는 CPU, RAM 소비를 최적화해 런타임 비용을 줄이고, 과도한 프로비저닝 없이 적절한 양의 리소스로 워크로드를 실행한다.

또한 대부분의 사용자가 유럽에 있는 경우 유럽 위치 조정 매개변수를 나머지 세계보다 더 높은 수준으로 설정할 수 있다. 캐패시티 AI는 과거 사용량 분석을 통해 리소스를 조정해 비용을 크게 절감할 수 있다고 한다.

간단한 경우는 AWS 람다를 사용한 간단한 코드를 통해 아마존 EC2 예약 인스턴스 구매 프로세스를 자동화하거나 개발 인스턴스의 전원 주기를 자동화해 주말 동안 전원을 끄고 주 초에 다시 켜는 방식이다. 오류에 대한 대응 역시 최적화할 수 있다. 문제의 수가 증가함에 따라 관리 및 해결의 어려움도 증가하는데, ‘시끄러운 경고’의 대부분은 알려진 이벤트나 식별 가능한 패턴으로 인해 발생하는 경우가 많다. AIOps의 인공지능과 머신러닝 기술은 불필요한 경고를 필터링하고, 중복 경고를 억제하고, 알려진 이벤트 및 식별 가능한 패턴에 대한 작업을 자동화하여 더욱 간결한 경고 관리를 할 수 있게 한다.

향상된 보안 인공지능과 클라우드 통합은 리소스 및 데이터 보안을 자동으로 강화하고 더 나은 데이터 처리 및 오류 발견을 할 수 있게 한다. 비정상적인 이벤트나 간섭을 차단하는 것과 함께 무단 접근과 인적 오류를 줄일 수 있다. 인공지능을 사용하는 클라우드의 보안 자동화는 위협을 감지하고 차단하여 보안 침해의 노출을 제한하는 데 도움이 되며 이에 따라 클라우드 보안 자동화가 상당히 증가했다. 클라우드에서 데이터 및 네트워킹 볼륨이 증가하면서 공격도 복잡해지고 있기 때문에 시스템을 안전하게 유지하기 위해 전문가와 함께 인공지능을 사용할 수 있다. 인공지능 기술 중에 지도 학습은 알려진 공격에 사용할 수 있는 반면, 비지도 학습은 희소한 데이터 셋에서 비정상적인 이벤트를 감지하는 데 사용할 수 있다(참고 링크).

인공지능 기술이 지금까지 알려지지 않은 새로운 유형의 비정상적인 공격을 탐지해 이에 대응하게 한다면 이는 사람이 미처 파악하지 못하는 숨은 패턴에 대한 탐지가 가능해질 것이고 이에 많은 보안 기업이 인공지능 기술을 보안 영역에서 활용하고 있는 것이 사실이다. 더 많은 애플리케이션이 컨테이너 아키텍처로 이동하면서 컨테이너 안에서 실행되기 때문에 관련 이벤트 로그를 수집해 별도로 실행되는 더욱 강력한 보안 모니터링 애플리케이션으로 보낼 수 있다. 이는 애플리케이션 성능에 큰 부담을 가하지 않고 새로운 환경에서 강력한 보안을 제공할 수 있게 된다. 공격을 감지하고 알려진 문제에 따라 규칙이 대응할 수 있지만, 알 수 없는 문제에서는 피드백을 제공해 시스템을 강화할 수 있고 새로운 규칙을 신경망에 통합하거나 규칙 세트에 추가할 수 있게 된다. 이는 강화 학습 모델을 통해서 처리할 수도 있으며, 새로운 도전이 될 것이다.

데이터 센터 운영 개선

마이크로소프트, 메타, 구글은 인공지능을 이용해 데이터 센터의 안전 문제를 사전에 탐지하고 해결할 수 있는 방안을 만들고 있다(관련 링크).

마이크로소프트는 다양한 소스에서 얻는 데이터를 분석하고 안전사고의 영향을 예방하거나 완화하기 위해 데이터 센터 건설 및 운영팀에 경고를 생성하는 인공지능 시스템을 개발하고 있다. 또한, 상호 보완적이고 관련된 시스템으로 데이터 센터 건설 일정에 대한 영향을 감지하고 예측하고자 한다.

메타는 인공지능이 안전하지 않은 작업 환경으로 이어질 수 있는 “극한 환경 조건”서 데이터 센터가 어떻게 작동할지 예측할 수 있는 방법을 조사하고 있다고 주장한다. 메타는 극한 조건을 시뮬레이션하기 위해 물리적 모델을 개발하고 이 데이터를 서버 전체의 전력 소비, 냉각 및 공기 흐름을 최적화하는 인공지능 모델에 도입했다. 메타가 밝힌 방식은 일단 서버, 랙 및 데이터 홀에 내장한 센서를 사용해 일부 영역에서 중요한 운영 데이터를 매우 빠른 빈도로 수집한다. 서로 다른 워크로드를 처리하는 각 서버와 네트워크 장치는 데이터 센터에서 서로 다른 양의 전력을 소비하고 다른 양의 열을 생성하며 다른 양의 공기 흐름을 만든다. 인프라팀은 각 서버에서 모든 데이터를 수집한 다음, 데이터 센터의 서버와 랙을 할당하고 서버의 성능과 효율성을 최적화할 수 있도록 워크로드를 보내는 인공지능 모델을 개발하고 있다. 에너지 절약은 비용 절감과 함께 기후 위기에 대처하기 위한 클라우드서비스 회사의 의무이다. 2018년 구글은 딥마인드가 개발한 인공지능 시스템이 데이터 센터의 에너지 소비를 평균 30% 절감할 수 있다고 발표한 적이 있다.

구글은 인공지능을 활용하여 데이터 센터의 냉각 시스템 관리를 지원하고 날씨 또는 작업 부하의 변화에 대한 실시간 업데이트를 허용하여 시스템이 필요에 따라 시설의 특정 영역에 리소스를 할당할 수 있도록 한다. 또한, 소리와 비디오로 미세한 수준에서 기계를 검사하고 결함이나 기능 변화가 감지되면 직원에게 경고를 보내 비상 백업 발전기를 모니터링하는 데 인공지능을 사용한다. 메타와 마이크로소프트 역시 에너지 조정 목적으로 인공지능 기술을 사용하고 있다고 한다.

마이크로소프트는 전기 및 기계 장치의 원격 측정 데이터를 사용하여 데이터 센터 내에서 비정상적인 전력 및 물 사용 이벤트를 측정하고 완화하기 위해 2021년 후반에 “인공지능 기반 이상 감지 방법”을 출시했다. 또한, 데이터 센터의 전력 측정기 문제를 식별 및 수정하고 낭비되는 전력, 네트워크 및 냉각 용량을 최소화하기 위해 서버를 배치할 이상적인 지점을 식별할 수 있다고 한다. 메타는 냉각 목적으로 데이터 센터로 펌핑하는 공기의 양을 줄이기 위해 강화 학습을 활용하고 있다고 한다.

클라우드를 위한 인공지능 적용의 도전 문제

지금까지 얘기한 다양한 이점과 혜택이 있음에도 불구하고 인공지능 기술을 클라우드에 적용하기 위해서 풀어야 하는 몇 가지 이슈가 남아 있는 것도 사실이다.

첫 번째는 통합의 문제이다. 서로 다른 두 기술이 결합할 때마다 통합을 원활하게 진행하는 데에는 항상 어려움이 있다. 이런 통합은 근본적으로 기업이 일단 애플리케이션과 기술을 클라우드로 이전한 이후에 인공지능 레이어를 추가하는 방식으로 생각할 수 있다. 따라서 디지털 트랜스포메이션을 진행하는 것이 먼저이고 그다음에 통합의 문제를 생각할 수 있다.

두 번째는 데이터가 불충분할 때이다. 현재의 인공지능 기술은 대량의 좋은 데이터를 갖추었을 때 가장 잘 작동한다. 데이터가 구조화 되어 있지 않거나 불완전한 경우가 많기 때문에 큰 도전이며 데이터 품질은 클라우드 자체에서도 인공지능 기술을 적용하는 데 매우 중요한 이슈가 된다.

세 번째는 데이터에 대한 보안 및 개인 정보 보호의 문제다. 클라우드 자체의 보안 문제이면서 인공지능 기술 자체가 갖는 추가의 보안 문제에 대한 대책이 필요하다. 특히 학습에 사용한 데이터에 개인정보가 포함되어 있거나 의사 결정에 편향을 줄 수 있는 데이터가 있는 경우, 책임 있고 신뢰할 수 있는 인공지능 기술을 사용함을 보장하기 어렵기 때문이다.

[divide style=”2″]

[box type=”note”]

본 글은 한국지능정보사회진흥원의 지원을 받아 작성되었으며, 디지털서비스 이용지원시스템에 동시 게재합니다.

[/box]