기사 공유하기

인공지능(AI)은 우리가 사는 동안 경험하는 가장 파괴적인 기술 혁신이다. 기존에는 학문에 국한된 분야라고 인식했던 게 지금은 상업적으로 주류가 되었다. 기업은 인공지능과 머신러닝(ML)을 수용하고 모든 사업 부문에서 다양한 데이터 유형(정형, 비정형 및 반정형)을 활용하고 있다.

가장 파괴적인 기술 혁신

인공지능과 머신러닝의 대표적인 활용 사례를 세 가지로 나눠 보면 다음과 같다.

1. 매출 성장

  • 마케팅 및 영업 팀은 인공지능을 사용하여 잠재 고객의 개인화 특성을 더 잘 타게팅하고 홍보 캠페인을 최적화하며 고객의 우선순위를 정한다.
  • 인공지능 기술은 소셜 미디어의 감정 상태, 광고 속성의 프로그래밍 방식 선택, 마케팅 프로그램의 효과 측정, 고객 충성도 보장 및 지능형 판매 추천을 가능하게 한다.

2. 비용/운영 효율성

  • 인공지능 기반의 컨택 센터 솔루션은 해결 시간을 단축하고 고객 경험(CX)을 개선한다. 자연어 처리를 통해 고객은 필요한 사항에 대해 쉽게 커뮤니케이션이 가능하다.
  • 딥러닝(DL) 알고리즘은 심각한 질병의 진단 및 치료를 가속화하고 정밀 의학을 지원한다.
  • 산업용 IoT 모델은 기계가 오작동이 날 시기를 예측하고 예방적 유지보수를 권장하여 잠재적인 가동 중지 시간을 방지할 수 있다.

3. 위험 완화

  • 금융 기관은 대출 관리를 개선하고 위험을 줄일 수 있다. 또한 인공지능은 사기 탐지 및 비정상적인 활동 발견을 통해 금융 범죄를 줄일 수 있다.
  • 인공지능은 사이버 보안에서 중요한 역할을 하고 있다. 공격을 예측하고 방지하는 조직의 능력을 개선하고, 제로 트러스트 보안 프레임워크로 급증하는 위협을 보호함으로, 모든 비즈니스 간 경계를 보호하는 데 필수적인 역할을 수행한다.

기업이나 조직에서 진행하는 인공지능 운영은 비용 절감 그 이상을 제공한다. IDC 설문조사에 따르면, AI 디스럽터(인공지능을 통해 새로운 비즈니스 가치와 지속 가능한 경쟁 우위를 반복적으로 창출하는 조직)는 고객 경험이 39% 개선되었고, 직원 업무 효율성이 33% 향상됨으로 기술 혁신이 가속화되었다 한다. 인공지능 채택 성숙도와 우수한 비즈니스 성과 사이에는 직접적인 상관관계는 분명하다. 이것이 기업이 코어 업무에서 인공지능과 머신러닝 운영도를 전략적으로 확장해야 할 필요성이 된다. 하지만 학습을 통해 발전하는 인공지능과 머신러닝에게 좋은 데이터 프레임워크는 필수적이다.

  • 인공지능과 머신러닝은 모델 학습을 위해 방대한 양의 데이터가 필요하다.
  • 이견 없는 결과를 보장하려면 다양한 데이터 세트가 필요하다.
  • 특히 역동적인 비즈니스 환경에서 예측 성능을 유지하기 위해 최신 정보로 지속 반복적으로 학습되어야 한다.

이런 구조와 시장 요청은 통합 데이터 아키텍처를 활용함으로써 다양한 데이터 유형 및 관련 에코시스템의 힘을 활용하여 혁신과 변화를 주도할 수 있다. 많은 조직이 인공지능의 중요성과 비즈니스에 미치는 잠재적 영향을 이해하고 있지만, 파일럿에서 프로덕션으로 이동하는 데 어려움을 겪는 경우가 많다. 인공지능 솔루션 구현은 다음과 같은 어려움이 있다.

  • 비용(하드웨어 및 컴퓨팅 리소스)
  • 숙련된 전문 인력 부족
  • 머신러닝 운영 도구 및 기술 부족
  • 데이터의 적절한 볼륨 및 품질 부족
  • 신뢰 및 거버넌스 문제

데이터는 인공지능의 핵심일 뿐만 아니라 중요한 도전과제다. 조직의 절반 이상이 인공지능 솔루션을 구현하는 데 필요한 데이터의 양과 품질이 부족하다고 하는데 이것 단지 공급의 문제가 아니다. 모델 개발 단계에서 비즈니스의 가장 큰 과제는 데이터를 플랫폼으로 가져오는 과정과 방법에 있다. 이는 특히 데이터를 올바른 형식으로 즉시 사용할 수 없는 경우 더욱 어려워진다.

관리되는 고품질 데이터의 단일 소스만 제공할 수 있다면, 데이터 과학자뿐만 아니라 분석가 및 기타 그 데이터를 이용하는 비즈니스팀에도 절대적인 강점이 된다. 관련성 있고 정확하며 확장 가능한 AI/ML 애플리케이션을 보유하기 위해 기업은 실시간 또는 배치 데이터의 품질이 충분히 높은 지를 확인할 수 있어야 하고, 조직 내뿐만 아니라 파트너 비즈니스 네트워크와도 안전하게 공유할 수 있어야 한다.

데이터 클라우드

AI/ML로 데이터의 모든 기능을 활용하려면 데이터 과학자와 머신러닝 엔지니어에게 최신 소프트웨어 프레임워크와 프로그래밍 언어가 필요하지만, 올바른 기술을 보유하는 것만으로는 충분하지 않다. 머신러닝 모델에는 조직 내부에는 없지만, 관련성 높은 데이터가 필요하다. 내부 데이터는 회사가 자체 운영 또는 고객 정보만 볼 수 있도록 허용하는데, 이것은 완전한 학습을 하기에는 부족하다.

이런 상황이 데이터 클라우드라는 개념과 도입 운영을 필요로 한다. 데이터 클라우드엔터프라이즈 데이터의 손쉬운 재사용, 이동성 및 소비성을 가능하게 하는 통합 데이터 관리 에코 시스템이다. 기업의 모든 데이터 소스, 데이터 웨어하우스, 데이터 레이크, 워크로드 및 선택한 클라우드의 지원 인프라를 연결하는 단일 클라우드 분석 플랫폼으로 구동된다.

한상기의 글(데이터 클라우드란 무엇인가)에 따르면, 20%의 기업 내 주요 데이터는 비교적 접근이 쉽지만, 나머지 80%는 활용하거나 적합한 용도로 사용하기에 문제가 있고 비용과 보안 문제가 많다고 한다. 데이터 클라우드 아키텍처는 사일로(data silo; 다른 부서에서 접근할 수 없는 분리된 정보)조각화를 제거하여 데이터에 더 쉽게 액세스하고 쿼리하고 소비 가능한 통찰력으로 변환할 수 있도록 지원한다. 기업이 온프레미스 리소스와 함께 여러 클라우드서비스 공급자에 일상적으로 의존하는 복잡한 멀티 클라우드 환경에서 데이터 클라우드는 절실히 필요한 일관성을 제공한다. 데이터 클라우드는 세 가지 주요 구성 요소를 통해 동작한다.

1. 데이터 소스

데이터 클라우드 솔루션은 인프라가 주요 퍼블릭 클라우드 또는 온프레미스에서 호스팅 되는지 여부에 관계없이 여러 소스 시스템에서 엔터프라이즈 정보를 수집, 처리 및 확장할 수 있다. 이 데이터는 비정형, 반정형 또는 정형일 수 있다. 그리고 모든 것이 데이터 클라우드로 이동함에 따라 중복 프로세스의 ‘파이프라인 정글’여러 데이터 소스로부터 실시간 또는 배치 작업등 기업 내 여러 팀과 부서가 소유하고 개발하는 다양한 업무 프로세스—에 의존하는 기존 접근 방식에서 발생하는 기술적 부채 없이 일관된 방식으로 개선된다.

2. 데이터 웨어하우스, 데이터 레이크 및 관련 데이터 아키텍처

당면한 비즈니스 요구 사항에 따라 엔터프라이즈 데이터는 다음 위치에 있을 수 있다.

  • 데이터 웨어하우스: 여러 소스의 데이터를 통합하고 프론트 엔드 클라이언트가 접근할 수 있도록 하는 계층화된 아키텍처
  • 데이터 레이크: 일반적으로 하둡(Hadoop)과 같은 오픈소스 소프트웨어로 관리가 수행되는 원시 형식의 모든 유형의 데이터에 대한 중앙 집중식 저장소
  • 데이터 레이크 하우스: 데이터 레이크 위에 스트리밍 분석 및 보고 대시보드와 같은 기능을 추가하는 구조
  • 데이터 메시: 비즈니스의 서로 다른 부분에 해당하는 논리적 도메인을 중심으로 구축된 분산형 아키텍처

이러한 각 아키텍처는 SQL 엔진, 데이터 패브릭 및 API를 활용하여 소비 가능한 통찰력을 제공할 수 있는 클라우드 데이터 플랫폼에 연결할 수 있다.

3. 확장성 있는 클라우드 데이터 플랫폼

데이터 클라우드의 ‘두뇌’라고 할 수 있다. 모든 소스 및 아키텍처의 데이터를 처리하고 확장하여 한 번 저장하고 여러 번 재사용할 수 있는 신뢰할 수 있는 단일 소스를 생성한다.

기업이 기본 데이터 웨어하우징만 필요로 하거나 지리 공간 및 시계열 데이터를 분석하기 위한 고급 기능이 필요하든 데이터 클라우드 내의 클라우드 데이터 플랫폼은 모든 작업을 수행할 수 있다. 이 플랫폼은 최대 클라우드 선택 및 유연성을 위해 단일 및 다중 클라우드 환경과 온프레미스를 포함하여 다양한 방식으로 배포할 수도 있다.

인공지능, 머신러닝을 위한 데이터 클라우드 시스템

데이터는 실시간으로 제공될 수 있기에 사기 감지 또는 제품 추천과 같은 사용 사례에서 실시간 예측을 위해 해당 데이터를 활용할 수 있는 여부가 매우 중요하다. 사용자와 사용 사례가 급증함에 따라 머신러닝 기반 애플리케이션은 이러한 추가 로드를 처리할 수 있어야 한다.

애플리케이션이 확장되지 않으면 성능 병목 현상으로 인해 AI/ML 사용의 가치가 감소한다. 확장 가능한 시스템을 개발하는 것은 쉽지 않지만, 증가하는 비즈니스 요구 사항을 처리하려면 반드시 필요하다. 시스템 확장에 실패하면 비즈니스 손실과 수익 기회 상실로 이어진다.

예를 들어 처리 시간 지연으로 인해 장바구니를 포기하거나 적시에 추천하지 못할 수 있다. 시스템을 확장할 때 조직은 인프라 최적화(처리 성능 및 탄력성), 상호 운용성(지원되는 프로그래밍 언어 및 ML 프레임워크), 기존 데브옵스 도구 및 사례와의 머신러닝 작업 통합과 같은 잠재적인 기술 문제에 대비해야 한다.

제로에 가까운 관리가 필요한 탄력적이고 지능적인 인프라 위에 구축함으로써 조직은 비용 효율적이고 시간을 절약하는 방식으로 사용자 수와 관계없이 병목 현상 없이 대량의 데이터와 프로세스 데이터를 더욱 효율적으로 처리할 수 있다. 이 접근 방식에는 다음과 같은 몇 가지 고유한 이점이 있다.

  • 생산성 향상: 조직은 모든 단계(데이터 준비, 실험, 모델 교육 및 배포)를 빠르게 실행할 수 있는 파이프라인을 보유함으로써 보다 민첩하고 창의적이 된다.
  • 협업: 머신러닝 수명 주기에 관련된 모든 페르소나가 학습 및 학습된 모델 결과를 활용할 수 있을 때 유용하다.
  • 비용 대비 가치 최적화: 스케일링은 사용 가능한 리소스를 최적으로 활용하고 한계 비용과 정확도 사이에서 균형을 이루는 데 도움이 된다. 다중 페르소나를 지원하는 간소화된 아키텍처는 중복 시스템의 필요성을 제거한다.
  • 가치 창출 시간 단축: 파이프라인은 데이터 전문가가 더 복잡한 작업에 집중할 수 있도록 자동화한다.

효과적인 인공지능에는 데이터 다양성이 필요하다. 마찬가지로 인공지능의 혁신적 영향은 광범위한 데이터 유형을 사용하여 실현될 수 있다. 데이터 계층을 추가하면 모델의 정확성과 애플리케이션의 궁극적인 영향을 개선할 수 있다.

예를 들어, 소비자의 기본 인구 통계 데이터는 그 사람에 대한 대략적인 스케치를 제공한다. 결혼 여부, 교육, 고용, 수입, 음악 및 음식 선택과 같은 선호도와 같은 컨텍스트를 추가하면 더욱 완전한 그림이 만들어진다. 최근 구매, 현재 위치 및 기타 생활 이벤트에서 추가 통찰력을 통해 개인화를 향한 모델이 완성된다. 가장 큰 도전과제는 데이터의 최종 위치가 따로 존재하는 사일로보다는 데이터 구조 유형에서 나타나는 사일로가 훨씬 더 접근과 관리를 어렵게 한다는 것이다.

이런 사일로의 원인으로 안타깝게도 기업이나 조직은 실제 데이터 과학이 아닌 수집과 통합 작업에 더 많은 시간을 할애하고 있는 것이 현실이다. IDC의 조사에 의하면, 기업이 데이터 수집과 준비에 AI/ML 수명 주기의 총 시간 중 가장 많은 시간(21%)을 소비하는 것으로 나타난다.

 

[divide style=”2″]

이러한 데이터 클라우드 솔루션을 제공하는 가장 대표적인 기업인 스노우플레이크AWS의 레드시프트의 주요 기능과 기술에 대해서 알아보는 것은 시장의 트렌드와 상황을 이해하는 데 도움이 된다.

스노우플레이크(Snowflake) AI/ML 솔루션

스노우플레이크의 데이터 클라우드를 통해 조직은 여러 소스의 여러 데이터 유형과 구조를 단일 정보 소스로 통합할 수 있다. 이러한 통합을 통해 데이터 준비에서 모델 구축, 애플리케이션 배포에 이르기까지 AI/ML 수명 주기에 관련된 모든 이해관계자가 더 쉽게 데이터를 공유하고 효과적으로 협업하여 가치 있는 인사이트를 신속하게 도출할 수 있도록 도와준다.

이 솔루션의 특징에 대해 알아보자.

모든 관련 데이터에 쉽게 접근

스노우플레이크는 JSON, XML, ORC 및 Parquet에 대한 기본 지원을 통해 데이터 과학 워크플로우를 위한 정형, 반정형 및 비정형 데이터를 검색하고 접근할 수 있도록 지원한다. 데이터가 아마존 S3, 아파치 Glacier, 애저 Blob 저장소 및 구글 클라우드 스토리지와 같은 곳에 저장되어 있어도 외부 테이블을 사용하여 이 데이터를 쉽게 쿼리할 수 있다. 모든 데이터 유형에 대해 하나의 도구 세트를 사용하면 데이터 검색 및 준비 주기가 단축되는 큰 장점이 있다.

스노우플레이크의 데이터 공유를 위한 데이터 익스체인지

또한, 데이터 과학자가 조직 외부의 모든 관련 데이터에 접근할 수 있도록 보안 데이터 공유를 사용하고 스노우플레이크 마켓플레이스를 통해 타사 데이터에 접근하여 파트너, 공급업체, 벤더 및 고객 간의 데이터 공유를 간소화한다. ETL 통합을 단순화하고 데이터 공급자와 데이터 소비자 간에 ‘라이브’ 데이터를 자동으로 동기화하는데 이것은 소스 데이터가 복사되지 않고 공유되기 때문에 고객은 추가 클라우드 스토리지가 필요하지 않다. 마켓플레이스 및 데이터 교환을 통해 데이터 과학자는 원시 데이터와 처리된 데이터를 모두 공유하여 모델에서 쉽게 협업할 수 있다.

언어 및 프레임워크의 유연성

넓은 개발언어 지원과 오픈소스 및 상용 솔루션을 함께 제공함으로써 개발자가 실행 가능한 비즈니스 인사이트를 생성하는데 유용하다.

새로운 개발자 프레임워크인 스노우파크(Snowpark)를 통해 개발자는 스노우플레이크 엔진의 규모와 성능을 활용하고 플랫폼에 내장된 기본 거버넌스와 보안 제어를 활용할 수 있다. 또한, 파트너 에코시스템을 통해 고객은 파이썬, R, 자바 및 스칼라와 같은 데이터 과학 도구 및 언어에 대한 연결을 활용할 수 있다.

아마존 세이지메이커(SageMaker) 사용자는 세이지메이커 데이터 랭글러(Data Wrangler) 또는 세이지메이커 오토파일럿(Autopilot)에 대한 사전 구축된 통합 모델을 활용하거나 파이썬용 커넥터를 사용하여 노트북 인스턴스에서 팬더 데이터프레임(Pandas DataFrames)을 직접 로딩할 수 있다. 이 고속 연결로 인해 모델 개발을 가속화하고 데이터 준비 및 기능을 최적화할 수 있다.

ML 워크플로우 전 단계의 우수한 성능

스노우플레이크는 대량의 데이터와 사용자를 동시에 처리할 수 있다. 지능형 멀티클러스터 컴퓨팅 인프라와 엔지니어링 파이프라인 자동화는 병목 현상이나 사용자 동시성 제한 없이 기능 엔지니어링 요구 사항을 충족하도록 자동으로 확장된다. 대량 추론(bulk inference)의 경우 사용자 정의 함수(UDF)로 스노우플레이크 시스템 내부에 모델을 배포할 수 있다. 실시간 추론을 위해 사용자는 외부 계층(예를 들어 도커)에 모델을 배포하고 외부 함수를 사용하여 모델의 API와 통신함으로써 스노우플레이크 내부에서 직접 예측을 쉽게 요청할 수 있다.

엔터프라이즈급 보안 및 거버넌스

모든 AI/ML 워크플로우에서 일관된 엔터프라이즈급 거버넌스 제어 및 보안을 시행하여 인공지능 편향을 제한할 수 있다. 데이터 클라우드는 암호화, 접근 제어, 네트워크 모니터링 및 물리적 보안 조치를 포함하는 다 계층 보안 기반을 기초로 하고 있다.

ISO/IEC 27001 및 SOC 1/SOC 2 Type 2와 같은 산업 표준 기술 인증 외에도 여러 정부의 산업 규정을 준수하고 있다. 익명화 뷰(Anonymized View), 동적 데이터 마스킹, 행/열 수준 정책과 같은 보안 기능을 통해 데이터 과학자가 모델의 편향으로 이어질 수 있는 민감한 정보를 사용하지 못하도록 제한할 수 있다.

아마존 레드시프트(Redshift) ML

레드시프트 ML데이터 분석가와 데이터베이스 개발자가 레드시프트 데이터 웨어하우스에서 SQL을 사용하여 머신러닝 모델을 쉽게 생성, 학습 및 적용할 수 있다. 레드시프트 ML을 사용하면 새로운 도구나 언어를 배우지 않고도 완전 관리형 머신러닝 서비스인 아마존 세이지메이커를 활용할 수 있는 것이 큰 특징이다.

SQL을 사용하여 레드시프트 데이터에 접근해 세이지메이커 모델을 생성하고 학습한 다음 이 모델을 사용하여 예측을 수행한다는 것이 큰 프로세스의 흐름이다. 예를 들어 레드시프트의 고객 유지 데이터를 사용하여 이탈 감지 모델을 학습한 다음 해당 모델을 마케팅팀의 대시보드에 적용하여 이탈 위험이 있는 고객에게 인센티브를 선제적으로 제공할 수 있다. 레드시프트 ML은 데이터 웨어하우스 내에서 모델을 SQL 함수로 사용할 수 있도록 하므로 쿼리 및 보고서에 직접 적용할 수 있다.

사전 ML 경험이 필요하지 않음

가장 큰 장점 중의 하나가 된다. 레드시프트 ML을 사용하면 표준 SQL을 사용할 수 있으므로 분석 데이터에 대한 사용사례로 쉽게 생산성을 높일 수 있다. 레드시프트 ML은 세이지메이커와 최적화되어 안전한 통합 플로우를 제공하고 레드시프트 클러스터 내에서 추론을 가능하게 하여 쿼리 및 애플리케이션에서 ML 기반 모델이 생성한 예측을 쉽게 사용할 수 있도록 한다. 별도의 추론 모델 엔드포인트를 관리할 필요가 없으며 학습 데이터는 암호화를 통해 엔드 투 엔드로 보호된다.

표준 SQL을 사용하여 Redshift 데이터에서 ML 사용

레드시프트에서 CREATE MODEL SQL 명령을 사용하여 시작하고, 학습 데이터를 테이블 또는 SELECT 문으로 지정하는 표준 SQL 문법을 사용한다. 그 후에 레드시프트 ML은 데이터 웨어하우스 내에서 학습된 모델을 컴파일하여 가져오고 즉시 사용할 수 있는 SQL 추론 기능을 제공한다. 레드시프트 ML은 모델 학습 및 배포에 필요한 모든 단계를 자동으로 처리한다.

레드시프트를 사용한 예측 분석

레드시프트 ML을 사용하면 사기 탐지, 위험 점수 매기기, 이탈 예측과 같은 예측을 쿼리 및 보고서에 직접 포함할 수 있다. SQL 함수를 사용하여 쿼리, 보고서 및 대시보드의 데이터에 ML 모델을 적용하게 된다. 예를 들어 데이터 웨어하우스의 신규 고객 데이터에 대해 “고객 이탈” SQL 기능을 정기적으로 실행하여 이탈 위험이 있는 고객을 예측하고 이 정보를 영업 및 마케팅팀에 제공하여 고객 유지에 필요하다고 판단된 제안을 통해 선제적 조치를 취할 수 있다.

자체 모델 가져오기(BYOM: Bring Your Own Model)

레드시프트 ML은 로컬 또는 원격 추론에 자체 모델(BYOM) 사용을 지원한다. 레드시프트의 로컬 데이터베이스 내 추론을 위해 세이지메이커와 함께 외부에서 학습된 모델을 사용할 수 있다. 로컬 추론을 위해서는 세이지메이커 오토파일럿(Autopilot) 및 다이렉트 세이지메이커 학습 모델을 가져올 수도 있다. 또한, 원격 세이지메이커 엔드포인트에 배포된 원격 사용자 지정 ML 모델을 호출할 수 있는데, 원격 추론을 위해 텍스트 또는 CSV를 수락하고 반환하는 모든 세이지메이커 ML 모델을 사용할 수 있다.

데이터는 기업 인공지능과제의 핵심

많은 기업과 조직이 디지털 혁신을 진행하면서 인공지능을 채택한다. 인공지능은 비즈니스가 민첩하고 혁신적이며 확장 가능하도록 돕는 기술이다. 성공적인 기업은 정보를 합성(인공지능을 사용하여 데이터를 정보로 변환한 다음 지식으로 변환)하고 학습(인공지능을 사용하여 지식 간의 관계를 이해하고 학습을 비즈니스 문제에 적용)하여, 궁극적으로 규모의 인사이트(인공지능을 사용하여 의사 결정 및 자동화 지원)를 생산하는 ‘인공지능 우선(AI 퍼스트)’조직이 될 가능성이 높다.

인공지능은 비즈니스의 모든 기능 영역에서 사용하는 활성화 기술이 되고 있다. 가트너전 세계 인공지능 소프트웨어 시장이 2022년에 62조 달러에 달할 것으로 예측한다. 데이터는 기업 인공지능 과제의 핵심이다. 기업 조직이 부가가치를 만들기 위해서는 전체 AI/ML 수명 주기 워크플로우를 지원하고, 모든 데이터 유형을 지원하는 안전한 데이터 플랫폼의 선택이 필요하다.

또한, 멀티 클라우드 에코시스템 전반에서 범용 데이터 및 사용 정책을 자동화하고 적용하는 것이 필요하다. 데이터 전략을 강화하고, 데이터 과학 전문가와 개발자, 비즈니스 사용자가 안전하게 관리되며, 확장 가능한 협업 데이터 플랫폼의 신중한 채택이 필요하다.

 

[divide style=”2″]

[box type=”note”]

본 글은 한국지능정보사회진흥원의 지원을 받아 작성되었으며, 디지털서비스 이용지원시스템에 동시 게재합니다. 이 글의 필자는 김영욱 시니어 프로그램 매니저입니다.

[/box]

관련 글