Trace Id is missing
주 콘텐츠로 건너뛰기
노트북에서 프레젠테이션을 통해 대면 토론 중인 네 사람

데이터 웨어하우스란?

데이터 웨어하우스의 개념, 데이터 웨어하우스를 사용할 경우의 이점, 설계 단계에서 고려할 모범 사례 및 마지막으로 빌드할 때 통합할 도구에 대해 알아봅니다.

데이터 웨어하우스란?

먼저 데이터 웨어하우스란 무엇이고 조직에서 데이터 웨어하우스를 사용해야 하는 이유를 정의해 보겠습니다.

데이터 웨어하우스는 보고 및 분석을 위해 정형 데이터(데이터베이스 테이블, Excel 시트) 및 반정형 데이터(XML 파일, 웹 페이지)를 저장하는 중앙 집중식 리포지토리입니다. 데이터는 POS(Point-Of-Sale) 시스템, 비즈니스 응용 프로그램 및 관계형 데이터베이스와 같은 다양한 원본에서 수집되며, 일반적으로 웨어하우스에 도달하기 전에 정리 및 표준화됩니다. 데이터 웨어하우스는 많은 양의 정보를 저장할 수 있으므로 데이터 웨어하우스를 사용하면 데이터 마이닝, 데이터 시각화 및 기타 형태의 비즈니스 인텔리전스 보고에 사용할 수 있는 다양한 기록 데이터에 쉽게 액세스할 수 있습니다.

테이블에서 보고서 데이터를 확인하고 있는 두 사람

데이터 웨어하우스의 이점

특히 시간이 지남에 따라 집계되는 신뢰할 수 있는 데이터는 사용자가 조직을 운영하는 방식에 대해 더 스마트하고 합리적인 결정을 내리는 데 도움이 되며, 데이터 웨어하우스가 이를 가능하게 합니다. 엔터프라이즈 데이터 웨어하우징의 이점은 무수히 많지만 가장 중요한 이점은 다음과 같습니다.

데이터 웨어하우스와 데이터 레이크 비교

조직의 분석 작업에서 데이터 웨어하우스는 필수 요소입니다. 하지만 데이터 웨어하우스와 다른 유형의 데이터 리포지토리(예: 데이터 레이크) 간의 차이점은 무엇인가요? 그리고 언제 어느 것이 더 적합한가요?

리포지토리로서 데이터 웨어하우스와 데이터 레이크는 모두 데이터를 저장하고 처리합니다. 동일한 기능을 제공하는 것처럼 보일 수도 있지만 각각 고유한 특정 사용 사례가 있습니다. 따라서 조직에서는 일반적으로 두 시스템을 통합하여 광범위한 목적을 처리할 수 있는 완벽한 엔드투엔드 솔루션을 구축합니다.

데이터 웨어하우스는 본질적으로 관계형입니다. 즉, 데이터의 구조 또는 스키마는 SQL 쿼리 작업에 대해 큐레이팅되고 일치 및 최적화되는 미리 정의된 비즈니스 및 제품 요구 사항에 따라 결정됩니다. 따라서 데이터 웨어하우스는 이미 식별된 비즈니스 사용 사례를 소싱하거나 BI 분석을 위한 데이터 마이닝과 같은 특정 목적을 염두에 두고 처리된 데이터를 저장하는 데 가장 적합합니다.

데이터 웨어하우스와 마찬가지로 데이터 레이크는 정형 데이터와 반정형 데이터를 보유합니다. 하지만 모바일 앱, IoT 디바이스, 소셜 미디어, 스트리밍을 비롯한 다양한 비관계형 원본에서 처리되지 않은 원시 데이터를 수용할 수도 있습니다. 데이터를 읽기 전에는 데이터 레이크의 구조 또는 스키마가 정의되지 않기 때문입니다. 유연하고 확장 가능한 특성으로 인해 데이터 레이크는 기계 학습과 같은 지능형 데이터 분석을 수행하는 데 자주 사용됩니다.

조직 전체 지원 계획
데이터 레이크 데이터 웨어하우스
유형

정형, 반정형, 비정형
관계형, 비관계형

정형
관계형

스키마

읽기 시 스키마

쓰기 시 스키마

Format

원시, 필터링되지 않음

처리됨, 점검됨

원본

빅 데이터, IoT, 소셜 미디어, 스트리밍 데이터

응용 프로그램, 비즈니스, 트랜잭션 데이터, 일괄 처리 보고

확장성

저렴한 비용으로 손쉽게 스케일링

스케일링이 어렵고 비용이 많이 듦

사용자

데이터 과학자, 데이터 엔지니어

데이터 웨어하우스 전문가, 비즈니스 분석가

사용 사례

기계 학습, 예측 분석, 실시간 분석

핵심 보고, BI

의자에 앉아서 데스크톱으로 작업 중인 사람

데이터 웨어하우스 아키텍처 및 디자인

지금까지 데이터 웨어하우스를 사용해야 하는 이유와 시기를 알아보았으므로 이제 데이터 웨어하우스 디자인을 확인하여 작동 방식을 살펴보겠습니다. 데이터 웨어하우스는 자체적으로 작동하는 단일 사일로 그 이상입니다. 오히려 데이터와 서로 다양한 방식으로 상호 작용하는 여러 계층으로 구성된 고도로 구조화되고 신중하게 설계된 시스템입니다. 일반적으로 이러한 계층은 다음과 같습니다.

하위 계층

데이터는 여러 원본에서 수집된 다음 다른 응용 프로그램이 ETL(추출, 변환, 로드)이라는 프로세스에서 사용할 수 있도록 정리되고 변환됩니다. 또한 하위 계층에서는 데이터가 저장되고 최적화되어 쿼리 시간이 빨라지고 전반적으로 성능이 향상됩니다.

중간 계층

여기에는 OLAP(온라인 분석 처리) 서버라고도 하는 분석 엔진이 있습니다. OLAP 서버는 고속으로 데이터 웨어하우스에서 대량의 데이터에 액세스하여 결과를 매우 빠르게 가져옵니다.

상위 계층

상위 계층에서는 프런트 엔드 인터페이스가 처리된 데이터를 시각적으로 표시하고, 분석가는 모든 보고 및 셀프 서비스 BI 요구 사항에 액세스하여 사용할 수 있습니다.

데이터 웨어하우스를 빌드하는 방법

데이터 웨어하우스를 설계하고 빌드할 때 조직의 장기 목표와 임시 목표 그리고 데이터의 특성을 고려하는 것이 중요합니다. 얼마나 많은 데이터 원본을 통합하고 있나요? 워크플로를 자동화할 계획인가요? 데이터를 어떻게 탐색하고 분석하나요? 빌드는 요구 사항의 복잡성에 따라 다르지만 일반적인 엔터프라이즈 데이터베이스 웨어하우스는 다음과 같은 요소로 구성될 수 있습니다.

  1. 데이터 원본: POS(Point-Of-Sale) 시스템, 비즈니스 응용 프로그램 및 기타 관계형 데이터베이스에서 운영 데이터를 추출 합니다.
  2.  준비 영역: 웨어하우스 또는 중앙 집중식 리포지토리에 대해 데이터를 정리하고 변환합니다.
  3.  웨어하우스 또는 중앙 집중식 리포지토리: 간편한 사용자 액세스를 위해 처리된 운영 데이터, 메타데이터, 요약 데이터 및 원시 데이터를 저장합니다.
  4. 추가 데이터 마트: 중앙 집중식 리포지토리에서 데이터를 가져와서 하위 집합에서 선택한 사용자 그룹에 제공합니다.
  5.  샌드박스: 데이터 과학자가 보호된 환경에서 새로운 형태의 데이터 탐색을 테스트하는 데 사용할 수 있습니다.
  6. 통합, 스토리지, 성능 및 분석을 위한 다양한 데이터 웨어하우징 도구, 프레임워크 및 API
노트북에서 차트를 분석하고 두 대의 모니터에서 데이터 보고서를 분석 중인 사람
차트가 열려 있는 노트북 화면

데이터 웨어하우스 도구, 소프트웨어 및 리소스

오늘날의 데이터 중심 세계에서 많은 주요 소프트웨어 회사는 각각 고유한 특정 사용 사례를 가진 무수히 많은 데이터 웨어하우스 소프트웨어를 자랑합니다. 벅차 보일 수도 있지만, 응집력 있는 고성능 솔루션을 빌드하기 위해 적절한 도구와 기술에 투자해야 합니다. 조직마다 요구 사항은 다르지만 살펴볼 몇 가지 필수 데이터 웨어하우스 제품이 있습니다.

클라우드 및 하이브리드 클라우드 데이터 웨어하우징

통합 클라우드 기반 데이터 웨어하우징 솔루션(예: Azure Synapse Analytics)을 사용하는 조직은 더 빠르고 저렴한 비용으로 스케일링, 컴퓨팅 및 저장할 수 있습니다.

데이터 통합 도구

ETL 파이프라인을 사용하면 원본 데이터가 자동으로 통합, 정리 및 표준화되도록 워크플로를 만들고 예약하고 오케스트레이션할 수 있습니다.

개체 스토리지

개체 스토리지 솔루션은 대량의 정형, 반정형 및 비정형 데이터를 포함할 수 있으므로 웨어하우스에 로드되기 전에 원본 데이터를 준비하는 데 적합합니다.

웨어하우징 도구

분산 스토리지 솔루션은 칼럼 형식 스토리지가 있는 관계형 테이블에 대규모 데이터 집합을 보유합니다. 따라서 비용이 크게 절감되고, 쿼리 성능이 향상되고, 인사이트 시간이 단축됩니다.

성능 도구

응용 프로그램의 성능을 개선하기 위해 메모리 내 처리를 지원하는 오픈 소스 병렬 처리 프레임워크인 Apache Spark를 통합할 수 있습니다.

리소스 및 워크로드 관리

리소스 관리자는 컴퓨팅 성능을 워크로드에 할당하여 데이터를 적절하게 로드, 분석, 관리 및 내보낼 수 있습니다.

데이터 모델링

데이터 모델링은 여러 데이터 원본을 단일 의미 체계 모델로 결합하여 데이터의 구조화되고 간소화된 뷰를 제공합니다.

비즈니스 인텔리전스 도구

비즈니스 분석 도구는 사용자에게 대시보드, 보고서 및 기타 시각화 도구의 형태로 인사이트를 제공하는 데 도움이 됩니다.

보안 및 개인 정보 보호 기능

데이터 암호화, 사용자 인증, 액세스 모니터링과 같은 보안 및 규정 준수 기능은 데이터를 보호된 상태로 유지합니다.

토론 중인 두 사람(오른쪽에 있는 사람은 노트북을 들고 있음)

Azure SQL Data Warehouse는 어떻게 되었나요?

이제 전용 SQL 풀이라는 Azure Synapse Analytics 기능이 Azure SQL Data Warehouse와 연결되어 있습니다. 기존 Azure SQL Data Warehouse 고객은 변경 없이 Azure Synapse Analytics의 전용 SQL 풀 기능을 사용하여 기존 Azure SQL Data Warehouse 워크로드를 계속 실행할 수 있습니다. 또한 고객은 Azure Synapse Analytics로 기존 웨어하우스 데이터를 관리하여 서버리스 데이터 레이크 탐색, 통합 SQL 및 Apache Spark™ 엔진과 같은 고급 분석 기능을 활용할 수 있습니다.

자주 묻는 질문

  • 데이터 웨어하우스는 보고, 분석 및 기타 형태의 비즈니스 인텔리전스를 위해 정형 데이터(데이터베이스 테이블, Excel 시트) 및 반정형 데이터(XML 파일, 웹 페이지)를 보관하는 중앙 집중식 리포지토리입니다.

  • 데이터 웨어하우스를 사용하면 많은 이점이 있습니다. 예를 들어, 데이터 웨어하우스는 여러 데이터 원본을 신뢰할 수 있는 단일 원본으로 통합하여 조직에서 비즈니스 및 운영에 대해 보다 합리적인 결정을 내릴 수 있도록 도와줍니다.

  • 데이터 웨어하우스는 원본 데이터 마이닝, 데이터 시각화 및 기타 특정 BI 사용 사례에 사용할 수 있는 정형 데이터와 반정형 데이터를 저장합니다. 데이터 레이크는 데이터 과학자가 다양한 프로젝트를 소싱하는 데 사용할 수 있는 다양한 유형의 원시 데이터를 저장합니다.

  • 데이터 웨어하우스는 일반적으로 데이터가 수집 및 저장되는 하위 계층, 데이터를 분석하는 중간 계층, 사용자가 액세스하고 구문 분석할 수 있도록 데이터가 표시되는 상위 계층으로 구성됩니다.

  • 데이터 웨어하우스 인프라를 설계하고 빌드할 때 데이터의 특성과 데이터 변환 방법을 고려해야 합니다. 일반적인 빌드 요소로는 데이터 원본, 준비 영역, 웨어하우스, 데이터 마트, 샌드박스 및 다양한 통합 도구가 있습니다.

  • 많은 주요 소프트웨어 회사에서 이제 다양한 데이터 웨어하우스 제품을 보유하고 있습니다.

  • 이러한 기능은 이제 Azure Synapse Analytics에 전용 SQL 풀이라는 기능을 제공됩니다. 기존 Azure SQL Data Warehouse 고객은 여기서 변경 없이 워크로드를 계속 실행할 수 있습니다.

체험 계정

Azure Cloud Computing Services를 최대 30일 동안 체험해 보세요.

종량제

종량제 가격으로 시작해 보세요. 사전 약정은 없습니다. 언제든지 취소할 수 있습니다.