탐색 건너뛰기

데이터 웨어하우스란 무엇입니까?

데이터 웨어하우스가 무엇인지, 데이터 웨어하우스를 사용할 때의 이점, 설계 단계에서 고려해야 할 모범 사례, 그리고 마침내 구축할 때 통합할 도구에 대해 알아보세요.

데이터 웨어하우스란 무엇입니까?

먼저 데이터 웨어하우스가 무엇인지 정의하고 조직에 사용해야 하는 이유를 정의하겠습니다.

데이터 웨어하우스는 보고 및 분석을 위해 구조화된 데이터(데이터베이스 테이블, Excel 시트) 및 반구조화된 데이터(XML 파일, 웹 페이지)를 저장하는 중앙 집중식 리포지토리입니다. 데이터는 POS 시스템, 비즈니스 애플리케이션 및 관계형 데이터베이스와 같은 다양한 원본에서 유입되며 일반적으로 창고에 도착하기 전에 정리 및 표준화됩니다. 데이터 웨어하우스는 많은 양의 정보를 저장할 수 있기 때문에 사용자가 데이터 마이닝, 데이터 시각화 및 기타 형태의 비즈니스 인텔리전스 보고에 사용할 수 있는 풍부한 과거 데이터에 쉽게 액세스할 수 있도록 합니다.

데이터 웨어하우스의 이점

특히 시간이 지남에 따라 집계될 때 신뢰할 수 있는 데이터는 사용자가 조직을 운영하는 방식에 대해 보다 현명하고 정보에 입각한 결정을 내리는 데 도움이 되며 데이터 웨어하우스가 이를 가능하게 합니다. 엔터프라이즈 데이터 웨어하우징의 이점은 무수히 많지만 가장 영향력 있는 이점은 다음과 같습니다.

  • 여러 소스의 데이터를 하나의 단일 소스로 통합
  • 수개월 및 수년에 걸친 장기 이력 데이터 저장 및 분석
  • 구조와 형식이 정확하고 일관되며 표준화되도록 데이터를 정리하고 변환합니다.
  • 데이터를 수집하고 분석을 처리할 때 쿼리 시간을 줄여 시스템 전반의 전반적인 성능을 향상시킵니다.
  • 배포 또는 인프라 비용을 처리할 필요 없이 데이터를 효율적으로 로드
  • 데이터를 비공개로 보호하고 안전하게 보호
  • 데이터 마이닝, 시각화 도구 및 기타 형태의 고급 분석을 통해 분석을 위한 데이터 준비

데이터 웨어하우스와 데이터 레이크

데이터 웨어하우스는 모든 조직의 분석 작업에 필수적입니다. 그러나 데이터 웨어하우스와 데이터 레이크와 같은 다른 유형의 데이터 리포지토리의 차이점은 무엇입니까? 그리고 언제 하나를 다른 것보다 사용해야 합니까?

리포지토리로서 데이터 웨어하우스와 데이터 레이크는 모두 데이터를 저장하고 처리합니다. 그러나 동일한 기능을 제공하는 것처럼 보일 수 있지만 각각 고유한 사용 사례가 있습니다. 이것이 조직에서 일반적으로 두 시스템을 통합하여 광범위한 목적을 처리할 수 있는 완전한 엔드투엔드 솔루션을 구성하는 이유입니다.

데이터 웨어하우스는 본질적으로 관계형입니다. 즉, 데이터의 구조 또는 스키마는 SQL 쿼리 작업을 위해 선별, 준수 및 최적화된 사전 정의된 비즈니스 및 제품 요구 사항에 의해 결정됩니다. 결과적으로 데이터 웨어하우스는 BI 분석을 위한 데이터 마이닝과 같이 특정 목적을 염두에 두고 처리된 데이터를 저장하거나 이미 식별된 비즈니스 사용 사례를 소싱하는 데 가장 잘 사용됩니다.

데이터 웨어하우스와 마찬가지로 데이터 레이크는 정형 및 반정형 데이터를 보유합니다. 그러나 모바일 앱, IoT 장치, 소셜 미디어 또는 스트리밍을 비롯한 다양한 비관계형 소스에서 원시 및 처리되지 않은 데이터를 수용할 수도 있습니다. 데이터 레이크의 구조나 스키마는 데이터를 읽을 때까지 정의되지 않기 때문입니다. 유연하고 확장 가능한 특성으로 인해 데이터 레이크는 머신 러닝과 같은 지능적인 형태의 데이터 분석을 수행하는 데 자주 사용됩니다.

사용할 수 없음 데이터 레이크 데이터웨어 하우스
유형 정형, 반정형, 비정형
관계형, 비관계형
구조화
관계형
개요 읽기 스키마 쓰기 스키마
형식 필터링되지 않은 원시 처리, 검증
원본 빅데이터, IoT, 소셜미디어, 스트리밍 데이터 애플리케이션, 비즈니스, 트랜잭션 데이터, 일괄 보고
확장성 저렴한 비용으로 쉽게 확장 가능 확장이 어렵고 비용이 많이 듭니다.
사용자 데이터 과학자, 데이터 엔지니어 데이터 웨어하우스 전문가, 비즈니스 분석가
사용 사례 기계 학습, 예측 분석, 실시간 분석 핵심 보고, BI

데이터 웨어하우스 아키텍처 및 설계

이제 데이터 웨어하우스를 사용해야 하는 이유와 시기를 알았으므로 데이터 웨어하우스 디자인을 살펴보고 어떻게 작동하는지 살펴보겠습니다. 데이터 웨어하우스는 단독으로 운영되는 단일 사일로가 아닙니다. 그보다는 다양한 방식으로 데이터와 상호 작용하는 여러 계층으로 구성된 고도로 구조화되고 세심하게 설계된 시스템입니다. 일반적으로 이러한 계층에는 다음이 포함됩니다.

최하층

데이터는 여러 소스에서 수집된 다음 ETL(추출, 변환 및 로드)이라는 프로세스에서 다른 응용 프로그램에서 사용할 수 있도록 정리 및 변환됩니다. 최하위 계층은 데이터가 저장되고 최적화되는 곳이기도 하므로 쿼리 시간이 단축되고 전반적으로 성능이 향상됩니다.

중간 계층

여기에서 OLAP(온라인 분석 처리) 서버라고도 하는 분석 엔진을 찾을 수 있습니다. OLAP 서버는 데이터 웨어하우스의 대용량 데이터에 고속으로 액세스하므로 번개처럼 빠른 결과를 얻을 수 있습니다.

최상위 계층

최상위 계층은 프런트 엔드 인터페이스가 처리된 데이터를 시각적으로 표시하는 곳으로 분석가가 모든 보고 및 셀프 서비스 BI 요구 사항에 액세스하고 사용할 수 있는 데이터입니다.

데이터 웨어하우스를 구축하는 방법

데이터 웨어하우스를 설계 및 구축할 때 장기 및 임시 조직의 목표와 데이터의 특성을 고려하는 것이 중요합니다. 얼마나 많은 데이터 원본을 통합하고 있습니까? 워크플로를 자동화할 계획입니까? 데이터를 어떻게 탐색하고 분석할 예정입니까? 빌드 작업은 요구 사항의 복잡성에 따라 다르지만 일반적인 엔터프라이즈 데이터베이스 웨어하우스는 다음 구성 요소로 구성될 수 있습니다.

  1. 판매 시점 시스템, 비즈니스 애플리케이션 및 기타 관계형 데이터베이스에서 운영 데이터를 추출하는 데이터 원본
  2. 웨어하우스 또는 중앙 집중식 리포지토리를 위해 데이터를 정리하고 변환하는 준비 영역
  3. 웨어하우스 또는 사용자가 쉽게 액세스할 수 있도록 처리된 운영 데이터, 메타데이터, 요약 데이터 및 원시 데이터를 저장하는 중앙 집중식 리포지토리
  4. 데이터 마트 추가 중앙 집중식 리포지토리에서 데이터를 가져와 선택한 사용자 그룹에 하위 집합으로 제공합니다.
  5. 데이터 과학자가 보호된 환경에서 새로운 형태의 데이터 탐색을 테스트하는 데 사용할 수 있는 샌드박스
  6. 통합, 저장, 성능 및 분석을 위한 다양한 데이터 웨어하우징 도구, 프레임워크 및 API

데이터 웨어하우스 도구, 소프트웨어 및 리소스

오늘날의 데이터 중심적 세계에서 많은 주요 소프트웨어 회사는 각각 고유한 사용 사례가 있는 끝없는 범위의 데이터 웨어하우스 소프트웨어를 자랑합니다. 어려워 보일 수 있지만 응집력 있는 고성능 솔루션을 구축하려면 올바른 도구와 기술에 투자해야 합니다. 모든 조직의 요구 사항은 다르지만 다음은 조사해야 할 몇 가지 필수 데이터 웨어하우스 제품입니다.

클라우드 및 하이브리드 클라우드 데이터 웨어하우징

Azure Synapse Analytics와 같은 통합된 클라우드 기반 데이터 웨어하우징 솔루션은 조직이 더 빠른 속도와 더 낮은 비용으로 확장, 계산 및 저장할 수 있는 기능을 제공합니다.

데이터 통합 ​​도구

ETL 파이프라인을 사용하면 소스 데이터가 자동으로 통합, 정리 및 표준화되도록 워크플로를 생성, 예약 및 오케스트레이션할 수 있습니다.

개체 저장소

개체 저장소 솔루션은 대량의 정형, 반정형 및 비정형 데이터를 보유할 수 있으므로 웨어하우스에 로드되기 전에 소스 데이터를 스테이징하는 데 적합합니다.

웨어하우징 도구

분산 저장소 솔루션은 열 기반 저장소가 있는 관계형 테이블에 대규모 데이터 세트를 보유합니다. 이를 통해 비용을 크게 절감하고 쿼리 성능을 개선하며 인사이트를 얻는 시간을 단축할 수 있습니다.

성능 도구

애플리케이션의 성능을 높이려면 메모리 내 처리를 지원하는 오픈 소스 병렬 처리 프레임워크인 Apache Spark를 통합할 수 있습니다.

리소스 및 워크로드 관리

리소스 관리자는 작업 부하에 컴퓨팅 성능을 할당하므로 그에 따라 데이터를 로드, 분석, 관리 및 내보낼 수 있습니다.

데이터 모델링

데이터 모델링은 여러 데이터 소스를 단일 의미론적 모델로 결합하여 데이터에 대한 구조적이고 간소화된 보기를 제공합니다.

비즈니스 인텔리전스 도구

비즈니스 분석 도구는 대시보드, 보고서 및 기타 시각화 도구의 형태로 사용자에게 인사이트를 제공하는 데 도움이 됩니다.

보안 및 개인 정보 보호 기능

데이터 암호화, 사용자 인증 및 액세스 모니터링과 같은 보안 및 규정 준수 기능을 통해 데이터를 보호할 수 있습니다.

Azure SQL Data Warehouse는 어떻게 되었나요?

Azure SQL Data Warehouse와 관련된 기능은 이제 전용 SQL 풀이라고 하는 Azure Synapse Analytics의 기능입니다. 기존 Azure SQL Data Warehouse 고객은 변경 없이 Azure Synapse Analytics의 전용 SQL 풀 기능을 사용하여 기존 Azure SQL Data Warehouse 워크로드를 계속 실행할 수 있습니다. 고객은 또한 Azure Synapse Analytics로 기존 웨어하우스 데이터 관리를 시작하여 서버리스 데이터 레이크 탐색, 통합 SQL 및 Apache Spark™ 엔진과 같은 고급 분석 기능을 활용할 수 있습니다.

자주 묻는 질문

  • 데이터 웨어하우스는 보고, 분석 및 기타 형태의 비즈니스 인텔리전스를 위해 구조화된 데이터(데이터베이스 테이블, Excel 시트) 및 반구조화된 데이터(XML 파일, 웹 페이지)를 보관하는 중앙 집중식 리포지토리입니다.

    데이터 웨어하우스에 대해 자세히 알아보기

  • 데이터 웨어하우스를 사용하면 많은 이점이 있습니다. 예를 들어, 데이터 웨어하우스는 여러 데이터 원본을 단일 정보 원본으로 통합하여 조직에서 비즈니스 및 운영에 대해 보다 정보에 입각한 결정을 내리는 데 사용할 수 있습니다.

    추가 혜택 살펴보기

  • 데이터 웨어하우스는 데이터 마이닝, 데이터 시각화 및 기타 특정 BI 사용 사례를 소싱하는 데 사용할 수 있는 정형 및 반정형 데이터를 저장합니다. 데이터 레이크는 다양한 유형의 원시 데이터를 저장하며, 데이터 과학자는 이 데이터를 사용하여 다양한 프로젝트를 소싱할 수 있습니다.
  • 데이터 웨어하우스는 일반적으로 여러 계층으로 구성됩니다. 데이터가 분석되는 중간 계층 사용자가 액세스하고 구문 분석할 수 있도록 데이터가 표시되는 최상위 계층입니다.

    데이터 웨어하우스 아키텍처 알아보기

  • 데이터 웨어하우스 인프라를 설계하고 구축할 때 데이터의 특성과 데이터를 변환하는 방법을 고려하는 것이 중요합니다. 일반적인 구축의 몇 가지 공통 요소에는 데이터 원본, 스테이징 영역, 웨어하우스 자체, 데이터 마트, 샌드박스 및 다양한 통합 도구가 포함됩니다.

    데이터 웨어하우스 구축 방법에 대한 도움말 보기

  • 많은 주요 소프트웨어 회사가 이제 광범위한 데이터 웨어하우스 제품을 자랑합니다.

    데이터 웨어하우스 도구, 소프트웨어 및 리소스 살펴보기

  • 이러한 기능은 이제 전용 SQL 풀이라고 하는 Azure Synapse Analytics의 기능입니다. 기존 Azure SQL Data Warehouse 고객은 변경 없이 여기에서 워크로드를 계속 실행할 수 있습니다.

    Azure SQL 데이터 웨어하우스에 대해 자세히 알아보기

Azure 체험 계정 시작하기

12개월 동안 인기 있는 분석 서비스를 무료로, 25개 이상의 서비스를 항상 무료로 사용하고  처음 30일 동안 사용할 수 있는 $200 크레딧을 즐기세요.

Azure 영업 전문가와 연결

Azure에서 분석을 시작하는 데 대한 조언을 받으세요. 질문하고, 가격 책정 및 모범 사례에 대해 알아보고, 요구 사항을 충족하는 솔루션을 설계하는 데 도움을 받으세요.

무엇을 도와 드릴까요?