데이터 레이크란?
데이터 레이크와 데이터 웨어하우스 간의 차이점에 대해 알아봅니다. Azure를 사용하여 모든 분석을 위한 확장 가능한 기반을 구축하는 방법을 알아봅니다.
데이터 레이크 정의
이 소개 가이드에서는 데이터 레이크의 다양한 이점과 사용 사례를 살펴봅니다. 데이터 레이크가 무엇인지, 왜 중요한지 알아보고, 데이터 레이크와 데이터 웨어하우스의 차이점을 알아봅니다. 그럼, 먼저 데이터 레이크를 용어로 정의해 보겠습니다.
데이터 레이크는 대량의 데이터를 원래 형식으로 수집하고 저장하는 중앙 집중식 리포지토리입니다. 그런 다음 데이터를 처리하고 다양한 분석 요구 사항에 대한 기초로 사용할 수 있습니다. 확장성이 뛰어난 개방형 아키텍처로 인해 데이터 레이크는 정형(데이터베이스 테이블, Excel 시트), 반정형(XML 파일, 웹 페이지), 비정형(이미지, 오디오 파일, 트윗)까지 모든 원본의 모든 데이터 형식을 수용할 수 있습니다. 데이터 파일은 일반적으로 미리 구성된 영역(원시, 정리 및 큐레이팅)에 저장되므로 다양한 유형의 사용자가 다양한 형식의 데이터를 사용하여 요구 사항을 충족할 수 있습니다. 데이터 레이크는 다양한 애플리케이션에서 핵심 데이터 일관성을 제공하여 빅 데이터 분석, 기계 학습, 예측 분석 및 기타 형태의 지능형 작업을 지원합니다.
데이터 레이크가 비즈니스에 중요한 이유는 무엇인가요?
데이터 레이크 솔루션의 등장 없이는 오늘날과 같이 고도로 연결된 인사이트 중심의 세계는 불가능했을 것입니다. 조직에서는 Azure Data Lake와 같은 포괄적인 데이터 레이크 플랫폼을 사용하여 원시 데이터를 통합, 통합, 보안 및 접근성을 유지하기 때문입니다. Azure Data Lake Storage와 같은 확장 가능한 스토리지 도구는 한 곳에서 데이터를 저장하고 보호할 수 있으므로 최적의 비용으로 사일로를 제거할 수 있습니다. 이를 통해 사용자는 빅 데이터 처리, SQL 쿼리, 텍스트 마이닝, 스트리밍 분석 및 기계 학습과 같은 다양한 워크로드 범주를 수행할 수 있습니다. 그런 다음, 데이터를 사용하여 업스트림 데이터 시각화 및 임시 보고 요구 사항을 충족할 수 있습니다. Azure Synapse Analytics와 같은 최신 엔드투엔드 데이터 플랫폼은 데이터 레이크를 중심으로 하는 빅 데이터 아키텍처의 전체 요구 사항을 해결합니다.
데이터 레이크 사용 사례
잘 설계된 솔루션을 사용하면 혁신의 가능성은 무궁무진합니다. 다음은 다양한 산업 분야의 조직이 데이터 레이크 플랫폼을 사용하여 성장을 최적화하는 방법에 대한 몇 가지 예입니다.
- 스트리밍 미디어. 구독 기반 스트리밍 회사는 추천 알고리즘을 개선하는 데 사용할 수 있는 고객 동작에 대한 인사이트를 수집하고 처리합니다.
- 금융. 투자 회사는 실시간으로 수집 및 저장되는 최신 시장 데이터를 사용하여 포트폴리오 위험을 효율적으로 관리합니다.
- 의료. 의료 조직은 빅 데이터를 사용하여 환자에 대한 진료 품질을 개선합니다. 병원은 방대한 양의 기록 데이터를 사용하여 환자 경로를 간소화하여 더 나은 결과를 제공하고 치료 비용을 절감합니다.
- 옴니채널 판매점. 판매점은 데이터 레이크를 사용하여 모바일, 소셜, 채팅, 입소문, 직접 방문 등 여러 채널에서 들어오는 데이터를 캡처하고 통합합니다.
- IoT. 하드웨어 센서는 주변 물리적 세계에서 비정형 데이터에 엄청난 양의 반정형 데이터를 생성합니다. 데이터 레이크는 향후 분석을 위해 이 정보를 저장할 수 있는 중앙 리포지토리를 제공합니다.
- 디지털 공급망. 데이터 레이크는 제조업체가 EDI 시스템, XML 및 JSON을 비롯한 서로 다른 웨어하우징 데이터를 통합하는 데 도움이 됩니다.
- 영업. 데이터 과학자와 영업 엔지니어는 종종 고객 행동을 파악하고 전반적인 고객 이탈을 줄이는 데 도움이 되는 예측 모델을 빌드합니다.
데이터 레이크와 데이터 웨어하우스 비교
이제 데이터 레이크가 무엇인지, 왜 중요한지, 그리고 다양한 조직에서 데이터 레이크가 어떻게 사용되는지 알 수 있습니다. 하지만 데이터 레이크와 데이터 웨어하우스의 차이점은 무엇인가요? 그리고 둘 중 하나를 사용하는 것이 적절한 경우는 언제인가요?
데이터 레이크와 데이터 웨어하우스 는 둘 다 데이터를 저장하고 처리한다는 점에서 유사하지만 각각 고유한 전문 분야와 고유한 사용 사례가 있습니다. 따라서 엔터프라이즈 수준 조직은 분석 에코시스템에 데이터 레이크와 데이터 웨어하우스를 포함하는 것이 일반적입니다. 두 리포지토리는 함께 작동하여 스토리지, 처리 및 더 빠른 인사이트 시간을 위한 안전한 엔드투엔드 시스템을 형성합니다.
데이터 레이크는 데이터를 읽을 때까지 데이터의 구조나 스키마를 정의할 필요 없이 비즈니스 애플리케이션, 모바일 앱, IoT 장치, 소셜 미디어, 스트리밍 등 다양한 소스에서 관계형 데이터와 비관계형 데이터를 모두 캡처합니다. 읽기 시 스키마는 모든 형식의 데이터를 원시 형식으로 저장할 수 있도록 합니다. 따라서 데이터 레이크는 정형, 반정형, 비정형 등 다양한 데이터 유형을 규모에 관계없이 저장할 수 있습니다. 유연하고 확장 가능한 특성으로 인해 Apache Spark 또는 Azure Machine Learning과 같은 다양한 유형의 컴퓨팅 처리 도구를 사용하여 복잡한 형태의 데이터 분석을 수행하는 데 필수적입니다.
반면 데이터 웨어하우스는 본질적으로 관계형입니다. 구조 또는 스키마는 비즈니스 및 제품 요구 사항에 따라 모델링되거나 미리 정의되며, SQL 쿼리 작업에 맞게 큐레이팅되고 준수되며 최적화됩니다. 데이터 레이크는 원시 및 처리되지 않은 데이터를 포함하여 모든 구조 형식의 데이터를 보유하지만 데이터 웨어하우스는 특정 목적을 염두에 두고 처리 및 변환된 데이터를 저장하며, 이를 분석 또는 운영 보고의 소스로 사용할 수 있습니다. 따라서 데이터 웨어하우스는 보다 표준화된 형태의 BI 분석을 생성하거나 이미 정의된 비즈니스 사용 사례를 제공하는 데 적합합니다.
데이터 레이크 | 데이터 웨어하우스 | |
---|---|---|
유형 | 정형, 반정형, 비정형 | 정형 |
관계형, 비관계형 | 관계형 | |
스키마 | 읽기 시 스키마 | 쓰기 시 스키마 |
Format | 원시, 필터링되지 않음 | 처리됨, 점검됨 |
원본 | 빅 데이터, IoT, 소셜 미디어, 스트리밍 데이터 | 응용 프로그램, 비즈니스, 트랜잭션 데이터, 일괄 처리 보고 |
확장성 | 저렴한 비용으로 손쉽게 스케일링 | 스케일링이 어렵고 비용이 많이 듦 |
사용자 | 데이터 과학자, 데이터 엔지니어 | 데이터 웨어하우스 전문가, 비즈니스 분석가 |
사용 사례 | 기계 학습, 예측 분석, 실시간 분석 | 핵심 보고, BI |
데이터 레이크와 데이터 레이크하우스 비교
이제 데이터 레이크와 데이터 웨어하우스의 차이점을 알게 되었습니다. 하지만 데이터 레이크와 데이터 레이크하우스의 차이점은 무엇인가요? 두 가지가 모두 필요한가요?
많은 장점에도 불구하고 기존의 데이터 레이크는 단점이 없는 것은 아닙니다. 데이터 레이크는 모든 종류의 원본에서 모든 유형의 데이터를 수용할 수 있으므로 품질 제어, 데이터 손상 및 부적절한 분할과 관련된 문제가 발생할 수 있습니다. 관리되지 않는 데이터 레이크는 데이터 무결성을 손상시킬 뿐만 아니라 병목 현상, 성능 저하 및 보안 위험으로 이어질 수도 있습니다.
데이터 레이크하우스의 역할이 바로 여기에 있습니다. 데이터 레이크하우스는 본질적으로 다각적인 개방형 표준 기반 스토리지 솔루션입니다. 심층 데이터 분석 및 처리를 수행하는 데이터 과학자 및 엔지니어의 요구 사항과 비즈니스 인텔리전스 및 보고 목적으로 데이터를 큐레이팅하고 게시하는 기존 데이터 웨어하우스 전문가의 요구를 해결할 수 있습니다. 레이크하우스의 가장 좋은 점은 각 워크로드가 데이터를 구조적으로 미리 정의된 다른 데이터베이스에 복제하지 않고도 데이터 레이크 위에서 원활하게 작동할 수 있다는 것입니다. 이렇게 하면 모든 사용자가 최신 데이터를 작업하면서 중복성을 줄일 수 있습니다.
데이터 레이크하우스는 클라우드 데이터 레이크 위에 직접 Delta Lake 스토리지 계층 을 추가하여 기존 데이터 레이크의 문제를 해결합니다. 스토리지 계층은 데이터 안정성, 스트리밍 통합, 데이터 버전 관리 및 스키마 적용과 같은 고급 기능을 위해 ACID(원자성, 일관성, 격리 및 내구성) 트랜잭션을 처리할 수 있는 유연한 분석 아키텍처를 제공합니다. 이렇게 하면 핵심 데이터 일관성을 손상시키지 않고도 레이크를 통해 다양한 분석 작업을 수행할 수 있습니다. 레이크하우스의 필요성은 요구 사항의 복잡도에 따라 달라지지만 그 유연성과 범위는 많은 엔터프라이즈 조직에 최적의 솔루션이 됩니다.
데이터 레이크 | 데이터 레이크하우스 | |
---|---|---|
유형 | 정형, 반정형, 비정형 | 정형, 반정형, 비정형 |
관계형, 비관계형 | 관계형, 비관계형 | |
스키마 | 읽기 시 스키마 | 읽기 시 스키마, 쓰기 시 스키마 |
Format | 원시, 필터링되지 않음, 처리됨, 큐레이팅됨 | 원시, 필터링되지 않음, 처리됨, 큐레이팅된 델타 형식 파일 |
원본 | 빅 데이터, IoT, 소셜 미디어, 스트리밍 데이터 | 빅 데이터, IoT, 소셜 미디어, 스트리밍 데이터, 애플리케이션, 비즈니스, 트랜잭션 데이터, 일괄 보고 |
확장성 | 저렴한 비용으로 손쉽게 스케일링 | 저렴한 비용으로 손쉽게 스케일링 |
사용자 | 데이터 과학자 | 비즈니스 분석가, 데이터 엔지니어, 데이터 과학자 |
사용 사례 | 기계 학습, 예측 분석 | 핵심 보고, BI, 기계 학습, 예측 분석 |
데이터 레이크 아키텍처란?
기본적으로 데이터 레이크는 자체 설정된 아키텍처가 없는 스토리지 리포지토리입니다. 기능을 최대한 활용하려면 데이터의 통합, 스토리지 및 처리를 최적화하는 데 도움이 되는 광범위한 도구, 기술 및 컴퓨팅 엔진이 필요합니다. 이러한 도구는 빅 데이터에 의해 정보를 얻고 데이터 레이크 상단에서 실행되는 응집력 있는 계층 아키텍처를 만들기 위해 함께 작동합니다. 이 아키텍처는 데이터 레이크하우스의 운영 구조를 형성할 수도 있습니다. 모든 조직에는 고유한 구성이 있지만 대부분의 데이터 레이크하우스 아키텍처는 다음과 같은 기능을 제공합니다.
- 리소스 관리 및 오케스트레이션. 리소스 관리자를 사용하면 데이터 레이크가 적절한 양의 데이터, 리소스 및 컴퓨팅 능력을 적절한 위치에 할당하여 작업을 일관되게 실행할 수 있습니다.
- 손쉬운 액세스를 위한 커넥터. 다양한 워크플로를 통해 사용자는 필요한 형식으로 필요한 데이터에 쉽게 액세스하고 공유할 수 있습니다.
- 신뢰할 수 있는 분석. 좋은 분석 서비스는 빠르고 확장 가능하며 분산되어야 합니다. 또한 여러 언어에서 다양한 워크로드 범주를 지원해야 합니다.
- 데이터 분류. 데이터 프로파일링, 카탈로그화 및 보관을 통해 조직은 데이터 콘텐츠, 품질, 위치 및 기록을 추적할 수 있습니다.
- ELT(추출, 로드, 변환) 프로세스. ELT는 여러 원본에서 데이터를 추출하고 데이터 레이크의 원시 영역으로 로드한 다음, 추출 후 정리 및 변환되어 애플리케이션에서 데이터를 쉽게 사용할 수 있도록 하는 프로세스를 나타냅니다.
- 보안 및 지원. 마스킹, 감사, 암호화 및 액세스 모니터링과 같은 데이터 보호 도구는 데이터가 안전하고 비공개로 유지되도록 합니다.
- 거버넌스 및 스튜어드십. 데이터 레이크 플랫폼이 최대한 원활하게 실행되려면 사용자는 아키텍처 구성과 데이터 및 운영 관리에 대한 모범 사례를 학습해야 합니다.
자주 묻는 질문
-
데이터 레이크는 원래 형식으로 대량의 데이터를 수집, 저장 및 처리할 수 있는 중앙 집중식 리포지토리입니다. 모든 유형의 데이터를 수용할 수 있으며, 빅 데이터 분석, 기계 학습 및 기타 형태의 지능형 작업을 구동하는 데 사용됩니다.
-
소매, 재무 및 엔터테인먼트를 비롯한 다양한 산업 분야의 조직은 데이터 레이크 플랫폼을 사용하여 데이터를 저장하고, 인사이트를 수집하고, 서비스의 전반적인 품질을 개선합니다. 예를 들어 투자 회사는 데이터 레이크를 사용하여 최신 데이터를 수집하고 처리하므로 포트폴리오 위험을 보다 효율적으로 관리할 수 있습니다.
-
데이터 레이크는 데이터 과학자가 다양한 프로젝트에 사용할 수 있는 모든 유형의 원시 데이터를 저장합니다. 데이터 웨어하우스는 정리 및 처리된 데이터를 저장하며, 이 데이터를 원본 분석 또는 운영 보고뿐만 아니라 특정 BI 사용 사례에 사용할 수 있습니다.
-
데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 요소를 결합하여 데이터 과학 및 비즈니스 인텔리전스를 위한 유연한 엔드투엔드 솔루션을 형성합니다.
-
당연히 그렇습니다. 모든 산업의 주요 조직은 데이터 레이크에 저장된 대량의 데이터를 사용하여 지능형 작업을 수행하고, 인사이트를 얻고, 성장합니다.
-
원시 및 비정형 데이터를 비롯한 대량의 데이터를 관리하기 어려울 수 있으므로 병목 현상, 데이터 손상, 품질 제어 문제, 성능 문제가 발생할 수 있습니다. 따라서 데이터 레이크 플랫폼을 원활하게 실행하는 데 도움이 되도록 적절한 거버넌스 및 스튜어드십 방식을 유지하는 것이 중요합니다.
-
데이터 레이크 아키텍처는 데이터 레이크의 데이터를 통합, 액세스 가능, 구성 및 안전하게 유지하는 데 도움이 되는 도구 및 기술의 특정 구성을 나타냅니다.