데이터 레이크란?
데이터 레이크와 데이터 웨어하우스의 차이점에 대해 알아보세요. Azure를 사용하여 모든 분석을 위한 확장 가능한 기반을 구축하는 방법을 알아보세요.
데이터 레이크 정의
이 소개 가이드는 데이터 레이크의 많은 이점과 사용 사례를 살펴봅니다. 데이터 레이크가 무엇인지, 왜 중요한지 알아보고 데이터 레이크와 데이터 웨어하우스의 차이점을 알아보세요. 그러나 먼저 데이터 레이크를 용어로 정의해 보겠습니다.
데이터 레이크는 대량의 데이터를 원래 형태로 수집하고 저장하는 중앙 집중식 리포지토리입니다. 그런 다음 데이터를 처리하고 다양한 분석 요구 사항의 기초로 사용할 수 있습니다. 개방적이고 확장 가능한 아키텍처로 인해 데이터 레이크는 정형(데이터베이스 테이블, Excel 시트)에서 반정형(XML 파일, 웹 페이지), 비정형(이미지, 오디오 파일, 트윗)에 이르기까지 충실도를 저해하지 않고 유형과 관계 없이 모든 원본의 데이터를 수용할 수 있습니다. 데이터 파일은 일반적으로 원시, 정리 및 선별된 단계적 영역에 저장되므로 다양한 유형의 사용자가 필요에 따라 다양한 형식의 데이터를 사용할 수 있습니다. 데이터 레이크는 다양한 애플리케이션에서 핵심 데이터 일관성을 제공하여 빅 데이터 분석, 기계 학습, 예측 분석 및 기타 지능형 작업 형태를 지원합니다.
데이터 레이크가 비즈니스에 중요한 이유는 무엇입니까?
오늘날의 고도로 연결되고 인사이트 중심의 세상은 데이터 레이크 솔루션의 출현 없이는 불가능했을 것입니다. 이는 조직이 Azure Data Lake와 같은 포괄적인 데이터 레이크 플랫폼에 의존하여 원시 데이터를 통합, 통합, 보안 및 액세스 가능한 상태로 유지하기 때문입니다. Azure Data Lake Storage와 같은 확장 가능한 저장소 도구는 데이터를 중앙의 한 곳에 보관 및 보호하여 최적의 비용으로 사일로를 제거할 수 있습니다. 이는 사용자가 빅 데이터 처리, SQL 쿼리, 텍스트 마이닝, 스트리밍 분석 및 기계 학습과 같은 다양한 워크로드 범주를 수행할 수 있는 기반을 마련합니다. 그런 다음 데이터는 업스트림 데이터 시각화 및 임시 보고 요구 사항을 제공하는 데 사용할 수 있습니다. Azure Synapse Analytics와 같은 최신 종단 간 데이터 플랫폼은 데이터 레이크를 중심으로 한 빅 데이터 아키텍처의 완전한 요구 사항을 해결합니다.
데이터 레이크 사용 사례
잘 설계된 솔루션을 사용할 경우 혁신의 가능성이 무궁무진합니다. 다음은 다양한 산업 분야의 조직이 데이터 레이크 플랫폼을 사용하여 성장을 최적화하는 방법에 대한 몇 가지 예입니다.
- 스트리밍 미디어. 구독 기반 스트리밍 회사는 고객 행동에 대한 인사이트를 수집하고 처리하여 추천 알고리즘을 개선하는 데 사용할 수 있습니다.
- 금융. 투자 회사는 포트폴리오 위험을 효율적으로 관리하기 위해 실시간으로 수집 및 저장되는 최신 시장 데이터를 사용합니다.
- 의료. 의료 기관은 빅 데이터에 의존하여 환자 치료의 질을 개선합니다. 병원은 방대한 양의 과거 데이터를 사용하여 환자 경로를 간소화하여 결과를 개선하고 치료 비용을 절감합니다.
- 옴니채널 소매업체. 소매업체는 데이터 레이크를 사용하여 모바일, 소셜, 채팅, 입소문 및 대면을 포함한 여러 접점에서 들어오는 데이터를 캡처하고 통합합니다.
- IoT. 하드웨어 센서는 주변 물리적 세계에 대해 반정형 데이터에서 비정형 데이터까지 방대한 양의 데이터를 생성합니다. 데이터 레이크는 이 정보가 향후 분석을 위해 상주할 중앙 리포지토리를 제공합니다.
- 디지털 공급망. 데이터 레이크는 제조업체가 EDI 시스템, XML 및 JSON을 비롯한 이종 웨어하우징 데이터를 통합하는 데 도움이 됩니다.
- 영업. 데이터 과학자와 영업 엔지니어는 종종 고객 행동을 파악하고 전반적인 이탈을 줄이는 데 도움이 되는 예측 모델을 구축합니다.
데이터 레이크 대 데이터 웨어하우스
이제 데이터 레이크가 무엇인지, 왜 중요한지, 다양한 조직에서 데이터 레이크가 어떻게 사용되는지 알게 되었습니다. 그러나 데이터 레이크와 데이터 웨어하우스의 차이점은 무엇입니까? 그리고 언제 다른 것보다 하나를 사용하는 것이 적절합니까?
데이터 레이크와 데이터 웨어하우스는 데이터를 저장하고 처리한다는 점에서 유사하지만 각각 고유한 전문 분야가 있으므로 고유한 사용 사례가 있습니다. 그렇기 때문에 엔터프라이즈 수준의 조직에서는 분석 에코시스템에 데이터 레이크와 데이터 웨어하우스를 포함하는 것이 일반적입니다. 두 리포지토리는 함께 작동하여 저장, 처리 및 인사이트 확보 시간을 위한 안전한 엔드투엔드 시스템을 형성합니다.
데이터 레이크는 읽을 때까지 데이터의 구조나 스키마를 정의할 필요 없이 다양한 소스(비즈니스 애플리케이션, 모바일 앱, IoT 장치, 소셜 미디어 또는 스트리밍)에서 관계형 및 비관계형 데이터를 모두 캡처합니다. Schema-on-read는 모든 유형의 데이터가 원시 형식으로 저장될 수 있도록 합니다. 결과적으로 데이터 레이크는 모든 규모에서 정형에서 반정형, 비정형에 이르기까지 다양한 데이터 유형을 보유할 수 있습니다. 유연하고 확장 가능한 특성으로 인해 Apache Spark 또는 Azure Machine Learning과 같은 다양한 유형의 컴퓨팅 처리 도구를 사용하여 복잡한 형태의 데이터 분석을 수행하는 데 필수적입니다.
이에 반해 데이터 웨어하우스는 본질적으로 관계형입니다. 구조 또는 스키마는 SQL 쿼리 작업을 위해 선별, 준수 및 최적화된 비즈니스 및 제품 요구 사항에 따라 모델링되거나 사전 정의됩니다. 데이터 레이크는 원시 데이터와 처리되지 않은 데이터를 포함하여 모든 구조 유형의 데이터를 보유하는 반면, 데이터 웨어하우스는 특정 목적을 염두에 두고 처리 및 변환된 데이터를 저장하여 분석 또는 운영 보고를 소싱하는 데 사용할 수 있습니다. 따라서 데이터 웨어하우스는 보다 표준화된 형태의 BI 분석을 생성하거나 이미 정의된 비즈니스 사용 사례를 제공하는 데 이상적입니다.
Data Lake | 데이터웨어 하우스 | |
---|---|---|
유형 | 구조적, 반구조적, 비구조적 | 구조화 |
관계형, 비관계형 | 관계형 | |
개요 | 읽기 스키마 | 쓰기 스키마 |
형식 | 필터링되지 않은 원시 | 처리, 검증 |
출처 | 빅데이터, IoT, 소셜미디어, 스트리밍 데이터 | 애플리케이션, 비즈니스, 트랜잭션 데이터, 일괄 보고 |
확장성 | 저렴한 비용으로 쉽게 확장 가능 | 확장이 어렵고 비용이 많이 듭니다. |
사용자 | 데이터 과학자, 데이터 엔지니어 | 데이터 웨어하우스 전문가, 비즈니스 분석가 |
사용 사례 | 기계 학습, 예측 분석, 실시간 분석 | 핵심 보고, BI |
데이터 레이크와 데이터 레이크하우스 비교
이제 데이터 레이크와 데이터 웨어하우스의 차이점을 알게 되었습니다. 그러나 데이터 레이크와 데이터 레이크하우스의 차이점은 무엇인가요? 그리고 둘 다 가질 필요가 있나요?
많은 장점에도 불구하고 기존 데이터 레이크에도 단점이 없는 것은 아닙니다. 데이터 레이크는 모든 종류의 소스에서 가져온 모든 유형의 데이터를 수용할 수 있기 때문에 품질 관리, 데이터 손상 및 부적절한 분할과 관련된 문제가 발생할 수 있습니다. 제대로 관리되지 않는 데이터 레이크는 데이터 무결성을 손상시킬 뿐만 아니라 병목 현상, 성능 저하 및 보안 위험을 초래할 수 있습니다.
바로 여기에서 데이터 레이크하우스가 작동합니다. 데이터 레이크하우스는 본질적으로 다면적인 개방형 표준 기반 스토리지 솔루션입니다. 심층 데이터 분석 및 처리를 수행하는 데이터 과학자 및 엔지니어의 요구 사항은 물론 비즈니스 인텔리전스 및 보고 목적으로 데이터를 선별하고 게시하는 기존 데이터 웨어하우스 전문가의 요구 사항을 해결할 수 있습니다. 레이크하우스의 장점은 데이터를 구조적으로 미리 정의된 다른 데이터베이스에 복제할 필요 없이 각 워크로드가 데이터 레이크 위에서 원활하게 작동할 수 있다는 것입니다. 이렇게 하면 모든 사람이 가장 최신 데이터로 작업하면서 중복을 줄일 수 있습니다.
데이터 레이크하우스는 클라우드 데이터 레이크 바로 위에 Delta Lake 스토리지 계층을 추가하여 기존 데이터 레이크의 문제를 해결합니다. 스토리지 계층은 데이터 안정성, 스트리밍 통합, 데이터 버전 관리 및 스키마 적용과 같은 고급 기능을 위해 ACID(원자성, 일관성, 격리 및 내구성) 트랜잭션을 처리할 수 있는 유연한 분석 아키텍처를 제공합니다. 이를 통해 핵심 데이터 일관성을 손상시키지 않고 레이크 전반에 걸쳐 다양한 분석 활동을 수행할 수 있습니다. Lakehouse의 필요성은 요구 사항이 얼마나 복잡한지에 달려 있지만 유연성과 범위는 많은 기업 조직에 최적의 솔루션이 됩니다.
Data Lake | 데이터 레이크하우스 | |
---|---|---|
유형 | 구조적, 반구조적, 비구조적 | 구조적, 반구조적, 비구조적 |
관계형, 비관계형 | 관계형, 비관계형 | |
개요 | 읽기 스키마 | 읽기 스키마, 쓰기 스키마 |
형식 | 원시, 필터링되지 않음, 처리됨, 선별됨 | 원시, 필터링되지 않은, 처리된, 선별된 델타 형식 파일 |
출처 | 빅데이터, IoT, 소셜미디어, 스트리밍 데이터 | 빅 데이터, IoT, 소셜 미디어, 스트리밍 데이터, 애플리케이션, 비즈니스, 트랜잭션 데이터, 일괄 보고 |
확장성 | 저렴한 비용으로 쉽게 확장 가능 | 저렴한 비용으로 쉽게 확장 가능 |
사용자 | 데이터 과학자 | 비즈니스 분석가, 데이터 엔지니어, 데이터 과학자 |
사용 사례 | 기계 학습, 예측 분석 | 핵심 보고, BI, 기계 학습, 예측 분석 |
데이터 레이크 아키텍처란 무엇입니까?
기본적으로 데이터 레이크는 자체 아키텍처가 없는 스토리지 리포지토리입니다. 기능을 최대한 활용하려면 데이터의 통합, 저장 및 처리를 최적화하는 데 도움이 되는 광범위한 도구, 기술 및 컴퓨팅 엔진이 필요합니다. 이러한 도구는 함께 작동하여 빅 데이터를 기반으로 하고 데이터 레이크 위에서 실행되는 응집력 있는 계층 아키텍처를 생성합니다. 이 아키텍처는 데이터 레이크하우스의 운영 구조를 형성할 수도 있습니다. 모든 조직에는 고유한 구성이 있지만 대부분의 데이터 레이크하우스 아키텍처에는 다음과 같은 기능이 있습니다.
- 리소스 관리 및 오케스트레이션. 리소스 관리자를 사용하면 데이터 레이크가 적절한 위치에 적절한 양의 데이터, 리소스 및 컴퓨팅 성능을 할당하여 작업을 일관되게 실행할 수 있습니다.
- 손쉬운 액세스를 위한 커넥터. 다양한 워크플로를 통해 사용자는 필요한 형식으로 필요한 데이터에 쉽게 액세스하고 공유할 수 있습니다.
- 신뢰할 수 있는 분석. 우수한 분석 서비스는 빠르고 확장 가능하며 분산되어야 합니다. 또한 여러 언어에서 다양한 워크로드 범주를 지원해야 합니다.
- 데이터 분류. 데이터 프로파일링, 카탈로그 작성 및 보관은 조직이 데이터 콘텐츠, 품질, 위치 및 기록을 추적하는 데 도움이 됩니다.
- 추출, 로드, 변환(ELT) 프로세스. ELT는 여러 소스에서 데이터를 추출하여 데이터 레이크의 원시 영역에 로드한 다음 추출 후 정리 및 변환하여 애플리케이션에서 쉽게 사용할 수 있도록 하는 프로세스를 나타냅니다.
- 보안 및 지원. 마스킹, 감사, 암호화 및 액세스 모니터링과 같은 데이터 보호 도구는 데이터를 안전하게 비공개로 유지합니다.
- 거버넌스 및 스튜어드십. 데이터 레이크 플랫폼이 최대한 원활하게 실행되려면 사용자에게 아키텍처 구성과 데이터 및 운영 관리 모범 사례를 교육해야 합니다.
추가 리소스
탐색
자주 묻는 질문
-
데이터 레이크는 대량의 데이터를 원래 형태로 수집, 저장 및 처리할 수 있는 중앙 집중식 리포지토리입니다. 모든 유형의 데이터를 수용할 수 있으며 빅 데이터 분석, 기계 학습 및 기타 지능형 작업을 지원하는 데 사용됩니다.
-
소매, 금융 및 엔터테인먼트를 포함한 다양한 산업 분야의 조직은 데이터 레이크 플랫폼을 사용하여 데이터를 저장하고 인사이트를 수집하며 서비스의 전반적인 품질을 개선합니다. 예를 들어 투자 회사는 데이터 레이크를 사용하여 최신 시장 데이터를 수집 및 처리하여 포트폴리오 위험을 보다 효율적으로 관리할 수 있습니다.
-
데이터 레이크는 모든 유형의 원시 데이터를 저장하며, 데이터 과학자는 이 데이터를 다양한 프로젝트에 사용할 수 있습니다. 데이터 웨어하우스는 정리 및 처리된 데이터를 저장하고 분석 또는 운영 보고는 물론 특정 BI 사용 사례를 제공하는 데 사용할 수 있습니다.
-
데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 요소를 결합하여 데이터 과학 및 비즈니스 인텔리전스 목적을 위한 유연한 엔드투엔드 솔루션을 형성합니다.
-
물론입니다. 모든 산업 분야의 주요 조직은 데이터 레이크에 저장된 방대한 양의 데이터에 의존하여 지능형 조치를 강화하고 인사이트를 확보하며 성장합니다.
-
원시 및 구조화되지 않은 데이터를 포함하여 대량의 데이터는 관리하기 어려우며 병목 현상, 데이터 손상, 품질 관리 문제 및 성능 문제로 이어질 수 있습니다. 그렇기 때문에 데이터 레이크 플랫폼을 원활하게 실행하는 데 도움이 되는 우수한 거버넌스 및 관리 관행을 유지하는 것이 중요합니다.
-
데이터 레이크 아키텍처는 데이터 레이크의 데이터를 통합, 액세스, 구성 및 보안을 유지하는 데 도움이 되는 도구 및 기술의 특정 구성을 나타냅니다.
무료 계정
Azure 클라우드 컴퓨팅 서비스를 최대 30일 동안 무료로 사용해 보세요.
용량제
종량제 가격으로 시작하세요. 사전 약정이 없으며 언제든지 취소할 수 있습니다.