HDInsight를 사용한 ETL(추출, 변환 및 로드)

Azure Data Factory
Azure Data Lake Storage
Azure HDInsight

솔루션 아이디어

이 문서는 솔루션 아이디어입니다. 잠재적인 사용 사례, 대체 서비스, 구현 고려 사항 또는 가격 책정 지침과 같은 추가 정보로 콘텐츠를 확장하려면 GitHub 피드백을 제공하여 알려주세요.

이 솔루션 아이디어는 Hadoop MapReduce 및 Apache Spark를 사용하여 주문형 빅 데이터 클러스터를 추출, 변환 및 로드하는 방법을 보여 줍니다.

아키텍처

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

아키텍처를 통한 데이터 흐름은 다음과 같습니다.

  1. Azure Data Factory를 사용하여 원본 시스템 및 데이터 저장소에 연결된 서비스를 설정합니다. Azure Data Factory Pipelines는 네이티브 커넥터를 사용할 수 없는 데이터 원본에 대한 일반 프로토콜도 포함하는 90개 이상의 커넥터를 지원합니다.

  2. 데이터 복사 도구를 사용하여 원본 시스템에서 Azure 데이터 레이크로 데이터를 로드합니다.

  3. Azure Data Factory는 주문형 HDInsight 클러스터를 만들 수 있습니다. 먼저 주문형 HDInsight 연결된 서비스를 만듭니다. 다음으로 파이프라인을 만들고 사용 중인 Hadoop 프레임워크(즉, Hive, MapReduce, Spark 등)에 따라 적절한 HDInsight 작업을 사용합니다.

  4. Azure Data Factory의 파이프라인을 트리거합니다. 아키텍처는 Azure Data Lake 저장소가 3단계에서 만든 HDInsight 작업에서 실행된 Hadoop 스크립트의 파일 시스템으로 사용된다고 가정합니다. 스크립트는 데이터 레이크의 큐레이팅된 영역에 데이터를 쓰는 주문형 HDInsight 클러스터에 의해 실행됩니다.

구성 요소

  • Azure Data Factory - 데이터 흐름을 오케스트레이션하기 위한 클라우드 규모 데이터 통합 서비스
  • Azure Data Lake Storage - 빅 데이터 처리를 위한 확장 가능하고 비용 효율적인 클라우드 스토리지
  • Apache Hadoop - 빅 데이터 분산 처리 프레임워크
  • Apache Spark - 메모리 내 처리를 지원하여 빅 데이터 애플리케이션의 성능을 향상시키는 빅 데이터 분산 처리 프레임워크
  • Azure HDInsight - Hadoop 구성 요소의 클라우드 배포

시나리오 정보

이 솔루션 아이디어는 ETL 사용 사례에 대한 데이터 흐름을 설명합니다.

잠재적인 사용 사례

Azure HDInsight를 빅 데이터 처리의 다양한 시나리오에 사용할 수 있습니다. 기록 데이터(이미 수집되고 저장된 데이터) 또는 실시간 데이터(원본에서 직접 스트리밍된 데이터)일 수 있습니다. 이러한 데이터 처리에 대한 자세한 내용은 HDInsight 사용에 대한 시나리오를 참조하세요.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인하세요.

다음 단계

구성 요소 기술에 대해 자세히 알아보세요.

관련 아키텍처 살펴보기: