Azure HDInsight용 Apache Spark

중요 업무용 배포를 위한 클라우드의 Apache Spark

Apache Spark란?

Apache Spark는 대규모 데이터 분석 응용 프로그램을 실행하는 오픈 소스 처리 프레임워크입니다. 메모리 내 계산 엔진을 기반으로 하는 Spark를 통해 빅 데이터에 대한 쿼리 성능을 높일 수 있습니다. Spark는 필요에 따라 데이터를 메모리 내부와 디스크에 유지하는 병렬 데이터 처리 프레임워크를 활용합니다. 따라서 Spark는 HDFS(Hadoop Distributed File System)의 데이터에 대해 ETL(Extract, Transform, Load), 일괄 처리, 대화형 쿼리 등과 같은 다양한 작업에 대한 공통 실행 모델을 제공할 뿐 아니라 100배 더 향상된 속도를 지원합니다. Azure를 사용하면 Apache Spark에서 하드웨어를 구입하거나 소프트웨어를 구성할 필요 없이 주요 설명을 작성할 완벽한 전자 필기장 환경을 쉽고 비용 효율적으로 배포할 수 있을 뿐만 아니라 파트너 비즈니스 인텔리전스 도구와 통합할 수 있습니다.

개요 동영상 보기

Apache Spark 코어 엔진은 Spark SQL, Spark Streaming, MLlib(기계 학습), GraphX(그래프 계산) 등 여러 가지 유형의 처리를 결합할 수 있는 처리 프레임워크를 제공합니다.

여러 작업에 대해 단일 실행 모델 사용

Apache Spark는 공통 실행 모델을 활용하여 ETL, 일괄 처리 쿼리, 대화형 쿼리, 실시간 스트리밍, 기계 학습, Azure Data Lake 저장소에 저장된 데이터에 대한 그래프 처리 등과 같은 다양한 작업을 수행합니다. 따라서 Azure HDInsight용 Spark를 사용하면 부정 색출, 클릭 스트림 분석, 재무적 경고, 연결된 센서 및 장치에서 원격 분석(사물 인터넷, IoT), 소셜 분석, 'Always On' ETL 파이프라인, 네트워크 모니터링 등과 같은 빅 데이터 문제를 실시간으로 해결할 수 있습니다.

대화형 시나리오에 대한 메모리 내 처리

현대의 사용자는 질문 후 몇 분, 몇 시간 또는 며칠씩 기다리지 않고 즉시 대답을 듣기를 기대합니다. Apache Spark는 데이터를 메모리 내에 유지하여 Hadoop에서 대용량의 데이터 집합을 처리하면서 100배 이상 향상된 쿼리 속도를 실현하여 기대를 충족합니다. 즉, Azure HDInsight용 Spark는 속도가 중요한 빅데이터 응용 프로그램에 이상적입니다.

IntelliJ IDEA를 통한 기본 개발자 환경 및 원격 디버깅

Spark에 대한 개발을 더 쉽게 할 수 있도록 IntelliJ IDEA를 긴밀히 통합했으므로 개발자는 Scala and Java에 대한 기본 작성 지원을 통해 코딩할 수 있습니다. 원격 디버깅을 수행할 수 있으므로 개발 수명 주기를 유연하게 운영하고 준비되었을 때 응용 프로그램 Azure에 제출할 수 있습니다. 또한 HDInsight용 Spark 클러스터는 가장 인기 있는 기계 학습용 Python 라이브러리(Anaconda)를 미리 로드한 상태로 제공됩니다.

BI 도구를 활용하여 대화형으로 빅 데이터 분석

비즈니스 분석가용으로, Tableau, SAP Lumira, QlikView 등의 기타 비즈니스 인텔리전스 도구와 함께 통합된 Power BI 기능을 제공합니다. 이를 통해 크기에 관계없이 데이터에 대한 대화형 시각화 기능을 빌드할 수 있습니다. 기존 대시보드 외에도 Power BI는 Spark 스트리밍에서 Power BI로 바로 실시간 이벤트를 게시할 수 있는 Spark와 통합된 스트리밍 커넥터를 제공합니다.

기본 제공 전자 필기장 환경

고유한 전자 필기장을 설치하거나 전용 전자 필기장을 활용해야 하는 다른 Spark 제공과 달리, HDInsight용 Spark에는 시장에서 가장 인기 있는 오픈 소스 전자 필기장인 Jupyter(iPython)가 기본적으로 통합되어 있습니다. 이를 사용하여 코드, 통계 수식, 시각화 등을 결합하여 데이터에 대한 정보를 제공하는 설명을 만들 수 있습니다. 고객이 이 기능을 간단히 통합할 수 있도록 Jupyter 커뮤니티와의 공동 작업으로 REST 끝점을 통해 Spark를 실행할 수 있는 커널 기능을 강화하여 데이터 과학자를 위한 경쟁력 있는 환경을 제공했습니다.

R 서버와 통합 - 최대의 R 호환 병렬 분석 및 기계 학습 라이브러리

Azure HDInsight용 Spark는 오픈 소스 R 언어를 지원하도록 빌드된 최대의 병렬 분석 및 기계 학습 라이브러리가 있는 R 서버를 실행하기 위한 엔진으로서 활용할 수 있습니다. 이렇게 하면 Spark에서 실행되는 R 서버에서 엔터프라이즈 규모의 친숙한 R을 활용할 수 있습니다. Spark와 결합된 R 서버에는 다중 스레드 수학 라이브러리 및 투명 병렬화가 있으므로 오픈 소스 R보다 1000배 많은 데이터를 최대 50배 더 빠르게 처리할 수 있습니다. 따라서 더 정확한 모델을 학습시켜 예측 성능을 기존보다 높일 수 있습니다.

최고 수준의 비즈니스 연속성 보장

최고 규모로 Spark를 실행하도록 Microsoft에서는 업계 최고 수준인 99.9%까지 보장되는 SLA를 제공하여 심각한 오류로부터 보호하고 비즈니스 연속성을 보장합니다. 이를 위해 Microsoft는 장기 실행 Spark 컨텍스트를 관리하고 Spark 작업을 제출하기 위한 오픈 소스 Apache 라이선스 REST 웹 서비스를 만드는 프로젝트 Livy를 Cloudera와 함께 추진했습니다. 이 새로운 기능은 Spark를 대화형 전자 필기장 실행을 위한 더 강력한 백 엔드로 만들고 다른 응용 프로그램에서 대화형 작업에 Spark를 활용할 수 있도록 디자인되었습니다.

데이터 증가에 따라 변경할 필요 없이, 크기에 관계없이 모든 데이터 분석

Spark를 대규모로 실행할 수 있도록 Spark를 Azure Data Lake 저장소와 통합했습니다. Microsoft에서만 제공하는 이 통합을 통해 Spark에서 데이터 증가에 따라 응용 프로그램을 변경할 필요 없이, 크기에 관계없이 데이터를 저장하고 처리할 수 있습니다. 이 통합을 통해 저장소 수준에서 역할 기반 데이터 액세스 제어를 구현할 수도 있습니다.

실시간 시나리오에 대한 실시간 처리

오늘날의 상호 연결된 환경은 실시간으로 도착하는 빅데이터로 정의됩니다. HDInsight용 Spark Stream은 까다로운 실시간 시나리오에 적합합니다. 실시간 원격 관리와 모니터링 또는 휴대폰이나 커넥티드 카와 같은 장치에서 통찰력을 얻는 등의 IoT 시나리오를 포함한 다양한 기회를 제공합니다.

쉬운 설정, 빠른 결과

HDInsight용 Spark를 사용하면 시간이 많이 걸리는 설치 또는 설정 작업이 필요하지 않습니다. Azure가 대신 처리해드립니다. 새 하드웨어를 구입하거나 다른 초기 비용을 지출할 필요 없이 몇 분 이내에 실행하여 Spark를 배포할 수 있습니다.

빅데이터의 탄력적인 용량

HDInsight용 Spark는 Azure 클라우드의 강력한 기능을 활용하여 원하는 양의 데이터를 처리할 수 있는 모든 크기의 클러스터를 쉽게 만들 수 있습니다. 실제로 사용하는 계산 및 저장소에 대해서만 비용이 청구됩니다.

HDInsight 무료 체험