탐색 건너뛰기

Hadoop

Hadoop이란?

Apache Hadoop은 방대한 양의 구조적/비구조적 데이터 즉, 테라바이트 단위 이상의 메일, 센서 표시값, 서버 로그, Twitter 피드, GPS 신호 등 우리가 아는 모든 데이터를 저장 및 분석하는 오픈 소스 소프트웨어입니다. Hadoop은 크고 복잡한 데이터 집합을 처리하여 주변의 모든 정보를 설명하는 데 도움이 되는 통찰력과 대답을 얻을 수 있습니다.

Hadoop의 역사 개요

2005년에 Mike Cafarella와 Doug Cutting이 아들의 장난감 코끼리 이름을 따 만든 Hadoop은 원래 웹 관련 검색 데이터용으로 만들어졌습니다. 오늘날 Hadoop은 Apache Software Foundation에서 제공하며 모든 유형의 조직과 산업에서 사용되는, 커뮤니티 수준에서 구축된 오픈 소스 프로젝트입니다. Microsoft는 커뮤니티 개발 노력에 능동적으로 참여하고 있습니다.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, Microsoft Fellow 및 CTO

빅데이터, 일상 서버용으로 구축

Hadoop이 인기 있는 한가지 이유는 간단히 말해 경제적이기 때문입니다. 이전에는 빅데이터 집합을 처리하기 위해 슈퍼 컴퓨터 및 기타 고가의 특수 하드웨어가 필요했습니다. Hadoop은 산업 표준 서버에서 안정적이고 확장 가능한 분산 컴퓨팅을 구현하므로 적은 예산으로도 페타바이트 이상의 데이터를 처리할 수 있습니다. 또한 Hadoop은 단일 서버에서 수천 대의 컴퓨터로 확장하고, 응용 프로그램 계층에서 오류를 감지한 후 처리하여 안정성을 향상시키도록 설계되었습니다.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

모든 유형의 데이터로부터 얻는 통찰력

어림잡아 오늘날 조직에서 처리하는 데이터의 80%는 열과 행으로 깔끔하게 정리되어 제공되는 패키지 데이터가 아닙니다. 대신 전자 메일, 소셜 미디어 피드, 위성 이미지, GPS 신호, 서버 로그 및 기타 비구조적 비관계형 파일이 어지럽게 섞여 있습니다. Hadoop은 또 다른 큰 장점으로 거의 모든 파일이나 형식을 처리할 수 있으므로 조직에서 불가능하다고 생각했던 문제를 제기할 수 있습니다.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, 바르셀로나 시

바르셀로나 시가 Microsoft Azure에서 Hadoop을 사용하는 방법 보기

클라우드에서 Hadoop을 사용하는 이유는 무엇일까요?

기존 온사이트 데이터 센터에 Hadoop을 배포할 수 있습니다. Microsoft를 비롯한 일부 회사도 Hadoop을 클라우드 기반 서비스로 제공합니다. 여기서 우리는 클라우드에서 Hadoop을 사용하는 이유가 무엇일까? 라는 한 가지 질문이 생깁니다. 이 옵션을 선택하는 조직의 수가 점점 증가하는 이유는 다음과 같습니다.

시간과 비용을 절약하는 클라우드

오픈 소스는 반드시 무료로 제공되는 것은 아닙니다. 온-프레미스로 Hadoop을 배포하기 위해서는 서버뿐만 아니라 서버를 설치하고 조정하고 유지할 숙련된 Hadoop 전문가가 필요합니다. 클라우드 서비스를 사용하면 사전 투자 비용 없이 몇 분 이내에 Hadoop 클러스터를 스핀업할 수 있습니다.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

유연하고 빠르게 크기를 조정할 수 있는 클라우드

Microsoft Azure 클라우드에서는 쓰고 있는 컴퓨팅 및 저장소에 대해서만 요금을 지불합니다. Hadoop 클러스터를 스핀업하고 데이터를 분석한 다음 종료하여 측정기를 중지하세요.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service(영국)

클라우드를 통한 민첩한 작업 수행

Hadoop 클러스터를 몇 분 이내에 만들고 주문형 노드를 추가하세요. 클라우드는 조직의 귀중한 시간이 낭비되지 않도록 합니다.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

HDInsight와의 만남: Azure 클라우드의 Hadoop

Microsoft Azure HDInsight는 Azure 클라우드의 100% Apache Hadoop 기반 서비스입니다. Microsoft Azure HDInsight는 Hadoop의 모든 이점을 제공할 뿐만 아니라, Excel, 온-프레미스 Hadoop 클러스터, Microsoft 비즈니스 소프트웨어 및 서비스 에코시스템 등과도 완벽하게 통합할 수 있습니다.

HDInsight의 기능 보기

HDInsight 소개 영상 보기