Hadoop

Hadoop이란?

Apache Hadoop은 방대한 양의 구조적/비구조적 데이터 즉, 테라바이트 단위 이상의 메일, 센서 표시값, 서버 로그, Twitter 피드, GPS 신호 등 우리가 아는 모든 데이터를 저장 및 분석하는 오픈 소스 소프트웨어입니다. Hadoop은 크고 복잡한 데이터 집합을 처리하여 주변의 모든 정보를 설명하는 데 도움이 되는 통찰력과 대답을 얻을 수 있습니다.

Hadoop의 역사 개요

2005년에 Mike Cafarella와 Doug Cutting이 아들의 장난감 코끼리 이름을 따 만든 Hadoop은 원래 웹 관련 검색 데이터용으로 만들어졌습니다. 오늘날 Hadoop은 Apache Software Foundation에서 제공하며 모든 유형의 조직과 산업에서 사용되는, 커뮤니티 수준에서 구축된 오픈 소스 프로젝트입니다. Microsoft는 커뮤니티 개발 노력에 능동적으로 참여하고 있습니다.

Microsoft
Microsoft는 지난해에 다양한 Hadoop 프로젝트에서 오픈 소스 커뮤니티와 제휴하여 코드를 커밋하고 혁신을 이끌면서 6,000시간 이상의 엔지니어링 시간을 기록했습니다. 게다가 Microsoft에는 Hadoop에 대한 커미터들이 있으며, Microsoft의 직원인 Chris Douglas는 Hadoop에 대한 Apache 작업 그룹장입니다.

–David Campbell, Microsoft Fellow 및 CTO

빅데이터, 일상 서버용으로 구축

Hadoop이 인기 있는 한가지 이유는 간단히 말해 경제적이기 때문입니다. 이전에는 빅데이터 집합을 처리하기 위해 슈퍼 컴퓨터 및 기타 고가의 특수 하드웨어가 필요했습니다. Hadoop은 산업 표준 서버에서 안정적이고 확장 가능한 분산 컴퓨팅을 구현하므로 적은 예산으로도 페타바이트 이상의 데이터를 처리할 수 있습니다. 또한 Hadoop은 단일 서버에서 수천 대의 컴퓨터로 확장하고, 응용 프로그램 계층에서 오류를 감지한 후 처리하여 안정성을 향상시키도록 설계되었습니다.

Virginia Tech
Virginia Tech의 연구원들은 새로운 암 치료 및 항생제에 대한 여러 페타바이트의 DNA 데이터를 검토하기 위해 Hadoop을 사용하고 있습니다.

모든 유형의 데이터로부터 얻는 통찰력

어림잡아 오늘날 조직에서 처리하는 데이터의 80%는 열과 행으로 깔끔하게 정리되어 제공되는 패키지 데이터가 아닙니다. 대신 전자 메일, 소셜 미디어 피드, 위성 이미지, GPS 신호, 서버 로그 및 기타 비구조적 비관계형 파일이 어지럽게 섞여 있습니다. Hadoop은 또 다른 큰 장점으로 거의 모든 파일이나 형식을 처리할 수 있으므로 조직에서 불가능하다고 생각했던 문제를 제기할 수 있습니다.

Barcelona
Windows Azure, HDInsight 및 SQL Server 2012를 사용하여 소셜 미디어 피드, GPS 신호 및 정부 시스템의 데이터로부터 수집한 빅데이터와 함께 실시간 BI를 수집, 분석 및 생성할 수 있습니다.

–Luis Sanz Marco, 바르셀로나 시

바르셀로나 시가 Microsoft Azure에서 Hadoop을 사용하는 방법 보기

클라우드에서 Hadoop을 사용하는 이유는 무엇일까요?

기존 온사이트 데이터 센터에 Hadoop을 배포할 수 있습니다. Microsoft를 비롯한 일부 회사도 Hadoop을 클라우드 기반 서비스로 제공합니다. 여기서 우리는 클라우드에서 Hadoop을 사용하는 이유가 무엇일까? 라는 한 가지 질문이 생깁니다. 이 옵션을 선택하는 조직의 수가 점점 증가하는 이유는 다음과 같습니다.

시간과 비용을 절약하는 클라우드

오픈 소스는 반드시 무료로 제공되는 것은 아닙니다. 온-프레미스로 Hadoop을 배포하기 위해서는 서버뿐만 아니라 서버를 설치하고 조정하고 유지할 숙련된 Hadoop 전문가가 필요합니다. 클라우드 서비스를 사용하면 사전 투자 비용 없이 몇 분 이내에 Hadoop 클러스터를 스핀업할 수 있습니다.

Virginia Tech
Virginia Tech에서 슈퍼 컴퓨팅 센터를 만들기 위해 수백만 달러를 투자하는 대신 Microsoft의 클라우드를 어떻게 사용하고 있는지 알아보세요.

유연하고 빠르게 크기를 조정할 수 있는 클라우드

Microsoft Azure 클라우드에서는 쓰고 있는 컴퓨팅 및 저장소에 대해서만 요금을 지불합니다. Hadoop 클러스터를 스핀업하고 데이터를 분석한 다음 종료하여 측정기를 중지하세요.

NHS
Azure HDInsight 클러스터를 빠르게 스핀업하고 단 몇 시간 안에 6년 동안의 데이터를 처리한 다음 종료합니다. 클라우드에서는 아주 적당한 비용으로 데이터를 처리할 수 있습니다.

–Paul Henderson, National Health Service(영국)

클라우드를 통한 민첩한 작업 수행

Hadoop 클러스터를 몇 분 이내에 만들고 주문형 노드를 추가하세요. 클라우드는 조직의 귀중한 시간이 낭비되지 않도록 합니다.

Chr Hansen
Windows Azure를 사용하는 클라우드에서는 작업이 무척 빨랐습니다. 1주일도 안 된 시점에 솔루션을 구현하고 데이터 작업을 시작할 수 있었습니다.

–Morten Meldgaard, Chr. Hansen

HDInsight와의 만남: Azure 클라우드의 Hadoop

Microsoft Azure HDInsight는 Azure 클라우드의 100% Apache Hadoop 기반 서비스입니다. Microsoft Azure HDInsight는 Hadoop의 모든 이점을 제공할 뿐만 아니라, Excel, 온-프레미스 Hadoop 클러스터, Microsoft 비즈니스 소프트웨어 및 서비스 에코시스템 등과도 완벽하게 통합할 수 있습니다.

HDInsight의 기능 보기

HDInsight 소개 영상 보기