Hadoop

Hadoop とは?

Apache Hadoop は、大量の構造化データと非構造化データを保管して分析するためのオープンソース ソフトウェアです。Hadoop では、電子メールからセンサー測定値、サーバー ログ、Twitter のフィード、さらには GPS 信号まで、考え得るありとあらゆる TB 規模のデータを処理できます。Hadoop は、大量の、しかも不揃いのデータ セットを処理して洞察と答えを明らかにすることができます。このことが、Hadoop にまつわるあらゆる噂を説明しています。

Hadoop の簡単な歴史

2005 年に Mike Cafarella 氏と Doug Cutting 氏 (Hadoop という名前は、彼の息子が持っていた、おもちゃの象にちなんで付けられました) によって作成された Hadoop は、当初、Web 関連のデータ検索を目的としていました。現在では、Apache Software Foundation のコミュニティによって作成されるオープン ソース プロジェクトとなり、あらゆる組織および業界で利用されています。Microsoft は、このコミュニティでの開発の取り組みに積極的に貢献しています。

Microsoft
昨年 Microsoft は、エンジニアリング作業に 6,000 時間以上を費やし、オープン ソース コミュニティとのパートナーシップを通じて、Hadoop プロジェクトのさまざまな部分にコードを提供しつつ革新を進めてきました。さらに、Hadoop のコミッターを擁しており、また Hadoop の Apache ワーキング グループの議長を務めるのは Microsoft 社員の Chris Douglas です。

–David Campbell (Microsoft 社員、CTO)

ビッグ データ、日常使用のサーバーに合わせて構築

Hadoop がよく使用されている理由の 1 つは、そのシンプルな経済性です。以前には、ビッグ データ セットを処理するのに、スーパーコンピューターや、その他の特殊化された高額のハードウェアが必要という時期もありました。Hadoop を使用すると、業界標準のサーバーで信頼性の高いスケーラブルな分散コンピューティングが可能になります。このため、ペタバイト規模のデータに少ない予算で対応できます。Hadoop は、1 台のサーバーから数千台のマシンに拡張できる設計にもなっており、信頼性を向上させるために、アプリケーション レベルで障害を検出して処理します。

Virginia Tech
Virginia Tech の研究者は、Hadoop を使用してペタバイト規模の DNA データを処理して、新しいガン治療法や抗生物質の研究をしています。

あらゆる種類のデータに関する洞察

一部の推定では、現在、組織が扱っているデータの 80 パーセントは、列と行にきちんと収められて提供されるようなデータではありません。それらは、電子メール、ソーシャル メディア フィード、衛星画像、GPS 信号、サーバー ログ、その他の構造化されていない非リレーショナル ファイルに由来する不揃いなデータの土石流とも言うべきものです。Hadoop は、ほぼすべてのファイルや形式を処理できます (これが、もう 1 つの大きな利点です)。したがって、組織は、これまでは絶対に不可能だと考えていたような質問を投げかけることができます。

Barcelona
Windows Azure、HDInsight、および SQL Server 2012 を使用することにより、ほとんどリアルタイムで、ソーシャル メディア フィードから収集したビッグ データ、GPS 信号や政府組織由来のデータにより、BI を収集、分析、生成することができます。

–Luis Sanz Marco (Barcelona 市)

バルセロナ市における Microsoft Azure での Hadoop の活用

Hadoop をクラウドで使用する理由

Hadoop は、従来のオンプレミス データセンターにデプロイできます。また、Microsoft など、クラウド ベースのサービスとして Hadoop を提供している企業もあります。Hadoop をクラウドで使用する利点はどこにあるのかという疑問が生じるのも当然でしょう。 このオプションを選択する組織が増えている理由は、以下の点にあります。

クラウドによる時間とお金の節約

オープン ソースとは、無料であることを意味するわけではありません。Hadoop オンプレミス デプロイでも、いくつかのサーバーを用意する必要があり、セットアップ、チューニング、保守のために熟練した Hadoop のエキスパートが必要です。クラウド サービスであれば、初期コストをかけることなく、Hadoop クラスターを数分で作成できます。

Virginia Tech
Virginia Tech における Microsoft クラウドの利用状況をご覧ください。何百万ドルもかけて独自のスーパーコンピューター センターを設立する必要はありません。

クラウドは柔軟であり、スケーリングもスピーディです

Microsoft Azure クラウドでは、コンピューティングやストレージを使用した場合、その使用した分だけ支払えば済みます。Hadoop クラスターを作成してデータを分析した後は、Hadoop クラスターをシャットダウンしてメーターを停止できます。

NHS
実際に、Azure HDInsight クラスターを作成し、6 年分のデータを数時間かけて処理した後、シャットダウンしました。クラウドでのデータ処理は、非常に経済的です。

–Paul Henderson、国民保険サービス、英国

クラウドによる敏捷性向上

Hadoop クラスターを作成するのにかかる時間は、わずか数分です。作成した後に、オンデマンドでノードを追加することもできます。クラウドを使用することで、組織は価値創造までの時間を短縮できます。

Chr Hansen
Azureを利用することにより、非常に短時間のうちにクラウドでこれを実現することができました。1 週間もたたないうちに、ソリューションを実装し、データ処理を開始することができました。

–Morten Meldgaard、Chr.Hansen

HDInsight: Azure クラウドの Hadoop

Microsoft Azure HDInsight は、100% Apache Hadoop をベースとした、Azure クラウドのサービスです。このサービスは、Hadoop のすべての利点を提供するだけでなく、Excel、オンプレミスの Hadoop クラスター、さらにビジネス ソフトウェアおよびサービスからなるマイクロソフトのエコシステムとも統合できます。

HDInsight の機能をご確認ください

HDInsight の概要