ナビゲーションをスキップする

Hadoop

Hadoop とは?

Apache Hadoop は、大量の構造化データと非構造化データを保管して分析するためのオープンソース ソフトウェアです。Hadoop では、電子メールからセンサー測定値、サーバー ログ、Twitter のフィード、さらには GPS 信号まで、考え得るありとあらゆる TB 規模のデータを処理できます。Hadoop は、大量の、しかも不揃いのデータ セットを処理して洞察と答えを明らかにすることができます。このことが、Hadoop にまつわるあらゆる噂を説明しています。

Hadoop の簡単な歴史

2005 年に Mike Cafarella 氏と Doug Cutting 氏 (Hadoop という名前は、彼の息子が持っていた、おもちゃの象にちなんで付けられました) によって作成された Hadoop は、当初、Web 関連のデータ検索を目的としていました。現在では、Apache Software Foundation のコミュニティによって作成されるオープン ソース プロジェクトとなり、あらゆる組織および業界で利用されています。Microsoft は、このコミュニティでの開発の取り組みに積極的に貢献しています。

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell (Microsoft 社員、CTO)

ビッグ データ、日常使用のサーバーに合わせて構築

Hadoop がよく使用されている理由の 1 つは、そのシンプルな経済性です。以前には、ビッグ データ セットを処理するのに、スーパーコンピューターや、その他の特殊化された高額のハードウェアが必要という時期もありました。Hadoop を使用すると、業界標準のサーバーで信頼性の高いスケーラブルな分散コンピューティングが可能になります。このため、ペタバイト規模のデータに少ない予算で対応できます。Hadoop は、1 台のサーバーから数千台のマシンに拡張できる設計にもなっており、信頼性を向上させるために、アプリケーション レベルで障害を検出して処理します。

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

あらゆる種類のデータに関する洞察

一部の推定では、現在、組織が扱っているデータの 80 パーセントは、列と行にきちんと収められて提供されるようなデータではありません。それらは、電子メール、ソーシャル メディア フィード、衛星画像、GPS 信号、サーバー ログ、その他の構造化されていない非リレーショナル ファイルに由来する不揃いなデータの土石流とも言うべきものです。Hadoop は、ほぼすべてのファイルや形式を処理できます (これが、もう 1 つの大きな利点です)。したがって、組織は、これまでは絶対に不可能だと考えていたような質問を投げかけることができます。

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco (Barcelona 市)

バルセロナ市における Microsoft Azure での Hadoop の活用

Hadoop をクラウドで使用する理由

Hadoop は、従来のオンプレミス データセンターにデプロイできます。また、Microsoft など、クラウド ベースのサービスとして Hadoop を提供している企業もあります。Hadoop をクラウドで使用する利点はどこにあるのかという疑問が生じるのも当然でしょう。このオプションを選択する組織が増えている理由は、以下の点にあります。

クラウドによる時間とお金の節約

オープン ソースとは、無料であることを意味するわけではありません。Hadoop オンプレミス デプロイでも、いくつかのサーバーを用意する必要があり、セットアップ、チューニング、保守のために熟練した Hadoop のエキスパートが必要です。クラウド サービスであれば、初期コストをかけることなく、Hadoop クラスターを数分で作成できます。

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

クラウドは柔軟であり、スケーリングもスピーディです

Microsoft Azure クラウドでは、コンピューティングやストレージを使用した場合、その使用した分だけ支払えば済みます。Hadoop クラスターを作成してデータを分析した後は、Hadoop クラスターをシャットダウンしてメーターを停止できます。

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson、国民保険サービス、英国

クラウドによる敏捷性向上

Hadoop クラスターを作成するのにかかる時間は、わずか数分です。作成した後に、オンデマンドでノードを追加することもできます。クラウドを使用することで、組織は価値創造までの時間を短縮できます。

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard、Chr.Hansen

HDInsight: Azure クラウドの Hadoop

Microsoft Azure HDInsight は、100% Apache Hadoop をベースとした、Azure クラウドのサービスです。このサービスは、Hadoop のすべての利点を提供するだけでなく、Excel、オンプレミスの Hadoop クラスター、さらにビジネス ソフトウェアおよびサービスからなるマイクロソフトのエコシステムとも統合できます。

HDInsight の機能をご確認ください

HDInsight の概要