Azure HDInsight がクラウドにもたらす次世代の Apache Hadoop 3.0 とエンタープライズ セキュリティ

9月 24, 2018 に投稿済み

Principal Group Program Manager, Azure HDInsight

Azure HDInsight アイコン

MICROSOFT IGNITE フロリダ州オーランド 2018 年 9 月 24 日 – 本日、Microsoft Corporation は、クラウドでのオープン ソースのビッグ データ分析に Apache Hadoop を使用することを模索している企業に対する、同社の継続的なサポートと責任について発表しました。Azure HDInsight サービスへの一連のメジャー アップグレードは、Apache Hadoop 3.0 のプレビュー リリースから始まります。これは、今年度の初旬から企業が待ち望んでいる Hadoop スタックへの変換型の更新プログラムです。Hortonworks と Microsoft 間でパートナーシップを継続することで、これが実現しました。また、厳密なセキュリティとコンプライアンスの要件がある企業では、Enterprise セキュリティ パッケージを使用して Azure HDInsight クラスターをセキュリティで保護できるようになります。また、このリリースには、誰もが嬉しい機能があります。Spark の開発者には特に、コード内でパフォーマンス上のボトルネックを迅速に特定して解決できる一連のイノベーションが好評です。

オープン ソース分析のコミュニティに参加できて光栄に思っています。」と、ビッグ データ製品管理部門の主任であるライアン ウェイト氏は言います。「HDInsight への投資から、Apache YARN のようなプロジェクトへの参画、そして社内のデータ レイクでオープン ソース分析を使用する方針への移行まで、私たちは、オープン ソース分析を製品戦略の中心に据えようとしています。この分野のイノベーションが加速しているのは、Apache Hadoop 3.0 のみです。顧客にこれを届けられると思うとわくわくします。それによって、私たちの顧客もビッグ データの体験を深められます。」

Azure HDInsight 4.0 における Apache Hadoop 3.0 のプレビュー

Hortonworks が主導する Apache Hadoop 3.0 は、Hadoop スタックに対する最後のメジャー アップデート以降の、コミュニティ全体での 5 年間に及ぶ仕事の集大成です。企業では、データ レークのビジョンを実現しつつ、企業が快適に利用できる同一の Hadoop スタック上のアプリケーションすべてに、深層学習フレームワークを効率的に組み込むことが可能になりました。

主要な拡張機能の一部について、次に説明します。

  • ACID セマンティクスが既定で有効になっている Apache Hive 3.0 は、より従来のデータベースに近くなっています。また、顧客が非常に大規模なデータ セットの最上位により簡単に LOB アプリケーションを構築できるようになっています。
  • Apache Druid は、列指向のストレージ レイアウトの最上位にある、インデックス作成/キャッシュの機能を備えたオープン ソース データ ストアです。Apache Hive および Apache Druid (現在、既定で利用可能) を使って、顧客は受信データに対してほぼリアル タイムの調査分析を実行できます。
  • Tensorflow (既定で利用可能) および GPU サポートを利用して、Apache Hadoop 3.0 では直接、機械学習と深層学習のシナリオをターゲットとします。

Microsoft と Hortonworks の緊密で継続的な共同作業によって、Azure は現在、マネージド Apache Hadoop 3.0 を提供する初めての主要なクラウド プロバイダーになりました。これにより、Azure の顧客は、新しいアプリケーションの構築を開始したり、既存のアプリケーションを更新したりして、新しい Apache Hadoop 3.0 プラットフォームを操作できるようになりました。

拡張されたエンタープライズ級のセキュリティ

顧客が財務、業務、個人、および健康に関わる機密データを保管または処理するビッグ データ アプリケーションを構築している場合、必ずエンタープライズ級のセキュリティとコンプライアンスが重要な要件になります。

一般提供の Enterprise セキュリティ パッケージ (ESP) を利用して、顧客は次のことを実現できます。

  • 企業のドメイン資格情報を使用して、HDInsight クラスターに対してユーザーが認証を行う。
  • ユーザーが、所属する企業のデータ アクセス ポリシーに従って、(Apache Ranger で作成および管理されている) 豊富かつ詳細なアクセス ポリシーを利用する。
  • Apache Ranger に重要なデータへのすべてのアクセスが記録され、必要に応じてその後の監査やフォレンジック分析にこれを利用できる。

さらに、Apache Kafka を使用している企業では、HDInsight での Apache Kafka の BYOK 暗号化によって実現可能な、綿密でより優れた防御を高く評価しています。

HDInsight Spark 開発者向けの詳細なデバッグ ツール

開発者、データ サイエンティスト、およびデータ アナリストは既に、Azure HDInsight では IntelliJ、Eclipse、VSCode、Jupyter、および Apache Zeppelin ノートブックなど、選択可能なツール内で豊富な開発機能およびデバッグ機能が提供されていることを知っています。

Microsoft ではこれを、もう 1 つ上の段階へとステップ アップさせました。何百ものノード上にある大規模な分散型のビッグ データ アプリケーションをデバッグするには、労力と時間がかかります。Microsoft では、何十億にも及ぶジョブの実行とデバッグを行ってきた 10 年間の長い経験を、Apache Spark のオープン ソースの世界に活かしました。次のような主要な拡張機能が含まれています。

  • 読み取り/書き込みのボトルネックを特定する再生とヒートマップを備えたジョブ グラフ。
  • ジョブのクリティカル パス分析と視覚化。
  • データ スキューの検出と分析。
  • データのプレビュー、ダウンロード、およびコピーを含む、ジョブ固有のデータ管理。

Azure HDInsight 上の重要な ISV アプリケーションの可用性

Azure HDInsight では、Azure Marketplace で利用可能な最も一般的なビッグ データ アプリケーションを備えた、充実したアプリケーション エコシステムをサポートしています。顧客は Azure HDInsight と共に次の新しい 3 つのアプリケーションを利用できるようになり、データ ガバナンス、ビッグ データに対する SQL フレンドリなクエリ、および Azure へのアプリケーション移行という重要な分野に対応しています。

  • Starburst: Azure HDInsight 上の Presto コネクターが必要に応じてスケーリングを行い、HDInsight と他のデータ ソースを統合します。
  • Waterline Data: 複数の Azure 顧客によって使用されるデータ カタログとガバナンスのソリューションです。

「Microsoft Azure HDInsight で Waterline Data Catalog を使い始めるのは、とても楽しみです。ペタバイト規模を扱う企業では現在、処理の画期的な高速化とコスト効率の改善を求めて、クラウドに大量のデータを移行しています。このような企業にとっては、価値の高い分析サービスです。」と、Waterline Data の CEO であるカイラッシュ アンバーニ氏は言います。「Waterline Data Catalog はAI 駆動型で、高いスケーラビリティを備えています。データの分類とガバナンスを自動化し、より高速の分析と詳細な分析情報のために利用できる組織内の全データを迅速にレンダリングすることで、HDInsight の機能を強化しています。それと共に、Microsoft と Waterline Data は、今日のデータ経済でより偉大なイノベーションと競争力を実現するために、リアルタイムの IoT サービスから最先端の AI や機械学習ベースのアプリケーションまで、あらゆる機能を利用可能にして、組織がデータの価値を新たな高みに押し上げるための支援を行っています。」

そして、これはまだ始まったばかりです。HDInsight にはすぐにまた、たくさんの更新プログラムがリリースされます。待っていてください。

Azure HDInsight を今すぐお試しください

Azure HDInsight を利用してあなたが次に何を構築するか、見るのが楽しみです。この開発者ガイドを読み、クイック スタート ガイドに従って Azure HDInsight のオープン ソース分析パイプラインの実装についてより詳しく確認してください。Twitter の #HDInsight および @AzureHDInsight をフォローして、最新の Azure HDInsight ニュースや機能の情報を常に把握してください。質問およびフィードバックは、AskHDInsight@microsoft.com までお送りください。

Azure HDInsight について

Azure HDInsight は、オープン ソース分析に対応したエンタープライズ級のサービスであり、簡単かつコスト効率に優れています。顧客はこれを使用して、Apache Hadoop、Spark、Kafka などの一般的な Apache オープン ソース フレームワークを簡単に実行できます。サービスは 27 のパブリック リージョンと米国およびドイツの Azure Government Clouds で利用可能です。

Azure HDInsight は、さまざまなセクターでのミッション クリティカルなアプリケーションを強化し、ETL、ストリーミング、および対話型クエリなどの幅広いユース ケースを実現します。