Azure HDInsight での Apache Hadoop 3.0 の一般提供開始を発表

2019年4月15日 に投稿済み

Principal Group Program Manager, Azure HDInsight

画像本日、Azure HDInsight での Apache Hadoop 3.0 の一般提供開始が発表されました。Microsoft Azure は、Cloudera とのパートナーシップにより、最も一般的なオープンソース分析プロジェクトにおいて最新イノベーションの恩恵を顧客にもたらす最初のクラウド プロバイダーであり、他に類をみない拡張性、柔軟性、セキュリティを備えています。Azure HDInsight での Apache Hadoop 3.0 の一般提供により、既存の機能 をベースにして重要な拡張機能が複数追加されています。これらの拡張機能によって、パフォーマンスとセキュリティがさらに向上し、ビッグ データ分析アプリケーションの充実したエコシステムのサポートが強化されます。

Apache Hadoop 3.0 のクラウドへの移行によるパフォーマンスの向上

Apache Hadoop 3.0 には、Hive、Spark、HBase などの主要な Apache フレームワークにまたがってオープンソース コミュニティによって提供された 5 年にわたるメジャー アップグレードが組み込まれています。Hadoop 3.0 の新機能により、パフォーマンス、拡張性、可用性が大幅に向上し、総保有コストが削減され、 価値実現までの時間を早めることができます。

  • Apache Hive 3.0 – ACID トランザクションが既定で有効で、複数のパフォーマンス改善が行われたこの最新バージョンの Hive を使用して、開発者は大規模なデータ レイク上に “従来のデータベース” のアプリケーションを構築できます。これは、GDPR/プライバシーに準拠しているビッグ データ アプリケーションを構築する必要がある企業にとって特に重要です。
  • Apache Spark 用の Hive Warehouse Connector – Hive Warehouse Connector を使用すると、Spark と Hive はより緊密になります。この新しいコネクタは、その統合を metastore 層からクエリ エンジン層に移動します。これは、述語プッシュ ダウンやその他の機能を使用して、より高速でより信頼性の高いパフォーマンスを実現します。
  • Apache HBase 2.0 と Apache Phoenix 5.0 – Apache HBase 2.0 と Apache Phoenix 5.0 には、パフォーマンス、安定性、および統合の機能強化が複数導入されています。HBase 2.0 を使用すると、メモリ内圧縮を伴う memstore 内のデータの定期的な再編成によって、リモート クラウド ストレージからのデータの頻繁なフラッシュや読み取りが行われないため、パフォーマンスが向上します。Phoenix 5.0 では、クラスターに対して実行されているクエリに関する情報を取得する新しいシステム テーブルが導入され、クエリ ログによりクエリが分かりやすくなっています。
  • Spark IO キャッシュ – IO キャッシュは、Apache Spark ジョブのパフォーマンスを改善する、Azure HDInsight 用のデータ キャッシュ サービスです。IO キャッシュは Apache TEZApache Hive のワークロードでも機能し、Apache Spark のクラスター上で実行できます。

拡張されたエンタープライズ級のセキュリティ

クラウドで機密データの保存や処理を行うビッグ データ アプリケーションを構築するすべての顧客にとって、エンタープライズ級のセキュリティとコンプライアンスは重要な要件です。

  • Apache HBase の Enterprise セキュリティ パッケージ (ESP) のサポート – HBase の ESP サポートの一般提供により、ユーザーが企業ドメインの資格情報を使用して HDInsight HBase クラスターに対して認証し、詳細に設定された充実したアクセス ポリシー (Apache Ranger で作成および管理) の対象となることを顧客は保証できます。
  • Apache Kafka の Bring Your Own Key (BYOK) のサポート – 顧客独自の暗号化キーを Azure Key Vault に渡し、それを使用して、Apache Kafka メッセージを保存している Azure Managed Disks を暗号化できるようになりました。これにより、データのセキュリティを高度に管理できます。

充実した開発者ツール

Azure HDInsight には、各種の統合開発環境 (IDE) の拡張機能、ノートブック、SDK を備えた充実した開発環境が用意されています。

  • SDK の一般提供.NETPythonJava 向けの HDInsight SDK を使用すると、開発者は任意の言語を使用してクラスターを簡単に管理できます。
  • VSCodeHDInsight VSCode 拡張機能を使用すると、開発者は Hive バッチ ジョブ、対話型 Hive クエリ、および PySpark スクリプトを HDInsight 4.0 クラスターに送信できます。
  • IntelliJAzure Toolkit for IntelliJ を使用すると、Scala および Java の開発者は組み込みテンプレートを使って Spark、Scala、Java の各プロジェクトをプログラミングできます。開発者は、ローカルでの実行、ローカルでのデバッグ、オープンな対話型セッションを簡単に実行でき、Scala/Java プロジェクトを IntelliJ 統合開発環境から直接 HDInsight 4.0 Spark クラスターに送信できます。

幅広いアプリケーション エコシステム

Azure HDInsight では、Azure Marketplace で提供される一般的なビッグ データ アプリケーションを各種備えた、充実したアプリケーション エコシステムをサポートしています。対象とするシナリオは、対話型分析からアプリケーションの移行に及びます。次のようなアプリケーションがサポートされます。

  • Starburst (Presto) – Presto は、オープンソースの高速でスケーラブルな分散 SQL クエリ エンジンです。これを使用すると、組織内のどこででもデータを分析できます。ストレージと計算を分離するように設計された Presto により、Azure Blob Storage、Azure Data Lake Storage、SQL データベースと NoSQL データベース、およびその他のデータ ソース内のデータのクエリを簡単に実行できます。Azure Marketplace で Starburst Presto の詳細を確認してください。
  • Kyligence – Kyligence は、Apache Kylin を搭載した、ビッグ データ用のエンタープライズ オンライン分析処理 (OLAP) エンジンです。Kyligence を使用すると、Azure でセルフサービスの対話型のビジネス分析を行うことができ、数兆件のレコードに対して 1 秒未満のクエリ待機時間を実現し、既存の Hadoop と BI システムをシームレスに統合します。Azure Marketplace で Kyligence の詳細を確認してください。
  • WANDisco – WANDisco Fusion は、中断なしのデータ移行、Spark および Hadoop のデプロイの容易かつシームレスな拡張、短期または長期のハイブリッド データ操作を保証することによって、クラウドへの移行のリスクを排除します。Azure Marketplace で WANDisco の詳細を確認してください。
  • Unravel Data – Unravel には、データ スタック全体にわたる一元化されたビューが用意されており、チューニング、 トラブルシューティング、パフォーマンスの向上について実行可能な推奨事項と自動化が提供されます。Unravel Data アプリは Azure Resource Manager を使用して、顧客が 1 回のクリックで Unravel を新規または既存の HDInsight クラスターに接続できるようにします。Azure Marketplace で Unravel の詳細を確認してください。
  • Waterline Data – Waterline Data Catalog と HDInsight を使用すると、顧客は、世界規模の Azure でデータの検出、編成、管理すべてを簡単に行うことができます。Azure Marketplace で Waterline の詳細を確認してください。

すぐに始める

ユーザーや顧客にイノベーションをもたらすためにぜひAzure HDInsight をご活用ください。開発者ガイドを読み、クイック スタート ガイドに従って Azure HDInsight のオープンソース分析パイプラインの実装について詳細を確認してください。Twitter (#AzureHDInsight) をフォローして、最新の Azure HDInsight ニュースや近日中に提供される魅力的な機能について情報をチェックしてください。質問およびフィードバックは、AskHDInsight@microsoft.com までお送りください。

Azure HDInsight について

Azure HDInsight は、オープンソース分析用のエンタープライズ対応サービスです。顧客はこれを使用して、Apache Hadoop、Spark、Kafka などの一般的な Apache オープン ソース フレームワークを簡単に実行できます。このサービスは 30 のパブリック リージョンと米国およびドイツの Azure Government クラウドで利用可能です。Azure HDInsight は、ETL、ストリーミング、対話型クエリなどの幅広い領域およびユース ケースにおいてッション クリティカルなアプリケーションを強化します。