Apache Kafka for HDInsight

リアル タイム データのために管理された高いスループットおよび待機時間の短いサービス

Kafka for HDInsight は、エンタープライズグレードのオープン ソース ストリーミング取り込みサービスです。コスト効率が高く、セットアップや管理、使用も簡単です。モノのインターネット (IoT)、不正検出、クリックストリーム分析、財務アラート、ソーシャル分析といったリアルタイムのソリューションを構築できます。

99.9% の SLA が保証された、管理された Kafka

ハードウェアを購入し、インストールし、調整を行うには、多大な時間と労力が必要になります。データの損失を防ぐためにこれらのマシンを常時稼働させることはさらに難しく、またマシンを所有していることによる大きなコストが発生します。Kafka for Azure HDInsight では、お客様に代わって、これらすべてに対応します。Kafka クラスターは、4 クリックで数分以内に起動、実行できます。また、Kafka のアップタイムについては 99.9% の SLA が保証されています。つまり、お客様は、新しい Kafka ブローカーのインストールや、壊れたブローカーの修復を気にすることなく、リアルタイム アプリケーションとそのロジックを記述することや、より高レベルのパイプラインを構築することに集中できます。

Azure 環境のラックに適したサービス

Kafka は、複数の環境での稼働に適したラックの 1 次元ビューで設計されました。しかし、Azure のような環境では、ラックは更新ドメイン (UDs) と障害ドメイン (FDs) の 2 次元に分割されます。HDInsight Kafka ではスケーラブルで堅牢なツールを開発したことで、Kafka を Azure 環境におけるラックに適したサービスにすることができました。これらのツールは、UDs と FDs の間でパーティションとレプリカの再調整を行い、Azure 可用性ゾーン間での Kafka の可用性を最高レベルにまで向上させます。

Azure Managed Disks との統合

大量のデータを取り込むため、クラスターのノードにアタッチされているディスクがボトルネックになることがよくあります。従来は、このボトルネックをスケーリングするために、さらにノードを追加する必要がありました。Azure Managed Disks は、ノードのコストの一部であるディスクをより安価でスケーラブルな形で提供するテクノロジです。HDInsight Kafka にはこうしたディスクが統合されており、従来の 1 TB に対して、1 ノードあたり最大 16 TB をご利用いただけます。その結果、スケールを大幅にアップしながら、それに反比例してコストを大幅にダウンすることに成功しています。この革新的なテクノロジにより、多くのエンタープライズのお客様が 1 か月に数千ドルも節約することに成功しています。

特別な設定をせずにアラート、監視、予測メンテナンスが可能

ストリーミング パイプラインを起動して実行することはただの始まりにすぎません。問題を起こさずに確実に実行させるには、インフラストラクチャの監視とアラートに多大な投資を行う必要があります。Kafka for HDInsight は、Azure の監視スイートと統合されているため、特別な設定をせずにこの問題を解決できます。このテクノロジを使用することで、VM レベルのディスクや NIC メトリックから、Kafka、Storm、Spark からの JMX メトリックまで、すべてを監視できます。強力なアラートおよび監視ダッシュボードを作成できるだけでなく、これらのメトリックに対してスクリプトや Runbook を指定して、ご利用のストリーミング パイプラインを自動的に予測メンテナンスすることができます。

MirrorMaker をサポートしてKafka データのレプリケーションを可能に

Kafka は多くの場合、ディザスター リカバリーや高可用性、オンプレミスからクラウド ハイブリッドのシナリオに対応するために、複数の環境にデプロイされます。その場合、Kafka から別の Kafka にデータをレプリケートする必要があります。HDInsight は、このニーズに応えるべくエンタープライズのお客様と緊密に連携して取り組むと同時に、データのレプリケーション シナリオをサポートしています。HDInsight Kafka では、簡単にミラーリングを設定して使用することができます。

数分以内にクラスターをスケーリング

メッセージのサイズおよび 1 秒あたりのメッセージ件数の見積もりや、ストリーミングのニーズは、パイプラインの使用に応じて変更します。従来はピーク時のトラフィックに備えてクラスターのサイズを決定していましたが、これでは使用しないキャパシティが生じてしまい、コストが非常に高くなっていました。ノードを追加する場合は、新しいマシンをプロビジョニング、インストールし、カスタマイズを再度適用して構成する必要がありました。HDInsight Kafka では、サイズの小さいクラスターで開始し、必要に応じてスケール アップできるので、コストを大幅に削減できます。新しいノードのプロビジョニングも HDInsight が行い、カスタマイズの適用も数分で完了します。

Kafka for HDInsight で構築できるもの

以下のユース ケースをご覧ください。

さまざまなイベント ソース (アプリケーション、デバイス、センサー、Web、ソーシャル) からのデータが、Web API またはフィールド ゲートウェイを通してクラウドに収集されます。Kafka for HDInsight によってデータ ストリームが取り込まれ、Azure Machine Learning、Spark for HDInsight、Storm for HDInsight、ストレージ アダプターなどのサービスによって処理および分析されます。データは Apache HBase on HDInsight、DocumentDB、MonoDB SQL、Solr Azure、Data Lake store、Azure Search などに移動して長期保存されます。その後、リアルタイム ダッシュボード、クエリ、分析を実行したり、デバイスにデータを送信して作業したりできます。

Kafka for HDInsight を使用しているお客様

Office 365
Toyota
Bing ads
Toyota Connected

"Toyota manufactures millions of cars running globally, and building a connected car platform to process real-time data at Toyota scale is a monumental challenge. To process events at Toyota's scale, technologies such as Kafka need to be leveraged. Since HDInsight is the only managed platform that provides Kafka as a managed service with a 99.9% SLA, Toyota was able to leverage the scalable technology of Kafka, Storm and Spark on Azure HDInsight. Using the HDInsight platform, we were able to deploy enterprise grade streaming pipelines to process events from millions of cars every second. This is just scratching the surface - the future of global connected cars on Azure HDInsight is bright, and we are excited for what's in store."

Vijay Chemuturi, Chief Product Owner, Toyota Connected

Kafka for HDInsight を初めてご利用ですか?

Azure で Kafka、Storm、Spark Streaming を使用して、エンタープライズに対応した強固なストリーミング パイプラインを作成する方法については、次のリンクをご覧ください。

Azure でリアルタイムのストリーミング パイプラインを監視する

Azure Monitoring と統合された HDInsight Kafka を使用して、強力なアラートおよび監視ダッシュボードと、ご利用のストリーミング パイプラインの自動スクリプトと Runbook 予測メンテナンスを作成する方法を説明します。

Kafka for HDInsight を試す