Apache Kafka für HDInsight

Verwalteter hoher Durchsatz und Dienste mit geringer Latenz für Echtzeitdaten

Kafka für HDInsight ist ein Open Source-Streamingerfassungsdienst für Unternehmen, der kostengünstig ist und sich auf einfache Weise einrichten, verwalten und verwenden lässt. Erstellen Sie Echtzeitlösungen wie IoT, Betrugserkennung, Clickstreamanalyse, Warnungen zu Finanztransaktionen sowie Lösungen zur Analyse sozialer Medien.

Verwaltetes Kafka mit einer SLA von 99,9 %

Der Erwerb der Hardware, die Installation und die Optimierung erfordern viel Zeit und Mühe. Noch schwieriger und mit höheren Gesamtbetriebskosten verbunden ist die Herausforderung, diese Computer durchgängig im Betrieb zu halten, sodass keine Daten verloren gehen. Kafka für Azure HDInsight übernimmt all diese Aufgaben für Sie. Kafka-Cluster lassen sich mit nur vier Klicks und innerhalb weniger Minuten erstellen und einrichten – mit einer SLA von 99,9 % für die Betriebszeit von Kafka. Statt sich um die Installation neuer Kafka-Broker oder die Behebung fehlerhafter Broker kümmern zu müssen, können Sie sich so auf das Schreiben von Echtzeitanwendungen, deren Logik und das Erstellen übergeordneter Pipelines konzentrieren.

Rackinformationen für Azure-Umgebungen

Kafka basiert auf einem Konzept mit einem eindimensionalen Rack, das in bestimmten Umgebungen gut funktioniert. Doch in Umgebungen wie Azure ist ein Rack in zwei Dimensionen unterteilt – in Updatedomänen (UDs) und Fehlerdomänen (FDs). HDInsight Kafka hat skalierbare und zuverlässige Tools entwickelt, die sicherstellen, dass Kafka über Rackinformationen in den Azure-Umgebungen verfügt. Diese Tools gleichen die Partitionen und Replikate über die Update- und Fehlerdomänen hinweg aus, um ein Höchstmaß an Verfügbarkeit von Kafka über die Azure-Verfügbarkeitszonen hinweg zu erzielen.

Integration in Azure Managed Disks

Aufgrund der verarbeitungsintensiven Erfassung tritt bei den Datenträgern, die an die Knoten im Cluster angefügt sind, häufig ein Engpass auf. Um diesen Engpass aufzulösen, müssen in der Regel weitere Knoten hinzugefügt werden. Bei Azure Managed Disks handelt es sich um eine Technologie, die kostengünstigere, skalierbare Datenträger zu einem Bruchteil der Kosten für einen Knoten bietet. HDInsight Kafka wurde in diese Datenträger integriert, sodass statt den üblichen 1 TB pro Knoten bis zu 16 TB pro Knoten bereitgestellt werden können. Dies ermöglicht eine exponentiell höhere Skalierung und senkt gleichzeitig wiederum exponentiell die Kosten. Dank dieser Innovation konnten unsere Unternehmenskunden bereits Tausende von Dollar pro Monat sparen.

Sofort einsatzfähige Warnung, Überwachung und Predictive Maintenance

Die Inbetriebnahme einer Streamingpipeline ist nur der Anfang – doch um sicherzustellen, dass diese zuverlässig und einwandfrei ausgeführt wird, sind immense Investitionen in Überwachungs- und Warninfrastrukturen vonnöten. Kafka für HDInsight beseitigt dieses Problem, da es in die sofort einsatzfähige Azure-Überwachungssuite integriert ist. Mithilfe dieser Technologie können Sie jeden Aspekt überwachen – von Datenträgern auf VM-Ebene über Metriken zu Netzwerkschnittstellenkarten bis hin zu JMX-Metriken von Kafka, Storm und Spark. Anhand dieser Metriken können Sie nicht nur leistungsstarke Warn- und Überwachungsdashboards erstellen, sondern auch Skripts und Runbooks für automatisch ausgeführte Wartungen sowie Predictive Maintenance Ihrer Streamingpipeline festlegen.

Unterstützung für MirrorMaker zur Replikation von Kafka-Daten

Kafka wird oft in verschiedenen Umgebungen für Notfallwiederherstellungs-, Hochverfügbarkeits- und Hybridszenarien mit lokalen und Cloudressourcen bereitgestellt. Hierfür müssen Daten von einer Kafka-Instanz auf eine andere repliziert werden. Dank der engen Zusammenarbeit mit Unternehmenskunden wurde HDInsight um die Unterstützung für Datenreplikationsszenarien erweitert. Die Spiegelung in HDInsight Kafka kann mühelos eingerichtet und verwendet werden.

Skalierung des Clusters in wenigen Minuten

Schätzungen zu Nachrichtengrößen, der Anzahl von Nachrichten pro Sekunde und Streaming müssen bei der Verwendung der Pipeline geändert werden. In der Regel ist der Cluster für Datenverkehr zu Spitzenzeiten dimensioniert, wodurch sehr hohe Kosten aufgrund ungenutzter Kapazitäten entstehen. Sind weitere Knoten hinzuzufügen, müssen die neuen Computer mit erneut angewendeten Anpassungen bereitgestellt, installiert und konfiguriert werden. Beginnen Sie bei HDInsight Kafka mit kleinen Clustern, und skalieren Sie sie bei Bedarf zentral hoch, um die Kosten exponentiell zu senken. HDInsight übernimmt die Bereitstellung der neuen Knoten, und die Anpassungen werden innerhalb weniger Minuten angewendet.

Was können Sie mit Kafka in HDInsight erstellen?

Im Folgenden erfahren Sie mehr über Anwendungsfälle:

Daten gehen aus unterschiedlichen Ereignisquellen ein (Anwendungen, Geräte, Sensoren, Web, soziale Medien) und werden über Web-APIs oder Bereichsgateways in der Cloud gesammelt. Der Datenstrom wird von Kafka für HDInsight für die Verarbeitung und Analyse für Dienste wie Azure Machine Learning, Spark für HDInsight, Storm für HDInsight und Speicheradapter erfasst. Die Daten werden in den Langzeitspeicher mit Diensten wie Apache HBase in HDInsight, DocumentDB, MonoDB SQL, Solr Azure, Data Lake Store und Azure Search verschoben. Sie können Ihre Echtzeitdashboards, Abfragen und Analysen ausführen oder Daten an Geräte für die Ausführung senden.

Kunden, die Kafka für HDInsight verwenden

Office 365
Toyota
Bing ads
Toyota Connected

"Toyota manufactures millions of cars running globally, and building a connected car platform to process real-time data at Toyota scale is a monumental challenge. To process events at Toyota's scale, technologies such as Kafka need to be leveraged. Since HDInsight is the only managed platform that provides Kafka as a managed service with a 99.9% SLA, Toyota was able to leverage the scalable technology of Kafka, Storm and Spark on Azure HDInsight. Using the HDInsight platform, we were able to deploy enterprise grade streaming pipelines to process events from millions of cars every second. This is just scratching the surface - the future of global connected cars on Azure HDInsight is bright, and we are excited for what's in store."

Vijay Chemuturi, Chief Product Owner, Toyota Connected

Sie sind noch nicht mit Kafka für HDInsight vertraut?

Verwenden Sie die nachfolgenden Links, um mithilfe von Kafka, Storm und Spark Streaming zuverlässige, unternehmensfähige Streamingpipelines in Azure zu erstellen.

Streamingpipelines in Echtzeit mit Azure überwachen

Erfahren Sie, wie Sie die HDInsight Kafka-Integration im Azure-Überwachungsmodul verwenden, um leistungsstarke Warn- und Überwachungsdashboards sowie für Predictive Maintenance für automatisierte Skripts und Runbooks Ihrer Streamingpipeline sorgen.

Kafka für HDInsight testen