Apache Kafka för HDInsight

Hanterad tjänst för realtidsdata med högt dataflöde och korta svarstider

Kafka för HDInsight är en strömmande dataintegreringstjänst med öppen källkod i företagsklass som är både kostnadseffektiv och enkel att konfigurera, hantera och använda. Skapa realtidslösningar som exempelvis IoT (Sakernas Internet), bedrägerikontroll, klickströmsanalys, finansaviseringar och sociala analyser.

Hanterad Kafka med ett SLA med 99,9% garanterad drifttid

Inköp av maskinvara, installation och finjusteringar kräver en hel del tid och arbete. Ännu svårare är det att säkerställa att datorerna alltid är igång så att inga data går förlorade, något som dessutom medför en enorm ägandekostnad. Kafka för Azure HDInsight hanterar allt detta åt dig. Med bara fyra klick är Kafka-klustren igång inom några minuter, med ett SLA med 99,9 % garanterad drifttid. Det betyder att du kan koncentrera dig på att skriva realtidsprogram, deras logik och utveckla pipelines på högre nivå i stället för att lägga tid på att installera nya Kafka-servrar eller åtgärda skadade servrar.

Rackmedvetenhet för Azure-miljöer

Kafka utformades med en endimensionell vy av ett rack, vilket fungerar bra i vissa miljöer. Men i miljöer som Azure är ett rack uppdelat i två dimensioner – uppdateringsdomäner (UD) och feldomäner (FD). HDInsight Kafka har skalbara och robusta verktyg som säkerställer att Kafka tar hänsyn till racken i Azure-miljöerna. Dessa verktyg balanserar partitionerna och replikerna mellan uppdateringsdomänerna och feldomänerna så att högsta möjliga tillgänglighet uppnås med Kafka i Azures tillgänglighetszoner.

Integration med Azure Managed Disks

Den omfattande datapåfyllningen gör ofta att diskarna som är anslutna till noderna i klustret blir flaskhalsar. Traditionellt har lösningen varit att lägga till fler noder. Azure Managed Disks är en teknik som ger billigare, skalbara diskar till en bråkdel av kostnaden för en nod. HDInsight Kafka har integrerats med dessa diskar och tillhandahåller upp till 16 TB/nod i stället för vanliga 1 TB. Detta leder till exponentiellt högre skalning, samtidigt som kostnaderna sjunker exponentiellt på motsvarande sätt. Våra företagskunder har kunnat spara många tusen dollar i månaden tack vare den här innovationen.

Integrerad avisering, övervakning och förutsägande underhåll

Att få upp en pipeline för dataströmning är bara början – att säkerställa att den är stabil och körs utan problem kräver enorma investeringar i övervaknings- och aviseringsinfrastrukturer. Med Kafka för HDInsight slipper du det här problemet eftersom tjänsten är integrerad med Azures övervakningssvit. Tack vare den här tekniken kan du övervaka allt från VM-diskar och NIC-mätvärden till JMX-mätvärden från Kafka, Storm och Spark. Förutom att skapa kraftfulla instrumentpaneler för avisering och övervakning kan du skapa skript och runbooks mot dessa mätvärden för automatiserat och förutsägande underhåll av din pipeline för dataströmning.

MirrorMaker-stöd för replikering av Kafka-data

Kafka distribueras ofta i olika miljöer för haveriberedskap, hög tillgänglighet och hybridscenarier som omfattar både den lokala infrastrukturen och molnet. Dessa scenarier kräver replikering av data från en Kafka-server till en annan. Tillsammans med våra företagskunder har vi analyserat detta behov och implementerat stöd för datareplikeringsscenarier i HDInsight. Det är enkelt att konfigurera och använda spegling i HDInsight.

Klusterskalning på några minuter

Beräkningar av meddelandestorlek, meddelanden per sekund och dataströmningsbehov ändras när pipelinen används. Traditionellt beräknas klustrets storlek baserat på tidpunkter med hög trafikbelastning, vilket innebär mycket höga kostnader för outnyttjad kapacitet. När fler noder ska läggas till måste de nya datorerna etableras, installeras och konfigureras, och anpassningar måste tillämpas på nytt. I HDInsight Kafka börjar du med små kluster och skalar upp dem efter behov, vilket resulterar i betydligt lägre kostnader. HDInsight sköter etableringen av de nya noderna, och anpassningarna tillämpas på några få minuter.

Vad kan du skapa med Kafka för HDInsight?

Lär dig mer om användarsituationer nedan:

Data strömmar in från olika händelsekällor (program, enheter, sensorer, webben, sociala medier osv.) och samlas i molnet via webb-API:er eller fält-gateways. Dataströmmen matas in av Kafka till HDInsight för bearbetning och analys med tjänster som Azure Machine Learning, Spark för HDInsight, Storm för HDInsight och lagringsadaptrar. Datan flyttas till långtidslagring med hjälp av tjänster som Apache HBase på HDInsight, DocumentDB, MonoDB SQL, Solr Azure, Data Lake Store och Azure Search. Därefter kan du köra dina instrumentpaneler i realtid, frågor och analys eller skicka data till enheter för att vidta åtgärder.

Kunder som använder Kafka för HDInsight

Office 365
Toyota
Bing ads
Toyota Connected

"Toyota manufactures millions of cars running globally, and building a connected car platform to process real-time data at Toyota scale is a monumental challenge. To process events at Toyota's scale, technologies such as Kafka need to be leveraged. Since HDInsight is the only managed platform that provides Kafka as a managed service with a 99.9% SLA, Toyota was able to leverage the scalable technology of Kafka, Storm and Spark on Azure HDInsight. Using the HDInsight platform, we were able to deploy enterprise grade streaming pipelines to process events from millions of cars every second. This is just scratching the surface - the future of global connected cars on Azure HDInsight is bright, and we are excited for what's in store."

Vijay Chemuturi, Chief Product Owner, Toyota Connected

Har du inte använt Kafka för HDInsight tidigare?

Klicka på länkarna nedan för att skapa robusta pipelines för dataströmning i företagsklass med Kafka, Storm och Spark Streaming i Azure.

Övervaka pipelines för dataströmning i realtid med Azure

Lär dig hur du använder Kafka i HDInsight med Azure Monitoring för att skapa kraftfulla instrumentpaneler för avisering och övervakning och automatiserade skript och runbooks för förutsägande underhåll av din pipeline för dataströmning.

Prova Kafka för HDInsight