Azure Databricks Delta nu i förhandsversion

Inlägg på den 24 september 2018

Delta-funktionen är nu tillgänglig som förhandsversion utan ytterligare kostnad i Premium-SDK för Azure Databricks. Med Delta får kunderna bättre datatillförlitlighet, ökade prestanda för jobb och frågor samt möjligheten att förenkla datapipelines.

Den mängd datavolymer som analyseras, antalet olika datatyper och behovet av realtidsanalys har ökat enormt, vilket har medfört att datapipelines blivit mycket komplexa. De flesta kunder skapar pipelines med flera steg som kräver återhämtningsförmåga vid varje steg för att hantera problem såsom oregelbundenheter i scheman och motstridiga skrivåtgärder. Komplexiteten i den här lösningen orsakar problem med prestanda vid stor skala. Med Delta i Azure Databricks kan kunder avsevärt förbättra prestandan i sina pipelines.

Delta är ett transaktionslagringslager i Azure Databricks. Du kan interagera med det genom att läsa och skriva data till en Delta-tabell, som är en optimerad version av en Spark-tabell. Den lagrar data i parquet-format och lägger till metadata som ger ytterligare funktion jämfört med en Spark-tabell. Den ger bättre tillförlitlighet och högre prestanda för Spark-jobb och frågor i Azure Databricks. Delta förenklar dessutom datapipelines genom att tillåta att både batch- och strömningsjobb använder samma tabell och genom datakonsekvens. Det gör att kunderna enklare kan skapa högpresterande analyslösningar på stor skala.

Börja dra nytta av Delta på Azure Databricks med minimala kodändringar. Det fungerar med alla befintliga API:er i Spark som kunder använder för Spark-tabeller.

Om du vill komma igång med Delta i Azure Databricks kan du besöka notebooken med en snabbstart om Databricks Delta och läsa mer om Azure Databricks Delta och dess funktioner i dokumentationen om Delta