Přeskočit navigaci
VE VERZI PREVIEW

Urychlení úloh analýzy a umělé inteligence pomocí modulu Delta založeného na Photonu v Azure Databricks

Datum publikování: 22 září, 2020

Dnes oznamujeme verzi Preview modulu Delta založeného na Photonu v Azure Databricks, což je rychlá a snadná služba analýzy a umělé inteligence umožňující spolupráci. Vektorizovaný dotazovací modul Photon je vytvořený od začátku v jazyku C++ a je plně kompatibilní s rozhraními API Sparku. Využívá moderní architekturu procesoru spolu s Delta Lake, aby zvýšil výkon služby Apache Spark 3.0 až 20krát. Vzhledem k tomu, že organizace po celém světě přijímají rozhodnutí na základě dat, je pro ně investice do platformy, která dokáže rychle analyzovat obrovské objemy a typy dat, nevyhnutelná. To je ale výzva. Zatímco se 10krát zvýšil výkon úložiště a sítě, zvýšila se rychlost zpracování procesoru jenom okrajově. Vede to k následující otázce: Pokud se procesory staly kritickým bodem, jak můžeme dosáhnout vyšší úrovně výkonu?  Odpověď v podobě Photonu spočívá ve větším paralelismu zpracování procesoru na úrovni dat i na úrovni instrukcí. Modul Delta založený na Photonu je vektorizovaný dotazovací modul zcela kompatibilní s Apache Sparkem, který je navržený tak, aby využíval moderní architekturu procesoru pro extrémně rychlé paralelní zpracování dat. Tento modul, který je napsaný od základu v jazyku C++, aby využíval moderní hardware a těžil z paralelismu na úrovni dat a instrukcí procesoru, optimalizuje zpracování textu a regulární výrazy, aby umožňovaly rychlý výkon pro data a aplikace reálného světa. Je plně kompatibilní s rozhraními API Apache Sparku™, aby se zajistilo bezproblémové spouštění úloh bez změny kódu. Rychlost Azure Databricks byla v porovnání s Apache Sparkem už dřív obrovská a teď modul Delta založený na Photonu umožňuje ještě vyšší výkon moderních úloh analýzy a umělé inteligence v Azure. Spustili jsme 30TB srovnávací test TPC-DS, což je standardní srovnávací test v oboru, který měří rychlost zpracování, a zjistili jsme, že modul Delta založený na Photonu je 20krát rychlejší než Spark 2.4.

Další informace najdete na blogu.

  • Azure Databricks
  • Features
  • Services

Související produkty