Azure HDInsight için Apache Spark

Görev açısından kritik dağıtımlar için bulutta Apache Spark

Apache Spark nedir?

Apache Spark, büyük ölçekli veri analizi uygulamalarını çalıştıran bir açık kaynak işleme çerçevesidir. Spark, büyük veriler için yüksek performanslı sorgu olanağı sunan bir bellek içi işlem altyapısı üzerine kurulmuştur. Verilerin gerektiğinde bellek içinde ve diskte kalmasını sağlayan bir paralel veri işleme çerçevesinden yararlanır. Bu, hem 100 kat daha hızlı olmasına hem de ayıklama, dönüştürme, yükleme (ETL), toplu işlem, etkileşimli sorgular ve Apache Hadoop Dağıtılmış Dosya Sistemi’ndeki (HDFS) verilere ilişkin diğer görevler gibi görevler için ortak bir yürütme modeli sunmasına olanak tanır. Azure; donanım satın alma ve yazılım yapılandırma işlemleri gerektirmemesinin yanı sıra ilgi çekici açıklamalar yazmayı sağlayan eksiksiz not defteri deneyimi sunması ve ortak iş zekası araçlarıyla tümleşik olma özelliği sayesinde, Apache Spark dağıtımını kolayca ve uygun maliyetle yapmanıza olanak tanır.

Apache Spark’a genel bakış videosunu izleyin

Apache Spark temel altyapısı Spark SQL, Spark Streaming, MLlib (makine öğrenimi) ve GraphX (grafik hesaplama) gibi farklı işleme türlerini birleştirebilen bir işleme çerçevesi sağlar.

Birden çok görev için tek bir yürütme modeli

Apache Spark; ETL, Batch sorguları, etkileşimli sorgular, gerçek zamanlı akış, makine öğrenimi ve Azure Data Lake Store’da depolanan veriler üzerinde grafik işleme gibi çok sayıda görevi yerine getirmek için ortak bir yürütme modelinden yararlanır. Böylece, sahtekarlık algılama, tıklama akış analizi, finansal uyarılar, Nesnelerin İnterneti (IoT) sensörlerinden ve cihazlarından alınan telemetri, sosyal analiz, her zaman açık ETL işlem hatları ve ağ izleme gibi büyük veri sorunlarını Azure HDInsight için Spark ile neredeyse gerçek zamanlı olarak çözmenize olanak tanır.

Etkileşimli senaryolar için bellek içi işleme

Müşteriler artık, sorularının yanıtları için dakikalarca, saatlerce veya günlerce beklemek yerine hızlı yanıtlar almak istiyor. Apache Spark, Hadoop'ta büyük veri kümeleri işlemenin yanı sıra sorguları 100 kata kadar daha hızlı almak için verileri bellek içinde tutarak hizmet verir. Bu, Azure HDInsight için Spark'ın büyük veri kullanımı yoğun uygulamaları hızlandırma alanında en iyi seçenek olmasını sağlar.

Yerel geliştirici deneyimleri ve uzaktan hata ayıklama için IntelliJ IDEA’yı kullanma

Spark’ta geliştirmeyi kolaylaştırmak amacıyla, IntelliJ IDEA ile ayrıntılı bir tümleştirme sunarak Scala ve Java için yerel yazma desteğiyle kod yazma olanağı sağladık. Geliştirme yaşam döngünüzde size esneklik tanıyan ve hazır olduğunda uygulamayı Azure’a gönderebilmenizi sağlayan uzaktan hata ayıklama işlemleri yapabilirsiniz. Makine öğrenimine yönelik en popüler Python kitaplıkları da (Anaconda) HDInsight için Spark kümelerinde önceden yüklü olarak sunulur.

Büyük verileri etkileşimli olarak çözümlemek için BI araçlarından yararlanın

İş analistleri için Tableau, SAP BusinessObjects Lumira ve QlikView gibi iş zekası araçlarının yanı sıra Power BI ile de tümleştirme sunuyoruz. Böylece her boyuttaki veri için etkileşimli görselleştirmeler oluşturabilirsiniz. Geleneksel panolara ek olarak Power BI size, Spark ile tümleştirilen ve gerçek zamanlı olayları Spark Akışı’ndan doğrudan Power BI’a yayımlamanızı sağlayan bir akış bağlayıcısı sunar.

Kullanıma hazır not defteri deneyimi

Kendi not defterlerinizi yüklemenizi veya özel not defterlerinden yararlanmanızı gerektiren diğer Spark tekliflerinin aksine HDInsight için Spark, pazardaki en popüler açık kaynaklı not defteri olan Jupyter (iPython) ile kullanıma hazır şekilde tümleştirilmiş olarak sunulur. Böylece kodu, istatistiksel denklemleri ve verileri öykü biçiminde sunan görselleştirmeleri birleştirerek açıklamalar oluşturmanıza olanak sağlar. Sizin için tümleştirmeyi kolaylaştırmak amacıyla Jupyter topluluğuyla birlikte çalışarak, çekirdeği geliştirdik ve REST uç noktası aracılığıyla Spark yürütmesi gerçekleştirme olanağı sağladık. Böylece veri bilimciler için ilgi çekici bir deneyim sunmuş olduk.

R ile uyumlu, büyük bir paralel analiz ve makine öğrenimi kitaplığı olan R Server ile tümleştirildi

Açık kaynak R diliyle çalışacak şekilde oluşturulmuş büyük bir paralel analiz ve makine öğrenme kitaplığına sahip olan R Server’ı çalıştırmak için, Azure HDInsight için Spark’ı altyapı olarak kullanın. Bu, Spark üzerinde çalıştırılan R Server’ın kurumsal ölçeğiyle, tanıdık R dilinden yararlanmanıza olanak tanır. R Server’da sunulan çok iş parçacıklı matematik kitaplıkları ve şeffaf paralelleştirme ile Spark’ın bir araya gelmesi, açık kaynak R’ye kıyasla 1.000 kata kadar daha fazla veriyi 50 kata kadar daha hızlı işleyebileceğiniz anlamına gelir. Bu da eskisinden daha iyi tahminler elde etmek için daha doğru modeller eğitmenize yardımcı olur.

İş sürekliliği için en yüksek kullanılabilirlik

Microsoft, Spark’ı en büyük ölçekte çalıştırmak için sektördeki en yüksek kullanılabilirlik SLA’sını (%99,9) sunarak iş sürekliliği ve yıkıcı olaylara karşı koruma olanağı sağlar. Uzun süre çalışan Spark bağlamlarını yönetmek ve Spark işleri göndermek amacıyla Apache lisanslı bir açık kaynak REST web hizmeti oluşturmak için, Livy projesini Cloudera ile birlikte yürüttük. Bu yeni özellik, çalışan etkileşimli not defterleri için Spark’ı daha sağlam bir arka uç haline getirmek ve diğer uygulamaların kendi etkileşimli iş yüklerinde Spark’tan yararlanmasını sağlamak amacıyla tasarlandı.

Veri miktarı arttıkça değişiklik yapmak zorunda kalmadan her boyuttaki veriyi çözümleyin

Uygun ölçekte çalışmasını sağlamak için Spark’ı Azure Data Lake Store ile tümleştirdik. Bu tümleştirme yalnızca Microsoft tarafından sunulur ve Spark’ın her boyuta ölçeklenebilen verileri depolayabilmesini ve işleyebilmesini sağlar. Üstelik, veri miktarı arttıkça uygulamanızda değişiklik yapmanızı gerektirmez. Bu tümleştirme aracılığıyla, depolama düzeyinde rol tabanlı veri erişimi denetimlerini uygulayabilirsiniz.

Gerçek zamanlı senaryolar için gerçek zamanlı işleme

Günümüzün bağlantı dünyası, gerçek zamanlı olarak gelen büyük verilerle tanımlanmaktadır. HDInsight için Spark Akışı, gerçek zamanlı senaryolarla başa çıkmak için en uygun yöntemdir. Nesnelerin İnterneti (IoT) senaryoları, gerçek zamanlı uzaktan yönetim ve izleme, cep telefonu veya İnternet bağlantılı otomobiller gibi cihazlardan bilgi edinme gibi çok sayıda olanaktan yararlanmanızı sağlar.

Kolay kurulum, hızlı sonuçlar

HDInsight için Spark’ta, zaman alan yükleme veya kurulum işlemlerine gerek yoktur. Bunu Azure sizin için halleder. Kullanmaya dakikalar içinde başlayabilir ve Spark'ı, yeni donanım satın almadan veya diğer ön maliyetler için ödeme yapmadan dağıtabilirsiniz.

Büyük veriler için esnek kapasite

Azure’un gücünden yararlanan HDInsight için Spark, farklı boyutlarda kümeler oluşturmanızı ve bu sayede her miktarda veriyi isteğe bağlı olarak işlemenizi kolaylaştırır. Yalnızca kullandığınız işlem ve depolama alanı için ücret ödersiniz.

HDInsight'ı ücretsiz olarak deneyin