Questions? Feedback? powered by Olark live chat software
Gezintiyi Atla

Azure HDInsight için Apache Spark

Görev açısından kritik dağıtımlar için bulutta Apache Spark

Apache Spark nedir?

Apache Spark, büyük ölçekli veri analizi uygulamalarını çalıştıran bir açık kaynak işleme çerçevesidir. Bellek içi bir işlem altyapısı üzerine kurulan Spark, büyük veriler için yüksek performanslı sorgu özelliği sunar. Spark, verilerin bellek içinde ve gerektiğinde diskte kalmasını sağlayan bir paralel veri işleme çerçevesinden yararlanır. Bu, hem 100 kat daha hızlı olmasına hem de ayıklama, dönüştürme, yükleme (ETL), toplu işlem, etkileşimli sorgular ve Hadoop Dağıtılmış Dosya Sistemi’ndeki (HDFS) verilere ilişkin diğer görevler gibi çeşitli görevler için ortak bir yürütme modeli sunmasına olanak tanır. Azure; donanım satın alma ve yazılım yapılandırma işlemleri gerektirmemesinin yanı sıra ilgi çekici açıklamalar yazmayı sağlayan eksiksiz not defteri deneyimi sunması ve ortak iş zekası araçlarıyla tümleşik olma özelliği sayesinde, Apache Spark dağıtımını kolayca ve uygun maliyetle yapmanıza olanak tanır.

Genel bakış videosu izleyin

Birden Çok Görev için Tek Bir Yürütme Modeli

Apache Spark; ETL, toplu işlem sorguları, etkileşimli sorgular, gerçek zamanlı akış, makine öğrenimi ve Azure Data Lake Deposu'nda depolanan veriler üzerinde grafik işleme gibi çok sayıda görevi yerine getirmek için ortak bir yürütme modelinden yararlanır. Böylece; sahtekarlık algılama, tıklama akış analizi, finansal uyarılar, bağlı sensörlerden ve cihazlardan (Nesnelerin İnterneti, IoT) alınan telemetri, sosyal analiz, her zaman açık ETL işlem hatları ve ağ izleme gibi büyük veri sorunlarını Azure HDInsight için Spark ile neredeyse gerçek zamanlı olarak çözmenize olanak tanır.

Etkileşimli senaryolar için bellek içi işleme

Günümüz kullanıcıları, sorularının yanıtları için dakikalarca, saatlerce veya günlerce beklemek yerine hızlı yanıtlar almak istiyor. Apache Spark, Hadoop'ta büyük veri kümeleri işlemenin yanı sıra sorguları 100 kata kadar daha hızlı gerçekleştirebilmek için verileri bellek içinde tutarak hizmet verir. Bu, Azure HDInsight için Spark'ın büyük veri kullanımı yoğun uygulamaları hızlandırma alanında en iyi seçenek olmasını sağlar.

IntelliJ IDEA aracılığıyla yerel geliştirici deneyimleri ve uzaktan hata ayıklama

Spark’ta geliştirmeyi kolaylaştırmak amacıyla, IntelliJ IDEA ile ayrıntılı bir tümleştirme sunarak geliştiricilerin Scala ve Java için yerel yazma desteğiyle kod yazmasına olanak sağladık. Geliştirme yaşam döngünüzde size esneklik tanıyan ve hazır olduğunda uygulamayı Azure’a gönderebilmenizi sağlayan uzaktan hata ayıklama işlemleri yapabilirsiniz. Makine öğrenimine yönelik en popüler Python kitaplıkları (Anaconda) da HDInsight için Spark kümelerinde önceden yüklü olarak sunulur.

Büyük verileri etkileşimli olarak çözümlemek için BI araçlarını kullanın

İş analistleri için Tableau, SAP Lumira ve QlikView gibi iş zekası araçlarının yanı sıra Power BI ile de tümleştirme sunuyoruz. Böylece her boyuttaki veri için etkileşimli görselleştirmeler oluşturabilirsiniz. Geleneksel panolara ek olarak Power BI, Spark ile tümleştirilmiş olan ve gerçek zamanlı olayları Spark Akışı’ndan doğrudan Power BI’a yayımlamanızı sağlayan bir akış bağlayıcısı sunar.

Kullanıma hazır not defteri deneyimi

Kendi not defterlerinizi yüklemenizi veya özel not defterlerini kullanmanızı gerektiren diğer Spark tekliflerinin aksine HDInsight için Spark, pazardaki en popüler açık kaynaklı not defteri olan Jupyter (iPython) ile kullanıma hazır bir tümleştirme ile sunulur. Böylece kodu, istatistiksel denklemleri ve verileri öykü biçiminde sunan görselleştirmeleri birleştirerek açıklamalar oluşturmanıza olanak sağlar. Müşterilerimiz için tümleştirmeyi basitleştirmek amacıyla Jupyter topluluğuyla birlikte çalışarak, REST uç noktası aracılığıyla Spark yürütmesi gerçekleştirmeye olanak tanıyan çekirdeği geliştirdik. Böylece veri bilimciler için ilgi çekici bir deneyim sunduk.

R uyumlu en büyük paralel analiz ve ML kitaplığı olan R Server ile tümleştirildi

Azure HDInsight için Spark’tan, açık kaynak R diliyle çalışacak şekilde oluşturulmuş en büyük paralel analiz ve makine öğrenme kitaplığına sahip olan R Server’ı çalıştırmak için bir altyapı olarak yararlanılabilir. Bu sayede, Spark üzerinde çalıştırılan R Server’ın kurumsal ölçeğiyle tanıdık R dilinden yararlanmanıza olanak sağlanır. Spark ile birleştirilmiş R Server’daki çok iş parçacıklı matematik kitaplıkları ve şeffaf paralelleştirme, açık kaynak R ile karşılaştırıldığında 1.000 kata kadar daha fazla veriyi 50 kata kadar daha hızlı işleyebileceğiniz anlamına gelir. Bu da her zamankinden daha iyi tahminler elde etmek için daha doğru modeller eğitmenize yardımcı olur.

İş sürekliliği için en yüksek kullanılabilirlik garantisi

Microsoft, Spark’ı en büyük ölçekte çalıştırmak için sektördeki en yüksek kullanılabilirlik SLA’sını (%99,9) garanti ederek iş sürekliliğinizi ve yıkıcı olaylara karşı korumanızı sağlama alır. Bunu başarmak için, uzun süre çalışan Spark bağlamlarını yönetmek üzere Apache lisanslı açık kaynak REST web hizmeti oluşturmak ve Spark işleri göndermek amacıyla tasarlanan Livy projesini Cloudera ile birlikte yönettik. Bu yeni özellik, Spark’ı çalışan etkileşimli not defterleri için daha sağlam bir arka uç haline getirmek ve diğer uygulamaların Spark’ı kendi etkileşimli iş yükleri için kullanmasını sağlamak üzere tasarlandı.

Veri miktarı arttıkça değişiklik yapmak zorunda kalmadan her boyuttaki veriyi çözümleyin

Uygun ölçekte çalışmasını sağlamak için Spark’ı Azure Data Lake Deposu ile tümleştirdik. Yalnızca Microsoft tarafından sunulan bu tümleştirme sayesinde Spark, her boyuta ölçeklenebilen verileri depolayabilir ve işleyebilir. Üstelik, veri miktarı arttıkça uygulamanızda değişiklik yapmanızı gerektirmez. Bu tümleştirme aracılığıyla, depolama düzeyinde rol tabanlı veri erişimi denetimlerini de uygulayabilirsiniz.

Gerçek zamanlı senaryolar için gerçek zamanlı işleme

Günümüzün bağlantı dünyası, gerçek zamanlı olarak gelen büyük verilerle tanımlanmaktadır. HDInsight için Spark Akışı, gerçek zamanlı senaryolarla başa çıkmak için en uygun yöntemdir. Gerçek zamanlı uzaktan yönetim ve izleme ya da cihazlardan (cep telefonu ya da İnternet bağlantılı arabalar gibi) bilgi edinme gibi IoT senaryoları da dahil olmak üzere çok sayıda olanaktan yararlanmanızı sağlar.

Kolay kurulum, hızlı sonuçlar

HDInsight için Spark, yükleme ve kurulum için harcanan zamanı ortadan kaldırır. Bunu Azure sizin için halleder. Kullanmaya dakikalar içinde başlayabilir ve Spark'ı yeni donanım satın almadan veya diğer ön maliyetlerle karşılaşmadan dağıtabilirsiniz.

Büyük veriler için esnek kapasite

Azure bulutunun gücünden yararlanan HDInsight için Spark, istenilen her miktardaki veriyi işleyebilecek şekilde her boyutta küme oluşturmayı kolaylaştırır. Yalnızca işlemler ve gerçekten kullandığınız depolama alanı için ücret alırız.

HDInsight'ı ücretsiz olarak deneyin