Azure HDInsight nedir?

Azure HDInsight bulutta sağlanan, kuruluşlara yönelik, yönetilen, tam spektrumlu ve açık kaynaklı bir analiz hizmetidir. HDInsight ile Azure ortamınızda Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop ve daha fazlası gibi açık kaynak çerçeveleri kullanabilirsiniz.

HDInsight ve Hadoop teknoloji yığını nedir?

Azure HDInsight, Azure ortamınızda Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop ve diğerleri gibi büyük veri çerçevelerini çalıştırmayı kolaylaştıran yönetilen bir küme platformudur. Yüksek hız ve verimlilikle büyük hacimli verileri işlemek için tasarlanmıştır.

Azure HDInsight'ı neden kullanmalıyım?

Yetenek Açıklama
Yerel bulut Azure HDInsight, Azure'da Spark, Etkileşimli sorgu (LLAP), Kafka, HBase ve Hadoop için iyileştirilmiş kümeler oluşturmanıza olanak tanır. HDInsight ayrıca tüm üretim iş yüklerinizde uçtan uca SLA sağlar.
Düşük maliyetli ve ölçeklendirilebilir HDInsight, iş yüklerinin ölçeğini artırmanıza veya azaltmanıza olanak tanır. İsteğe bağlı kümeler oluşturup yalnızca kullandığınız kadar ödeyerek maliyetleri düşürebilirsiniz. İşlerinizi kullanıma hazır hale getirmek için veri işlem hatları da oluşturabilirsiniz. Ayrılmış hesaplama ve depolama, daha iyi performans ve esneklik sağlar.
Güvenli ve uyumlu HDInsight, Azure Sanal Ağ, şifreleme ve Microsoft Entra Id ile tümleştirme ile kurumsal veri varlıklarınızı korumanızı sağlar. HDInsight ayrıca en popüler sektör ve kamu uyumluluk standartlarını karşılar.
İzleme Azure HDInsight, tüm kümelerinizi izleyebildiğiniz tek bir arabirim sağlamak için Azure İzleyici günlükleriyle tümleşir.
Genel kullanılabilirlik HDInsight, diğer büyük veri analizi tekliflerinden daha fazla bölgede kullanılabilir. Azure HDInsight ayrıca temel bağımsız bölgelerde kurumsal ihtiyaçlarınızı karşılamanıza olanak sağlayan Azure Kamu, Çin ve Almanya’da da kullanılabilir.
Üretkenlik Azure HDInsight, tercih ettiğiniz geliştirme ortamlarıyla Hadoop ve Spark için zengin üretkenlik araçları kullanmanıza imkan tanır. Bu geliştirme ortamları; Scala, Python, Java ve .NET desteği için Visual Studio, VS Code, Eclipse ve IntelliJ'yi içerir.
Genişletilebilirlik Betik eylemlerini kullanarak, kenar düğümleri ekleyerek veya diğer büyük veri sertifikalı uygulamalarla tümleştirerek HDInsight kümelerini yüklü bileşenlerle (Hue, Presto vb.) genişletebilirsiniz. HDInsight tek tıklamayla dağıtım ile en popüler büyük veri çözümleriyle sorunsuz tümleştirme sağlar.

What is big data? (Büyük veri nedir?)

Hacmi gittikçe artan büyük veriler hiç olmadığı kadar yüksek hızlarda ve yüksek çeşitlilikteki biçimlerde toplanmaktadır. Bu veriler geçmiş (depolanmış) veya gerçek zamanlı (kaynaktan aktarılan) olabilir. Büyük veriler için en yaygın kullanım örnekleri hakkında bilgi edinmek için bkz. HDInsight kullanma senaryoları.

HDInsight’taki küme türleri

HDInsight belirli küme türlerinin yanı sıra bileşen, yardımcı program ve dil ekleme olanağı gibi küme özelleştirme özelliklerini de içerir. HDInsight şu küme türlerini sunar:

Küme Türü Açıklama Başlayın
Apache Hadoop Toplu verileri paralel olarak işlemek ve analiz etmek için HDFS, YARN kaynak yönetimi ve basit bir MapReduce programlama modeli kullanan bir çerçeve. Apache Hadoop kümesi oluşturma
Apache Spark Büyük veri analizi uygulamalarının performansını artırmak için bellek içi işlemeyi destekleyen açık kaynaklı, paralel işleme çerçevesi. Bkz. HDInsight’ta Apache Spark nedir? Apache Spark kümesi oluşturma
Apache HBase Büyük miktarlarda yapılandırılmamış ve yarı yapılandırılmış veriler için rastgele erişim ve güçlü tutarlılık sağlayan Hadoop üzerinde oluşturulmuş bir NoSQL veritabanı( potansiyel olarak milyarlarca satır milyonlarca sütun. Bkz. HDInsight'ta HBase nedir? Apache HBase kümesi oluşturma
Apache Etkileşimli Sorgu Etkileşimli ve daha hızlı Hive sorguları için bellek içi önbelleğe alma. Bkz. HDInsight'ta Interactive Query kullanımı. Etkileşimli Sorgu kümesi oluşturma
Apache Kafka Akış veri işlem hatları ve uygulamaları oluşturmak için açık kaynak platform kullanılır. Kafka ayrıca veri akışları yayımlamanızı ve abone olmanızı sağlayan ileti-kuyruk işlevi de sunar. Bkz. HDInsight'ta Apache Kafka'ya giriş. Apache Kafka kümesi oluşturma

HDInsight kullanma senaryoları

Azure HDInsight, büyük veri işlemedeki çeşitli senaryolar için kullanılabilir. Geçmiş veriler (zaten toplanmış ve depolanmış veriler) veya gerçek zamanlı veriler (doğrudan kaynaktan akışı yapılan veriler) olabilir. Bu tür verileri işlemeye yönelik senaryolar aşağıdaki kategorilerde özetlenebilir:

Toplu işleme (ETL)

Ayıklama, dönüştürme ve yükleme (ETL), heterojen veri kaynaklarından yapılandırılmış veya yapılandırılmamış verilerin ayıklandığı bir süreçtir. Bunlar daha sonra yapılandırılmış bir biçime dönüştürülür ve bir veri deposuna yüklenir. Dönüştürülen verileri veri bilimi veya veri ambarlama için kullanabilirsiniz.

Veri depolama

Herhangi bir biçimdeki yapılandırılmış veya yapılandırılmamış veriler üzerinde petabayt ölçeğinde etkileşimli sorgular gerçekleştirmek için HDInsight kullanabilirsiniz. Ayrıca bunları BI araçlarına bağlayan modeller de oluşturabilirsiniz.

HDInsight architecture: Data warehousing.

Nesnelerin İnterneti (IoT)

HDInsight'ı kullanarak farklı cihaz türlerinden gerçek zamanlı olarak alınan akış verilerini işleyebilirsiniz. Daha fazla bilgi edinmek için Azure tarafından hazırlanan ve Azure Yönetilen disklerle HDInsight’ta Apache Kafka önizlemesinin genel önizlemeye sunulduğunu duyuran bu blog gönderisini okuyun.

Screenshot of the HDInsight architecture: Internet of Things.

Hibrit

HdInsight'ı kullanarak mevcut şirket içi büyük veri altyapınızı Azure'a genişleterek bulutun gelişmiş analiz özelliklerini uygulayabilirsiniz.

HDInsight architecture: Hybrid.

HDInsight’ta açık kaynak bileşenler

Azure HDInsight, Spark, Hive, LLAP, Kafka, Hadoop ve HBase gibi açık kaynak çerçevelerle kümeler oluşturmanıza olanak tanır. Varsayılan olarak, bu kümeler Apache Ambari, Avro, Apache Hive 3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie ve Apache ZooKeeper gibi çeşitli açık kaynak bileşenleri içerir.

HDInsight’taki programlama dilleri

Spark, HBase, Kafka ve Hadoop gibi HDInsight kümeleri birçok programlama dilini destekler. Bazı programlama dilleri varsayılan olarak yüklü değildir. Varsayılan olarak yüklenmemiş kitaplıklar, modüller veya paketler için, bileşeni yüklemek için bir betik eylemi kullanın.

Programlama dili Bilgiler
Varsayılan programlama dili desteği Varsayılan olarak, HDInsight kümeleri aşağıdakileri destekler:
  • Java
  • Python
  • .NET
  • Git
Java sanal makine (JVM) dilleri Java sanal makinelerinde (JVM) Java dışındaki birçok dil çalışabilir. Ancak, bu dillerden bazılarını çalıştırırsanız kümeye daha fazla bileşen yüklemeniz gerekebilir. HDInsight kümelerinde aşağıdaki JVM tabanlı diller desteklenir:
  • Clojure
  • Jython (Java için Python)
  • Scala
Hadoop’a özgü diller HDInsight kümeleri, Hadoop teknoloji yığınına özgü aşağıdaki dilleri destekler:
  • Pig işleri için Pig Latin
  • Hive işleri için HiveQL ve SparkSQL

HDInsight için geliştirme araçları

Azure sayesinde sorunsuz tümleştirmeyle HDInsight veri sorgusu ve işi yazıp göndermek için IntelliJ, Eclipse, Visual Studio Code ve Visual Studio gibi HDInsight geliştirme araçlarını kullanabilirsiniz.

  • IntelliJ 10 için Azure araç seti
  • Eclipse 6 için Azure araç seti
  • VS Code 13 için Azure HDInsight araçları
  • Visual Studio 9 için Azure Data Lake araçları

HDInsight’ta İş Zekası

Bilinen iş zekası (BI) araçları, Power Query eklentisini veya Microsoft Hive ODBC sürücüsünü kullanarak HDInsight ile tümleştirilmiş verileri alır, çözümler ve raporlar:

Bölge içi veri yerleşimi

Spark, Hadoop ve LLAP müşteri verilerini depolamaz, bu nedenle bu hizmetler Güven Merkezi'nde belirtilen bölge içi veri yerleşimi gereksinimlerini otomatik olarak karşılar.

Kafka ve HBase müşteri verilerini depolar. Bu veriler Kafka ve HBase tarafından otomatik olarak tek bir bölgede depolandığından, bu hizmet Güven Merkezi'nde belirtilen bölge içi veri yerleşimi gereksinimlerini karşılar.

Tanıdık iş zekası (BI) araçları, Power Query eklentisini veya Microsoft Hive ODBC Sürücüsü kullanarak HDInsight ile tümleştirilmiş verileri alır, analiz eder ve raporlar.

Sonraki adımlar