Azure HDInsight'ta Apache Hadoop nedir?

Makale
03/15/2024

Kümelerde büyük veri kümelerinin dağıtılmış işlenmesi ve analizine yönelik ilk açık kaynak çerçeve Apache Hadoop’tu. Hadoop ekosistemi Apache Hive, Apache HBase, Spark, Kafka ve diğerleri dahil olmak üzere ilgili yazılım ve yardımcı programları içerir.

Azure HDInsight, kuruluşlar için bulutta tam olarak yönetilen, tam spektrumlu bir açık kaynak analiz hizmetidir. Azure HDInsight'taki Apache Hadoop küme türü, toplu verileri paralel olarak işlemek ve çözümlemek için Apache Hadoop Dağıtılmış Dosya Sistemi 'ni (HDFS), Apache Hadoop YARN kaynak yönetimini ve basit bir MapReduce programlama modelini kullanmanıza olanak tanır. HDInsight'taki Hadoop kümeleri Azure Blob depolama, Azure Data Lake Storage 1. Nesil veya Azure Data Lake Storage 2. Nesil ile uyumludur.

HDInsight üzerindeki kullanılabilir Hadoop teknolojisi yığını bileşenlerini görmek için, bkz. HDInsight ile sağlanan bileşenler ve sürümler. HDInsight'ta Hadoop hakkında daha fazla bilgi edinmek için bkz. HDInsight için Azure özellikleri sayfası.

MapReduce nedir?

Apache Hadoop MapReduce , çok büyük miktarlarda veri işleyen işler yazmaya yönelik bir yazılım çerçevesidir. Giriş verileri bağımsız öbeklere ayrılır. Her öbek, kümenizdeki düğümler arasında paralel olarak işlenir. MapReduce işi iki işlevden oluşur:

Eşleyici: Giriş verilerini kullanır, analiz eder (genellikle filtreleme ve sıralama işlemleriyle) ve tanımlama demetleri (anahtar-değer çiftleri) yayar
Azaltıcı: Eşleyici tarafından yayılan demetleri tüketir ve Eşleyici verilerinden daha küçük, birleşik bir sonuç oluşturan bir özet işlemi gerçekleştirir

Aşağıdaki diyagramda temel bir sözcük sayısı MapReduce iş örneği gösterilmiştir:

HDI.WordCountDiagram.

Bu işin çıktısı, metinde her sözcüğün kaç kez oluştuğunun bir sayısıdır.

Eşleyici giriş metnindeki her satırı giriş olarak alır ve sözcüklere ayırır. Sözcüğün her oluştuğunda bir anahtar/değer çifti yayar ve ardından bir 1 gelir. Çıkış, azaltıcıya gönderilmeden önce sıralanır.
Azaltıcı, her sözcük için bu tek tek sayıları toplar ve sözcüğü içeren tek bir anahtar/değer çifti ve ardından oluşumlarının toplamını yayar.

MapReduce çeşitli dillerde uygulanabilir. Java en yaygın uygulamadır ve bu belgede tanıtım amacıyla kullanılır.

Geliştirme dilleri

Java ve Java Sanal Makinesi'ni temel alan diller veya çerçeveler doğrudan MapReduce işi olarak değiştirilebilir. Bu belgede kullanılan örnek bir Java MapReduce uygulamasıdır. C#, Python veya tek başına yürütülebilir dosyalar gibi Java dışı diller Hadoop akışını kullanmalıdır.

Hadoop akışı, STDIN ve STDOUT üzerinden eşleyici ve azaltıcı ile iletişim kurar. Eşleyici ve azaltıcı STDIN'den bir kerede bir satır okur ve çıkışı STDOUT'a yazar. Eşleyici ve azaltıcı tarafından okunan veya yayılan her satır, sekme karakteriyle ayrılmış bir anahtar/değer çifti biçiminde olmalıdır:

[key]\t[value]

Daha fazla bilgi için bkz . Hadoop Akış.

HDInsight ile Hadoop akışı kullanma örnekleri için aşağıdaki belgeye bakın:

C# MapReduce işleri geliştirme

Azure HDInsight'ta Apache Hadoop nedir?

MapReduce nedir?

Geliştirme dilleri

Nereden başlarım?

Sonraki adımlar

Ek kaynaklar