Apache Hadoop, Apache Spark, Apache Kafka ve daha fazlasıyla HDInsight'ta küme oluşturma

Apache Hadoop, Apache Spark, Apache Kafka, Etkileşimli Sorgu veya Apache HBase'i veya HDInsight'ta ayarlamayı ve yapılandırmayı öğrenin. Ayrıca, kümeleri özelleştirmeyi ve bir etki alanına katarak güvenlik eklemeyi öğrenin.

Hadoop kümesi, görevlerin dağıtılmış işlenmesi için kullanılan birkaç sanal makineden (düğüm) oluşur. Azure HDInsight, tek tek düğümlerin yükleme ve yapılandırma uygulama ayrıntılarını ele alır, bu nedenle yalnızca genel yapılandırma bilgilerini sağlamanız gerekir.

Önemli

HDInsight kümesi faturalandırması küme oluşturulduğunda başlar ve küme silindiğinde sona erer. Fatura dakikalara eşit olarak dağıtıldığından, kullanılmayan kümelerinizi mutlaka silmelisiniz. Küme silmeyi öğrenin.

Birden çok kümeyi birlikte kullanıyorsanız bir sanal ağ oluşturmak istersiniz ve Spark kümesi kullanıyorsanız Hive Warehouse Bağlan veya kullanmak istersiniz. Daha fazla bilgi için bkz. Azure HDInsight için sanal ağ planlama ve Apache Spark ile Apache Hive'ı Hive Warehouse Bağlan veya tümleştirme.

Küme kurulum yöntemleri

Aşağıdaki tabloda HDInsight kümesi ayarlamak için kullanabileceğiniz farklı yöntemler gösterilmektedir.

ile oluşturulan kümeler Web tarayıcısı Komut satırı REST API SDK
Azure portalı      
Azure Data Factory
Azure CLI      
Azure PowerShell      
cURL    
Azure Resource Manager şablonları      

Bu makale, HDInsight kümesi oluşturabileceğiniz Azure portalında kurulumda size yol gösterir.

Temel bilgiler

HDInsight oluşturma seçenekleri özel hızlı.

Proje ayrıntıları

Azure Resource Manager , uygulamanızdaki kaynaklarla azure kaynak grubu olarak adlandırılan bir grup olarak çalışmanıza yardımcı olur. Tek bir eşgüdümlü işlemle uygulamanızın tüm kaynaklarını dağıtabilir, güncelleştirebilir, izleyebilir veya silebilirsiniz.

Küme ayrıntıları

Küme adı

HDInsight küme adları aşağıdaki kısıtlamalara sahiptir:

  • İzin verilen karakterler: a-z, 0-9, A-Z
  • Maksimum uzunluk: 59
  • Ayrılmış adlar: uygulamalar
  • Küme adlandırma kapsamı, tüm abonelikler genelinde tüm Azure'a yöneliktir. Bu nedenle küme adı dünya çapında benzersiz olmalıdır.
  • İlk altı karakter sanal ağ içinde benzersiz olmalıdır

Bölge

Küme konumunu açıkça belirtmeniz gerekmez: Küme, varsayılan depolama alanıyla aynı konumdadır. Desteklenen bölgelerin listesi için HDInsight fiyatlandırması üzerinde Bölge açılan listesini seçin.

Küme türü

Azure HDInsight şu anda her biri belirli işlevleri sağlamak için bir bileşen kümesine sahip olan aşağıdaki küme türlerini sağlar.

Önemli

HDInsight kümeleri, her biri tek bir iş yükü veya teknoloji için çeşitli türlerde kullanılabilir. Bir kümede HBase gibi birden çok türü birleştiren bir küme oluşturmak için desteklenen bir yöntem yoktur. Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, Azure sanal ağı gerekli küme türlerini bağlayabilir.

Küme türü İşlev
Hadoop Toplu sorgu ve depolanan verilerin analizi
HBase Büyük miktarda şemasız, NoSQL verisi için işleme
Etkileşimli Sorgu Etkileşimli ve daha hızlı Hive sorguları için bellek içi önbelleğe alma
Kafka Gerçek zamanlı akış veri işlem hatları ve uygulamaları oluşturmak için kullanılabilecek dağıtılmış bir akış platformu
Spark Bellek içi işleme, etkileşimli sorgular, mikro toplu iş akışı işleme

Sürüm

Bu küme için HDInsight sürümünü seçin. Daha fazla bilgi için bkz. Desteklenen HDInsight Sürümleri.

Küme kimlik bilgileri

HDInsight kümeleri ile küme oluşturma sırasında iki kullanıcı hesabı yapılandırabilirsiniz:

  • Küme oturum açma kullanıcı adı: Varsayılan kullanıcı adı yöneticidir. Azure portalında temel yapılandırmayı kullanır. Bazen buna "Küme kullanıcısı" veya "HTTP kullanıcısı" denir.
  • Secure Shell (SSH) kullanıcı adı: SSH aracılığıyla kümeye bağlanmak için kullanılır. Daha fazla bilgi için bkz. HDInsight ile SSH kullanma.

HTTP kullanıcı adı aşağıdaki kısıtlamalara sahiptir:

  • İzin verilen özel karakterler: _ ve @
  • Karakterlere izin verilmiyor: #;."',/:!*?$(){}[]<>|&--=+%~^boşluk'
  • Maksimum uzunluk: 20

SSH kullanıcı adı aşağıdaki kısıtlamalara sahiptir:

  • İzin verilen özel karakterler:_ ve @
  • Karakterlere izin verilmiyor: #;."',/:!*?$(){}[]<>|&--=+%~^boşluk'
  • Maksimum uzunluk: 64
  • Ayrılmış adlar: hadoop, kullanıcılar, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user1, test, user2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, David, guest, John, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

Depolama

Küme depolama ayarları: HDFS uyumlu uç noktalar.

Hadoop'un şirket içi yüklemesi, kümedeki depolama için Hadoop Dağıtılmış Dosya Sistemi'ni (HDFS) kullansa da bulutta kümeye bağlı depolama uç noktalarını kullanırsınız. Bulut depolamayı kullanmak, verilerinizi korurken hesaplama için kullanılan HDInsight kümelerini güvenli bir şekilde silebileceğiniz anlamına gelir.

HDInsight kümeleri aşağıdaki depolama seçeneklerini kullanabilir:

  • Azure Data Lake Storage 2. Nesil
  • Azure Data Lake Storage Gen1
  • Azure Depolama Genel Amaçlı v2
  • Azure Depolama Genel Amaçlı v1
  • Azure Depolama Blok blobu (yalnızca ikincil depolama olarak desteklenir)

HDInsight ile depolama seçenekleri hakkında daha fazla bilgi için bkz . Azure HDInsight kümeleriyle kullanılacak depolama seçeneklerini karşılaştırma.

Uyarı

HDInsight kümesinden farklı bir konumda ek depolama hesabı kullanılması desteklenmez.

Yapılandırma sırasında, varsayılan depolama uç noktası için azure Depolama hesabının veya Data Lake Depolama blob kapsayıcısını belirtirsiniz. Varsayılan depolama alanı uygulama ve sistem günlüklerini içerir. İsteğe bağlı olarak, kümenin erişebileceği ek bağlı Azure Depolama hesapları ve Data Lake Depolama hesapları belirtebilirsiniz. HDInsight kümesi ve bağımlı depolama hesapları aynı Azure konumunda olmalıdır.

Not

Güvenli aktarım gerektiren özellik, güvenli bir bağlantı aracılığıyla hesabınıza yapılan tüm istekleri zorunlu kılar. Bu özelliği yalnızca HDInsight kümesi sürüm 3.6 veya üzeri destekler. Daha fazla bilgi için bkz . Azure HDInsight'ta güvenli aktarım depolama hesaplarıyla Apache Hadoop kümesi oluşturma.

Önemli

Küme oluşturduktan sonra güvenli depolama aktarımının etkinleştirilmesi, depolama hesabınızı kullanırken hatalara neden olabilir ve önerilmez. Güvenli aktarım zaten etkin bir depolama hesabı kullanarak yeni bir küme oluşturmak daha iyidir.

Not

Azure HDInsight, Azure Depolama'da depolanan verilerinizi otomatik olarak bir bölgeden diğerine aktarmaz, taşımaz veya kopyalamaz.

Meta veri deposu ayarları

İsteğe bağlı Hive veya Apache Oozie meta veri depoları oluşturabilirsiniz. Ancak tüm küme türleri meta veri depolarını desteklemez ve Azure Synapse Analytics meta veri depolarıyla uyumlu değildir.

Daha fazla bilgi için bkz . Azure HDInsight'ta dış meta veri depolarını kullanma.

Önemli

Özel bir meta veri deposu oluşturduğunuzda, veritabanı adında kısa çizgiler, kısa çizgiler veya boşluklar kullanmayın. Bu, küme oluşturma işleminin başarısız olmasına neden olabilir.

Hive için SQL veritabanı

HDInsight kümesini sildikten sonra Hive tablolarınızı korumak istiyorsanız, özel bir meta veri deposu kullanın. Daha sonra meta depoyu başka bir HDInsight kümesine ekleyebilirsiniz.

Bir HDInsight kümesi sürümü için oluşturulan HDInsight meta veri deposu farklı HDInsight küme sürümleri arasında paylaşılamaz. HDInsight sürümlerinin listesi için bkz . Desteklenen HDInsight sürümleri.

Önemli

Varsayılan meta veri deposu temel katman 5 DTU sınırına (yükseltilemez) sahip bir Azure SQL Veritabanı sağlar! Temel test amaçları için uygundur. Büyük veya üretim iş yükleri için bir dış meta veri deposuna geçiş yapmanızı öneririz.

Oozie için SQL veritabanı

Oozie kullanırken performansı artırmak için özel bir meta veri deposu kullanın. Meta veri deposu, kümenizi sildikten sonra Oozie iş verilerine de erişim sağlayabilir.

Ambari için SQL veritabanı

Ambari; HDInsight kümelerini izlemek, yapılandırma değişiklikleri yapmak ve küme yönetimi bilgilerinin yanı sıra iş geçmişini depolamak için kullanılır. Özel Ambari DB özelliği, yeni bir küme dağıtmanıza ve Ambari'yi yönettiğiniz bir dış veritabanında ayarlamanıza olanak tanır. Daha fazla bilgi için bkz . Özel Ambari DB.

Önemli

Özel bir Oozie meta veri depolarını yeniden kullanamazsınız. Özel bir Oozie meta veri deposu kullanmak için HDInsight kümesini oluştururken boş bir Azure SQL Veritabanı sağlamanız gerekir.

Güvenlik + ağ

HDInsight oluşturma seçenekleri kurumsal güvenlik paketini seçin.

Kurumsal güvenlik paketi

Hadoop, Spark, HBase, Kafka ve Etkileşimli Sorgu küme türleri için Kurumsal Güvenlik Paketi'ni etkinleştirmeyi seçebilirsiniz. Bu paket Apache Ranger kullanarak ve Microsoft Entra ID ile tümleştirerek daha güvenli bir küme kurulumuna sahip olmak için seçenek sağlar. Daha fazla bilgi için bkz . Azure HDInsight'ta kurumsal güvenliğe genel bakış.

Enterprise güvenlik paketi, HDInsight'ı Active Directory ve Apache Ranger ile tümleştirmenize olanak tanır. Kurumsal güvenlik paketi kullanılarak birden çok kullanıcı oluşturulabilir.

Etki alanına katılmış HDInsight kümesi oluşturma hakkında daha fazla bilgi için bkz . Etki alanına katılmış HDInsight korumalı alan ortamı oluşturma.

TLS

Daha fazla bilgi için bkz . Aktarım Katmanı Güvenliği

Sanal ağ

Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, Azure sanal ağı gerekli küme türlerini bağlayabilir. Bu yapılandırma, kümelerin ve bunlara dağıttığınız tüm kodların birbirleriyle doğrudan iletişim kurmasına olanak tanır.

HDInsight ile Azure sanal ağı kullanma hakkında daha fazla bilgi için bkz . HDInsight için sanal ağ planlama.

Azure sanal ağı içinde iki küme türü kullanma örneği için bkz . Apache Kafka ile Apache Spark Yapılandırılmış Akışı Kullanma. Sanal ağ için belirli yapılandırma gereksinimleri de dahil olmak üzere bir sanal ağ ile HDInsight kullanma hakkında daha fazla bilgi için bkz . HDInsight için sanal ağ planlama.

Disk şifreleme ayarı

Daha fazla bilgi için bkz . Müşteri tarafından yönetilen anahtar disk şifrelemesi.

Kafka REST ara sunucusu

Bu ayar yalnızca Kafka küme türü için kullanılabilir. Daha fazla bilgi için bkz . REST proxy kullanma.

Kimlik

Daha fazla bilgi için bkz . Azure HDInsight'ta yönetilen kimlikler.

Yapılandırma + fiyatlandırma

HDInsight düğümünüzün boyutunu seçin.

Küme mevcut olduğu sürece düğüm kullanımı için faturalandırılırsınız. Faturalama, bir küme oluşturulduğunda başlar ve küme silindiğinde durur. Kümeler ayrılamaz veya beklemeye alınamaz.

Düğüm yapılandırması

Her küme türünün kendi düğüm sayısı, düğümler için terminolojisi ve varsayılan VM boyutu vardır. Aşağıdaki tabloda, her düğüm türü için düğüm sayısı parantez içindedir.

Tür Düğümler Diyagram
Hadoop Baş düğüm (2), Çalışan düğümü (1+) HDInsight Hadoop küme düğümleri.
HBase Baş sunucu (2), bölge sunucusu (1+), ana/ZooKeeper düğümü (3) HDInsight HBase küme türü kurulumu.
Spark Baş düğüm (2), Çalışan düğümü (1+), ZooKeeper düğümü (3) (A1 ZooKeeper VM boyutu için ücretsizdir) HDInsight spark küme türü kurulumu.

Daha fazla bilgi için bkz . "HDInsight'ta Hadoop bileşenleri ve sürümleri nelerdir?" bölümündeki Kümeler için varsayılan düğüm yapılandırması ve sanal makine boyutları

HDInsight kümelerinin maliyeti düğüm sayısına ve düğümlerin sanal makine boyutlarına göre belirlenir.

Farklı küme türlerinin farklı düğüm türleri, düğüm sayısı ve düğüm boyutları vardır:

  • Hadoop küme türü varsayılan:
    • İki baş düğüm

    • Dört Çalışan düğümü

YALNıZCA HDInsight'ı deniyorsanız tek bir Çalışan düğümü kullanmanızı öneririz. HDInsight fiyatlandırması hakkında daha fazla bilgi için bkz . HDInsight fiyatlandırması.

Not

Küme boyutu sınırı Azure abonelikleri arasında değişir. Sınırı artırmak için Azure faturalama desteğine başvurun.

Kümeyi yapılandırmak için Azure portalını kullandığınızda, düğüm boyutu Yapılandırma + fiyatlandırma sekmesi aracılığıyla kullanılabilir. Portalda farklı düğüm boyutlarıyla ilişkili maliyeti de görebilirsiniz.

Sanal makine boyutları

Kümeleri dağıtırken, dağıtmayı planladığınız çözüme göre işlem kaynaklarını seçin. HDInsight kümeleri için aşağıdaki VM'ler kullanılır:

Farklı SDK'ları kullanarak veya Azure PowerShell kullanarak küme oluştururken VM boyutu belirtmek için hangi değeri kullanmanız gerektiğini öğrenmek için bkz . HDInsight kümeleri için kullanılacak VM boyutları. Bu bağlantılı makalede tabloların Boyut sütunundaki değeri kullanın.

Önemli

Bir kümede 32'den fazla Çalışan düğümüne ihtiyacınız varsa, en az 8 çekirdek ve 14 GB RAM'e sahip bir baş düğüm boyutu seçmeniz gerekir.

Daha fazla bilgi için bkz . Sanal makineler için boyutlar. Çeşitli boyutların fiyatlandırması hakkında bilgi için bkz . HDInsight fiyatlandırması.

Disk eki

Not

Eklenen diskler yalnızca düğüm yöneticisi yerel dizinleri için yapılandırılır ve veri düğümü dizinleri için yapılandırılmaz

HDInsight kümesi, SKU'yu temel alan önceden tanımlanmış disk alanıyla birlikte gelir. Bazı büyük uygulamalar çalıştırıyorsanız, disk dolu hatası LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE ve iş hataları ile yetersiz disk alanına yol açabilir.

NodeManager'ın yerel dizininin yeni özelliği kullanılarak kümeye daha fazla disk eklenebilir. Hive ve Spark kümesi oluşturma sırasında disk sayısı seçilebilir ve çalışan düğümlerine eklenebilir. Her biri 1 TB boyutunda olacak seçilen disk NodeManager'ın yerel dizinlerinin bir parçası olacaktır.

  1. Yapılandırma + fiyatlandırma sekmesinden
  2. Yönetilen diski etkinleştir seçeneğini belirleyin
  3. Standart disklerden Disk sayısını girin
  4. Çalışan düğümünüzü seçin

Disk sayısını Küme yapılandırması altındaki Gözden Geçir + oluştur sekmesinden doğrulayabilirsiniz

Uygulama ekleme

HDInsight uygulaması, kullanıcıların Linux tabanlı bir HDInsight kümesine yükleyebileceği bir uygulamadır. Microsoft, üçüncü taraflar tarafından sağlanan veya sizin tarafınızdan geliştirilen uygulamaları kullanabilirsiniz. Daha fazla bilgi için bkz . Azure HDInsight'ta üçüncü taraf Apache Hadoop uygulamalarını yükleme.

HDInsight uygulamalarının çoğu boş bir kenar düğümüne yüklenir. Boş kenar düğümü, baş düğümde olduğu gibi aynı istemci araçlarının yüklü ve yapılandırılmış olduğu bir Linux sanal makinesidir. Kümeye erişmek, istemci uygulamalarınızı test etme ve istemci uygulamalarınızı barındırmak için uç düğümü kullanabilirsiniz. Daha fazla bilgi için bkz . HDInsight'ta boş kenar düğümlerini kullanma.

Betik eylemleri

Oluşturma sırasında betikleri kullanarak ek bileşenler yükleyebilir veya küme yapılandırmasını özelleştirebilirsiniz. Bu tür betikler, Azure portalı, HDInsight Windows PowerShell cmdlet'leri veya HDInsight .NET SDK'sından kullanılabilen bir yapılandırma seçeneği olan Betik Eylemi aracılığıyla çağrılır. Daha fazla bilgi için bkz . Betik Eylemini kullanarak HDInsight kümesini özelleştirme.

Apache Mahout ve Cascading gibi bazı yerel Java bileşenleri kümede Java Arşivi (JAR) dosyaları olarak çalıştırılabilir. Bu JAR dosyaları Azure Depolama dağıtılabilir ve Hadoop iş gönderme mekanizmalarıyla HDInsight kümelerine gönderilebilir. Daha fazla bilgi için bkz . Apache Hadoop işlerini program aracılığıyla gönderme.

Not

JAR dosyalarını HDInsight kümelerine dağıtma veya HDInsight kümelerindeki JAR dosyalarını çağırma konusunda sorun yaşıyorsanız Microsoft Desteği başvurun.

Basamaklı, HDInsight tarafından desteklenmez ve Microsoft Desteği için uygun değildir. Desteklenen bileşenlerin listesi için bkz . HDInsight tarafından sağlanan küme sürümlerindeki yenilikler.

Bazen, oluşturma işlemi sırasında aşağıdaki yapılandırma dosyalarını yapılandırmak istersiniz:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Daha fazla bilgi için bkz . Bootstrap kullanarak HDInsight kümelerini özelleştirme.

Sonraki adımlar