HDInsight'ta Apache Hadoop işleri için verileri karşıya yükleme

HDInsight, Azure Depolama ve Azure Data Lake Storage üzerinden hadoop dağıtılmış dosya sistemi (HDFS) sağlar. Bu depolama alanı 1. Nesil ve 2. Nesil'i içerir. Azure Depolama, Data Lake Storage 1. Nesil ve 2. Nesil, HDFS uzantıları olarak tasarlanmıştır. Hadoop ortamındaki bileşenlerin tam kümesinin doğrudan yönettiği veriler üzerinde çalışmasını sağlar. Azure Depolama, Data Lake Storage 1. Nesil ve 2. Nesil ayrı dosya sistemleridir. Sistemler, verilerin depolanması ve bu veriler üzerindeki hesaplamalar için iyileştirilmiştir. Azure Depolama kullanmanın avantajları hakkında bilgi için bkz. HDInsight ile Azure Depolama'yı kullanma. Ayrıca bkz. HDInsight ile Data Lake Storage 1. Nesilkullanma ve HDInsight ile Data Lake Storage 2. Nesil kullanma.

Önkoşullar

Başlamadan önce aşağıdaki gereksinimleri not edin:

Verileri Azure Depolama'ya yükleme

Yardımcı Programlar

Microsoft, Azure Depolama ile çalışmak için aşağıdaki yardımcı programları sağlar:

Araç Linux OS X Windows
Azure portalı
Azure CLI
Azure PowerShell
AzCopy
Hadoop komutu

Not

Hadoop komutu yalnızca HDInsight kümesinde kullanılabilir. komutu yalnızca yerel dosya sisteminden Azure Depolama'ya veri yüklenmesine izin verir.

Hadoop komut satırı

Hadoop komut satırı yalnızca veriler küme baş düğümünde zaten mevcut olduğunda Verileri Azure depolama blobuna depolamak için kullanışlıdır.

Hadoop komutunu kullanmak için önce SSH veya PuTTY kullanarak baş düğüme bağlanmanız gerekir.

Bağlandıktan sonra, bir dosyayı depolama alanına yüklemek için aşağıdaki söz dizimini kullanabilirsiniz.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Örneğin, hadoop fs -copyFromLocal data.txt /example/data/data.txt

HDInsight için varsayılan dosya sistemi Azure Depolama'da olduğundan, /example/data/data.txt aslında Azure Depolama'dadır. Dosyaya şu şekilde de başvurabilirsiniz:

wasbs:///example/data/data.txt

veya

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

Dosyalarla çalışan diğer Hadoop komutlarının listesi için bkz. https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Uyarı

Apache HBase kümelerinde, veri yazarken kullanılan varsayılan blok boyutu 256 KB'tır. HBase API'leri veya REST API'leri kullanılırken bu düzgün çalışsa da, yaklaşık 12 GB'tan büyük verileri yazmak için veya hdfs dfs komutlarının kullanılması hadoop hatayla sonuçlanır. Daha fazla bilgi için bkz. Bloba yazma için depolama özel durumu.

Grafik istemciler

Azure Depolama ile çalışmak için grafik arabirim sağlayan birkaç uygulama da vardır. Aşağıdaki tabloda, bu uygulamalardan birkaçının listesi yer alır:

İstemci Linux OS X Windows
HDInsight için Microsoft Visual Studio Araçları
Azure Depolama Gezgini
Cerulea
CloudXplorer
Microsoft Azure için CloudBerry Gezgini
Cyberduck

Azure Depolama'yı Yerel Sürücü Olarak Bağlama

Bkz . Azure Depolama'yı Yerel Sürücü olarak bağlama.

Hizmetleri kullanarak karşıya yükleme

Azure Data Factory

Azure Data Factory hizmeti veri oluşturmak için tam olarak yönetilen bir hizmettir: depolama, işleme ve taşıma hizmetlerini kolaylaştırılmış, uyarlanabilir ve güvenilir veri üretim işlem hatlarına taşıma.

Depolama türü Belgeler
Azure Blob depolama Azure Data Factory kullanarak Azure Blob depolama alanına veya oradan veri kopyalama
Azure Data Lake Storage Gen1 Azure Data Factory kullanarak Azure Data Lake Storage. Nesil'e veya 1. Nesil'den veri kopyalama
Azure Data Lake Storage Gen2 Azure Data Factory ile verileri Azure Data Lake Storage 2. Nesil yükleme

Apache Sqoop

Sqoop, Hadoop ile ilişkisel veritabanları arasında veri aktarmak için tasarlanmış bir araçtır. SQL Server, MySQL veya Oracle gibi bir ilişkisel veritabanı yönetim sisteminden (RDBMS) verileri içeri aktarmak için bu verileri kullanın. Ardından Hadoop dağıtılmış dosya sistemine (HDFS) gidin. Hadoop'taki verileri MapReduce veya Hive ile dönüştürün ve sonra verileri bir RDBMS'ye geri aktarın.

Daha fazla bilgi için bkz. HDInsight ile Sqoop kullanma.

Geliştirme SDK'ları

Azure Depolama'ya aşağıdaki programlama dillerinden bir Azure SDK'sı kullanılarak da erişilebilir:

  • .NET
  • Java
  • Node.js
  • PHP
  • Python
  • Ruby

Azure SDK'larını yükleme hakkında daha fazla bilgi için bkz. Azure indirmeleri

Sonraki adımlar

HDInsight'a veri almayı anladığınıza göre, analizi öğrenmek için aşağıdaki makaleleri okuyun: