HDInsight kullanarak ayıklama, dönüştürme ve yükleme (ETL)

Azure Data Factory
Azure Data Lake Storage
Azure HDInsight

Çözüm fikirleri

Bu makale bir çözüm fikridir. İçeriği olası kullanım örnekleri, alternatif hizmetler, uygulama konuları veya fiyatlandırma yönergeleri gibi daha fazla bilgiyle genişletmemizi isterseniz GitHub geri bildirimi sağlayarak bize bildirin.

Bu çözüm fikri, Hadoop MapReduce ve Apache Spark kullanarak büyük veri kümelerinizi isteğe bağlı olarak ayıklamayı, dönüştürmeyi ve yüklemeyi gösterir.

Mimari

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

Bu mimarinin bir Visio dosyasını indirin.

Veri akışı

Veriler mimaride aşağıdaki gibi akar:

  1. Azure Data Factory'yi kullanarak kaynak sistemlere ve veri depolarına Bağlı Hizmetler oluşturun. Azure Data Factory İşlem Hatları, yerel bağlayıcının kullanılamadığı veri kaynakları için genel protokoller de içeren 90'ından fazla bağlayıcıyı destekler.

  2. Veri Kopyalama aracıyla kaynak sistemlerden Azure Data Lake'e veri yükleyin.

  3. Azure Data Factory isteğe bağlı bir HDInsight kümesi oluşturabilir. İsteğe Bağlı HDInsight Bağlı Hizmeti oluşturarak başlayın. Ardından bir işlem hattı oluşturun ve kullanılan Hadoop çerçevesine (Hive, MapReduce, Spark vb.) bağlı olarak uygun HDInsight etkinliğini kullanın.

  4. Azure Data Factory'de işlem hattını tetikleme. Mimari, Azure Data Lake Store'un 3. Adımda oluşturulan HDInsight etkinliği tarafından yürütülen Hadoop betiğinde dosya sistemi olarak kullanıldığını varsayar. Betik, veri gölünde seçilen bir alana veri yazacak isteğe bağlı bir HDInsight kümesi tarafından yürütülür.

Bileşenler

  • Azure Data Factory - Veri akışını düzenlemeye yönelik bulut ölçeğinde veri tümleştirme hizmeti.
  • Azure Data Lake Depolama - Büyük veri işleme için ölçeklenebilir ve uygun maliyetli bulut depolama alanı.
  • Apache Hadoop - Büyük veri dağıtılmış işleme çerçevesi
  • Apache Spark - Büyük veri uygulamalarında performansı artırmak için bellek içi işlemeyi destekleyen büyük veri dağıtılmış işleme çerçevesi.
  • Azure HDInsight - Hadoop bileşenlerinin bulut dağıtımı.

Senaryo ayrıntıları

Bu çözüm fikri, BIR ETL kullanım örneğinin veri akışını açıklar.

Olası kullanım örnekleri

Azure HDInsight'ı büyük veri işlemedeki çeşitli senaryolar için kullanabilirsiniz. Geçmiş verileri (zaten toplanmış ve depolanmış veriler) veya gerçek zamanlı veriler (doğrudan kaynaktan akışı yapılan veriler) olabilir. Bu tür verileri işleme hakkında daha fazla bilgi için bkz . HDInsight kullanma senaryoları.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Sonraki adımlar

Bileşen teknolojileri hakkında daha fazla bilgi edinin:

İlgili mimarileri keşfedin: