Çözüm fikirleri
Bu makale bir çözüm fikridir. İçeriği olası kullanım örnekleri, alternatif hizmetler, uygulama konuları veya fiyatlandırma yönergeleri gibi daha fazla bilgiyle genişletmemizi isterseniz GitHub geri bildirimi sağlayarak bize bildirin.
Bu çözüm fikri, Hadoop MapReduce ve Apache Spark kullanarak büyük veri kümelerinizi isteğe bağlı olarak ayıklamayı, dönüştürmeyi ve yüklemeyi gösterir.
Mimari
Bu mimarinin bir Visio dosyasını indirin.
Veri akışı
Veriler mimaride aşağıdaki gibi akar:
Azure Data Factory'yi kullanarak kaynak sistemlere ve veri depolarına Bağlı Hizmetler oluşturun. Azure Data Factory İşlem Hatları, yerel bağlayıcının kullanılamadığı veri kaynakları için genel protokoller de içeren 90'ından fazla bağlayıcıyı destekler.
Veri Kopyalama aracıyla kaynak sistemlerden Azure Data Lake'e veri yükleyin.
Azure Data Factory isteğe bağlı bir HDInsight kümesi oluşturabilir. İsteğe Bağlı HDInsight Bağlı Hizmeti oluşturarak başlayın. Ardından bir işlem hattı oluşturun ve kullanılan Hadoop çerçevesine (Hive, MapReduce, Spark vb.) bağlı olarak uygun HDInsight etkinliğini kullanın.
Azure Data Factory'de işlem hattını tetikleme. Mimari, Azure Data Lake Store'un 3. Adımda oluşturulan HDInsight etkinliği tarafından yürütülen Hadoop betiğinde dosya sistemi olarak kullanıldığını varsayar. Betik, veri gölünde seçilen bir alana veri yazacak isteğe bağlı bir HDInsight kümesi tarafından yürütülür.
Bileşenler
- Azure Data Factory - Veri akışını düzenlemeye yönelik bulut ölçeğinde veri tümleştirme hizmeti.
- Azure Data Lake Depolama - Büyük veri işleme için ölçeklenebilir ve uygun maliyetli bulut depolama alanı.
- Apache Hadoop - Büyük veri dağıtılmış işleme çerçevesi
- Apache Spark - Büyük veri uygulamalarında performansı artırmak için bellek içi işlemeyi destekleyen büyük veri dağıtılmış işleme çerçevesi.
- Azure HDInsight - Hadoop bileşenlerinin bulut dağıtımı.
Senaryo ayrıntıları
Bu çözüm fikri, BIR ETL kullanım örneğinin veri akışını açıklar.
Olası kullanım örnekleri
Azure HDInsight'ı büyük veri işlemedeki çeşitli senaryolar için kullanabilirsiniz. Geçmiş verileri (zaten toplanmış ve depolanmış veriler) veya gerçek zamanlı veriler (doğrudan kaynaktan akışı yapılan veriler) olabilir. Bu tür verileri işleme hakkında daha fazla bilgi için bkz . HDInsight kullanma senaryoları.
Katkıda Bulunanlar
Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.
Asıl yazar:
- Jon Dobrzeniecki | Bulut Çözümü Mimarı
Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.
Sonraki adımlar
Bileşen teknolojileri hakkında daha fazla bilgi edinin:
- Öğretici: Azure Data Factory kullanarak HDInsight'ta isteğe bağlı Apache Hadoop kümeleri oluşturma
- Azure Data Factory'ye giriş
- Azure Data Lake Storage 2. Nesil'e giriş
- Azure Data Factory ile Azure Data Lake Storage 2. Nesil veri yükleme
- Azure HDInsight'ta Apache Hadoop nedir?
- Data Factory'den MapReduce Programlarını Çağırma
- HDInsight üzerinde Apache Hadoop ile MapReduce'u kullanma
- Azure HDInsight'taki Apache Spark nedir
İlgili kaynaklar
İlgili mimarileri keşfedin: