This is the Trace Id: 1a3dabd15c38ec4192cb642e8222ebf5
Lompati ke konten utama
Azure
Empat orang berdiskusi secara tatap muka dengan laptop yang menampilkan presentasi

Apa itu gudang data?

Pelajari apa itu gudang data, manfaat penggunaannya, praktik terbaik yang perlu dipertimbangkan selama fase desain, dan alat mana yang harus digabungkan saat membangunnya.

    Apa itu gudang data?

    Pertama, cari tahu definisi gudang data dan mengapa organisasi Anda mungkin perlu menggunakannya.

    Gudang data adalah repositori terpusat yang menyimpan data terstruktur (tabel database, lembar Excel) dan data semi terstruktur (file XML, halaman web) untuk tujuan pelaporan dan analisis. Aliran data berasal dari berbagai sumber, seperti sistem pembelian, aplikasi bisnis, dan database hubungandatabase hubungan, dan biasanya dibersihkan dan distandardisasi sebelum mencapai gudang. Karena dapat menyimpan informasi dalam jumlah besar, gudang data memberi pengguna akses mudah ke berbagai data historis. Data ini dapat digunakan untuk penggalian data, visualisasi data, dan bentuk pelaporan inteligensi bisnis lainnya.

    Dua orang sedang memeriksa data laporan dalam tabel

    Manfaat gudang data

    Data yang dapat diandalkan, terutama jika dikumpulkan seiring waktu, membantu pengguna membuat keputusan yang lebih cerdas dan lebih tepat dalam menjalankan organisasi mereka. Semua ini bisa dilakukan berkat gudang data. Ada banyak sekali manfaat gudang data perusahaan, tetapi manfaat yang paling berdampak di antaranya:

    Gudang data vs. data lake

    Jelas bahwa gudang data sangat penting untuk operasi analitik organisasi apa pun. Namun, apa perbedaan antara gudang data dan jenis penyimpanan data lainnya, seperti data lake? Dan kapan waktu yang tepat untuk menggunakannya?

    Sebagai tempat penyimpanan, baik gudang data maupun data lake menyimpan dan memproses data. Namun, meskipun keduanya mungkin menawarkan fungsionalitas yang sama, masing-masing memiliki kasus penggunaan yang berbeda. Inilah alasan mengapa organisasi secara umum menggabungkan keduanya untuk membentuk solusi yang lengkap dan menyeluruh yang dapat menangani berbagai penggunaan.

    Gudang data bersifat relasional. Artinya, struktur atau skema data ditentukan oleh kebutuhan bisnis dan produk tertentu yang dikurasi, disusun, dan dioptimalkan untuk operasi kueri SQL. Oleh karena itu, gudang data paling cocok digunakan untuk menyimpan data yang telah diolah dengan tujuan tertentu, seperti penggalian data untuk analisis BI, atau untuk mencari kasus penggunaan bisnis yang telah diidentifikasi.

    Seperti halnya gudang data, data lake menampung data terstruktur dan semi terstruktur. Namun, data lake juga dapat menampung data mentah dan tidak diproses dari berbagai sumber non-relasional, termasuk aplikasi seluler, perangkat IoT, media sosial, atau streaming. Hal ini dikarenakan struktur atau skema dalam data lake tidak ditentukan hingga data dibaca. Berkat karakteristiknya yang fleksibel dan scalable, data lake sering digunakan untuk melakukan analisis data yang cerdas, seperti pembelajaran mesin.

    paket dukungan berskala organisasi
    Data lake Gudang data
    Jenis

    Terstruktur, semi terstruktur, tidak terstruktur
    Relasional, non-relasional

    Terstruktur
    Relasional

    Skema

    Skema sedang dibaca

    Skema sedang ditulis

    Format

    Mentah, tidak difilter

    Diproses, diperbaiki

    Sumber

    Big data, IoT, media sosial, data streaming

    Aplikasi, bisnis, data transaksional, pelaporan batch

    Skalabilitas

    Mudah diskalakan dengan biaya rendah

    Sulit dan mahal untuk diskalakan

    Pengguna

    Ilmuwan data, teknisi data

    Profesional gudang data, analis bisnis

    Kasus Penggunaan

    Pembelajaran mesin, analisis prediktif, analitik real time

    Core reporting, BI

    Seseorang sedang duduk di kursi dan bekerja menggunakan desktop

    Arsitektur dan desain gudang data

    Setelah mengetahui alasan dan kapan Anda harus menggunakan gudang data, mari kita pelajari cara kerjanya dengan melihat desain gudang data. Gudang data lebih dari sekadar satu silo yang beroperasi sendiri. Namun, sistem ini sangat terstruktur dan dirancang dengan hati-hati yang terdiri dari beberapa tingkatan yang berinteraksi dengan data Anda dan satu sama lain dengan cara yang berbeda. Biasanya, tingkatan ini mencakup:

    Tingkat bawah

    Data diserap dari beberapa sumber, lalu dibersihkan dan diubah agar dapat digunakan aplikasi lain dalam proses yang disebut ekstrak, transformasi, dan muat (ETL). Tingkat bawah juga merupakan tempat data disimpan dan dioptimalkan sehingga waktu kueri menjadi lebih cepat dan kinerja menjadi lebih baik secara keseluruhan.

    Tingkat menengah

    Di sini Anda akan menemukan mesin analitik, yang juga dikenal sebagai server pemrosesan analitik online (OLAP). Server OLAP mengakses data bervolume besar dari gudang data dengan kecepatan tinggi, yang memberikan hasil secepat kilat.

    Tingkat atas

    Tingkat atas adalah tempat antarmuka front-end secara visual menyajikan data yang diproses, yang dapat diakses dan digunakan oleh analis untuk semua kebutuhan pelaporan dan BI layanan mandiri.

    Cara membangun gudang data

    Saat mendesain dan membangun gudang data, penting untuk mempertimbangkan tujuan organisasi, baik jangka panjang maupun ad-hoc, serta karakteristik data Anda. Berapa banyak sumber data yang Anda integrasikan? Apakah Anda berencana mengotomatiskan alur kerja? Bagaimana cara Anda menjelajahi dan menganalisis data? Struktur gudang data Anda dapat bervariasi tergantung pada kompleksitas kebutuhan Anda, tetapi gudang database perusahaan biasanya terdiri dari komponen berikut:

    1. Sumber data yang mengekstrak data operasional dari sistem pembelian, aplikasi bisnis, dan database hubungan lainnya
    2. Area penahapan tempat data dibersihkan dan diubah untuk gudang atau repositori terpusat
    3.  Gudang atau repositori terpusat yang menyimpan data operasional, metadata, data ringkasan, dan data mentah yang diproses untuk memudahkan akses pengguna
    4. Penambahan data mart, yang mengambil data dari repositori terpusat dan melayaninya dalam subset ke grup pengguna yang dipilih
    5.  Sandbox, yang dapat digunakan oleh ilmuwan data untuk menguji bentuk baru eksplorasi data di lingkungan yang dilindungi
    6. Berbagai alat gudang data, kerangka kerja, dan API untuk integrasi, penyimpanan, kinerja, dan analisis
    Seseorang menganalisis bagan di laptop dan laporan data pada dua monitor
    Layar laptop dengan tampilan bagan

    Alat, perangkat lunak, dan sumber daya gudang data

    Di dunia modern yang berpusat pada data, banyak perusahaan perangkat lunak terkemuka membanggakan berbagai perangkat lunak gudang data yang tampak tak ada habisnya, dengan kasus penggunaan khususnya masing-masing. Solusi ini mungkin tampak rumit, tetapi untuk membangun solusi berperforma tinggi yang kohesif, Anda mungkin perlu berinvestasi dalam alat dan teknologi yang tepat. Setiap organisasi memiliki kebutuhan yang berbeda, tetapi berikut adalah beberapa produk gudang data yang perlu diperhatikan:

    Gudang data cloud dan cloud hibrid

    Solusi gudang data terpadu berbasis cloud, seperti Azure Synapse Analytics, memberi organisasi kemampuan untuk menskalakan, memproses, dan menyimpan dengan kecepatan yang lebih cepat dan biaya yang lebih rendah.

    Alat integrasi data

    Alur ETL memungkinkan pengguna membuat, menjadwalkan, dan mengatur alur kerja mereka sehingga data sumber secara otomatis terintegrasi, dibersihkan, dan distandarkan.

    Penyimpanan objek

    Solusi penyimpanan objek dapat menampung sejumlah besar data terstruktur, semi terstruktur, dan tidak terstruktur, yang membuatnya sangat cocok untuk penataan data sumber sebelum dimuat ke gudang.

    Alat gudang data

    Solusi penyimpanan terdistribusi menyimpan kumpulan data yang besar dalam tabel relasional dengan penyimpanan kolom. Hal ini sangat menghemat biaya, meningkatkan kinerja kueri, dan mempercepat waktu untuk mendapatkan wawasan.

    Alat kinerja

    Anda dapat menggunakan Apache Spark, kerangka kerja pemrosesan paralel sumber terbuka yang mendukung pemrosesan dalam memori, untuk meningkatkan performa aplikasi.

    Manajemen sumber daya dan beban kerja

    Manajer sumber daya mengalokasikan daya komputasi ke beban kerja sehingga Anda dapat memuat, menganalisis, mengelola, dan mengekspor data sesuai kebutuhan.

    Pemodelan data

    Pemodelan data menggabungkan beberapa sumber data ke dalam model semantik tunggal, memberikan tampilan data yang terstruktur dan efisien.

    Alat inteligensi bisnis

    Alat analitik bisnis membantu memberikan wawasan kepada pengguna dalam bentuk dasbor, laporan, dan alat visualisasi lainnya.

    Fitur keamanan dan privasi

    Fitur keamanan dan kepatuhan seperti enkripsi data, autentikasi pengguna, dan pemantauan akses memastikan bahwa data Anda tetap terlindungi.

    Dua orang sedang berdiskusi dan orang di sebelah kanan memegang laptop

    Apa yang terjadi dengan Azure SQL Data Warehouse?

    Kemampuan yang terkait dengan Azure SQL Data Warehouse kini menjadi fitur Azure Synapse Analytics yang disebut kumpulan SQL khusus. Pelanggan lama Azure SQL Data Warehouse dapat terus menjalankan beban kerja Azure SQL Data Warehouse yang sudah ada menggunakan fitur kumpulan SQL khusus di Azure Synapse Analytics tanpa perlu perubahan apa pun. Pelanggan juga dapat mulai mengelola data gudang yang ada dengan Azure Synapse Analytics untuk memanfaatkan fitur analitik tingkat lanjut seperti eksplorasi data lake tanpa server dan mesin SQL dan Apache Spark™ yang terintegrasi.

    Tanya jawab umum

    • Gudang data adalah repositori terpusat yang menampung data terstruktur (tabel database, lembar Excel) dan data semi terstruktur (file XML, halaman web) untuk tujuan pelaporan, analisis, dan bentuk inteligensi bisnis lainnya.

    • Ada banyak keuntungan menggunakan gudang data. Misalnya, gudang data menggabungkan beberapa sumber data ke dalam sumber kebenaran tunggal, yang kemudian dapat digunakan organisasi untuk membuat keputusan yang lebih tepat seputar bisnis dan operasi.

    • Gudang data menyimpan data terstruktur dan semi terstruktur, yang dapat digunakan untuk penggalian data sumber, visualisasi data, dan kasus penggunaan BI spesifik lainnya. Data lake menyimpan berbagai jenis data mentah, yang kemudian dapat digunakan oleh ilmuwan data dalam berbagai proyek.

    • Gudang data biasanya terdiri dari beberapa tingkatan: tingkat bawah, tempat data dikumpulkan dan disimpan; tingkat menengah, tempat data dianalisis; dan tingkat atas, tempat data ditampilkan bagi pengguna untuk diakses dan diuraikan.

    • Saat merancang dan membuat infrastruktur gudang data, penting untuk mempertimbangkan karakteristik data Anda dan bagaimana Anda ingin mengubahnya. Beberapa elemen umum struktur mencakup sumber data, area penahapan, gudang itu sendiri, data mart, sandbox, dan berbagai alat integrasi.

    • Banyak perusahaan perangkat lunak terkemuka kini menawarkan berbagai macam produk gudang data.

    • Kemampuan ini kini menjadi fitur Azure Synapse Analytics yang disebut kumpulan SQL khusus. Pelanggan lama Azure SQL Data Warehouse dapat terus menjalankan beban kerja mereka di sini tanpa melakukan perubahan apa pun.

    Akun Gratis

    Coba layanan Komputasi Cloud Azure gratis hingga 30 hari.

    Prabayar

    Mulai dengan harga prabayar. Tanpa keterikatan di muka, batalkan kapan saja.