Trace Id is missing
Lompat ke konten utama
Empat orang berdiskusi secara tatap muka dengan laptop yang menampilkan presentasi

Apa itu gudang data?

Pelajari apa itu gudang data, manfaat penggunaannya, praktik terbaik yang perlu dipertimbangkan selama fase desain, dan alat mana yang harus digabungkan saat membangunnya.

Apa itu gudang data?

Pertama, cari tahu definisi gudang data dan mengapa organisasi Anda mungkin perlu menggunakannya.

Gudang data adalah repositori terpusat yang menyimpan data terstruktur (tabel database, lembar Excel) dan data semi terstruktur (file XML, halaman web) untuk tujuan pelaporan dan analisis. Aliran data berasal dari berbagai sumber, seperti sistem pembelian, aplikasi bisnis, dan database hubungandatabase hubungan, dan biasanya dibersihkan dan distandardisasi sebelum mencapai gudang. Karena dapat menyimpan informasi dalam jumlah besar, gudang data memberi pengguna akses mudah ke berbagai data historis. Data ini dapat digunakan untuk penggalian data, visualisasi data, dan bentuk pelaporan inteligensi bisnis lainnya.

Dua orang sedang memeriksa data laporan dalam tabel

Manfaat gudang data

Data yang dapat diandalkan, terutama jika dikumpulkan seiring waktu, membantu pengguna membuat keputusan yang lebih cerdas dan lebih tepat dalam menjalankan organisasi mereka. Semua ini bisa dilakukan berkat gudang data. Ada banyak sekali manfaat gudang data perusahaan, tetapi manfaat yang paling berdampak di antaranya:

Gudang data vs. data lake

Jelas bahwa gudang data sangat penting untuk operasi analitik organisasi apa pun. Namun, apa perbedaan antara gudang data dan jenis penyimpanan data lainnya, seperti data lake? Dan kapan waktu yang tepat untuk menggunakannya?

Sebagai tempat penyimpanan, baik gudang data maupun data lake menyimpan dan memproses data. Namun, meskipun keduanya mungkin menawarkan fungsionalitas yang sama, masing-masing memiliki kasus penggunaan yang berbeda. Inilah alasan mengapa organisasi secara umum menggabungkan keduanya untuk membentuk solusi yang lengkap dan menyeluruh yang dapat menangani berbagai penggunaan.

Gudang data bersifat relasional. Artinya, struktur atau skema data ditentukan oleh kebutuhan bisnis dan produk tertentu yang dikurasi, disusun, dan dioptimalkan untuk operasi kueri SQL. Oleh karena itu, gudang data paling cocok digunakan untuk menyimpan data yang telah diolah dengan tujuan tertentu, seperti penggalian data untuk analisis BI, atau untuk mencari kasus penggunaan bisnis yang telah diidentifikasi.

Seperti halnya gudang data, data lake menampung data terstruktur dan semi terstruktur. Namun, data lake juga dapat menampung data mentah dan tidak diproses dari berbagai sumber non-relasional, termasuk aplikasi seluler, perangkat IoT, media sosial, atau streaming. Hal ini dikarenakan struktur atau skema dalam data lake tidak ditentukan hingga data dibaca. Berkat karakteristiknya yang fleksibel dan scalable, data lake sering digunakan untuk melakukan analisis data yang cerdas, seperti pembelajaran mesin.

paket dukungan berskala organisasi
Data lake Gudang data
Jenis

Terstruktur, semi terstruktur, tidak terstruktur
Relasional, non-relasional

Terstruktur
Relasional

Skema

Skema sedang dibaca

Skema sedang ditulis

Format

Mentah, tidak difilter

Diproses, diperbaiki

Sumber

Big data, IoT, media sosial, data streaming

Aplikasi, bisnis, data transaksional, pelaporan batch

Skalabilitas

Mudah diskalakan dengan biaya rendah

Sulit dan mahal untuk diskalakan

Pengguna

Ilmuwan data, teknisi data

Profesional gudang data, analis bisnis

Kasus Penggunaan

Pembelajaran mesin, analisis prediktif, analitik real time

Core reporting, BI

Seseorang sedang duduk di kursi dan bekerja menggunakan desktop

Arsitektur dan desain gudang data

Setelah mengetahui alasan dan kapan Anda harus menggunakan gudang data, mari kita pelajari cara kerjanya dengan melihat desain gudang data. Gudang data lebih dari sekadar satu silo yang beroperasi sendiri. Namun, sistem ini sangat terstruktur dan dirancang dengan hati-hati yang terdiri dari beberapa tingkatan yang berinteraksi dengan data Anda dan satu sama lain dengan cara yang berbeda. Biasanya, tingkatan ini mencakup:

Tingkat bawah

Data diserap dari beberapa sumber, lalu dibersihkan dan diubah agar dapat digunakan aplikasi lain dalam proses yang disebut ekstrak, transformasi, dan muat (ETL). Tingkat bawah juga merupakan tempat data disimpan dan dioptimalkan sehingga waktu kueri menjadi lebih cepat dan kinerja menjadi lebih baik secara keseluruhan.

Tingkat menengah

Di sini Anda akan menemukan mesin analitik, yang juga dikenal sebagai server pemrosesan analitik online (OLAP). Server OLAP mengakses data bervolume besar dari gudang data dengan kecepatan tinggi, yang memberikan hasil secepat kilat.

Tingkat atas

Tingkat atas adalah tempat antarmuka front-end secara visual menyajikan data yang diproses, yang dapat diakses dan digunakan oleh analis untuk semua kebutuhan pelaporan dan BI layanan mandiri.

Cara membangun gudang data

Saat mendesain dan membangun gudang data, penting untuk mempertimbangkan tujuan organisasi, baik jangka panjang maupun ad-hoc, serta karakteristik data Anda. Berapa banyak sumber data yang Anda integrasikan? Apakah Anda berencana mengotomatiskan alur kerja? Bagaimana cara Anda menjelajahi dan menganalisis data? Struktur gudang data Anda dapat bervariasi tergantung pada kompleksitas kebutuhan Anda, tetapi gudang database perusahaan biasanya terdiri dari komponen berikut:

  1. Sumber data yang mengekstrak data operasional dari sistem pembelian, aplikasi bisnis, dan database hubungan lainnya
  2. Area penahapan tempat data dibersihkan dan diubah untuk gudang atau repositori terpusat
  3.  Gudang atau repositori terpusat yang menyimpan data operasional, metadata, data ringkasan, dan data mentah yang diproses untuk memudahkan akses pengguna
  4. Penambahan data mart, yang mengambil data dari repositori terpusat dan melayaninya dalam subset ke grup pengguna yang dipilih
  5.  Sandbox, yang dapat digunakan oleh ilmuwan data untuk menguji bentuk baru eksplorasi data di lingkungan yang dilindungi
  6. Berbagai alat gudang data, kerangka kerja, dan API untuk integrasi, penyimpanan, kinerja, dan analisis
Seseorang menganalisis bagan di laptop dan laporan data pada dua monitor
Layar laptop dengan tampilan bagan

Alat, perangkat lunak, dan sumber daya gudang data

Di dunia modern yang berpusat pada data, banyak perusahaan perangkat lunak terkemuka membanggakan berbagai perangkat lunak gudang data yang tampak tak ada habisnya, dengan kasus penggunaan khususnya masing-masing. Solusi ini mungkin tampak rumit, tetapi untuk membangun solusi berperforma tinggi yang kohesif, Anda mungkin perlu berinvestasi dalam alat dan teknologi yang tepat. Setiap organisasi memiliki kebutuhan yang berbeda, tetapi berikut adalah beberapa produk gudang data yang perlu diperhatikan:

Gudang data cloud dan cloud hibrid

Solusi gudang data terpadu berbasis cloud, seperti Azure Synapse Analytics, memberi organisasi kemampuan untuk menskalakan, memproses, dan menyimpan dengan kecepatan yang lebih cepat dan biaya yang lebih rendah.

Alat integrasi data

Alur ETL memungkinkan pengguna membuat, menjadwalkan, dan mengatur alur kerja mereka sehingga data sumber secara otomatis terintegrasi, dibersihkan, dan distandarkan.

Penyimpanan objek

Solusi penyimpanan objek dapat menampung sejumlah besar data terstruktur, semi terstruktur, dan tidak terstruktur, yang membuatnya sangat cocok untuk penataan data sumber sebelum dimuat ke gudang.

Alat gudang data

Solusi penyimpanan terdistribusi menyimpan kumpulan data yang besar dalam tabel relasional dengan penyimpanan kolom. Hal ini sangat menghemat biaya, meningkatkan kinerja kueri, dan mempercepat waktu untuk mendapatkan wawasan.

Alat kinerja

Anda dapat menggunakan Apache Spark, kerangka kerja pemrosesan paralel sumber terbuka yang mendukung pemrosesan dalam memori, untuk meningkatkan performa aplikasi.

Manajemen sumber daya dan beban kerja

Manajer sumber daya mengalokasikan daya komputasi ke beban kerja sehingga Anda dapat memuat, menganalisis, mengelola, dan mengekspor data sesuai kebutuhan.

Pemodelan data

Pemodelan data menggabungkan beberapa sumber data ke dalam model semantik tunggal, memberikan tampilan data yang terstruktur dan efisien.

Alat inteligensi bisnis

Alat analitik bisnis membantu memberikan wawasan kepada pengguna dalam bentuk dasbor, laporan, dan alat visualisasi lainnya.

Fitur keamanan dan privasi

Fitur keamanan dan kepatuhan seperti enkripsi data, autentikasi pengguna, dan pemantauan akses memastikan bahwa data Anda tetap terlindungi.

Dua orang sedang berdiskusi dan orang di sebelah kanan memegang laptop

Apa yang terjadi dengan Azure SQL Data Warehouse?

Kemampuan yang terkait dengan Azure SQL Data Warehouse kini menjadi fitur Azure Synapse Analytics yang disebut kumpulan SQL khusus. Pelanggan lama Azure SQL Data Warehouse dapat terus menjalankan beban kerja Azure SQL Data Warehouse yang sudah ada menggunakan fitur kumpulan SQL khusus di Azure Synapse Analytics tanpa perlu perubahan apa pun. Pelanggan juga dapat mulai mengelola data gudang yang ada dengan Azure Synapse Analytics untuk memanfaatkan fitur analitik tingkat lanjut seperti eksplorasi data lake tanpa server dan mesin SQL dan Apache Spark™ yang terintegrasi.

Tanya jawab umum

  • Gudang data adalah repositori terpusat yang menampung data terstruktur (tabel database, lembar Excel) dan data semi terstruktur (file XML, halaman web) untuk tujuan pelaporan, analisis, dan bentuk inteligensi bisnis lainnya.

  • Ada banyak keuntungan menggunakan gudang data. Misalnya, gudang data menggabungkan beberapa sumber data ke dalam sumber kebenaran tunggal, yang kemudian dapat digunakan organisasi untuk membuat keputusan yang lebih tepat seputar bisnis dan operasi.

  • Gudang data menyimpan data terstruktur dan semi terstruktur, yang dapat digunakan untuk penggalian data sumber, visualisasi data, dan kasus penggunaan BI spesifik lainnya. Data lake menyimpan berbagai jenis data mentah, yang kemudian dapat digunakan oleh ilmuwan data dalam berbagai proyek.

  • Gudang data biasanya terdiri dari beberapa tingkatan: tingkat bawah, tempat data dikumpulkan dan disimpan; tingkat menengah, tempat data dianalisis; dan tingkat atas, tempat data ditampilkan bagi pengguna untuk diakses dan diuraikan.

  • Saat merancang dan membuat infrastruktur gudang data, penting untuk mempertimbangkan karakteristik data Anda dan bagaimana Anda ingin mengubahnya. Beberapa elemen umum struktur mencakup sumber data, area penahapan, gudang itu sendiri, data mart, sandbox, dan berbagai alat integrasi.

  • Banyak perusahaan perangkat lunak terkemuka kini menawarkan berbagai macam produk gudang data.

  • Kemampuan ini kini menjadi fitur Azure Synapse Analytics yang disebut kumpulan SQL khusus. Pelanggan lama Azure SQL Data Warehouse dapat terus menjalankan beban kerja mereka di sini tanpa melakukan perubahan apa pun.

Akun Gratis

Coba layanan Komputasi Cloud Azure gratis hingga 30 hari.

Prabayar

Mulai dengan harga prabayar. Tanpa keterikatan di muka, batalkan kapan saja.