Apa itu gudang data?
Pertama, cari tahu definisi gudang data dan mengapa organisasi Anda mungkin perlu menggunakannya.
Gudang data adalah repositori terpusat yang menyimpan data terstruktur (tabel database, lembar Excel) dan data semi terstruktur (file XML, halaman web) untuk tujuan pelaporan dan analisis. Aliran data berasal dari berbagai sumber, seperti sistem pembelian, aplikasi bisnis, dan database hubungandatabase hubungan, dan biasanya dibersihkan dan distandardisasi sebelum mencapai gudang. Karena dapat menyimpan informasi dalam jumlah besar, gudang data memberi pengguna akses mudah ke berbagai data historis. Data ini dapat digunakan untuk penggalian data, visualisasi data, dan bentuk pelaporan inteligensi bisnis lainnya.
Manfaat gudang data
Data yang dapat diandalkan, terutama jika dikumpulkan seiring waktu, membantu pengguna membuat keputusan yang lebih cerdas dan lebih tepat dalam menjalankan organisasi mereka. Semua ini bisa dilakukan berkat gudang data. Ada banyak sekali manfaat gudang data perusahaan, tetapi manfaat yang paling berdampak di antaranya:
-
Menggabungkan data dari beberapa sumber menjadi sumber kebenaran tunggal
-
Menyimpan dan menganalisis data historis jangka panjang yang berjangka waktu bulanan dan tahunan
-
Membersihkan dan mengubah data menjadi akurat, konsisten, dan terstandar dalam struktur dan formulir
-
Mengurangi waktu kueri saat mengumpulkan data dan memproses analitik sehingga meningkatkan keseluruhan performa di seluruh sistem
-
Memuat data secara efisien tanpa biaya penyebaran atau infrastruktur
-
Mengamankan data sehingga bersifat privat, terlindungi, dan aman
-
Menyiapkan data untuk analisis melalui penggalian data, alat visualisasi, dan bentuk analitik tingkat lanjut lainnya
Gudang data vs. data lake
Jelas bahwa gudang data sangat penting untuk operasi analitik organisasi apa pun. Namun, apa perbedaan antara gudang data dan jenis penyimpanan data lainnya, seperti data lake? Dan kapan waktu yang tepat untuk menggunakannya?
Sebagai tempat penyimpanan, baik gudang data maupun data lake menyimpan dan memproses data. Namun, meskipun keduanya mungkin menawarkan fungsionalitas yang sama, masing-masing memiliki kasus penggunaan yang berbeda. Inilah alasan mengapa organisasi secara umum menggabungkan keduanya untuk membentuk solusi yang lengkap dan menyeluruh yang dapat menangani berbagai penggunaan.
Gudang data bersifat relasional. Artinya, struktur atau skema data ditentukan oleh kebutuhan bisnis dan produk tertentu yang dikurasi, disusun, dan dioptimalkan untuk operasi kueri SQL. Oleh karena itu, gudang data paling cocok digunakan untuk menyimpan data yang telah diolah dengan tujuan tertentu, seperti penggalian data untuk analisis BI, atau untuk mencari kasus penggunaan bisnis yang telah diidentifikasi.
Seperti halnya gudang data, data lake menampung data terstruktur dan semi terstruktur. Namun, data lake juga dapat menampung data mentah dan tidak diproses dari berbagai sumber non-relasional, termasuk aplikasi seluler, perangkat IoT, media sosial, atau streaming. Hal ini dikarenakan struktur atau skema dalam data lake tidak ditentukan hingga data dibaca. Berkat karakteristiknya yang fleksibel dan scalable, data lake sering digunakan untuk melakukan analisis data yang cerdas, seperti pembelajaran mesin.
Data lake | Gudang data | |
---|---|---|
Jenis | Terstruktur, semi terstruktur, tidak terstruktur | Terstruktur |
Skema | Skema sedang dibaca | Skema sedang ditulis |
Format | Mentah, tidak difilter | Diproses, diperbaiki |
Sumber | Big data, IoT, media sosial, data streaming | Aplikasi, bisnis, data transaksional, pelaporan batch |
Skalabilitas | Mudah diskalakan dengan biaya rendah | Sulit dan mahal untuk diskalakan |
Pengguna | Ilmuwan data, teknisi data | Profesional gudang data, analis bisnis |
Kasus Penggunaan | Pembelajaran mesin, analisis prediktif, analitik real time | Core reporting, BI |
Arsitektur dan desain gudang data
Setelah mengetahui alasan dan kapan Anda harus menggunakan gudang data, mari kita pelajari cara kerjanya dengan melihat desain gudang data. Gudang data lebih dari sekadar satu silo yang beroperasi sendiri. Namun, sistem ini sangat terstruktur dan dirancang dengan hati-hati yang terdiri dari beberapa tingkatan yang berinteraksi dengan data Anda dan satu sama lain dengan cara yang berbeda. Biasanya, tingkatan ini mencakup:
Tingkat bawah
Data diserap dari beberapa sumber, lalu dibersihkan dan diubah agar dapat digunakan aplikasi lain dalam proses yang disebut ekstrak, transformasi, dan muat (ETL). Tingkat bawah juga merupakan tempat data disimpan dan dioptimalkan sehingga waktu kueri menjadi lebih cepat dan kinerja menjadi lebih baik secara keseluruhan.
Tingkat menengah
Di sini Anda akan menemukan mesin analitik, yang juga dikenal sebagai server pemrosesan analitik online (OLAP). Server OLAP mengakses data bervolume besar dari gudang data dengan kecepatan tinggi, yang memberikan hasil secepat kilat.
Tingkat atas
Tingkat atas adalah tempat antarmuka front-end secara visual menyajikan data yang diproses, yang dapat diakses dan digunakan oleh analis untuk semua kebutuhan pelaporan dan BI layanan mandiri.
Cara membangun gudang data
Saat mendesain dan membangun gudang data, penting untuk mempertimbangkan tujuan organisasi, baik jangka panjang maupun ad-hoc, serta karakteristik data Anda. Berapa banyak sumber data yang Anda integrasikan? Apakah Anda berencana mengotomatiskan alur kerja? Bagaimana cara Anda menjelajahi dan menganalisis data? Struktur gudang data Anda dapat bervariasi tergantung pada kompleksitas kebutuhan Anda, tetapi gudang database perusahaan biasanya terdiri dari komponen berikut:
- Sumber data yang mengekstrak data operasional dari sistem pembelian, aplikasi bisnis, dan database hubungan lainnya
- Area penahapan tempat data dibersihkan dan diubah untuk gudang atau repositori terpusat
- Gudang atau repositori terpusat yang menyimpan data operasional, metadata, data ringkasan, dan data mentah yang diproses untuk memudahkan akses pengguna
- Penambahan data mart, yang mengambil data dari repositori terpusat dan melayaninya dalam subset ke grup pengguna yang dipilih
- Sandbox, yang dapat digunakan oleh ilmuwan data untuk menguji bentuk baru eksplorasi data di lingkungan yang dilindungi
- Berbagai alat gudang data, kerangka kerja, dan API untuk integrasi, penyimpanan, kinerja, dan analisis
Alat, perangkat lunak, dan sumber daya gudang data
Di dunia modern yang berpusat pada data, banyak perusahaan perangkat lunak terkemuka membanggakan berbagai perangkat lunak gudang data yang tampak tak ada habisnya, dengan kasus penggunaan khususnya masing-masing. Solusi ini mungkin tampak rumit, tetapi untuk membangun solusi berperforma tinggi yang kohesif, Anda mungkin perlu berinvestasi dalam alat dan teknologi yang tepat. Setiap organisasi memiliki kebutuhan yang berbeda, tetapi berikut adalah beberapa produk gudang data yang perlu diperhatikan:
Gudang data cloud dan cloud hibrid
Solusi gudang data terpadu berbasis cloud, seperti Azure Synapse Analytics, memberi organisasi kemampuan untuk menskalakan, memproses, dan menyimpan dengan kecepatan yang lebih cepat dan biaya yang lebih rendah.
Alat integrasi data
Alur ETL memungkinkan pengguna membuat, menjadwalkan, dan mengatur alur kerja mereka sehingga data sumber secara otomatis terintegrasi, dibersihkan, dan distandarkan.
Penyimpanan objek
Solusi penyimpanan objek dapat menampung sejumlah besar data terstruktur, semi terstruktur, dan tidak terstruktur, yang membuatnya sangat cocok untuk penataan data sumber sebelum dimuat ke gudang.
Alat gudang data
Solusi penyimpanan terdistribusi menyimpan kumpulan data yang besar dalam tabel relasional dengan penyimpanan kolom. Hal ini sangat menghemat biaya, meningkatkan kinerja kueri, dan mempercepat waktu untuk mendapatkan wawasan.
Alat kinerja
Anda dapat menggunakan Apache Spark, kerangka kerja pemrosesan paralel sumber terbuka yang mendukung pemrosesan dalam memori, untuk meningkatkan performa aplikasi.
Manajemen sumber daya dan beban kerja
Manajer sumber daya mengalokasikan daya komputasi ke beban kerja sehingga Anda dapat memuat, menganalisis, mengelola, dan mengekspor data sesuai kebutuhan.
Pemodelan data
Pemodelan data menggabungkan beberapa sumber data ke dalam model semantik tunggal, memberikan tampilan data yang terstruktur dan efisien.
Alat inteligensi bisnis
Alat analitik bisnis membantu memberikan wawasan kepada pengguna dalam bentuk dasbor, laporan, dan alat visualisasi lainnya.
Fitur keamanan dan privasi
Fitur keamanan dan kepatuhan seperti enkripsi data, autentikasi pengguna, dan pemantauan akses memastikan bahwa data Anda tetap terlindungi.
Apa yang terjadi dengan Azure SQL Data Warehouse?
Kemampuan yang terkait dengan Azure SQL Data Warehouse kini menjadi fitur Azure Synapse Analytics yang disebut kumpulan SQL khusus. Pelanggan lama Azure SQL Data Warehouse dapat terus menjalankan beban kerja Azure SQL Data Warehouse yang sudah ada menggunakan fitur kumpulan SQL khusus di Azure Synapse Analytics tanpa perlu perubahan apa pun. Pelanggan juga dapat mulai mengelola data gudang yang ada dengan Azure Synapse Analytics untuk memanfaatkan fitur analitik tingkat lanjut seperti eksplorasi data lake tanpa server dan mesin SQL dan Apache Spark™ yang terintegrasi.
Tanya jawab umum
-
Gudang data adalah repositori terpusat yang menampung data terstruktur (tabel database, lembar Excel) dan data semi terstruktur (file XML, halaman web) untuk tujuan pelaporan, analisis, dan bentuk inteligensi bisnis lainnya.
-
Ada banyak keuntungan menggunakan gudang data. Misalnya, gudang data menggabungkan beberapa sumber data ke dalam sumber kebenaran tunggal, yang kemudian dapat digunakan organisasi untuk membuat keputusan yang lebih tepat seputar bisnis dan operasi.
-
Gudang data menyimpan data terstruktur dan semi terstruktur, yang dapat digunakan untuk penggalian data sumber, visualisasi data, dan kasus penggunaan BI spesifik lainnya. Data lake menyimpan berbagai jenis data mentah, yang kemudian dapat digunakan oleh ilmuwan data dalam berbagai proyek.
-
Gudang data biasanya terdiri dari beberapa tingkatan: tingkat bawah, tempat data dikumpulkan dan disimpan; tingkat menengah, tempat data dianalisis; dan tingkat atas, tempat data ditampilkan bagi pengguna untuk diakses dan diuraikan.
-
Saat merancang dan membuat infrastruktur gudang data, penting untuk mempertimbangkan karakteristik data Anda dan bagaimana Anda ingin mengubahnya. Beberapa elemen umum struktur mencakup sumber data, area penahapan, gudang itu sendiri, data mart, sandbox, dan berbagai alat integrasi.
-
Banyak perusahaan perangkat lunak terkemuka kini menawarkan berbagai macam produk gudang data.
-
Kemampuan ini kini menjadi fitur Azure Synapse Analytics yang disebut kumpulan SQL khusus. Pelanggan lama Azure SQL Data Warehouse dapat terus menjalankan beban kerja mereka di sini tanpa melakukan perubahan apa pun.
Sumber daya tambahan
Prabayar
Mulai dengan harga prabayar. Tanpa keterikatan di muka, batalkan kapan saja.