Lewati Navigasi

Apa itu gudang data?

Pelajari apa itu gudang data, manfaat menggunakannya, praktik terbaik yang dapat dipertimbangkan selama fase desain, dan alat mana yang harus digabungkan saat akan membangun.

Apa itu gudang data?

Pertama-tama, mari tegaskan apa itu gudang data dan mengapa Anda mungkin ingin menggunakannya untuk organisasi Anda.

Gudang data adalah repositori terpusat yang menyimpan data terstruktur (tabel database, lembar Excel) dan data semi-terstruktur (file XML, halaman web) untuk tujuan pelaporan dan analisis. Data mengalir dari berbagai sumber, seperti sistem titik penjualan, aplikasi bisnis, dan database hubungan, serta biasanya dibersihkan dan distandarisasi sebelum data sampai ke gudang. Karena gudang data dapat menyimpan informasi dalam jumlah besar, gudang data menyediakan akses mudah bagi pengguna ke berbagai data riwayat, yang dapat digunakan untuk penggalian data, visualisasi data, dan bentuk pelaporan kecerdasan bisnis lainnya.

Manfaat dari gudang data

Data yang andal, terutama saat dikumpulkan dalam jangka waktu yang panjang, dapat membantu pengguna membuat keputusan yang lebih cerdas dan lebih tepat tentang cara pengguna menjalankan organisasi—dan gudang data lah yang memungkinkan hal tersebut. Banyak sekali manfaat dari pergudangan data perusahaan, namun beberapa manfaat yang paling berdampak meliputi:

  • Menggabungkan data dari beberapa sumber menjadi satu sumber kebenaran
  • Menyimpan dan menganalisis data riwayat jangka panjang yang mencakup beberapa bulan dan beberapa tahun
  • Membersihkan dan mengubah data sehingga data tersebut akurat, konsisten, dan dalam struktur dan formulir standar
  • Mengurangi waktu kueri saat mengumpulkan data dan memproses analitik, yang meningkatkan performa di seluruh sistem secara keseluruhan
  • Memuat data secara efisien tanpa harus menangani biaya penyebaran atau infrastruktur
  • Mengamankan data sehingga data bersifat privat, terlindungi, dan aman
  • Menyiapkan data untuk analisis melalui penggalian data, alat visualisasi, dan bentuk analitik tingkat lanjut lainnya

Gudang data vs. data lake

Jelas bahwa gudang data merupakan hal yang sangat penting bagi operasi analitik organisasi apa pun. Namun, apa perbedaan antara gudang data dan tipe repositori data lainnya, seperti data lake? Dan kapan harus menggunakan salah satunya?

Sebagai repositori, gudang data dan data lake menyimpan dan memproses data. Namun, meskipun kedua repositori tersebut seperti menawarkan fungsionalitas yang sama, masing-masing memiliki kasus penggunaan khusus. Inilah sebabnya mengapa organisasi secara umum menggabungkan kedua sistem tersebut untuk membentuk solusi ujung-ke-ujung dan menyeluruh yang dapat menangani berbagai tujuan.

Gudang data bersifat relasional. Artinya, struktur atau skema data ditentukan oleh persyaratan bisnis dan produk yang telah ditentukan sebelumnya yang dikurasi, disusun, dan dioptimalkan untuk operasi kueri SQL. Sebagai hasilnya, gudang data paling baik digunakan untuk menyimpan data yang telah diperlakukan dengan tujuan tertentu, seperti penggalian data untuk analisis BI, atau untuk menjadi sumber untuk mencari kasus penggunaan bisnis yang telah diidentifikasi.

Seperti gudang data, data lake menampung data terstruktur dan semi-terstruktur. Namun, kedua repositori ini juga dapat menampung data mentah dan yang belum diproses dari berbagai sumber non-relasional, termasuk aplikasi seluler, perangkat IoT, media sosial, atau streaming. Hal ini dikarenakan struktur atau skema dalam data lake tidak ditentukan hingga data tersebut dibaca. Sebagai hasil dari sifatnya yang fleksibel dan dapat diskalakan, data lake sering digunakan untuk melakukan bentuk analisis data yang cerdas, seperti pembelajaran mesin.

Tidak tersedia Data lake Gudang data
Tipe Terstruktur, semi terstruktur, tidak terstruktur
Relasional, non-relasional
Terstruktur
Relasional
Skema Skema saat dibaca Skema saat ditulis
Format Mentah, tidak difilter Diproses, dievaluasi
Sumber Big data, IoT, media sosial, data streaming Aplikasi, bisnis, data transaksi, pelaporan batch
Skalabilitas Mudah diskalakan dengan biaya yang rendah Sulit dan mahal untuk diskalakan
Pengguna Ilmuwan data, insinyur data Profesional gudang data, analis bisnis
Kasus penggunaan Pembelajaran mesin, analitik prediktif, analitik real time Pelaporan inti, BI

Arsitektur dan desain gudang data

Sekarang setelah mengetahui alasan dan kapan Anda harus menggunakan gudang data, mari kita pelajari cara kerjanya dengan melihat desain gudang data. Gudang data lebih dari sekadar satu silo yang beroperasi sendiri. Lebih tepatnya, gudang data adalah sistem yang sangat terstruktur dan dirancang dengan saksama yang terdiri dari beberapa tingkatan yang berinteraksi dengan data Anda—dan dengan data lainnya—dalam cara yang berbeda. Biasanya, tingkat ini mencakup:

Tingkat bawah

Data diserap dari beberapa sumber, lalu dibersihkan dan diubah agar dapat digunakan aplikasi lain dalam proses yang disebut ekstraksi, transformasi, dan pemuatan (ETL). Tingkat bawah juga merupakan tempat data disimpan dan dioptimalkan, yang dapat menghasilkan waktu kueri yang lebih cepat dan kinerja yang lebih baik secara keseluruhan.

Tingkat tengah

Di sini Anda akan menemukan mesin analitik, juga dikenal sebagai server pemrosesan analitik online (OLAP). Server OLAP mengakses data dengan volume besar dari gudang data dengan kecepatan tinggi, yang dapat mengeluarkan hasil secepat kilat.

Tingkat atas

Tingkat atas adalah tempat antarmuka front-end menyajikan secara visual data yang telah diproses, yang dapat diakses dan digunakan oleh analis untuk semua kebutuhan pelaporan dan layanan mandiri BI mereka.

Cara membangun gudang data

Ketika mendesain dan membangun gudang data, penting untuk mempertimbangkan tujuan dari organisasi Anda, baik jangka panjang maupun ad-hoc, serta sifat dari data Anda. Berapa banyak sumber data yang Anda integrasikan? Apakah Anda berencana untuk mengotomatiskan alur kerja? Bagaimana cara Anda akan menjelajahi dan menganalisis data Anda? Pembangunan Anda akan bervariasi tergantung pada kompleksitas kebutuhan Anda, tetapi gudang database perusahaan biasanya terdiri dari komponen berikut:

  1. Sumber data yang mengekstrak data operasional dari sistem titik penjualan, aplikasi bisnis, dan database hubungan lainnya
  2. Area penahapan tempat data dibersihkan dan diubah untuk gudang atau repositori terpusat
  3. Gudang atau repositori terpusat yang menyimpan data operasional yang telah diproses, metadata, data ringkasan, dan data mentah untuk kemudahan akses pengguna
  4. Penambahan Data mart, yang mengambil data dari repositori terpusat dan menyajikannya dalam subset untuk grup pengguna yang dipilih
  5. Sandbox, yang akan digunakan ilmuwan data untuk menguji bentuk eksplorasi data baru di lingkungan terlindungi
  6. Berbagai kerangka kerja, API, dan alat pergudangan data untuk integrasi, penyimpanan, performa, dan analisis

Alat, perangkat lunak, dan sumber daya gudang data

Di dunia sekarang ini yang sangat bergantung pada data, banyak perusahaan perangkat lunak besar bangga telah menggunakan berbagai perangkat lunak gudang data yang tampak tak ada habisnya, masing-masing dengan kasus penggunaan khususnya sendiri. Solusi ini mungkin tampak menakutkan, tetapi untuk membangun solusi berkinerja tinggi yang kohesif, Anda akan ingin berinvestasi dalam alat dan teknologi yang tepat. Setiap organisasi memiliki kebutuhan yang berbeda, namun berikut adalah beberapa produk gudang data penting yang dapat Anda periksa:

Pergudangan data cloud dan cloud hibrid

Solusi pergudangan data terpadu berbasis cloud, seperti Azure Synapse Analytics, memberikan organisasi kemampuan untuk menskalakan, menghitung, dan menyimpan dengan lebih cepat dan lebih hemat.

Alat integrasi data

Alur ETL memungkinkan pengguna membuat, menjadwalkan, dan mengatur alur kerja mereka sehingga data sumber terintegrasi, dibersihkan, dan distandarisasi secara otomatis.

Penyimpanan objek

Solusi penyimpanan objek dapat menampung data terstruktur, semi terstruktur, dan tidak terstruktur dalam jumlah besar, yang membuatnya sempurna untuk penahapan data sumber sebelum dimuat ke gudang.

Alat pergudangan

Solusi penyimpanan terdistribusi yang menyimpan serangkaian data yang besar dalam tabel relasional dengan penyimpanan kolumnar. Solusi ini dapat secara signifikan menurunkan biaya, meningkatkan performa kueri, dan mempercepat waktu untuk mendapatkan wawasan.

Alat kinerja

Untuk meningkatkan performa aplikasi, Anda mungkin ingin menggabungkan Apache Spark, kerangka kerja pemrosesan paralel sumber terbuka yang mendukung pemrosesan dalam memori.

Manajemen sumber daya dan beban kerja

Manajer sumber daya mengalokasikan daya komputasi ke beban kerja sehingga Anda dapat memuat, menganalisis, mengelola, dan mengekspor data dengan tepat.

Pemodelan data

Pemodelan data menggabungkan beberapa sumber data menjadi satu model semantik, memberikan tampilan data yang terstruktur dan sederhana.

Alat kecerdasan bisnis

Alat analitik bisnis membantu menyediakan wawasan kepada pengguna dalam bentuk dasbor, laporan, dan alat visualisasi lainnya.

Fitur keamanan dan privasi

Fitur keamanan dan kepatuhan seperti enkripsi data, autentikasi pengguna, dan pemantauan akses memastikan bahwa data Anda tetap terlindungi.

Apa yang terjadi dengan Gudang Data Azure SQL?

Kemampuan yang terkait dengan Gudang Data Azure SQL kini menjadi fitur Azure Synapse Analytics yang disebut kumpulan SQL khusus. Pelanggan Gudang Data Azure SQL yang ada dapat terus menjalankan beban kerja Gudang Data Azure SQL mereka yang sudah ada menggunakan fitur kumpulan SQL khusus di Azure Synapse Analytics tanpa harus melalui perubahan apa pun. Pelanggan juga dapat mulai mengelola data gudang mereka yang sudah ada dengan Azure Synapse Analytics untuk memanfaatkan fitur analitik tingkat lanjut seperti eksplorasi data lake tanpa server dan mesin SQL dan Apache Spark™ terintegrasi.

Tanya jawab umum

  • Gudang data adalah repositori terpusat yang menampung data terstruktur (tabel database, lembar Excel) dan data semi-terstruktur (file XML, halaman web) untuk tujuan pelaporan, analisis, dan bentuk kecerdasan bisnis lainnya.

    Pelajari selengkapnya tentang gudang data

  • Banyak sekali manfaat dari menggunakan gudang data. Misalnya, gudang data dapat menggabungkan beberapa sumber data menjadi satu sumber kebenaran, yang kemudian dapat digunakan organisasi untuk membuat keputusan seputar bisnis dan operasi dengan lebih tepat.

    Jelajahi manfaat tambahannya

  • Gudang data menyimpan data terstruktur dan semi-terstruktur, yang dapat digunakan untuk menjadi sumber penggalian data, visualisasi data, dan kasus penggunaan BI khusus lainnya. Data lake menyimpan berbagai tipe data mentah, yang kemudian dapat digunakan oleh ilmuwan data untuk menjadi sumber berbagai proyek.
  • Gudang data biasanya terdiri dari beberapa tingkatan: tingkat bawah, tempat data dikumpulkan dan disimpan; tingkat tengah, tempat data dianalisis; dan tingkat atas, tempat data ditampilkan untuk diakses dan diurai oleh pengguna.

    Temukan arsitektur gudang data

  • Saat mendesain dan membangun infrastruktur gudang data, penting untuk mempertimbangkan sifat dari data Anda dan bagaimana Anda ingin mengubahnya. Beberapa elemen umum membangun umum mencakup sumber data, area penahapan, gudang itu sendiri, data mart, sandbox, dan berbagai alat integrasi.

    Dapatkan tips tentang cara membangun gudang data

  • Banyak perusahaan perangkat lunak besar kini bangga telah menggunakan berbagai macam produk gudang data.

    Jelajahi alat, perangkat lunak, dan sumber daya gudang data

  • Kemampuan ini kini menjadi fitur dari Azure Synapse Analytics yang disebut kumpulan SQL khusus. Pelanggan Gudang Data Azure SQL yang ada dapat terus menjalankan beban kerja mereka di sini tanpa membuat perubahan apa pun.

    Pelajari selengkapnya tentang Gudang Data Azure SQL

Mulai menggunakan akun gratis Azure

Nikmati layanan analitik populer gratis selama 12 bulan, lebih dari 25 layanan yang selalu gratis, dan $200 kredit untuk digunakan selama 30 hari pertama Anda.

Sambungkan dengan spesialis penjualan Azure

Dapatkan saran tentang memulai analitik di Azure. Ajukan pertanyaan, pelajari tentang harga dan praktik terbaik, serta dapatkan bantuan dalam menyusun solusi untuk memenuhi kebutuhan Anda.