Lewati Navigasi

Apa itu Data Lake

Lihat perbedaan data lake dengan gudang data dan data lakehouse. Temukan cara membangun dasar yang dapat diskalakan untuk semua analitik Anda dengan Azure.

Apa itu data lake?

Panduan pengantar ini menjelajahi banyak keuntungan dan kasus penggunaan data lake. Pelajari apa itu data lake, mengapa data lake penting, dan perbedaannya dengan gudang data atau data lakehouse. Namun pertama-tama, mari tetapkan data lake sebagai istilah.

Data lake adalah repositori terpusat yang menyerap dan menyimpan data dalam volume besar dalam bentuk aslinya. Data kemudian dapat diproses dan digunakan sebagai dasar untuk berbagai kebutuhan analitik. Karena arsitekturnya yang terbuka dan dapat diskalakan, data lake dapat mengakomodasi semua tipe data dari semua sumber, dari terstruktur (tabel database, lembar Excel) ke semi-terstruktur (file XML, halaman web) hingga tidak terstruktur (gambar, file audio, tweet), semuanya tanpa mengorbankan fidelitas. File data biasanya disimpan dalam zona bertahap—mentah, dibersihkan, dan dikurasi—agar berbagai tipe pengguna dapat menggunakan data dalam berbagai bentuk untuk memenuhi kebutuhan mereka. Data lake menyediakan konsistensi data inti di berbagai aplikasi, mendukung analitik big data, pembelajaran mesin, analisis prediktif, dan bentuk tindakan cerdas lainnya.

Apakah data lake penting?

Dunia saat ini yang sangat terhubung dan didorong oleh wawasan tidak akan mungkin terjadi tanpa munculnya solusi data lake. Hal itu karena organisasi mengandalkan platform data lake yang komprehensif, seperti Azure Data Lake, agar data mentah tetap terkonsolidasi, terintegrasi, aman, dan mudah diakses. Alat penyimpanan yang dapat diskalakan seperti Azure Data Lake Storage dapat menyimpan dan melindungi data di satu tempat pusat, menghilangkan silo dengan biaya optimal. Platform ini juga merupakan dasar bagi pengguna untuk melakukan berbagai macam kategori beban kerja, seperti pemrosesan big data, kueri SQL, penggalian teks, analitik streaming, dan pembelajaran mesin. Data tersebut kemudian dapat digunakan untuk mengisi visualisasi data upstream dan kebutuhan pelaporan ad-hoc. Platform data modern dan menyeluruh seperti Azure Synapse Analytics memenuhi kebutuhan lengkap dari arsitektur big data yang berpusat di sekitar data lake.

Kasus penggunaan data lake

Dengan solusi yang telah dirancang dengan baik, potensi inovasi tidak ada habisnya. Berikut ini hanya sedikit contoh dari cara organisasi di berbagai industri menggunakan platform data lake untuk mengoptimalkan perkembangan mereka:

  • Media streaming. Perusahaan streaming berbasis langganan mengumpulkan dan memproses wawasan tentang perilaku pelanggan, yang dapat mereka gunakan untuk meningkatkan algoritma rekomendasi mereka.
  • Keuangan. Perusahaan investasi menggunakan data pasar terbaru, yang dikumpulkan dan disimpan secara real time, untuk mengelola risiko portofolio dengan efisien.
  • Layanan kesehatan. Organisasi penyedia layanan kesehatan mengandalkan big data untuk meningkatkan kualitas perawatan pasien. Rumah sakit menggunakan data historis dalam jumlah besar untuk mempermudah jalur penanganan pasien, yang memberikan hasil yang lebih baik dan mengurangi biaya perawatan.
  • Retailer multisaluran. Retailer menggunakan data lake untuk menangkap dan mengonsolidasikan data yang masuk dari beberapa titik sentuh, termasuk seluler, sosial, obrolan, lisan, dan secara langsung.
  • IoT. Sensor perangkat keras menghasilkan sejumlah besar data semi-terstruktur hingga tidak terstruktur di dunia fisik sekitarnya. Data lake menyediakan repositori terpusat untuk menyimpan informasi ini yang kemudian dapat digunakan untuk analisis.
  • Rantai pasokan digital. Data lake membantu produsen menggabungkan data pergudangan yang berbeda-beda, termasuk sistem EDI, XML, dan JSON.
  • Penjualan. Ilmuwan data dan staf teknis penjualan sering kali membuat model prediktif untuk membantu menentukan perilaku pelanggan dan mengurangi churn secara keseluruhan.

Data lake vs. gudang data

Sekarang Anda tahu apa itu data lake, mengapa data lake penting, dan bagaimana data lake digunakan di berbagai organisasi. Namun, apa perbedaan antara data lake vs. gudang data? Dan kapan waktu yang tepat untuk menggunakan salah satunya?

Meskipun data lake dan gudang data serupa dalam artian keduanya menyimpan dan memproses data, masing-masing memiliki spesialisasi sendiri, dan oleh karena itu, kasus penggunaannya pun berbeda. Itulah mengapa sudah umum bagi organisasi tingkat perusahaan untuk menyertakan data lake dan gudang data ke dalam ekosistem analitik mereka. Kedua repositori bekerja sama untuk membentuk sistem menyeluruh yang aman untuk penyimpanan, pemrosesan, dan mendapatkan wawasan dengan lebih cepat.

Data lake menangkap data relasional dan non-relasional dari berbagai sumber—aplikasi bisnis, aplikasi seluler, perangkat IoT, media sosial, atau streaming—tanpa harus menentukan struktur atau skema data hingga data tersebut dibaca. Skema saat dibaca memastikan bahwa setiap tipe data dapat disimpan dalam bentuk mentah. Sehingga, data lake dapat menyimpan berbagai tipe data, mulai dari terstruktur ke semi-terstruktur hingga tidak terstruktur, pada skala apa pun. Sifat yang fleksibel dan dapat diskalakan membuatnya menjadi penting untuk melakukan analisis data dalam bentuk kompleks yang menggunakan berbagai tipe alat pemrosesan komputasi seperti Apache Spark atau Azure Machine Learning.

Sebaliknya, gudang data bersifat relasional. Struktur atau skema dimodelkan atau telah ditentukan sebelumnya berdasarkan persyaratan bisnis dan produk yang telah dikurasi, disesuaikan, dan dioptimalkan untuk operasi kueri SQL. Meskipun data lake menyimpan semua tipe struktur data, termasuk data mentah dan yang belum diproses, gudang data menyimpan data yang telah diproses dan diubah untuk tujuan tertentu, yang kemudian dapat digunakan untuk analitik sumber atau pelaporan operasional. Ini membuat gudang data ideal untuk membuat bentuk analisis BI yang lebih standar, atau untuk melayani kasus penggunaan bisnis yang sudah ditetapkan.

Tidak tersedia Data lake Gudang data
Tipe Terstruktur, semi terstruktur, tidak terstruktur Terstruktur
Tidak tersedia Relasional, non-relasional Relasional
Skema Skema saat dibaca Skema saat menulis
Format Mentah, tidak difilter Diproses, dievaluasi
Sumber Big data, IoT, media sosial, data streaming Aplikasi, bisnis, data transaksi, pelaporan batch
Skalabilitas Mudah diskalakan dengan biaya yang rendah Sulit dan mahal untuk diskalakan
Pengguna Ilmuwan data, insinyur data Profesional gudang data, analis bisnis
Kasus penggunaan Pembelajaran mesin, analitik prediktif, analitik real time Pelaporan inti, BI

Apa itu data lakehouse?

Sekarang Anda mengetahui perbedaan antara data lake vs. gudang data. Namun, apa perbedaan antara data lake vs. data lakehouse? Dan apakah perlu memiliki keduanya?

Meskipun memiliki banyak keunggulan, data lake tradisional bukanlah tanpa kekurangan. Karena data lake dapat mengakomodasi semua tipe data dari semua jenis sumber, masalah terkait dengan kontrol kualitas, kerusakan data, dan partisi yang tidak tepat dapat muncul. Data lake yang dikelola dengan buruk tidak hanya akan menodai integritas data, tetapi juga dapat menimbulkan hambatan, kinerja yang lambat, dan risiko keamanan.

Di sanalah data lakehouse dapat berkontribusi. Data lakehouse adalah solusi penyimpanan berbasis standar terbuka yang bersifat multifungsi. Data lakehouse dapat mengatasi kebutuhan ilmuwan dan teknisi data yang melakukan analisis dan pemrosesan data mendalam, serta kebutuhan profesional gudang data tradisional yang mengumpulkan dan menerbitkan data untuk tujuan kecerdasan bisnis dan pelaporan. Yang menarik dari lakehouse adalah setiap beban kerja dapat beroperasi tanpa hambatan di atas data lake tanpa harus menduplikasi data ke database lain yang telah ditentukan sebelumnya secara struktural. Ini memastikan bahwa semua orang bekerja menggunakan data terbaru, sekaligus mengurangi redundansi.

Data lakehouse mengatasi tantangan data lake tradisional dengan menambahkan lapisan penyimpanan Delta Lake langsung di atas data lake cloud. Lapisan penyimpanan menyediakan arsitektur analitik fleksibel yang dapat menangani transaksi ACID (atomisitas, konsistensi, isolasi, dan daya tahan) untuk keandalan data, integrasi streaming, dan fitur tingkat lanjut seperti penerapan versi data dan penerapan skema. Ini memungkinkan berbagai aktivitas analitik di atas lake, semuanya tanpa mengorbankan konsistensi data inti. Meskipun kebutuhan lakehouse tergantung pada seberapa rumit kebutuhan Anda, fleksibilitas dan jangkauannya menjadikan data lakehouse sebuah solusi yang optimal bagi banyak organisasi perusahaan.

Tidak tersedia Data lake Data lakehouse
Tipe Terstruktur, semi terstruktur, tidak terstruktur Terstruktur, semi terstruktur, tidak terstruktur
Tidak tersedia Relasional, non-relasional Relasional, non-relasional
Skema Skema saat dibaca Skema saat dibaca, skema saat menulis
Format Mentah, tidak difilter, telah diproses, dikurasi File format mentah, tidak difilter, telah diproses, dikurasi, delta
Sumber Big data, IoT, media sosial, data streaming Big data, IoT, media sosial, data streaming, aplikasi, bisnis, data transaksi, pelaporan batch
Skalabilitas Mudah diskalakan dengan biaya yang rendah Mudah diskalakan dengan biaya yang rendah
Pengguna Ilmuwan data Analis bisnis, insinyur data, ilmuwan data
Kasus penggunaan Pembelajaran mesin, analisis prediktif Pelaporan inti, BI, pembelajaran mesin, analisis prediktif

Apa itu arsitektur data lake?

Pada intinya, data lake adalah repositori penyimpanan tanpa arsitektur tersendiri. Untuk memaksimalkan kemampuannya, diperlukan berbagai alat, teknologi, dan mesin komputasi yang membantu mengoptimalkan integrasi, penyimpanan, dan pemrosesan data. Alat-alat ini bekerja sama untuk membuat arsitektur berlapis yang kohesif, yang mendapat informasi dari big data dan berjalan di atas data lake. Arsitektur ini juga dapat membentuk struktur operasi data lakehouse. Setiap organisasi memiliki konfigurasi uniknya masing-masing, tetapi sebagian besar arsitektur data lakehouse memiliki fitur berikut:

  • Manajemen dan orkestrasi sumber daya. Manajer sumber daya memungkinkan data lake menjalankan tugas secara konsisten dengan mengalokasikan jumlah data, sumber daya, dan daya komputasi yang tepat ke tempat yang tepat.
  • Konektor untuk kemudahan akses. Beragam alur kerja memungkinkan pengguna untuk dengan mudah mengakses—dan membagikan—data yang dibutuhkan dalam bentuk yang mereka butuhkan.
  • Analitik yang andal. Layanan analitik yang baik harus cepat, dapat diskalakan, dan terdistribusi. Layanan juga harus mendukung beragam kategori beban kerja dalam berbagai bahasa.
  • Klasifikasi data. Pembuatan profil data, pembuatan katalog, dan pengarsipan membantu organisasi melacak konten, kualitas, lokasi, dan riwayat data.
  • Ekstrak, muat, ubah (ELT) proses. ELT merujuk pada proses yang mengekstrak data dari beberapa sumber dan dimuat ke zona mentah data lake, setelah ekstraksi lalu dibersihkan dan diubah sehingga aplikasi dapat menggunakannya dengan mudah.
  • Keamanan dan dukungan. Alat perlindungan data seperti masking, audit, enkripsi, dan pemantauan akses memastikan bahwa data Anda tetap aman dan privat.
  • Pemerintahan and kepengurusan. Agar platform data lake berjalan selancar mungkin, pengguna harus diedukasi tentang konfigurasi arsitektural platform, serta praktik terbaik untuk manajemen operasi dan data.

Pertanyaan yang sering diajukan

  • Data lake adalah repositori terpusat yang menyerap, menyimpan, dan memungkinkan pemrosesan data dengan volume besar dalam bentuk aslinya. Layanan ini dapat mengakomodasi semua tipe data, yang kemudian digunakan untuk mendukung analitik big data, pembelajaran mesin, dan bentuk tindakan cerdas lainnya.

    Pelajari selengkapnya tentang data lake

  • Data lake menyimpan semua tipe data mentah, yang kemudian dapat digunakan oleh ilmuwan data untuk berbagai proyek. Gudang data menyimpan data yang telah dibersihkan dan diproses, yang kemudian dapat digunakan untuk analitik sumber atau pelaporan operasional, serta kasus penggunaan BI tertentu.

    Jelajahi data lake vs. gudang data

  • Data lakehouse menggabungkan elemen-elemen dari data lake dan gudang data untuk membentuk solusi menyeluruh yang fleksibel untuk tujuan ilmu data dan kecerdasan bisnis.

    Pelajari selengkapnya tentang data lakehouse

  • Betul. Organisasi besar di seluruh industri mengandalkan data dalam jumlah sangat besar yang disimpan di data lake untuk mendukung tindakan cerdas, mendapatkan wawasan, dan berkembang.

    Temukan keuntungan dari data lake

  • Arsitektur data lake mengacu pada konfigurasi alat dan teknologi tertentu yang membantu menjaga data dari data lake tetap terintegrasi, mudah diakses, teratur, dan aman.

    Jelajahi praktik terbaik untuk arsitektur data lake

Mulai menggunakan akun gratis Azure

Nikmati layanan analitik populer gratis selama 12 bulan, lebih dari 25 layanan yang selalu gratis, dan $200 kredit untuk digunakan selama 30 hari pertama Anda.

Sambungkan dengan spesialis penjualan Azure

Dapatkan saran tentang memulai analitik di Azure. Ajukan pertanyaan, pelajari tentang harga dan praktik terbaik, serta dapatkan bantuan dalam menyusun solusi untuk memenuhi kebutuhan Anda.