Apa itu Data Lake?

Pelajari tentang perbedaan antara data lake dan gudang data. Temukan cara membangun landasan scalable untuk semua analitik Anda dengan Azure.

Definisi data lake

Panduan pengantar ini mengeksplorasi banyak manfaat dan kasus penggunaan data lake. Pelajari apa itu data lake, dan alasan pentingnya, serta temukan perbedaan antara data lake dan gudang data. Namun, tentukan data lake sebagai istilah terlebih dahulu.

Data lake adalah repositori terpusat yang menyerap dan menyimpan data dalam jumlah besar dalam bentuk aslinya. Data tersebut kemudian dapat diolah dan digunakan sebagai dasar berbagai kebutuhan analitik. Karena arsitekturnya yang terbuka dan scalable, data lake dapat menampung semua jenis data dari sumber mana pun, mulai dari terstruktur (tabel database, lembar Excel), semi-terstruktur (file XML, halaman web), hingga tidak terstruktur (gambar, file audio, twit), semuanya tanpa mengorbankan fidelitas. File data biasanya disimpan dalam zona bertahap—mentah, dibersihkan, dan dikurasi—sehingga berbagai tipe pengguna dapat menggunakan data dalam berbagai bentuk untuk memenuhi kebutuhannya. Data lake menyediakan konsistensi data inti di berbagai aplikasi, mendukung analitik data besar, pembelajaran mesin, analitik prediktif, dan bentuk tindakan cerdas lainnya.

Mengapa data lake penting bagi bisnis?

Dunia yang sangat terhubung dan berbasis wawasan saat ini tidak akan mungkin terwujud tanpa munculnya solusi data lake. Hal ini karena organisasi bergantung pada platform data lake yang komprehensif, seperti Azure Data Lake, agar data mentah tetap terkonsolidasi, terintegrasi, aman, dan mudah diakses. Alat penyimpanan scalable seperti Azure Data Lake Storage dapat menyimpan dan melindungi data di satu tempat terpusat, menghilangkan silo dengan biaya optimal. Hal ini menjadi landasan bagi pengguna untuk melakukan berbagai kategori beban kerja, seperti pemrosesan data besar, kueri SQL, penambangan teks, analitik streaming, dan pembelajaran mesin. Data tersebut kemudian dapat digunakan untuk memberi umpan visualisasi data upstram dan kebutuhan pelaporan ad-hoc. Platform data modern dan menyeluruh seperti Azure Synapse Analytics menjawab seluruh kebutuhan arsitektur data besar yang berpusat di sekitar data lake.

Kasus penggunaan data lake

Dengan solusi yang dirancang dengan baik, potensi inovasi tidak terbatas. Berikut adalah beberapa contoh bagaimana organisasi di berbagai industri menggunakan platform data lake untuk mengoptimalkan pertumbuhannya:

Media streaming. Perusahaan streaming berbasis langganan mengumpulkan dan memproses wawasan tentang perilaku pelanggan, yang dapat mereka gunakan untuk meningkatkan algoritma rekomendasinya.
Keuangan. Perusahaan investasi menggunakan data pasar terkini, yang dikumpulkan dan disimpan secara real time, untuk mengelola risiko portofolio secara efisien.
Layanan Kesehatan. Organisasi layanan kesehatan mengandalkan data besar untuk meningkatkan kualitas layanan bagi pasien. Rumah sakit menggunakan sejumlah besar data historis untuk menyederhanakan jalur pasien sehingga menghasilkan hasil yang lebih baik dan mengurangi biaya perawatan.
Retailer multisaluran. Retailer menggunakan data lake untuk merekam dan menggabungkan data yang masuk dari beberapa titik sentuh, termasuk seluler, sosial, obrolan, informasi dari mulut ke mulut, dan secara langsung.
IoT. Sensor perangkat keras menghasilkan sejumlah besar data semi-terstruktur hingga tidak terstruktur tentang dunia fisik di sekitarnya. Data lake menyediakan tempat repositori terpusat untuk menyimpan informasi ini untuk analisis di masa mendatang.
Rantai pasokan digital. Data lake membantu produsen menggabungkan data pergudangan yang berbeda, termasuk sistem EDI, XML, dan JSON.
Sales. Ilmuwan data dan teknisi penjualan sering kali membuat model prediktif untuk membantu menentukan perilaku pelanggan dan mengurangi churn secara keseluruhan.

Data lake vs. gudang data

Anda kini tahu apa itu data lake, alasan pentingnya data lake, dan cara penggunaannya di berbagai organisasi. Namun, apa perbedaan antara data lake dan gudang data? Dan kapan waktu yang tepat untuk menggunakan salah satunya?

Meskipun data lake dan gudang data serupa dalam hal keduanya menyimpan dan memproses data, masing-masing memiliki spesialisasinya sendiri sehingga memiliki kasus penggunaannya sendiri. Oleh karena itu, organisasi tingkat perusahaan biasanya menyertakan data lake dan gudang data dalam ekosistem analitiknya. Kedua repositori bekerja sama untuk membentuk sistem menyeluruh yang aman untuk penyimpanan, pemrosesan, dan waktu yang lebih cepat untuk mendapatkan wawasan.

Data lake menangkap data relasional dan non-relasional dari berbagai sumber—aplikasi bisnis, aplikasi seluler, perangkat IoT, media sosial, atau streaming—tanpa harus menentukan struktur atau skema data hingga dibaca. Skema sedang dibaca memastikan bahwa semua jenis data dapat disimpan dalam bentuk mentahnya. Hasilnya, data lake dapat menampung berbagai jenis data, dari terstruktur, semi-terstruktur, hingga tidak terstruktur, pada skala apa pun. Sifatnya yang fleksibel dan scalable membuatnya penting untuk melakukan bentuk analisis data yang kompleks menggunakan berbagai jenis alat pemrosesan komputasi, seperti Apache Spark atau Azure Machine Learning.

Sebaliknya, gudang data bersifat relasional. Struktur atau skema dimodelkan atau ditentukan sebelumnya berdasarkan kebutuhan bisnis dan produk yang dikumpulkan, disusun, dan dioptimalkan untuk operasi kueri SQL. Meskipun data lake menyimpan data dari semua jenis struktur, termasuk data mentah dan belum diproses, gudang data menyimpan data yang telah diproses dan diubah dengan tujuan tertentu, yang kemudian dapat digunakan sebagai sumber pelaporan analitik atau operasional. Hal ini membuat gudang data ideal untuk menghasilkan bentuk analisis BI yang lebih terstandarisasi, atau untuk melayani kasus penggunaan bisnis yang telah ditentukan.

	Data lake	Gudang data
Jenis	Terstruktur, semi terstruktur, tidak terstruktur	Terstruktur
	Relasional, non-relasional	Relasional
Skema	Skema sedang dibaca	Skema sedang ditulis
Format	Mentah, tidak difilter	Diproses, diperbaiki
Sumber	Big data, IoT, media sosial, data streaming	Aplikasi, bisnis, data transaksional, pelaporan batch
Skalabilitas	Mudah diskalakan dengan biaya rendah	Sulit dan mahal untuk diskalakan
Pengguna	Ilmuwan data, teknisi data	Profesional gudang data, analis bisnis
Kasus penggunaan	Pembelajaran mesin, analisis prediktif, analitik real time	Core reporting, BI

Data lake vs. data lakehouse

Anda kini tahu perbedaan antara data lake vs. gudang data. Namun, apa perbedaan antara data lake dan data lakehouse? Dan apakah keduanya perlu?

Meskipun memiliki banyak keunggulan, data lake tradisional bukannya tanpa kekurangan. Karena data lake dapat menampung semua jenis data dari berbagai sumber, masalah terkait kontrol kualitas, kerusakan data, dan partisi yang tidak tepat dapat terjadi. Data lake yang dikelola dengan buruk tidak hanya menodai integritas data, tetapi juga dapat menyebabkan hambatan, performa lambat, dan risiko keamanan.

Di sanalah data lakehouse ikut berperan. Data lakehouse adalah solusi penyimpanan berbasis standar terbuka yang bersifat multifaset. Hal ini dapat mengatasi kebutuhan teknisi dan ilmuwan data yang melakukan analisis dan pemrosesan data mendalam, serta kebutuhan profesional gudang data tradisional yang mengumpulkan dan menerbitkan data untuk tujuan inteligensi bisnis dan pelaporan. Keunggulan dari lakehouse adalah bahwa setiap beban kerja dapat beroperasi tanpa hambatan di atas data lake tanpa harus menduplikasi data ke dalam databaselain yang telah ditentukan sebelumnya secara struktural. Hal ini memastikan bahwa setiap orang mengerjakan data terkini, sekaligus mengurangi redundansi.

Data lakehouse mengatasi tantangan data lake tradisional dengan menambahkan lapisan penyimpanan Delta Lake langsung di atas data lake cloud. Lapisan penyimpanan menyediakan arsitektur analitik fleksibel yang dapat menangani transaksi ACID (atomisitas, konsistensi, isolasi, dan daya tahan) untuk keandalan data, integrasi streaming, dan fitur canggih, seperti penerapan versi data dan skema. Hal ini memungkinkan berbagai aktivitas analitik di seluruh lake, semuanya tanpa mengorbankan konsistensi data inti. Meskipun kebutuhan lakehouse tergantung seberapa kompleks kebutuhan Anda, fleksibilitas dan rentangnya menjadikannya solusi optimal bagi banyak organisasi perusahaan.

	Data lake	Data lakehouse
Jenis	Terstruktur, semi terstruktur, tidak terstruktur	Terstruktur, semi terstruktur, tidak terstruktur
	Relasional, non-relasional	Relasional, non-relasional
Skema	Skema sedang dibaca	Skema sedang baca, skema sedang menulis
Format	Mentah, tidak difilter, diproses, dikumpulkan	File mentah, tanpa filter, diproses, dikumpulkan, berformat delta
Sumber	Big data, IoT, media sosial, data streaming	Data besar, IoT, media sosial, data streaming, aplikasi, bisnis, data transaksional, pelaporan batch
Skalabilitas	Mudah diskalakan dengan biaya rendah	Mudah diskalakan dengan biaya rendah
Pengguna	Ilmuwan data	Analis bisnis, teknisi data, ilmuwan data
Kasus penggunaan	Pembelajaran mesin, analisis prediktif	Pelaporan inti, BI, pembelajaran mesin, analisis prediktif

Apa itu arsitektur data lake?

Pada intinya, data lake adalah repositori penyimpanan tanpa arsitektur tetapnya sendiri. Untuk memaksimalkan kemampuannya, diperlukan berbagai alat, teknologi, dan mesin komputasi yang membantu mengoptimalkan integrasi, penyimpanan, dan pemrosesan data. Alat-alat ini bekerja sama untuk membuat arsitektur berlapis yang kohesif, arsitektur yang diinformasikan oleh data besar dan berjalan di atas data lake. Arsitektur ini juga dapat membentuk struktur operasi data lakehouse. Setiap organisasi memiliki konfigurasi uniknya sendiri, tetapi sebagian besar arsitektur data lakehouse memiliki fitur berikut:

Manajemen sumber daya dan orkestrasi. Manajer sumber daya memungkinkan data lake menjalankan tugas secara konsisten dengan mengalokasikan jumlah data, sumber daya, dan daya komputasi yang tepat ke tempat yang tepat.
Konektor untuk kemudahan akses. Beragam alur kerja memungkinkan pengguna mengakses—dan berbagi—data yang mereka perlukan dengan mudah dalam bentuk yang diperlukan.
Analitik yang andal. Layanan analitik yang baik harus cepat, scalable, dan terdistribusi. Hal ini juga harus mendukung beragam kategori beban kerja dalam berbagai bahasa.
Klasifikasi data. Pembuatan profil, pembuatan katalog, dan pengarsipan data membantu organisasi melacak konten, kualitas, lokasi, dan riwayat data.
Proses mengekstrak, memuat, mentransformasi (ELT). ELT merujuk pada proses yang datanya diekstrak dari beberapa sumber dan dimuat ke zona mentah data lake, lalu dibersihkan dan diubah setelah ekstraksi sehingga aplikasi dapat menggunakannya dengan mudah.
Keamanan dan dukungan. Alat perlindungan data seperti penyamaran, audit, enkripsi, dan pemantauan akses memastikan bahwa data Anda tetap aman dan privat.
Tata kelola dan pengelolaan. Agar platform data lake berjalan semulus mungkin, pengguna harus dididik tentang konfigurasi arsitekturnya, serta praktik terbaik untuk manajemen data dan operasi.

Sumber daya tambahan

Tanya jawab umum

Data lake adalah repositori terpusat yang menyerap, menyimpan, dan memungkinkan pemrosesan data dalam jumlah besar dalam bentuk aslinya. Teknologi ini dapat menampung semua jenis data, yang kemudian digunakan untuk mendukung analitik data besar, pembelajaran mesin, dan bentuk tindakan cerdas lainnya.

Pelajari selengkapnya tentang data lake
Organisasi di berbagai industri, termasuk ritel, keuangan, dan hiburan, menggunakan platform data lake untuk menyimpan data, mengumpulkan wawasan, dan meningkatkan kualitas layanan mereka secara keseluruhan. Perusahaan investasi, misalnya, menggunakan data lake untuk mengumpulkan dan memproses data terkini sehingga memungkinkan mereka mengelola risiko portofolio dengan lebih efisien.
Data lake menyimpan semua jenis data mentah, yang kemudian dapat digunakan oleh ilmuwan data untuk berbagai proyek. Gudang data menyimpan data yang telah dibersihkan dan diproses, yang kemudian dapat digunakan sebagai sumber pelaporan analitik atau operasional, serta kasus penggunaan BI tertentu.

Jelajahi data lake vs. gudang data
Data lakehouse menggabungkan elemen data lake dan gudang data untuk membentuk solusi yang fleksibel dan menyeluruh untuk tujuan ilmu data dan inteligensi bisnis.

Pelajari selengkapnya tentang data lakehouse
Tentu. Organisasi besar di seluruh industri mengandalkan sejumlah besar data yang disimpan di data lake untuk mendukung tindakan cerdas, mendapatkan wawasan, dan berkembang.

Temukan manfaat data lake
Data dalam jumlah besar, termasuk data mentah dan tidak terstruktur, dapat sulit dikelola sehingga menyebabkan hambatan, kerusakan data, masalah kontrol kualitas, dan masalah performa. Oleh karena itu, penting agar mempertahankan praktik tata kelola dan pengelolaan yang baik untuk membantu Anda menjalankan platform data lake dengan lancar.
Arsitektur data lake merujuk pada konfigurasi alat dan teknologi tertentu yang membantu agar data dari data lake tetap terintegrasi, mudah diakses, tertata, dan aman.

Jelajahi praktik terbaik untuk arsitektur data lake

Akun Gratis

Coba layanan Komputasi Cloud Azure gratis hingga 30 hari.

Coba Azure secara gratis

Prabayar

Mulai dengan harga prabayar. Tanpa keterikatan di muka, batalkan kapan saja.

Jelajahi PAYG

Apa itu Data Lake?

Definisi data lake

Mengapa data lake penting bagi bisnis?

Kasus penggunaan data lake

Data lake vs. gudang data

Data lake vs. data lakehouse

Apa itu arsitektur data lake?

Sumber daya tambahan

Jelajahi

Ide solusi

Panduan

Seminar Web

Tanya jawab umum

Apa itu data lake?

Apa contoh data lake?

Apa perbedaan antara data lake dan gudang data?

Apa itu data lakehouse?

Apakah data lake penting?

Apa tantangan data lake?

Apa itu arsitektur data lake?

Akun Gratis

Prabayar