Apa itu Data Lake?
Pelajari perbedaan antara data lake dan gudang data. Temukan cara membangun dasar yang dapat diskalakan untuk semua analitik Anda dengan Azure.
Definisi data lake
Panduan pengantar ini menjelajahi banyak keuntungan dan kasus penggunaan data lake. Pelajari apa itu data lake, mengapa data lake penting, dan temukan perbedaan antara data lake dan gudang data. Namun pertama-tama, mari tentukan data lake sebagai istilah.
Data lake adalah repositori terpusat yang menyerap dan menyimpan data dalam volume besar dalam bentuk aslinya. Data kemudian dapat diproses dan digunakan sebagai dasar untuk berbagai kebutuhan analitik. Karena arsitekturnya yang terbuka dan dapat diskalakan, data lake dapat mengakomodasi semua tipe data dari semua sumber, dari terstruktur (tabel database, lembar Excel) ke semi-terstruktur (file XML, halaman web) hingga tidak terstruktur (gambar, file audio, tweet), semuanya tanpa mengorbankan fidelitas. File data biasanya disimpan dalam zona bertahap—mentah, dibersihkan, dan dikurasi—agar berbagai tipe pengguna dapat menggunakan data dalam berbagai bentuk untuk memenuhi kebutuhan mereka. Data lake menyediakan konsistensi data inti di berbagai aplikasi, mendukung analitik big data, pembelajaran mesin, analisis prediktif, dan bentuk tindakan cerdas lainnya.
Mengapa data lake penting bagi bisnis?
Dunia saat ini yang sangat terhubung dan didorong oleh wawasan tidak akan mungkin terjadi tanpa munculnya solusi data lake. Hal itu karena organisasi mengandalkan platform data lake yang komprehensif, seperti Azure Data Lake, agar data mentah tetap terkonsolidasi, terintegrasi, aman, dan mudah diakses. Alat penyimpanan yang dapat diskalakan seperti Azure Data Lake Storage dapat menyimpan dan melindungi data di satu tempat pusat, menghilangkan silo dengan biaya optimal. Platform ini juga merupakan dasar bagi pengguna untuk melakukan berbagai macam kategori beban kerja, seperti pemrosesan big data, kueri SQL, penggalian teks, analitik streaming, dan pembelajaran mesin. Data tersebut kemudian dapat digunakan untuk mengisi visualisasi data upstream dan kebutuhan pelaporan ad-hoc. Platform data modern dan menyeluruh seperti Azure Synapse Analytics memenuhi kebutuhan lengkap dari arsitektur big data yang berpusat di sekitar data lake.
Kasus penggunaan data lake
Dengan solusi yang telah dirancang dengan baik, potensi inovasi tidak ada habisnya. Berikut ini hanya sedikit contoh dari cara organisasi di berbagai industri menggunakan platform data lake untuk mengoptimalkan perkembangan mereka:
- Media streaming. Perusahaan streaming berbasis langganan mengumpulkan dan memproses wawasan tentang perilaku pelanggan, yang dapat mereka gunakan untuk meningkatkan algoritma rekomendasi mereka.
- Keuangan. Perusahaan investasi menggunakan data pasar terbaru, yang dikumpulkan dan disimpan secara real time, untuk mengelola risiko portofolio dengan efisien.
- Layanan kesehatan. Organisasi penyedia layanan kesehatan mengandalkan big data untuk meningkatkan kualitas perawatan pasien. Rumah sakit menggunakan data historis dalam jumlah besar untuk mempermudah jalur penanganan pasien, yang memberikan hasil yang lebih baik dan mengurangi biaya perawatan.
- Retailer multisaluran. Retailer menggunakan data lake untuk menangkap dan mengonsolidasikan data yang masuk dari beberapa titik sentuh, termasuk seluler, sosial, obrolan, lisan, dan secara langsung.
- IoT. Sensor perangkat keras menghasilkan sejumlah besar data semi-terstruktur hingga tidak terstruktur di dunia fisik sekitarnya. Data lake menyediakan repositori terpusat untuk menyimpan informasi ini yang kemudian dapat digunakan untuk analisis.
- Rantai pasokan digital. Data lake membantu produsen menggabungkan data pergudangan yang berbeda-beda, termasuk sistem EDI, XML, dan JSON.
- Penjualan. Ilmuwan data dan staf teknis penjualan sering kali membuat model prediktif untuk membantu menentukan perilaku pelanggan dan mengurangi churn secara keseluruhan.
Data lake vs. gudang data
Sekarang Anda tahu apa itu data lake, mengapa data lake penting, dan bagaimana data lake digunakan di berbagai organisasi. Namun, apa perbedaan antara data lake dan gudang data? Dan kapan waktu yang tepat untuk menggunakan salah satunya?
Meskipun data lake dan gudang data serupa dalam artian keduanya menyimpan dan memproses data, masing-masing memiliki spesialisasi sendiri, dan oleh karena itu, kasus penggunaannya pun berbeda. Itulah mengapa sudah umum bagi organisasi tingkat perusahaan untuk menyertakan data lake dan gudang data ke dalam ekosistem analitik mereka. Kedua repositori bekerja sama untuk membentuk sistem menyeluruh yang aman untuk penyimpanan, pemrosesan, dan mendapatkan wawasan dengan lebih cepat.
Data lake menangkap data relasional dan non-relasional dari berbagai sumber—aplikasi bisnis, aplikasi seluler, perangkat IoT, media sosial, atau streaming—tanpa harus menentukan struktur atau skema data hingga data tersebut dibaca. Skema saat dibaca memastikan bahwa setiap tipe data dapat disimpan dalam bentuk mentah. Sehingga, data lake dapat menyimpan berbagai tipe data, mulai dari terstruktur ke semi-terstruktur hingga tidak terstruktur, pada skala apa pun. Sifat yang fleksibel dan dapat diskalakan membuatnya menjadi penting untuk melakukan analisis data dalam bentuk kompleks yang menggunakan berbagai tipe alat pemrosesan komputasi seperti Apache Spark atau Azure Machine Learning.
Sebaliknya, gudang data bersifat relasional. Struktur atau skema dimodelkan atau telah ditentukan sebelumnya berdasarkan persyaratan bisnis dan produk yang telah dikurasi, disesuaikan, dan dioptimalkan untuk operasi kueri SQL. Meskipun data lake menyimpan semua tipe struktur data, termasuk data mentah dan yang belum diproses, gudang data menyimpan data yang telah diproses dan diubah untuk tujuan tertentu, yang kemudian dapat digunakan untuk analitik sumber atau pelaporan operasional. Ini membuat gudang data ideal untuk membuat bentuk analisis BI yang lebih standar, atau untuk melayani kasus penggunaan bisnis yang sudah ditetapkan.
Data lake | Gudang data | |
---|---|---|
Tipe | Terstruktur, semi terstruktur, tidak terstruktur | Terstruktur |
Relasional, non-relasional | Relasional | |
Skema | Skema saat dibaca | Skema saat menulis |
Format | Mentah, tidak difilter | Diproses, dievaluasi |
Sumber | Big data, IoT, media sosial, data streaming | Aplikasi, bisnis, data transaksi, pelaporan batch |
Skalabilitas | Mudah diskalakan dengan biaya yang rendah | Sulit dan mahal untuk diskalakan |
Pengguna | Ilmuwan data, insinyur data | Profesional gudang data, analis bisnis |
Kasus penggunaan | Pembelajaran mesin, analitik prediktif, analitik real time | Pelaporan inti, BI |
Data lake vs. data lakehouse
Sekarang Anda mengetahui perbedaan antara data lake vs. gudang data. Namun, apa perbedaan antara data lake dan data lakehouse? Dan apakah perlu memiliki keduanya?
Meskipun memiliki banyak keunggulan, data lake tradisional bukanlah tanpa kekurangan. Karena data lake dapat mengakomodasi semua tipe data dari semua jenis sumber, masalah terkait dengan kontrol kualitas, kerusakan data, dan partisi yang tidak tepat dapat muncul. Data lake yang dikelola dengan buruk tidak hanya akan menodai integritas data, tetapi juga dapat menimbulkan hambatan, kinerja yang lambat, dan risiko keamanan.
Di sanalah data lakehouse dapat berkontribusi. Data lakehouse adalah solusi penyimpanan berbasis standar terbuka yang bersifat multifungsi. Data lakehouse dapat mengatasi kebutuhan ilmuwan dan teknisi data yang melakukan analisis dan pemrosesan data mendalam, serta kebutuhan profesional gudang data tradisional yang mengumpulkan dan menerbitkan data untuk tujuan kecerdasan bisnis dan pelaporan. Yang menarik dari lakehouse adalah setiap beban kerja dapat beroperasi tanpa hambatan di atas data lake tanpa harus menduplikasi data ke database lain yang telah ditentukan sebelumnya secara struktural. Ini memastikan bahwa semua orang bekerja menggunakan data terbaru, sekaligus mengurangi redundansi.
Data lakehouse mengatasi tantangan data lake tradisional dengan menambahkan lapisan penyimpanan Delta Lake langsung di atas data lake cloud. Lapisan penyimpanan menyediakan arsitektur analitik fleksibel yang dapat menangani transaksi ACID (atomisitas, konsistensi, isolasi, dan daya tahan) untuk keandalan data, integrasi streaming, dan fitur tingkat lanjut seperti penerapan versi data dan penerapan skema. Ini memungkinkan berbagai aktivitas analitik di atas lake, semuanya tanpa mengorbankan konsistensi data inti. Meskipun kebutuhan lakehouse tergantung pada seberapa rumit kebutuhan Anda, fleksibilitas dan jangkauannya menjadikan data lakehouse sebuah solusi yang optimal bagi banyak organisasi perusahaan.
Data lake | Data lakehouse | |
---|---|---|
Tipe | Terstruktur, semi terstruktur, tidak terstruktur | Terstruktur, semi terstruktur, tidak terstruktur |
Relasional, non-relasional | Relasional, non-relasional | |
Skema | Skema saat dibaca | Skema saat dibaca, skema saat menulis |
Format | Mentah, tidak difilter, telah diproses, dikurasi | File format mentah, tidak difilter, telah diproses, dikurasi, delta |
Sumber | Big data, IoT, media sosial, data streaming | Big data, IoT, media sosial, data streaming, aplikasi, bisnis, data transaksi, pelaporan batch |
Skalabilitas | Mudah diskalakan dengan biaya yang rendah | Mudah diskalakan dengan biaya yang rendah |
Pengguna | Ilmuwan data | Analis bisnis, insinyur data, ilmuwan data |
Kasus penggunaan | Pembelajaran mesin, analisis prediktif | Pelaporan inti, BI, pembelajaran mesin, analisis prediktif |
Apa itu arsitektur data lake?
Pada intinya, data lake adalah repositori penyimpanan tanpa arsitektur tersendiri. Untuk memaksimalkan kemampuannya, diperlukan berbagai alat, teknologi, dan mesin komputasi yang membantu mengoptimalkan integrasi, penyimpanan, dan pemrosesan data. Alat-alat ini bekerja sama untuk membuat arsitektur berlapis yang kohesif, yang mendapat informasi dari big data dan berjalan di atas data lake. Arsitektur ini juga dapat membentuk struktur operasi data lakehouse. Setiap organisasi memiliki konfigurasi uniknya masing-masing, tetapi sebagian besar arsitektur data lakehouse memiliki fitur berikut:
- Manajemen dan orkestrasi sumber daya. Manajer sumber daya memungkinkan data lake menjalankan tugas secara konsisten dengan mengalokasikan jumlah data, sumber daya, dan daya komputasi yang tepat ke tempat yang tepat.
- Konektor untuk kemudahan akses. Beragam alur kerja memungkinkan pengguna untuk dengan mudah mengakses—dan membagikan—data yang dibutuhkan dalam bentuk yang mereka butuhkan.
- Analitik yang andal. Layanan analitik yang baik harus cepat, dapat diskalakan, dan terdistribusi. Layanan juga harus mendukung beragam kategori beban kerja dalam berbagai bahasa.
- Klasifikasi data. Pembuatan profil data, pembuatan katalog, dan pengarsipan membantu organisasi melacak konten, kualitas, lokasi, dan riwayat data.
- Ekstrak, muat, ubah (ELT) proses. ELT merujuk pada proses yang mengekstrak data dari beberapa sumber dan dimuat ke zona mentah data lake, setelah ekstraksi lalu dibersihkan dan diubah sehingga aplikasi dapat menggunakannya dengan mudah.
- Keamanan dan dukungan. Alat perlindungan data seperti masking, audit, enkripsi, dan pemantauan akses memastikan bahwa data Anda tetap aman dan privat.
- Pemerintahan and kepengurusan. Agar platform data lake berjalan selancar mungkin, pengguna harus diedukasi tentang konfigurasi arsitektural platform, serta praktik terbaik untuk manajemen operasi dan data.
Sumber daya tambahan
Jelajahi
Pertanyaan yang sering diajukan
-
Data lake adalah repositori terpusat yang menyerap, menyimpan, dan memungkinkan pemrosesan data dengan volume besar dalam bentuk aslinya. Layanan ini dapat mengakomodasi semua tipe data, yang kemudian digunakan untuk mendukung analitik big data, pembelajaran mesin, dan bentuk tindakan cerdas lainnya.
-
Organisasi di berbagai industri, termasuk ritel, keuangan, dan hiburan, menggunakan platform data lake untuk menyimpan data, mengumpulkan wawasan, serta meningkatkan kualitas layanan mereka secara keseluruhan. Perusahaan investasi, misalnya menggunakan data lake untuk mengumpulkan dan memproses data up-to-market, memungkinkan perusahaan mengelola risiko portofolio dengan lebih efisien.
-
Data lake menyimpan semua tipe data mentah, yang kemudian dapat digunakan oleh ilmuwan data untuk berbagai proyek. Gudang data menyimpan data yang telah dibersihkan dan diproses, yang kemudian dapat digunakan untuk analitik sumber atau pelaporan operasional, serta kasus penggunaan BI tertentu.
-
Data lakehouse menggabungkan elemen-elemen dari data lake dan gudang data untuk membentuk solusi menyeluruh yang fleksibel untuk tujuan ilmu data dan kecerdasan bisnis.
-
Betul. Organisasi besar di seluruh industri mengandalkan data dalam jumlah sangat besar yang disimpan di data lake untuk mendukung tindakan cerdas, mendapatkan wawasan, dan berkembang.
-
Data dalam volume yang besar, termasuk data mentah dan tidak terstruktur, dapat sulit dikelola, yang dapat menyebabkan hambatan, kerusakan data, masalah kontrol kualitas, dan masalah kinerja. Itulah mengapa penting untuk menjaga prakitik tata kelola dan kepengurusan yang baik untuk membantu Anda menjalankan platform data lake dengan lancar.
-
Arsitektur data lake mengacu pada konfigurasi alat dan teknologi tertentu yang membantu menjaga data dari data lake tetap terintegrasi, mudah diakses, teratur, dan aman.
Akun Gratis
Coba layanan Komputasi Cloud Azure gratis hingga 30 hari.
Prabayar
Mulai dengan harga PAYG. Tidak ada komitmen di muka dan batalkan kapan saja.