Che cos'è un data lake?

Informazioni sulla differenza tra data lake e data warehouse. Scopri come creare una base scalabile per tutte le tue analisi con Azure.

Definizione di data lake

Questa guida introduttiva illustra i numerosi vantaggi e casi d'uso di un data lake. Scopri cos'è un data lake, perché è importante e scopri la differenza tra data lake e data warehouse. Ma prima di tutto definiamo data lake come termine.

Un data lake è un repository centralizzato che inserisce e archivia grandi volumi di dati nel formato originale. I dati possono quindi essere elaborati e usati come base per un'ampia gamma di esigenze di analisi. Grazie alla sua architettura aperta e scalabile, un data lake può contenere tutti i tipi di dati da qualsiasi origine, dalle tabelle di database strutturate (tabelle di database, fogli di Excel) a semistrutturati (file XML, pagine Web) a non strutturati (immagini, file audio, tweet), il tutto senza sacrificare la fedeltà. I file di dati vengono in genere archiviati in zone a fasi, non elaborate, puliti e curati, in modo che diversi tipi di utenti possano usare i dati nelle varie forme per soddisfare le proprie esigenze. I data lake forniscono la coerenza dei dati di base in un'ampia gamma di applicazioni, potenziando l'analisi dei Big Data, l'apprendimento automatico, l'analisi predittiva e altre forme di azione intelligente.

Perché i data lake sono importanti per le aziende?

Il mondo oggi altamente connesso e basato sulle informazioni dettagliate non sarebbe possibile senza l'avvento di soluzioni data lake. Questo perché le organizzazioni si affidano a piattaforme complete di data lake, ad esempio Azure Data Lake, per mantenere i dati non elaborati consolidati, integrati, sicuri e accessibili. Strumenti di archiviazione scalabili come Azure Data Lake Storage possono contenere e proteggere i dati in un'unica posizione centrale, eliminando i silo a un costo ottimale. Ciò costituisce la base per consentire agli utenti di eseguire un'ampia gamma di categorie di carico di lavoro, ad esempio l'elaborazione di Big Data, query SQL, il data mining del testo, l'analisi di streaming e Machine Learning. I dati possono quindi essere usati per soddisfare le esigenze di visualizzazione dei dati upstream e di creazione di report ad hoc. Una piattaforma dati end-to-end moderna come Azure Synapse Analytics soddisfa le esigenze complete di un'architettura di Big Data incentrata sul data lake.

Casi d'uso di Data Lake

Con una soluzione ben progettato, il potenziale di innovazione è infinito. Ecco alcuni esempi del modo in cui le organizzazioni di diversi settori usano le piattaforme data lake per ottimizzare la crescita:

Streaming multimediale. Le società di streaming basate su sottoscrizione raccolgono ed elaborano informazioni dettagliate sul comportamento dei clienti, che possono usare per migliorare l'algoritmo di raccomandazione.
Finanza. Le società di investimento usano i dati di mercato più aggiornati, raccolti e archiviati in tempo reale, per gestire in modo efficiente i rischi del portfolio.
Sanità. Le organizzazioni del settore sanitario si affidano ai Big Data per migliorare la qualità dell'assistenza ai pazienti. Gli ospedali usano grandi quantità di dati cronologici per semplificare i percorsi dei pazienti, ottenendo risultati migliori e costi ridotti per l'assistenza.
Rivenditore Omnichannel. I rivenditori usano data lake per acquisire e consolidare i dati provenienti da più punti di contatto, tra cui dispositivi mobili, social network, chat, passaparola e di persona.
IoT. I sensori hardware generano enormi quantità di dati semistrutturati e non strutturati nel mondo fisico circostante. I data lake forniscono un repository centrale in cui inserire queste informazioni per l'analisi futura.
Supply chain digitale. I data lake aiutano i produttori a consolidare dati di warehousing diversi, inclusi sistemi EDI, XML e JSON.
Vendite. I data scientist e i tecnici delle vendite spesso creano modelli predittivi per determinare il comportamento dei clienti e ridurre la varianza complessiva.

Data warehouse vs data lake

Ora sai cos'è un data lake, perché è importante e come viene usato in un'ampia gamma di organizzazioni. Ma qual è la differenza tra un data lake e un data warehouse? E quando è opportuno usare uno sopra l'altro?

Mentre i data lake e i data warehouse sono simili in quanto archiviano ed elaborano i dati, ognuno ha le proprie specializzazioni e quindi i propri casi d'uso. Per questo motivo è comune che un'organizzazione a livello aziendale includa un data lake e un data warehouse nel proprio ecosistema di analisi. Entrambi i repository interagiscono per formare un sistema end-to-end sicuro per l'archiviazione, l'elaborazione e tempi di analisi più rapidi.

Un data lake acquisisce dati relazionali e non relazionali da un'ampia gamma di origini, ad esempio applicazioni aziendali, app per dispositivi mobili, dispositivi IoT, social media o streaming, senza dover definire la struttura o lo schema dei dati finché non vengono letti. Lo schema in lettura garantisce che qualsiasi tipo di dati possa essere archiviato nel formato non elaborato. Di conseguenza, i data lake possono contenere un'ampia gamma di tipi di dati, da strutturati a semistrutturati a non strutturati, su qualsiasi scala. La loro natura flessibile e scalabile li rende essenziali per eseguire forme complesse di analisi dei dati usando diversi tipi di strumenti di elaborazione di calcolo, ad esempio Apache Spark o Azure Machine Learning.

Al contrario, un data warehouse è di natura relazionale. La struttura o lo schema è modellato o predefinito in base ai requisiti aziendali e di prodotto curati, conformi e ottimizzati per le operazioni di query SQL. Mentre un data lake contiene dati di tutti i tipi di struttura, inclusi i dati non elaborati e non elaborati, un data warehouse archivia i dati che sono stati trattati e trasformati tenendo presente uno scopo specifico, che può quindi essere usato per generare report analitici o operativi. In questo modo i data warehouse sono ideali per produrre forme più standardizzate di analisi bi o per gestire un caso d'uso aziendale già definito.

	Data lake	Data warehouse
Tipo	Strutturati, semistrutturati, non strutturati	Strutturati
	Relazionali, non relazionali	Relazionale
Schema	Schema in lettura	Schema in scrittura
Formato	Non elaborato, non filtrato	Elaborato, esaminato
Origini	Big data, IoT, social media, streaming di dati	Applicazione, business, dati transazionali, creazione di report in batch
Scalabilità	Scalabilità semplice a basso costo	Scalabilità difficile e costosa
Utenti	Scienziati dei dati, ingegneri dei dati	Professionisti del data warehouse, business analyst
Casi d'uso	Machine learning, analisi predittiva, analisi in tempo reale	Creazione di report di base, BI

Confronto tra data lake e data lakehouse

Ora si conosce la differenza tra un data lake e un data warehouse. Ma qual è la differenza tra un data lake e una data lakehouse? Ed è necessario avere entrambi?

Nonostante i numerosi vantaggi, un data lake tradizionale non è privo di svantaggi. Poiché i data lake possono contenere tutti i tipi di dati provenienti da tutti i tipi di origini, possono verificarsi problemi relativi al controllo qualità, al danneggiamento dei dati e al partizionamento non corretto. Un data lake gestito in modo non corretto non solo limita l'integrità dei dati, ma può anche causare colli di bottiglia, prestazioni lente e rischi per la sicurezza.

È qui che entra in gioco data lakehouse. Un data lakehouse è una soluzione di archiviazione aperta basata su standard, di natura multiforme. Può soddisfare le esigenze di data scientist e tecnici che conducono analisi ed elaborazione dei dati approfondite, nonché le esigenze dei professionisti data warehouse tradizionali che curano e pubblicano i dati a scopo di business intelligence e report. La bellezza della lakehouse è che ogni carico di lavoro può funzionare senza problemi sulla data lake senza dover duplicare i dati in un altro databasestrutturalmente predefinito. In questo modo tutti gli utenti lavorano ai dati più aggiornati, riducendo al tempo stesso le ridondanze.

Le case di data lake soddisfano le sfide dei data lake tradizionali aggiungendo un livello di archiviazione Delta Lake direttamente sul cloud data lake. Il livello di archiviazione offre un'architettura analitica flessibile in grado di gestire transazioni ACID (atomicità, coerenza, isolamento e durabilità) per l'affidabilità dei dati, le integrazioni di streaming e funzionalità avanzate come il controllo delle versioni dei dati e l'applicazione dello schema. Ciò consente un'ampia gamma di attività analitiche sul lago, il tutto senza compromettere la coerenza dei dati di base. Anche se la necessità di una lakehouse dipende dalla complessità delle esigenze, la flessibilità e la gamma lo rendono una soluzione ottimale per molte organizzazioni aziendali.

	Data lake	Data lakehouse
Tipo	Strutturati, semistrutturati, non strutturati	Strutturati, semistrutturati, non strutturati
	Relazionali, non relazionali	Relazionali, non relazionali
Schema	Schema in lettura	Schema in lettura, schema in scrittura
Formato	Non elaborato, non filtrato, elaborato, curato	File in formato delta, non filtrati, elaborati, curati
Origini	Big data, IoT, social media, streaming di dati	Big Data, IoT, social media, dati di streaming, applicazione, business, dati transazionali, creazione di report in batch
Scalabilità	Scalabilità semplice a basso costo	Scalabilità semplice a basso costo
Utenti	Data scientist	Business analyst, data engineer, data scientist
Casi d'uso	Machine Learning, analisi predittiva	Creazione di report di base, BI, Machine Learning, analisi predittiva

Che cos'è l'architettura data lake?

Alla base, un data lake è un repository di archiviazione senza un'architettura specifica. Per sfruttare al meglio le funzionalità, sono necessari un'ampia gamma di strumenti, tecnologie e motori di calcolo che consentono di ottimizzare l'integrazione, l'archiviazione e l'elaborazione dei dati. Questi strumenti interagiscono per creare un'architettura a livelli coesiva, che viene incaricata dai Big Data e viene eseguita in base alle data lake. Questa architettura può anche formare la struttura operativa di una data lakehouse. Ogni organizzazione ha una propria configurazione univoca, ma la maggior parte delle architetture data lakehouse presenta quanto segue:

Gestione e orchestrazione delle risorse. Un resource manager consente al data lake di eseguire in modo coerente le attività allocando la giusta quantità di dati, risorse e potenza di calcolo nelle posizioni appropriate.
Connettori per un facile accesso. Un'ampia gamma di flussi di lavoro consente agli utenti di accedere e condividere facilmente i dati necessari nel formato in cui sono necessari.
Analisi affidabile. Un servizio di analisi valido deve essere veloce, scalabile e distribuito. Deve inoltre supportare una vasta gamma di categorie di carico di lavoro in più lingue.
Classificazione dei dati. La profilatura, la catalogazione e l'archiviazione dei dati consentono alle organizzazioni di tenere traccia del contenuto dei dati, della qualità, della posizione e della cronologia.
Processo ELT (Extract-Load-Transform). ELT fa riferimento ai processi in base ai quali i dati vengono estratti da più origini e caricati nella zona non elaborata del data lake, quindi puliti e trasformati dopo l'estrazione in modo che le applicazioni possano usarli immediatamente.
Sicurezza e supporto. Gli strumenti di protezione dei dati come mascheramento, controllo, crittografia e monitoraggio degli accessi assicurano che i dati rimangano sicuri e privati.
Governance e amministrazione. Affinché la piattaforma data lake venga eseguita nel modo più corretto possibile, gli utenti devono essere formati sulla configurazione dell'architettura, nonché sulle procedure consigliate per la gestione dei dati e delle operazioni.

Risorse aggiuntive

Domande frequenti

Un data lake è un repository centralizzato che inserisce, archivia e consente l'elaborazione di grandi volumi di dati nella forma originale. Può contenere tutti i tipi di dati, che vengono quindi usati per l'analisi dei Big Data, l'apprendimento automatico e altre forme di azione intelligente.

Altre informazioni sui data lake
Le organizzazioni in un'ampia gamma di settori, tra cui vendita al dettaglio, finanza e intrattenimento, usano le piattaforme data lake per archiviare i dati, raccogliere informazioni dettagliate e migliorare la qualità complessiva dei servizi. Le società di investimento, ad esempio, usano data lake per raccogliere ed elaborare dati up-to-market, consentendo loro di gestire i rischi del portfolio in modo più efficiente.
I data lake archivia tutti i tipi di dati non elaborati, che i data scientist possono quindi usare per un'ampia gamma di progetti. I data warehouse archivia dati puliti ed elaborati, che possono quindi essere usati per generare report analitici o operativi, nonché casi d'uso di BUSINESS intelligence specifici.

Esplorare data lake e data warehouse
Una data lakehouse combina elementi di un data lake e un data warehouse per formare una soluzione end-to-end flessibile per scopi di data science e business intelligence.

Altre informazioni sui data lakehouse
Certo. Le principali organizzazioni in tutti i settori si affidano alle enormi quantità di dati archiviati nei data lake per favorire l'azione intelligente, ottenere informazioni dettagliate e crescere.

Scopri i vantaggi dei data lake
Grandi volumi di dati, inclusi i dati non elaborati e non strutturati, possono essere difficili da gestire, causando colli di bottiglia, danneggiamento dei dati, problemi di controllo qualità e problemi di prestazioni. Ecco perché è importante mantenere buone procedure di governance e amministrazione per consentire di eseguire senza problemi la piattaforma data lake.
L'architettura di Data Lake fa riferimento alla configurazione specifica di strumenti e tecnologie che consentono di mantenere i dati dei data lake integrati, accessibili, organizzati e sicuri.

Esplorare le procedure consigliate per l'architettura data lake

Account gratuito

Prova i servizi gratuiti di cloud computing di Azure per un massimo di 30 giorni.

Prova Azure gratuitamente

Pagamento a consumo

Inizia con il pagamento in base al consumo. Senza alcun impegno iniziale. Annulla quando vuoi.

Esplora la versione con pagamento in base al consumo

Che cos'è un data lake?

Definizione di data lake

Perché i data lake sono importanti per le aziende?

Casi d'uso di Data Lake

Data warehouse vs data lake

Confronto tra data lake e data lakehouse

Che cos'è l'architettura data lake?

Risorse aggiuntive

Esplora

Idee per soluzioni

Guide

Webinar

Domande frequenti