Ignora esplorazione

Che cos'è Data Lake

Scoprire le differenze tra data lake e data warehouse e data lakehouse. Scopri come creare una base scalabile per tutte le tue analisi con Azure.

Che cos'è un data lake?

Questa guida introduttiva illustra i numerosi vantaggi e casi d'uso di un data lake. Informazioni su un data lake, sul motivo per cui è importante e sulle differenze rispetto a un data warehouse o data lakehouse. Ma prima di tutto, definiamo data lake come termine.

Un data lake è un repository centralizzato che inserisce e archivia grandi volumi di dati nel formato originale. I dati possono quindi essere elaborati e usati come base per un'ampia gamma di esigenze di analisi. Grazie alla sua architettura aperta e scalabile, un data lake può contenere tutti i tipi di dati da qualsiasi origine, dalle tabelle di database strutturate (tabelle di database, fogli di Excel) a semistrutturati (file XML, pagine Web) a non strutturati (immagini, file audio, tweet), il tutto senza sacrificare la fedeltà. I file di dati vengono in genere archiviati in zone a fasi, puliti e curati in modo che diversi tipi di utenti possano usare i dati nelle varie forme per soddisfare le proprie esigenze. I data lake offrono coerenza dei dati di base in un'ampia gamma di applicazioni, potenziando l'analisi dei Big Data, l'apprendimento automatico, l'analisi predittiva e altre forme di azione intelligente.

I data lake sono importanti?

L'attuale mondo altamente connesso e basato sulle informazioni dettagliate non sarebbe possibile senza l'avvento di soluzioni data lake. Ciò è dovuto al fatto che le organizzazioni si affidano a piattaforme complete di data lake, ad esempio Azure Data Lake, per mantenere i dati non elaborati consolidati, integrati, sicuri e accessibili. Strumenti di archiviazione scalabili come Azure Data Lake Storage possono contenere e proteggere i dati in un'unica posizione centrale, eliminando i silo a un costo ottimale. Ciò costituisce la base per consentire agli utenti di eseguire un'ampia gamma di categorie di carico di lavoro, ad esempio l'elaborazione di Big Data, query SQL, il data mining del testo, l'analisi di streaming e Machine Learning. I dati possono quindi essere usati per soddisfare le esigenze di visualizzazione dei dati upstream e di creazione di report ad hoc. Una piattaforma dati end-to-end moderna come Azure Synapse Analytics soddisfa le esigenze complete di un'architettura di Big Data incentrata sul data lake.

Casi d'uso di Data Lake

Con una soluzione ben progettata, il potenziale di innovazione è infinito. Ecco alcuni esempi del modo in cui le organizzazioni in diversi settori usano le piattaforme data lake per ottimizzare la crescita:

  • Streaming media. Le società di streaming basate su sottoscrizione raccolgono ed elaborano informazioni dettagliate sul comportamento dei clienti, che possono usare per migliorare l'algoritmo di raccomandazione.
  • Finanza. Le società di investimento usano i dati di mercato più aggiornati, raccolti e archiviati in tempo reale, per gestire in modo efficiente i rischi del portfolio.
  • Assistenza sanitaria. Le organizzazioni del settore sanitario si affidano ai Big Data per migliorare la qualità dell'assistenza ai pazienti. Gli ospedali usano grandi quantità di dati cronologici per semplificare i percorsi dei pazienti, ottenendo risultati migliori e costi ridotti per l'assistenza.
  • Rivenditore multicanale. I rivenditori usano data lake per acquisire e consolidare i dati provenienti da più punti di contatto, tra cui dispositivi mobili, social, chat, passaparola e di persona.
  • IoT. I sensori hardware generano enormi quantità di dati semistrutturati e non strutturati nel mondo fisico circostante. I data lake forniscono un repository centrale in cui inserire queste informazioni per l'analisi futura.
  • Catena di approvvigionamento digitale. Data lake aiuta i produttori a consolidare dati di warehousing diversi, inclusi sistemi EDI, XML e JSON.
  • Vendite. Data scientist e addetti alle vendite spesso creano modelli predittivi per determinare il comportamento dei clienti e ridurre la varianza complessiva.

Confronto tra Data Lake e data warehouse

Ora si conosce cos'è un data lake, perché è importante e come viene usato in un'ampia gamma di organizzazioni. Ma qual è la differenza tra un data lake e un data warehouse? E quando è opportuno usare uno sopra l'altro?

Mentre i data lake e i data warehouse sono simili in quanto archiviano ed elaborano i dati, ognuno ha le proprie specializzazioni e quindi i propri casi d'uso. Per questo motivo è comune che un'organizzazione a livello aziendale includa un data lake e un data warehouse nel proprio ecosistema di analisi. Entrambi i repository interagiscono per formare un sistema end-to-end sicuro per l'archiviazione, l'elaborazione e tempi di analisi più rapidi.

Un data lake acquisisce dati relazionali e non relazionali da un'ampia gamma di origini di applicazioni aziendali, app per dispositivi mobili, dispositivi IoT, social media o streaming senza dover definire la struttura o lo schema dei dati finché non vengono letti. Lo schema in lettura garantisce che qualsiasi tipo di dati possa essere archiviato nel formato non elaborato. Di conseguenza, i data lake possono contenere un'ampia gamma di tipi di dati, da strutturati a semistrutturati a non strutturati, su qualsiasi scala. La loro natura flessibile e scalabile li rende essenziali per eseguire forme complesse di analisi dei dati usando diversi tipi di strumenti di elaborazione di calcolo come Apache Spark o Azure Machine Learning.

Al contrario, un data warehouse è di natura relazionale. La struttura o lo schema è modellato o predefinito in base ai requisiti aziendali e di prodotto curati, conformi e ottimizzati per le operazioni di query SQL. Mentre un data lake contiene dati di tutti i tipi di struttura, inclusi i dati non elaborati e non elaborati, un data warehouse archivia i dati che sono stati trattati e trasformati tenendo presente uno scopo specifico, che può quindi essere usato per generare report analitici o operativi. In questo modo i data warehouse sono ideali per produrre forme più standardizzate di analisi bi o per gestire un caso d'uso aziendale già definito.

Non disponibile Data Lake Data warehouse
Tipo Strutturata, semistrutturata, non strutturata Strutturato
Non disponibile Relazionale, non relazionale Relazionale
Schema Schema in lettura Schema in scrittura
Formato Non elaborato, non filtrato Elaborato, esaminato
Origini Big Data, IoT, social media, streaming di dati Applicazione, business, dati transazionali, creazione di report in batch
Scalabilità Facile da ridimensionare a basso costo Scalabilità difficile e costosa
Utenti Data scientist, data engineer Professionisti del data warehouse, business analyst
Casi d'uso Machine Learning, analisi predittiva, analisi in tempo reale Creazione di report di base, BI

Che cos'è un data lakehouse?

Ora si conosce la differenza tra un data lake e un data warehouse. Ma qual è la differenza tra un data lake e un data lakehouse? Ed è necessario avere entrambi?

Nonostante i numerosi vantaggi, un data lake tradizionale non è privo di svantaggi. Poiché i data lake possono contenere tutti i tipi di dati provenienti da tutti i tipi di origini, possono verificarsi problemi relativi al controllo qualità, al danneggiamento dei dati e al partizionamento non corretto. Un data lake gestito in modo non corretto non solo limita l'integrità dei dati, ma può anche causare colli di bottiglia, prestazioni lente e rischi per la sicurezza.

È qui che entra in gioco il data lakehouse. Un data lakehouse è una soluzione di archiviazione aperta basata su standard, di natura multiforme. Può soddisfare le esigenze di data scientist e tecnici che conducono analisi ed elaborazione dei dati approfondite, nonché le esigenze dei professionisti data warehouse tradizionali che curano e pubblicano i dati a scopo di business intelligence e report. La bellezza dei lakehouse è che ogni carico di lavoro può funzionare senza problemi sui data lake senza dover duplicare i dati in un altro database strutturalmente predefinito. In questo modo tutti gli utenti lavorano ai dati più aggiornati, riducendo al tempo stesso le ridondanze.

I data lakehouse rispondono alle sfide dei data lake tradizionali aggiungendo un livello di archiviazione Delta Lake direttamente sul cloud data lake. Il livello di archiviazione offre un'architettura analitica flessibile in grado di gestire transazioni ACID (atomicità, coerenza, isolamento e durabilità) per l'affidabilità dei dati, le integrazioni di streaming e funzionalità avanzate come il controllo delle versioni dei dati e l'applicazione dello schema. Ciò consente un'ampia gamma di attività analitiche, il tutto senza compromettere la coerenza dei dati di base. Anche se la necessità di un lakehouse dipende dalla complessità delle esigenze, la flessibilità e la gamma lo rendono una soluzione ottimale per molte organizzazioni aziendali.

Non disponibile Data Lake Data lakehouse
Tipo Strutturata, semistrutturata, non strutturata Strutturata, semistrutturata, non strutturata
Non disponibile Relazionale, non relazionale Relazionale, non relazionale
Schema Schema in lettura Schema in lettura, schema in scrittura
Formato Non elaborato, non filtrato, elaborato, curato File non elaborati, non filtrati, elaborati, curati, in formato delta
Origini Big Data, IoT, social media, streaming di dati Big Data, IoT, social media, dati di streaming, applicazione, business, dati transazionali, creazione di report in batch
Scalabilità Facile da ridimensionare a basso costo Facile da ridimensionare a basso costo
Utenti Data scientist Analista aziendale, ingegnere dei dati, scienziato dei dati
Casi d'uso Machine Learning, analisi predittiva Creazione di report di base, BI, Machine Learning, analisi predittiva

Che cos'è l'architettura data lake?

Alla base, un data lake è un repository di archiviazione senza un'architettura specifica. Per sfruttare al meglio le funzionalità, sono necessari un'ampia gamma di strumenti, tecnologie e motori di calcolo che consentono di ottimizzare l'integrazione, l'archiviazione e l'elaborazione dei dati. Questi strumenti interagiscono per creare un'architettura a livelli coesiva, che viene incaricata dai Big Data e viene eseguita in base alle data lake. Questa architettura può anche formare la struttura operativa di un data lakehouse. Ogni organizzazione ha una propria configurazione univoca, ma la maggior parte delle architetture data lakehouse presenta quanto segue:

  • Gestione e orchestrazione delle risorse. Un gestore risorse consente al data lake di eseguire in modo coerente le attività allocando la giusta quantità di dati, risorse e potenza di calcolo nelle posizioni appropriate.
  • Connettori per un facile accesso. Un'ampia gamma di flussi di lavoro consente agli utenti di accedere e condividere facilmente i dati necessari nel formato in cui sono necessari.
  • Analisi affidabile. Un servizio di analisi valido deve essere veloce, scalabile e distribuito. Deve inoltre supportare una vasta gamma di categorie di carico di lavoro in più lingue.
  • Classificazione dei dati. La profilatura, la catalogazione e l'archiviazione dei dati consentono alle organizzazioni di tenere traccia del contenuto dei dati, della qualità, della posizione e della cronologia.
  • Processi di estrazione, caricament e trasformazione (ELT). ELT si riferisce ai processi tramite i quali i dati vengono estratti da più origini e caricati nella zona non elaborata del data lake, quindi puliti e trasformati dopo l'estrazione in modo che le applicazioni possano usarli facilmente.
  • Protezione e supporto. Gli strumenti di protezione dei dati come mascheramento, controllo, crittografia e monitoraggio degli accessi assicurano che i dati rimangano sicuri e privati.
  • Gestione e amministrazione. Affinché la piattaforma data lake venga eseguita nel modo più efficiente possibile, gli utenti devono essere formati sulla configurazione dell'architettura e sulle procedure consigliate per la gestione dei dati e delle operazioni.

Domande frequenti

  • A data lake è un repository centralizzato che inserisce, archivia e consente l'elaborazione di grandi volumi di dati nel formato originale. Può contenere tutti i tipi di dati, che vengono quindi usati per l'analisi dei Big Data, l'apprendimento automatico e altre forme di azione intelligente.

    Altre informazioni sui data lake

  • I data lake archiviano tutti i tipi di dati non elaborati, che i data scientist possono quindi usare per un'ampia gamma di progetti. I data warehouse archiviano dati puliti ed elaborati, che possono quindi essere usati per generare report analitici o operativi, nonché casi d'uso di business intelligence specifici.

    Esplorare il confronto tra i data lake e i data warehouse

  • Il data lakehouse combina elementi di un data lake e un data warehouse per formare una soluzione end-to-end flessibile per scopi data science e business intelligence.

    Altre informazioni sui data lakehouse

  • Assolutamente. Le principali organizzazioni di tutti i settori si affidano alle enormi quantità di dati archiviati nei data lake per favorire l'azione intelligente, ottenere informazioni dettagliate e crescere.

    Scoprire i vantaggi dei data lake

  • L'architettura data lake fa riferimento alla configurazione specifica di strumenti e tecnologie che consentono di mantenere i dati dal data lake integrati, accessibili, organizzati e sicuri.

    Esplorare le procedure consigliate per l’architettura data lake

Inizia con un account gratuito di Azure

Sfrutta i servizi di analisi più diffusi gratuitamente per 12 mesi, più di 25 servizi gratuiti sempre, e $200 credito da usare nei primi 30 giorni.

Contatta uno specialista delle vendite di Azure

Ottieni consigli su come iniziare a usare le analisi in Azure. Poni domande, scopri i prezzi e le procedure consigliate e ottieni assistenza per la progettazione di una soluzione per soddisfare le tue esigenze.

Serve aiuto?