Che cos'è un data warehouse?
Prima di tutto, definiamo che cos'è un data warehouse e perché potresti volerne usare uno per l'organizzazione.
Un data warehouse è un repository centralizzato che archivia dati strutturati (tabelle di database, fogli di Excel) e dati semistrutturati (file XML, pagine Web) per la creazione di report e l'analisi. I dati vengono trasmessi da un'ampia gamma di origini, ad esempio sistemi point-of-sale, applicazioni aziendali e database relazionalie vengono in genere puliti e standardizzati prima dell'arrivo nel warehouse. Poiché un data warehouse può archiviare grandi quantità di informazioni, consente agli utenti di accedere facilmente a una vasta gamma di dati cronologici, che possono essere usati per data mining, la visualizzazione dei dati e altre forme di creazione di report di business intelligence.
Vantaggi del data warehouse
Dati affidabili, soprattutto se aggregati nel tempo, aiutano gli utenti a prendere decisioni più intelligenti e informate sul modo in cui gestiscono la propria organizzazione e i data warehouse sono ciò che rende possibile questa operazione. I vantaggi del data warehousing aziendale sono numerosi, ma alcuni dei vantaggi più importanti includono:
-
Consolidamento dei dati da più origini in un'unica origine di verità
-
Archiviazione e analisi di dati cronologici a lungo termine che si estendono su mesi e anni
-
Pulizia e trasformazione dei dati in modo che siano accurati, coerenti e standardizzati nella forma e nella struttura
-
Riduzione dei tempi di query durante la raccolta dei dati e l'elaborazione dell'analisi, con un miglioramento delle prestazioni complessive tra i sistemi
-
Caricamento efficiente dei dati senza dover gestire i costi di distribuzione o infrastruttura
-
Protezione dei dati in modo che siano privati, protetti e sicuri
-
Preparazione dei dati per l'analisi tramite data mining, strumenti di visualizzazione e altre forme di analisi avanzata
Data warehouse e data lake
È chiaro che i data warehouse sono essenziali per le operazioni di analisi di qualsiasi organizzazione. Ma qual è la differenza tra un data warehouse e altri tipi di repository di dati, ad esempio un data lake? E quando deve essere usato uno rispetto all'altro?
Come repository, i data warehouse e i data lake archiviano ed elaborano dati. Tuttavia, anche se può sembrare che offrano le stesse funzionalità, ognuno di essi ha casi d'uso specifici. Questo è il motivo per cui le organizzazioni in genere incorporano entrambi i sistemi per formare una soluzione end-to-end completa in grado di gestire un'ampia gamma di scopi.
Un data warehouse è di natura relazionale. Ciò significa che la struttura o lo schema dei dati sono determinati dai requisiti aziendali e del prodotto predefiniti, curati, conformi e ottimizzati per le operazioni di query SQL. Di conseguenza, i data warehouse vengono usati in modo ottimale per archiviare i dati che sono stati trattati con uno scopo specifico, ad esempio data mining per l'analisi BI o per l'origine di un caso d'uso aziendale già identificato.
Come i data warehouse, i data lake contengono dati strutturati e semistrutturati. Tuttavia, sono anche in grado di fornire dati non elaborati da un'ampia gamma di origini non relazionali, tra cui app per dispositivi mobili, dispositivi IoT, social media o streaming. Ciò è dovuto al fatto che la struttura o lo schema in un data lake non viene definito fino a quando i dati non vengono letti. Grazie alla loro natura flessibile e scalabile, i data lake vengono spesso usati per eseguire forme intelligenti di analisi dei dati, ad esempio il machine learning.
Data lake | Data warehouse | |
---|---|---|
Tipo | Strutturati, semistrutturati, non strutturati | Strutturati |
Schema | Schema in lettura | Schema in scrittura |
Formato | Non elaborato, non filtrato | Elaborato, esaminato |
Origini | Big data, IoT, social media, streaming di dati | Applicazione, business, dati transazionali, creazione di report in batch |
Scalabilità | Scalabilità semplice a basso costo | Scalabilità difficile e costosa |
Utenti | Scienziati dei dati, ingegneri dei dati | Professionisti del data warehouse, business analyst |
Casi d'uso | Machine learning, analisi predittiva, analisi in tempo reale | Creazione di report di base, BI |
Architettura e progettazione del data warehouse
Ora che si sa perché e quando è consigliabile usare un data warehouse, è possibile approfondire il funzionamento esaminando la progettazione di un data warehouse. Un data warehouse è più di un singolo silo che opera autonomamente. Si tratta invece di un sistema altamente strutturato e progettato con attenzione composto da più livelli che interagiscono tra loro e con i dati in modi diversi. In genere, questi livelli includono:
Il livello inferiore
I dati vengono inseriti da più origini, quindi puliti e trasformati per consentire ad altre applicazioni di usarli in un processo denominato estrazione, trasformazione e caricamento (ETL). Il livello inferiore è anche la posizione in cui i dati vengono archiviati e ottimizzati, con conseguente tempi di query più rapidi e prestazioni complessive migliori.
Livello intermedio
Qui si trova il motore di analisi, noto anche come server OLAP (Online Analytical Processing). I server OLAP accedono a grandi volumi di dati dal data warehouse ad alta velocità, con risultati estremamente rapidi.
Livello superiore
Il livello superiore è il punto in cui l'interfaccia front-end presenta visivamente i dati elaborati, a cui gli analisti possono accedere e che possono usare per tutte le esigenze di creazione di report e BI in modalità self-service.
Come creare un data warehouse
Quando si progetta e si crea un data warehouse, è importante considerare gli obiettivi dell'organizzazione, sia a lungo termine che ad hoc, nonché la natura dei dati. Quante origini dati devi integrare? Prevedi di automatizzare i flussi di lavoro? Come esaminerai e analizzerai i dati? La compilazione varia a seconda della complessità delle esigenze, ma un tipico database warehouse aziendale può essere costituito dai componenti seguenti:
- Origini dati che estraggono i dati operativi da sistemi point-of-sale, applicazioni aziendali e altri database relazionali
- Un'area di gestione temporanea in cui i dati vengono puliti e trasformati per il warehouse o il repository centralizzato
- Un warehouse o un repository centralizzato che archivia dati operativi elaborati, metadati, dati di riepilogo e dati non elaborati per semplificare l'accesso degli utenti
- L'aggiunta di data mart, che accetta i dati dal repository centralizzato e li fornisce in subset a gruppi di utenti selezionati
- Una sandbox, che gli scienziati di dati possono usare per testare nuove forme di esplorazione dei dati in un ambiente protetto
- Un'ampia gamma di strumenti di data warehousing, framework e API per l'integrazione, l'archiviazione, le prestazioni e l'analisi
Strumenti, software e risorse del data warehouse
Nel mondo odierno incentrato sui dati, molte delle principali società di software sfruttano una gamma apparentemente infinita di software di data warehouse, ognuno con il proprio caso d'uso specifico. Può sembrare difficile, ma per creare una soluzione coesa e ad alte prestazioni, è consigliabile investire negli strumenti e nelle tecnologie appropriati. Le esigenze di ogni organizzazione sono diverse, ma ecco alcuni prodotti di data warehouse essenziali da esaminare:
Data warehousing cloud e ibrido
Una soluzione unificata di data warehousing basata sul cloud, ad esempio Azure Synapse Analytics, offre alle organizzazioni la possibilità di ridimensionare, calcolare e archiviare a una velocità più rapida e a costi inferiori.
Strumenti di integrazione dei dati
Le pipeline ETL consentono agli utenti di creare, pianificare e orchestrare i flussi di lavoro in modo che i dati di origine vengano integrati, puliti e standardizzati automaticamente.
Archiviazione di oggetti
Una soluzione di archiviazione di oggetti può contenere grandi quantità di dati strutturati, semistrutturati e non strutturati, il che lo rende ideale per la gestione temporanea dei dati di origine prima del caricamento nel warehouse.
Strumenti di warehousing
Una soluzione di archiviazione distribuita contiene grandi set di dati in tabelle relazionali con archiviazione a colonne. In questo modo si riducono notevolmente i costi, si migliorano le prestazioni delle query e si velocizza il tempo necessario per ottenere informazioni dettagliate.
Strumenti per le prestazioni
Per migliorare le prestazioni delle tue applicazioni, potresti voler integrare Apache Spark, un framework open source di elaborazione parallela che supporta l'elaborazione in memoria.
Gestione delle risorse e dei carichi di lavoro
Un resource manager alloca la potenza di calcolo ai carichi di lavoro in modo da poter caricare, analizzare, gestire ed esportare i dati di conseguenza.
Modellazione dati
La modellazione dei dati combina più origini dati in un unico modello semantico, offrendo una visualizzazione strutturata e semplificata dei dati.
Strumenti di business intelligence
Gli strumenti di analisi aziendale consentono di fornire informazioni dettagliate agli utenti sotto forma di dashboard, report e altri strumenti di visualizzazione.
Funzionalità di sicurezza e privacy
Le funzionalità di sicurezza e conformità come la crittografia dei dati, l'autenticazione utente e il monitoraggio degli accessi assicurano che i dati rimangano protetti.
Che cosa è successo ad Azure SQL Data Warehouse?
Le funzionalità associate ad Azure SQL Data Warehouse sono ora una funzionalità di Azure Synapse Analytics denominata pool SQL dedicato. I clienti Azure SQL Data Warehouse esistenti possono continuare a eseguire i carichi di lavoro Azure SQL Data Warehouse esistenti usando la funzionalità del pool SQL dedicato in Azure Synapse Analytics senza apportare modifiche. I clienti possono anche iniziare a gestire i dati del warehouse esistenti con Azure Synapse Analytics per sfruttare le funzionalità di analisi avanzate, come l'esplorazione del data lake serverless e i motori SQL e Apache Spark™ integrati.
Domande frequenti
-
Un data warehouse è un repository centralizzato che contiene dati strutturati (tabelle di database, fogli di Excel) e dati semistrutturati (file XML, pagine Web) per la creazione di report, l'analisi e altre forme di business intelligence.
-
L'uso di un data warehouse offre molti vantaggi. Ad esempio, un data warehouse consolida più origini di dati in un'unica origine di verità, che le organizzazioni possono quindi usare per prendere decisioni più informate sull'azienda e sulle operazioni.
-
I data warehouse archiviano dati strutturati e semistrutturati, che possono essere usati per il data mining dei dati di origine, la visualizzazione dei dati e altri casi d'uso di business intelligence specifici. I data lake archiviano vari tipi di dati non elaborati, che gli scienziati dei dati possono quindi usare per creare un'ampia gamma di progetti.
-
Un data warehouse è in genere costituito da più livelli: il livello inferiore, in cui i dati vengono raccolti e archiviati; il livello intermedio, in cui i dati sono analizzati; e il livello superiore, in cui i dati vengono visualizzati per consentire agli utenti di accedervi e analizzarli.
-
Quando si progetta e si crea l'infrastruttura del data warehouse, è importante considerare la natura dei dati e il modo in cui si desidera trasformarli. Alcuni elementi comuni di una compilazione tipica includono origini dati, un'area di gestione temporanea, il warehouse stesso, data mart, sandbox e vari strumenti di integrazione.
-
Molte importanti società di software ora vantano un'ampia gamma di prodotti di data warehouse.
-
Queste funzionalità sono ora una funzionalità di Azure Synapse Analytics denominata pool SQL dedicato. I clienti Azure SQL Data Warehouse esistenti possono continuare a eseguire i carichi di lavoro senza apportare modifiche.
Risorse aggiuntive
Account gratuito
Prova i servizi gratuiti di cloud computing di Azure per un massimo di 30 giorni.
Pagamento a consumo
Inizia con il pagamento in base al consumo. Senza alcun impegno iniziale. Annulla quando vuoi.