Quattro persone che discutono faccia a faccia con una presentazione sul portatile

Che cos'è un data warehouse?

Scopri cos'è un data warehouse, i vantaggi del suo uso, le procedure consigliate da considerare durante la fase di progettazione e quali strumenti incorporare in fase di creazione.

Che cos'è un data warehouse?

Prima di tutto, definiamo che cos'è un data warehouse e perché potresti volerne usare uno per l'organizzazione.

Un data warehouse è un repository centralizzato che archivia dati strutturati (tabelle di database, fogli di Excel) e dati semistrutturati (file XML, pagine Web) per la creazione di report e l'analisi. I dati vengono trasmessi da un'ampia gamma di origini, ad esempio sistemi point-of-sale, applicazioni aziendali e database relazionalie vengono in genere puliti e standardizzati prima dell'arrivo nel warehouse. Poiché un data warehouse può archiviare grandi quantità di informazioni, consente agli utenti di accedere facilmente a una vasta gamma di dati cronologici, che possono essere usati per data mining, la visualizzazione dei dati e altre forme di creazione di report di business intelligence.

Due persone stanno controllando i dati del report in una tabella

Vantaggi del data warehouse

Dati affidabili, soprattutto se aggregati nel tempo, aiutano gli utenti a prendere decisioni più intelligenti e informate sul modo in cui gestiscono la propria organizzazione e i data warehouse sono ciò che rende possibile questa operazione. I vantaggi del data warehousing aziendale sono numerosi, ma alcuni dei vantaggi più importanti includono:

Consolidamento dei dati da più origini in un'unica origine di verità

Archiviazione e analisi di dati cronologici a lungo termine che si estendono su mesi e anni

Pulizia e trasformazione dei dati in modo che siano accurati, coerenti e standardizzati nella forma e nella struttura

Riduzione dei tempi di query durante la raccolta dei dati e l'elaborazione dell'analisi, con un miglioramento delle prestazioni complessive tra i sistemi

Caricamento efficiente dei dati senza dover gestire i costi di distribuzione o infrastruttura

Protezione dei dati in modo che siano privati, protetti e sicuri

Preparazione dei dati per l'analisi tramite data mining, strumenti di visualizzazione e altre forme di analisi avanzata

Data warehouse e data lake

È chiaro che i data warehouse sono essenziali per le operazioni di analisi di qualsiasi organizzazione. Ma qual è la differenza tra un data warehouse e altri tipi di repository di dati, ad esempio un data lake? E quando deve essere usato uno rispetto all'altro?

Come repository, i data warehouse e i data lake archiviano ed elaborano dati. Tuttavia, anche se può sembrare che offrano le stesse funzionalità, ognuno di essi ha casi d'uso specifici. Questo è il motivo per cui le organizzazioni in genere incorporano entrambi i sistemi per formare una soluzione end-to-end completa in grado di gestire un'ampia gamma di scopi.

Un data warehouse è di natura relazionale. Ciò significa che la struttura o lo schema dei dati sono determinati dai requisiti aziendali e del prodotto predefiniti, curati, conformi e ottimizzati per le operazioni di query SQL. Di conseguenza, i data warehouse vengono usati in modo ottimale per archiviare i dati che sono stati trattati con uno scopo specifico, ad esempio data mining per l'analisi BI o per l'origine di un caso d'uso aziendale già identificato.

Come i data warehouse, i data lake contengono dati strutturati e semistrutturati. Tuttavia, sono anche in grado di fornire dati non elaborati da un'ampia gamma di origini non relazionali, tra cui app per dispositivi mobili, dispositivi IoT, social media o streaming. Ciò è dovuto al fatto che la struttura o lo schema in un data lake non viene definito fino a quando i dati non vengono letti. Grazie alla loro natura flessibile e scalabile, i data lake vengono spesso usati per eseguire forme intelligenti di analisi dei dati, ad esempio il machine learning.

piano di supporto a livello di organizzazione
	Data lake	Data warehouse
Tipo	Strutturati, semistrutturati, non strutturati Relazionali, non relazionali	Strutturati Relazionale
Schema	Schema in lettura	Schema in scrittura
Formato	Non elaborato, non filtrato	Elaborato, esaminato
Origini	Big data, IoT, social media, streaming di dati	Applicazione, business, dati transazionali, creazione di report in batch
Scalabilità	Scalabilità semplice a basso costo	Scalabilità difficile e costosa
Utenti	Scienziati dei dati, ingegneri dei dati	Professionisti del data warehouse, business analyst
Casi d'uso	Machine learning, analisi predittiva, analisi in tempo reale	Creazione di report di base, BI

Altre informazioni sui data lake

Una persona è seduta su una sedia e sta lavorando sul desktop

Architettura e progettazione del data warehouse

Ora che si sa perché e quando è consigliabile usare un data warehouse, è possibile approfondire il funzionamento esaminando la progettazione di un data warehouse. Un data warehouse è più di un singolo silo che opera autonomamente. Si tratta invece di un sistema altamente strutturato e progettato con attenzione composto da più livelli che interagiscono tra loro e con i dati in modi diversi. In genere, questi livelli includono:

Il livello inferiore

I dati vengono inseriti da più origini, quindi puliti e trasformati per consentire ad altre applicazioni di usarli in un processo denominato estrazione, trasformazione e caricamento (ETL). Il livello inferiore è anche la posizione in cui i dati vengono archiviati e ottimizzati, con conseguente tempi di query più rapidi e prestazioni complessive migliori.

Livello intermedio

Qui si trova il motore di analisi, noto anche come server OLAP (Online Analytical Processing). I server OLAP accedono a grandi volumi di dati dal data warehouse ad alta velocità, con risultati estremamente rapidi.

Livello superiore

Il livello superiore è il punto in cui l'interfaccia front-end presenta visivamente i dati elaborati, a cui gli analisti possono accedere e che possono usare per tutte le esigenze di creazione di report e BI in modalità self-service.

Come creare un data warehouse

Quando si progetta e si crea un data warehouse, è importante considerare gli obiettivi dell'organizzazione, sia a lungo termine che ad hoc, nonché la natura dei dati. Quante origini dati devi integrare? Prevedi di automatizzare i flussi di lavoro? Come esaminerai e analizzerai i dati? La compilazione varia a seconda della complessità delle esigenze, ma un tipico database warehouse aziendale può essere costituito dai componenti seguenti:

Origini dati che estraggono i dati operativi da sistemi point-of-sale, applicazioni aziendali e altri database relazionali
Un'area di gestione temporanea in cui i dati vengono puliti e trasformati per il warehouse o il repository centralizzato
Un warehouse o un repository centralizzato che archivia dati operativi elaborati, metadati, dati di riepilogo e dati non elaborati per semplificare l'accesso degli utenti
L'aggiunta di data mart, che accetta i dati dal repository centralizzato e li fornisce in subset a gruppi di utenti selezionati
Una sandbox, che gli scienziati di dati possono usare per testare nuove forme di esplorazione dei dati in un ambiente protetto
Un'ampia gamma di strumenti di data warehousing, framework e API per l'integrazione, l'archiviazione, le prestazioni e l'analisi

Vedi esempi di idee per soluzioni aziendali con Azure

Una persona che analizza i grafici sul portatile e i report di dati su due monitor

Strumenti, software e risorse del data warehouse

Nel mondo odierno incentrato sui dati, molte delle principali società di software sfruttano una gamma apparentemente infinita di software di data warehouse, ognuno con il proprio caso d'uso specifico. Può sembrare difficile, ma per creare una soluzione coesa e ad alte prestazioni, è consigliabile investire negli strumenti e nelle tecnologie appropriati. Le esigenze di ogni organizzazione sono diverse, ma ecco alcuni prodotti di data warehouse essenziali da esaminare:

Data warehousing cloud e ibrido

Una soluzione unificata di data warehousing basata sul cloud, ad esempio Azure Synapse Analytics, offre alle organizzazioni la possibilità di ridimensionare, calcolare e archiviare a una velocità più rapida e a costi inferiori.

Strumenti di integrazione dei dati

Le pipeline ETL consentono agli utenti di creare, pianificare e orchestrare i flussi di lavoro in modo che i dati di origine vengano integrati, puliti e standardizzati automaticamente.

Archiviazione di oggetti

Una soluzione di archiviazione di oggetti può contenere grandi quantità di dati strutturati, semistrutturati e non strutturati, il che lo rende ideale per la gestione temporanea dei dati di origine prima del caricamento nel warehouse.

Strumenti di warehousing

Una soluzione di archiviazione distribuita contiene grandi set di dati in tabelle relazionali con archiviazione a colonne. In questo modo si riducono notevolmente i costi, si migliorano le prestazioni delle query e si velocizza il tempo necessario per ottenere informazioni dettagliate.

Strumenti per le prestazioni

Per migliorare le prestazioni delle tue applicazioni, potresti voler integrare Apache Spark, un framework open source di elaborazione parallela che supporta l'elaborazione in memoria.

Gestione delle risorse e dei carichi di lavoro

Un resource manager alloca la potenza di calcolo ai carichi di lavoro in modo da poter caricare, analizzare, gestire ed esportare i dati di conseguenza.

Modellazione dati

La modellazione dei dati combina più origini dati in un unico modello semantico, offrendo una visualizzazione strutturata e semplificata dei dati.

Strumenti di business intelligence

Gli strumenti di analisi aziendale consentono di fornire informazioni dettagliate agli utenti sotto forma di dashboard, report e altri strumenti di visualizzazione.

Funzionalità di sicurezza e privacy

Le funzionalità di sicurezza e conformità come la crittografia dei dati, l'autenticazione utente e il monitoraggio degli accessi assicurano che i dati rimangano protetti.

Due persone che discutono e una persona a destra tiene in mano il portatile

Che cosa è successo ad Azure SQL Data Warehouse?

Le funzionalità associate ad Azure SQL Data Warehouse sono ora una funzionalità di Azure Synapse Analytics denominata pool SQL dedicato. I clienti Azure SQL Data Warehouse esistenti possono continuare a eseguire i carichi di lavoro Azure SQL Data Warehouse esistenti usando la funzionalità del pool SQL dedicato in Azure Synapse Analytics senza apportare modifiche. I clienti possono anche iniziare a gestire i dati del warehouse esistenti con Azure Synapse Analytics per sfruttare le funzionalità di analisi avanzate, come l'esplorazione del data lake serverless e i motori SQL e Apache Spark™ integrati.

Domande frequenti

Un data warehouse è un repository centralizzato che contiene dati strutturati (tabelle di database, fogli di Excel) e dati semistrutturati (file XML, pagine Web) per la creazione di report, l'analisi e altre forme di business intelligence.

Altre informazioni sui data warehouse
L'uso di un data warehouse offre molti vantaggi. Ad esempio, un data warehouse consolida più origini di dati in un'unica origine di verità, che le organizzazioni possono quindi usare per prendere decisioni più informate sull'azienda e sulle operazioni.

Esplora i vantaggi aggiuntivi
I data warehouse archiviano dati strutturati e semistrutturati, che possono essere usati per il data mining dei dati di origine, la visualizzazione dei dati e altri casi d'uso di business intelligence specifici. I data lake archiviano vari tipi di dati non elaborati, che gli scienziati dei dati possono quindi usare per creare un'ampia gamma di progetti.

Altre informazioni sui data lake
Un data warehouse è in genere costituito da più livelli: il livello inferiore, in cui i dati vengono raccolti e archiviati; il livello intermedio, in cui i dati sono analizzati; e il livello superiore, in cui i dati vengono visualizzati per consentire agli utenti di accedervi e analizzarli.

Scopri le architetture dei data warehouse
Quando si progetta e si crea l'infrastruttura del data warehouse, è importante considerare la natura dei dati e il modo in cui si desidera trasformarli. Alcuni elementi comuni di una compilazione tipica includono origini dati, un'area di gestione temporanea, il warehouse stesso, data mart, sandbox e vari strumenti di integrazione.

Scopri suggerimenti sulla creazione di un data warehouse
Molte importanti società di software ora vantano un'ampia gamma di prodotti di data warehouse.

Esplora gli strumenti, i software e le risorse del data warehouse
Queste funzionalità sono ora una funzionalità di Azure Synapse Analytics denominata pool SQL dedicato. I clienti Azure SQL Data Warehouse esistenti possono continuare a eseguire i carichi di lavoro senza apportare modifiche.

Scopri di più su Azure Synapse Analytics

Risorse aggiuntive

Account gratuito

Prova i servizi gratuiti di cloud computing di Azure per un massimo di 30 giorni.

Prova Azure gratuitamente

Pagamento a consumo

Inizia con il pagamento in base al consumo. Senza alcun impegno iniziale. Annulla quando vuoi.

Esplora la versione con pagamento in base al consumo

Che cos'è un data warehouse?