Trace Id is missing
Passa al contenuto principale
Quattro persone che discutono faccia a faccia con una presentazione sul portatile

Che cos'è un data warehouse?

Scopri cos'è un data warehouse, i vantaggi del suo uso, le procedure consigliate da considerare durante la fase di progettazione e quali strumenti incorporare in fase di creazione.

Che cos'è un data warehouse?

Prima di tutto, definiamo che cos'è un data warehouse e perché potresti volerne usare uno per l'organizzazione.

Un data warehouse è un repository centralizzato che archivia dati strutturati (tabelle di database, fogli di Excel) e dati semistrutturati (file XML, pagine Web) per la creazione di report e l'analisi. I dati vengono trasmessi da un'ampia gamma di origini, ad esempio sistemi point-of-sale, applicazioni aziendali e database relazionalie vengono in genere puliti e standardizzati prima dell'arrivo nel warehouse. Poiché un data warehouse può archiviare grandi quantità di informazioni, consente agli utenti di accedere facilmente a una vasta gamma di dati cronologici, che possono essere usati per data mining, la visualizzazione dei dati e altre forme di creazione di report di business intelligence.

Due persone stanno controllando i dati del report in una tabella

Vantaggi del data warehouse

Dati affidabili, soprattutto se aggregati nel tempo, aiutano gli utenti a prendere decisioni più intelligenti e informate sul modo in cui gestiscono la propria organizzazione e i data warehouse sono ciò che rende possibile questa operazione. I vantaggi del data warehousing aziendale sono numerosi, ma alcuni dei vantaggi più importanti includono:

Data warehouse e data lake

È chiaro che i data warehouse sono essenziali per le operazioni di analisi di qualsiasi organizzazione. Ma qual è la differenza tra un data warehouse e altri tipi di repository di dati, ad esempio un data lake? E quando deve essere usato uno rispetto all'altro?

Come repository, i data warehouse e i data lake archiviano ed elaborano dati. Tuttavia, anche se può sembrare che offrano le stesse funzionalità, ognuno di essi ha casi d'uso specifici. Questo è il motivo per cui le organizzazioni in genere incorporano entrambi i sistemi per formare una soluzione end-to-end completa in grado di gestire un'ampia gamma di scopi.

Un data warehouse è di natura relazionale. Ciò significa che la struttura o lo schema dei dati sono determinati dai requisiti aziendali e del prodotto predefiniti, curati, conformi e ottimizzati per le operazioni di query SQL. Di conseguenza, i data warehouse vengono usati in modo ottimale per archiviare i dati che sono stati trattati con uno scopo specifico, ad esempio data mining per l'analisi BI o per l'origine di un caso d'uso aziendale già identificato.

Come i data warehouse, i data lake contengono dati strutturati e semistrutturati. Tuttavia, sono anche in grado di fornire dati non elaborati da un'ampia gamma di origini non relazionali, tra cui app per dispositivi mobili, dispositivi IoT, social media o streaming. Ciò è dovuto al fatto che la struttura o lo schema in un data lake non viene definito fino a quando i dati non vengono letti. Grazie alla loro natura flessibile e scalabile, i data lake vengono spesso usati per eseguire forme intelligenti di analisi dei dati, ad esempio il machine learning.

piano di supporto a livello di organizzazione
Data lake Data warehouse
Tipo

Strutturati, semistrutturati, non strutturati
Relazionali, non relazionali

Strutturati
Relazionale

Schema

Schema in lettura

Schema in scrittura

Formato

Non elaborato, non filtrato

Elaborato, esaminato

Origini

Big data, IoT, social media, streaming di dati

Applicazione, business, dati transazionali, creazione di report in batch

Scalabilità

Scalabilità semplice a basso costo

Scalabilità difficile e costosa

Utenti

Scienziati dei dati, ingegneri dei dati

Professionisti del data warehouse, business analyst

Casi d'uso

Machine learning, analisi predittiva, analisi in tempo reale

Creazione di report di base, BI

Una persona è seduta su una sedia e sta lavorando sul desktop

Architettura e progettazione del data warehouse

Ora che si sa perché e quando è consigliabile usare un data warehouse, è possibile approfondire il funzionamento esaminando la progettazione di un data warehouse. Un data warehouse è più di un singolo silo che opera autonomamente. Si tratta invece di un sistema altamente strutturato e progettato con attenzione composto da più livelli che interagiscono tra loro e con i dati in modi diversi. In genere, questi livelli includono:

Il livello inferiore

I dati vengono inseriti da più origini, quindi puliti e trasformati per consentire ad altre applicazioni di usarli in un processo denominato estrazione, trasformazione e caricamento (ETL). Il livello inferiore è anche la posizione in cui i dati vengono archiviati e ottimizzati, con conseguente tempi di query più rapidi e prestazioni complessive migliori.

Livello intermedio

Qui si trova il motore di analisi, noto anche come server OLAP (Online Analytical Processing). I server OLAP accedono a grandi volumi di dati dal data warehouse ad alta velocità, con risultati estremamente rapidi.

Livello superiore

Il livello superiore è il punto in cui l'interfaccia front-end presenta visivamente i dati elaborati, a cui gli analisti possono accedere e che possono usare per tutte le esigenze di creazione di report e BI in modalità self-service.

Come creare un data warehouse

Quando si progetta e si crea un data warehouse, è importante considerare gli obiettivi dell'organizzazione, sia a lungo termine che ad hoc, nonché la natura dei dati. Quante origini dati devi integrare? Prevedi di automatizzare i flussi di lavoro? Come esaminerai e analizzerai i dati? La compilazione varia a seconda della complessità delle esigenze, ma un tipico database warehouse aziendale può essere costituito dai componenti seguenti:

  1. Origini dati che estraggono i dati operativi da sistemi point-of-sale, applicazioni aziendali e altri database relazionali
  2. Un'area di gestione temporanea in cui i dati vengono puliti e trasformati per il warehouse o il repository centralizzato
  3. Un warehouse o un repository centralizzato che archivia dati operativi elaborati, metadati, dati di riepilogo e dati non elaborati per semplificare l'accesso degli utenti
  4. L'aggiunta di data mart, che accetta i dati dal repository centralizzato e li fornisce in subset a gruppi di utenti selezionati
  5. Una sandbox, che gli scienziati di dati possono usare per testare nuove forme di esplorazione dei dati in un ambiente protetto
  6. Un'ampia gamma di strumenti di data warehousing, framework e API per l'integrazione, l'archiviazione, le prestazioni e l'analisi
Una persona che analizza i grafici sul portatile e i report di dati su due monitor
Schermo portatile con grafici aperti

Strumenti, software e risorse del data warehouse

Nel mondo odierno incentrato sui dati, molte delle principali società di software sfruttano una gamma apparentemente infinita di software di data warehouse, ognuno con il proprio caso d'uso specifico. Può sembrare difficile, ma per creare una soluzione coesa e ad alte prestazioni, è consigliabile investire negli strumenti e nelle tecnologie appropriati. Le esigenze di ogni organizzazione sono diverse, ma ecco alcuni prodotti di data warehouse essenziali da esaminare:

Data warehousing cloud e ibrido

Una soluzione unificata di data warehousing basata sul cloud, ad esempio Azure Synapse Analytics, offre alle organizzazioni la possibilità di ridimensionare, calcolare e archiviare a una velocità più rapida e a costi inferiori.

Strumenti di integrazione dei dati

Le pipeline ETL consentono agli utenti di creare, pianificare e orchestrare i flussi di lavoro in modo che i dati di origine vengano integrati, puliti e standardizzati automaticamente.

Archiviazione di oggetti

Una soluzione di archiviazione di oggetti può contenere grandi quantità di dati strutturati, semistrutturati e non strutturati, il che lo rende ideale per la gestione temporanea dei dati di origine prima del caricamento nel warehouse.

Strumenti di warehousing

Una soluzione di archiviazione distribuita contiene grandi set di dati in tabelle relazionali con archiviazione a colonne. In questo modo si riducono notevolmente i costi, si migliorano le prestazioni delle query e si velocizza il tempo necessario per ottenere informazioni dettagliate.

Strumenti per le prestazioni

Per migliorare le prestazioni delle tue applicazioni, potresti voler integrare Apache Spark, un framework open source di elaborazione parallela che supporta l'elaborazione in memoria.

Gestione delle risorse e dei carichi di lavoro

Un resource manager alloca la potenza di calcolo ai carichi di lavoro in modo da poter caricare, analizzare, gestire ed esportare i dati di conseguenza.

Modellazione dati

La modellazione dei dati combina più origini dati in un unico modello semantico, offrendo una visualizzazione strutturata e semplificata dei dati.

Strumenti di business intelligence

Gli strumenti di analisi aziendale consentono di fornire informazioni dettagliate agli utenti sotto forma di dashboard, report e altri strumenti di visualizzazione.

Funzionalità di sicurezza e privacy

Le funzionalità di sicurezza e conformità come la crittografia dei dati, l'autenticazione utente e il monitoraggio degli accessi assicurano che i dati rimangano protetti.

Due persone che discutono e una persona a destra tiene in mano il portatile

Che cosa è successo ad Azure SQL Data Warehouse?

Le funzionalità associate ad Azure SQL Data Warehouse sono ora una funzionalità di Azure Synapse Analytics denominata pool SQL dedicato. I clienti Azure SQL Data Warehouse esistenti possono continuare a eseguire i carichi di lavoro Azure SQL Data Warehouse esistenti usando la funzionalità del pool SQL dedicato in Azure Synapse Analytics senza apportare modifiche. I clienti possono anche iniziare a gestire i dati del warehouse esistenti con Azure Synapse Analytics per sfruttare le funzionalità di analisi avanzate, come l'esplorazione del data lake serverless e i motori SQL e Apache Spark™ integrati.

Domande frequenti

  • Un data warehouse è un repository centralizzato che contiene dati strutturati (tabelle di database, fogli di Excel) e dati semistrutturati (file XML, pagine Web) per la creazione di report, l'analisi e altre forme di business intelligence.

  • L'uso di un data warehouse offre molti vantaggi. Ad esempio, un data warehouse consolida più origini di dati in un'unica origine di verità, che le organizzazioni possono quindi usare per prendere decisioni più informate sull'azienda e sulle operazioni.

  • I data warehouse archiviano dati strutturati e semistrutturati, che possono essere usati per il data mining dei dati di origine, la visualizzazione dei dati e altri casi d'uso di business intelligence specifici. I data lake archiviano vari tipi di dati non elaborati, che gli scienziati dei dati possono quindi usare per creare un'ampia gamma di progetti.

  • Un data warehouse è in genere costituito da più livelli: il livello inferiore, in cui i dati vengono raccolti e archiviati; il livello intermedio, in cui i dati sono analizzati; e il livello superiore, in cui i dati vengono visualizzati per consentire agli utenti di accedervi e analizzarli.

  • Quando si progetta e si crea l'infrastruttura del data warehouse, è importante considerare la natura dei dati e il modo in cui si desidera trasformarli. Alcuni elementi comuni di una compilazione tipica includono origini dati, un'area di gestione temporanea, il warehouse stesso, data mart, sandbox e vari strumenti di integrazione.

  • Molte importanti società di software ora vantano un'ampia gamma di prodotti di data warehouse.

  • Queste funzionalità sono ora una funzionalità di Azure Synapse Analytics denominata pool SQL dedicato. I clienti Azure SQL Data Warehouse esistenti possono continuare a eseguire i carichi di lavoro senza apportare modifiche.

Account gratuito

Prova i servizi gratuiti di cloud computing di Azure per un massimo di 30 giorni.

Pagamento a consumo

Inizia con il pagamento in base al consumo. Senza alcun impegno iniziale. Annulla quando vuoi.