Big data, Gartner: “Necessaria una governance dei dati”

Le piattaforme sul mercato non sempre soddisfano le esigenze delle aziende. E non tutti sono in grado di effettuare l’analisi dei dati. Andrew White: “Senza competenze i data lake non sono altro che silos senza senso”

Pubblicato il 29 Lug 2014

Patrizia Licata

dati-data-storage-120125112112

Quando si parla di data lake i manager che gestiscono le informazioni hanno ancora le idee confuse su come ottimizzare le strategie aziendali. Lo scrive la società di ricerche Gartner in una nota, in cui sottolinea come diversi vendor hitech stiano commercializzando i data lake come componente fondamentale delle strategie Big Data ma senza che vi sia uniformità tra i diversi fornitori su che cosa sia un data lake e come estrarne valore.

“In termini generali, i data lake vengono venduti come piattaforme per la gestione dei dati dell’intera azienda che servono ad analizzare fonti disparate di dati nei loro formati nativi”, spiega Nick Heudecker, research director di Gartner. “L’idea è semplice: invece di mettere i dati in un magazzino costruito ad hoc, li si sposta in un data lake nel loro formato originale. Questo elimina i costi iniziali dell’inserimento e trasformazione dei dati. Una volta che i dati sono messi nel lake, sono disponibili per l’analisi per chiunque all’interno dell’azienda”.

Ma anche se i vendor sostengono che tutti gli utenti dell’azienda trarranno vantaggio dai data lake, per Gartner non è scontato che tutti abbiano le competenze per la manipolazione e analisi dei dati.

“E’ vero che i data lake possono apportare valore a diverse divisioni dell’azienda in termini di maggiore agilità e accessibilità per l’analisi dei dati, ma non è ancora chiaro come si possano realizzare le promesse di questo data management che abbraccia l’intera organizzazione”, sottolinea Andrew White, vice president e distinguished analyst di Gartner.

I data lake si concentrano sulla conservazione di dati da fonti disparate e non su come o perché i dati sono usati, governati, definiti e messi in sicurezza, nota Gartner. Unire però tutti i dati nel lake, benché senza una gestione, è un modo per risolvere il vecchio problema dei silos di informazioni. Si tagliano così i costi e si aumentano, in teoria, utilizzo e condivisione. Il data lake cerca anche di venire incontro alle iniziative legate ai Big Data, che richiedono grandi volumi di informazioni di varia provenienza.

“Venendo incontro a queste due esigenze il data lake è sicuramente un beneficio per l’It nel breve termine”, afferma White, “ma estrarre valore dai dati resta compito dell’utente finale in azienda. Occorre una forma di governance dell’informazione o il lake finirà col diventare una raccolta di dati sconnessi oppure di silos di informazioni tutti nello stesso posto”.

Per questo, secondo Gartner, i data lake comportano anche alcun irischi. Il più importante è l’impossibilità di determinare la qualità del dato o di risalire a precedenti analisi su uno stesso dato o a utenti che vi hanno trovato valore. Per definizione, infatti, il data lake accetta qualunque dato, senza supervisione o governance e senza metadati, per cui ogni volta che un dato viene usato l’analisi ricomincia da capo, senza poter fare tesoro di eventuali analisi precedenti.

Poi ci sono altri rischi, come la sicurezza e il controllo degli accessi, visto che i dati possono essere messi nel lake senza supervisione, compresi quelli che richiedono attenzioni specifiche in materia di privacy o altre normative. Anche gli aspetti di performance sono importanti: Gartner consiglia alle aziende di occuparsi della coerenza semantica e delle prestazioni nelle applicazioni upstream e nei magazzini di dati anziché solo del consolidamento delle informazioni nel data lake.

“Il data lake presume che l’utente dell’informazione capisca il contesto in cui il dato è stato catturato, che sappia come fondere e conciliare diversi fonti di dati e come interpretare set di dati incompleti e privi di una struttura di riferimento”, conclude Heudecker. Questi presupposti sono veri per chi lavora abitualmente con i dati, come i data scientist, ma non per gli altri utenti in azienda: occorrerà sviluppare gli skill necessari a tutti i livelli aziendali per attingere al data lake e questa è un’operazione che ha un costo, in termini di tempo e denaro, e che non sempre è possibile attuare, sottolinea Gartner. Alle aziende dunque il compito di valutare attentamente pro e contro dei diversi approcci per capire se è più utile avere le informazioni e le analisi in silos indipendenti di dati o se optare per il data lake.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Argomenti trattati

Approfondimenti

A
Andrew White
B
big data
G
Gartner
I
IT

Articolo 1 di 2