Le promesse della riduzione dei dati ridondanti

Data storage
0 0 Non ci sono commenti

La cosiddetta deduplicazione dei dati emerge come una delle spinte innovative per l’ottimizzazione dello storage. Ma non tutte le tecniche e i metodi sono uguali. Per ognuno di essi ci sono rischi e benefici. Cosa scegliere e con quali criteri?

Una sola certezza per chi gestisce i dati e lo storage: la quantità di dati da proteggere continua a crescere. Questa crescita senza fine è una sfida per la protezione dei beni strategici di un’azienda, sfida che diventa più difficile da vincere quando spesso non c’è la possibilità di aumentare le risorse da gestire. D’altra parte una cosa è altrettanto reale: i dati e le informazioni sono spesso in modo significativo ridonanti e duplicati: gli stessi file o file con minime variazioni vengono immagazzinati diverse volte nei sistemi di storage e copiati poi ripetutamente nelle memorie di backup e di archiviazione.

Ma risparmi significativi potrebbero essere possibili se questa ridondanza potesse essere ridotta o eliminata.

E’ questa la promessa della deduplicazione, una tecnologia che potenzialmente sembra in grado di tenere sotto controllo la crescita dei dati e far fare un passo in avanti all’efficienza di gestione dello storage. Prendendo la forma della riduzione della duplicazione dei dati l’ottimizzazione dello storage promette di creare efficienze nuove e non possibili anche solo poco tempo fa. Si tratta di una sfida per molte aziende che devono considerare attentamente quale approccio tenere in funzione delle loro necessità.

Da un lato dunque ci sono le promesse di efficienza della deduplicazione come mezzo per aumentare la protezione dei dati e la capacità di gestirli e dall’altro esistono anche potenziali svantaggi che vanno ben considerati al momento delle scelte.

I costruttori che operano nell’area dello storage hanno subito capito le opportunità commerciali offerte dalla deduplicazione. Fornitori di array, librerie virtuali su nastro ( Vtl) e applicazioni d backup stanno tutti offrendo soluzioni di riduzione di dati duplicati, ma con caratteristiche e approcci diversi.
Partendo da una definizione a vasto spettro, la deduplicazione si può definire come un metodo per le ricerca e l’eliminazione dei dati ridondanti dalla rete e dall’infrastruttura di storage. Il grande beneficio della tecnologia di deduplicazione sta nella sua capacità di offrire un radicale aumento della quantità di memoria messa a disposizione da un pool di risorse di storage. Questo porta direttamente al risparmio di un’enorme quantità di denaro in investimenti e costi per queste risorse di storage. Ma tenere sotto controllo e ottenere in pratica i benefici promessi dalla tecnologia non è un facile. Esiste un’ampia gamma di offerte di soluzioni di deduplicazione sul mercato attuale e queste soluzioni variano in maniera significativa in funzione degli algoritmi usati per l’eliminazione dei file duplicati e in funzione della architettura di sistema.

A causa di queste differenze – e dei rischi che esse comportano – il suggerimento degli esperti è di analizzare al momento della scelta di un tipo di soluzione i diversi fattori che contribuiscono alla capacità di questa soluzione di eseguire il suo compito.

Esistono dei criteri chiave per valutare una soluzione di deduplicazione che cercheremo di rendere chiari in questo e negli interventi successivi.
Per rendere chiara la situazione che si trovano ad affrontare i gestori dell’It aziendale si può partire da un esempio che indica anche un diffuso comportamento da parte degli utenti che trattano la capacità di memoria di un’infrastruttura It come una risorsa senza limiti e spesso fanno pochi sforzi per risparmiare lo spazio di storage. D’altra parte, quando la capacità di memoria comincia a diminuire, gli amministratori It tendono a fornire subito più risorse online piuttosto che addestrare o sollecitare gli utenti al risparmio di spazio. Il risultato è che l’utente normale contribuisce insieme ad altre cause, come la compliance, alla crescita esponenziale dei dati da conservare.
L’esempio che gli esperti ci chiedono di considerare, può partire da un comune documento di Office, spesso un file contenente una presentazione. Un utente lo invia per email a vari colleghi. Qualcuno di loro ne fa alcune copie , spesso cambiando solo un titolo o poche parole in una sola slide. Spesso chi ha ricevuto il file ringrazia replicando all’email con un testo che contiene ancora il file originale con attachment. Alla fine ogni copia del file viene assoggettata alle procedure di backup come parte del normale processo aziendale di protezione dei dati e, rimbalzando attraverso i vari step di salvataggio e archiviazione il medesimo file, finisce con l’occupare un enorme quantità di spazio dati.

Questo processo molto comune è stato gestito da parte dei fornitori di sistemi sviluppando con successo metodologie e processi di gestione dello storage che consentiva di sostenere la crescita dei dati , anche grazie alla crescente possibilità di aumentare la capacità dello storage anche a un tasso del 50% all’anno negli ultimi dieci anni.

Ma per risolvere il problema la deduplicazione dei dati prende una strada diversa . Piuttosto che immagazzinare e gestire ogni singola copia di un file o dei dati , le copie “doppie” di queste informazioni vengono sostituite in fase di backup su un dispositivo di storage da un riferimento a un’unica istanza dei dati. Il passaggio a una maggiore efficienza, soprattutto in un’infrastruttura di protezione dei dati che opera da disco a disco è immediata.

Clicca per leggere la biografia dell'autore  Clicca per nascondere la biografia dell'autore