Deduplicazione nello storage: Come funziona e quanto fa risparmiare

Data storage
0 0 Non ci sono commenti

I dati e le informazioni aziendali sono spesso ridondanti e duplicate: gli stessi file o quelli con minime variazioni sono immagazzinati diverse volte nei sistemi di storage e copiati poi ripetutamente nelle memorie di backup e di archiviazione. Ma risparmi significativi potrebbero essere possibili se questa ridondanza fosse ridotta o eliminata.

La deduplicazione è un processo in cui ogni elemento di un dato, soggetto a backup, è confrontato con un record dei dati che sono stati precedentemente archiviati per identificare una possibile ripetizione o ridondanza. Questo processo può avvenire prima o dopo che il dato è stato scritto nello sistema di storage dedicato al backup.

Si parla di deduplicazione inline quanto le procedure viene eseguite in tempo reale, mentre il dato viene scritto sul disco di backup. Ma il processo di deduplicazione può avvenire dopo che i dati hanno subito il backup su disco e il processo di backup è terminato. In generale la deduplicazione in tempo reale impegna in modo intensivo la Cpu attraverso i suoi algoritmi che analizzano i dati in arrivo in modo da eliminare le duplicazioni prima che i dati finali siano scritti su disco.

Maggiore è la quantità di dati che deve essere gestita in un certo lasso di tempo, maggiore è la potenza richiesta all’unità centrale. Ma una volta che i dati sono scritti su disco in forma ottimizzata, il processo di replica verso un altro sito può iniziare subito dopo il completamento del job di backup.
Quanto invece la eliminazione dei dati duplicati prende avvio una volta che il job di backup è terminato, i dati non ancora ottimizzati sono scritti in un’area di cache e su di essi il motore di deduplicazione applica i suoi algoritmi di ottimizzazione. Poiché il processo di ottimizzazione viene avviato a backup concluso, non ci sono rallentamenti nelle operazioni di backup, che possono andare avanti con la massima velocità: una possibilità importante in quegli ambienti in cui le cosiddette finestre temporali di backup sono limitate. L’unico accorgimento è che il processo di deduplicazione deve essere finito prima che sia dato il via al backup successivo. In questo caso bisogna predisporre le necessarie capacità di storage per contenere i dati sia nella forma preottimizzata sia nella loro forma ottimizzata. Nel caso di soluzioni di tipo enterprise questo significa predisporre diversi terabyte di capacità.

Nel caso di librerie virtuali Vtl le procedure di deduplicazione possono essere portate avanti in una appliance hardware o con un’applicazione software. L’approccio attraverso appliance vuol dire integrazione più facile e gestione più agevole. Un’appliance si integra in maniera agevole con le procedure esistenti di protezione dei dati. Dato che il fornitore conosce le prestazioni dell’appliance che offre in vendita, il compito dell’esatto dimensionamento per capacità e velocità ne esce agevolato.

Con una soluzione basata su software il beneficio sta nel compiere le operazioni di ottimizzazione prima che i dati di backup vengano trasmessi attraverso la rete al dispositivo finale. I benefici stanno appunto nel non sovraccaricare reti spesso congestionate o nel poter effettuare backup su rete geografica vero i siti remoti. L’introduzione in un sistema di funzionalità di deduplicazione via software è facile se questa avviene tramite un semplice upgrade del software di backup, ma spesso ciò significa cambiare totalmente la soluzione di backup con ovvi problemi di interruzione del servizio.
L’algoritmo di deduplicazione può agire con livelli di granularità diversa. A livello di file le istanze multiple di uno stesso file possono verranno ridotte a una sola, ma se due file grandi sono diversi anche di un solo byte saranno memorizzati come due file diversi. La deduplicazione a livello di blocco permette al motore di ottimizzazione di esaminare i contenuti di ogni file per individuare gli elementi comuni o duplicati. Se i file sono simili, pensiamo a un file di Office, una deduplicazione a livello di blocco registrerà una sola istanza degli elementi comuni dei file. La riduzione dei dati ridondanti è più efficiente, ma ciò avviene a spese di un maggiore dispendio di risorse al livello di Cpu e di I/O.

Si arriva così allo scopo ultimo del processo di duplicazione: la compressione dei dati. L’ambiente in cui sopra, il tipo di dato processato, la quantità di modifiche e le caratteristiche dell’algoritmo di ottimizzazione portano a risultati di compressione diversi. A sua volta la compressione dipende anche dal tipo di backup che viene effettuato. Nel caso di dati strutturati, come i data base , un backup viene eseguito in maniera totale ogni giorno. In questo caso una deduplicazone a livello di blocco può arrivare a compressione di 50 volte. Tuttavia se i dati sono misti, strutturati e non strutturati, una aspettativa realistica riguarda un rapporto di compressione da 10 fino a 20 a uno.
L’implicazione pratica per l’utente è che una tecnologia di deduplicazione consente la protezione di un analoga quantità di maggiore informazione sullo stesso sistema fisico di storage.

Clicca per leggere la biografia dell'autore  Clicca per nascondere la biografia dell'autore