giovedì 12 settembre 2013

Che cos'è la deduplica dei dati ?

Quando si parla di dati deduplicati si fa rifermento ad un insieme di informazioni che sono state sottoposte ad un particolare processo, chiamato appunto deduplica, che consiste nella ricerca all'interno dei dati di sequenze che si ripetano: i dati sono quindi divisi in sequenze (di lunghezza fissa o variabile ma di solito di 8KB o più), e ciascuna sequenza viene confrontata con lo storico delle altre sequenze finora incontrate. Una sequenza che viene incontrata per la prima volta viene quindi salvata in modo completo, mentre le occorrenze successive sono salvate solo come "puntatori" ai dati già salvati, risparmiando quindi lo spazio altrimenti necessario alla (ri)scrittura di informazioni che già erano state memorizzate: questo processo è ovviamente completamente trasparente per gli utenti e le applicazioni che leggono e/o scrivono i dati.

Chi utilizza la deduplica?

La deduplica è ideale per le operazioni ad alta ridondanza quali i backup: ogni volta che si effettua un backup infatti una parte importante delle informazioni salvate risultano immutate rispetto al salvataggio precedente; il processo di deduplica è in grado di individuare questi dati non modificati e memorizzarli conseguentemente solo come puntatori. Il risultato finale è un meccanismo di backup e recovery che risulta veloce, affidabile e a costi molto contenuti anche quando i dati sono mantenuti per 30-90 giorni.

Deduplica inline e off-line

L'operazione di deduplica è particolarmente "intensa" lato CPU: questo costo, che si traduce in un potenziale impatto sulle applicazioni, specie per le operazioni di scrittura, ha dato origine a due modelli di deduplica:

  • deduplica inline: in questo caso il processo di deduplica viene effettuato in real time nel momento in cui i dati vengono creati; in altre parole il dato viene scritto nel sistema di memorizzazione in formato deduplicato e ogni operazione di scrittura è considerata completata solo nel momento in cui la deduplica è avvenuta.
  • deduplica offline (anche detta post-process deduplication): in questo caso i nuovi dati sono inizialmente scritti nell'esatto formato creato dall'applicazione. L'operazione di deduplica viene effettuata solo successivamente da parte di un processo che analizza i dati e li riscrive in modo deduplicato.

Il beneficio maggiore della deduplica inline è che richiede meno spazio di memorizzazione, in quanto i dati sono scritti immediatamente in formato deduplicato: nella deduplica offline si ha invece la necessità di disporre di un area di memorizzazione che comprenda sia i dati in formato non deduplicato, sia i dati deduplicati; per applicare la deduplica non è infatti possibile "rimuovere" gli elementi comuni, ma occorre un intera riscrittura dei dati stessi.

Come detto, essendo il processo di deduplica molto costoso in termini computazionali, il beneficio nell'immediato risparmio di spazio disco deve essere bilanciato dall'impatto in termini operativi: le operazioni di scrittura diventano più lunghe; solo di recente, architetture come XtremIOdisegnate ex novo per l'uso esclusivo di dischi flash, hanno dimostrato di essere capaci di una deduplica inline senza costi "nascosti"; il dibattito tra metodi di deduplica inline e offline è comunque ancora molto acceso.

Benefici della deduplica


Eliminare i dati ridondanti può ridurre significativamente i requisiti di storage, con un evidente impatto sulla capacità complessiva necessaria per memorizzare le informazioni. Poiché il costo dello storage è costantemente in diminuizione, le aziende tipicamente hanno iniziato a mantenere diverse versioni delle stesse informazioni in modo da poter più facilmente riutilizzare il lavoro eseguito in precedenza: queste diverse versioni ovviamente sono degli ottimi candidati per la deduplica, che riduce i costi sia in termini di "spazio disco", sia in termini complessivi di elettricità, condizionamento e floor space.
Oltre all'aspetto "statico" (memorizzazione), il processo di deduplica ha anche un importante impatto "dinamico" in termini di efficienza nell'utilizzo della banda di rete: facendo infatti transitare solo i dati realmente "nuovi" è possibile ridurre sensibilmente tale  traffico; questo risulta particolarmente rilevante negli scenari in cui la "periferia" aziendale deve comunicare con il centro attraverso dei canali a banda limitata. Anche gli scenari di Disaster Recovery possono beneficiare dal processo di deduplica, in quanto ci sono meno dati da fare transitare tra un sito e l'altro: specie nelle dimensioni geografiche questa efficienza nell’uso della banda di rete diventa un elemento critico di valutazione.


Alcune delle soluzioni EMC che utilizzano la deduplica:

Nessun commento:

Posta un commento