lunedì 13 gennaio 2014

Dati "non strutturati" ... solo il Tiering ci salverà !!!

Ogni cliente a cui si mostrano le classiche slide di crescita esponenziale del dato “non strutturato”, dopo un primo momento di diffidenza si trova a riconoscere che anche nel proprio DataCenter tali dati proliferano in maniera incontrollata e con un trend di tipo esponenziale.


Anche da una recente analisi di Gartner (maggio 2013), si evince come il protocollo NAS (classico dei dati non strutturati) ha generato nel 2012 maggiori revenues (più del doppio) rispetto al protocollo FC (classico degli ambienti strutturati a crescita controllata).



martedì 7 gennaio 2014

EMC Consulting Service – Un supporto concreto nel viaggio verso il Cloud

Una decina di anni fa si sentiva parlare di EMC unicamente come Storage Vendor. Pur non avendo intenzione di diventare una società di servizi, è evidente che oggi EMC non è più una realtà riconducibile alla sola proposta di soluzioni storage. I servizi generano quasi un terzo del fatturato complessivo e sono proposti attraverso una struttura organizzata, trasversale a tutte le Business Unit.

Con prodotti e servizi all’avanguardia nel mercato della virtualizzazione e della gestione delle informazioni, oltre ad un solido ecosistema di partner, EMC è al centro di due tra i trend più “caldi” dell’IT: il Cloud Computing e i Big Data.

La struttura di Global Services ha come obiettivo fornire alle imprese un sostegno strategico (di tipo consulenziale, tecnico, di gestione e supporto, di fornitura di servizi professionali pre e post vendita e di assistenza) in tutte le aree di business e di proposta dell’azienda. I servizi di consulenza permettono al cliente di ampliare i propri orizzonti fornendo tutto il supporto necessario per una gestione ottimale delle informazioni. Guardare al futuro vuol dire raggiungere diversi obiettivi, tra cui l'ottimizzazione dei processi aziendali, la razionalizzazione delle applicazioni, la virtualizzazione delle infrastrutture, la riorganizzazione delle informazioni.

mercoledì 18 dicembre 2013

Innovazione nella Sanità

Come possiamo innovare in Sanità?

Ci sono alcune considerazioni interessanti, a valle della recente ricerca di mercato di IDC sull’ IT in Sanità in Europa.

Un primo aspetto, in base al report, riguarda la qualità ed efficacia della cura, un aspetto fondamentale che guida gli investimenti IT in innovazione. In un momento economico difficile, non si parla più solo di costi da ridurre. Si cerca piuttosto di trasformare l’esperienza dei pazienti, garantire la sostenibilità del sistema, aspetti che, di conseguenza, portano ad una ottimizzazione delle spese.


Dal mio punto di vista questo è estremamente interessante, osservando come l’innovazione viene implementata in molti paesi, in Europa.


lunedì 16 dicembre 2013

L’integrazione del Software Defined Storage di EMC (ViPR) in ambienti Private Cloud Multi-Cloud OS / Multi-Hypervisor

Nell’ambito del Private Cloud, ed in particolare relativamente al livello infrastrutturale (IaaS) , l’architettura di virtualizzazione prevalente fino a qualche tempo fa prevedeva l’uso di un singolo Cloud OS / Hypervisor rappresentato nella quasi totalità dei casi dalla suite VMWare.
Questo perché VMWare è stata ed è tuttora, senz’alcun ombra di dubbio, la piattaforma di virtualizzazione dominante del mercato in quanto l’unica ad avere le funzionalità di tipo Enterprise richieste dai clienti e necessarie all’erogazione dei servizi IT nel Private Cloud.
Sotto la spinta del movimento Open Source I trend di mercato stanno modificando questo scenario e Cloud-OS nuovi/alternativi stanno emergendo e crescendo in termini di maturità tecnologica.
Lo studio di Wikibon ,sintetizzato nella slide sottostante, illustra quantitativamente questo trend che coinvolge con differenti motivazioni e strategie il 51% dei clienti intervistati rappresentati da coloro che per vari motivi (economici o al fine di perseguire strategie dual/multi vendor anti lock-in) mostrano interesse nell’avere due piattaforme di virtualizzazione all’interno del loro DC.
 
MultiHypervisorStrategy -Figure1
 
Questi “Nuovi/Alternativi” Cloud-OS, pur non avendo raggiunto il livello maturità di VMWare, iniziano ad affermarsi in determinati ambienti IT, essenzialmente quelli non critici, come valide alternative all’erogazione di servizi IT nel Private Cloud.

venerdì 13 dicembre 2013

SCALE - OUT NAS: ISILON porta lo storage nel futuro (parte 2)

Nella prima parte, abbiamo illustrato i principi su cui è fondato il sistema EMC ISILON. Il paradigma dello Scale-Out, realizzato attraverso l’adozione di un’architettura cluster (invece del tradizionale approccio controller-array) e l’implementazione di un sistema operativo in grado di virtualizzare tutte le risorse hardware,  non sarebbe completamente realizzato senza una modalità innovativa ed efficiente di protezione dei dati.  OneFS aggrega le funzionalità di RAID Management, Volume Management e File System in un unico livello software che svincola definitivamente le esigenze di protezione dei dati dal livello fisico e consente agli storage manager di gestire i dati, non l'infrastruttura.

N+M: PROTEZIONE DEI DATI OLTRE I CONFINI DEL RAID


Big Data non significa soltanto grandi quantità di dati, ma anche dati che sono continuamente modificati,  che si espandono continuamente e un tasso di obsolescenza molto più accelerato del normale: il RAID è un meccanismo troppo statico e oneroso dal punto di vista dell’overhead per essere considerato ottimale. 

Il livello tradizionale di protezione dei file (mirroring e FEC) è sempre stato definito a livello fisico, mediante la creazione dei gruppi RAID, indipendentemente dal ciclo di vita dei dati. E’ possibile però che uno stesso dataset abbia una criticità maggiore in una certa fase della sua vita rispetto a un’altra o che nuove policy aziendali richiedano una modifica non prevista al livello di protezione dei dati. In un array basato sul RAID, questo significherebbe onerose e rischiose operazioni di migrazione dei dati e ricostruzione dei gruppi RAID, oppure acquisto di nuovo spazio disco.

EMC ISILON implementa invece un meccanismo proprietario estremamente flessibile, in cui l’elemento atomico del gruppo di protezione non è più il singolo disco, ma il nodo, e che consente di riconfigurare il livello di protezione online a seconda delle esigenze e senza più necessità di migrazione dati. 

Tale meccanismo è chiamato N+M. I vantaggi del N+M sono immediatamente comprensibili, se paragonato al RAID:

Feature

N+M

RAID

Fault Tolerance

Fino a 4 failure (N+4)

Fino a 2 failure (RAID 6)

Flessibilità

Livello modificabile a caldo (SW level)

Non modificabile a caldo  
(HW level)

Granularità

File Level (SW)

Raid Group Level (HW)

Efficienza vs Scalabilità

Variabile (a parità di protezione, l’efficienza aumenta con la dimensione del cluster)

Fissa (a parità di protezione, aumentando la capacità bisogna creare nuovi gruppi RAID )


Sebbene N+M sia in qualche modo paragonabile al RAID, è importante ricordare che mentre il failure, nel RAID, è riferito ad uno o due dischi all'interno di un RAID Group, per ISILON, un failure è riferito a un NODO, quindi fino a 36 dischi di uno stesso nodo che possono contemporaneamente essere offline senza alcun impatto sulla disponibilità dei dati. L’implementazione della protezione N+M è molto semplice.


                    Ogni volta che un client scrive un file in un cluster ISILON, questo è suddiviso in blocchi da 128 KB

                    Per ogni N di questi blocchi, il sistema calcola M blocchi di parità, sempre da 128 KB

                    Gli N+M blocchi risultanti costituiscono una stripe (o protection group)

                    La stripe viene scritta sui dischi, un blocco per nodo ( * )

                    Il procedimento viene ripetuto fino all’esaurimento della dimensione complessiva del file

( * )  La massima estensione di una stripe è 20 blocchi, di cui al massimo 16 di dati e i restanti di parità. Ogni blocco di una stessa stripe viene scritto su un nodo diverso, perciò per cluster inferiori ai 20 nodi N+M è uguale al numero dei nodi del cluster, mentre per cluster più grandi, la stripe sarà scritta al massimo su venti dei nodi che compongono il cluster.

Nell'immagine seguente, è riportato l'esempio di un file che viene scritto con una doppia protezione in un cluster composto da 6 nodi (N=4, M=2) . Nella pratica, il nodo che ha in carico la sessione di file sharing si occupa di dividere il file, calcolare la parità ed inviare infine i blocchi agli altri nodi.


Per file più piccoli di 128 KB, il risultato della procedura N+M è un mirroring, quindi, di fatto, i file di piccole dimensioni vengono mirrorati (OneFS supporta nativamente anche il mirroring da 2x a 8x). Ovviamente, OneFS gestisce e ottimizza file la cui dimensione non sia multiplo di 128 KB, ma la spiegazione di come siano trattati i casi particolari di striping(incluse le configurazioni N+M:b) esula dallo scopo di questo post. Il grande vantaggio dell’algoritmo N+M è che N e M sono numeri configurabili a seconda delle esigenze, con l’unico vincolo che N sia maggiore M, quindi, per esempio, la doppia parità è applicabile solo a cluster con un numero di nodi uguale o superiore a 5 e così via. Il valore di M (cioè del numero di fault tollerati) varia da 1 a 4 . M = 1 corrisponde a una protezione a singola parità (protezione equivalente a quella del RAID 5) mentre M = 2 corrisponde a una protezione a doppia parità (protezione equivalente a quella del RAID 6).Il livello di protezione può essere definito su base file o cartella e può essere modificato a caldo, svincolandosi pertanto definitivamente dalla quantità e dalla configurazione dei dischi sottostanti.

Vale la pena sottolineare il fatto che M = 3 e M = 4 sono livelli di protezione non raggiungibili con i tradizionali RAID e pertanto da nessun altro sistema.

Ultime due considerazioni: la distribuzione dei blocchi in cui il file è suddiviso su un numero ampio di nodi ha due conseguenze dirette molto importanti: innanzitutto, un nodo non è mai un Single Point of Failure per la disponibilità e l'integrità dei dati, perchè un file in nessun caso può risiedere interamente su un unico nodo; in secondo luogo, l'utilizzo bilanciato di tutti i nodi evita la creazione di hot spot e consente al sistema di lavorare in maniera efficiente, sia dal punto di vista delle prestazioni che da quello dell'utilizzo della capacità.

Alcuni esempi pratici:

CLUSTER di 3 NODI, protezione a singola parità: N+M diventa 2+1 (ovvero il file viene suddiviso in stripe composte da 3 blocchi di 128 KB, di cui due di dati e una di parità). L’efficienza dello storage è 67%.

CLUSTER di 8 NODI, protezione a singola parità: N+M diventa 7+1 (ovvero il file viene suddiviso in stripe composte da 8 blocchi di 128 KB, di cui sette di dati e una di parità). L’efficienza dello storage è 87%.

CLUSTER di 8 NODI, protezione a doppia parità: N+M diventa 6+2 (ovvero il file viene suddiviso in stripe composte da 8 blocchi di 128 KB, di cui sei di dati e due di parità). L’efficienza dello storage è 75%.

Cluster di 18 NODI, protezione a singola parità: N+M diventa 16+1 (ovvero il file viene suddiviso in stripe composte da 17 blocchi di 128 KB, di cui sedici di dati e una di parità). In questo caso, ogni file sarà suddiviso su un diverso sottoinsieme di nodi, in modo che l’occupazione complessiva dei nodi sia sempre bilanciata. L’efficienza dello storage è 88%.

Cluster di 20 NODI, protezione a quadrupla parità: N+M diventa 16+4 (ovvero il file viene suddiviso in stripe composte da 20 chunk di 128 KB, di cui sedici di dati e quattro di parità). L’efficienza dello storage è 80%

Nota Bene: Gli esempi riportano casi molto semplici in cui un solo algoritmo di protezione è stato definito per tutto il cluster, per cui è molto semplice calcolare l’efficienza. Vale la pena ricordare che si può applicare una diversa protezione a diversi sottoinsiemi di dati nello stesso filesystem, pertanto l’efficienza, seppure sempre crescente al crescere del numero dei nodi, non risulta più immediatamente calcolabile a priori.

mercoledì 11 dicembre 2013

XtremIO: Garbage Collection? No, Grazie!

Il minimo da sapere.

Durante il  lancio il 14 novembre, per XtremIO, è stato affermato che non dispone di eventuali processi di Garbage Collection (da qui in avanti detto G.C.) a livello di sistema.   Questo però è stato interpretato  da alcune persone come se XtremIO fosse in qualche modo impermeabile alla necessità di G.C. Ovviamente non è possibile, tutti i dischi flash richiedono la procedura di G.C.  Ciò che conta è dove e come la G.C. è effettuata.  Con XtremIO, dovendo garantire prestazioni sempre coerenti e prevedibili, il processo di G.C.
viene gestito in maniera nuova e unica.

Quindi come mai XtremIO non richiede G.C. a livello di sistema, mantenendo prestazioni costanti e prevedibili?

... prima dobbiamo essere d'accordo sulla definizione di cosa è e cosa fà la G.C. 


Con un disco tradizionale i nuovi dati possono essere scritti proprio sopra quelli esistenti, nel senso che la testina cerca solo la posizione da sovrascrivere e ri-magnetizza con il nuovo contenuto. Con i dischi flash, i dati esistenti devono prima essere cancellati (un'operazione molto lenta) e quindi i nuovi dati possono essere "riprogrammati" in quelle celle. A peggiorare le cose c'è che non si può semplicemente cancellare esattamente ciò che si desidera. Immaginate di avere un "erase block" di 256 KB, per modificare solo 8K dell'intero blocco, si dovranno leggere tutti i 256KB, poi bufferizzarli, poi cancellare o modificare gli 8K, poi i 256KB aggiornati possono essere scritti sulla cella.

Questo viene anche detto "write amplification" (wikipedia > Write_amplification) e poiché i dischi flash hanno comunque un numero finito di cicli di Write , questo non và troppo bene, no?

... e per capire perché, dobbiamo tornare un pò indietro nella storia.