venerdì 27 settembre 2013

Gestione dinamica dei dati: dall'HSM a FAST VP

La gestione gerarchica del dato.

Quando fu introdotto il concetto di “Hierarchical Storage Management”, il principio alla base di questa tecnica era molto chiaro: ridurre il costo di memorizzazione dati (su disco) e semplificare il recupero di dati da supporti più lenti (tipicamente nastri); un processo schedulabile (batch)  analizzava le informazioni relative all’acceso ai file, decideva quali di questi potevano essere “migrati” su supporti più lenti ed a basso costo ed operava lo spostamento.
Questa tecnica è possibile in quanto la densità di accesso ai dati, identificata come skew, cioè la percentuale di spazio disco che soddisfa la maggioranza delle operazioni di lettura e scrittura, da sempre vede il concentrarsi della maggioranza delle attività su una piccola porzione dello spazio a disposizione delle applicazioni.
Le varie tecniche, ancorché tutte validissime, avevano però un piccolo difetto: il dato “migrato” doveva essere riportato sui supporti “primari” per poter essere fruibile e le attività di “migrazione” erano a carico del server.
Gli anni a venire ci hanno consegnato nuovi acronimi: da ILM o “Information Lifecycle Management” arrivando ai più recenti quali: Automated Tiered Storage o, ancora, Auto Tiering.
Se è vero che il principio alla base non è cambiato è altrettanto vero che le tecniche di movimentazione del dato si sono evolute negli anni, spostando i processi di gestione direttamente all’interno dei sistemi Storage, divenuti via via più intelligenti, invece che essere governati dai server come in passato.
Questo, per altro, garantisce una granularità di movimentazione decisamente più efficente (ad esclusione di alcune implementazioni) nel momento in cui l’elemento interessato alla “migrazione” non è più un intero file ma una “porzione” del “volume logico” (Chunk).

Questa ottimizzazione si deve grazie all’introduzione di tecnologie quali il “Virtual Provisioning”, anche conosciuto come “Thin Provisioning”, una tecnica che consente di presentare ai server un volume “Logico” o “Virtuale” che ha una corrispondenza “Fisica” equamente distribuita all’interno del sistema Storage.

Anche se il principio è concettualmente lo stesso, ogni produttore di sistemi Storage ha implementato questa funzionalità in modo differente.

Tornando ai concetti di “Gestione Gerarchica del Dato”, o se preferite “Gestione del Ciclo di Vita del Dato”, in casa EMC la soluzione, disponibile su tutte le piattaforme storage, è conosciuta come FAST o, nella sua accezione più diffusa, come FAST VP (Fully Automated Storage Tiering for Virtual Pool).
Il principio è abbastanza semplice: monitorando continuamente le attività di accesso ai dati è possibile identificare quali, tra questi, risultano essere più o meno “attivi” ed assegnare, in base a politiche definite dinamicamente dall’utente, il livello di Storage (Tier) più appropriato. In questo modo i dati più “attivi” verranno posizionati sul livello in grado di offrire le migliori prestazioni, mentre quelli “inattivi” saranno spostati sul livello meno prestazionale ed a più basso costo.

A questo punto è importante considerare alcuni aspetti che determinano l’efficacia di questa tecnologia ed in particolare:
  • La frequenza di movimentazione dei dati.
  • La dimensione dell’elemento che viene movimentato.
Nella maggior parte dei casi, un singolo dato assumerà nel tempo attributi differenti: in alcune fasi risulterà utilizzato con alta frequenza, mentre in altre risulterà “inattivo”: è molto importante che la reazione del sistema storage al cambio di “accesso” avvenga in modo tempestivo, in modo da allineare il posizionamento del dato in funzione del livello di servizio più appropriato; un sistema storage che ad esempio “risponda” a questo cambiamento nell’arco di  pochi minuti risulterà molto più efficace di un sistema apparente simile ma che abbia bisogno di qualche ora prima di riuscire ad individuare quali dati devono essere spostati e dove.

La dimensione dell’elemento che viene movimentato ha invece una ripercussione diretta sulla efficienza di utilizzo dei livelli di Storage (tier); a parità di numero di blocchi da movimentare, più piccole sono le dimensioni degli stessi e più efficace è l’utilizzo del livello storage più prestazionale, ovvero i dischi allo stato Solido (SSD o EFD), che sono quelli a costo più elevato.

I due aspetti sopra descritti incidono, oltre che sull’efficacia della soluzione, anche sull’utilizzo delle risorse “computazionali” che ogni sistema Storage possiede. Ad esempio, sui sistemi della fascia High End di EMC, i sistemi Symmetrix VMAX, la dimensione minima dell’elemento movimentato è 8MB e la movimentazione stessa del dato è continua, con una finestra di analisi minima di 10 minuti.

Come accennato in precedenza, ogni produttore di sistemi storage utilizza parametri differenti; è quindi fondamentale analizzare quanto le diverse soluzioni possano rendere questa tecnologia più o meno efficace.

La tecnologica di Storage Tiering è ovviamente indipendente rispetto alla tipologia di Server e/o Sistema Operativo: le funzionalità messe a disposizione dello storage quindi risultano disponibili per tutte le applicazioni in modo trasparente. Sui sistemi Storage EMC, questa tecnologia è disponibile per tutti, o quasi, gli ambienti operativi Open Systems, Mainframe e iSeries (AS/400).

L’evoluzione più recente, in casa EMC, ha visto l’introduzione di concetti di movimentazione del dato al di fuori dei sistemi Storage, verso livelli ancor più prestazionali, all’interno dei server, o, al contrario, verso sistemi Storage a loro volta “virtualizzati” attraverso i sistemi Storage principali.
In futuro è prevedibile che queste tecniche assumano una connotazione gestionale eterogenea; sistemi Storage in grado di muovere i dati verso altri sistemi Storage, aventi caratteristiche differenti quali, ad esempio, deduplica e compressione (quest’ultima già disponibile).

Per saperne di più accedi alla pagina dedicata alle soluzioni Storage EMC su EMC Community Network; posta le tue domande e riceverai supporto.


Stefano Panigada

giovedì 26 settembre 2013

EMC ViPR arriva il 1° Ottobre!

EMC ViPR: la prima piattaforma di Software-Defined Storage al mondo realmente aperta.

EMC ViPR sta per arrivare! Il Software-Defined Storage nasce il 1° Ottobre 2013: incontrate gli esperti per un deep dive sulla trasformazione dello storage registrandovi qui: http://bit.ly/emcvipr

lunedì 23 settembre 2013

Tecniche di scale-out

Elaborazione parallela: Tecniche di Scale-Out

Una delle maggiori sfide nell'ambito dei Big Data è come gestire le grandi quantità di dati in modo efficiente e scalabile. Il tema della scalabilità è particolarmente delicato nel mondo Big Data in quanto, come noto, i dati spesso crescono in modo molto veloce, e quindi occorre predisporre una soluzione architetturale in grado di rispondere a questa crescita in modo flessibile.

Per affrontare queste sfide l’approccio più diffuso è quello dell’elaborazione parallela del carico di lavoro: l’idea di fondo è quella di suddividere il carico tra le diverse componenti del sistema in modo che ciascuna possa operare in autonomia, parallelizzando quindi un lavoro che altrimenti dovrebbe essere eseguito procedendo serialmente,un passo alla volta.

La tecnica di Scale-Out è una delle soluzioni architetturali che sta dimostrando di essere particolarmente efficiente in questo ambito: si tratta di una architettura a scalabilità orizzontale che prevede l’aggiunta progressiva di “nodi”, ciascuno in grado di fornire al sistema nuove risorse di calcolo e di memorizzazione delle informazioni.



In questo tipo di architetture il carico di lavoro viene suddiviso tra i vari nodi in modo da permettere un’elaborazione parallela: ciascun nodo elabora i dati localmente e ritorna al sistema il proprio risultato parziale; i risultati parziali sono poi riaggregati ottenendo il risultato finale.

Si parla in questo caso di Massive Parallel Processing (MPP): se tutti i nodi sono equivalenti ci troviamo di fronte ad un MPP simmetrico, mentre se alcuni nodi ricoprono un ruolo differente si parla di MPP asimmetrico.  La distinzione non è puramente accademica: in un sistema asimmetrico infatti è possibile che alcuni nodi arrivino alla saturazione mentre altri nodi risultino invece scarichi; un classico caso è dato dai sistemi nei quali i nodi sono distinti tra front-end e back-end: in queste architetture è abbastanza comune che si arrivi alla saturazione del sistema quando una delle due componenti giunge al 100% di utilizzo (spesso è il front-end), anche se le restanti componenti avrebbero, almeno in teoria, ancora diversa capacità di poter erogare. Il fatto di aver “specializzato” i nodi non permette di poter (ri)utilizzare la capacità residua. Alcune soluzioni asimmetriche permettono di inserire nuovi nodi in modo indipendente (alimentando ad esempio il front-end o il back-end), mentre in altri casi occorre far crescere tutto sistema anche se la saturazione riguardava solo una delle sue parti.

Un sistema simmetrico garantisce la distribuzione del lavoro fra tutte le componenti, rendendo possibile una scalabilità quasi lineare. In questo caso la saturazione viene raggiunta quando tutte le componenti raggiungono  il 100% di utilizzo: l’aggiunta di nuovi nodi permette qui di crescere in modo controllato e progressivo, senza il “problema” di avere nodi sottoutilizzati.

La presenza di nodi sottoutilizzati, frequente nel mondo asimmetrico, è un problema non solo tecnico, in quanto causa una saturazione “prematura” del sistema, ma anche economico: il cliente infatti ha acquistato nodi che non riescono ad operare al 100%, e allo stesso tempo consumano corrente elettrica e soprattutto licenze software.  

La scelta della corretta architettura è ovviamente un aspetto critico di ogni soluzione Big Data: non esiste un'unica ricetta per tutte le necessità quindi il consiglio è di non fidarsi delle proposte “one size fits all”  ma valutare invece quali soluzioni il mercato metta a disposizione.

Un esempio di MPP simmetrico in casa EMC: Geenplum Database.

L’architettura MPP simmetrica è alla base di Greenplum Database, una soluzione disegnata per la Business Intelligence e l’analisi dei Big Data. Il principio centrale del Greenplum Database è quello di spostare le capacità di elaborazione il più vicino possibile ai dati: l’architettura MPP permette di eseguire le operazioni in modo pienamente parallelo, utilizzando contemporaneamente tutte le connessioni verso lo storage. Il parallelismo viene usato non solo in fase di “lettura” dei dati, ma anche nella fase di caricamento dei dati stessi, che in tutte le altre soluzioni presenti nel mercato risulta invece necessariamente seriale. Nel sistema Greenplum i dati fluiscono dai sistemi sorgente verso tutti i nodi del database, senza richiedere la presenza di un singolo punto di accesso (che diventa ovviamente un collo di bottiglia). In questo modo Greenplum Database è in grado di raggiungere velocità di caricamento di più di 10TB/ora per rack (e una velocità di scansione dei dati di 24GB/sec).

La scalabilità del sistema Greenplum è ottenuta in modo lineare aggiungendo nuovi nodi: ogni nodo porta con sé le risorse di elaborazione e di memorizzazione dei dati. Partendo da un minimo di quattro nodi è così possibile analizzare universi dati di alcune centinaia di gigabytes, per raggiungere progressivamente dimensioni che possono arrivare all’ordine di multi-petabytes.

GZ

Per maggiori su Greenplum Database potete visitare la pagina descrittiva della soluzione nelsito Pivotal.

Diversificare le soluzioni riducendone la complessità: il Software Defined Storage

Buona parte del mio lavoro di System Engineer si svolge dai clienti. Negli ultimi anni, ho lavorato con realtà aziendali che conoscevano poco EMC, ed è stato molto interessante per me capire le loro percezioni sulla strategia e la visione di EMC. Nelle discussioni avute, un tema frequente riguardava l'estrema varietà del nostro offering: EMC appariva loro come un'azienda leader di settore ma con un’offerta troppo estesa in termini di:

1) Portafoglio prodotti.
2) Funzionalità e gestione dei prodotti stessi.

Mi veniva sovente fatto notare come sul mercato esistano delle soluzioni semplici che fanno TUTTO mediamente bene e che lo fanno in modo apparentemente semplice; EMC invece, ha tante soluzioni diverse che spesso presentano delle aree di overlap in termini di funzionalità e posizionamento.
Effettivamente, se osserviamo quali e quante famiglie di prodotti EMC possiede nella categoria dei Block e File Storage (ciascuna poi da declinare in diverse configurazioni distinte)..
  

….possiamo contarne ben 7 includendo anche ATMOS che, sebbene nella sua accezione prediletta vada definito Object Storage, può eventualmente erogare anche servizi CIFS/NFS e quindi essere classificato come File Storage.

Se consideriamo inoltre la pletora infinita di funzionalità che ciascun prodotto si porta dietro, e che un cliente potrebbe percepire come un aggravio di conoscenza da acquisire, è facile capire perché tanto spesso mi siano state chieste delucidazioni sui razionali di questa strategia:

E' davvero la strategia vincente? E' davvero ancora necessaria la diversificazione di prodotto nel mondo dell'IT quando ci sono vendor che, apparentemente, con un singolo prodotto coprono a 360 gradi tutte le necessità? E' ancora necessaria la diversità quando la virtualizzazione ha uniformato e standardizzato il mondo IT? A chi dare fiducia quando le strategie (anche se forse sarebbe meglio chiamarle filosofie) che guidano le aziende sono diametralmente opposte?

Per rispondere a queste domande vorrei ricorrere ad una analogia con l'ecosistema naturale all'interno del quale l'essere umano si è evoluto. Se osserviamo l'evoluzione dell'ecosistema terrestre ci accorgiamo come la biodiversità non si sia rivelata soltanto la migliore strategia per garantire la sopravvivenza delle singole specie ma anche la migliore per salvaguardare l'intero ecosistema.
In altre parole, vegetali e animali si sono adattati in modo estremamente variegato per rispondere alle diverse condizioni ambientali, acquisendo caratteristiche peculiari più adatte per resistere agli "stress" ambientali. E così il "pino silvestre" si è adattato con le foglie ad ago alle temperature rigide, mentre il "ficus elastica" si è adattato con larghe foglie ovali ai climi tropicali.

In altre parole, il modello "One-Fits-All" in natura non ha funzionato perché i compromessi necessari per creare un'unica specie che potesse vivere dai -70 gradi del polo sud ai +50 gradi del deserto del sahara l'avrebbero resa completamente inadatta alla vita.

Uscendo dall'analogia naturale, io credo che anche all'interno dell'ECOSISTEMA CLIENTE i needs tecnologici e di business cambiano in modo estremo. Per sopravvivere nell'ecosistema di un cliente, la strategia migliore per un'azienda come EMC è quella di creare le migliori soluzioni specializzate, facendo poi in modo che possano cooperare l’una con l’altra nella realizzazione di un’unica architettura.
Allo stesso tempo, anche per il cliente conviene scegliere la migliore tecnologia per soddisfare i propri bisogni ed essere vincente sul mercato. La ragione per cui, all'interno di EMC, la prevendita ricopre un ruolo chiave è proprio perché sa capire i clienti e aiutarli a scegliere lo strumento giusto per soddisfare i diversi bisogni.

Assodato quindi che una strategia di prodotto diversificata sia assolutamente necessaria sia per un vendor che per un cliente finale, resta da capire se e come sia possibile ridurre invece il tema della complessità operativa che la diversificazione comporta. Se ci pensiamo bene, il "come" è noto ormai dagli albori dell'informatica ed è indirizzato attraverso il concetto di astrazione. Spesso l'astrazione viene associata al concetto virtualizzazione ma in realtà quest'ultima non è che una conseguenza della prima.
Un metodo abbastanza comune di astrazione nel mondo informatico è la creazione di interfacce per esportare funzioni di alto livello di un sistema complesso.

Il potere delle interfacce

Il grande potere delle interfacce è che, la conoscenza delle stesse, permette di interagire con un sistema esterno all'utilizzatore pur non conoscendone i dettagli di funzionamento. Esempi tipici di interfaccia nel mondo informatico sono le API (Application Programming Interface) ma le interfacce sono attorno a noi anche nel mondo reale: il volante e i pedali permettono di interagire con un'auto indipendentemente dal fatto che il guidatore sappia come funzioni il motore e il sistema di trasmissione. In questo senso, il volante e i pedali sono le interfacce che ci permettono di governare il sistema complesso "automobile".

Un set di interfacce standardizzato diventa un protocollo di comunicazione. Nel mondo ideale, i protocolli dovrebbero essere definiti in modo indipendente dall'implementazione: in altre parole, bisognerebbe prima pensare alle interfacce e poi all'implementazione delle stesse. Nel mondo dell'informatica questo è avvenuto raramente: ciascun vendor ha realizzato implementazioni di funzionalità senza pensare al modo di interfacciarsi verso il mondo esterno in modo interoperabile e questo ha causato un proliferare di soluzioni incompatibili e con sistemi di controllo diversificati.

Nel mondo del computing, tuttavia, la virtualizzazione delle Hypervisor, introducendo un altro livello di astrazione, è riuscita a semplificare l'interoperabilità di soluzioni hardware differenti tra di loro e risposto affermativamente alla domanda "E' possibile ridurre il tema della complessità operativa in un mondo di soluzioni Hardware diversificato?".
Se si è riusciti nel mondo del computing, non si può pensare replicare quanto già fatto anche per il mondo dello Storage?

EMC ViPR (pronunciato VIPER)

ViPR è la risposta di EMC. ViPR è una soluzione software che astrae le risorse storage disponibili disaccoppiando il control plane (la logica di controllo di un sistema storage) e il data plane (il percorso che i dati fanno da e verso i sistemi storage).
Le risorse storage vengono aggregate in pool e presentate in modo trasparente agli storage-consumer/administrators attraverso un catalogo self-service.
ViPR astrae la complessità del processo di provisioning di un sistema storage attraverso una interfaccia semplificata e si occupa della gestione di tutto il processo che va dall'allocazione dello spazio alla sua presentazione all'end-user finale. Allo stesso tempo, non interponendosi come strato di virtualizzazione per il data plane, fa si che le applicazioni possano sfruttare tutte le caratteristiche dei sistemi storage sottostanti incluso il virtual provisioning, la deduplica, la compressione e le funzionalità avanzate di replica locale e remota.

In questo modo, anche in un ECOSISTEMA CLIENTE variegato, dove le tecnologie storage sono diverse per matchare i needs del cliente, è possibile interagire con esse in un modo più semplice non dovendo necessariamente conoscere, ad esempio, i dettagli di funzionamento del provisioning di un sistema VMAX, VNX, XtremIO e/o Terze Parti.

ViPR, inoltre, espone API per essere integrato in meccanismi di automazione più vasti con l'obiettivo di realizzare un Software Defined Data Center (SDDC) dove ogni elemento dell'infrastruttura può essere controllato in modo intelligente per adattarsi in modo trasparente ai bisogni del business. L'immagine sottostante illustra come uno stack applicativo basato su VMWARE ed una infrastruttura storage disaccoppiata da ViPR, si interconnetta e comunichi la disponibilità di servizi di alto livello agli strati di orchestrazione evoluti (vCloud Automation Center e vCenter Ops Manager) attraverso il control plane.



In conclusione, il commitment tecnologico di EMC su piattaforme storage diversificate è e resterà elevatissimo per fornire sempre la migliore soluzione ai nostri clienti ma, allo stesso tempo, la nuova esigenza di semplificazione per la realizzazione Software Defined DataCenter sta spingendo EMC a realizzare una visione nuova in cui l'automazione, la semplificazione e l'interoperabilità diventano la chiave di volta per aiutare i suoi clienti a vincere sul mercato.

AP



Cliccate qui se volete approfondire il tema ViPR e Software-Defined Storage
La scheda descrittiva di ViPR (in Italiano) è invece disponibile a questo link.

martedì 17 settembre 2013

Performance On Demand con Next Gen VNX

Due parole su come ottenere le performance desiderate senza essere uno storage guru.

Il tuning dello storage è storicamente complicato e di norma assegnato a personale “esperto” all’interno o all’esterno dell’azienda.

Questi “guru delle performance”, grazie alle competenze acquisite nel corso della loro carriera, sono in grado di analizzare in dettaglio i parametri che regolano le performance dello storage e implementare eventuali azioni correttive; ad esempio, se le applicazioni non rispondono abbastanza velocemente è possibile  spostare i dati su dischi più veloci, oppure distribuire i dati stessi (striping) su più dischi ecc.

Fortunatamente con gli storage moderni, in particolare VNX, non è più così difficile tenere sott’occhio l’infrastruttura, grazie ai diversi strumenti e approcci che vengono messi a disposizione degli utenti finali. Vediamone alcuni.

La prima semplificazione riguarda la possibilità di allineare in modo automatico le performance richieste dall’applicazione grazie all’utilizzo di Pool contenenti dischi di diversa tecnologia, velocità e capacità: questo approccio consente allo spazio dedicato ad un’applicazione (LUN o filesystem) di essere distribuito,in modo automatico, su tipologie disco diverse, in modo da avere performance allineate alle reali necessità.  Nella figura seguente viene rappresentata una LUN composta da blocchi appartenenti a tipologie disco diverse.



Il vantaggio per il cliente che adotta questa tecnologia, consiste nel non dover scegliere a priori la tipologia disco da dedicare ad un’applicazione: una stessa applicazione potrà avere “pezzi” (blocchi) ad alte performance, dove queste sono richieste (ospitate ad esempio su dischi flash) e blocchi che richiedono performance relativamente basse, che potranno usufruire di spazio disco meno pregiato quale ad esempio i dischi SATA/Nearline ad alta capacità.

Questo approccio, denominato Auto-Tiering è stato adottato da diversi vendor storage. Il fattore differenziante in casa EMC riguarda la possibilità di implementare questo approccio con tutti e tre i Tier di storage (Flash Drives o SSD, HDD, HD Nearline) oppure solo con due Tier, con qualunque combinazione il cliente desideri. Per dare massima flessibilità è anche possibile dedicare all’applicazione un singolo Tier storage (ad esempio con dischi HDD oppure Nearline), anche all’interno di un Pool misto.

Il vantaggio di questo approccio è che il cliente viene sgravato dal dover pensare, in anticipo, alla tipologia disco da dedicare ad un’applicazione: questa potrà usare spazio più o meno pregiato, a seconda del carico di lavoro, senza necessità di fine tuning o migrazioni dati da parte dell’amministratore storage. Al cambiare del profilo di lavoro (ad esempio durante periodi di picco) il sistema risponde in modo automatico, senza ulteriori interventi.

Nelle figure di seguito viene riportato come il mix di performance delle applicazioni consolidate sul singolo storage, possa variare in un certo periodo, ad esempio trimestralmente. Nel caso proposto, le performance richieste dalla App3 sono relativamente basse nel primo trimestre, mentre sono il 55% del totale nell’ultima parte dell’anno. Allo stesso modo App4, che nel primo trimestre occupa il 22% delle risorse complessive, nell’ultima parte dell’anno viene addirittura spenta. Un approccio con Auto-Tiering (FAST VP – Fully Automated Storage Tiering) adatta quindi lo storage ai requisiti applicativi nel tempo.


 

Un altro meccanismo per gestire in modo automatizzato il tema delle performance è fornito data dalla possibilità di impiegare dischi Flash per espandere la cache di sistema dello storage. Questo secondo approccio, che permette di dare performance applicative anche a fronte di picchi di carico temporanei, anche all’interno della singola giornata, viene implementato nella famiglia storage VNX con la soluzione Fast Cache, ovvero l’estensione della cache di sistema storage in lettura e scrittura, con dischi Flash.

Questa caratteristica permette di avere fino a 4.2TB di cache disponibile per il buffering applicativo, sia per operazioni di lettura (comune nel traffico transazionale) che di scrittura (ad esempio reporting).

La combinazione delle due tecnologie (FAST VP + Fast Cache), uno dei veri differenzianti del VNX rispetto alle altre soluzioni presenti nel mercato, è quello che permette allo storage di adattarsi al carico applicativo, non solo nel tempo, ma anche alle richieste di performance repentine.

La domanda a questo punto potrebbe essere: ma il mio caso non potrebbe essere diverso? Non potrebbe essere che le mie applicazioni abbiano tutte richieste più o meno simili e quindi una configurazione storage tutta con dischi mediamente veloci (10kRPM o 15kRPM) non si adatti meglio alle mie esigenze? Mi servono davvero i dischi Flash con quello che costano? Non è meglio evitare i dischi Nearline?

Per rispondere a queste domande aggiungo un “bit”. EMC mette a disposizione dei partner e dei propri clienti diversi strumenti per analizzare lo “stato di salute” del sistema storage. Uno di questi tool è in grado, tra le altre cose, di mostrare quale percentuale di spazio esegue la maggior parte del carico di lavoro.

Qui di seguito viene riportato un esempio di questa analisi, eseguita su uno storage realmente in produzione. Nella grande maggioranza dei casi, solo il 20% (o meno) dello spazio disco, esegue la maggior parte del “lavoro” applicativo.




Si può quindi dedurre che un approccio tradizionale con tutti dischi della stessa tipologia, dove l’amministratore storage è costretto ad eseguire tuning successivi per ottenere boost applicativo, non ha senso nella maggior parte dei casi. Dischi mediamente veloci, tutti della stessa tipologia, sarebbero uno spreco per molte applicazioni (dove HD Nearline sarebbero sufficienti), mentre sarebbero troppo lenti per applicazioni ad alte performance (dove qualche disco Flash potrebbe fare la differenza).

Un approccio FASTVP + FAST Cache quindi, implementando una piccola parte di dischi Flash (5% o meno dello spazio totale) e un mix tra dischi HDD e HD Nearline capacitivi, permette di ottenere le massime performance disponibili sul mercato con un costo/TB complessivamente interessante. Nel caso appena riportato ad esempio, circa il 70% dello spazio, potrebbe essere affidato a dischi molto capacitivi. Contemporaneamente una piccola quantità di dischi Flash sarebbe in grado di soddisfare i picchi applicativi, sulla piccola quantità di spazio ad alto carico di lavoro.

Per analizzare la propria configurazione, anche di uno storage concorrente, è possibile chiedere supporto ad un contatto EMC oppure ad un EMC Business Partner qualificato. Se si dispone di uno storage della famiglia Clariion o VNX, è possibile eseguire direttamente un healtcheck del proprio sistema, gratuitamente, al seguente indirizzo:

https://app.mitrend.com/emcefficiency/upload

Caricando sul portale alcuni file di log, è possibile ottenere un report di performance semplice e dettagliato, come mostrato nelle figure di seguito:







In conclusione: EMC mette a disposizione diversi strumenti per comprendere lo stato di salute dello storage e delle applicazione che su di esso insistono. Le analisi che noi e i nostri partner eseguiamo presso i clienti, evidenziano che un approccio con FAST VP e Fast Cache permette di coniugare le performance richieste dalle applicazioni business critical con la gestione dei costi infrastrutturali; il tutto senza necessità di investire ore/uomo nei complicati tuning atti ad inseguire le richieste di performance che le applicazioni richiedono.

Di seguito alcuni link di approfondimento relativi alla famiglia storage Next Gen VNX:

http://www.emc.com/collateral/software/specification-sheet/h8514-vnx-series-ss.pdf
http://www.emc.com/collateral/hardware/data-sheets/h8520-vnx-family-ds.pdf
http://www.emc.com/about/news/press/2013/20130904-03.htm?M=c676bf05-7a74-463b-bdcb-c59f65339a23
http://pulseblog.emc.com/2013/09/04/introducing-the-next-generation-vnx-and-what-it-means-for-customers/?M=c676bf05-7a74-463b-bdcb-c59f65339a23
http://wikibon.org/wiki/v/VMware_Dominant_in_Multi-Hypervisor_Data_Centers#VMware_Storage_Integration

Umberto Galtarossa

venerdì 13 settembre 2013

EMC Forum 2013: 14 Novembre a Milano

EMC Forum 2013 - Lead Your Transformation 

Scopri come EMC trasforma l'IT e il Business. Partecipa all'EMC Forum 2013 e potrai conoscere come il Cloud, i Big Data e le soluzioni Trusted IT possono aiutare la tua azienda ad essere più efficiente ed avere successo.




Data e luogo dell'EMC Forum 2013


Data: Milano, 14 novembre, ore 8:30 - 18:00
Sede: MiCo - Milano Congressi
Indirizzo:Via Gattamelata, Gate 14, 20149 Milano
Telefono:+39 02 4997 6275

giovedì 12 settembre 2013

Che cos'è la deduplica dei dati ?

Quando si parla di dati deduplicati si fa rifermento ad un insieme di informazioni che sono state sottoposte ad un particolare processo, chiamato appunto deduplica, che consiste nella ricerca all'interno dei dati di sequenze che si ripetano: i dati sono quindi divisi in sequenze (di lunghezza fissa o variabile ma di solito di 8KB o più), e ciascuna sequenza viene confrontata con lo storico delle altre sequenze finora incontrate. Una sequenza che viene incontrata per la prima volta viene quindi salvata in modo completo, mentre le occorrenze successive sono salvate solo come "puntatori" ai dati già salvati, risparmiando quindi lo spazio altrimenti necessario alla (ri)scrittura di informazioni che già erano state memorizzate: questo processo è ovviamente completamente trasparente per gli utenti e le applicazioni che leggono e/o scrivono i dati.

Chi utilizza la deduplica?

La deduplica è ideale per le operazioni ad alta ridondanza quali i backup: ogni volta che si effettua un backup infatti una parte importante delle informazioni salvate risultano immutate rispetto al salvataggio precedente; il processo di deduplica è in grado di individuare questi dati non modificati e memorizzarli conseguentemente solo come puntatori. Il risultato finale è un meccanismo di backup e recovery che risulta veloce, affidabile e a costi molto contenuti anche quando i dati sono mantenuti per 30-90 giorni.

Deduplica inline e off-line

L'operazione di deduplica è particolarmente "intensa" lato CPU: questo costo, che si traduce in un potenziale impatto sulle applicazioni, specie per le operazioni di scrittura, ha dato origine a due modelli di deduplica:

  • deduplica inline: in questo caso il processo di deduplica viene effettuato in real time nel momento in cui i dati vengono creati; in altre parole il dato viene scritto nel sistema di memorizzazione in formato deduplicato e ogni operazione di scrittura è considerata completata solo nel momento in cui la deduplica è avvenuta.
  • deduplica offline (anche detta post-process deduplication): in questo caso i nuovi dati sono inizialmente scritti nell'esatto formato creato dall'applicazione. L'operazione di deduplica viene effettuata solo successivamente da parte di un processo che analizza i dati e li riscrive in modo deduplicato.

Il beneficio maggiore della deduplica inline è che richiede meno spazio di memorizzazione, in quanto i dati sono scritti immediatamente in formato deduplicato: nella deduplica offline si ha invece la necessità di disporre di un area di memorizzazione che comprenda sia i dati in formato non deduplicato, sia i dati deduplicati; per applicare la deduplica non è infatti possibile "rimuovere" gli elementi comuni, ma occorre un intera riscrittura dei dati stessi.

Come detto, essendo il processo di deduplica molto costoso in termini computazionali, il beneficio nell'immediato risparmio di spazio disco deve essere bilanciato dall'impatto in termini operativi: le operazioni di scrittura diventano più lunghe; solo di recente, architetture come XtremIOdisegnate ex novo per l'uso esclusivo di dischi flash, hanno dimostrato di essere capaci di una deduplica inline senza costi "nascosti"; il dibattito tra metodi di deduplica inline e offline è comunque ancora molto acceso.

Benefici della deduplica


Eliminare i dati ridondanti può ridurre significativamente i requisiti di storage, con un evidente impatto sulla capacità complessiva necessaria per memorizzare le informazioni. Poiché il costo dello storage è costantemente in diminuizione, le aziende tipicamente hanno iniziato a mantenere diverse versioni delle stesse informazioni in modo da poter più facilmente riutilizzare il lavoro eseguito in precedenza: queste diverse versioni ovviamente sono degli ottimi candidati per la deduplica, che riduce i costi sia in termini di "spazio disco", sia in termini complessivi di elettricità, condizionamento e floor space.
Oltre all'aspetto "statico" (memorizzazione), il processo di deduplica ha anche un importante impatto "dinamico" in termini di efficienza nell'utilizzo della banda di rete: facendo infatti transitare solo i dati realmente "nuovi" è possibile ridurre sensibilmente tale  traffico; questo risulta particolarmente rilevante negli scenari in cui la "periferia" aziendale deve comunicare con il centro attraverso dei canali a banda limitata. Anche gli scenari di Disaster Recovery possono beneficiare dal processo di deduplica, in quanto ci sono meno dati da fare transitare tra un sito e l'altro: specie nelle dimensioni geografiche questa efficienza nell’uso della banda di rete diventa un elemento critico di valutazione.


Alcune delle soluzioni EMC che utilizzano la deduplica: