Visualizzazione post con etichetta tecnologia. Mostra tutti i post
Visualizzazione post con etichetta tecnologia. Mostra tutti i post

martedì 22 aprile 2014

RSA Security Summit 2014: a Roma il 13 Maggio

Nel mese di Maggio Roma ospiterà un importante evento sul tema della sicurezza: l'RSA Security Summit 2014.

L'approccio intelligence-driven security di RSA, la terza piattaforma e la cyber-security sono solo alcune delle tematiche che verranno affrontate durante il Summit. Potrai scoprire come trarre benefici di business dalle nuove tendenze che stanno trasformando l'IT e come gestire le sfide ed i rischi digitali per essere al passo con l'innovazione.

Maggiori informazioni sono disponibili al link: RSA Security Summit 2014

Disponibili anche video interviste al team RSA e ai partner:
  - intervista a Luca Boselli, Associate Partner KPMG Advisory: Video intervista Boselli
  - intervista a Sabrina Mazzanti, RSA Regional Marketing manager Sud Europa: Presentazione RSA Summit 

Consigliamo di effettuare subito la registrazione al seguente link: 


Data: 13 Maggio 2014
Sede:Complesso Monumentale Santo Spirito in Sassia
Indirizzo:Via Borgo S.Spirito 1, 00193 Roma

Principali temi trattati

Advanced Security Operations
Identity & Access Management
Fraud & Risk Intelligence
Governance, Risk & Compliance


Post pubblicato da:
Luigi De Meo
Advisory Systems Engineer
@geniusbee

lunedì 24 marzo 2014

Semplificare lo Storage? Si può e si deve :)

Semplificare lo Storage? Si può e si deve :)

Penso che come me nella vostra vita cerchiate di semplificare tutti gli aspetti in modo da avere meno preoccupazioni.. La domiciliazione delle bollette, l'acquisto di beni via internet persino l'utilizzo della carta di credito sono in ultima analisi semplificazioni in termini di tempo e complessità di operazioni più articolate.
Per pagare una bolletta dovrei andare in posta, fare la coda (...), “interagire” con il personale, compilare eventualmente un bollettino e alla fine pagare. Volete mettere con 2 minuti spesi davanti ad un pc in pantofole?



Surprise surprise...L'esigenza di semplificazione riguarda anche il mondo dello storage :)





Volete sapere dove voglio parare? Continuate a leggere ;)

venerdì 7 marzo 2014

Ottimizzare la Virtual Desktop Infrastructure con le Tecnologie Flash EMC

Le soluzioni EMC VDI basate su tecnologia Flash sono in grado di portare il desktop computing ad alti livelli di prestazioni, efficienza e semplicità. Queste potenti soluzioni soddisfano le mutevoli esigenze di un azienda e del suo business, consentendo in qualsiasi momento, ovunque e a qualsiasi dispositivo di accedere alle applicazioni desktop e ai relativi servizi.

In questa infografica vediamo come le soluzioni EMC VDI con tecnologia flash trasformano il "virtual desktop computing", consentendo prestazioni elevate per organizzazioni di tutte le dimensioni attraverso diverse possibilità di scelta per il cliente.


Luigi De Meo
Advisory Systems Engineer
twitter: @geniusbee

lunedì 13 gennaio 2014

Dati "non strutturati" ... solo il Tiering ci salverà !!!

Ogni cliente a cui si mostrano le classiche slide di crescita esponenziale del dato “non strutturato”, dopo un primo momento di diffidenza si trova a riconoscere che anche nel proprio DataCenter tali dati proliferano in maniera incontrollata e con un trend di tipo esponenziale.


Anche da una recente analisi di Gartner (maggio 2013), si evince come il protocollo NAS (classico dei dati non strutturati) ha generato nel 2012 maggiori revenues (più del doppio) rispetto al protocollo FC (classico degli ambienti strutturati a crescita controllata).



mercoledì 11 dicembre 2013

XtremIO: Garbage Collection? No, Grazie!

Il minimo da sapere.

Durante il  lancio il 14 novembre, per XtremIO, è stato affermato che non dispone di eventuali processi di Garbage Collection (da qui in avanti detto G.C.) a livello di sistema.   Questo però è stato interpretato  da alcune persone come se XtremIO fosse in qualche modo impermeabile alla necessità di G.C. Ovviamente non è possibile, tutti i dischi flash richiedono la procedura di G.C.  Ciò che conta è dove e come la G.C. è effettuata.  Con XtremIO, dovendo garantire prestazioni sempre coerenti e prevedibili, il processo di G.C.
viene gestito in maniera nuova e unica.

Quindi come mai XtremIO non richiede G.C. a livello di sistema, mantenendo prestazioni costanti e prevedibili?

... prima dobbiamo essere d'accordo sulla definizione di cosa è e cosa fà la G.C. 


Con un disco tradizionale i nuovi dati possono essere scritti proprio sopra quelli esistenti, nel senso che la testina cerca solo la posizione da sovrascrivere e ri-magnetizza con il nuovo contenuto. Con i dischi flash, i dati esistenti devono prima essere cancellati (un'operazione molto lenta) e quindi i nuovi dati possono essere "riprogrammati" in quelle celle. A peggiorare le cose c'è che non si può semplicemente cancellare esattamente ciò che si desidera. Immaginate di avere un "erase block" di 256 KB, per modificare solo 8K dell'intero blocco, si dovranno leggere tutti i 256KB, poi bufferizzarli, poi cancellare o modificare gli 8K, poi i 256KB aggiornati possono essere scritti sulla cella.

Questo viene anche detto "write amplification" (wikipedia > Write_amplification) e poiché i dischi flash hanno comunque un numero finito di cicli di Write , questo non và troppo bene, no?

... e per capire perché, dobbiamo tornare un pò indietro nella storia. 


venerdì 22 novembre 2013

Hadoop: di cosa si tratta ?

File:Hadoop logo.svg

Cos'è Hadoop ?


La crescita impressionante dei dati osservata negli ultimi anni, e destinata a proseguire nel futuro, ha fatto nascere molti progetti indirizzati a trovare delle soluzioni il più possibile semplici ed economiche per:

  1. Archiviare le informazioni
  2. Eseguire delle elaborazioni su moli di dati fino a poco tempo fa impensabili (decine di Petabytes e più). 

Poiché la gran parte delle informazioni oggi generate è di tipo non strutturato (files), è in questa direzione che molti dei progetti si sono mossi e tra questi anche Hadoop.

Hadoop nasce come progetto per l'analisi distribuita di grandi insiemi di dati attraverso un semplice modello di programmazione.  L'architettura, realizzata in Java, permette di poter scalare da pochi server fino a migliaia di sistemi: ogni server contribuisce con le proprie risorse di calcolo e la propria capacità di memorizzare i dati, e quindi aggiungendo server, chiamati anche "nodi", è possibile far crescere un sistema Hadoop in modo quasi lineare. Benché non vi siano restrizioni specifiche per i nodi, di norma vengono utilizzati dei sistemi x86 standard, il che permette di poter tenere sotto controllo i costi complessivi della soluzione e allo stesso tempo di beneficiare della crescita in termini computazionali di queste architetture.

L'alta affidabilità, e dunque la protezione dei dati, viene realizzata non basandosi sulle caratteristiche hardware dei server, ma bensì a livello software: sono le librerie di Hadoop che si occupano di identificare se e quali componenti presentano un malfunzionamento, ed intervenendo per ripristinare le operazioni (ad esempio creando una nuova copia dei dati contenuti in un server). E' evidente che nella scala dei Petabytes le soluzioni di backup tradizionali non sono utilizzabili, e quindi è proprio la distribuzione dei dati su nodi differenti la chiave per salvaguardare le informazioni anche di fronte ad un guasto di uno dei nodi (Hadoop adotta come standard la scrittura dello stesso dato in tre locazioni differenti).

Le due componenti fondamentali di Hadoop sono quindi
  • Il sistema di gestione distribuita dei dati: l'Hadoop Distributed File System (HDFS)
  • Il sistema di elaborazione parallela dei dati: MapReduce
A fianco a queste componenti fondamentali si trovano altri moduli che aggiungono ulteriori funzionalità alla piattaforma: citiamo a titolo di esempio HBase,  un database distribuito per la gestione strutturata di dati sotto forma di tabelle di grandi dimensioni, e Hive, un modulo pensato per il datawarehousing che rende possibile interagire con i dati di Hadoop con un interfaccia SQL-like. I moduli addizionali si collocano "sopra" HDFS e MapReduce, che sono sempre presenti come fondamenta dell'architettura: ecco quindi che i dati strutturati di HBase sono memorizzati come files in HDFS e le query SQL di Hive sono eseguite da MapReduce.

martedì 12 novembre 2013

RISOLVERE LE PROBLEMATICHE DI UN MONDO BASATO SUI DATI

La Business Intelligence alla velocità richiesta dal mondo di oggi: i risultati di un Proof Of Concept.


L’aumento vertiginoso dei dati disponibili (Big Data)permette di ottenere una visione più completa di come un mercato si muove, delle opportunità che offre e della economicità o anti-economicità di possibili scelte aziendali.
Conoscere approfonditamente la realtà che circonda la propria azienda permette di avere più prontezza nel prendere decisioni che possono influire sia sull’aumento del fatturato o profitto, sulla razionalizzazione e ottimizzazione dei costi e sulla percezione che ha il mercato e, quindi, sull’evoluzione della proposta di prodotti e servizi.

Alcuni esempi riguardano:
  • Dal punto di vista del Business, e cioè del Top Management delle aziende, è sempre più importante poter prendere decisioni su come muoversi sul mercato, quali prodotti o soluzioni hanno la maggior probabilità di prendere piede (e quindi generare utile) o, viceversa, quali mostrano trend negativi e, quindi, come approntare per tempo piani alternativi.
  • Anche per quanto riguarda l’efficienza interna (in ottica di riduzione dei costi) riuscire a ottimizzare i cicli di produzione, lo stoccaggio delle merci, l’approvvigionamento delle componenti, la conoscenza della mortalità della componentistica e la conseguente efficienza dei magazzini ricambi permettono di aumentare il rapporto costo/guadagno e, soprattutto, aumentare l’immagine verso i propri Clienti/Utenti.
  • La conoscenza dei commenti della comunità dei Clienti, inoltre, è diventata possibile grazie ai Social Network e alla possibilità di analizzare i commenti che vengono fatti (Sentiment Analisys); questo permette di avere una percezione (soprattutto su nuovi prodotti o soluzioni) in tempo reale di quali sono considerati i Plus o Minus e, anche, di conoscere quali sono le caratteristiche che accendono l’immaginario dei Clienti; da queste analisi discendono varie possibilità: da campagne di marketing mirate sui Plus, a dare le giuste priorità alle modifiche e o novità da apportare (Minus) e, anche, ad avere nuove idee su come far evolvere la propria offerta.

martedì 5 novembre 2013

ScaleIO ECS: il software Provided Storage di EMC

Nel mese di Luglio di quest’anno (2013) EMC ha siglato un accordo per l’acquisizione di ScaleIO, società che ha sviluppato una soluzione pioneristica di software provided storage.
L’acquisizione di ScaleIO è finalizzata al rafforzamento della strategia e del portfolio della EMC Flash Product Division, che già si compone di  PCIe Flash card EMC XtremSF™ (PCIe Flash card),  EMC XtremSW ™ Suite, XtremIO™ (all-Flash array), oltre alle soluzioni Flash-optimized hibrid arrays con i sistemi EMC VMAX ® and EMC VNX ®.

ScaleIO, tramite un approccio basato esclusivamente su software, è in grado di realizzare di creare un pool virtuale di storage server-based, cioè attraverso nodi composti da singoli server. Quest’architettura permette di ottenere elasticità e scalabilità in termini di capacità e performance. ScaleIO utilizza le risorse elaborative e capacitive di ogni server (nodo) e può scalare da decine a migliaia di nodi.

mercoledì 16 ottobre 2013

La tecnologia Flash cambia il mondo dello Storage: un ventaglio di possibilità

L’utilizzo di dispositivi a Stato Solido per l’immagazzinamento dei dati non è un concetto nuovo nell’Informatica; le prime soluzioni di questo tipo erano basate su memorie di tipo DRAM e risalgono agli anni ’70 ed anche prima.

Rispetto ai supporti magnetici, lo Stato Solido presenta molteplici benefici (maggiore compattezza, minori consumi e soprattutto prestazioni molto più elevate), ma anche costi molto più elevati che ne hanno storicamente ristretto l’utilizzo ad un ambito ristretto - tipicamente nel campo dei Super-Computer.

Le cose stanno rapidamente cambiando con l’introduzione delle Memorie Flash, che hanno prezzi decisamente più bassi delle DRAM (ed in costante discesa); ciò rende finalmente possibile l’introduzione dello Stato Solido nel Data Center, anche se il divario di prezzo tuttora esistente verso i dischi tradizionali impone di motivare in maniera rigorosa l’investimento al management.

Per questo motivo è  necessario un impiego ragionato delle nuove tecnologie, che riesca a sfruttare nel modo migliore la loro “potenza di fuoco”.

Figura 1: Densità  di I/O al secondo per GB

Le possibilità di impiego dello Stato Solido come Storage includono:

Gli Storage “ibridi”

Sono Storage che possono essere configurati con una percentuale variabile di dischi a Stato Solido e dischi magnetici tradizionali (FC, SA e/o SATA). Questi Storage dispongono anche di funzionalità software in grado di spostare automaticamente i dati tra dischi di diversa tecnologia in funzione dei profili di carico, il tutto in maniera trasparente alle applicazioni.
Le situazioni d’impiego tipiche per questo tipo di Storage sono i carichi di lavoro di tipo misto (letture e scritture, random e sequenziali) e variabile nel tempo, e che possono tollerare occasionali piccole variazioni dei tempi di risposta. Rientrano in questa casistica i Data Warehouse, i Data Base OLTP, la Posta Elettronica, e ogni possibile loro combinazione.

Sia gli Storage Enterprise (VMAX) che gli Storage Unified (VNX) di EMC rientrano in questa categoria. I benefici degli Storage Ibridi sono stati già approfonditi in questo Blog nel post Gestione dinamica dei dati: dall'HSM a FAST VP e, per quanto riguarda specificamente la piattaforma VNX, nel post Performance On Demand con Next Gen VNX

Storage “All-flash”

Sono Storage interamente configurati con dischi a Stato Solido, come EMC XtremIO.
Al contrario degli Storage “Ibridi”, EMC XtremIO è ottimizzato per l’utilizzo esclusivo delle memorie Flash, adottando una serie di accorgimenti per rendere più efficace l’utilizzo dello spazio disponibile e ridurre al minimo le scritture fisiche.

Su questo aspetto è utile ricordare che per le memorie Flash le operazioni di scrittura sono decisamente più onerose delle letture. Le scritture, infatti:
  • sono più lente delle letture;
  • tendono ad usurare le memorie Flash (la durata di una memoria Flash dipende direttamente da quante volte questa viene riscritta);
  • in caso di scrittura su aree già scritte in precedenza richiedono un “erase” preventiva. Anche se l’erase viene svolto in background ed in maniera asincrona rispetto alle scritture (algoritmi di garbage collection), è un processo consuma risorse e può creare temporanei rallentamenti.
Gli accorgimenti adottati da XtremIO per ridurre il numero di scritture fisiche sono molteplici:

  • Deduplica on-line: la deduplica avviene in memoria: XtremIO analizza le scritture in ingresso, riconosce se i dati sono già presenti ed in questo caso si limita a creare un nuovo puntatore al blocco già scritto, senza effettuare nessuna nuova scrittura
  • Distribuzione Automatica dei Dati: il posizionamento dei nuovi dati in ingresso è distribuito in modo da utilizzare equamente tutte le memorie Flash, indipendentemente dalla posizione che il blocco ha per il server
  • Protezione dei dati ottimizzata per Flash: XtremIO adotta algoritmi proprietari (in attesa di brevetto) che forniscono un livello di protezione analogo al RAID 6, ma che richiedono un numero di scritture inferiore ed hanno prestazioni superiori a qualsiasi algoritmo RAID esistente.

Oltre a questi accorgimenti, XtremeIO presenta altri vantaggi legati all’adozione della tecnologia Flash: non necessita di Tuning (grazie alla distribuzione automatica), ha consumi più bassi (grazie all’assenza di dispositivi rotanti), supporta snapshot estremamente efficienti (grazie alla deduplica.

Le situazioni d’impiego tipiche per gli All-Flash riguardano applicazioni che richiedono prestazioni elevate ed assolutamente costanti nel tempo, con un profilo di carico estremamente randomico (che potrebbe rende poco efficaci gli algoritmi di spostamento automatico degli Storage Ibridi). Rientrano in questa casistica ambienti di Virtual Desktop (VDI), server farm virtuali ad alta densità, database critici per applicazioni real-time.

Storage Flash installato localmente sui Server

L’ultima tipologia di Storage a Stato Solido è quella delle schede Flash da installare direttamente sui server, come le EMC XtremSF PCIe flash card. Queste schede fungono da acceleratori di IO, attraverso due meccanismi:
·         Possono essere utilizzate come dischi locali al server, accessibili in lettura e scrittura per dati che non hanno necessità di essere immagazzinati su Storage esterni (configurazione come Direct Attached Storage, o DAS). Questa soluzione ha il vantaggio di avere i migliori tempi di risposta sia in lettura che in scrittura, ma impone di rinunciare ai vantaggi degli Storage esterni: maggiore protezione dei dati, possibilità di far gestire allo Storage i Cloni e le Repliche Remote senza utilizzare risorse dei server, la possibilità di riallocare lo spazio disco da un server ad un altro, la possibilità di condividere lo Storage tra più nodi di uno stesso cluster.

Figura 2: utilizzo di XtremSF come DAS

·         Possono essere utilizzate come Cache di sola lettura a bassissima latenza per dati che risiedono comunque su Storage esterni. In questo caso si mantengono tutti i benefici legati all’utilizzo di Storage centralizzati, ma al contempo si accelerano enormemente le prestazioni delle applicazioni (tipicamente le letture costituiscono il 70%-80% delle IO complessive). Nella configurazione come Cache, uno strato Software elabora le statistiche di accesso ai dati e si preoccupa di gestire la “promozione” dei dati più acceduti in Cache.

Figura 3: XtremeSF utilizzato come Cache

E’ anche possibile partizionare la scheda in modo da utilizzarne una parte come disco locale (DAS), ed una parte come Cache, come descritto nella figura seguente.


Figura 4: XtremeSF utilizzato in modalità mista

Le situazioni d’impiego tipiche per questo tipo di Storage sono i carichi altamente transazionali e che necessitano di alte prestazioni, di solito associati con applicazioni web 2.0, virtual desktop (VDI) non persistenti, high-performance computing (HPC), e applicazioni di trading. Hanno un impiego anche come acceleratori di applicazioni di reporting, data analytics, data modeling ed altri carichi che possono determinare picchi periodici sui server.


Conclusioni

Le esigenze delle applicazioni in termini di prestazioni e di affidabilità dei dati (garantita da ridondanza, repliche locali e repliche) possono essere molto differenti. Potenzialmente ogni applicazione potrebbe trarre vantaggio dall’impiego di tecnologia Flash, ma occorre ponderare bene le scelte per massimizzare il ritorno sull’investimento.
Nel corso degli ultimi anni EMC non solo è stata un pioniere nell’adozione della tecnologia a Stato Solido nel campo dello Storage, ma ha sviluppato un portafoglio ampio ed articolato di prodotti per consentire ai clienti di impiegare questa tecnologia nella maniera più idonea a rispondere alle loro esigenze.

Icilio Pascucci


martedì 15 ottobre 2013

Le presentazioni di EMC all'OracleOpenWorld 2013 disponibili online.

La partecipazione di EMC all'OracleOpenWorld 2013 è stata un successo spettacolare, con 13.000 visitatori al nostro booth: EMC ha presentato la sessione #1 in termini di numero di partecipanti, e tre delle nostre sessioni sono nella top 5. E' a nostro parere una chiara dimostrazione dell'importanza di EMC per i clienti Oracle: nonostante le aree di competizione, Oracle ed EMC collaborano da 18 anni nella creazione di architetture per i database senza uguali, nel mondo Open, in termini di affidabilità, prestazioni e flessibilità.

Sono da poco state rese disponibili sul sito Oracle le presentazioni viste nelle sei sessioni EMC: qui di seguito trovate i link alle pagine degli abstract, dalle quali potete scaricare i PPT. Per tutti coloro che non sono riusciti a partecipare all'evento si tratta di un'ottima occasione per valutare la sinergia tra Oracle ed EMC. Buona lettura!


Se volete sapere qual'è stata la sessione #1 all'OOW13, ecco la risposta: "Make Oracle Backups up to 50 Percent Faster with Deduplication and Oracle RMAN"; la protezione dei dati è ancora un tema molto importante per i clienti.



martedì 8 ottobre 2013

Rilasciati i nuovi plug-in per Oracle 12c

E' da oggi disponibile il nuovo plug-in storage per Oracle 12c per la piattaforma VNX.

L'obiettivo di questo plug-in è quello di collegare gli elementi logici di un database (ad es, schemi, datafiles) con la piattaforma storage sottostante, rendendo trasparenti le componenti tecnologiche coinvolte. DBA e amministratori dello storage hanno quindi uno strumento comune con il quale analizzare le informazioni in merito alla configurazione, performance e disponibilità dei database Oracle mettendole in relazione con le corrispondenti componenti storage. Un semplice esempio: se una particolare query sembra non essere performante come da attese, individuare quali sono gli elementi storage coinvolti (porte front-end, pool, LUN, singoli dischi) con il nuovo plug-in è immediato e non richiede alcuna competenza dei dettagli implementativi: l'interfaccia grafica permette di collegare gli elementi del database con la sottostante piattaforma storage in modo rapido ed intuitivo.
Le informazioni raccolte dal plug-in possono essere ovviamente consolidate in OEM (Oracle Enterprise Manager), permettendo delle analisi sia reattive (root cause analysis), sia proattive.

Il plug-in è disponibile per il download gratuito, insieme alla guida di installazione, al seguente indirizzo:

VNX Storage Plug-in for Oracle Enterprise Manager 12c .

vnx-home-page.png

Il nuovo plug-in segue di poco il rilascio del corrispettivo plug-in per la piattaforma VMAX, disponibile al seguente indirizzo:

VMAX Storage Plug-in for Oracle Enterprise Manager 12c

revised OEM 12c VMAX Storage Plug-in.jpg

venerdì 27 settembre 2013

Gestione dinamica dei dati: dall'HSM a FAST VP

La gestione gerarchica del dato.

Quando fu introdotto il concetto di “Hierarchical Storage Management”, il principio alla base di questa tecnica era molto chiaro: ridurre il costo di memorizzazione dati (su disco) e semplificare il recupero di dati da supporti più lenti (tipicamente nastri); un processo schedulabile (batch)  analizzava le informazioni relative all’acceso ai file, decideva quali di questi potevano essere “migrati” su supporti più lenti ed a basso costo ed operava lo spostamento.
Questa tecnica è possibile in quanto la densità di accesso ai dati, identificata come skew, cioè la percentuale di spazio disco che soddisfa la maggioranza delle operazioni di lettura e scrittura, da sempre vede il concentrarsi della maggioranza delle attività su una piccola porzione dello spazio a disposizione delle applicazioni.
Le varie tecniche, ancorché tutte validissime, avevano però un piccolo difetto: il dato “migrato” doveva essere riportato sui supporti “primari” per poter essere fruibile e le attività di “migrazione” erano a carico del server.
Gli anni a venire ci hanno consegnato nuovi acronimi: da ILM o “Information Lifecycle Management” arrivando ai più recenti quali: Automated Tiered Storage o, ancora, Auto Tiering.
Se è vero che il principio alla base non è cambiato è altrettanto vero che le tecniche di movimentazione del dato si sono evolute negli anni, spostando i processi di gestione direttamente all’interno dei sistemi Storage, divenuti via via più intelligenti, invece che essere governati dai server come in passato.
Questo, per altro, garantisce una granularità di movimentazione decisamente più efficente (ad esclusione di alcune implementazioni) nel momento in cui l’elemento interessato alla “migrazione” non è più un intero file ma una “porzione” del “volume logico” (Chunk).

Questa ottimizzazione si deve grazie all’introduzione di tecnologie quali il “Virtual Provisioning”, anche conosciuto come “Thin Provisioning”, una tecnica che consente di presentare ai server un volume “Logico” o “Virtuale” che ha una corrispondenza “Fisica” equamente distribuita all’interno del sistema Storage.

Anche se il principio è concettualmente lo stesso, ogni produttore di sistemi Storage ha implementato questa funzionalità in modo differente.

Tornando ai concetti di “Gestione Gerarchica del Dato”, o se preferite “Gestione del Ciclo di Vita del Dato”, in casa EMC la soluzione, disponibile su tutte le piattaforme storage, è conosciuta come FAST o, nella sua accezione più diffusa, come FAST VP (Fully Automated Storage Tiering for Virtual Pool).
Il principio è abbastanza semplice: monitorando continuamente le attività di accesso ai dati è possibile identificare quali, tra questi, risultano essere più o meno “attivi” ed assegnare, in base a politiche definite dinamicamente dall’utente, il livello di Storage (Tier) più appropriato. In questo modo i dati più “attivi” verranno posizionati sul livello in grado di offrire le migliori prestazioni, mentre quelli “inattivi” saranno spostati sul livello meno prestazionale ed a più basso costo.

A questo punto è importante considerare alcuni aspetti che determinano l’efficacia di questa tecnologia ed in particolare:
  • La frequenza di movimentazione dei dati.
  • La dimensione dell’elemento che viene movimentato.
Nella maggior parte dei casi, un singolo dato assumerà nel tempo attributi differenti: in alcune fasi risulterà utilizzato con alta frequenza, mentre in altre risulterà “inattivo”: è molto importante che la reazione del sistema storage al cambio di “accesso” avvenga in modo tempestivo, in modo da allineare il posizionamento del dato in funzione del livello di servizio più appropriato; un sistema storage che ad esempio “risponda” a questo cambiamento nell’arco di  pochi minuti risulterà molto più efficace di un sistema apparente simile ma che abbia bisogno di qualche ora prima di riuscire ad individuare quali dati devono essere spostati e dove.

La dimensione dell’elemento che viene movimentato ha invece una ripercussione diretta sulla efficienza di utilizzo dei livelli di Storage (tier); a parità di numero di blocchi da movimentare, più piccole sono le dimensioni degli stessi e più efficace è l’utilizzo del livello storage più prestazionale, ovvero i dischi allo stato Solido (SSD o EFD), che sono quelli a costo più elevato.

I due aspetti sopra descritti incidono, oltre che sull’efficacia della soluzione, anche sull’utilizzo delle risorse “computazionali” che ogni sistema Storage possiede. Ad esempio, sui sistemi della fascia High End di EMC, i sistemi Symmetrix VMAX, la dimensione minima dell’elemento movimentato è 8MB e la movimentazione stessa del dato è continua, con una finestra di analisi minima di 10 minuti.

Come accennato in precedenza, ogni produttore di sistemi storage utilizza parametri differenti; è quindi fondamentale analizzare quanto le diverse soluzioni possano rendere questa tecnologia più o meno efficace.

La tecnologica di Storage Tiering è ovviamente indipendente rispetto alla tipologia di Server e/o Sistema Operativo: le funzionalità messe a disposizione dello storage quindi risultano disponibili per tutte le applicazioni in modo trasparente. Sui sistemi Storage EMC, questa tecnologia è disponibile per tutti, o quasi, gli ambienti operativi Open Systems, Mainframe e iSeries (AS/400).

L’evoluzione più recente, in casa EMC, ha visto l’introduzione di concetti di movimentazione del dato al di fuori dei sistemi Storage, verso livelli ancor più prestazionali, all’interno dei server, o, al contrario, verso sistemi Storage a loro volta “virtualizzati” attraverso i sistemi Storage principali.
In futuro è prevedibile che queste tecniche assumano una connotazione gestionale eterogenea; sistemi Storage in grado di muovere i dati verso altri sistemi Storage, aventi caratteristiche differenti quali, ad esempio, deduplica e compressione (quest’ultima già disponibile).

Per saperne di più accedi alla pagina dedicata alle soluzioni Storage EMC su EMC Community Network; posta le tue domande e riceverai supporto.


Stefano Panigada

lunedì 23 settembre 2013

Tecniche di scale-out

Elaborazione parallela: Tecniche di Scale-Out

Una delle maggiori sfide nell'ambito dei Big Data è come gestire le grandi quantità di dati in modo efficiente e scalabile. Il tema della scalabilità è particolarmente delicato nel mondo Big Data in quanto, come noto, i dati spesso crescono in modo molto veloce, e quindi occorre predisporre una soluzione architetturale in grado di rispondere a questa crescita in modo flessibile.

Per affrontare queste sfide l’approccio più diffuso è quello dell’elaborazione parallela del carico di lavoro: l’idea di fondo è quella di suddividere il carico tra le diverse componenti del sistema in modo che ciascuna possa operare in autonomia, parallelizzando quindi un lavoro che altrimenti dovrebbe essere eseguito procedendo serialmente,un passo alla volta.

La tecnica di Scale-Out è una delle soluzioni architetturali che sta dimostrando di essere particolarmente efficiente in questo ambito: si tratta di una architettura a scalabilità orizzontale che prevede l’aggiunta progressiva di “nodi”, ciascuno in grado di fornire al sistema nuove risorse di calcolo e di memorizzazione delle informazioni.



In questo tipo di architetture il carico di lavoro viene suddiviso tra i vari nodi in modo da permettere un’elaborazione parallela: ciascun nodo elabora i dati localmente e ritorna al sistema il proprio risultato parziale; i risultati parziali sono poi riaggregati ottenendo il risultato finale.

Si parla in questo caso di Massive Parallel Processing (MPP): se tutti i nodi sono equivalenti ci troviamo di fronte ad un MPP simmetrico, mentre se alcuni nodi ricoprono un ruolo differente si parla di MPP asimmetrico.  La distinzione non è puramente accademica: in un sistema asimmetrico infatti è possibile che alcuni nodi arrivino alla saturazione mentre altri nodi risultino invece scarichi; un classico caso è dato dai sistemi nei quali i nodi sono distinti tra front-end e back-end: in queste architetture è abbastanza comune che si arrivi alla saturazione del sistema quando una delle due componenti giunge al 100% di utilizzo (spesso è il front-end), anche se le restanti componenti avrebbero, almeno in teoria, ancora diversa capacità di poter erogare. Il fatto di aver “specializzato” i nodi non permette di poter (ri)utilizzare la capacità residua. Alcune soluzioni asimmetriche permettono di inserire nuovi nodi in modo indipendente (alimentando ad esempio il front-end o il back-end), mentre in altri casi occorre far crescere tutto sistema anche se la saturazione riguardava solo una delle sue parti.

Un sistema simmetrico garantisce la distribuzione del lavoro fra tutte le componenti, rendendo possibile una scalabilità quasi lineare. In questo caso la saturazione viene raggiunta quando tutte le componenti raggiungono  il 100% di utilizzo: l’aggiunta di nuovi nodi permette qui di crescere in modo controllato e progressivo, senza il “problema” di avere nodi sottoutilizzati.

La presenza di nodi sottoutilizzati, frequente nel mondo asimmetrico, è un problema non solo tecnico, in quanto causa una saturazione “prematura” del sistema, ma anche economico: il cliente infatti ha acquistato nodi che non riescono ad operare al 100%, e allo stesso tempo consumano corrente elettrica e soprattutto licenze software.  

La scelta della corretta architettura è ovviamente un aspetto critico di ogni soluzione Big Data: non esiste un'unica ricetta per tutte le necessità quindi il consiglio è di non fidarsi delle proposte “one size fits all”  ma valutare invece quali soluzioni il mercato metta a disposizione.

Un esempio di MPP simmetrico in casa EMC: Geenplum Database.

L’architettura MPP simmetrica è alla base di Greenplum Database, una soluzione disegnata per la Business Intelligence e l’analisi dei Big Data. Il principio centrale del Greenplum Database è quello di spostare le capacità di elaborazione il più vicino possibile ai dati: l’architettura MPP permette di eseguire le operazioni in modo pienamente parallelo, utilizzando contemporaneamente tutte le connessioni verso lo storage. Il parallelismo viene usato non solo in fase di “lettura” dei dati, ma anche nella fase di caricamento dei dati stessi, che in tutte le altre soluzioni presenti nel mercato risulta invece necessariamente seriale. Nel sistema Greenplum i dati fluiscono dai sistemi sorgente verso tutti i nodi del database, senza richiedere la presenza di un singolo punto di accesso (che diventa ovviamente un collo di bottiglia). In questo modo Greenplum Database è in grado di raggiungere velocità di caricamento di più di 10TB/ora per rack (e una velocità di scansione dei dati di 24GB/sec).

La scalabilità del sistema Greenplum è ottenuta in modo lineare aggiungendo nuovi nodi: ogni nodo porta con sé le risorse di elaborazione e di memorizzazione dei dati. Partendo da un minimo di quattro nodi è così possibile analizzare universi dati di alcune centinaia di gigabytes, per raggiungere progressivamente dimensioni che possono arrivare all’ordine di multi-petabytes.

GZ

Per maggiori su Greenplum Database potete visitare la pagina descrittiva della soluzione nelsito Pivotal.

Diversificare le soluzioni riducendone la complessità: il Software Defined Storage

Buona parte del mio lavoro di System Engineer si svolge dai clienti. Negli ultimi anni, ho lavorato con realtà aziendali che conoscevano poco EMC, ed è stato molto interessante per me capire le loro percezioni sulla strategia e la visione di EMC. Nelle discussioni avute, un tema frequente riguardava l'estrema varietà del nostro offering: EMC appariva loro come un'azienda leader di settore ma con un’offerta troppo estesa in termini di:

1) Portafoglio prodotti.
2) Funzionalità e gestione dei prodotti stessi.

Mi veniva sovente fatto notare come sul mercato esistano delle soluzioni semplici che fanno TUTTO mediamente bene e che lo fanno in modo apparentemente semplice; EMC invece, ha tante soluzioni diverse che spesso presentano delle aree di overlap in termini di funzionalità e posizionamento.
Effettivamente, se osserviamo quali e quante famiglie di prodotti EMC possiede nella categoria dei Block e File Storage (ciascuna poi da declinare in diverse configurazioni distinte)..
  

….possiamo contarne ben 7 includendo anche ATMOS che, sebbene nella sua accezione prediletta vada definito Object Storage, può eventualmente erogare anche servizi CIFS/NFS e quindi essere classificato come File Storage.

Se consideriamo inoltre la pletora infinita di funzionalità che ciascun prodotto si porta dietro, e che un cliente potrebbe percepire come un aggravio di conoscenza da acquisire, è facile capire perché tanto spesso mi siano state chieste delucidazioni sui razionali di questa strategia:

E' davvero la strategia vincente? E' davvero ancora necessaria la diversificazione di prodotto nel mondo dell'IT quando ci sono vendor che, apparentemente, con un singolo prodotto coprono a 360 gradi tutte le necessità? E' ancora necessaria la diversità quando la virtualizzazione ha uniformato e standardizzato il mondo IT? A chi dare fiducia quando le strategie (anche se forse sarebbe meglio chiamarle filosofie) che guidano le aziende sono diametralmente opposte?

Per rispondere a queste domande vorrei ricorrere ad una analogia con l'ecosistema naturale all'interno del quale l'essere umano si è evoluto. Se osserviamo l'evoluzione dell'ecosistema terrestre ci accorgiamo come la biodiversità non si sia rivelata soltanto la migliore strategia per garantire la sopravvivenza delle singole specie ma anche la migliore per salvaguardare l'intero ecosistema.
In altre parole, vegetali e animali si sono adattati in modo estremamente variegato per rispondere alle diverse condizioni ambientali, acquisendo caratteristiche peculiari più adatte per resistere agli "stress" ambientali. E così il "pino silvestre" si è adattato con le foglie ad ago alle temperature rigide, mentre il "ficus elastica" si è adattato con larghe foglie ovali ai climi tropicali.

In altre parole, il modello "One-Fits-All" in natura non ha funzionato perché i compromessi necessari per creare un'unica specie che potesse vivere dai -70 gradi del polo sud ai +50 gradi del deserto del sahara l'avrebbero resa completamente inadatta alla vita.

Uscendo dall'analogia naturale, io credo che anche all'interno dell'ECOSISTEMA CLIENTE i needs tecnologici e di business cambiano in modo estremo. Per sopravvivere nell'ecosistema di un cliente, la strategia migliore per un'azienda come EMC è quella di creare le migliori soluzioni specializzate, facendo poi in modo che possano cooperare l’una con l’altra nella realizzazione di un’unica architettura.
Allo stesso tempo, anche per il cliente conviene scegliere la migliore tecnologia per soddisfare i propri bisogni ed essere vincente sul mercato. La ragione per cui, all'interno di EMC, la prevendita ricopre un ruolo chiave è proprio perché sa capire i clienti e aiutarli a scegliere lo strumento giusto per soddisfare i diversi bisogni.

Assodato quindi che una strategia di prodotto diversificata sia assolutamente necessaria sia per un vendor che per un cliente finale, resta da capire se e come sia possibile ridurre invece il tema della complessità operativa che la diversificazione comporta. Se ci pensiamo bene, il "come" è noto ormai dagli albori dell'informatica ed è indirizzato attraverso il concetto di astrazione. Spesso l'astrazione viene associata al concetto virtualizzazione ma in realtà quest'ultima non è che una conseguenza della prima.
Un metodo abbastanza comune di astrazione nel mondo informatico è la creazione di interfacce per esportare funzioni di alto livello di un sistema complesso.

Il potere delle interfacce

Il grande potere delle interfacce è che, la conoscenza delle stesse, permette di interagire con un sistema esterno all'utilizzatore pur non conoscendone i dettagli di funzionamento. Esempi tipici di interfaccia nel mondo informatico sono le API (Application Programming Interface) ma le interfacce sono attorno a noi anche nel mondo reale: il volante e i pedali permettono di interagire con un'auto indipendentemente dal fatto che il guidatore sappia come funzioni il motore e il sistema di trasmissione. In questo senso, il volante e i pedali sono le interfacce che ci permettono di governare il sistema complesso "automobile".

Un set di interfacce standardizzato diventa un protocollo di comunicazione. Nel mondo ideale, i protocolli dovrebbero essere definiti in modo indipendente dall'implementazione: in altre parole, bisognerebbe prima pensare alle interfacce e poi all'implementazione delle stesse. Nel mondo dell'informatica questo è avvenuto raramente: ciascun vendor ha realizzato implementazioni di funzionalità senza pensare al modo di interfacciarsi verso il mondo esterno in modo interoperabile e questo ha causato un proliferare di soluzioni incompatibili e con sistemi di controllo diversificati.

Nel mondo del computing, tuttavia, la virtualizzazione delle Hypervisor, introducendo un altro livello di astrazione, è riuscita a semplificare l'interoperabilità di soluzioni hardware differenti tra di loro e risposto affermativamente alla domanda "E' possibile ridurre il tema della complessità operativa in un mondo di soluzioni Hardware diversificato?".
Se si è riusciti nel mondo del computing, non si può pensare replicare quanto già fatto anche per il mondo dello Storage?

EMC ViPR (pronunciato VIPER)

ViPR è la risposta di EMC. ViPR è una soluzione software che astrae le risorse storage disponibili disaccoppiando il control plane (la logica di controllo di un sistema storage) e il data plane (il percorso che i dati fanno da e verso i sistemi storage).
Le risorse storage vengono aggregate in pool e presentate in modo trasparente agli storage-consumer/administrators attraverso un catalogo self-service.
ViPR astrae la complessità del processo di provisioning di un sistema storage attraverso una interfaccia semplificata e si occupa della gestione di tutto il processo che va dall'allocazione dello spazio alla sua presentazione all'end-user finale. Allo stesso tempo, non interponendosi come strato di virtualizzazione per il data plane, fa si che le applicazioni possano sfruttare tutte le caratteristiche dei sistemi storage sottostanti incluso il virtual provisioning, la deduplica, la compressione e le funzionalità avanzate di replica locale e remota.

In questo modo, anche in un ECOSISTEMA CLIENTE variegato, dove le tecnologie storage sono diverse per matchare i needs del cliente, è possibile interagire con esse in un modo più semplice non dovendo necessariamente conoscere, ad esempio, i dettagli di funzionamento del provisioning di un sistema VMAX, VNX, XtremIO e/o Terze Parti.

ViPR, inoltre, espone API per essere integrato in meccanismi di automazione più vasti con l'obiettivo di realizzare un Software Defined Data Center (SDDC) dove ogni elemento dell'infrastruttura può essere controllato in modo intelligente per adattarsi in modo trasparente ai bisogni del business. L'immagine sottostante illustra come uno stack applicativo basato su VMWARE ed una infrastruttura storage disaccoppiata da ViPR, si interconnetta e comunichi la disponibilità di servizi di alto livello agli strati di orchestrazione evoluti (vCloud Automation Center e vCenter Ops Manager) attraverso il control plane.



In conclusione, il commitment tecnologico di EMC su piattaforme storage diversificate è e resterà elevatissimo per fornire sempre la migliore soluzione ai nostri clienti ma, allo stesso tempo, la nuova esigenza di semplificazione per la realizzazione Software Defined DataCenter sta spingendo EMC a realizzare una visione nuova in cui l'automazione, la semplificazione e l'interoperabilità diventano la chiave di volta per aiutare i suoi clienti a vincere sul mercato.

AP



Cliccate qui se volete approfondire il tema ViPR e Software-Defined Storage
La scheda descrittiva di ViPR (in Italiano) è invece disponibile a questo link.

giovedì 12 settembre 2013

Che cos'è la deduplica dei dati ?

Quando si parla di dati deduplicati si fa rifermento ad un insieme di informazioni che sono state sottoposte ad un particolare processo, chiamato appunto deduplica, che consiste nella ricerca all'interno dei dati di sequenze che si ripetano: i dati sono quindi divisi in sequenze (di lunghezza fissa o variabile ma di solito di 8KB o più), e ciascuna sequenza viene confrontata con lo storico delle altre sequenze finora incontrate. Una sequenza che viene incontrata per la prima volta viene quindi salvata in modo completo, mentre le occorrenze successive sono salvate solo come "puntatori" ai dati già salvati, risparmiando quindi lo spazio altrimenti necessario alla (ri)scrittura di informazioni che già erano state memorizzate: questo processo è ovviamente completamente trasparente per gli utenti e le applicazioni che leggono e/o scrivono i dati.

Chi utilizza la deduplica?

La deduplica è ideale per le operazioni ad alta ridondanza quali i backup: ogni volta che si effettua un backup infatti una parte importante delle informazioni salvate risultano immutate rispetto al salvataggio precedente; il processo di deduplica è in grado di individuare questi dati non modificati e memorizzarli conseguentemente solo come puntatori. Il risultato finale è un meccanismo di backup e recovery che risulta veloce, affidabile e a costi molto contenuti anche quando i dati sono mantenuti per 30-90 giorni.

Deduplica inline e off-line

L'operazione di deduplica è particolarmente "intensa" lato CPU: questo costo, che si traduce in un potenziale impatto sulle applicazioni, specie per le operazioni di scrittura, ha dato origine a due modelli di deduplica:

  • deduplica inline: in questo caso il processo di deduplica viene effettuato in real time nel momento in cui i dati vengono creati; in altre parole il dato viene scritto nel sistema di memorizzazione in formato deduplicato e ogni operazione di scrittura è considerata completata solo nel momento in cui la deduplica è avvenuta.
  • deduplica offline (anche detta post-process deduplication): in questo caso i nuovi dati sono inizialmente scritti nell'esatto formato creato dall'applicazione. L'operazione di deduplica viene effettuata solo successivamente da parte di un processo che analizza i dati e li riscrive in modo deduplicato.

Il beneficio maggiore della deduplica inline è che richiede meno spazio di memorizzazione, in quanto i dati sono scritti immediatamente in formato deduplicato: nella deduplica offline si ha invece la necessità di disporre di un area di memorizzazione che comprenda sia i dati in formato non deduplicato, sia i dati deduplicati; per applicare la deduplica non è infatti possibile "rimuovere" gli elementi comuni, ma occorre un intera riscrittura dei dati stessi.

Come detto, essendo il processo di deduplica molto costoso in termini computazionali, il beneficio nell'immediato risparmio di spazio disco deve essere bilanciato dall'impatto in termini operativi: le operazioni di scrittura diventano più lunghe; solo di recente, architetture come XtremIOdisegnate ex novo per l'uso esclusivo di dischi flash, hanno dimostrato di essere capaci di una deduplica inline senza costi "nascosti"; il dibattito tra metodi di deduplica inline e offline è comunque ancora molto acceso.

Benefici della deduplica


Eliminare i dati ridondanti può ridurre significativamente i requisiti di storage, con un evidente impatto sulla capacità complessiva necessaria per memorizzare le informazioni. Poiché il costo dello storage è costantemente in diminuizione, le aziende tipicamente hanno iniziato a mantenere diverse versioni delle stesse informazioni in modo da poter più facilmente riutilizzare il lavoro eseguito in precedenza: queste diverse versioni ovviamente sono degli ottimi candidati per la deduplica, che riduce i costi sia in termini di "spazio disco", sia in termini complessivi di elettricità, condizionamento e floor space.
Oltre all'aspetto "statico" (memorizzazione), il processo di deduplica ha anche un importante impatto "dinamico" in termini di efficienza nell'utilizzo della banda di rete: facendo infatti transitare solo i dati realmente "nuovi" è possibile ridurre sensibilmente tale  traffico; questo risulta particolarmente rilevante negli scenari in cui la "periferia" aziendale deve comunicare con il centro attraverso dei canali a banda limitata. Anche gli scenari di Disaster Recovery possono beneficiare dal processo di deduplica, in quanto ci sono meno dati da fare transitare tra un sito e l'altro: specie nelle dimensioni geografiche questa efficienza nell’uso della banda di rete diventa un elemento critico di valutazione.


Alcune delle soluzioni EMC che utilizzano la deduplica: