venerdì 22 novembre 2013

Hadoop: di cosa si tratta ?

File:Hadoop logo.svg

Cos'è Hadoop ?


La crescita impressionante dei dati osservata negli ultimi anni, e destinata a proseguire nel futuro, ha fatto nascere molti progetti indirizzati a trovare delle soluzioni il più possibile semplici ed economiche per:

  1. Archiviare le informazioni
  2. Eseguire delle elaborazioni su moli di dati fino a poco tempo fa impensabili (decine di Petabytes e più). 

Poiché la gran parte delle informazioni oggi generate è di tipo non strutturato (files), è in questa direzione che molti dei progetti si sono mossi e tra questi anche Hadoop.

Hadoop nasce come progetto per l'analisi distribuita di grandi insiemi di dati attraverso un semplice modello di programmazione.  L'architettura, realizzata in Java, permette di poter scalare da pochi server fino a migliaia di sistemi: ogni server contribuisce con le proprie risorse di calcolo e la propria capacità di memorizzare i dati, e quindi aggiungendo server, chiamati anche "nodi", è possibile far crescere un sistema Hadoop in modo quasi lineare. Benché non vi siano restrizioni specifiche per i nodi, di norma vengono utilizzati dei sistemi x86 standard, il che permette di poter tenere sotto controllo i costi complessivi della soluzione e allo stesso tempo di beneficiare della crescita in termini computazionali di queste architetture.

L'alta affidabilità, e dunque la protezione dei dati, viene realizzata non basandosi sulle caratteristiche hardware dei server, ma bensì a livello software: sono le librerie di Hadoop che si occupano di identificare se e quali componenti presentano un malfunzionamento, ed intervenendo per ripristinare le operazioni (ad esempio creando una nuova copia dei dati contenuti in un server). E' evidente che nella scala dei Petabytes le soluzioni di backup tradizionali non sono utilizzabili, e quindi è proprio la distribuzione dei dati su nodi differenti la chiave per salvaguardare le informazioni anche di fronte ad un guasto di uno dei nodi (Hadoop adotta come standard la scrittura dello stesso dato in tre locazioni differenti).

Le due componenti fondamentali di Hadoop sono quindi
  • Il sistema di gestione distribuita dei dati: l'Hadoop Distributed File System (HDFS)
  • Il sistema di elaborazione parallela dei dati: MapReduce
A fianco a queste componenti fondamentali si trovano altri moduli che aggiungono ulteriori funzionalità alla piattaforma: citiamo a titolo di esempio HBase,  un database distribuito per la gestione strutturata di dati sotto forma di tabelle di grandi dimensioni, e Hive, un modulo pensato per il datawarehousing che rende possibile interagire con i dati di Hadoop con un interfaccia SQL-like. I moduli addizionali si collocano "sopra" HDFS e MapReduce, che sono sempre presenti come fondamenta dell'architettura: ecco quindi che i dati strutturati di HBase sono memorizzati come files in HDFS e le query SQL di Hive sono eseguite da MapReduce.

giovedì 14 novembre 2013

EMC annuncia la disponibilità dell'array all-flash XtremIO

L'unico array con architettura scale-out che massimizza le prestazioni della tecnologia flash senza comprometterne l’efficienza e la durata.


Milano, 14 Novembre 2013 – EMC Corporation (NYSE:EMC) ha annunciato la disponibilità di EMC® XtremIO™, il primo e unico array realizzato per utilizzare in modo efficiente ed innovativo la tecnologia flash, per offrire prestazioni eccezionali, prevedibili e costanti, a fronte di qualsiasi  carico di lavoro dell’applicazione, indipendentemente dalla percentuale di occupazione dell'array stesso. XtremIO si basa su una serie di innovazioni flash davvero uniche: un’architettura scale-out multi-controller con scalabilità lineare, deduplica In linea del dato e una protezione dei dati che è 6 volte più efficiente e 4 volte più veloce dei RAID tradizionali.



mercoledì 13 novembre 2013

L'Universo Digitale: opportunità e sfide per le aziende in un'infografica

Di quanto crescerà l'Universo Digitale nei prossimi anni, e dove ? Quanto (poco) sono protetti i dati? Un'infografica può aiutare a scoprirlo:



Il report completo è disponibile in questa pagina, con numerosi approfondimenti sull'Universo Digitale.
Decisamente consigliata la versione interattiva del report, che permette di navigare in modo molto agile tra le varie sezioni.

martedì 12 novembre 2013

RISOLVERE LE PROBLEMATICHE DI UN MONDO BASATO SUI DATI

La Business Intelligence alla velocità richiesta dal mondo di oggi: i risultati di un Proof Of Concept.


L’aumento vertiginoso dei dati disponibili (Big Data)permette di ottenere una visione più completa di come un mercato si muove, delle opportunità che offre e della economicità o anti-economicità di possibili scelte aziendali.
Conoscere approfonditamente la realtà che circonda la propria azienda permette di avere più prontezza nel prendere decisioni che possono influire sia sull’aumento del fatturato o profitto, sulla razionalizzazione e ottimizzazione dei costi e sulla percezione che ha il mercato e, quindi, sull’evoluzione della proposta di prodotti e servizi.

Alcuni esempi riguardano:
  • Dal punto di vista del Business, e cioè del Top Management delle aziende, è sempre più importante poter prendere decisioni su come muoversi sul mercato, quali prodotti o soluzioni hanno la maggior probabilità di prendere piede (e quindi generare utile) o, viceversa, quali mostrano trend negativi e, quindi, come approntare per tempo piani alternativi.
  • Anche per quanto riguarda l’efficienza interna (in ottica di riduzione dei costi) riuscire a ottimizzare i cicli di produzione, lo stoccaggio delle merci, l’approvvigionamento delle componenti, la conoscenza della mortalità della componentistica e la conseguente efficienza dei magazzini ricambi permettono di aumentare il rapporto costo/guadagno e, soprattutto, aumentare l’immagine verso i propri Clienti/Utenti.
  • La conoscenza dei commenti della comunità dei Clienti, inoltre, è diventata possibile grazie ai Social Network e alla possibilità di analizzare i commenti che vengono fatti (Sentiment Analisys); questo permette di avere una percezione (soprattutto su nuovi prodotti o soluzioni) in tempo reale di quali sono considerati i Plus o Minus e, anche, di conoscere quali sono le caratteristiche che accendono l’immaginario dei Clienti; da queste analisi discendono varie possibilità: da campagne di marketing mirate sui Plus, a dare le giuste priorità alle modifiche e o novità da apportare (Minus) e, anche, ad avere nuove idee su come far evolvere la propria offerta.

venerdì 8 novembre 2013

Tre approcci alla Converged Infrastructure: il punto di vista del Partner System Engineer


Recentemente si parla molto di converged infrastructure. Questo articolo vuole cercare di chiarire cosa si intende e come differiscono i diversi approcci.

Come molti sanno, converged infrastructure o in italiano, infrastruttura convergente non identifica un prodotto, bensì delle soluzioni standardizzate e automatizzate, in grado di semplificare il flusso dei processi, 
ridurre i costi, massimizzare l'efficienza e la flessibilità del business: in definitiva avere un'infrastruttura che renda il provisioning applicativo il più semplice possibile.

L'obiettivo finale vuole essere quello di investire meno tempo possibile nel management infrastrutturale, per potersi concentrare sulle applicazioni, vero motore del business aziendale.

La domanda potrebbe nascere spontanea: abbiamo davvero bisogno di un'infrastruttura convergente? Un approccio tradizionale non risolve già tutti i requisiti infrastrutturali dell'IT?
In questo articolo cercherò di chiarire perché questo approccio, pur non essendo la panacea di tutti i problemi infrastrutturali, è senz'altro vincente per molti clienti, in particolare per quelli della media impresa.

Già qualche anno fa diversi analisti e blog (IDC, Gartner, Wikibon ecc) hanno previsto un'evoluzione nell'approccio all'infrastruttura. Inizialmente l'approccio era soprattutto tradizionale: un cliente acquistava server, storage,
networking e backup, assemblava il tutto e solo successivamente poteva dedicarsi alle proprie applicazioni e ad estrarre conoscenza dai propri dati.


giovedì 7 novembre 2013

VDI ... ESTREEEMO I/O ! - @EMCXtremIO


Il 14 Novembre 2013 un importante annuncio da parte di EMC riguarderà un nuovo prodotto storage destinato a rivoluzionare di nuovo il modo di memorizzare i dati in ambito "block".

Se non vi siete ancora registrati all'evento, fatelo ora qui.

Di cosa sto parlando ? .. Di XTREMIO



XtremIO è stata fondata nel 2009 sulla base di una semplice idea e con i progressi tecnologici nella creazione di memoria non volatile a stato solido (più semplicemente: memoria flash), voleva introdurre  nuove funzionalità per i sistemi di storage aziendali. 
La convinzione degli ingegneri XtremIO è che i miglioramenti delle prestazioni sono solo un degli aspetti benefici migliorativi che possono essere ottenuti adottando una tecnologia diversa da quella dei tradizionali hard disk.

XtremIO, infatti non ha semplicemente adattato uno storage all'utilizzo di dischi Falsh, ma ha realizzato un array  che fin dalla prima accensione avrebbe utilizzato solo dischi Flash. Tutto la sua ingegnerizzazione ruota attorno a questo concetto.
Mentre gli altri prodotti e produttori di "all-in flash Storage" offrono miglioramenti delle prestazioni, XtremIO porta le prestazioni ad un livello completamente nuovo, mettendo argomenti come scalabilità, deduplica in-line, efficienza, facilità d'uso  e la capacità di gestione dei dati  ad un costo fortemente competitivo.

martedì 5 novembre 2013

ScaleIO ECS: il software Provided Storage di EMC

Nel mese di Luglio di quest’anno (2013) EMC ha siglato un accordo per l’acquisizione di ScaleIO, società che ha sviluppato una soluzione pioneristica di software provided storage.
L’acquisizione di ScaleIO è finalizzata al rafforzamento della strategia e del portfolio della EMC Flash Product Division, che già si compone di  PCIe Flash card EMC XtremSF™ (PCIe Flash card),  EMC XtremSW ™ Suite, XtremIO™ (all-Flash array), oltre alle soluzioni Flash-optimized hibrid arrays con i sistemi EMC VMAX ® and EMC VNX ®.

ScaleIO, tramite un approccio basato esclusivamente su software, è in grado di realizzare di creare un pool virtuale di storage server-based, cioè attraverso nodi composti da singoli server. Quest’architettura permette di ottenere elasticità e scalabilità in termini di capacità e performance. ScaleIO utilizza le risorse elaborative e capacitive di ogni server (nodo) e può scalare da decine a migliaia di nodi.

XtremIO presentato il 14 Novembre

XtremIO è la nuovissima soluzione EMC 100% flash scale-out. Per conoscere meglio l'architettura unica di XtremIO e come questo cambierà radicalmente il vostro mondo VDI, gli ambienti virtualizzati e i database registratevi per il lancio ufficiale il 14 novembre: 


lunedì 4 novembre 2013

Upgrade a Oracle 12c con l'opzione multitenant (pluggable database)

Una delle caretteristiche più interessanti e innovative della versione 12c di Oracle è certamente la Multitenant Option, nota anche come Pluggable Database: questa funzionalità permette la creazione di database multipli (PDB) all'interno di un database contentitore (CDB). I PDB condividono le risorse fornite dal CDB quali memoria, processi in background, UNDO, REDO e control files.

Quali sono gli impatti di queste novità per l'infrastruttura Oracle esistente ? Un modo efficace per valutarlo è quello di effettuare la migrazione alla 12c di uno degli ambienti di produzione, creando un "incubatore" separato dalla produzione stessa, nel quale eseguire le verifiche del caso.

Il processo di migrazione da una versione Oracle alla successiva può essere abbastanza complesso: proprio allo scopo di facilitare questa attività, EMC ha da sempre collaborato con Oracle nella realizzazione di soluzioni che sfruttassero le capacità dello storage, in particolare per la replica dei dati dall'ambiente di produzione a quello di test. Nel caso dei sistemi storage Symmetrix VMAX, la soluzione di replica TimeFinder permette di effettuare un offload delle operazioni di replica del database: il server che ospita il database (in altre parole l'ambiente di produzione) non è quindi impattato né per quanto concerne CPU e memoria, né per la componente di I/O. Nel caso poi in cui occorra iniziare una nuova verifica, reinizializzando il database, le funzioni di copia incrementale di TimeFinder permettono di ricreare il nuovo ambiente in tempi estremamente rapidi indipendentemente dalla dimensione del database stesso.

Tutti i dettagli sull'utilizzo di TimeFinder per la migrazione alla versione 12c di Oracle sono contenuti in un recente whitepaper (in inglese) ora disponibile a questo indirizzo: qui sotto l'architettura di alto livello della soluzione descritta



Ulteriori documenti e approfondimenti sulle soluzioni EMC per Oracle sono disponibili nella community Everything Oracle at EMC.