venerdì 22 novembre 2013

Hadoop: di cosa si tratta ?

File:Hadoop logo.svg

Cos'è Hadoop ?


La crescita impressionante dei dati osservata negli ultimi anni, e destinata a proseguire nel futuro, ha fatto nascere molti progetti indirizzati a trovare delle soluzioni il più possibile semplici ed economiche per:

  1. Archiviare le informazioni
  2. Eseguire delle elaborazioni su moli di dati fino a poco tempo fa impensabili (decine di Petabytes e più). 

Poiché la gran parte delle informazioni oggi generate è di tipo non strutturato (files), è in questa direzione che molti dei progetti si sono mossi e tra questi anche Hadoop.

Hadoop nasce come progetto per l'analisi distribuita di grandi insiemi di dati attraverso un semplice modello di programmazione.  L'architettura, realizzata in Java, permette di poter scalare da pochi server fino a migliaia di sistemi: ogni server contribuisce con le proprie risorse di calcolo e la propria capacità di memorizzare i dati, e quindi aggiungendo server, chiamati anche "nodi", è possibile far crescere un sistema Hadoop in modo quasi lineare. Benché non vi siano restrizioni specifiche per i nodi, di norma vengono utilizzati dei sistemi x86 standard, il che permette di poter tenere sotto controllo i costi complessivi della soluzione e allo stesso tempo di beneficiare della crescita in termini computazionali di queste architetture.

L'alta affidabilità, e dunque la protezione dei dati, viene realizzata non basandosi sulle caratteristiche hardware dei server, ma bensì a livello software: sono le librerie di Hadoop che si occupano di identificare se e quali componenti presentano un malfunzionamento, ed intervenendo per ripristinare le operazioni (ad esempio creando una nuova copia dei dati contenuti in un server). E' evidente che nella scala dei Petabytes le soluzioni di backup tradizionali non sono utilizzabili, e quindi è proprio la distribuzione dei dati su nodi differenti la chiave per salvaguardare le informazioni anche di fronte ad un guasto di uno dei nodi (Hadoop adotta come standard la scrittura dello stesso dato in tre locazioni differenti).

Le due componenti fondamentali di Hadoop sono quindi
  • Il sistema di gestione distribuita dei dati: l'Hadoop Distributed File System (HDFS)
  • Il sistema di elaborazione parallela dei dati: MapReduce
A fianco a queste componenti fondamentali si trovano altri moduli che aggiungono ulteriori funzionalità alla piattaforma: citiamo a titolo di esempio HBase,  un database distribuito per la gestione strutturata di dati sotto forma di tabelle di grandi dimensioni, e Hive, un modulo pensato per il datawarehousing che rende possibile interagire con i dati di Hadoop con un interfaccia SQL-like. I moduli addizionali si collocano "sopra" HDFS e MapReduce, che sono sempre presenti come fondamenta dell'architettura: ecco quindi che i dati strutturati di HBase sono memorizzati come files in HDFS e le query SQL di Hive sono eseguite da MapReduce.

giovedì 14 novembre 2013

EMC annuncia la disponibilità dell'array all-flash XtremIO

L'unico array con architettura scale-out che massimizza le prestazioni della tecnologia flash senza comprometterne l’efficienza e la durata.


Milano, 14 Novembre 2013 – EMC Corporation (NYSE:EMC) ha annunciato la disponibilità di EMC® XtremIO™, il primo e unico array realizzato per utilizzare in modo efficiente ed innovativo la tecnologia flash, per offrire prestazioni eccezionali, prevedibili e costanti, a fronte di qualsiasi  carico di lavoro dell’applicazione, indipendentemente dalla percentuale di occupazione dell'array stesso. XtremIO si basa su una serie di innovazioni flash davvero uniche: un’architettura scale-out multi-controller con scalabilità lineare, deduplica In linea del dato e una protezione dei dati che è 6 volte più efficiente e 4 volte più veloce dei RAID tradizionali.



mercoledì 13 novembre 2013

L'Universo Digitale: opportunità e sfide per le aziende in un'infografica

Di quanto crescerà l'Universo Digitale nei prossimi anni, e dove ? Quanto (poco) sono protetti i dati? Un'infografica può aiutare a scoprirlo:



Il report completo è disponibile in questa pagina, con numerosi approfondimenti sull'Universo Digitale.
Decisamente consigliata la versione interattiva del report, che permette di navigare in modo molto agile tra le varie sezioni.

martedì 12 novembre 2013

RISOLVERE LE PROBLEMATICHE DI UN MONDO BASATO SUI DATI

La Business Intelligence alla velocità richiesta dal mondo di oggi: i risultati di un Proof Of Concept.


L’aumento vertiginoso dei dati disponibili (Big Data)permette di ottenere una visione più completa di come un mercato si muove, delle opportunità che offre e della economicità o anti-economicità di possibili scelte aziendali.
Conoscere approfonditamente la realtà che circonda la propria azienda permette di avere più prontezza nel prendere decisioni che possono influire sia sull’aumento del fatturato o profitto, sulla razionalizzazione e ottimizzazione dei costi e sulla percezione che ha il mercato e, quindi, sull’evoluzione della proposta di prodotti e servizi.

Alcuni esempi riguardano:
  • Dal punto di vista del Business, e cioè del Top Management delle aziende, è sempre più importante poter prendere decisioni su come muoversi sul mercato, quali prodotti o soluzioni hanno la maggior probabilità di prendere piede (e quindi generare utile) o, viceversa, quali mostrano trend negativi e, quindi, come approntare per tempo piani alternativi.
  • Anche per quanto riguarda l’efficienza interna (in ottica di riduzione dei costi) riuscire a ottimizzare i cicli di produzione, lo stoccaggio delle merci, l’approvvigionamento delle componenti, la conoscenza della mortalità della componentistica e la conseguente efficienza dei magazzini ricambi permettono di aumentare il rapporto costo/guadagno e, soprattutto, aumentare l’immagine verso i propri Clienti/Utenti.
  • La conoscenza dei commenti della comunità dei Clienti, inoltre, è diventata possibile grazie ai Social Network e alla possibilità di analizzare i commenti che vengono fatti (Sentiment Analisys); questo permette di avere una percezione (soprattutto su nuovi prodotti o soluzioni) in tempo reale di quali sono considerati i Plus o Minus e, anche, di conoscere quali sono le caratteristiche che accendono l’immaginario dei Clienti; da queste analisi discendono varie possibilità: da campagne di marketing mirate sui Plus, a dare le giuste priorità alle modifiche e o novità da apportare (Minus) e, anche, ad avere nuove idee su come far evolvere la propria offerta.

venerdì 8 novembre 2013

Tre approcci alla Converged Infrastructure: il punto di vista del Partner System Engineer


Recentemente si parla molto di converged infrastructure. Questo articolo vuole cercare di chiarire cosa si intende e come differiscono i diversi approcci.

Come molti sanno, converged infrastructure o in italiano, infrastruttura convergente non identifica un prodotto, bensì delle soluzioni standardizzate e automatizzate, in grado di semplificare il flusso dei processi, 
ridurre i costi, massimizzare l'efficienza e la flessibilità del business: in definitiva avere un'infrastruttura che renda il provisioning applicativo il più semplice possibile.

L'obiettivo finale vuole essere quello di investire meno tempo possibile nel management infrastrutturale, per potersi concentrare sulle applicazioni, vero motore del business aziendale.

La domanda potrebbe nascere spontanea: abbiamo davvero bisogno di un'infrastruttura convergente? Un approccio tradizionale non risolve già tutti i requisiti infrastrutturali dell'IT?
In questo articolo cercherò di chiarire perché questo approccio, pur non essendo la panacea di tutti i problemi infrastrutturali, è senz'altro vincente per molti clienti, in particolare per quelli della media impresa.

Già qualche anno fa diversi analisti e blog (IDC, Gartner, Wikibon ecc) hanno previsto un'evoluzione nell'approccio all'infrastruttura. Inizialmente l'approccio era soprattutto tradizionale: un cliente acquistava server, storage,
networking e backup, assemblava il tutto e solo successivamente poteva dedicarsi alle proprie applicazioni e ad estrarre conoscenza dai propri dati.


giovedì 7 novembre 2013

VDI ... ESTREEEMO I/O ! - @EMCXtremIO


Il 14 Novembre 2013 un importante annuncio da parte di EMC riguarderà un nuovo prodotto storage destinato a rivoluzionare di nuovo il modo di memorizzare i dati in ambito "block".

Se non vi siete ancora registrati all'evento, fatelo ora qui.

Di cosa sto parlando ? .. Di XTREMIO



XtremIO è stata fondata nel 2009 sulla base di una semplice idea e con i progressi tecnologici nella creazione di memoria non volatile a stato solido (più semplicemente: memoria flash), voleva introdurre  nuove funzionalità per i sistemi di storage aziendali. 
La convinzione degli ingegneri XtremIO è che i miglioramenti delle prestazioni sono solo un degli aspetti benefici migliorativi che possono essere ottenuti adottando una tecnologia diversa da quella dei tradizionali hard disk.

XtremIO, infatti non ha semplicemente adattato uno storage all'utilizzo di dischi Falsh, ma ha realizzato un array  che fin dalla prima accensione avrebbe utilizzato solo dischi Flash. Tutto la sua ingegnerizzazione ruota attorno a questo concetto.
Mentre gli altri prodotti e produttori di "all-in flash Storage" offrono miglioramenti delle prestazioni, XtremIO porta le prestazioni ad un livello completamente nuovo, mettendo argomenti come scalabilità, deduplica in-line, efficienza, facilità d'uso  e la capacità di gestione dei dati  ad un costo fortemente competitivo.