lunedì 2 febbraio 2015

Hadoop as a Service (HDaaS)

EMC WhitePaper - Virtualizing Hadoop in Large-Scale Infrastructure


Lo scorso Dicembre 2014 una interessante whitepaper sul tema Hadoop e Virtualizzazione è stato publicato sul portale EMC.







Lo trovate qui.

È stato scritto in collaborazione con Adobe Systems, cliente EMC, i contenuti sono in linea con le considerazioni espresse anche da altri clienti EMC in occasione di conferenze e work shop sul tema.

Leggendo il documento potremmo conviverci che Hadoop e l’”Object Based Storage” saranno la base dell'occupazione e consumo di spazio per il prossimo futuro!

Se vi occupate di IT e pensate di occuparvene per i prossimi 3 anni,  adesso è il momento giusto per iniziare a buttarvi a tutta velocità su Hadoop, nonché ”Object Based Storage” : la nuova tendenza.

... comunque  “Block”  e “File” Storage , rimarranno a contorno per ancora molto tempo. 


Tornando al documento, il focus  è sul reparto IT di Adobe che vorrebbe essere più agile e veloce nel soddisfare le esigenze di business, definendolo come un obbiettivo chiave : "Costruire un ambiente virtualizzato HDaaS per fornire analisi attraverso un catalogo self-service per i clienti interni Adobe".

Architettura composta da "lame" Cisco UCS, EMC VNX ed EMC Isilon (Isilon è stato utilizzato per la parte dei Hadoop, vedi qui o dai una lettura a questa white paper wp-emc-isilon-hadoop-best-practices.pdf) così come "Big Data Extensions" di VMware (BDE).

Inoltre Adobe è convinta, e non solo Adobe,  che le aziende possano ottenere un vantaggio competitivo significativo dalla vasta quantità di informazioni raccolte sull’infrastruttura di data mining realizzata.  Nella loro stima  la somma dovrebbe aggirarsi in oltre 8PB (PETABYTE!!!). 
E questo solo dai dati provenienti dagli accessi al loro sito e dal traffico web indotto (solo uno degli esempi che sono utilizzati nel documento).


Il white paper sottolinea alcuni degli obiettivi fondamentali di un HDaaS; quali erano, per Adobe,  le conseguenze possibili in ambito prestazionale e di scalabilità nella virtualizzazione del loro servizio.
Vengono inoltre segnalati alcuni dei più comuni problemi riscontrati, come ad esempio il coretto “memory settings” infrastrutturale.

Nel documento troverete anche diversi link di ulteriori approfondimenti.


Quindi se siete interessati a saperne di più su Hadoop, o addirittura avete già iniziato il processo di implementazione di Hadoop, dedicate 5 minuti per leggere il whitepaper.  

Anche solo per prendere spunto ed ottenere alcune idee su come si potrebbe utilizzare Hadoop nel proprio ambiente.


@dtdavide

Nessun commento:

Posta un commento