Visualizzazione post con etichetta ETL. Mostra tutti i post
Visualizzazione post con etichetta ETL. Mostra tutti i post

lunedì 6 giugno 2016

EMC DSSD secondo IDC


L’affermazione della terza piattaforma ha richiesto lo sviluppo di nuove architetture storage, quali gli allflash array (AFA) e le infrastrutture iperconvergenti (HCI), che puntano alla risoluzione di numerosi problemi legati a infrastrutture storage di precedente generazione, alle performance, alla crescita dei dati e alla relativa rapidità di incremento dei requisiti di espansione, alla produttività degli amministratori, all'affidabilità e all'efficienza in termini di consumo di energia e spazio. Per molte
aziende è importante supportare all'interno della stessa infrastruttura virtuale consolidata applicazioni di precedente generazione (es. database relazionali, piattaforme di messaggistica/collaborazione e condivisione dei file) e applicazioni di nuova generazione (NGA) . I mercati guidati da questi requisiti sono già piuttosto estesi: secondo IDC, AFA e HCI produrranno ricavi rispettivamente per circa 5,5 e 4 miliardi di dollari entro il 2019. Tale crescita si è verificata nei 5-6 anni successivi all'introduzione di
questi prodotti sul mercato.

Nei prossimi 10 anni, secondo IDC, la terza piattaforma dominerà le decisioni infrastrutturali IT. Le NGA legate a mobility, social media, big data/analytics e cloud stanno aprendo notevoli opportunità di crescita per le imprese più lungimiranti alla ricerca di nuovi clienti e mercati a cui offrire servizi innovativi non esistenti in passato. Una delle caratteristiche chiave delle NGA è la scalabilità: si tratta di applicazioni che richiedono milioni di IOPS e utilizzano set di dati molto estesi che impongono l'utilizzo di un'enorme larghezza di banda e di capacità di archiviazione sull'ordine dei petabyte (PB) e oltre. Le NGA devono spesso gestire un'acquisizione dei dati intensiva, su scala globale e con latenze inferiori a quelle offerte dagli attuali AFA. Molti nuovi clienti e molte opportunità di mercato si basano sulla real-time analytics per trasformare i dati in informazioni in grado di generare valore differenziante. Questo valore giustifica ampiamente una spesa più elevata.

I Big data/analytics offriranno nuove e rivoluzionarie informazioni ad aziende innovatrici, sviluppatori e operatori di mercato, cambiando per sempre il modo in cui il business si proporrà al mercato e venderà i prodotti. Le imprese devono raccogliere e gestire set di dati infinitamente più estesi di quelli gestiti in passato. La velocità è un elemento fondamentale per l'analisi e lo sfruttamento di opportunità transitorie o impossibili da gestire con gli approcci di analisi convenzionali. Entro pochi anni, le aziende incapaci di sfruttare al meglio la real-time analytics o le imprese prive di infrastrutture IT flessibili per una risposta rapida alle opportunità individuate dagli analytics, subiranno un notevole svantaggio competitivo. Le imprese in grado di comprendere l'impatto del passaggio alla terza piattaforma nei mercati AFA e HCI otterranno un chiaro quadro del cambiamento imposto dai big data/analytics alle attuali infrastrutture.
Per gestire i requisiti di real-time analytics nei repository di big data in continua evoluzione, le aziende hanno iniziato a utilizzare gli AFA. Tali sistemi tuttavia sono stati progettati per l'utilizzo di set di dati più piccoli e hanno limitate capacità di adeguamento agli estesi data set dell'era della terza piattaforma. Nello specifico, gli AFA non riescono a gestire al meglio l'acquisizione dei nuovi dati eseguendo allo stesso tempo le richieste dai clienti di real-time analytics. Di conseguenza, gli AFA utilizzati in questi tipi di ambienti richiedono una notevole quantità di lavoro manuale, ovvero la suddivisione dei carichi di lavoro in partizioni e la loro sistribuzione fra diversi sistemi, spesso creando diverse copie dei set di dati già sottoposti a partizionamento. Occorrono diverse copie per ottenere le performance necessarie per il rispetto degli SLA delle applicazioni, aspetto che produce un utilizzo inefficiente della capacità di storage. Inoltre, gli AFA non dispongono della larghezza di banda necessaria per la gestione dei requisiti di estrazione, trasformazione e caricamento (ETL) e del supporto decisionale richiesto da questi ambienti "data at scale". Di conseguenza, amministratori e analisti impiegano molto tempo nella messa a punto di sistemi privi della capacità di gestire questo tipo di dimensioni.

Le architetture di storage emergenti per la gestione di questi requisiti offriranno importanti elementi tecnologici di differenziazione. Innanzitutto, per offrire performance ottimizzate in termini di latenza e throughput occorre potenziare la connessione host fra server e array al fine di supportare latenze costantemente inferiori a 100 microsecondi. La soluzione più immediata consiste nell'espandere il bus interno dei server per adattarsi allo storage condiviso. In seconda istanza, occorre costruire il sistema su memory-based storage media senza i requisiti per soddisfare lo spinning dei dischi. Le tecnologie di memoria emergenti consentono di aumentare l'affidabilità, ridurre il consumo energetico e migliorare la densità dello storage, a patto di sacrificare la compatibilità con le tecnologie di precedente generazione, caratteristiche importanti per la scalabilità. In terza istanza, la piattaforma deve adattarsi contemporaneamente a diversi tipi di dati (strutturati, non strutturati e semi strutturati) , in maniera nativa e senza inefficienze. Per consentire alle imprese di sfruttare al meglio i dati per identificare opportunità, occorrerà utilizzare ogni tipo di dato in modo efficiente e senza alcuna preferenza fra essi. Infine, occorre abbandonare gli attuali stack di I/O relativamente pesanti e adottarne altri dedicati a questa nuova architettura. Molte applicazioni di data analytics vengono scritte in maniera specifica, mentre la disponibilità di un'API in grado di sfruttare uno stack di I/O più snello e dalla latenza inferiore potrà offrire vantaggi agli sviluppatori desiderosi di ottimizzare performance, affidabilità ed efficienza dello storage.


IDC inizia a rilevare la presenza di architetture storage di nuova generazione progettate per rispondere alle esigenze di scalabilità della data analytics. Alla luce delle dimensioni del mercato di big data/analytics dei prossimi anni, la spesa per l'infrastruttura storage per queste tecnologie crescerà più velocemente rispetto a quello che abbiamo visto fare per le architetture di storage emergenti. Il 2016 si preannuncia un anno interessante, considerata la maggiore disponibilità delle soluzioni storage orientate ai big data.

IDC Analyst – Eric Burgener, Research Director, Storage

Per maggiori informazioni www.Italy.emc.com 


venerdì 28 novembre 2014

Devi affrontare un Progetto Big Data?


Premessa


Uno dei termini più diffusi ed attuali nel modo è senza dubbio “Big Data”. Per i non addetti al settore, Big Data è un termine onnicomprensivo per indicare una raccolta di insieme di dati così grande e complessa da non poter essere elaborata con le tradizionali applicazioni di analisi dei dati.

Con la crescita vertiginosa della rete mondiale di interconnessione e della quantità di informazioni che su di essa circolano, la quantità di dati fruibili e potenzialmente archiviabile è enorme o lo diventerà in breve tempo. Spesso sono informazioni destrutturate e tali da rendere inefficienti i classici sistemi di indagine e interrogazione delle banche dati.