martedì 12 novembre 2013

RISOLVERE LE PROBLEMATICHE DI UN MONDO BASATO SUI DATI

La Business Intelligence alla velocità richiesta dal mondo di oggi: i risultati di un Proof Of Concept.


L’aumento vertiginoso dei dati disponibili (Big Data)permette di ottenere una visione più completa di come un mercato si muove, delle opportunità che offre e della economicità o anti-economicità di possibili scelte aziendali.
Conoscere approfonditamente la realtà che circonda la propria azienda permette di avere più prontezza nel prendere decisioni che possono influire sia sull’aumento del fatturato o profitto, sulla razionalizzazione e ottimizzazione dei costi e sulla percezione che ha il mercato e, quindi, sull’evoluzione della proposta di prodotti e servizi.

Alcuni esempi riguardano:
  • Dal punto di vista del Business, e cioè del Top Management delle aziende, è sempre più importante poter prendere decisioni su come muoversi sul mercato, quali prodotti o soluzioni hanno la maggior probabilità di prendere piede (e quindi generare utile) o, viceversa, quali mostrano trend negativi e, quindi, come approntare per tempo piani alternativi.
  • Anche per quanto riguarda l’efficienza interna (in ottica di riduzione dei costi) riuscire a ottimizzare i cicli di produzione, lo stoccaggio delle merci, l’approvvigionamento delle componenti, la conoscenza della mortalità della componentistica e la conseguente efficienza dei magazzini ricambi permettono di aumentare il rapporto costo/guadagno e, soprattutto, aumentare l’immagine verso i propri Clienti/Utenti.
  • La conoscenza dei commenti della comunità dei Clienti, inoltre, è diventata possibile grazie ai Social Network e alla possibilità di analizzare i commenti che vengono fatti (Sentiment Analisys); questo permette di avere una percezione (soprattutto su nuovi prodotti o soluzioni) in tempo reale di quali sono considerati i Plus o Minus e, anche, di conoscere quali sono le caratteristiche che accendono l’immaginario dei Clienti; da queste analisi discendono varie possibilità: da campagne di marketing mirate sui Plus, a dare le giuste priorità alle modifiche e o novità da apportare (Minus) e, anche, ad avere nuove idee su come far evolvere la propria offerta.



Ovviamente le possibilità che offre la conoscenza di tutte queste informazioni (e non più dati) sono molteplici e hanno come limite la fantasia degli analisti.
La disponibilità  di tutti questi dati porta con sé anche la richiesta di velocità di analisi e di semplicità nel poter immaginare e realizzare nuove viste (Data Mining) in relazione ai movimenti dei mercati e all’apparire di nuove tecnologie e possibilità.

Tutto questo porta, ai responsabili dell’IT, nuove richieste che difficilmente possono essere risolte con i metodi tradizionali: ovviamente i problemi presentati da queste nuove richieste (che si basano su grandi moli di dati con una variabilità elevata e che possono avere sorgenti disparate sia strutturate (tipo DataBase) che non strutturate.) devono essere risolti utilizzando strumenti pensati ad hoc.

Proprio in questo senso, Greenplum viene in soccorso con una capacità di analisi che permette di trasformarli in poco tempo in informazioni utilizzabili dal Management con un ottimo livello di economicità (in comparazione con infrastrutture tradizionali).

Ma quale REALE capacità ha GreenPlum di rispondere alle richieste/necessità elencate? In questo documento, oltre ad una breve descrizione di cos’è GreenPlum, anche i risultati di un Proof Of Concept eseguito su dati reali e che ha portato il Cliente a riconsiderare la propria strategia sull’analisi dei dati (Business Intelligence).

GreenPlum in pillole

Che cos’è GreenPlum?
  • E' una piattaforma hardware e software specifica per il data-warehousing, altamente scalabile che integra Greenplum Database, Greenplum HD e applicazioni di terze parti a livello di architettura, nonché elaborazione, storage e rete in un sistema di livello enterprise semplice da implementare
  • Un ambiente ottimizzato per l'esecuzione rapida di query, caricamento dei dati ineguagliabile e scalabilità lineare
  • Soluzione completa di analisi modulare avanzata per la gestione di dati strutturati e non strutturati e processi ETL o di Business Intelligence
  • Un'unica piattaforma per data-warehousing, data mart, text mining ed elaborazione statistica
  • Analisi più approfondite e maggiore valore dei dati grazie a funzionalità analitiche avanzate e accesso ai dati unificato
  • High Availability, storage e disaster recovery di livello enterprise con le soluzioni EMC esistenti






I risultati del PoC.


L’ambiente attuale era un DWH basato su un DB Oracle ™ con varie Queries e Loading di milioni di dati (6 e 70 milioni di righe); il PoC si è svolto su vari test relativi a ETL (Extract/Transform/Load) sia sequenziali che parallele, Query con test sul variare dei tempi al variare del numero di queries concorrenti e, infine, i tempi per la creazione di un ambiente duplicato (Quality).

Il PoC è stato eseguito con il DB GreenPlum sia in modalità “Compressed” che “Uncompressed” utilizzando una Appliance (Data Computing Appliance) configurata con ¼ Rack (Vedi Figura).


I Test effettuati.

Nota: alcuni test erano mirati a misurare le capacità specifiche di GreenPlum e altri per poter ottenere una comparazione con le prestazioni attuali.
Tutte le Queries sono state generate per Oracle e sono state utilizzate (a parte qualche minima modifica) nel formato originale.
I risultati sono identificati sia per la parte DB Compressa (GreenPlum C.) che Non Compressa (GreenPlum).

Test#1: Parallel File Load.


Test#2: Sequential File Load.
Test#3: Sequential File Load.
Test#4: User Queries.

(*) EMC modified this query generated by cognos in order to improve performance

Altri test: Concurrency



Altri test: Quality Environment

Considerazioni Finali

Nel caso specifico, l’utilizzo di GreenPlum ha permesso di:

Creare un ambiente di Quality in 15 Minuti
Erogare performance coerenti e costanti all’aumentare del carico
Avere performance di Loading di circa 1TB all’ora
Ridurre i tempi di caricamento di oltre 20 volte (in media)
Ridurre i tempi di Query di oltre 50 volte

Ad Pat

Documentazione

Molti documenti sui temi di BigData e BI si possono trovare sul sito di Pivotal.

Qui di seguito trovate i Link ad alcune WhitePaper a mio parere interessanti:

Delivering Data at The Speed of Business

Transforming Your Company into a Data Science-Driven Enterprise
Rapid Insights for Pro-Active Decisions

Deep Multi-Dimensional Behavior Analytics






Nessun commento:

Posta un commento