Premessa
Uno dei termini più diffusi ed attuali nel modo è senza dubbio “Big Data”. Per i non addetti al settore, Big Data è un termine onnicomprensivo per indicare una raccolta di insieme di dati così grande e complessa da non poter essere elaborata con le tradizionali applicazioni di analisi dei dati.
Con la crescita vertiginosa della rete mondiale di interconnessione e della quantità di informazioni che su di essa circolano, la quantità di dati fruibili e potenzialmente archiviabile è enorme o lo diventerà in breve tempo. Spesso sono informazioni destrutturate e tali da rendere inefficienti i classici sistemi di indagine e interrogazione delle banche dati.
Le tradizionali banche dati (es. “Data Mart” ), che contenevano miliardi di informazioni relazionate sono così diventate dei piccoli recipienti tematici se confrontate con gli enormi “laghi” tumultuosi (“Data Lake”) rappresentati oggi dalle collezioni Big Data.
Il fenomeno Big Data
Il fenomeno Big Data è una realtà spesso sconcertante per il numero di informazioni da gestire, e ciò che oggi per noi è definito “Big“, non lo sarà più tra 5 anni dove occorrerà coniare altre terminologie e corrispondenti tecnologie di analisi.
Questa crescita esponenziale delle informazioni non ha solo interessato ed interesserà i processi IT per la definizione delle architetture Hw e Sw adeguate, ma anche le attività per l’implementazione e la realizzazione di progetti in ambito Big Data.
Anche se qualcuno sostiene che la maggior parte dei progetti Big Data sono destinati a fallire, pensiamo ad esempio :
- La mancanza di allineamento tra i dipartimenti IT. Allineati sui problemi da risolvere ma affrontando la questione da un punto di vista puramente tecnologico.
- L’accesso ai dati è spesso limitato e i membri del team non possono accedere ai dati di cui hanno bisogno per trovare le risposte volte ad assicurare il successo del progetto.
- Molte delle tecnologie, approcci e discipline relative ai big data sono nuovi, e le persone spesso non sanno come lavorare con i dati e ricavarne dei risultati utili.
EMC è pronta a non demordere e portare a termine positivamente i progetti che concordiamo con i nostri clienti.
E’ importante però :
- Non affrontare un problema enorme, ma partire da un progetto piccolo relativo a una questione specifica. Redigere una lista delle domande e non perdere di vista l’obiettivo preoccupandosi troppo della tecnologia. Assicurarsi che il team sia circoscritto ad alcuni individui e che tutti gli stakeholder concordino sull’obiettivo.
- Una volta identificato il problema da risolvere, il team deve ottenere il consenso per accedere ai dati necessari per portare a termine con successo il progetto.
- Naturalmente ci vuole qualcuno che abbia le competenze scientifiche ed analitiche necessarie, e sia in grado di lavorare con i dati per ottenere i risultati richiesti.
Intervista a Gianluca Rossetti (Project Manager)
Nella seconda parte dell’articolo, perciò vorrei dare spazio alla descrizione di come si affronta, sviluppa e si conclude “positivamente” un progetto “Big Data”.
Con l’aiuto di Gianluca Rossetti (Project Manager) a cui ho rivolto alcune domande cercherò di fare chiarezza su quali sono le fasi principali di un progetto, quali aspetti fondamentali da non sottovalutare e l’interazione con altre funzioni aziendali nello svolgimento dello stesso.
Q: Ciao Gianluca, prima di entrare nel merito dell’argomento Big Data, raccontaci qualche cosa su di te.
A: Ciao Davide, lavoro come Project Manager e consulente in EMC da diversi anni. In azienda mi sono quasi sempre occupato di tematiche Big Data e Fast Data.
Q: EMC oggi non è solo in grado di proporre prodotti in ambito Big Data, ma anche di offrire dei servizi professionali per la realizzazione di progetti di implementazione e di integrazione di queste tecnologie. Puoi descriverci un “tipico” progetto Big Data ?
A: I progetti di Big Data che abbiamo affrontato sono di tre diverse tipologie: refresh tecnologico, consolidamento, sviluppo ex-novo delle piattaforme.
Ognuna di queste tipologie progettuali ha le sue specificità, ad esempio i progetti di refresh tecnologico pongono una notevole enfasi sulla conservazione delle funzionalità preesistenti. In questo contesto ha molta importanza implementare un processo di test robusto.
Q: Quali domande più frequentemente pone il cliente nella preparazione del progetto ?
A: In generale, le prime domande sono relative al dimensionamento dell’infrastruttura. Poi nasce la curiosità sulle performance di sistema attese e sul confronto con database tradizionali. Infine sorgono le problematiche relative alla gestione day-by-day della piattaforma.
Q: Quali sono le fasi progettuali nel loro insieme?
A: I progetti tipicamente si articolano in una prima fase di design, una seconda fase implementativa, una fase finale di test funzionale e performance tuning.
Q: Quali sono le le risorse progettuali di EMC e del cliente necessarie per il corretto svolgimento del progetto?
A: Le risorse progettuali richieste possono cambiare sensibilimente. Il cardine è comunque la figura del Solution Architect, ovvero colui che è in grado suggerire le scelte tecnologiche ed architetturali fondamentali per l’implementazione del progetto.
Lato cliente è fondamentale la partecipazione attiva del business, ovvero i responsabili delle scelte funzionali e dei requisiti.
Q: In quanto tempo si conclude un progetto simile all’esempio che ci hai descritto ?
A: Non esiste una risposta univoca. La mera installazione delle componenti hardware si risolve in meno di una settimana. Se ci si spinge all’implementazione di modelli di analisi predittiva i tempi sono senz’altro significativamente più lunghi.
Q: Quali aspetti sono da tener particolarmente in considerazione per concludere positivamente il progetto ?
A: Bisonga cercare di limitare al massimo le analogie tra i sistemi tradizionali e le piattaforme Big Data o Fast Data. Cercando di essere più chiari, il paragone sistemistico tra una tecnologia RDMS “standard” e una tecnologia di in-memory data-grid come Pivotal Gemfire può essere del tutto fuorviante anche se gli aspetti logici sono simili. Dietro allo stesso termine si nascondono modalità operative e concetti differenti. Prestare attenzione alla corretta interpretazione dei concetti da parte del cliente può essere vitale per il successo del progetto.
Possiamo quindi rassicurare i nostri clienti, affrontare un progetto nella sfera della “terza piattaforma” comporta l’applicazione di metodologie e processi differenti ma che EMC ha già consolidato.
Le persone che operano nei Servizi Professionali EMC sono sicuramente all’altezza della situazione.
Ringrazio in ultimo Gianluca Rossetti (Project Manager & Consultant EMC) per averci illustrato in modo chiaro come affrontare un progetto in ambito Big & Fast Data.
@dtdavide
Nessun commento:
Posta un commento