Il vantaggio di quest’architettura è di avere storage vicino alle CPU, senza la necessità quindi di pescare i dati dall’esterno, ed è possibile aggiungere più spazio di archiviazione (e più potenza di elaborazione) solo con l'aggiunta di nodi server economici con unità SATA a basso costo.
L’ Hadoop Distributed File System (HDFS) si assume la responsabilità di organizzare e rendere disponibile storage. Per aggiungere un elemento di protezione dei dati, fault tolerance e resilienza al cluster Hadoop, HDFS triplica tutti i dati: una copia viene effettuata e memorizzata su uno storage node diverso nello stesso rack, e l'altro inviato a un altro storage node su un altro rack .
Questo approccio presenta vantaggi e svantaggi. La triplice copia del dato è semplice ed efficace, ma quando si utilizzano grandi quantità di dati può portare ad enormi volumi. La buona notizia è che se un disco si guasta basta semplicemente collegarne uno di nuovo e si ritorna immediatamente allo stato normale - non c'è ricostruzione RAID ed il carico elaborativo per fornire questo tipo di protezione dei dati è minimo.