Imatge de Wikipedia (Kayaker) |
Mites sobre Big Data
Totes les coses noves generen el seus mites basats en la informació inicial que temps desprès ja no resulten certes, però que romanen a la memòria col·lectiva com a veritats. Ja vaig escriure, fa prop de 10 mesos, al Desembre 2014, un post sobre mites del Cloud Computing i ara li toca al Big Data.
La següent llista es basa principalment en un informe de Gartner (Setembre 2014): “Major Myths About Big data’s Impact on Information infrastructure” i he afegit alguns comentaris propis.
Mite | Realitat |
---|---|
Tothom està per davant nostre | Malgrat tot el rebombori, només 13% de les companyies han desplegat solucions Big Data.
Recomanacions:Construir una estratègia Big Data basada en un cas de negoci, fent un pilot que englobi IT i el negoci, per exemple, consolidant dades addicionals al Enterprise DataWarehouse (EDW) a Hadoop. |
Tenim tantes dades que no necessitem preocupar-nos pels petits errors a les dades | Malgrat que la estadística redueix l’impacte dels petits errors, el volum de dades fa que també siguin més freqüents.
Recomanacions:Treballar la qualitat de les dades. Alguns negocis no poden prescindir de la qualitat de les dades en cap cas. Pots llegir el següent estudi sobre qualitat de les dades i veure alguna de les següents eines: Wrangler, OpenRefine, Talend.com |
Big Data elimina la necessitat de integrar les dades | La major part de les dades segueixen una estructura, fins i tot el text en format lliure segueix normes gramaticals.La informació habitualment requereix d’un context i cal analitzar-lo i entendre’l per a treure resultats útils.
Recomanacions:Avaluar el disseny de integració de dades. Descartar els repositoris on no hi hagi esquema de dades. Desplegar solucions programàtiques que es puguin replicar i distribuir (veure el tema de Spark).
|
No val la pena utilitzar un Data Warehouse per Analytica | La majoria d’eines analítiques utilitzen un Enterprise DataWarehouse (EDW) per a treballar.
Recomanacions:Utilitzar els Enterprise DataWarehouse (EDW) com a font de dades fiables. Utilitzar entorns d’experimentació, per exemple, basats en Hadoop. |
Data Lakes reemplaçara els Data Warehouse | Data Lakes no es un substitut dels DataWarehouse (EDW).
Recomanacions:Considerar els data Lake com a complement. Tornar a invertir en transformar el Enterprise DataWarehouse (EDW) no sempre es possible o desitjable. Alternativament invertir en les tecnologies Big Data com a complement i aprofitar tot el ventall de noves eines disponibles. Un exemple d’us de la informació de les targetes de crèdit publicat pel BBVA |
Hadoop reemplaçara els Data Warehouse | Menys d’un 5% de les organitzacions han planificat la substitució, i el nombre tendeix a baixar
Recomanacions:Reemplaçar un Enterprise DataWarehouse (EDW) per Hadoop es arriscat perquè retorna el pes a la programació enlloc de eines ben verificades. Per contra el concepte canvia, el Enterprise DataWarehouse (EDW) deixa de ser l’únic repositori d’informació i es complementa amb altres fonts, ja que el esforç de consolidar-ho es massa alt. |
La tecnologia de Big Data esta madura i es pot començar sense riscos | Big Data, no es de fet una tecnologia sinó un ecosistema de SW i HW amb diferents nivells de maduresa i la seva adopció esta incrementant-se, però encara significa diferents coses, per a diferents persones.
Recomanacions:
|
El impacta de Big Data no te precedents | No te cap mena de sentit. |
Big Data no necessita preocupar-se per Governance | Big Data es com qualsevol altre conjunt de tecnologies i processos; cal gestionar-los.
Recomanacions:
|
I si vols accedir a un resum extremadament interessant de eines models i claus de Big Data ves aquí (becominghuman.ai).
Enllaços relacionats:
- Gartner: Major Myths About Big data’s Impact on Information infrastructure
- A New IS Hope: Spark
- A New IS Hope: Apache Hadoop
- estudi (ENG – pdf)
- Wrangler
- OpenRefine
- Talend.com
- A New IS hope: Mites del Cloud Computing
- ForeignAffairs: La 4a revolució industrial (ENG)