Pàgina d'inici » Programació » Apache Hadoop

Category Archives: Apache Hadoop

Mites sobre Big Data

USA Flag German Flag Spain Flag
Big Data image
Imatge de Wikipedia (Kayaker)

Mites sobre Big Data

Totes les coses noves generen el seus mites basats en la informació  inicial que temps desprès ja no resulten certes, però que romanen a la memòria col·lectiva com a veritats. Ja vaig escriure, fa prop de 10 mesos, al Desembre 2014, un post sobre mites del Cloud Computing i ara li toca al Big Data.

 

La següent llista es basa principalment en un informe de Gartner (Setembre 2014): “Major Myths About Big data’s Impact on Information infrastructure” i he afegit alguns comentaris propis.

 

Mite Realitat
Tothom està per davant nostre Malgrat tot el rebombori, només 13% de les companyies han desplegat solucions Big Data.

Recomanacions:

Construir una estratègia Big Data basada en un cas de negoci, fent un pilot que englobi IT i el negoci, per exemple, consolidant dades addicionals al Enterprise DataWarehouse (EDW) a Hadoop.

Tenim tantes dades que no necessitem preocupar-nos pels petits errors a les dades Malgrat que la estadística redueix l’impacte dels petits errors, el volum de dades fa que també siguin més freqüents.

Recomanacions:

Treballar la qualitat de les dades. Alguns negocis no poden prescindir de la qualitat de les dades en cap cas.

Pots llegir el següent estudi sobre qualitat de les dades i veure alguna de les següents eines: Wrangler, OpenRefine, Talend.com

Big Data elimina la necessitat de integrar les dades La major part de les dades segueixen una estructura, fins i tot el text en format lliure segueix normes gramaticals.La informació habitualment requereix d’un context i cal analitzar-lo i entendre’l per a treure resultats útils.

Recomanacions:

Avaluar el disseny de integració de dades. Descartar els repositoris on no hi hagi esquema de dades. Desplegar solucions programàtiques que es puguin replicar i distribuir (veure el tema de Spark).

 

No val la pena utilitzar un Data Warehouse per Analytica La majoria d’eines analítiques utilitzen un Enterprise DataWarehouse (EDW) per a treballar.

Recomanacions:

Utilitzar els Enterprise DataWarehouse (EDW) com a font de dades fiables. Utilitzar entorns d’experimentació, per exemple, basats en Hadoop.

Data Lakes reemplaçara els Data Warehouse Data Lakes no es un substitut dels DataWarehouse (EDW).

Recomanacions:

Considerar els data Lake com a complement. Tornar a invertir en transformar el Enterprise DataWarehouse (EDW) no sempre es possible o desitjable. Alternativament invertir en les tecnologies Big Data com a complement i aprofitar tot el ventall de noves eines disponibles.

Un exemple d’us de la informació de les targetes de crèdit publicat pel BBVA

Hadoop reemplaçara els Data Warehouse Menys d’un 5% de les organitzacions han planificat la substitució, i el nombre tendeix a baixar

Recomanacions:

Reemplaçar un Enterprise DataWarehouse (EDW) per Hadoop es arriscat perquè retorna el pes a la programació enlloc de eines ben verificades. Per contra el concepte canvia, el Enterprise DataWarehouse (EDW) deixa de ser l’únic repositori d’informació i es complementa amb altres fonts, ja que el esforç de consolidar-ho es massa alt.

La tecnologia de Big Data esta madura i es pot començar sense riscos Big Data, no es de fet una tecnologia sinó un ecosistema de SW i HW amb diferents nivells de maduresa i la seva adopció esta incrementant-se, però encara significa diferents coses, per a diferents persones.

Recomanacions:

  • Determinar el cas de negoci (“Business Case”) abans de invertir.
  • Crear un base de formació, perfils i habilitats i anar incrementant-los.
  • Experimentar i validar els casos

 

El impacta de Big Data no te precedents No te cap mena de sentit.
Big Data no necessita preocupar-se per Governance Big Data es com qualsevol altre conjunt de tecnologies i processos; cal gestionar-los.

Recomanacions:

  • Contactar amb la organització de governance i assegurar que l’adaptació de la tecnologia s’ajusta als riscos acordats.
  • Evitar estructures de Governance grans i des d’adalt a baix i focalitzar-les en els orígens de les dades i la coherencia de les mateixes.

 

 

Enllaços relacionats:

 

Anuncis

Hadoop: Llista d’eines relacionades

USA Flag German Flag Spain Flag
Hadoop logo
Apache Hadoop

Ecosistema Hadoop

Apache Hadoop es un framework “open-source” per a emmagatzemament i processament a gran escala de dades massives (Big Data) sobre múltiple hardware distribuït divers. Va començar patrocinat per Yahoo! Developer Network,

Hadoop forma part de tota una sèrie de desenvolupaments, projectes derivats, adaptacions, etc… molt llarg de entendre si no treballes habitualment en aquest entorn, per això es tan interessant el recull que han publicat a Barrapunto i que pots trobar a: http://hadoopecosystemtable.github.io/.

Trobaràs detallades prop de 100 eines vinculades a BigData, i Hadoop !!!!

A aquest recull jo afegeixo, perquè les he provat, 2 eines que estan agafant volada:

  • Oracle VirtualBox que proporciona màquines virtuals de manera similar a VMWare
  • Vagrant que permet publicar màquines host per a la córrer sobre màquines virtuals i que majoritàriament es publiquen de manera gratuïta.

I per acabar, via aptuz.com un resum gràfic:

Hadoop Ecosystem

Hadoop Ecosystem

Apache Giraph, per exemple, es un sistema de processament distribuit de grafs.
Apache Pig, un llenguatge d’alt nivell per a programar funcions MapReduce.
Apache Hive proporciona un DataWarehouse distribuit, compatible amb MapReduce i amb HiveSQL (un llenguatge propi de consulta).

Apache Mahout: Una plataforma de aprenentatge automàtic i mineria de dades sobre Hadoop

 

Enllaços relacionats:

 

%d bloggers like this: