Pàgina d'inici » Programació » Apache Spark

Category Archives: Apache Spark

BigData amb Apache Spark

USA Flag German Flag Spain Flag
Apache Spark
spark.apache.org

Big Data amb Apache Spark

Això del BigData esta molt de moda, i no paren de sorgir noves eines i millores. Una de les que he provat es Apache Spark, programant amb Python, així que aquí faig un recull de eines i enllaços de la documentació oficial, que he anat consultant:

Eines Links

Expressions regulars

Eines on provar de manera interactiva una expressió regular i les dades que li arriben.
Et mostren com es fa el parser i el resultat final d’aplicar la expressió a les dades.

Google Developers: Python Regular expressions
pythex.orgwww.pythonregex.com

Expressions Lambda

Les expressions lambda permeten utilitzar funcions sense haver-les de declarar prèviament, ( en temps d’execució o runtime) cosa que va molt bé quan treballes amb streams de dades continues, i son de ús habitual al món del BigData per a tractar / modificar / filtrar dades.

Lambda examples with Python
Lambda Python tutorial
Lambda usages

 

Enllaços relacionats:

 

Mites sobre Big Data

USA Flag German Flag Spain Flag
Big Data image
Imatge de Wikipedia (Kayaker)

Mites sobre Big Data

Totes les coses noves generen el seus mites basats en la informació  inicial que temps desprès ja no resulten certes, però que romanen a la memòria col·lectiva com a veritats. Ja vaig escriure, fa prop de 10 mesos, al Desembre 2014, un post sobre mites del Cloud Computing i ara li toca al Big Data.

 

La següent llista es basa principalment en un informe de Gartner (Setembre 2014): “Major Myths About Big data’s Impact on Information infrastructure” i he afegit alguns comentaris propis.

 

Mite Realitat
Tothom està per davant nostre Malgrat tot el rebombori, només 13% de les companyies han desplegat solucions Big Data.

Recomanacions:

Construir una estratègia Big Data basada en un cas de negoci, fent un pilot que englobi IT i el negoci, per exemple, consolidant dades addicionals al Enterprise DataWarehouse (EDW) a Hadoop.

Tenim tantes dades que no necessitem preocupar-nos pels petits errors a les dades Malgrat que la estadística redueix l’impacte dels petits errors, el volum de dades fa que també siguin més freqüents.

Recomanacions:

Treballar la qualitat de les dades. Alguns negocis no poden prescindir de la qualitat de les dades en cap cas.

Pots llegir el següent estudi sobre qualitat de les dades i veure alguna de les següents eines: Wrangler, OpenRefine, Talend.com

Big Data elimina la necessitat de integrar les dades La major part de les dades segueixen una estructura, fins i tot el text en format lliure segueix normes gramaticals.La informació habitualment requereix d’un context i cal analitzar-lo i entendre’l per a treure resultats útils.

Recomanacions:

Avaluar el disseny de integració de dades. Descartar els repositoris on no hi hagi esquema de dades. Desplegar solucions programàtiques que es puguin replicar i distribuir (veure el tema de Spark).

 

No val la pena utilitzar un Data Warehouse per Analytica La majoria d’eines analítiques utilitzen un Enterprise DataWarehouse (EDW) per a treballar.

Recomanacions:

Utilitzar els Enterprise DataWarehouse (EDW) com a font de dades fiables. Utilitzar entorns d’experimentació, per exemple, basats en Hadoop.

Data Lakes reemplaçara els Data Warehouse Data Lakes no es un substitut dels DataWarehouse (EDW).

Recomanacions:

Considerar els data Lake com a complement. Tornar a invertir en transformar el Enterprise DataWarehouse (EDW) no sempre es possible o desitjable. Alternativament invertir en les tecnologies Big Data com a complement i aprofitar tot el ventall de noves eines disponibles.

Un exemple d’us de la informació de les targetes de crèdit publicat pel BBVA

Hadoop reemplaçara els Data Warehouse Menys d’un 5% de les organitzacions han planificat la substitució, i el nombre tendeix a baixar

Recomanacions:

Reemplaçar un Enterprise DataWarehouse (EDW) per Hadoop es arriscat perquè retorna el pes a la programació enlloc de eines ben verificades. Per contra el concepte canvia, el Enterprise DataWarehouse (EDW) deixa de ser l’únic repositori d’informació i es complementa amb altres fonts, ja que el esforç de consolidar-ho es massa alt.

La tecnologia de Big Data esta madura i es pot començar sense riscos Big Data, no es de fet una tecnologia sinó un ecosistema de SW i HW amb diferents nivells de maduresa i la seva adopció esta incrementant-se, però encara significa diferents coses, per a diferents persones.

Recomanacions:

  • Determinar el cas de negoci (“Business Case”) abans de invertir.
  • Crear un base de formació, perfils i habilitats i anar incrementant-los.
  • Experimentar i validar els casos

 

El impacta de Big Data no te precedents No te cap mena de sentit.
Big Data no necessita preocupar-se per Governance Big Data es com qualsevol altre conjunt de tecnologies i processos; cal gestionar-los.

Recomanacions:

  • Contactar amb la organització de governance i assegurar que l’adaptació de la tecnologia s’ajusta als riscos acordats.
  • Evitar estructures de Governance grans i des d’adalt a baix i focalitzar-les en els orígens de les dades i la coherencia de les mateixes.

 

 

Enllaços relacionats:

 

%d bloggers like this: