Spark de Apache

Durante los dos Ãºltimos aÃ±os, un periodo en el que Hadoop se ha convertido en el paradigma dominante del procesamiento big data, se han ido aclarando muchos aspectos. En primer lugar, Hadoop Distributed File System se estima que es hoy en dÃa la plataforma de almacenamiento mÃ¡s adecuada para big data. En segundo lugar, Yarn se ha convertido en el sistema de asignaciÃ³n de recursos por excelencia en entornos big data. Y, en tercer lugar y tal vez la mÃ¡s importante, no existe ningÃºn proceso de red que tenga capacidad de resoluciÃ³n para cada problema, todo y que MapReduce, siendo una tecnologÃa destacada, tampoco tiene capacidad para afrontar todas las situaciones.

Los negocios que confÃan en Hadoop necesitan una variedad de infraestructuras de analÃtica y procesamiento con la finalidad de encontrar respuestas a sus crÃticos planteamientos. Los negocios necesitan respuestas relacionadas con la preparaciÃ³n de los datos, procesos de anÃ¡lisis descriptivos, bÃºsquedas, anÃ¡lisis predictivos, y capacidades mÃ¡s avanzadas como metodologÃas para el aprendizaje de mÃ¡quinas y procesamiento grÃ¡fico. AdemÃ¡s, las organizaciones necesitan un conjunto de herramientas que estÃ©n presentes y activas desde cualquier ubicaciÃ³n, permitiÃ©ndoles controlar conjuntos de habilidades y otros recursos presentes en la compaÃ±Ãa. Hasta hoy no existÃa ninguna red que fuese capaz de controlar todos estos criterios, hasta que ha llegado Spark.

A pesar de que Spark es un sistema de protecciÃ³n de datos relativamente joven, es capaz de hacer realidad la analÃtica avanzada de datos a travÃ©s de una red de algoritmos de anÃ¡lisis que incluye una herramienta para acelerar los queries, una librerÃa de aprendizaje M2M, un motor de procesamiento grÃ¡fico, y una herramienta de analÃtica de streaming. Unas librerÃas preconstruidas mÃ¡s fÃ¡ciles y rÃ¡pidas de usar preparan los datos para que los cientÃficos los organicen en tareas que van mÃ¡s allÃ¡ de la preparaciÃ³n de los mismos y que incluyen el control de calidad de la informaciÃ³n, y la correcta interpretaciÃ³n de los resultados de los anÃ¡lisis.

Una demanda largamente esperada de Hadoop se concentraba en la dificultad que entraÃ±aba su uso, y otra todavÃa mÃ¡s grave era la carencia fundamentada en localizar profesionales que pudiesen manejar la herramienta. Aunque Hadoop ha ido facilitando su uso y mejorando el rendimiento con cada nueva versiÃ³n, la fama de sistema difÃcil de manejar todavÃa persiste. No obstante, no hace falta ser programador que sepa Java para manejarlo con Ã©xito. Spark ha sido desarrollado para que pueda utilizarlo todo profesional que conozca el funcionamiento de las bases de datos y tenga conocimientos de scripting en Python o Scala.

– Network World

Secciones

Síguenos

Contenido Exclusivo

¡Ya está aquí la Revista Digital “Los Mejores 20 CISO de México 2025”!

¡Descarga la Revista Digital “Los Mejores 100 CIO de México 2025”!

“Los 100 Mejores CIO de MÃ©xico” celebran 20 AÃ±os de transformaciÃ³n y liderazgo Ã©tico

Secciones

Síguenos

La efectividad de Spark en el anÃ¡lisis de big data

Lo Más Reciente

84% de las empresas mexicanas recurre a SOCaaS

ESET invertirá 40 millones de euros para combatir los ataques de la IA autónoma

La falta de tecnología en el checkout frustra a los consumidores actuales

La automatización de parches es el nuevo escudo de la ciberseguridad

Newsletter

84% de las empresas mexicanas recurre a SOCaaS

ESET invertirá 40 millones de euros para combatir los ataques de la IA autónoma

La falta de tecnología en el checkout frustra a los consumidores actuales

Acerca de CIO | EDIWORLD

Secciones