Tendencias en analÃtica de big data

Bill Loconzolo, vicepresidente de ingenierÃa de datos en Intuit, saltÃ³ con los dos pies a un lago de datos. Dean Abbott, director cientÃfico de datos en Smarter Remarketer, hizo una lÃnea recta hacia la nube. La ventaja competitiva de big data y analytics, que incluye lagos de datos para mantener enormes almacenamientos de datos en sus formatos nativos y, por supuesto, computaciÃ³n en la nube, es un blanco en movimiento, seÃ±alan ambos. Y aunque las opciones tecnolÃ³gicas estÃ¡n lejos de estar maduras, esperar no es una alternativa.

“La realidad es que las herramientas aÃºn estÃ¡n surgiendo, y la promesa de la plataforma Hadoop no estÃ¡ al nivel que requiere el negocio para confiar en ella”, comenta Lonconzolo. Pero las disciplinas de big data y analytics estÃ¡n evolucionando tan rÃ¡pidamente que las empresas tienen que asumirlas, o correr el riesgo de quedarse rezagadas. “En el pasado, las tecnologÃas emergentes podÃan tomar aÃ±os en madurar”, aÃ±ade. “Ahora la gente cambia y maneja soluciones en cuestiÃ³n de meses -o semanas”. AsÃ que Â¿cuÃ¡les son las tecnologÃas emergentes y tendencias que deberÃan estar en su lista de vigilancia o en su laboratorio de pruebas?

Computerworld preguntÃ³ a los lÃderes de TI, consultores y analistas de la industria. Esta es su lista.

1.- AnalÃtica de big data en la nube

Hadoop, un framework y juego de herramientas para procesar conjuntos muy grandes de datos, fue originalmente diseÃ±ado para operar en clusters de mÃ¡quinas fÃsicas. Eso ha cambiado. “Ahora un nÃºmero creciente de tecnologÃas estÃ¡n disponibles para procesar datos en la nube”, seÃ±ala Brian Hopkins, analista en Forrester Research. Los ejemplos incluyen al data warehouse hospedado de BI (inteligencia de negocios, por sus siglas en inglÃ©s), Redshift, de Amazon; al servicio de anÃ¡lisis de datos BigQuery de Google; a la plataforma de nube Bluemix de IBM; y al servicio de procesamiento de datos Kinesis de Amazon. “El futuro estado del big data serÃ¡ un hÃbrido entre on-premises y la nube”, seÃ±ala.

Smarter Remarketer, un proveedor de servicios de analÃticas de retail basadas en SaaS, segmentaciÃ³n y servicios de marketing, recientemente cambiÃ³ desde una infraestructura de base de datosHadoop in-house y MongoDB hacia Redshift de Amazon, un data wharehouse basado en la nube. La compaÃ±Ãa establecida en Indianapollis recolecta datos demogrÃ¡ficos de tiendas de retail en lÃnea y fÃsicas, y tambiÃ©n datos de clientes, asÃ como datos de comportamiento en tiempo real, y luego analiza esa informaciÃ³n para ayudar a los minoristas a crear mensajes dirigidos para obtener una respuesta deseada por parte de los compradores, en algunos casos en tiempo real.

Redshift fue mÃ¡s rentable para las necesidades de datos de Smart Remarketers, anota Abbott, especialmente debido a que tiene amplias capacidades para informes de datos estructurados. Y como oferta hospedada, es escalable y relativamente fÃ¡cil de usar. “Es mÃ¡s barato expandirse en mÃ¡quinas virtuales, que comprar mÃ¡quinas fÃsicas y manejarlas nosotros mismos”, aÃ±ade.

Por su parte, Intuit, establecido en Mountain View, California, se ha movido cautelosamente hacia la analÃtica de nube debido a que necesita un entorno seguro, estable y auditable. Por ahora, la compaÃ±Ãa de software financiero mantiene todo dentro de su Nube AnalÃtica Intuit. “Nos hemos asociado con Amazon y Cloudera para trabajar en cÃ³mo tener una nube analÃtica altamente disponible y segura que pueda expandirse a ambos mundos, pero todavÃa no hemos resuelto esto”, seÃ±ala Loconzolo. Sin embargo, un movimiento hacia la nube es inevitable para una compaÃ±Ãa como Intuit, que vende productos que corren en la nube. “LlegarÃ¡ un punto en el que serÃ¡ prohibitivo -en tÃ©rminos de costos- mover todos esos datos a una nube privada”, comenta.

2. Hadoop: el nuevo sistema operativo de datos empresariales

Los frameworks analÃticos distribuidos, como MapReduce, estÃ¡n evolucionando hacia gestores de recursos distribuidos que estÃ¡n convirtiendo a Hadoop en un sistema operativo de datos de propÃ³sito general. Con estos sistemas, seÃ±ala “se puede ejecutar diferentes manipulaciones de datos y operaciones analÃticas enchufÃ¡ndolos en Hadoop como el sistema distribuido de almacenamiento de archivos”.

Â¿QuÃ© significa esto para la empresa? Como SQL, MapReduce, la transmisiÃ³n de procesamiento, en memoria, las analÃticas grÃ¡ficas y otros tipos de cargas de trabajo pueden correr sobre Hadoop con un rendimiento adecuado, mÃ¡s empresas usarÃ¡n Hadoop como un hub de datos empresarial. “La capacidad de ejecutar muchas diferentes clases de bÃºsquedas y operaciones de datos contra los datos en Hadoop, lo harÃ¡n un lugar de bajo costo, de propÃ³sito general, para colocar datos que desea que estÃ©n disponibles para analizar”, seÃ±ala Hopkins.

Intuit ya estÃ¡ construyendo su fundaciÃ³n Hadoop. “Nuestra estrategia es potenciar el Sistema de Archivos Distribuido de Hadoop, el cual funciona estrechamente con MapReduce, como estrategia de largo plazo para permitir todos los tipos de interacciones con personas y productos”, anota Loconzolo.

3.- Los lagos de big data

La teorÃa de base de datos tradicional dicta que primero se diseÃ±a el conjunto de datos antes de ingresar algÃºn dato. Un lago de datos, tambiÃ©n llamado un lago de datos empresarial o hub de datos empresarial, pone ese modelo de cabeza, seÃ±ala Chris Curran, director y jefe de tecnologÃa de la firma estadounidense Pricewaterhouse. “Dice que tomemos esas fuentes de datos y las coloquemos todas en un gran repositorio Hadoop, y que no intentemos diseÃ±ar ningÃºn modelo de datos antes”, anota. En lugar de ello, se ofrecen herramientas para que las personas analicen los datos, junto con un alto nivel de definiciÃ³n de los datos que existen en el lago. “La gente construye las vistas dentro de los datos mientras avanzan. Es un modelo orgÃ¡nico muy incremental para construir una base de datos a gran escala”, aÃ±ade Curran. El lado malo es que la gente que usa esto debe estar altamente capacitada.

Como parte de su Nube AnalÃtica Intuit, Intuit tiene un lago de datos que incluye datos de clicstream del usuario (grabaciÃ³n del uso que hace de los clics), y datos empresariales y de terceros, seÃ±ala Lonconzolo, pero el enfoque estÃ¡ en “democratizar” las herramientas que estÃ¡n alrededor, para permitir que la gente de negocios las use con efectividad. Loconzolo aÃ±ade que una de sus preocupaciones con la construcciÃ³n de un lago en Hadoop es que la plataforma no estÃ© realmente lista para la empresa. “Queremos la capacidades que las bases de datos empresariales tradicionales han tenido por dÃ©cadas -monitoreo del control de acceso, encriptaciÃ³n, aseguramiento de los datos y trazabilidad de la procedencia de los datos desde la fuente hasta el destino”, indica.

4.- MÃ¡s analÃticas de predictibilidad

Con big data, los analistas no solo tienen mÃ¡s datos con los cuales trabajar, sino tambiÃ©n el poder de procesamiento para manejar grandes cantidades de registros con muchos atributos, seÃ±ala Hopkins. El aprendizaje tradicional de mÃ¡quina utiliza anÃ¡lisis estadÃstico basado en una muestra de un conjunto total de datos. “Ahora tiene la capacidad de hacer grandes cifras de registros y gran cantidad de atributos por registro”, y eso incrementa la predictibilidad, seÃ±ala.

La combinaciÃ³n de big data y poder de cÃ³mputo tambiÃ©n permite a los analistas explorar nuevos datos de comportamiento a lo largo del dÃa, como los sitios web visitados o la ubicaciÃ³n. Hopkins llama a eso “datos escasos”, porque para encontrar algo de interÃ©s se debe arar en un montÃ³n de datos que no tienen importancia. “Intentar usar algoritmos de aprendizaje de mÃ¡quina tradicional contra este tipo de datos era computacionalmente imposible. Ahora podemos traer poder de cÃ³mputo barato al problema”, seÃ±ala. “Usted formula los problemas de manera completamente diferente cuando la velocidad y el lÃmite de memoria son problemas crÃticos”, indica Abbott. “Ahora se puede encontrar quÃ© variables son las mejores en tÃ©rminos de anÃ¡lisis, gracias al impulso de enormes recursos de cÃ³mputo en el problema. Realmente cambian las reglas de juego.

“Permitir el anÃ¡lisis en tiempo real y el modelado predictivo fuera del mismo nÃºcleo de Hadoop es lo que nos interesa”, seÃ±ala Loconzolo. El problema ha sido la velocidad con Hadoop, tomÃ¡ndole hasta 20 veces mÃ¡s contestar a las preguntas, de lo que lo hacÃan las tecnologÃas establecidas. AsÃ que Intuit estÃ¡ probando Apache Spark, un motor de procesamiento de datos a gran escala y su herramienta de bÃºsqueda SQL asociada, Spark SQL. “Spark tiene esta bÃºsqueda interactiva rÃ¡pida, asÃ como servicios grÃ¡ficos y capacidades de streaming. Mantiene los datos dentro de Hadoop, pero dÃ¡ndole suficiente rendimiento para cerrar la brecha por nosotros”, seÃ±ala Loconzolo.

5.- SQL en Hadoop: MÃ¡s rÃ¡pido, mejor

Si es un codificador y matemÃ¡tico inteligente, puede soltar datos y hacer el anÃ¡lisis de cualquier cosa en Hadoop. Esa es la promesa -y el problema, seÃ±ala Mark Beyer, analista de Gartner. “Necesita alguien que ponga esto en un formato y estructura de lenguaje con el que estÃ© familiarizado”, agrega. AhÃ es donde entran los productos SQL para Hadoop, aunque cualquier lenguaje de nube familiar funciona, anota Beyer.

Las herramientas que soportan bÃºsqueda de manera similar a SQL le permiten a los usuarios empresariales, que ya saben de SQL, aplicar tÃ©cnicas similares a sus datos. SQL en Hadoop “abre la puerta a Hadoop en la empresa”, seÃ±ala Hopkins, porque las empresas no necesitan hacer ninguna inversiÃ³n en cientÃficos de datos y analistas de negocios que puedan escribir scripts usando Java, JavaScript y Phthon -algo que los usuarios de Hadoop tradicionalmente han tenido que hacer.

Estas herramientas no son nada nuevo. Apache Hive ofreciÃ³ un lenguaje estructurado de bÃºsqueda similar a SQL para Hadoop durante algÃºn tiempo. Pero las alternativas comerciales de Cloudera, Pivotal Software, IBM y otros proveedores no solo ofrecen un rendimiento mucho mÃ¡s alto, sino que siempre son mÃ¡s rÃ¡pidas. Eso hace que la tecnologÃa se ajuste bien a los “anÃ¡lisis iterativos”, en los que un analista hace una pregunta, recibe una respuesta y luego pregunta otra. Este tipo de trabajo, tradicionalmente, ha requerido la construcciÃ³n de un data warehouse. SQL en Hadoop no va a reemplazar a los data warehouses, al menos no en corto plazo, seÃ±ala Hopkins, “pero sÃ ofrece alternativas a software y appliances mÃ¡s costosos para cierto tipo de anÃ¡lisis”.

6.- MÃ¡s, mejor NoSQL

Las alternativas a las bases de datos relacionales basadas en SQL tradicional, llamadas NoSQL (abreviaciÃ³n de “No solo SQL”) estÃ¡n ganando popularidad rÃ¡pidamente, asÃ como las herramientas para uso en clases especÃficas de aplicaciones analÃticas; y ese impulso continuarÃ¡ creciendo, seÃ±ala Curran.

Ã‰l estima que hay de 15 a 20 bases de datos NoSQL de cÃ³digo abierto, cada una con su propia especializaciÃ³n. Por ejemplo, un producto NoSQL con capacidad de grÃ¡ficos de base de datos como ArangoDB, ofrece una forma mÃ¡s rÃ¡pida y directa de analizar la red de relaciones entre los clientes o la gente de ventas, de lo que lo hace una base de datos relacional.

“Estas bases de datos han estado ahÃ algÃºn tiempo, pero marchan a todo vapor debido a la clase de anÃ¡lisis que las personas necesitan”, anota. Un cliente de PwC en un mercado emergente colocÃ³ sensores en las estanterÃas de las tienda para monitorear los productos que estÃ¡n ahÃ, cuÃ¡nto tiempo los manipulan los clientes y cuÃ¡nto tiempo se paran los compradores delante de estantes en particular. “Estos sensores estÃ¡n transmitiendo cantidades de datos que crecerÃ¡n exponencialmente”, seÃ±ala Curran. “Una base de datos NoSQL valiosa como Redis es el lugar al cual ir por esto debido a su propÃ³sito especial, alto rendimiento y peso ligero”.

7. Aprendizaje profundo

El aprendizaje profundo, un conjunto de tÃ©cnicas de aprendizaje de mÃ¡quina basado en una red neuronal, aÃºn estÃ¡ en evoluciÃ³n pero muestra un gran potencial para resolver problemas de negocios, seÃ±ala Hopkins. “El aprendizaje profundo… permite a las computadoras reconocer elementos de interÃ©s en grandes cantidades de datos no estructurados y binarios”, y deducir relaciones son la necesidad de modelos especÃficos o instrucciones de programaciÃ³n”, anota.

En un ejemplo, un algoritmo de aprendizaje profundo que examinÃ³ datos de Wikipedia, aprendiÃ³ por su cuenta que tanto California y Texas son estados de los EE.UU. “No hay que modelar para entender el concepto de estado y paÃs, y esa es una gran diferencia entre el antiguo aprendizaje de mÃ¡quina y los mÃ©todos emergentes de aprendizaje profundo”, afirma Hopkins.

“Big data harÃ¡ las cosas con montones de texto diverso y no estructurado, usando tÃ©cnicas analÃticas avanzadas como el aprendizaje profundo, para ayudar en formas que estamos empezando a entender”, agrega Hopkins. Por ejemplo, podrÃa usarse para reconocer muchos tipos de datos, como formas, colores, y objetos en un video -o inclusive la presencia de un gato dentro de las imÃ¡genes, como lo hizo una famosa red neural construida por Google en el 2012. “Esta nociÃ³n de vinculaciÃ³n cognitiva, anÃ¡lisis avanzado y las cosas que esto implica… son una importante tendencia futura”, seÃ±ala Hopkins.

8.- AnalÃticas en memoria

El uso de bases de datos en-memoria para acelerar el proceso de anÃ¡lisis estÃ¡ creciendo en popularidad, y son altamente beneficiosas con la configuraciÃ³n adecuada, seÃ±ala Beyer. De hecho, muchas empresas ya estÃ¡n potenciando el procesamiento hÃbrido transaccional/analÃtico (HTAP, por sus siglas en inglÃ©s), permitiendo que los procesos de transacciones y de anÃ¡lisis residan en la misma base de datos de memoria.

Pero hay mucha publicidad alrededor del HTAP, y las empresas lo han estado utilizando excesivamente, anota Beyer. Para los sistemas en los que el usuario necesita ver los mismos datos, en la misma forma, muchas veces durante el dÃa -y no hay cambios significativos en los datos- la tecnologÃa en-memoria es un desperdicio de dinero.

Y aunque se pueden ejecutar los anÃ¡lisis de manera mÃ¡s rÃ¡pida con HTAP, todas las transacciones deben residir en la misma base de datos. El problema, seÃ±ala Beyer, es que la mayorÃa de los esfuerzos hoy en dÃa son acerca de colocar juntas las transacciones de diferentes sistemas. “Colocar simplemente todo en una base de datos retrocede a esta refutada creencia de que si desea usar HTAP para todos sus anÃ¡lisis, se requiere que todas sus transacciones estÃ©n en un solo lugar”, anota. “Usted aÃºn debe integrar datos diversos”.

MÃ¡s aÃºn, traer una base de datos en-memoria significa que hay otro producto que manejar, asegurar, y averiguar cÃ³mo integrar y hacer escalar.

Para Intuit, el uso de Spark ha eliminado algo de la urgencia de adoptar las bases de datos en-memoria. “Si podemos resolver el 70% de nuestros casos de uso con la infraestructura Spark y un sistema en-memoria puede resolver el 100%, irÃamos por el 70% en nuestra nube analÃtica”, seÃ±ala Loconzolo. “AsÃ que haremos prototipos, veremos si estÃ¡n listos y pondremos en pausa los sistemas en-memoria internamente ahora mismo”.

Con tantas tendencias emergentes alrededor de big data y analÃticas, las organizaciones de TI deben crear las condiciones que permitirÃ¡n a los analistas y a los cientÃficos de datos experimentar. “Necesita una forma de evaluar, hacer prototipos y eventualmente integrar algo de esta tecnologÃa en la empresa”, anota Curran.

“Los gerentes de TI y los implementadores no pueden usar la falta de madurez como una excusa para detener la experimentaciÃ³n”, seÃ±ala Beyer. Inicialmente, solo unas cuantas personas -la mayorÃa analistas y cientÃficos de datos habilidosos- tenÃan que experimentar. Entonces los usuarios avanzados y TI debÃan determinar en forma conjunta cuÃ¡ndo entregar nuevos recursos al resto de la organizaciÃ³n, y TI no debÃa detener a los analistas que deseaban avanzar a toda velocidad. En lugar de ello, Beyer seÃ±ala que TI debe trabajar con los analistas para “poner un paso de velocidad variable a esas nuevas herramientas altamente poderosas”.

– Robert L. Mitchell, Computerworld EE.UU.

Secciones

Síguenos

Contenido Exclusivo

¡Ya está aquí la Revista Digital “Los Mejores 20 CISO de México 2025”!

¡Descarga la Revista Digital “Los Mejores 100 CIO de México 2025”!

“Los 100 Mejores CIO de MÃ©xico” celebran 20 AÃ±os de transformaciÃ³n y liderazgo Ã©tico

Secciones

Síguenos

8 grandes tendencias en analÃtica de big data

Lo Más Reciente

84% de las empresas mexicanas recurre a SOCaaS

ESET invertirá 40 millones de euros para combatir los ataques de la IA autónoma

La falta de tecnología en el checkout frustra a los consumidores actuales

La automatización de parches es el nuevo escudo de la ciberseguridad

Newsletter

84% de las empresas mexicanas recurre a SOCaaS

ESET invertirá 40 millones de euros para combatir los ataques de la IA autónoma

La falta de tecnología en el checkout frustra a los consumidores actuales

Acerca de CIO | EDIWORLD

Secciones

Secciones

Síguenos

Contenido Exclusivo

Secciones

Síguenos

8 grandes tendencias en analÃ­tica de big data

Lo Más Reciente

Newsletter

Acerca de CIO | EDIWORLD

Secciones

8 grandes tendencias en analÃtica de big data