Bill Loconzolo, vicepresidente de ingeniería de datos en Intuit, saltó con los dos pies a un lago de datos. Dean Abbott, director científico de datos en Smarter Remarketer, hizo una línea recta hacia la nube. La ventaja competitiva de big data y analytics, que incluye lagos de datos para mantener enormes almacenamientos de datos en sus formatos nativos y, por supuesto, computación en la nube, es un blanco en movimiento, señalan ambos. Y aunque las opciones tecnológicas están lejos de estar maduras, esperar no es una alternativa.
“La realidad es que las herramientas aún están surgiendo, y la promesa de la plataforma Hadoop no está al nivel que requiere el negocio para confiar en ella”, comenta Lonconzolo. Pero las disciplinas de big data y analytics están evolucionando tan rápidamente que las empresas tienen que asumirlas, o correr el riesgo de quedarse rezagadas. “En el pasado, las tecnologías emergentes podían tomar años en madurar”, añade. “Ahora la gente cambia y maneja soluciones en cuestión de meses -o semanas”. Así que ¿cuáles son las tecnologías emergentes y tendencias que deberían estar en su lista de vigilancia o en su laboratorio de pruebas?
Computerworld preguntó a los líderes de TI, consultores y analistas de la industria. Esta es su lista.
1.- Analítica de big data en la nube
Hadoop, un framework y juego de herramientas para procesar conjuntos muy grandes de datos, fue originalmente diseñado para operar en clusters de máquinas físicas. Eso ha cambiado. “Ahora un número creciente de tecnologías están disponibles para procesar datos en la nube”, señala Brian Hopkins, analista en Forrester Research. Los ejemplos incluyen al data warehouse hospedado de BI (inteligencia de negocios, por sus siglas en inglés), Redshift, de Amazon; al servicio de análisis de datos BigQuery de Google; a la plataforma de nube Bluemix de IBM; y al servicio de procesamiento de datos Kinesis de Amazon. “El futuro estado del big data será un híbrido entre on-premises y la nube”, señala.
Smarter Remarketer, un proveedor de servicios de analíticas de retail basadas en SaaS, segmentación y servicios de marketing, recientemente cambió desde una infraestructura de base de datosHadoop in-house y MongoDB hacia Redshift de Amazon, un data wharehouse basado en la nube. La compañía establecida en Indianapollis recolecta datos demográficos de tiendas de retail en línea y físicas, y también datos de clientes, así como datos de comportamiento en tiempo real, y luego analiza esa información para ayudar a los minoristas a crear mensajes dirigidos para obtener una respuesta deseada por parte de los compradores, en algunos casos en tiempo real.
Redshift fue más rentable para las necesidades de datos de Smart Remarketers, anota Abbott, especialmente debido a que tiene amplias capacidades para informes de datos estructurados. Y como oferta hospedada, es escalable y relativamente fácil de usar. “Es más barato expandirse en máquinas virtuales, que comprar máquinas físicas y manejarlas nosotros mismos”, añade.
Por su parte, Intuit, establecido en Mountain View, California, se ha movido cautelosamente hacia la analítica de nube debido a que necesita un entorno seguro, estable y auditable. Por ahora, la compañía de software financiero mantiene todo dentro de su Nube Analítica Intuit. “Nos hemos asociado con Amazon y Cloudera para trabajar en cómo tener una nube analítica altamente disponible y segura que pueda expandirse a ambos mundos, pero todavía no hemos resuelto esto”, señala Loconzolo. Sin embargo, un movimiento hacia la nube es inevitable para una compañía como Intuit, que vende productos que corren en la nube. “Llegará un punto en el que será prohibitivo -en términos de costos- mover todos esos datos a una nube privada”, comenta.
2. Hadoop: el nuevo sistema operativo de datos empresariales
Los frameworks analíticos distribuidos, como MapReduce, están evolucionando hacia gestores de recursos distribuidos que están convirtiendo a Hadoop en un sistema operativo de datos de propósito general. Con estos sistemas, señala “se puede ejecutar diferentes manipulaciones de datos y operaciones analíticas enchufándolos en Hadoop como el sistema distribuido de almacenamiento de archivos”.
¿Qué significa esto para la empresa? Como SQL, MapReduce, la transmisión de procesamiento, en memoria, las analíticas gráficas y otros tipos de cargas de trabajo pueden correr sobre Hadoop con un rendimiento adecuado, más empresas usarán Hadoop como un hub de datos empresarial. “La capacidad de ejecutar muchas diferentes clases de búsquedas y operaciones de datos contra los datos en Hadoop, lo harán un lugar de bajo costo, de propósito general, para colocar datos que desea que estén disponibles para analizar”, señala Hopkins.
Intuit ya está construyendo su fundación Hadoop. “Nuestra estrategia es potenciar el Sistema de Archivos Distribuido de Hadoop, el cual funciona estrechamente con MapReduce, como estrategia de largo plazo para permitir todos los tipos de interacciones con personas y productos”, anota Loconzolo.
3.- Los lagos de big data
La teoría de base de datos tradicional dicta que primero se diseña el conjunto de datos antes de ingresar algún dato. Un lago de datos, también llamado un lago de datos empresarial o hub de datos empresarial, pone ese modelo de cabeza, señala Chris Curran, director y jefe de tecnología de la firma estadounidense Pricewaterhouse. “Dice que tomemos esas fuentes de datos y las coloquemos todas en un gran repositorio Hadoop, y que no intentemos diseñar ningún modelo de datos antes”, anota. En lugar de ello, se ofrecen herramientas para que las personas analicen los datos, junto con un alto nivel de definición de los datos que existen en el lago. “La gente construye las vistas dentro de los datos mientras avanzan. Es un modelo orgánico muy incremental para construir una base de datos a gran escala”, añade Curran. El lado malo es que la gente que usa esto debe estar altamente capacitada.
Como parte de su Nube Analítica Intuit, Intuit tiene un lago de datos que incluye datos de clicstream del usuario (grabación del uso que hace de los clics), y datos empresariales y de terceros, señala Lonconzolo, pero el enfoque está en “democratizar” las herramientas que están alrededor, para permitir que la gente de negocios las use con efectividad. Loconzolo añade que una de sus preocupaciones con la construcción de un lago en Hadoop es que la plataforma no esté realmente lista para la empresa. “Queremos la capacidades que las bases de datos empresariales tradicionales han tenido por décadas -monitoreo del control de acceso, encriptación, aseguramiento de los datos y trazabilidad de la procedencia de los datos desde la fuente hasta el destino”, indica.
4.- Más analíticas de predictibilidad
Con big data, los analistas no solo tienen más datos con los cuales trabajar, sino también el poder de procesamiento para manejar grandes cantidades de registros con muchos atributos, señala Hopkins. El aprendizaje tradicional de máquina utiliza análisis estadístico basado en una muestra de un conjunto total de datos. “Ahora tiene la capacidad de hacer grandes cifras de registros y gran cantidad de atributos por registro”, y eso incrementa la predictibilidad, señala.
La combinación de big data y poder de cómputo también permite a los analistas explorar nuevos datos de comportamiento a lo largo del día, como los sitios web visitados o la ubicación. Hopkins llama a eso “datos escasos”, porque para encontrar algo de interés se debe arar en un montón de datos que no tienen importancia. “Intentar usar algoritmos de aprendizaje de máquina tradicional contra este tipo de datos era computacionalmente imposible. Ahora podemos traer poder de cómputo barato al problema”, señala. “Usted formula los problemas de manera completamente diferente cuando la velocidad y el límite de memoria son problemas críticos”, indica Abbott. “Ahora se puede encontrar qué variables son las mejores en términos de análisis, gracias al impulso de enormes recursos de cómputo en el problema. Realmente cambian las reglas de juego.
“Permitir el análisis en tiempo real y el modelado predictivo fuera del mismo núcleo de Hadoop es lo que nos interesa”, señala Loconzolo. El problema ha sido la velocidad con Hadoop, tomándole hasta 20 veces más contestar a las preguntas, de lo que lo hacían las tecnologías establecidas. Así que Intuit está probando Apache Spark, un motor de procesamiento de datos a gran escala y su herramienta de búsqueda SQL asociada, Spark SQL. “Spark tiene esta búsqueda interactiva rápida, así como servicios gráficos y capacidades de streaming. Mantiene los datos dentro de Hadoop, pero dándole suficiente rendimiento para cerrar la brecha por nosotros”, señala Loconzolo.
5.- SQL en Hadoop: Más rápido, mejor
Si es un codificador y matemático inteligente, puede soltar datos y hacer el análisis de cualquier cosa en Hadoop. Esa es la promesa -y el problema, señala Mark Beyer, analista de Gartner. “Necesita alguien que ponga esto en un formato y estructura de lenguaje con el que esté familiarizado”, agrega. Ahí es donde entran los productos SQL para Hadoop, aunque cualquier lenguaje de nube familiar funciona, anota Beyer.
Las herramientas que soportan búsqueda de manera similar a SQL le permiten a los usuarios empresariales, que ya saben de SQL, aplicar técnicas similares a sus datos. SQL en Hadoop “abre la puerta a Hadoop en la empresa”, señala Hopkins, porque las empresas no necesitan hacer ninguna inversión en científicos de datos y analistas de negocios que puedan escribir scripts usando Java, JavaScript y Phthon -algo que los usuarios de Hadoop tradicionalmente han tenido que hacer.
Estas herramientas no son nada nuevo. Apache Hive ofreció un lenguaje estructurado de búsqueda similar a SQL para Hadoop durante algún tiempo. Pero las alternativas comerciales de Cloudera, Pivotal Software, IBM y otros proveedores no solo ofrecen un rendimiento mucho más alto, sino que siempre son más rápidas. Eso hace que la tecnología se ajuste bien a los “análisis iterativos”, en los que un analista hace una pregunta, recibe una respuesta y luego pregunta otra. Este tipo de trabajo, tradicionalmente, ha requerido la construcción de un data warehouse. SQL en Hadoop no va a reemplazar a los data warehouses, al menos no en corto plazo, señala Hopkins, “pero sí ofrece alternativas a software y appliances más costosos para cierto tipo de análisis”.
6.- Más, mejor NoSQL
Las alternativas a las bases de datos relacionales basadas en SQL tradicional, llamadas NoSQL (abreviación de “No solo SQL”) están ganando popularidad rápidamente, así como las herramientas para uso en clases específicas de aplicaciones analíticas; y ese impulso continuará creciendo, señala Curran.
Él estima que hay de 15 a 20 bases de datos NoSQL de código abierto, cada una con su propia especialización. Por ejemplo, un producto NoSQL con capacidad de gráficos de base de datos como ArangoDB, ofrece una forma más rápida y directa de analizar la red de relaciones entre los clientes o la gente de ventas, de lo que lo hace una base de datos relacional.
“Estas bases de datos han estado ahí algún tiempo, pero marchan a todo vapor debido a la clase de análisis que las personas necesitan”, anota. Un cliente de PwC en un mercado emergente colocó sensores en las estanterías de las tienda para monitorear los productos que están ahí, cuánto tiempo los manipulan los clientes y cuánto tiempo se paran los compradores delante de estantes en particular. “Estos sensores están transmitiendo cantidades de datos que crecerán exponencialmente”, señala Curran. “Una base de datos NoSQL valiosa como Redis es el lugar al cual ir por esto debido a su propósito especial, alto rendimiento y peso ligero”.
7. Aprendizaje profundo
El aprendizaje profundo, un conjunto de técnicas de aprendizaje de máquina basado en una red neuronal, aún está en evolución pero muestra un gran potencial para resolver problemas de negocios, señala Hopkins. “El aprendizaje profundo… permite a las computadoras reconocer elementos de interés en grandes cantidades de datos no estructurados y binarios”, y deducir relaciones son la necesidad de modelos específicos o instrucciones de programación”, anota.
En un ejemplo, un algoritmo de aprendizaje profundo que examinó datos de Wikipedia, aprendió por su cuenta que tanto California y Texas son estados de los EE.UU. “No hay que modelar para entender el concepto de estado y país, y esa es una gran diferencia entre el antiguo aprendizaje de máquina y los métodos emergentes de aprendizaje profundo”, afirma Hopkins.
“Big data hará las cosas con montones de texto diverso y no estructurado, usando técnicas analíticas avanzadas como el aprendizaje profundo, para ayudar en formas que estamos empezando a entender”, agrega Hopkins. Por ejemplo, podría usarse para reconocer muchos tipos de datos, como formas, colores, y objetos en un video -o inclusive la presencia de un gato dentro de las imágenes, como lo hizo una famosa red neural construida por Google en el 2012. “Esta noción de vinculación cognitiva, análisis avanzado y las cosas que esto implica… son una importante tendencia futura”, señala Hopkins.
8.- Analíticas en memoria
El uso de bases de datos en-memoria para acelerar el proceso de análisis está creciendo en popularidad, y son altamente beneficiosas con la configuración adecuada, señala Beyer. De hecho, muchas empresas ya están potenciando el procesamiento híbrido transaccional/analítico (HTAP, por sus siglas en inglés), permitiendo que los procesos de transacciones y de análisis residan en la misma base de datos de memoria.
Pero hay mucha publicidad alrededor del HTAP, y las empresas lo han estado utilizando excesivamente, anota Beyer. Para los sistemas en los que el usuario necesita ver los mismos datos, en la misma forma, muchas veces durante el día -y no hay cambios significativos en los datos- la tecnología en-memoria es un desperdicio de dinero.
Y aunque se pueden ejecutar los análisis de manera más rápida con HTAP, todas las transacciones deben residir en la misma base de datos. El problema, señala Beyer, es que la mayoría de los esfuerzos hoy en día son acerca de colocar juntas las transacciones de diferentes sistemas. “Colocar simplemente todo en una base de datos retrocede a esta refutada creencia de que si desea usar HTAP para todos sus análisis, se requiere que todas sus transacciones estén en un solo lugar”, anota. “Usted aún debe integrar datos diversos”.
Más aún, traer una base de datos en-memoria significa que hay otro producto que manejar, asegurar, y averiguar cómo integrar y hacer escalar.
Para Intuit, el uso de Spark ha eliminado algo de la urgencia de adoptar las bases de datos en-memoria. “Si podemos resolver el 70% de nuestros casos de uso con la infraestructura Spark y un sistema en-memoria puede resolver el 100%, iríamos por el 70% en nuestra nube analítica”, señala Loconzolo. “Así que haremos prototipos, veremos si están listos y pondremos en pausa los sistemas en-memoria internamente ahora mismo”.
Manténgase un paso adelante
Con tantas tendencias emergentes alrededor de big data y analíticas, las organizaciones de TI deben crear las condiciones que permitirán a los analistas y a los científicos de datos experimentar. “Necesita una forma de evaluar, hacer prototipos y eventualmente integrar algo de esta tecnología en la empresa”, anota Curran.
“Los gerentes de TI y los implementadores no pueden usar la falta de madurez como una excusa para detener la experimentación”, señala Beyer. Inicialmente, solo unas cuantas personas -la mayoría analistas y científicos de datos habilidosos- tenían que experimentar. Entonces los usuarios avanzados y TI debían determinar en forma conjunta cuándo entregar nuevos recursos al resto de la organización, y TI no debía detener a los analistas que deseaban avanzar a toda velocidad. En lugar de ello, Beyer señala que TI debe trabajar con los analistas para “poner un paso de velocidad variable a esas nuevas herramientas altamente poderosas”.
– Robert L. Mitchell, Computerworld EE.UU.