Bill Loconzolo, vicepresidente de ingenierÃa de datos en Intuit, saltó con los dos pies a un lago de datos. Dean Abbott, director cientÃfico de datos en Smarter Remarketer, hizo una lÃnea recta hacia la nube. La ventaja competitiva de big data y analytics, que incluye lagos de datos para mantener enormes almacenamientos de datos en sus formatos nativos y, por supuesto, computación en la nube, es un blanco en movimiento, señalan ambos. Y aunque las opciones tecnológicas están lejos de estar maduras, esperar no es una alternativa.
“La realidad es que las herramientas aún están surgiendo, y la promesa de la plataforma Hadoop no está al nivel que requiere el negocio para confiar en ella”, comenta Lonconzolo. Pero las disciplinas de big data y analytics están evolucionando tan rápidamente que las empresas tienen que asumirlas, o correr el riesgo de quedarse rezagadas. “En el pasado, las tecnologÃas emergentes podÃan tomar años en madurar”, añade. “Ahora la gente cambia y maneja soluciones en cuestión de meses -o semanas”. Asà que ¿cuáles son las tecnologÃas emergentes y tendencias que deberÃan estar en su lista de vigilancia o en su laboratorio de pruebas?
Computerworld preguntó a los lÃderes de TI, consultores y analistas de la industria. Esta es su lista.
1.- AnalÃtica de big data en la nube
Hadoop, un framework y juego de herramientas para procesar conjuntos muy grandes de datos, fue originalmente diseñado para operar en clusters de máquinas fÃsicas. Eso ha cambiado. “Ahora un número creciente de tecnologÃas están disponibles para procesar datos en la nube”, señala Brian Hopkins, analista en Forrester Research. Los ejemplos incluyen al data warehouse hospedado de BI (inteligencia de negocios, por sus siglas en inglés), Redshift, de Amazon; al servicio de análisis de datos BigQuery de Google; a la plataforma de nube Bluemix de IBM; y al servicio de procesamiento de datos Kinesis de Amazon. “El futuro estado del big data será un hÃbrido entre on-premises y la nube”, señala.
Smarter Remarketer, un proveedor de servicios de analÃticas de retail basadas en SaaS, segmentación y servicios de marketing, recientemente cambió desde una infraestructura de base de datosHadoop in-house y MongoDB hacia Redshift de Amazon, un data wharehouse basado en la nube. La compañÃa establecida en Indianapollis recolecta datos demográficos de tiendas de retail en lÃnea y fÃsicas, y también datos de clientes, asà como datos de comportamiento en tiempo real, y luego analiza esa información para ayudar a los minoristas a crear mensajes dirigidos para obtener una respuesta deseada por parte de los compradores, en algunos casos en tiempo real.
Redshift fue más rentable para las necesidades de datos de Smart Remarketers, anota Abbott, especialmente debido a que tiene amplias capacidades para informes de datos estructurados. Y como oferta hospedada, es escalable y relativamente fácil de usar. “Es más barato expandirse en máquinas virtuales, que comprar máquinas fÃsicas y manejarlas nosotros mismos”, añade.
Por su parte, Intuit, establecido en Mountain View, California, se ha movido cautelosamente hacia la analÃtica de nube debido a que necesita un entorno seguro, estable y auditable. Por ahora, la compañÃa de software financiero mantiene todo dentro de su Nube AnalÃtica Intuit. “Nos hemos asociado con Amazon y Cloudera para trabajar en cómo tener una nube analÃtica altamente disponible y segura que pueda expandirse a ambos mundos, pero todavÃa no hemos resuelto esto”, señala Loconzolo. Sin embargo, un movimiento hacia la nube es inevitable para una compañÃa como Intuit, que vende productos que corren en la nube. “Llegará un punto en el que será prohibitivo -en términos de costos- mover todos esos datos a una nube privada”, comenta.
2. Hadoop: el nuevo sistema operativo de datos empresariales
Los frameworks analÃticos distribuidos, como MapReduce, están evolucionando hacia gestores de recursos distribuidos que están convirtiendo a Hadoop en un sistema operativo de datos de propósito general. Con estos sistemas, señala “se puede ejecutar diferentes manipulaciones de datos y operaciones analÃticas enchufándolos en Hadoop como el sistema distribuido de almacenamiento de archivos”.
¿Qué significa esto para la empresa? Como SQL, MapReduce, la transmisión de procesamiento, en memoria, las analÃticas gráficas y otros tipos de cargas de trabajo pueden correr sobre Hadoop con un rendimiento adecuado, más empresas usarán Hadoop como un hub de datos empresarial. “La capacidad de ejecutar muchas diferentes clases de búsquedas y operaciones de datos contra los datos en Hadoop, lo harán un lugar de bajo costo, de propósito general, para colocar datos que desea que estén disponibles para analizar”, señala Hopkins.
Intuit ya está construyendo su fundación Hadoop. “Nuestra estrategia es potenciar el Sistema de Archivos Distribuido de Hadoop, el cual funciona estrechamente con MapReduce, como estrategia de largo plazo para permitir todos los tipos de interacciones con personas y productos”, anota Loconzolo.
3.- Los lagos de big data
La teorÃa de base de datos tradicional dicta que primero se diseña el conjunto de datos antes de ingresar algún dato. Un lago de datos, también llamado un lago de datos empresarial o hub de datos empresarial, pone ese modelo de cabeza, señala Chris Curran, director y jefe de tecnologÃa de la firma estadounidense Pricewaterhouse. “Dice que tomemos esas fuentes de datos y las coloquemos todas en un gran repositorio Hadoop, y que no intentemos diseñar ningún modelo de datos antes”, anota. En lugar de ello, se ofrecen herramientas para que las personas analicen los datos, junto con un alto nivel de definición de los datos que existen en el lago. “La gente construye las vistas dentro de los datos mientras avanzan. Es un modelo orgánico muy incremental para construir una base de datos a gran escala”, añade Curran. El lado malo es que la gente que usa esto debe estar altamente capacitada.
Como parte de su Nube AnalÃtica Intuit, Intuit tiene un lago de datos que incluye datos de clicstream del usuario (grabación del uso que hace de los clics), y datos empresariales y de terceros, señala Lonconzolo, pero el enfoque está en “democratizar” las herramientas que están alrededor, para permitir que la gente de negocios las use con efectividad. Loconzolo añade que una de sus preocupaciones con la construcción de un lago en Hadoop es que la plataforma no esté realmente lista para la empresa. “Queremos la capacidades que las bases de datos empresariales tradicionales han tenido por décadas -monitoreo del control de acceso, encriptación, aseguramiento de los datos y trazabilidad de la procedencia de los datos desde la fuente hasta el destino”, indica.
4.- Más analÃticas de predictibilidad
Con big data, los analistas no solo tienen más datos con los cuales trabajar, sino también el poder de procesamiento para manejar grandes cantidades de registros con muchos atributos, señala Hopkins. El aprendizaje tradicional de máquina utiliza análisis estadÃstico basado en una muestra de un conjunto total de datos. “Ahora tiene la capacidad de hacer grandes cifras de registros y gran cantidad de atributos por registro”, y eso incrementa la predictibilidad, señala.
La combinación de big data y poder de cómputo también permite a los analistas explorar nuevos datos de comportamiento a lo largo del dÃa, como los sitios web visitados o la ubicación. Hopkins llama a eso “datos escasos”, porque para encontrar algo de interés se debe arar en un montón de datos que no tienen importancia. “Intentar usar algoritmos de aprendizaje de máquina tradicional contra este tipo de datos era computacionalmente imposible. Ahora podemos traer poder de cómputo barato al problema”, señala. “Usted formula los problemas de manera completamente diferente cuando la velocidad y el lÃmite de memoria son problemas crÃticos”, indica Abbott. “Ahora se puede encontrar qué variables son las mejores en términos de análisis, gracias al impulso de enormes recursos de cómputo en el problema. Realmente cambian las reglas de juego.
“Permitir el análisis en tiempo real y el modelado predictivo fuera del mismo núcleo de Hadoop es lo que nos interesa”, señala Loconzolo. El problema ha sido la velocidad con Hadoop, tomándole hasta 20 veces más contestar a las preguntas, de lo que lo hacÃan las tecnologÃas establecidas. Asà que Intuit está probando Apache Spark, un motor de procesamiento de datos a gran escala y su herramienta de búsqueda SQL asociada, Spark SQL. “Spark tiene esta búsqueda interactiva rápida, asà como servicios gráficos y capacidades de streaming. Mantiene los datos dentro de Hadoop, pero dándole suficiente rendimiento para cerrar la brecha por nosotros”, señala Loconzolo.
5.- SQL en Hadoop: Más rápido, mejor
Si es un codificador y matemático inteligente, puede soltar datos y hacer el análisis de cualquier cosa en Hadoop. Esa es la promesa -y el problema, señala Mark Beyer, analista de Gartner. “Necesita alguien que ponga esto en un formato y estructura de lenguaje con el que esté familiarizado”, agrega. Ahà es donde entran los productos SQL para Hadoop, aunque cualquier lenguaje de nube familiar funciona, anota Beyer.
Las herramientas que soportan búsqueda de manera similar a SQL le permiten a los usuarios empresariales, que ya saben de SQL, aplicar técnicas similares a sus datos. SQL en Hadoop “abre la puerta a Hadoop en la empresa”, señala Hopkins, porque las empresas no necesitan hacer ninguna inversión en cientÃficos de datos y analistas de negocios que puedan escribir scripts usando Java, JavaScript y Phthon -algo que los usuarios de Hadoop tradicionalmente han tenido que hacer.
Estas herramientas no son nada nuevo. Apache Hive ofreció un lenguaje estructurado de búsqueda similar a SQL para Hadoop durante algún tiempo. Pero las alternativas comerciales de Cloudera, Pivotal Software, IBM y otros proveedores no solo ofrecen un rendimiento mucho más alto, sino que siempre son más rápidas. Eso hace que la tecnologÃa se ajuste bien a los “análisis iterativos”, en los que un analista hace una pregunta, recibe una respuesta y luego pregunta otra. Este tipo de trabajo, tradicionalmente, ha requerido la construcción de un data warehouse. SQL en Hadoop no va a reemplazar a los data warehouses, al menos no en corto plazo, señala Hopkins, “pero sà ofrece alternativas a software y appliances más costosos para cierto tipo de análisis”.
6.- Más, mejor NoSQL
Las alternativas a las bases de datos relacionales basadas en SQL tradicional, llamadas NoSQL (abreviación de “No solo SQL”) están ganando popularidad rápidamente, asà como las herramientas para uso en clases especÃficas de aplicaciones analÃticas; y ese impulso continuará creciendo, señala Curran.
Él estima que hay de 15 a 20 bases de datos NoSQL de código abierto, cada una con su propia especialización. Por ejemplo, un producto NoSQL con capacidad de gráficos de base de datos como ArangoDB, ofrece una forma más rápida y directa de analizar la red de relaciones entre los clientes o la gente de ventas, de lo que lo hace una base de datos relacional.
“Estas bases de datos han estado ahà algún tiempo, pero marchan a todo vapor debido a la clase de análisis que las personas necesitan”, anota. Un cliente de PwC en un mercado emergente colocó sensores en las estanterÃas de las tienda para monitorear los productos que están ahÃ, cuánto tiempo los manipulan los clientes y cuánto tiempo se paran los compradores delante de estantes en particular. “Estos sensores están transmitiendo cantidades de datos que crecerán exponencialmente”, señala Curran. “Una base de datos NoSQL valiosa como Redis es el lugar al cual ir por esto debido a su propósito especial, alto rendimiento y peso ligero”.
7. Aprendizaje profundo
El aprendizaje profundo, un conjunto de técnicas de aprendizaje de máquina basado en una red neuronal, aún está en evolución pero muestra un gran potencial para resolver problemas de negocios, señala Hopkins. “El aprendizaje profundo… permite a las computadoras reconocer elementos de interés en grandes cantidades de datos no estructurados y binarios”, y deducir relaciones son la necesidad de modelos especÃficos o instrucciones de programación”, anota.
En un ejemplo, un algoritmo de aprendizaje profundo que examinó datos de Wikipedia, aprendió por su cuenta que tanto California y Texas son estados de los EE.UU. “No hay que modelar para entender el concepto de estado y paÃs, y esa es una gran diferencia entre el antiguo aprendizaje de máquina y los métodos emergentes de aprendizaje profundo”, afirma Hopkins.
“Big data hará las cosas con montones de texto diverso y no estructurado, usando técnicas analÃticas avanzadas como el aprendizaje profundo, para ayudar en formas que estamos empezando a entender”, agrega Hopkins. Por ejemplo, podrÃa usarse para reconocer muchos tipos de datos, como formas, colores, y objetos en un video -o inclusive la presencia de un gato dentro de las imágenes, como lo hizo una famosa red neural construida por Google en el 2012. “Esta noción de vinculación cognitiva, análisis avanzado y las cosas que esto implica… son una importante tendencia futura”, señala Hopkins.
8.- AnalÃticas en memoria
El uso de bases de datos en-memoria para acelerar el proceso de análisis está creciendo en popularidad, y son altamente beneficiosas con la configuración adecuada, señala Beyer. De hecho, muchas empresas ya están potenciando el procesamiento hÃbrido transaccional/analÃtico (HTAP, por sus siglas en inglés), permitiendo que los procesos de transacciones y de análisis residan en la misma base de datos de memoria.
Pero hay mucha publicidad alrededor del HTAP, y las empresas lo han estado utilizando excesivamente, anota Beyer. Para los sistemas en los que el usuario necesita ver los mismos datos, en la misma forma, muchas veces durante el dÃa -y no hay cambios significativos en los datos- la tecnologÃa en-memoria es un desperdicio de dinero.
Y aunque se pueden ejecutar los análisis de manera más rápida con HTAP, todas las transacciones deben residir en la misma base de datos. El problema, señala Beyer, es que la mayorÃa de los esfuerzos hoy en dÃa son acerca de colocar juntas las transacciones de diferentes sistemas. “Colocar simplemente todo en una base de datos retrocede a esta refutada creencia de que si desea usar HTAP para todos sus análisis, se requiere que todas sus transacciones estén en un solo lugar”, anota. “Usted aún debe integrar datos diversos”.
Más aún, traer una base de datos en-memoria significa que hay otro producto que manejar, asegurar, y averiguar cómo integrar y hacer escalar.
Para Intuit, el uso de Spark ha eliminado algo de la urgencia de adoptar las bases de datos en-memoria. “Si podemos resolver el 70% de nuestros casos de uso con la infraestructura Spark y un sistema en-memoria puede resolver el 100%, irÃamos por el 70% en nuestra nube analÃtica”, señala Loconzolo. “Asà que haremos prototipos, veremos si están listos y pondremos en pausa los sistemas en-memoria internamente ahora mismo”.
Manténgase un paso adelante
Con tantas tendencias emergentes alrededor de big data y analÃticas, las organizaciones de TI deben crear las condiciones que permitirán a los analistas y a los cientÃficos de datos experimentar. “Necesita una forma de evaluar, hacer prototipos y eventualmente integrar algo de esta tecnologÃa en la empresa”, anota Curran.
“Los gerentes de TI y los implementadores no pueden usar la falta de madurez como una excusa para detener la experimentación”, señala Beyer. Inicialmente, solo unas cuantas personas -la mayorÃa analistas y cientÃficos de datos habilidosos- tenÃan que experimentar. Entonces los usuarios avanzados y TI debÃan determinar en forma conjunta cuándo entregar nuevos recursos al resto de la organización, y TI no debÃa detener a los analistas que deseaban avanzar a toda velocidad. En lugar de ello, Beyer señala que TI debe trabajar con los analistas para “poner un paso de velocidad variable a esas nuevas herramientas altamente poderosas”.
– Robert L. Mitchell, Computerworld EE.UU.
