Los aceleradores de consultas, como los lagos de datos, consolidan el Data warehouse y el Data lake en un único sistema de conocimiento que permite a las empresas acelerar el análisis y maximizar el valor de los datos a un costo reducido.
Con 65 millones de dosis de vacunas para administrar en el punto álgido de la pandemia de COVID-19, Luigi Guadagno, CIO de Walgreens, necesitaba saber dónde enviarlas. Para averiguarlo, consultó el Data Lakehouse de Walgreens, implementado con la tecnología Databricks en Microsoft Azure.
“Aprovechamos el Data lakehouse para entender el momento”, dice el CIO. Para Guadagno, la necesidad de igualar la disponibilidad de vacunas con la demanda del paciente llegó en el momento correcto, tecnológicamente hablando. La gigantesca cadena farmacéutica había establecido su Data lakehouse para hacer frente a esos desafíos en su búsqueda “para obtener el producto correcto en el lugar correcto para el paciente correcto”, como dice Guadagno”.
Anteriormente, Walgreens había intentado realizar esa tarea con su Data lake, pero enfrentaba dos obstáculos significativos: costo y tiempo. Esos desafíos son bien conocidos por muchas organizaciones, ya que han tratado de obtener conocimiento analítico de sus grandes cantidades de datos. El resultado es un cambio de paradigma emergente en la forma en que las empresas sacan a la luz los conocimientos, uno que las ve apoyándose en una nueva categoría de tecnología diseñada para ayudar a las organizaciones a maximizar el valor de sus datos.
Ingrese a la casa del lago de datos
Tradicionalmente, las organizaciones han mantenido dos sistemas como parte de sus estrategias de datos: un sistema de registro sobre el cual administrar su negocio y un sistema de información, como un Data warehouse, desde el cual recopilar Inteligencia de Negocios (BI). Con la llegada de los macrodatos, apareció un segundo sistema de información, el Datalake, para ofrecer información sobre Inteligencia Artificial y Aprendizaje Automático (IA/ML). Sin embargo, muchas organizaciones están encontrando este paradigma de confiar en dos sistemas separados de información insostenible.
El Data warehouse requiere un proceso de extracción, transformación y carga (ETL) que requiere mucho tiempo para mover los datos del sistema de registro al Data warehouse, después de lo cual los datos se normalizarían, se consultarían y se obtendrían las respuestas. Mientras tanto, los datos no estructurados se verterían en un lago de datos donde serían analizados por científicos de datos capacitados que utilizan herramientas como Python, Apache Spark y TensorFlow.
Bajo el liderazgo de Guadagno, Walgreens, con sede en Deerfield, Ill., consolidó sus sistemas de conocimiento en un único lago de datos. Y no es la única. De hecho, un número cada vez mayor de empresas está descubriendo que los Data lakes, que pertenecen a una categoría de productos generalmente conocida como aceleradores de consultas, satisfacen una necesidad crítica.
“Un Data lakehouse redime las fallas de algunos lagos de datos. Así es como llegamos aquí. La gente no podía obtener valor del lago”, señala Adam Ronthal, vicepresidente y analista de Gartner. En el caso del Data lakehouse Databricks de Delta Lake, los datos estructurados de un Data warehouse generalmente se agregan a un lago de datos. Posteriormente, el Data lakehouse agrega capas de optimización para hacer que los datos sean más consumibles para recopilar información.
El Data lakehouse Databricks de Delta Lake es sólo una entrada en un mercado cada vez más concurrido, que incluye proveedores como Snowflake, Starburst, Dremio, GridGain, DataRobot y quizás una docena más, según la Guía de mercado para aceleradores de consultas de análisis de Gartner .
Moonfare, una firma de capital privado, está haciendo la transición de un Data warehouse basado en PostgreSQL en AWS a un lago de datos Dremio en AWS para inteligencia comercial y análisis predictivo. Cuando la implementación entre en funcionamiento en el otoño de 2022, los usuarios comerciales podrán realizar análisis de autoservicio además de los datos en AWS S3. De esta manera, se podrá consultar qué campañas de marketing funcionan mejor con qué clientes y qué administradores de fondos se están desempeñando mejor. La casa del lago también ayudará con la prevención del fraude.
“Puede consultar intuitivamente los datos del lago de datos. A los usuarios que provienen de un entorno de Data warehouse no debería importarles dónde residen los datos”, comenta Angelo Slawik, ingeniero de datos de Moonfare. “Lo que es muy importante es que elimina los trabajos de ETL”, dice, y agrega: “Con Dremio, si los datos están en S3, se puede consultar lo que quiera”.
Moonfare seleccionó a Dremio en una segunda vuelta de prueba de concepto con AWS Athena, un servicio de consulta interactivo que permite consultas SQL en datos de S3. Según Slawik, Dremio demostró ser más capaz gracias a un rendimiento muy rápido y a una interfaz de usuario altamente funcional que permite a los usuarios realizar un seguimiento visual del linaje de datos. También fueron importantes las vistas basadas en funciones y el control de acceso de Dremio para la seguridad y la gobernanza, que ayudan a la empresa con sede en Berlín, Alemania, a cumplir con las normas del Reglamento General de Protección de Datos (RGPD).
En BNP Paribas, con sede en París, diferentes equipos de este banco estaban utilizando silos de datos dispersos para BI. Emmanuel Wiesenfeld, un contratista independiente, rediseñó los silos para crear un sistema centralizado para que los usuarios comerciales, como los comerciantes, pudieran ejecutar sus propias consultas de análisis en “una única fuente de verdad”.
“Los equipos comerciales querían colaborar, pero los datos estaban dispersos. Las herramientas para analizar los datos también estaban dispersas, lo que las hacía costosas y difíciles de mantener”, explica Wiesenfeld. “Queríamos centralizar datos de muchas fuentes de datos para permitir el conocimiento de la situación en tiempo real. Ahora los usuarios pueden escribir sus propios scripts y ejecutarlos sobre los datos”.
Utilizando la tecnología Apache Ignite de GridGain, Wiesenfeld creó una arquitectura informática en memoria. La clave del nuevo enfoque es pasar de ETL a ELT, donde la transformación se lleva a cabo mientras se realizan cálculos para optimizar todo el proceso, según Wiesenfeld, quien dice que el resultado fue reducir la latencia de horas a segundos. Desde entonces, Wiesenfeld lanzó una startup llamada Kawa para brindar soluciones similares a otros clientes, en particular a los fondos de cobertura.
Starburst adopta un enfoque de malla y aprovecha la tecnología Trino de código abierto en Starburst Enterprise para mejorar el acceso a los datos distribuidos. En lugar de mover datos a un warehouse central, la malla permite el acceso y permite que los datos permanezcan donde están. Sophia Genetics está utilizando Starburst Enterprise en su plataforma de análisis SaaS de bioinformática basada en la nube. La razón de esto: mantener los datos confidenciales de atención médica dentro de países específicos es importante por razones regulatorias. “Debido a las restricciones de cumplimiento, no podemos implementar ningún sistema que acceda a todos los datos desde un punto central”, expuso Alexander Seeholzer, director de servicios de datos de Sophia Genetics, con sede en Suiza, en un estudio de caso de Starburst.
Las nuevas plataformas de aceleración de consultas no se quedan quietas. Databricks y Snowflake han introducido nubes de datos y lagos de datos con características diseñadas para las necesidades de las empresas en industrias específicas, como la venta minorista y la atención médica. Estos movimientos hacen eco de la introducción de nubes específicas de la industria por parte de los hiperescaladores Microsoft Azure, Google Cloud Platform y Amazon Web Services.
El Data lakehouse como mejor práctica
Ronthal de Gartner ve la evolución del Data lake al Data lakehouse como una tendencia inexorable. “Nos estamos moviendo en la dirección en la que el lago de datos se convierte en una mejor práctica, pero todos se mueven a una velocidad diferente”, asevera Ronthal. “En la mayoría de los casos, el lago no era capaz de satisfacer las necesidades de producción”.
A pesar del entusiasmo de los proveedores de lagos de datos por incluir el Data lakehouse en sus ofertas, Gartner predice que el Data warehouse perdurará. “Es poco probable que los aceleradores de consultas de análisis reemplacen el Data warehouse, pero pueden hacer que el lago de datos sea significativamente más valioso al permitir un rendimiento que cumpla con los requisitos tanto para el personal comercial como técnico”, concluye su informe sobre el mercado de aceleradores de consultas.
Noel Yuhanna, vicepresidente y analista principal de Forrester Research, no está de acuerdo y afirma que el Data lakehouse ocupará el lugar de los depósitos y lagos separados.
“Vemos el futuro de los Data warehouses y Data lakes que entran en un Data lakehouse, donde un sistema es lo suficientemente bueno”, afirma Yuhanna. Para las organizaciones con almacenes y lagos de datos distribuidos, la arquitectura de malla como la de Starburst satisfará una necesidad, “porque permite a las organizaciones implementar un gobierno federado en varias ubicaciones de datos”, según Yuhanna.
Cualquiera sea el enfoque, Yuhanna dice que las empresas buscan ganar un tiempo más rápido para valorar sus datos. “No quieren tener un ‘Cliente 360’ dentro de seis meses; lo quieren la próxima semana. A esto lo llamamos datos ‘rápidos’. Tan pronto como se crean los datos, está ejecutando análisis e ideas sobre ellos”, advierte.
De un sistema de insight a un sistema de acción
Para Guadagno, la distribución de vacunas fue una iniciativa de alto perfil y salvavidas, pero Walgreens Lakehouse funciona en tareas minoristas más mundanas, aunque esenciales, como enviar recordatorios de recetas y cupones de productos. Estos procesos combinan una comprensión del comportamiento del cliente con la disponibilidad de inventario farmacéutico y minorista. “Puede volverse muy sofisticado, ya que ofrece perspectivas muy personalizadas, sin embargo, nos permite centrarnos en el cliente”.
Para otros que se embarcan en un viaje similar, Guadagno aconseja: “Coloque todos sus datos en el Data lakehouse lo más rápido posible. No se embarque en ningún modelado o racionalización de datos prolongados. Es mejor pensar en crear valor. Póngalo todo ahí y brinde acceso a todos mediante la gobernanza y la colaboración. No malgaste dinero en integración y ETL”.
En Walgreens, el Data lakehouse de Databricks va más allá de que la tecnología sea eficiente: es clave para su estrategia comercial general. “Tenemos la misión de crear una experiencia muy personalizada. Comienza en el punto de venta minorista: lo que el cliente necesita y cuándo lo necesita. En última instancia, para eso están los datos”, finaliza Guadagno. “No exite un sistema de registro y un sistema de percepción. Es un sistema de acción”.
Stan Gibson, CIO.com