Al combinar la estructura de los data warehouses y la flexibilidad de los data lakes, los ‘data lakehouses’ están demostrando ser herramientas versátiles para aprovechar al máximo cualquier dato que desee recopilar.
Para las empresas que buscan obtener el máximo valor de sus datos, especialmente en tiempo real, el concepto de “data lakehouse†está comenzando a ponerse de moda.
La idea detrás de un data lakehouse es fusionar lo mejor que los data lakes y los data warehouse tienen para ofrecer, explica Adam Ronthal, analista de Gartner.
Los data warehouses, por su parte, permiten a las empresas almacenar grandes cantidades de datos estructurados con esquemas bien definidos. Están diseñados para admitir una gran cantidad de consultas simultáneas y entregar los resultados rápidamente a muchos usuarios simultáneos.
Por su parte, los lagos de datos o data lakes permiten a las empresas recopilar datos sin estructurar y sin procesar en muchos formatos para que los analistas de datos los busquen. Estos grandes conjuntos de datos han cobrado importancia últimamente gracias a la flexibilidad que brindan a las empresas para almacenar grandes flujos de datos sin tener que definir primero el propósito de hacerlo.
El mercado para estos dos tipos de repositorios de big data está “convergiendo en el concepto de data lakehouseâ€, agrega Ronthal, con proveedores de almacenes de datos establecidos que agregan la capacidad de administrar datos no estructurados y proveedores de lagos de datos que agregan estructura a sus ofertas.
Por ejemplo, en AWS, las empresas ahora pueden emparejar Amazon Redshift, un data warehouse con Amazon Redshift Spectrum, lo que permite que Redshift llegue a los data lakes S3 no estructurados de Amazon. Mientras tanto, el lago de datos Snowflake ahora puede admitir datos no estructurados con tablas externas, señala Ronthal.
Cuando las empresas tienen lagos y almacenes separados, y los datos deben moverse de uno a otro, lo cual cuesta tiempo y dinero, agrega Ronthal. La combinación de las dos tecnologÃas en una plataforma reduce el esfuerzo y el movimiento de datos, lo que acelera el ritmo de conocimiento de los mismos.
Y, dependiendo de la plataforma, un data lake también puede ofrecer otras caracterÃsticas, como soporte para transmisión de datos, aprendizaje automático y colaboración, brindando herramientas adicionales a las empresas para aprovechar al máximo sus datos.
Este es un vistazo a los beneficios de los lagos de datos y cómo varias organizaciones lÃderes están cumpliendo su promesa como parte de sus estrategias de análisis.
Mejorando la experiencia de los videojuegos
El uso de repositorios de datos por parte de Sega Europa en apoyo de sus videojuegos ha evolucionado considerablemente en los últimos años.
En 2016, la empresa comenzó a utilizar el data warehouse de Amazon Redshift para recopilar datos de eventos de su videojuego Football Manager. Al principio, estos datos de eventos consistÃan simplemente en jugadores que abrÃan y cerraban juegos. La empresa tenÃa dos miembros del personal que investigaban estos datos, que se transmitÃan a Redshift a una velocidad de diez eventos por segundo.
“Pero habÃa muchos más datos que podrÃamos recopilar, como qué equipos manejaba la gente o cuánto dinero gastabaâ€, señala Felix Baker, jefe de servicios de datos de la empresa.
En 2017, Sega Europe recopilaba 800 eventos por segundo, con cinco empleados trabajando en la plataforma. Para 2020, el sistema de la empresa capturaba 7000 eventos por segundo de una cartera de 30 juegos de Sega, con 25 empleados involucrados.
En ese momento, el sistema estaba comenzando a llegar a sus lÃmites, recuerda Baker. Debido a las estructuras de datos necesarias para su inclusión en el almacén de datos, los datos llegaban en lotes y se tardaba entre media hora y una hora en analizarlos, dice.
“QuerÃamos analizar los datos en tiempo realâ€, agrega, pero esta funcionalidad no estaba disponible en Redshift en ese momento.
Después de realizar pruebas de concepto con tres plataformas: Redshift, Snowflake y Databricks, Sega Europe decidió usar Databricks, uno de los pioneros de la industria de lagos de datos.
“Databricks ofreció una solución de servicios administrados lista para usar que hizo lo que necesitábamos sin que tuviéramos que desarrollar nadaâ€, dice. Eso incluÃa no solo la transmisión en tiempo real, sino también el aprendizaje automático y los espacios de trabajo colaborativos.
Además, la arquitectura de data lakehouse permitió a Sega Europa ingerir datos no estructurados, como fuentes de redes sociales, también.
“Con Redshift, tenÃamos que concentrarnos en el diseño del esquemaâ€, dice Baker. “Cada tabla tenÃa que tener una estructura establecida antes de que pudiéramos comenzar a ingerir datos. Eso lo hizo torpe de muchas maneras. Con el lago de datos, ha sido más fácilâ€.
La plataforma Databricks de Sega Europe entró en producción en el verano de 2020. Dos o tres consultores de Databricks trabajaron junto con seis o siete personas de Sega Europe para poner en marcha la solución de transmisión, igualando lo que la compañÃa tenÃa previamente con Redshift. La nueva casa del lago está construida en tres capas, la capa base de las cuales es solo una mesa grande en la que se vuelca todo.
“Si los desarrolladores crean nuevos eventos, no tienen que decirnos que esperemos nuevos campos; literalmente, pueden enviarnos todo, y luego podemos crear trabajos sobre esa capa y transmitir los datos que adquirimosâ€, añade.
La transición a Databricks, que se basa en Apache Spark, fue fluida para Sega Europe, gracias a la experiencia previa con el motor de código abierto para el procesamiento de datos a gran escala.
“Dentro de nuestro equipo, ya tenÃamos bastante experiencia con Apache Sparkâ€, argumenta Baker. “Eso significaba que podÃamos configurar transmisiones muy rápidamente en función de las habilidades que ya tenÃamosâ€.
En la actualidad, la empresa procesa 25,000 eventos por segundo, con más de 30 empleados de datos y 100 tÃtulos de juegos en el sistema. En lugar de tardar entre 30 minutos y una hora en procesarse, los datos están listos en un minuto.
“El volumen de datos recopilados ha crecido exponencialmenteâ€, dice Baker. De hecho, después del golpe de la pandemia, el uso de algunos juegos se duplicó.
La nueva plataforma también ha abierto nuevas posibilidades. Por ejemplo, la asociación de Sega Europe con Twitch, una plataforma de transmisión donde las personas ven a otras personas jugar videojuegos, se ha mejorado para incluir una transmisión de datos para su juego Humankind, de modo que los espectadores puedan obtener el historial de un jugador, incluidos los niveles que completó, el batallas que ganaron y las civilizaciones que conquistaron.
“La superposición en Twitch se actualiza a medida que jueganâ€, dice Baker. “Ese es un caso de uso que no hubiéramos podido lograr antes de Databricksâ€.
La compañÃa también comenzó a aprovechar las capacidades de aprendizaje automático de Lakehouse. Por ejemplo, los cientÃficos de datos de Sega Europe han diseñado modelos para descubrir por qué los jugadores dejan de jugar y hacer sugerencias sobre cómo aumentar la retención.
“La velocidad a la que se pueden construir estos modelos ha sido realmente increÃbleâ€, asevera Baker. “Simplemente están produciendo estos modelos, al parecer, cada dos semanas”.
Los beneficios comerciales de los lagos de datos
La flexibilidad y la naturaleza general de las data lakehouses está resultando rápidamente atractiva para las organizaciones que buscan capitalizar sus activos de datos, especialmente como parte de iniciativas digitales que permiten un acceso rápido a una amplia gama de datos.
“El principal impulsor de valor son las eficiencias de costos que se habilitan al proporcionar una fuente para todos los datos estructurados y no estructurados de una organizaciónâ€, externa Steven Karan, vicepresidente y jefe de información y datos de la consultora Capgemini Canadá, quien ha ayudado a implementar lagos de datos en organizaciones lÃderes en servicios financieros, telecomunicaciones y comercio minorista.
Además, los lagos de datos almacenan datos de tal manera que están disponibles para su uso por una amplia gama de tecnologÃas, desde inteligencia comercial tradicional y sistemas de informes hasta aprendizaje automático e inteligencia artificial, agrega Karan. “Otros beneficios incluyen redundancia de datos reducida, operaciones de TI simplificadas, un esquema de datos simplificado para administrar y una gobernabilidad de datos más fácil de habilitarâ€.
Un caso de uso particularmente valioso para los lagos de datos es ayudar a las empresas a obtener valor de los datos que antes estaban atrapados en sistemas heredados o en silos. Por ejemplo, un cliente empresarial de Capgemini, que habÃa crecido a través de adquisiciones durante una década, no podÃa acceder a datos valiosos relacionados con los revendedores de sus productos.
“Al migrar los datos en silos de los almacenes de datos heredados a un lago de datos centralizado, el cliente pudo comprender a nivel empresarial cuáles de sus socios revendedores eran más efectivos y cómo los cambios, como los programas de referencia y las estructuras, generaron ingresosâ€, comenta.
Poner los datos en un solo data lake hace que sea más fácil de administrar, asegura Meera Viswanathan, gerente sénior de productos en Fivetran, una empresa de canalización de datos. Las empresas que tradicionalmente han usado lagos de datos y almacenes de datos a menudo tienen equipos separados para administrarlos, lo que hace que sea confuso para las unidades de negocios que necesitan consumir los datos, dice.
Además de Databricks, Amazon Redshift Spectrum y Snowflake, otros proveedores en el mercado de lagos de datos incluyen a Microsoft, con su plataforma de lago Azure Synapse, y Google, con su BigLake en Google Cloud Platform, asà como la plataforma de lago de datos Starburst.
Acelerar el procesamiento de datos para obtener mejores resultados de salud
Una empresa que aprovecha estos y otros beneficios de los data lakehouses es la empresa de servicios y análisis de ciencias de la vida IQVIA.
Antes de la pandemia, las compañÃas farmacéuticas que realizaban ensayos de medicamentos solÃan enviar empleados a hospitales y otros sitios para recopilar datos sobre efectos adversos, dice Wendy Morahan, directora sénior de análisis de datos clÃnicos en IQVIA. “Asà es como se aseguran de que el paciente esté seguroâ€.
Sin embargo, una vez que golpeó la pandemia y se bloquearon los sitios, las compañÃas farmacéuticas tuvieron que luchar para descubrir cómo obtener los datos que necesitaban, y obtenerlos de una manera que cumpliera con las regulaciones y lo suficientemente rápido como para permitirles detectar problemas potenciales. lo más rápido posible.
Además, con el auge de los dispositivos portátiles en el cuidado de la salud, “ahora se recopilan cientos de miles de puntos de datosâ€, agrega Morahan.
IQVIA ha estado desarrollando tecnologÃa para hacer precisamente eso durante los últimos 20 años, dice su colega Suhas Joshi, también directora sénior de análisis de datos clÃnicos en la empresa. Hace aproximadamente cuatro años, la empresa comenzó a usar data lakehouses para este propósito, incluidos Databricks y la funcionalidad de data lakehouse ahora disponible con Snowflake.
“Con Snowflake y Databricks, tiene la capacidad de almacenar los datos sin procesar, en cualquier formatoâ€, asevera Joshi. “Recibimos muchas imágenes y audio. Obtenemos todos estos datos y los usamos para monitorear. En el pasado, habrÃa implicado pasos manuales, yendo a diferentes sistemas. HabrÃa tomado tiempo y esfuerzo. Hoy, podemos hacerlo todo en una sola plataformaâ€.
El proceso de recopilación de datos también es más rápido, dice. En el pasado, la empresa tenÃa que escribir código para adquirir datos. Ahora, los datos pueden incluso analizarse sin tener que procesarlos primero para que se ajusten a un formato de base de datos.
Tome el ejemplo de una paciente en un ensayo de medicamentos que obtiene un resultado de laboratorio que muestra que está embarazada, pero el formulario de embarazo no se llenó correctamente y el medicamento es dañino durante el embarazo. O un paciente que tiene un evento adverso y necesita medicación para la presión arterial, pero no se le recetó la medicación. No detectar estos problemas rápidamente puede tener consecuencias drásticas. “PodrÃa estar arriesgando la seguridad de un pacienteâ€, concluye Joshi.
Maria Korolov, CIO.com
