Al combinar la estructura de los data warehouses y la flexibilidad de los data lakes, los ‘data lakehouses’ están demostrando ser herramientas versátiles para aprovechar al máximo cualquier dato que desee recopilar.
Para las empresas que buscan obtener el máximo valor de sus datos, especialmente en tiempo real, el concepto de “data lakehouse” está comenzando a ponerse de moda.
La idea detrás de un data lakehouse es fusionar lo mejor que los data lakes y los data warehouse tienen para ofrecer, explica Adam Ronthal, analista de Gartner.
Los data warehouses, por su parte, permiten a las empresas almacenar grandes cantidades de datos estructurados con esquemas bien definidos. Están diseñados para admitir una gran cantidad de consultas simultáneas y entregar los resultados rápidamente a muchos usuarios simultáneos.
Por su parte, los lagos de datos o data lakes permiten a las empresas recopilar datos sin estructurar y sin procesar en muchos formatos para que los analistas de datos los busquen. Estos grandes conjuntos de datos han cobrado importancia últimamente gracias a la flexibilidad que brindan a las empresas para almacenar grandes flujos de datos sin tener que definir primero el propósito de hacerlo.
El mercado para estos dos tipos de repositorios de big data está “convergiendo en el concepto de data lakehouse”, agrega Ronthal, con proveedores de almacenes de datos establecidos que agregan la capacidad de administrar datos no estructurados y proveedores de lagos de datos que agregan estructura a sus ofertas.
Por ejemplo, en AWS, las empresas ahora pueden emparejar Amazon Redshift, un data warehouse con Amazon Redshift Spectrum, lo que permite que Redshift llegue a los data lakes S3 no estructurados de Amazon. Mientras tanto, el lago de datos Snowflake ahora puede admitir datos no estructurados con tablas externas, señala Ronthal.
Cuando las empresas tienen lagos y almacenes separados, y los datos deben moverse de uno a otro, lo cual cuesta tiempo y dinero, agrega Ronthal. La combinación de las dos tecnologías en una plataforma reduce el esfuerzo y el movimiento de datos, lo que acelera el ritmo de conocimiento de los mismos.
Y, dependiendo de la plataforma, un data lake también puede ofrecer otras características, como soporte para transmisión de datos, aprendizaje automático y colaboración, brindando herramientas adicionales a las empresas para aprovechar al máximo sus datos.
Este es un vistazo a los beneficios de los lagos de datos y cómo varias organizaciones líderes están cumpliendo su promesa como parte de sus estrategias de análisis.
Mejorando la experiencia de los videojuegos
El uso de repositorios de datos por parte de Sega Europa en apoyo de sus videojuegos ha evolucionado considerablemente en los últimos años.
En 2016, la empresa comenzó a utilizar el data warehouse de Amazon Redshift para recopilar datos de eventos de su videojuego Football Manager. Al principio, estos datos de eventos consistían simplemente en jugadores que abrían y cerraban juegos. La empresa tenía dos miembros del personal que investigaban estos datos, que se transmitían a Redshift a una velocidad de diez eventos por segundo.
“Pero había muchos más datos que podríamos recopilar, como qué equipos manejaba la gente o cuánto dinero gastaba”, señala Felix Baker, jefe de servicios de datos de la empresa.
En 2017, Sega Europe recopilaba 800 eventos por segundo, con cinco empleados trabajando en la plataforma. Para 2020, el sistema de la empresa capturaba 7000 eventos por segundo de una cartera de 30 juegos de Sega, con 25 empleados involucrados.
En ese momento, el sistema estaba comenzando a llegar a sus límites, recuerda Baker. Debido a las estructuras de datos necesarias para su inclusión en el almacén de datos, los datos llegaban en lotes y se tardaba entre media hora y una hora en analizarlos, dice.
“Queríamos analizar los datos en tiempo real”, agrega, pero esta funcionalidad no estaba disponible en Redshift en ese momento.
Después de realizar pruebas de concepto con tres plataformas: Redshift, Snowflake y Databricks, Sega Europe decidió usar Databricks, uno de los pioneros de la industria de lagos de datos.
“Databricks ofreció una solución de servicios administrados lista para usar que hizo lo que necesitábamos sin que tuviéramos que desarrollar nada”, dice. Eso incluía no solo la transmisión en tiempo real, sino también el aprendizaje automático y los espacios de trabajo colaborativos.
Además, la arquitectura de data lakehouse permitió a Sega Europa ingerir datos no estructurados, como fuentes de redes sociales, también.
“Con Redshift, teníamos que concentrarnos en el diseño del esquema”, dice Baker. “Cada tabla tenía que tener una estructura establecida antes de que pudiéramos comenzar a ingerir datos. Eso lo hizo torpe de muchas maneras. Con el lago de datos, ha sido más fácil”.
La plataforma Databricks de Sega Europe entró en producción en el verano de 2020. Dos o tres consultores de Databricks trabajaron junto con seis o siete personas de Sega Europe para poner en marcha la solución de transmisión, igualando lo que la compañía tenía previamente con Redshift. La nueva casa del lago está construida en tres capas, la capa base de las cuales es solo una mesa grande en la que se vuelca todo.
“Si los desarrolladores crean nuevos eventos, no tienen que decirnos que esperemos nuevos campos; literalmente, pueden enviarnos todo, y luego podemos crear trabajos sobre esa capa y transmitir los datos que adquirimos”, añade.
La transición a Databricks, que se basa en Apache Spark, fue fluida para Sega Europe, gracias a la experiencia previa con el motor de código abierto para el procesamiento de datos a gran escala.
“Dentro de nuestro equipo, ya teníamos bastante experiencia con Apache Spark”, argumenta Baker. “Eso significaba que podíamos configurar transmisiones muy rápidamente en función de las habilidades que ya teníamos”.
En la actualidad, la empresa procesa 25,000 eventos por segundo, con más de 30 empleados de datos y 100 títulos de juegos en el sistema. En lugar de tardar entre 30 minutos y una hora en procesarse, los datos están listos en un minuto.
“El volumen de datos recopilados ha crecido exponencialmente”, dice Baker. De hecho, después del golpe de la pandemia, el uso de algunos juegos se duplicó.
La nueva plataforma también ha abierto nuevas posibilidades. Por ejemplo, la asociación de Sega Europe con Twitch, una plataforma de transmisión donde las personas ven a otras personas jugar videojuegos, se ha mejorado para incluir una transmisión de datos para su juego Humankind, de modo que los espectadores puedan obtener el historial de un jugador, incluidos los niveles que completó, el batallas que ganaron y las civilizaciones que conquistaron.
“La superposición en Twitch se actualiza a medida que juegan”, dice Baker. “Ese es un caso de uso que no hubiéramos podido lograr antes de Databricks”.
La compañía también comenzó a aprovechar las capacidades de aprendizaje automático de Lakehouse. Por ejemplo, los científicos de datos de Sega Europe han diseñado modelos para descubrir por qué los jugadores dejan de jugar y hacer sugerencias sobre cómo aumentar la retención.
“La velocidad a la que se pueden construir estos modelos ha sido realmente increíble”, asevera Baker. “Simplemente están produciendo estos modelos, al parecer, cada dos semanas”.
Los beneficios comerciales de los lagos de datos
La flexibilidad y la naturaleza general de las data lakehouses está resultando rápidamente atractiva para las organizaciones que buscan capitalizar sus activos de datos, especialmente como parte de iniciativas digitales que permiten un acceso rápido a una amplia gama de datos.
“El principal impulsor de valor son las eficiencias de costos que se habilitan al proporcionar una fuente para todos los datos estructurados y no estructurados de una organización”, externa Steven Karan, vicepresidente y jefe de información y datos de la consultora Capgemini Canadá, quien ha ayudado a implementar lagos de datos en organizaciones líderes en servicios financieros, telecomunicaciones y comercio minorista.
Además, los lagos de datos almacenan datos de tal manera que están disponibles para su uso por una amplia gama de tecnologías, desde inteligencia comercial tradicional y sistemas de informes hasta aprendizaje automático e inteligencia artificial, agrega Karan. “Otros beneficios incluyen redundancia de datos reducida, operaciones de TI simplificadas, un esquema de datos simplificado para administrar y una gobernabilidad de datos más fácil de habilitar”.
Un caso de uso particularmente valioso para los lagos de datos es ayudar a las empresas a obtener valor de los datos que antes estaban atrapados en sistemas heredados o en silos. Por ejemplo, un cliente empresarial de Capgemini, que había crecido a través de adquisiciones durante una década, no podía acceder a datos valiosos relacionados con los revendedores de sus productos.
“Al migrar los datos en silos de los almacenes de datos heredados a un lago de datos centralizado, el cliente pudo comprender a nivel empresarial cuáles de sus socios revendedores eran más efectivos y cómo los cambios, como los programas de referencia y las estructuras, generaron ingresos”, comenta.
Poner los datos en un solo data lake hace que sea más fácil de administrar, asegura Meera Viswanathan, gerente sénior de productos en Fivetran, una empresa de canalización de datos. Las empresas que tradicionalmente han usado lagos de datos y almacenes de datos a menudo tienen equipos separados para administrarlos, lo que hace que sea confuso para las unidades de negocios que necesitan consumir los datos, dice.
Además de Databricks, Amazon Redshift Spectrum y Snowflake, otros proveedores en el mercado de lagos de datos incluyen a Microsoft, con su plataforma de lago Azure Synapse, y Google, con su BigLake en Google Cloud Platform, así como la plataforma de lago de datos Starburst.
Acelerar el procesamiento de datos para obtener mejores resultados de salud
Una empresa que aprovecha estos y otros beneficios de los data lakehouses es la empresa de servicios y análisis de ciencias de la vida IQVIA.
Antes de la pandemia, las compañías farmacéuticas que realizaban ensayos de medicamentos solían enviar empleados a hospitales y otros sitios para recopilar datos sobre efectos adversos, dice Wendy Morahan, directora sénior de análisis de datos clínicos en IQVIA. “Así es como se aseguran de que el paciente esté seguro”.
Sin embargo, una vez que golpeó la pandemia y se bloquearon los sitios, las compañías farmacéuticas tuvieron que luchar para descubrir cómo obtener los datos que necesitaban, y obtenerlos de una manera que cumpliera con las regulaciones y lo suficientemente rápido como para permitirles detectar problemas potenciales. lo más rápido posible.
Además, con el auge de los dispositivos portátiles en el cuidado de la salud, “ahora se recopilan cientos de miles de puntos de datos”, agrega Morahan.
IQVIA ha estado desarrollando tecnología para hacer precisamente eso durante los últimos 20 años, dice su colega Suhas Joshi, también directora sénior de análisis de datos clínicos en la empresa. Hace aproximadamente cuatro años, la empresa comenzó a usar data lakehouses para este propósito, incluidos Databricks y la funcionalidad de data lakehouse ahora disponible con Snowflake.
“Con Snowflake y Databricks, tiene la capacidad de almacenar los datos sin procesar, en cualquier formato”, asevera Joshi. “Recibimos muchas imágenes y audio. Obtenemos todos estos datos y los usamos para monitorear. En el pasado, habría implicado pasos manuales, yendo a diferentes sistemas. Habría tomado tiempo y esfuerzo. Hoy, podemos hacerlo todo en una sola plataforma”.
El proceso de recopilación de datos también es más rápido, dice. En el pasado, la empresa tenía que escribir código para adquirir datos. Ahora, los datos pueden incluso analizarse sin tener que procesarlos primero para que se ajusten a un formato de base de datos.
Tome el ejemplo de una paciente en un ensayo de medicamentos que obtiene un resultado de laboratorio que muestra que está embarazada, pero el formulario de embarazo no se llenó correctamente y el medicamento es dañino durante el embarazo. O un paciente que tiene un evento adverso y necesita medicación para la presión arterial, pero no se le recetó la medicación. No detectar estos problemas rápidamente puede tener consecuencias drásticas. “Podría estar arriesgando la seguridad de un paciente”, concluye Joshi.
Maria Korolov, CIO.com