A medida que los datos crecen, los términos que utilizamos para describir dónde y cómo se almacenan han evolucionado, desde las bases de datos hasta los almacenes de datos y ahora los lagos de datos (data lakes). Pero el tamaño no es lo único que diferencia este nuevo concepto de sus antecesores.
¿Qué es un lago de datos?
Se cree que James Dixon, CTO de la plataforma de software de inteligencia empresarial Pentaho, acuñó el término “lago de datos” cuando comparó esta forma de almacenamiento con un centro de datos: “Si usted piensa en un centro de datos como un almacén de agua embotellada –limpio, empaquetado y estructurado para un fácil consumo– el lago de datos es una gran masa de agua en un estado más natural. El contenido del lago de datos proviene de una fuente para llenarlo, y varios usuarios del lago pueden examinarlo , bucear o tomar muestras “, afirmó Dixon.
En resumen, un lago de datos es un repositorio de almacenamiento –ya sea en las instalaciones, en la nube con Google, Microsoft, Oracle o Amazon, o híbrido– que puede acomodar un flujo constante de datos entrantes, de múltiples fuentes, en su formato original. Por lo general, estos se construyen utilizando Hadoop o tecnologías de Big Data que permiten a las organizaciones almacenar volúmenes significativos de datos de manera rentable.
¿Qué hace?
Fundamentalmente, un lago de datos contiene datos en su forma más cruda, sin la necesidad de que hayan sido procesados o analizados. La fuente de estos datos puede ser relacional (desde bases de datos operativas o aplicaciones de línea de negocios) o no relacional (desde aplicaciones móviles, dispositivos IoT y redes sociales).
Una vez que se han importado los datos, las funciones dentro de su organización, como los científicos de datos, desarrolladores o analistas de negocios, pueden rastrear, catalogar, indexar y analizarlos sin la necesidad de que se ejecuten a través de un sistema de análisis independiente.
¿Cómo podría beneficiar a mi negocio?
Debido a que los datos se importan “tal cual”, es posible trabajar en una amplia gama de aplicaciones, que incluyen procesamiento de datos grandes, visualización de éstos, herramientas de Aprendizaje Automático e Inteligencia Artificial. Este nivel de agilidad analítica puede traducirse en un importante roI.
Una encuesta realizada por la firma de consultoría Aberdeen encontró que las organizaciones con un lago de datos superaron a las empresas similares en un 9% en el crecimiento orgánico de los ingresos, mientras que Markets and Markets estima que el mercado de los lagos de datos tendrá un valor de casi $ 9bn para el 2021.
“¿Necesito uno?”
Esta es una pregunta razonable, debido a las advertencias cargadas de fatalidad acerca de que los lagos de datos se convierten en “pantanos” rebosantes de petabytes inútiles. Sin embargo, según un artículo publicado en Forbes.com por Shant Hovsepian, cofundador y CTO de Arcadia Data, la mayoría de las organizaciones que usan lagos de datos tienen aspectos positivos qué aportar, en particular sobre su capacidad para permitir que los usuarios no técnicos analicen los datos.
Entre las principales firmas promotoras de esta tecnología está Epic Games, que utiliza un lago de datos para almacenar y analizar la cantidad colosal de datos de clientes, servidores y servicios generados por Fortnite, el juego más popular del mundo.
¿Cómo aseguro la información almacenada de esta manera?
La flexibilidad y la agilidad de los lagos de datos: le permiten volcar los datos en su formato original y pueden convertirse en una caja de arena en la que los analistas y desarrolladores pueden jugar. Además de su almacenamiento en la nube, los convierte en una posible pesadilla de seguridad, especialmente de un regulador. Punto de vista del cumplimiento. Se deben aplicar la autenticación, los controles de acceso y el cifrado de datos, todo el tráfico al lago debe estar protegido y analizado, y se debe hacer una copia de seguridad de los datos para evitar el riesgo de un ataque de ransomware. (Con información del blog /Review, de Gemalto).