“Lago de datos” es un término patentado. “Hemos construido una serie de plataformas de big data que permiten a los clientes ingresar cualquier tipo de datos y asegurar el acceso a los elementos individuales de los datos dentro de la plataforma. A esa arquitectura la llamamos lago de datos”, señala Peter Guerra, director de Booze, Allen, Hamilton. Sin embargo, estos métodos no son exclusivos de Booze, Allen, Hamilton.
“He leído lo que está disponible al respecto”, afirma Stefan Deutscher, director de IT Practice del Boston Consulting Group, hablando del lago de datos; “No veo qué hay de nuevo. Según mi punto de vista, parece una re investigación de los conceptos de seguridad disponibles con un nombre más atractivo”. Aun así, el enfoque está ganando exposición con ese nombre.
De hecho, las empresas están mostrando el suficiente interés como para que los proveedores estén soltando el nombre entre las soluciones del mercado. Tal es el caso de la colaboración entre Capgemini/Pivotal en el “lago de datos empresariales”, donde los proveedores están usando el nombre para resaltar las diferencias entre los productos.
La curiosidad que muestran las empresas se produce debido a la presencia de males reales en el big data, los cuales necesitan de curas igualmente reales. Tanto las agencias gubernamentales como las grandes empresas -y las organizaciones de menor tamaño- usan big data en entornos de nube multitenancy y públicos. Todos los riesgos de la multitenancy se aplican en estos escenarios, incluyendo las vulnerabilidades que vienen con un tenant que tenga una seguridad más débil, el probable acceso por parte de los usuarios de un tenant adyacente, la exposición PII/PHI y el incumplimiento de las normativas. Los lagos de datos pueden proteger al big data de todos los peligros de la nube pública.
Sin embargo, aunque los organismos de defensa necesitan la protección que los lagos de datos ofrecen para cada elemento individual de datos, las empresas comunes no la necesitan. Ni tampoco la mayoría de las compañías puede permitirse el impacto sobre el rendimiento que se produce al usar los lagos de datos. Es por eso que algunos proveedores están usando lagos de datos para proteger la totalidad del big data en lugar de proteger cada pieza, con lo cual evitan el retraso en el rendimiento del enfoque anterior. Las empresas en el mercado de soluciones a los desafíos a la seguridad que ofrecen nube pública, deberían considerar uno o ambos de los enfoques del lago de datos.
Asegurar los elementos de datos
“El concepto general es la capacidad de atraer diferentes tipos de datos, etiquetar esos datos y permitir a los usuarios y administradores asegurar los elementos de datos individuales dentro del lago de datos”, sostiene Guerra. En lugar de ‘desidentificar’ el PII/PHI y proporcionar privacidad de datos en conjunto, el enfoque del lago de datos determina qué partes de los datos son confidenciales y qué partes no lo son, y trabaja con base en esto.
“Nos gusta llevar todos los datos al lago de datos en su formato más puro”, señala Guerra; “no hacemos ninguna extracción o transformación de los datos antes de tiempo”. En cambio, este enfoque marca cada elemento de datos con un conjunto de etiquetas de metadatos y atributos que describen los datos y cómo deben manejarlo los sistemas IAM.
Según Guerra, el sistema IAM hace cumplir la seguridad de los elementos de datos individuales usando reglas basadas en XACML (Extensible Access Control Markup Language). Un administrador o sistema escribe las reglas en el sistema IAM, el cual aplica y hace cumplir esas reglas cuando un usuario se autentica. El sistema pasa las autorizaciones de seguridad del usuario a la arquitectura de big data. “La arquitectura de big data luego empareja las autorizaciones de seguridad individuales con las reglas del XACML y solo devuelve los datos apropiados”, sostiene Guerra.
Pros y contras
Los lagos de datos requieren de acceso basado en roles, políticas y cumplimiento de políticas. “Usted utiliza PKI para asegurar que la persona es quien dice ser, y para enlazar sus atributos a la plataforma que almacena los atributos de los datos individuales para asegurar que la seguridad está completa”, afirma Guerra. El sistema requiere políticas y cumplimiento de políticas para limitar y permitir el acceso basado en las etiquetas y los atributos de los metadatos. El sistema usa una tecnología que maneja las solicitudes de acceso a datos con el fin de hacer cumplir y aplicar la política de seguridad.
“Es muy difícil implementar esos sistemas y el cumplimiento de los atributos en todo el stack de la plataforma del lago de datos”, señala Guerra. Pero él ha trabajado muy de cerca con los clientes como para definir políticas, afirma.
Con este tipo de sistema, un ladrón de datos tendría que romper el perímetro de seguridad alrededor del lago de datos y de la seguridad que protege los elementos de datos individuales para robar algo. El sistema usa PKI para firmar criptográficamente y hacer cumplir las etiquetas de seguridad para los elementos de datos. “No puedes cambiarlas ni romperlas. Un atacante tendría que romper cada etiqueta para acceder a todos los elementos de datos”, indica Guerra.
Sin embargo, este tipo de enfoque requiere un sistema IAM con controles de acceso basados en atributos (ABAC, por sus siglas en inglés). Hay varios proveedores de ABAC en el mercado, pero la escalabilidad y el rendimiento del sistema siguen siendo una preocupación con los sistemas ABAC, según la Publicación Especial 800-162 de NIST, “Guide to Attribute Based Access Control (ABAC) Definition and Considerations” (Enero del 2014).
Pero los sistemas IAM ABAC en un lago de datos no estructurado, funcionan diferente que cuando existen sistemas estructurados y soluciones de seguridad legacy, afirma Jerry Irvine, CIO de Prescient Solutions y miembro del National Cyber Security Task Force. “Los controles de acceso y autorización dentro del lago de datos están distribuidos a lo largo de muchas categorías de servicio y sistemas”, refiere Irvine. Esto compensa la probabilidad de que estos sistemas IAM experimenten problemas de carga y rendimiento en un solo punto de falla.
La manera en que los lagos de datos identifican y etiquetan los datos de las plataformas legacy es otra preocupación. “La mayoría de las aplicaciones no proporcionan suficiente meta información sobre los datos que generas”, señala Deutscher. Esto puede hacer que sea más difícil para los lagos de datos saber cómo etiquetar los elementos de los datos con atributos.
“Lo hemos manejado de un par de maneras”, detalla Guerra. Un método consiste en consultar los sistemas legacy y aplicar atributos etiquetados a los resultados. Otra forma es clasificar los sistemas legacy como un todo. Un pequeño subgrupo de personas puede leer un sistema de transacción financiera más antiguo, por ejemplo. “Nosotros integramos el output de ese sistema legacy y lo jalamos hacia el lago de datos”, indica Guerra. Los datos se convierten en parte del lago y a la vez se conservan los derechos de acceso para las personas adecuadas.
Por último, los lagos de datos permiten a las empresas ingresar diferentes tipos de datos rápidamente y hacer que sean más fáciles de procesar y aprovechar. “Debido a que todos los datos se almacenan sin alterar, las consultas proporcionan un informe más preciso y profundo de la información presentada acerca de los datos”, anota Irvine. Los lagos de datos proporcionan mayores niveles de información a la dirección ejecutiva, revelando correlaciones entre los datos que se pueden haber pasado por alto, lo que les permite tomar decisiones más inteligentes, señala Irvine.
Asegurar solo el lago
“Los lagos de datos pueden actuar como depositarios de la información de los archivos log, la información de los usuarios y la información transaccional y de comportamiento del usuario”, manifiesta Steve Jones, director estratégico de Big Data & Analytics de Capgemini. Las empresas pueden usar cantidades enormes de datos para establecer una base sólida de comportamiento. Los lagos de datos pueden detectar precisa y rápidamente el comportamiento anómalo, intrusiones, robo de propiedad intelectual y fuga de datos.
Este enfoque de lago de datos evita los problemas en costos y desempeño del otro enfoque, que se asocian con el enriquecimiento de cada pieza de datos con metadatos, y con la validación de cada consulta y vista de cada una de las piezas de información, en contra de la política de seguridad, explica Jones.
Si bien el nivel de detalle de la seguridad en el otro enfoque es loable, indica Jones, es probablemente muy caro para la mayoría de empresas. “Los datos en bruto que los lagos de datos pueden almacenar son, sin embargo, útiles al momento de asegurar un enfoque de nube pues permiten el análisis de amenazas, intrusiones y comportamiento anómalo”, señala Jones.
Los CSO necesitan saber lo que están tratando de lograr: “¿una seguridad muy fina solo en el sector de defensa, o simplemente una mejor manera de crear una vista de 360 grados de las amenazas internas y externas?”, pregunta Jones. “Entender el reto principal del negocio los va a ayudar a elegir y emprender el enfoque correcto”, finaliza Jones.
Para muchos, la solución más simple es la correcta.
-David Geer, CSO (EE.UU.)