Big Data, riesgos y oportunidades

British Telecom tenÃa un problema: La compaÃ±Ãa estaba sufriendo una serie continua de violaciones de seguridad, de tipo fÃsico, no cibernÃ©tico. Los ladrones estaban robando cables de cobre subterrÃ¡neos de la compaÃ±Ãa.

Obviamente, para un proveedor de servicios como BT, el problema no era solo por el costo de reemplazar el cable. TambiÃ©n se trataba de las relaciones con los clientes. “Se estaba daÃ±ando la marca”, explicÃ³ Bryan Fite, gerente de portafolio de seguridad y movilidad de BT para EE.UU. y CanadÃ¡, anotando que cada vez que habÃa un robo, los clientes perdÃan el servicio. Un informe publicado enÂ The RegisterÂ seÃ±ala que el robo de metal estaba costando a los contribuyentes 700 millones de libras por aÃ±o.

Este robo no incluyÃ³ datos. Pero fueron los datos los que resolvieron el problema: anÃ¡lisis de big data. Fite seÃ±ala que BT tenÃa herramientas eficaces para investigar los crÃmenes, pero no las estaba usando para sacar el mÃ¡ximo provecho. TenÃa mÃºltiples redes de sensores que podÃan detectar cuÃ¡ndo la gente estaba en las pistas o en los cables; un sistema de fallas que indicaba cuÃ¡ndo un cable se habÃa cortado, y un circuito cerrado de TV y monitores. “Pero todos estaban aislados independiente. Un anÃ¡lisis de Big Data nos permitiÃ³ colocar todo esto en un motor de anÃ¡lisis. La policÃa hizo su parteâ€, agrega.

En uno de esos casos, dos hombres fueron condenados en febrero pasado a 16 meses de cÃ¡rcel despuÃ©s de que admitieron haber robado cientos de metros de cables de cobre de las ubicaciones en Teddington y Sussex. “Cuando superpones sensores, ese es un buen uso de la tecnologÃa”, aÃ±ade Fite.

El anÃ¡lisis de Big Data tambiÃ©n jugÃ³ un papel en la reciente condena de dos jugadores de fÃºtbol de la escuela secundaria en Steubenville, Ohio, por violar a una adolescente de 16 aÃ±os de edad.

Richard A. Oppel Jr., al escribir en el New York Times, seÃ±alÃ³: “El veredicto llegÃ³ despuÃ©s de cuatro dÃas de testimonios que fueron notables por la forma en que los fiscales e investigadores criminales forenses de Ohio analizaron cientos de mensajes de texto de mÃ¡s de una docena de telÃ©fonos celulares, y crearon algo asÃ como un recuento de los eventos que rodearon al incidente, incluso despuÃ©s”.

Mientras cientos de mensajes de texto no son gran volumen para Big Data, el anÃ¡lisis sÃ lo es. Establecer conexiones entre informaciÃ³n -que de otra forma estarÃa dispersa- era algo que no se habÃa hecho antes.

De hecho, el Big Data ha revolucionado las operaciones de marketing y operaciones, asÃ que tiene sentido tambiÃ©n que estÃ© revolucionando las investigaciones, las cuales tratan, despuÃ©s de todo, de recopilar y analizar informaciÃ³n. El anÃ¡lisis de Big Data deberÃa hacerlas mÃ¡s rÃ¡pidas, mÃ¡s fÃ¡ciles y mÃ¡s exactas, Â¿verdad?

Tal vez, pero con algunas salvedades. Big Data ofrece grandes oportunidades para mejorar las investigaciones, de acuerdo con numerosos CSO y CISO; pero ellos afirman que tambiÃ©n trae nuevas responsabilidades y grandes riesgos. Como suele ser el caso, la tecnologÃa tiende a ganarle la carrera a la capacidad de las personas y los sistemas de gestiÃ³n y control, y a la capacidad del gobierno para regular con eficacia.

Los riesgos que no ve venir
Kim Jones, vicepresidente senior y CSO de Vantiv, una empresa de procesamiento de pagos con sede en Cincinnati, da la bienvenida a la posibilidad de acceder, agregar y analizar mucha mÃ¡s informaciÃ³n, diciendo que esto le deberÃa permitir “examinar los detalles de un incidente con mayor claridad y certeza que en el pasado, y mÃ¡s rÃ¡pidamente. Creo que esas oportunidades existen y las herramientas estÃ¡n disponibles para hacer que esto ocurraâ€.

Sin embargo, su entusiasmo se ve atenuado por la realidad de que los diferentes conjuntos de datos que antes eran segregados, puedan -cuando se combinan y mezclan- “crear problemas de seguridad, privacidad y de regulaciÃ³n dentro de nuestro ambiente. Individualmente, los elementos estÃ¡n muy bien, pero cuando se combinan, no lo estÃ¡nâ€.

Un ejemplo, seÃ±ala, son diferentes piezas de informaciÃ³n acerca de una persona que figura en varias bases de datos que estÃ¡n destinadas a estar separadas. “Pero si yo tengo una persona que tiene autorizaciÃ³n para colocar todos los datos en un agregador, puedo crear un escenario en el que tengo datos que son mÃ¡s sensibles que las partes individuales”, seÃ±ala. “La HIPAA (Health Insurance Portability y Accountability Act o ley de portabilidad de seguros de salud y responsabilidad) habla de esto, que los datos separados no constituyen IPI (informaciÃ³n personal identificable), pero al ponerlos juntos, lo son.

“Creo que el 95% de las empresas no estÃ¡n al dÃa en eso”, seÃ±ala Jones.

No es que Big Data sea la nueva palabra de moda. Ha sido ampliamente abordada por los medios de comunicaciÃ³n por su valor de mercado. Incluso se ha llegado a un punto donde Svetlana Sicular, directora de investigaciÃ³n de Gartner, escribiÃ³ en una reciente entrada de blog que de acuerdo con la “curva de ciclo de popularidad de Gartnerâ€, Big Data ha pasado el pico de las expectativas infladas, y â€œha caÃdo en el pozo de la desilusiÃ³n”.

Esto, se apresurÃ³ a aÃ±adir, no significa que Big Data estÃ© obsoleto, o incluso que haya declinado su relevancia, solo que la visiÃ³n de sus usuarios estÃ¡ madurando hacia un panorama mÃ¡s realista de su valor. Pero cuando se trata de investigaciones, hay un acuerdo general que la habilidad de las empresas y los reguladores de Gobierno para controlar y administrar esto, aÃºn tiene un camino pendiente para conseguir la madurez.

Hasta ahora, Big Data no es una herramienta importante, al menos directamente, de la Oficina de derechos civiles del Departamento federal de Salud y Servicios Humanos, la cual investiga las presuntas violaciones de la HIPAA. El director de OCR, LeÃ³n RodrÃguez, seÃ±ala que el papel de la agencia es tomar una mirada mÃ¡s “macro” de cÃ³mo se producen las infracciones y quÃ© tipo de riesgos y vulnerabilidades conducen a ellas, en lugar de procesar y analizar grandes cantidades de datos.

Â¿QuiÃ©n tiene la responsabilidad?
El anÃ¡lisis de Big Data, seÃ±ala RodrÃguez, es responsabilidad de los proveedores de servicios mÃ©dicos y/o de sus asociados de negocios que almacenan y manejan informaciÃ³n de salud protegida (PHI, por sus siglas en inglÃ©s), por ejemplo. Ellos estÃ¡n obligados a utilizar ciertas garantÃas para proteger esa informaciÃ³n, asÃ como a reportar toda infracciÃ³n de 500 o mÃ¡s registros a la HHS y a los medios de comunicaciÃ³n.

En el pasado, aÃ±ade RodrÃguez, las principales fuentes de informaciÃ³n sobre violaciones fueron los pacientes. “Pero solo tienen visiÃ³n reducida de lo que estÃ¡ pasando. Lo que ha cambiado es que ahora estamos recibiendo informes de infracciones a gran escala que involucran a millones de registros. Nunca estuvimos en ese entorno antes. Pero es bueno, porque se produce en un momento en que mÃ¡s y mÃ¡s datos sobre la salud estÃ¡n siendo almacenados electrÃ³nicamente y se agregan”, comenta.

RodrÃguez seÃ±ala que su agencia tiene la capacidad tÃ©cnica para entender lo que los proveedores de salud y los custodios de los datos estÃ¡n haciendo; sin embargo, agregÃ³: “estamos muy interesados en sus procesos de negocio, en lugar de lo que lo estÃ¡bamos en los datos que fueron violadosâ€.

Sin embargo, incluso si algunas de las exageraciones iniciales eran excesivas, Big Data tiene un valor siempre en expansiÃ³n.

Lo que se consideraba grande hace dos aÃ±os, ahora se considera medio; y en unos aÃ±os mÃ¡s serÃ¡n considerados relativamente insignificante. IBM seÃ±ala que todos los dÃas, “creamos 2,5 trillones de bytes de datos -tanto que el 90% de los datos en el mundo de hoy se ha creado en los Ãºltimos dos aÃ±os”.

Todd Marlin, en un blog deÂ Resumen Forense de Ernst & Young, observÃ³ queÂ â€œHoy, una hora del dÃa en una cadena de tiendas de retail tÃpica puede crear millones de registros de transacciones. La totalidad de los datos del sector privado se duplica cada 14 mesesâ€.

“Tenga en cuenta que cuando su empresa deja la liga de los petabytes de almacenamiento y se traslada a los exabytes (eso es alrededor de mil petabytes), estÃ¡ entonces trabajando en una organizaciÃ³n que almacena mÃ¡s datos que los generados por la totalidad de la civilizaciÃ³n humana hasta hace unos 20 aÃ±os”, escribiÃ³.

Datos donde menos lo pensaba
Tampoco se trata solo de mayor cantidad de los mismos datos que han sido recopilados por generaciones. Se trata de fuentes que no existÃan hasta hace una dÃ©cada: sensores en todo, desde autos inteligentes hasta dispositivos inteligentes, televisores y estaciones meteorolÃ³gicas; medidores inteligentes para servicios pÃºblicos; biosensores de salud que pueden monitorear todo, desde la frecuencia cardiaca hasta el efecto de los medicamentos en el cuerpo; monitores HVAC, sensores de trÃ¡fico, transacciones en cajeros automÃ¡ticos, mensajes en redes sociales; fotos y videos digitales georeferenciadas, registros de transacciones de compra, seÃ±ales de GPS del telÃ©fono celular, clics, archivos de bitÃ¡coras y mÃ¡s.

Hay juegos de herramientas, algunas de ellas de cÃ³digo abierto, como Apache Hadoop, que pueden reunir, compartir y analizar el constante y vertiginoso flujo de datos estructurados y no estructurados corriendo hacia las redes -ofrecen velocidad y la capacidad de establecer conexiones entre conjuntos de datos aparentemente desconectados.

Y la capacidad de acceder y analizar todos esos datos conduce hacia la inteligencia. A Kim Jones le gusta hablar acerca de las diferencias entre datos, informaciÃ³n e inteligencia. Uno de sus ejemplos favoritos es uno sobre un nÃºmero aparentemente aleatorio de 10 dÃgitos.Â â€œQuizÃ¡s sea una cifra de mÃ¡s de tres mil millonesâ€Â seÃ±ala. QuizÃ¡s es un nÃºmero telefÃ³nico internacional. QuizÃ¡s es un cÃ³digo de barras de 10 dÃgitos de algo. O quizÃ¡s sea un telÃ©fono de los EE.UU. que en este caso lo es.

â€œSi aÃ±ado eso a otras piezas de informaciÃ³n que puedan existir por ahÃ, como los primeros tres nÃºmeros (301) siendo el cÃ³digo de Ã¡rea de Maryland y el hecho de que yo solÃa vivir en Maryland a finales de los 90, serÃ¡s capaz de hacer cierto anÃ¡lisis predictivo y extrapolar mi antiguo nÃºmero telefÃ³nicoâ€, agrega.

Bob Rudis, director de seguridad de la informaciÃ³n empresarial y administraciÃ³n de riesgo en Liberty Mutual, habla de la palabra de modaÂ â€œBig Dataâ€, comoÂ â€œanÃ¡lisis de seguridad agregada de gran escalaâ€; pero dice que no ve organizaciones,Â â€œincluyendo en la que trabajo, adoptando el potencial de los avances de anÃ¡lisis de datos orientados a la seguridad, para ayudar a acelerar y mejorar en forma general las investigaciones forensesâ€.

“Algo le puede tomar a una organizaciÃ³n unas horas o dÃas para obtener inteligencia, o puede tomar minutos con las personas, los procesos y la tecnologÃa precisasâ€, seÃ±ala.

Rudis agrega que Liberty Mutual es tambiÃ©nÂ â€œparte de un grupo multisectorial regional que estÃ¡ trabajando para desarrollar una forma en que los miembros de la organizaciÃ³n compartan sus datos orientados a la seguridad, en un solo gran sistema que pueda ser capaz de hacer anÃ¡lisis a escala muy grande en toda la organizaciÃ³n con un propÃ³sito: ser capaz de compartir indicadores conocidos de ataques, asÃ como ver si ya hay indicadores en esas redesâ€.

Eddie Schwartz, CISO de RSA, seÃ±ala que Big Data convierte el modelo tradicional de investigaciÃ³n y defensa contra ataques en una red,Â â€œen su cabeza, al agregar nuevo contenido, contexto y mÃ©todos analÃticosâ€.

Schwartz agrega que Big Data permite un “modelo predictivo y proactivo”, que al centrarse en la operaciÃ³n de un negocio, incluyendo las transacciones, puede identificar o incluso anticipar ataques.

Y las compaÃ±Ãas de seguros que investigan un accidente ahora pueden combinar datos de sensores de automÃ³viles con lecturas del tiempo y los datos de trÃ¡fico, para obtener una mejor comprensiÃ³n de las condiciones que rodean un reclamo.

Tener las herramientas y los datos no es suficiente
Pero esas ventajas investigativas vienen con mÃ¡s demanda y mÃ¡s riesgos.

El simple hecho de tener la tecnologÃa no garantiza el uso eficaz de Big Data. Stefen Smith, CSO en SecureForce, estÃ¡ de acuerdo con Kim Jones en que la mayorÃa de las empresas no estÃ¡n al dÃa cuando se trata de anÃ¡lisis de Big Data.

Las herramientas ahora disponibles, que ademÃ¡s de Hadoop incluye Greenplum de EMC, Teradata, Vertica y Palantir de HP, ofrecen mucho valor, seÃ±ala, pero necesitan una gran cantidad de experiencia humana para utilizarla con eficacia, ya que todas son tecnologÃas diferentes que se centran en diferentes Ã¡reas.

“Para encontrar datos relacionados con una amenaza interna o con el cumplimiento de una normativa, las cosas tienen que ser configuradas para encontrar lo que es importante para la organizaciÃ³n”, seÃ±ala. “Hasta que alguien sea capaz de implementar estas tecnologÃas dispares, va a ser difÃcil para las organizaciones alcanzar el Ã©xito”.

Un fabricante, seÃ±ala Smith, tiene una “suite impresionante”, pero en su sitio web anota que se necesita de la experiencia de cientÃficos de datos. Agrega que se estÃ¡ hablando de la necesidad de personas con grados avanzados que sepan cÃ³mo buscar patrones, encontrarlos y organizarlos.

Bob Rudis estÃ¡ de acuerdo. “No es realmente acerca de las herramientas -seÃ±ala-. Se trata de las personas y los procesos”.

Eso incluye, agrega, respaldo (incluyendo dinero y las directrices de polÃtica) de la alta direcciÃ³n, gente de seguridad inteligente que sepa quÃ© preguntas hacer; un anÃ¡lisis inteligente de datos de las personas que sepan cÃ³mo hacer esas preguntas; y una gobernanza sÃ³lida asÃ como modelos de mantenimiento en el lugar para asegurarse de que las herramientas y los procesos se mantengan al dÃa. Todo eso -seÃ±ala-, mÃ¡s el almacenamiento, representa montones de datos.

De BT, Bryan Fite, tambiÃ©n enfatiza en el elemento humano. “Big Data no funciona si no tienes las personas para manejarlo. No se puede comprar tecnologÃa y deshacerse de los seres humanos”, precisa.

Luego estÃ¡n los riesgos y responsabilidades. El hecho de que las herramientas estÃ©n disponibles para agregar y analizar grandes volÃºmenes de datos, significa que los reguladores y los tribunales esperan cada vez mÃ¡s que los que participan en los procedimientos de investigaciÃ³n hagan uso de ellos.

Heather Clancy, seÃ±alÃ³ enÂ Smart PlanetÂ que “la tecnologÃa de anÃ¡lisis y Big Data estÃ¡ haciendo del software deÂ e-discoveryÂ mÃ¡s inteligente, ayudando a los departamentos jurÃdicos a evitar costosas multas asociadas al no presentar todos los documentos relevantes relacionados con juicios u otras investigaciones del gobierno”.

Pero fracasar al usarlo, seÃ±alÃ³Â â€œpuede ser tambiÃ©n una enorme responsabilidad. Considere el caso de Qualcomm y Broadcom en el 2008, que estuvieron envueltos en una disputa de patentes. En el camino, las cosas se pusieron feas cuando el juez multÃ³ Qualcomm con 8,5 millones de dÃ³lares por la retenciÃ³n de evidencia”.

En las investigaciones policiales, la realidad de Big Data significa recopilar mÃ¡s que la computadora portÃ¡til de un sospechoso. La lista tambiÃ©n incluye discos duros sueltos, mÃ³dems, routers, cÃ¡maras digitales, consolas de videojuegos y, por supuesto smartphones o tablets.

Una estrategia legal cambiante
Kim Jones seÃ±ala que tambiÃ©n estÃ¡ cambiando la estrategia legal. Una prÃ¡ctica habitual, durante largo tiempo, ha sido que cuando una parte solicita datos para un juicio o proceso, inunde a la otra con datos, bajo el supuesto de que nunca van a encontrar lo que estÃ¡n buscando. Pero Big Data permite encontrarlo. Peor aÃºn, dada la capacidad analÃtica de las herramientas, podrÃan encontrar mÃ¡s de lo que pensaron que harÃan”.

“Cuando pienso en su aplicaciÃ³n en las investigaciones, eso puede conducir a mÃ¡s investigaciones”, seÃ±ala.

Y luego estÃ¡ el riesgo de la violaciÃ³n de la privacidad personal. Como han seÃ±alado los expertos, la capacidad casi mÃ¡gica de la analÃtica de Big Data para establecer conexiones aparentemente al azar, de pedazos inconexos de datos, tambiÃ©n puede ser una maldiciÃ³n.

David Navetta, en un post en Information Law Group, ilustra ese riesgo. Una persona que consiente que su informaciÃ³n personal sea recopilada y utilizada con fines de marketing, puede encontrar que su informaciÃ³n termina en las manos de un corredor de datos.

Si esa persona compra una freidora, y la informaciÃ³n termina en manos de “una compaÃ±Ãa de seguro de salud, cuyos algoritmos ponen a las personas que compran freidoras en una categorÃa de alto riesgo en el mundo de Big Data; la inicial, relativamente inocua divulgaciÃ³n de datos (a la que se accediÃ³), de repente podrÃa servir como base para negar un servicio mÃ©dico personal (o resultar en tarifas de salud mÃ¡s altas), segÃºn escribiÃ³ Navetta.

La soluciÃ³n a eso, de acuerdo con un nÃºmero de expertos, es que los datos sean anÃ³nimos. Eso, de hecho, es uno de los lineamientos de la Oficina de Derechos Civiles del Departamento de Salud y Servicios Humanos (HHS). Navetta seÃ±ala en su mensaje que el HHS establece dos mÃ©todos para lograr la desidentificaciÃ³n bajo la HIPAA: determinaciÃ³n pericial y ‘puerto seguro’ deÂ â€œdesidentificaciÃ³nâ€(lo que implica la eliminaciÃ³n de 18 tipos de identificadores de datos de salud).

Puede que no sea lo suficientemente bueno, sin embargo. Navetta escribiÃ³ que, “en un ejemplo famoso, como parte de un concurso para crear un mejor motor de recomendaciÃ³n de pelÃculas, Netflix lanzÃ³ un conjunto de datos anÃ³nimos que contenÃa las historias de alquiler de pelÃculas de aproximadamente 480 mil de sus clientes. Los investigadores establecieron que podÃan volver a identificar algunos de los clientes de Netflix mediante el acceso y anÃ¡lisis de informaciÃ³n de dominio pÃºblico disponible referente a la calificaciÃ³n de las pelÃculas realizadas por dichos clientes”.

Bob Rudis aprecia la dificultad. “Mi organizaciÃ³n ha estado legalmente implicada desde el primer dÃa de la distribuciÃ³n de toda la organizaciÃ³n”, seÃ±ala. “Cualquier organizaciÃ³n fuera de Estados Unidos, o una interna con empleados y clientes internacionales, tendrÃ¡ que asegurarse de que estÃ¡n ejecutando bien las tÃ©cnicas de anonimato, lo cual es muy difÃcil de hacer cuando se tiene tantos atributos de tantos sistemas y dispositivos reunidos”.

Rudis seÃ±ala que cree que el riesgo de violaciones de la privacidad, “es bastante significativo como para que cualquier organizaciÃ³n que busque poner a gran escala el anÃ¡lisis de datos de seguridad, deba tambiÃ©n presupuestar el aumento de seguros para cubrir las multas o demandas que surjan”

– Â Taylor Armerding, CSOÂ

Secciones

Síguenos

Contenido Exclusivo

¡Ya está aquí la Revista Digital “Los Mejores 20 CISO de México 2025”!

¡Descarga la Revista Digital “Los Mejores 100 CIO de México 2025”!

“Los 100 Mejores CIO de MÃ©xico” celebran 20 AÃ±os de transformaciÃ³n y liderazgo Ã©tico

Secciones

Síguenos

Lo Más Reciente

84% de las empresas mexicanas recurre a SOCaaS

ESET invertirá 40 millones de euros para combatir los ataques de la IA autónoma

La falta de tecnología en el checkout frustra a los consumidores actuales

La automatización de parches es el nuevo escudo de la ciberseguridad

Newsletter

84% de las empresas mexicanas recurre a SOCaaS

ESET invertirá 40 millones de euros para combatir los ataques de la IA autónoma

La falta de tecnología en el checkout frustra a los consumidores actuales

Acerca de CIO | EDIWORLD

Secciones