Big Data es ahora un término familiar en la mayor parte del mundo de los negocios, y las empresas grandes y pequeñas están luchando para tomar ventaja de ello. Los datos agotados, por el contrario, son menos conocidos, y en algunos aspectos son un hermano gemelo malvado. Aquí hay cinco cosas que debe entender acerca de pros y los contras de los datos agotados.
- Básicamente se trata de todos los grandes datos, o Big Data, que no son el núcleo de su negocio.
El término “datos agotados” en realidad ha existido durante más de una década, y surgió con los nuevos flujos de datos procedentes de los teléfonos inteligentes, señaló Tye Rattenbury, director de ciencia de datos e ingeniería de soluciones en “Trifacta”, que hace el software de preparación de datos. Hoy en día, las herramientas de datos más accesibles están trayendo los datos agotados a la delantera.
Si Big Data se refiere a datos “primarios” que se relacionan con la función principal de su negocio, los datos agotados son los secundarios, o cualquier otro que se crean en el camino, explicó Rattenbury.
Por ejemplo, un banco consideraría como primarios todos los datos sobre los débitos y créditos a las cuentas de sus clientes. Los datos secundarios pueden incluir información como qué porcentaje de las transacciones de los clientes se realizan en un cajero automático en lugar de una sucursal física.
No existen definiciones estándar o esquemas de escape de datos, que tienden a ser crudos y no estructurados, pero en muchos aspectos, es equivalente a los subproductos asociados con las máquinas de la empresa y las actividades en línea del núcleo. Puede incluir corrientes que vienen de los navegadores Web, plug-ins, archivos de registro, dispositivos de Internet de las Cosas (IoT por sus siglas en inglés), y más.
- Son típicamente más grandes que ‘Big Data’.
El término “Big Data” es en sí mismo un término relativo, reduciéndose esencialmente a “todo lo que es tan grande que no se puede inspeccionar manualmente o trabajar registro por registro”, anotó Rattenbury. En general, los datos agotados tienden a ser aún más grandes, sobre todo porque hay pocos límites en lo que una empresa puede recolectar.
“Google es el líder aquí”, añadió. “Literalmente recogen todo, incluso antes de saber lo que van a hacer con ellos”.
Eso nos lleva a otra característica interesante de los datos agotados: Pueden llegar a ser datos primarios una vez que se les encuentra un uso.
- Tienen un gran potencial.
Los datos agotados pueden ser de enorme utilidad. En ese ejemplo del banco, por ejemplo, sabiendo donde es que los consumidores llevan a cabo la mayoría de sus transacciones puede ayudar al banco a hacer un mejor trabajo.
“No es central para la operación, pero todavía puede ser enormemente relevante para atender a los clientes en un mejor nivel”, indicó Rattenbury. “Proporciona un nivel de comprensión y contextualización a esa transacción o servicio principal que es cada vez más deseado por los clientes”.
Los datos agotados pueden contener elementos importantes de información que no puede estar buscando hoy, pero que podrían ser útiles en el futuro, señaló María Shacklett, presidente de la firma de investigación “Transworld Data”.
“Una gran cantidad de datos agotados no son inmediatamente valiosos”, indicó Nik Rouda, analista senior de Enterprise Strategy Group. “El truco es saber lo que es o podría ser”.
- Cuidado con el ‘pantano’ -y el bagaje legal
Puede haber riesgos asociados con los datos agotados.
“Esto es por lo general tiene que ver con cosas que los clientes pueden haber estado dispuestos a darle o no”, explicó Rattenbury. “Así que hay potenciales riesgos legales, de marketing, y de relaciones públicas en todo el aprovechamiento de esos datos. Podría terminar alienando su base de clientes o socios por conocer cosas sobre ellos que no quieren que se sepa”.
Las consecuencias pueden ser sutiles. Si una compañía de seguros fuera a hacer uso del hecho de que puede ver la ubicación GPS de todos los lugares donde ha estacionado su vehículo recientemente, por ejemplo, podría elevar las tasas para los clientes que habitualmente se estacionan en las zonas de mayor delincuencia. Sin tener la intención de hacerlo, podría construir un algoritmo que termine discriminando de forma racial, señaló.
Otro riesgo potencial es el ahorro de datos que nunca van a ser útiles.
“Los CIOs necesitan equilibrar el valor de los datos agotados contra el despilfarro de mantener toneladas de datos inútiles para siempre”, anotó Shacklett. “Esto es muy difícil de hacer en este momento”.
El objetivo es ahorrar datos agotados que pueden ir más allá de simplemente añadir ideas incrementales y color para ser transformadores de las actividades comerciales, agregó Rouda. “Si no hay ninguna razón de negocios es donde los lagos de datos tienen una mala reputación” y se convierten en pantanos de datos.
- Es necesario tomar algunas decisiones
La conclusión es que es importante ser selectivo sobre qué dato agotado se guarda.
“Es importante empezar a tomar algunas decisiones ejecutivas sobre lo que se va a desechar”, dijo Shacklett.
Por ejemplo, cuando se trata de teléfonos inteligentes y otros dispositivos, es bien sabido que muchos de los datos de streaming asociados se “sobrecargan” por la agitación del dispositivo y extraños “registros de datos”, señaló la ejecutiva. “Es dudoso que este tipo de datos vuelva a ser útil”.
Las empresas también deben consultar con los abogados, añadió Rattenbury.
Además, deben acercar más a sus empleados hacia la actividad principal en contacto con los datos. “Van a tener preguntas inmediatas que le mostrarán de inmediato la relevancia”, explicó.
Desde una perspectiva técnica, las empresas necesitan tecnologías de almacenamiento escalables, así como herramientas para el acceso a los datos de autoservicio.
Una de las piezas más difíciles de trabajar con datos agotados está recibiendo una única visión coherente alrededor, indicó Rattenbury. La limpieza y la unificación de los datos puede ser un desafío.
“Podría haberme registrado para hacer el servicio en un solo lugar e ingresar la información de tarjetas de crédito en otro”, explicó.
“Usted ha grabado la misma pieza de datos sobre mí desde lugares diferentes”.
Con los datos secundarios, las empresas no se preocupan a la hora de limpiarlos, indicó Rattenbury. Por lo que “hay que darse cuenta de que no es solo una cuestión de decir, ‘aquí está esta gran pila de datos -hagamos algo con ella”.
-Katherine Noyes, Computerworld (EE.UU)