Lo más probable es que la mayoría de los datos que recopila, desde las comunicaciones humanas hasta los registros de las máquinas, se acumulen con pocos planes para actualizar su potencial. La buena gobernanza y la IA pueden ayudar.
Los líderes de TI que buscan obtener valor empresarial de los datos que recopilan sus empresas se enfrentan a innumerables desafíos. Quizás la menos comprendida es la oportunidad perdida de no cumplir con los datos que se crean y, a menudo, se almacenan, pero con los que rara vez se interactúa.
Estos llamados “datos oscuros” (dark data), llamados así por la materia oscura de la física, son información recopilada de forma rutinaria en el curso de la actividad comercial: la generan los empleados, los clientes y los procesos comerciales. Se generan como archivos de registro por máquinas, aplicaciones y sistemas de seguridad. Son documentos que se deben guardar para fines de cumplimiento y datos confidenciales, que nunca se deben guardar, pero aún se guardan.
Según Gartner, la mayor parte del universo de información de su empresa se compone de “datos oscuros”, y muchas empresas ni siquiera saben cuántos de estos datos tienen. Almacenarlos aumenta los riesgos de cumplimiento y ciberseguridad y, por supuesto, hacerlo también aumenta los costos.
Descubrir qué datos oscuros tiene, dónde se guardan y qué información contiene es un paso esencial para garantizar que las partes valiosas de estos datos oscuros estén seguras y que se eliminen las que no deben guardarse.
Pero la verdadera ventaja de desenterrar estos bolsillos ocultos de datos puede ser ponerlos en uso para beneficiar realmente al negocio.
Pero extraer datos oscuros no es una tarea fácil. Viene en una amplia variedad de formatos, puede estar completamente sin formatear, encerrado en documentos escaneados o archivos de audio o video, por ejemplo.
Este es un vistazo a cómo algunas organizaciones están transformando los datos oscuros en oportunidades comerciales y qué consejos tienen los expertos de la industria para los líderes de TI que buscan aprovechar los datos oscuros:
Audio codificado de pilotos de autos de carrera
Durante cinco años, Envision Racing ha recopilado grabaciones de audio de más de 100 carreras de Fórmula E, cada una con más de 20 pilotos.
“Las transmisiones de radio están disponibles en frecuencias abiertas para que cualquiera las escuche”, explica Amaresh Tripathy, líder mundial de análisis en Genpact, una empresa de consultoría que ayudó a Envision Racing a utilizar estos datos.
Anteriormente, los ingenieros de carreras del equipo de carreras con sede en el Reino Unido intentaron usar estas transmisiones de audio en tiempo real durante las carreras, pero los nombres en clave y los acrónimos que usaban los conductores dificultaban averiguar qué se decía y cómo se podían usar, ya que comprender lo que otros conductores decían podría ayudar a los conductores de Envision Racing con su estrategia de carreras.
“Nos interesaba conocer cuándo usar el ‘modo de ataque’ (acelere y rebase), cuándo adelantar a un conductor o cuándo aplicar los frenos”, señala Tripathy.
Envision Racing también recopilaba datos de sensores de sus propios automóviles, como neumáticos, baterías y frenos, y compraba datos externos de proveedores, como la velocidad del viento y la precipitación.
Genpact y Envision Racing trabajaron juntos para desbloquear el valor de estos flujos de datos, haciendo uso del procesamiento del lenguaje natural para construir modelos de aprendizaje profundo para analizarlos. El proceso tomó seis meses, desde la preparación de la canalización de datos hasta la ingesta de los mismos, el filtrado del ruido y la obtención de conversaciones significativas.
Tripathy dice que los humanos tardan de cinco a diez segundos en darse cuenta de lo que están escuchando, un retraso que hace que las comunicaciones por radio sean irrelevantes. Ahora, gracias a las predicciones y los conocimientos del modelo de Inteligencia Artificial (IA), ahora pueden responder en uno o dos segundos.
En julio, en el Campeonato Mundial de Fórmula E ABB FIA en Nueva York, el equipo Envision Racing obtuvo el primer y tercer lugar, un resultado que Tripathy atribuye al uso de lo que antes eran datos oscuros.
Dark data gold: datos generados por humanos
Los archivos de audio de Envision Racing son un ejemplo de datos oscuros generados por humanos, destinados a ser consumidos por otros humanos, no por máquinas. Este tipo de datos oscuros puede ser extremadamente útil para las empresas, como afirma Kon Leong, cofundador y director ejecutivo de ZL Technologies, un proveedor de plataformas de archivo de datos.
“Es increíblemente poderoso para comprender cada elemento del lado humano de la empresa, incluida la cultura, el desempeño, la influencia, la experiencia y el compromiso. Los empleados comparten cantidades absolutamente masivas de información y conocimientos digitales todos los días, pero hasta el momento no se ha explotado en gran medida”, asevera el directivo.
La información contenida en correos electrónicos, mensajes y archivos puede ayudar a las organizaciones a obtener información sobre quiénes son las personas más influyentes en la organización. “El ochenta por ciento del tiempo de la empresa se dedica a la comunicación. Sin embargo, el análisis a menudo trata con datos que sólo reflejan el 1% del tiempo que dedicamos”, dice Leong.
El procesamiento de datos no estructurados generados por humanos es un desafío único.
Los almacenes de datos normalmente no están configurados para manejar estas comunicaciones, por ejemplo. Además, la recopilación de estas comunicaciones puede crear nuevos problemas para las empresas, relacionados con el cumplimiento, la privacidad y el descubrimiento legal.
“Estas capacidades de gobierno no están presentes en el concepto actual de un lago de datos y, de hecho, al recopilar datos en un lago de datos, se crea otro silo que aumenta los riesgos de privacidad y cumplimiento”, advierte Leong.
En su lugar, las empresas también pueden dejar estos datos donde residen actualmente, simplemente agregando una capa de indexación y metadatos para la búsqueda. Dejar los datos en su lugar también los mantendrá dentro de las estructuras de cumplimiento existentes, señala.
La gobernanza eficaz es clave
Otro enfoque para manejar datos oscuros de valor y origen cuestionables es comenzar con la trazabilidad.
“Es un desarrollo positivo en la industria que los datos oscuros ahora se reconozcan como un recurso sin explotar que se puede aprovechar”, sostiene Andy Petrella, autor de Fundamentals of Data Observability , actualmente disponible en versión preliminar por la editorial O’Reilly. Petrella también es el fundador del proveedor de observabilidad de datos Kensu.
“El desafío de utilizar datos oscuros son los bajos niveles de confianza en ellos”, dice, en particular sobre dónde y cómo se recopilan los datos. “La observabilidad puede hacer que el linaje de datos sea transparente y, por lo tanto, rastreable. La trazabilidad permite controles de calidad de los datos que generan confianza en el empleo de estos datos para entrenar modelos de IA o actuar sobre la inteligencia que aporta”.
Chuck Soha, director gerente de StoneTurn, una firma de asesoría global que se especializa en temas regulatorios, de riesgo y de cumplimiento, está de acuerdo en que el enfoque común para abordar los datos oscuros, arrojar todo a un lago de datos, presenta riesgos significativos.
Esto es particularmente cierto en la industria de servicios financieros, donde las empresas han estado enviando datos a lagos de datos durante años. “En una empresa típica, el departamento de TI vuelca todos los datos disponibles a su disposición en un solo lugar con algunos metadatos básicos y crea procesos para compartir con los equipos comerciales”, refiere.
Eso funciona para los equipos comerciales que tienen el talento analítico necesario en la empresa o que traen consultores externos para casos de uso específicos. Pero en su mayor parte, estas iniciativas sólo tienen un éxito parcial, apunta Soha.
“Los CIO pasaron de no saber lo que no saben a saber lo que no saben”.
En cambio, las empresas deberían comenzar con el gobierno de datos para comprender qué datos hay y qué problemas podrían tener, entre ellos la calidad de los datos.
“Las partes interesadas pueden decidir si limpiarlo y estandarizarlo, o simplemente comenzar de nuevo con mejores prácticas de gestión de la información”, dice Soha, y agrega que sería un error invertir en extraer información de los datos que contienen información inconsistente o contradictoria.
Soha también aconseja conectar los puntos entre los buenos datos operativos ya disponibles dentro de las unidades comerciales individuales. Descubrir estas relaciones puede crear conocimientos rápidos y útiles que podrían no requerir mirar ningún dato oscuro de inmediato, dice. “Y también podría identificar brechas que podrían priorizar dónde comenzar a buscar datos oscuros para llenar esas brechas”.
Finalmente, señala que la IA puede ser muy útil para ayudar a dar sentido a los datos no estructurados que quedan. “Al usar técnicas de Inteligencia Artificial y aprendizaje automático, los humanos pueden ver tan sólo el 1 % de los datos oscuros y clasificar su relevancia”, afirma. “Luego, un modelo de aprendizaje por refuerzo puede producir rápidamente puntajes de relevancia para los datos restantes para priorizar qué datos mirar más de cerca”.
Usar IA para extraer valor
Las soluciones comunes impulsadas por IA para procesar datos oscuros incluyen Textract de Amazon, Azure Cognitive Services de Microsoft y Datacap de IBM, así como las API Cloud Vision, Document, AutoML y NLP de Google.
En la asociación de Genpact con Envision Racing, Genpact codificó los algoritmos de aprendizaje automático internamente, dice Tripathy. Esto requería conocimientos de Docker, Kubernetes, Java y Python, así como de NLP, aprendizaje profundo y desarrollo de algoritmos de aprendizaje automático, dice, y agrega que un arquitecto de MLOps manejó el proceso completo.
Desafortunadamente, estas habilidades son difíciles de conseguir. En un informe publicado el otoño pasado por Splunk, sólo entre el 10% y el 15% de más de 1,300 tomadores de decisiones comerciales y de TI encuestados dijeron que sus organizaciones están utilizando IA para resolver el problema de los datos oscuros. La falta de las habilidades necesarias fue un obstáculo principal para hacer uso de datos oscuros, sólo superado por el volumen de los datos en sí.
Un problema (y una oportunidad) en aumento
Mientras tanto, los datos oscuros siguen siendo un tesoro cada vez mayor de riesgos y oportunidades. Las estimaciones de la parte de los datos empresariales que están oscuros varían del 40% al 90%, según la industria.
Según un informe de julio de Enterprise Strategy Group y patrocinado por Quest, el 47% de todos los datos son datos oscuros, en promedio, y una quinta parte de los encuestados dice que más del 70% de sus datos son datos oscuros. La encuesta de Splunk mostró hallazgos similares, con un 55% de todos los datos empresariales, en promedio, siendo datos oscuros, y un tercio de los encuestados dijo que el 75% o más de los datos de su organización son oscuros.
Y es probable que la situación empeore antes de mejorar, ya que el 60% de los encuestados dice que más de la mitad de los datos en su organización no se capturan en absoluto y que gran parte de ellos ni siquiera se entiende que existen. A medida que se encuentren y almacenen esos datos, la cantidad de datos oscuros continuará aumentando.
Ya es hora de que los CIO elaboren un plan sobre cómo manejarlo, con miras a aprovechar al máximo cualquier dato oscuro que se muestre prometedor en la creación de nuevo valor para el negocio.
Maria Korolov, CIO.com