Los ejecutivos hablan sobre el valor de los datos en generalidades, pero Michele Koch, directora de inteligencia de datos empresariales en Navient Solutions, puede calcular el valor real de los datos de su compañía.
De hecho, Koch puede calcular, en dólares reales, los mayores ingresos y los menores costos producidos por los diversos elementos de datos de la compañía. Como resultado, ella es consciente de que los problemas dentro de los datos de Navient pueden dañar su balance final. Un error en un campo de datos clave dentro del perfil de un cliente, por ejemplo, podría significar que la empresa no puede procesar un préstamo al menor costo.
“Aquí hay dinero, así que tenemos un tablero de calidad de datos donde rastreamos todo esto. Realizamos un seguimiento del valor real y potencial”, afirmó.
Una iniciativa temprana relacionada con los datos dentro de Navient, una empresa de servicios de gestión de activos y procesamiento de negocios con sede en Wilmington, Delaware, ilustra lo que está en juego, señaló Barbara Deemer, directora de Datos y vicepresidenta de Finanzas. La iniciativa del 2006 se centró en mejorar la calidad de los datos para el marketing, y generó un retorno sobre la inversión de 7,2 millones de dólares, gracias a un mayor volumen en los préstamos y menores gastos operativos.
Desde entonces, los ejecutivos de Navient se comprometieron a apoyar un sólido programa de gobernanza de datos como parte fundamental de un esfuerzo de análisis exitoso, dijo Koch. El programa de administración de Navient incluye las mejores prácticas reconocidas desde hace mucho tiempo, como la estandarización de definiciones para campos de datos y la garantía de datos limpios.
Asigna la propiedad de cada uno de sus aproximadamente 2.600 elementos de datos empresariales; la propiedad se dirige al área comercial donde se originó originalmente el campo de datos, o al área comercial donde el campo de datos particular es parte integral de sus procesos.
La compañía también tiene un programa de calidad de datos que monitorea activamente la calidad de los campos para garantizar que se cumplan constantemente altos estándares. La compañía también lanzó un Data Governance Council (en el 2006) y un Analytics Data Governance Council (en el 2017) para abordar preguntas o inquietudes continuas, tomar decisiones en toda la empresa, y mejorar continuamente las operaciones de datos y cómo los datos alimentan el trabajo analítico de la compañía.
“Los datos son importantes para nuestras iniciativas comerciales y para las nuevas oportunidades de negocio en las que queremos centrarnos siempre, mejorando los datos que respaldan nuestro programa de analítica”, afirmó Koch.
La mayoría de los ejecutivos coinciden en que la gobernanza de los datos es vital, citando el cumplimiento regulatorio, la satisfacción del cliente y una mejor toma de decisiones como impulsores clave, de acuerdo con el State of Data Governance 2018 de la compañía de soluciones de gobernanza de datos, Erwin y UBM. Sin embargo, el informe encontró que casi el 40% de las organizaciones que respondieron no tienen un presupuesto separado para la gobernanza de los datos, y un 46% no tiene una estrategia formal para esto.
Los hallazgos se basan en las respuestas de 118 encuestados, incluidos CIOs, CTOs, gerentes de centros de datos, personal de TI y consultores.
Teniendo en cuenta esas cifras, los expertos afirman que no es sorprendente que haya puntos débiles en muchos programas de datos empresariales. Aquí hay un vistazo a siete de estos problemáticos procedimientos de datos.
Reunir datos, pero no integrarlos realmente
La integración encabeza la lista de desafíos en el mundo de los datos y la analítica en la actualidad, afirma Anne Buff, vicepresidenta de comunicaciones de Data Governance Professionals Organization.
Es cierto que muchas organizaciones recopilan todos sus datos en un solo lugar. Pero en realidad no integran las diversas piezas de las múltiples fuentes de datos, explicó Buff. Entonces, el Bill Smith de un sistema no se conecta con los datos sobre Bill Smith (y las variaciones de su nombre) generados por otros sistemas. Esto le da al negocio múltiples imágenes incompletas de quién es él.
“Los datos localizados conjuntamente no son lo mismo que los datos integrados”, afirmó Buff. “Uno tiene que tener una manera de unir los registros de fuentes dispares. Debe hacerlo así, cuando todo esto se una, se crea una visión más amplia de quién es Bill Smith. Uno tiene que tener algo para conectar los puntos”.
Varias tecnologías de integración de datos lo permiten, dijo Buff, y seleccionar, implementar y ejecutar las herramientas adecuadas es fundamental para evitar tanto el trabajo manual como la repetición del mismo trabajo una y otra vez.
Asimismo, la integración se está volviendo cada vez más crítica porque los científicos de datos están buscando patrones dentro de los datos para obtener el tipo de información que puede generar avances, ventajas competitivas y resultados similares.
“Pero si no puede reunir datos que nunca se han reunido antes, no podrá encontrar esos patrones”comilla”, afirmó Buff, que también es gerente de soluciones comerciales de SAS en Cary, Carolina del Norte.
No darse cuenta de que las unidades de negocio tienen necesidades únicas
Sí, los datos integrados y consolidados son fundamentales para un programa de analítica exitoso. Pero algunos usuarios empresariales pueden necesitar una versión diferente de esa información, afirmó Buff.
“Los datos en una sola forma no satisfacen las necesidades de todos en la organización”, agregó.
En cambio, TI debe pensar en el suministro de datos; es decir, proporcionar los datos necesarios para el caso de negocio determinado por el usuario comercial o la división comercial.
Ella señaló las diferentes necesidades de una institución financiera como un ejemplo. Mientras que algunas áreas pueden querer datos integrados, el área de detección de fraudes podría querer que sus científicos de datos utilicen datos sin restricciones que no estén limpios para que puedan buscar señales de alerta. Es posible que deseen buscar a alguien en la misma dirección usando pequeñas variaciones de su información de identificación personal para solicitar préstamos múltiples.
“Verá elementos de datos similares, pero con algunas variables, por lo que no querrá eliminar demasiadas variaciones y limpiarlo demasiado”, explicó Buff.
Por otro lado, afirmó, el departamento de marketing de esa institución financiera querría tener la versión correcta del nombre del cliente, dirección y similares para orientar adecuadamente las comunicaciones.
Reclutar solo científicos de datos y no también ingenieros de datos
A medida que las empresas buscan ir más allá de la inteligencia de negocios básica para hacer analítica predictiva y prescriptiva, así como el aprendizaje automático y la inteligencia artificial, necesitan niveles crecientes de experiencia en sus equipos de datos.
Eso, a su vez, ha iluminado el puesto de científico de datos. Pero igualmente importante es el ingeniero de datos, que disputa todos los conjuntos de datos que deben unirse para que los científicos de datos hagan su trabajo, pero este puesto (hasta ahora) ha ganado menos atención en muchas organizaciones.
Eso ha estado cambiando, afirmó Lori Sherer, socia en la oficina de Bain & Co. en San Francisco y líder de los procedimientos de las áreas de Advanced Analytics y Digital de la firma.
“Hemos visto que el crecimiento en la demanda de ingenieros de datos es aproximadamente el doble del crecimiento en la demanda de científicos de datos”, dijo Sherer.
El Bureau of Labor Statistics federal pronostica que la demanda de ingenieros de datos continuará creciendo a un ritmo acelerado durante la próxima década, donde se espera que la economía de Estados Unidos añada 44,200 posiciones entre el 2016 y el 2026, con un salario anual promedio de 135,800 dólares.
Sin embargo, al igual que muchos puestos clave en TI, los expertos dijeron que no hay suficientes ingenieros de datos para satisfacer la demanda -lo que hace que las áreas de TI que recién están empezando a contratar, o capacitarse para la posición, tengan que ponerse al día.
Mantener los datos más allá de su mejor momento, en lugar de administrar su ciclo de vida.
El costo del almacenamiento se ha reducido drásticamente en la última década, lo que permite que TI pueda almacenar más fácilmente grandes cantidades de datos durante mucho más tiempo que antes. Eso podría parecer una buena noticia, teniendo en cuenta el volumen y la velocidad a la que los datos ahora se crean junto con la creciente demanda de tenerlo para el análisis.
Pero si bien muchos celebraron el valor de tener colecciones y más coleccione de datos, a menudo resulta siendo un exceso, afirmó Penny Garbus, cofundadora de Soaring Eagle Consulting en Apollo Beach, Florida, y coautora de Mining New Gold: Managing Your Business Data.
Garbus indicó que muchas empresas se aferran a los datos demasiado tiempo.
“No solo tiene que pagar por ellos, pero si son mayores de 10 años, es probable que la información esté lejos de ser actual”, dijo. “Alentamos a las personas a ponerle algunas líneas de tiempo”.
La fecha de vencimiento de los datos varía no solo de una organización a otra, sino que varía según las áreas, mencionó Garbus. La división de inventario dentro de una empresa minorista solo podría querer datos relativamente recientes, mientras que el marketing podría requerir datos que tengan años para rastrear tendencias.
Si ese es el caso, TI tiene que implementar la arquitectura que entregue el marco de tiempo adecuado de los datos en el lugar correcto, para garantizar que se satisfagan las necesidades de todos y los datos antiguos no dañen los programas de analítica oportunos.
Como señaló Garbus: “Solo porque tenga que conservar [datos antiguos], no significa que deba mantenerlo dentro de su entorno central. Solo tiene que tenerlo”.
Enfocarse en el volumen, en lugar de la relevancia
“Todavía estamos construyendo modelos y analizando los datos que están más disponibles en lugar de los datos que son más relevantes”, afirmó Steve Escaravage, vicepresidente senior de la consultora de TI, Booz Allen Hamilton.
Él dijo que las organizaciones con frecuencia tienen la idea errónea de que deberían capturar y agregar más y más conjuntos de datos. Él señaló que piensan que “tal vez hay algo allí que no hemos encontrado en lugar de preguntarse: ¿tenemos los datos correctos?”.
El ejecutivo mencionó que muchas instituciones buscan fraudes mediante el análisis de grandes cantidades de datos para detectar anomalías. Si bien es una actividad importante, las instituciones líderes también analizan conjuntos de datos más específicos que pueden producir mejores resultados. En este caso, puede que observen a individuos o instituciones que están generando ciertos tipos de transacciones que podrían indicar problemas. O las instituciones de salud podrían considerar, al analizar los resultados de los pacientes, los datos sobre cuánto tiempo estuvieron los médicos en sus turnos cuando les brindaron atención a los pacientes.
Escaravage dijo que las organizaciones podrían comenzar creando una lista de datos deseados. Aunque ese ejercicio comienza con el aspecto comercial, “los mecanismos para capturarlos y ponerlos a disposición son el ámbito del CIO, CTO o chief data officer“.
Proporcionar datos, pero ignorar de dónde vinieron
Uno de los grandes temas actuales es el sesgo en el análisis, un contexto que puede sesgar los resultados o incluso producir conclusiones erróneas que conducen a malas decisiones comerciales o resultados. Los problemas que produce el sesgo residen en muchos ámbitos diferentes dentro de un programa de analítica empresarial, incluyendo el propio manejo de los datos, afirma Escaravage.
El ejecutivo dijo que, con demasiada frecuencia, TI no hace un trabajo lo suficientemente bueno para rastrear la procedencia de los datos que tiene.
“Y si no lo sabe, esto puede afectar el desempeño de sus modelos”, señaló Escaravage, señalando que la falta de visibilidad sobre cómo y dónde se originaron los datos hace que controlar el sesgo sea aún más difícil.
“Es responsabilidad de TI entender de dónde provienen los datos y qué les sucedió. Hay mucha inversión en la gestión de los datos, pero también debe haber una solución de gestión de metadatos”, afirmó.
Proporcionar datos, pero no ayudar a los usuarios a entender el contexto
TI no solo debe contar con un sólido programa de gestión de metadatos, donde rastrea el origen de los datos y cómo se mueven a través de sus sistemas, también debe proporcionar a los usuarios una idea de algunos de esos antecedentes y brindar un contexto para algunos de los resultados producidos a través de la analítica, señaló Escaravage.
“Estamos muy entusiasmados con lo que podemos crear. Creemos que tenemos datos bastante buenos, particularmente datos que no han sido analizados, y podemos construir un modelo mental sobre cómo estos datos serán útiles”, afirmó. “Pero si bien los métodos analíticos de la última media década han sido sorprendentes, los resultados de estas técnicas son menos interpretables que en el pasado, donde se aplicaron reglas comerciales después de realizar la extracción de datos y fue fácil interpretarlos”.
Los modelos de aprendizaje más nuevos y profundos ofrecen ideas y sugerencias viables, explicó Escaravage. Pero estos sistemas generalmente no proporcionan un contexto que podría ser útil o incluso crítico para la mejor toma de decisiones. No proporciona, por ejemplo, información sobre la probabilidad frente a la certeza de que algo ocurrirá en base a los datos.
Se necesitan mejores interfaces de usuario para ayudar a proporcionar ese contexto, dijo Escaravage.
“El problema técnico es cómo las personas interactuarán con estos modelos. Aquí es donde un enfoque en la UI/UX, desde el punto de vista de la transparencia, será muy importante. Entonces, si alguien ve una recomendación de una plataforma de inteligencia artificial, ¿hasta qué punto pueden profundizar para probablemente ver un subyacente, la fuente de datos, etc.?”, dijo. “Los CIO tendrán que preguntar cómo incorporar a sus sistemas ese nivel de transparencia”.
-Mary K. Pratt, CIO (EE.UU.)