Una estrategia sólida de gestión de datos puede generar recompensas para cualquier empresa que busque capitalizar el valor de los datos. Aún así, el camino hacia la toma de decisiones basada en datos sigue plagado de desafíos y acertijos.
Algunos llaman a los datos el nuevo petróleo. Otros lo llaman el nuevo oro. Los filósofos y economistas pueden discutir sobre la calidad de la metáfora, pero no hay duda de que organizar y analizar datos es un esfuerzo vital para cualquier empresa que busque cumplir la promesa de la toma de decisiones basada en datos.
Y para hacerlo, una estrategia sólida de gestión de datos es clave. Abarcando el gobierno de datos, las operaciones de datos, el almacenamiento de datos, la ingeniería de datos, el análisis de datos, la ciencia de datos y más, la gestión de datos, cuando se hace correctamente, puede proporcionar a las empresas de todas las industrias una ventaja competitiva.
La buena noticia es que muchas facetas de la gestión de datos se comprenden bien y se basan en principios sólidos que han evolucionado durante décadas. Por ejemplo, es posible que no sean fáciles de aplicar o de comprender, pero gracias a los científicos y matemáticos de referencia, las empresas ahora tienen una variedad de marcos logísticos para analizar datos y llegar a conclusiones. Más importante aún, también tenemos modelos estadísticos que dibujan barras de error que delimitan los límites de nuestro análisis.
Pero a pesar de todo lo bueno que ha resultado del estudio de la ciencia de datos y las diversas disciplinas que la alimentan, a veces todavía nos quedamos rascándonos la cabeza. Las empresas a menudo están llegando a los límites del campo. Algunas de las paradojas se relacionan con los desafíos prácticos de recopilar y organizar tantos datos. Otros son filosóficos y ponen a prueba nuestra capacidad de razonar sobre cualidades abstractas. Y luego está el aumento de las preocupaciones sobre la privacidad en torno a la recopilación de tantos datos en primer lugar.
Los siguientes son algunos de los oscuros secretos que hacen que la gestión de datos sea un desafío para tantas empresas:
Los datos no estructurados son difíciles de analizar
Gran parte de los datos almacenados en los archivos corporativos no tienen mucha estructura. Uno de mis amigos anhela usar una IA para buscar en las notas de texto tomadas por el personal del centro de llamadas en su banco. Estas oraciones pueden contener ideas que podrían ayudar a mejorar los préstamos y servicios del banco. Quizás. Pero las notas fueron tomadas por cientos de personas diferentes con diferentes ideas sobre qué escribir sobre una llamada determinada.
Además, los miembros del personal tienen diferentes estilos y habilidades de escritura. Algunos no escribieron mucho en absoluto. Algunos escriben demasiada información sobre sus llamadas dadas.
Para empezar, el texto en sí mismo no tiene mucha estructura, pero cuando tienes un montón de texto escrito por cientos o miles de empleados durante docenas de años, cualquier estructura que haya puede ser incluso más débil.
Incluso los datos estructurados a menudo no están estructurados
Los buenos científicos y administradores de bases de datos guían las bases de datos especificando el tipo y la estructura de cada campo. A veces, en nombre de una estructura aún mayor, limitan los valores de un campo dado a números enteros en ciertos rangos oa opciones predefinidas. Incluso entonces, las personas que completan los formularios que almacena la base de datos encuentran formas de agregar arrugas y fallas. A veces los campos se dejan vacíos.
Otras personas ponen un guión o las iniciales “N/A” cuando creen que una pregunta no se aplica. Las personas incluso escriben sus nombres de manera diferente de un año a otro, de un día a otro o incluso de una línea a otra en el mismo formulario. Los buenos desarrolladores pueden detectar algunos de estos problemas mediante la validación. Los buenos científicos de datos también pueden reducir parte de esta incertidumbre mediante la limpieza.
Los esquemas de datos son demasiado estrictos o demasiado flexibles
No importa cuánto se esfuercen los equipos de datos para explicar las restricciones del esquema, los esquemas resultantes para definir los valores en los diversos campos de datos son demasiado estrictos o demasiado flexibles. Si el equipo de datos agrega restricciones estrictas, los usuarios se quejan de que sus respuestas no se encuentran en la estrecha lista de valores aceptables. Si el esquema es demasiado complaciente, los usuarios pueden agregar valores extraños con poca consistencia. Es casi imposible ajustar el esquema correctamente.
Las leyes de datos son muy estrictas
Las leyes sobre privacidad y protección de datos son estrictas y cada vez son más estrictas. Entre regulaciones como GDPR, HIPPA y una docena o más, puede ser muy difícil recopilar datos, y aún más peligroso mantenerlos esperando a que un hacker ingrese. En muchos casos, es más fácil gastar más dinero en abogados que en programadores o científicos de datos. Estos dolores de cabeza son la razón por la que algunas empresas simplemente eliminan sus datos tan pronto como pueden deshacerse de ellos.
Los costos de limpieza de datos son enormes
Muchos científicos de datos confirmarán que el 90% del trabajo consiste simplemente en recopilar los datos, ponerlos en una forma coherente y lidiar con los interminables agujeros o errores. La persona con los datos siempre dirá: “Todo está en un CSV y listo para usar”. Pero no mencionan los campos vacíos o las caracterizaciones erróneas. Es fácil dedicar 10 veces más tiempo a limpiar datos para usarlos en un proyecto de ciencia de datos que simplemente iniciar la rutina en R o Python para realizar el análisis estadístico.
Los usuarios sospechan cada vez más de sus prácticas de datos
Los usuarios finales y los clientes sospechan cada vez más de las prácticas de gestión de datos de una empresa, y algunos algoritmos de IA y su uso sólo aumentan el miedo, dejando a muchas personas muy inquietas sobre lo que sucede con los datos que capturan cada uno de sus movimientos. Esos temores están alimentando la regulación y, a menudo, enganchando a las empresas e incluso a los científicos de datos bien intencionados en el retroceso de las relaciones públicas. No sólo eso, sino que las personas interfieren deliberadamente en la recopilación de datos con valores falsos o respuestas incorrectas. A veces, la mitad del trabajo consiste en tratar con socios y clientes malintencionados.
La integración de datos externos puede generar recompensas y traer desastres
Una cosa es que una empresa se apropie de los datos que recopila. El departamento de TI y los científicos de datos tienen control sobre eso. Pero las empresas cada vez más agresivas están descubriendo cómo integrar su información local con datos de terceros y los vastos mares de información personalizada que flotan en Internet. Algunas herramientas prometen abiertamente absorber datos sobre todos y cada uno de los clientes para crear dossieres personalizados en cada compra. Sí, usan las mismas palabras que las agencias de espionaje que persiguen a los terroristas para rastrear sus compras de comida rápida y puntajes de crédito. ¿Es de extrañar que la gente se inquiete y entre en pánico?
Los reguladores están tomando medidas enérgicas contra el uso de datos
Nadie sabe cuándo un análisis de datos inteligente cruza alguna línea, pero una vez que lo hace, aparecen los reguladores. En un ejemplo reciente de Canadá, el gobierno exploró cómo algunas de las tiendas de donas rastreaban a los clientes que también compraban a la competencia. Un comunicado de prensa reciente anunció: “La investigación encontró que el contrato de Tim Hortons con un proveedor de servicios de ubicación externo estadounidense contenía un lenguaje tan vago y permisivo que habría permitido a la empresa vender datos de ubicación ‘no identificados’ para sus propios fines. .” ¿Y para qué? ¿Para vender más donas? Los reguladores están prestando cada vez más atención a cualquier cosa que involucre información personal.
Su esquema de datos puede no valer la pena
Imaginamos que un algoritmo brillante puede hacer que todo sea más eficiente y rentable. Y, a veces, tal algoritmo es realmente posible, pero el precio también puede ser demasiado alto. Por ejemplo, los consumidores, e incluso las empresas, cuestionan cada vez más el valor del marketing dirigido que proviene de esquemas elaborados de gestión de datos. Algunos apuntan a la forma en que a menudo vemos anuncios de algo que ya compramos porque los rastreadores de anuncios no se han dado cuenta de que ya no estamos en el mercado. El mismo destino a menudo espera a otros esquemas inteligentes. A veces, un riguroso análisis de datos identifica la fábrica con peor rendimiento, pero no importa porque la empresa firmó un contrato de arrendamiento del edificio por 30 años. Las empresas deben estar preparadas para la probabilidad de que todo ese genio de la ciencia de datos produzca una respuesta que no sea aceptable.
Al final, las decisiones de datos a menudo son solo decisiones de juicio
Los números pueden ofrecer mucha precisión, pero la forma en que los humanos los interpretan es a menudo lo que importa. Después de todo el análisis de datos y la magia de la IA, la mayoría de los algoritmos requieren que se tome una decisión sobre si algún valor está por encima o por debajo de un umbral. A veces, los científicos quieren un valor p inferior a 0,05. A veces, un policía busca multar a los autos que superan en un 20% el límite de velocidad. Estos umbrales son a menudo solo valores arbitrarios. A pesar de toda la ciencia y las matemáticas que se pueden aplicar a los datos, muchos procesos “basados en datos” tienen más áreas grises de lo que nos gustaría creer, dejando las decisiones en manos de lo que equivale al instinto a pesar de todos los recursos que una empresa pueda tener. puesto en sus prácticas de gestión de datos.
Los costos de almacenamiento de datos se están disparando
Sí, las unidades de disco siguen engordando y el precio por terabyte sigue bajando, pero los programadores están reuniendo bits más rápido de lo que pueden bajar los precios. Los dispositivos del Internet de las cosas (IoT) continúan cargando datos y los usuarios esperan navegar una rica colección de estos bytes para siempre. Mientras tanto, los oficiales de cumplimiento y los reguladores siguen solicitando más y más datos en caso de futuras auditorías. Sería una cosa si alguien realmente mirara algunos de los bits, pero solo tenemos tanto tiempo en el día. El porcentaje de datos a los que se accede de nuevo sigue cayendo cada vez más. Sin embargo, el precio de almacenar el paquete en expansión sigue aumentando.
Peter Wayner, CIO.com