La ciencia de datos puede ser la herramienta más popular para resolver problemas comerciales, pero los proyectos defectuosos pueden causar un daño significativo y desviar a los tomadores de decisiones.
La ciencia de datos rara vez deja de atraer el interés de los lÃderes empresariales y de TI por igual en estos dÃas. Pero falla.
De hecho, las iniciativas de ciencia de datos –que aprovechan los métodos cientÃficos, los procesos, los algoritmos y los sistemas tecnológicos para extraer una variedad de conocimientos de datos estructurados y no estructurados– pueden fallar de muchas maneras, lo que lleva a una pérdida de tiempo, dinero y otros recursos. Los proyectos defectuosos pueden resultar en más daño para una empresa que beneficios, al desviar a los tomadores de decisiones.
Estas son algunas de las razones más comunes por las que los proyectos de ciencia de datos no funcionan como se esperaba.
Mala calidad de los datos
Los datos incorrectos generan una ciencia de datos deficiente, por lo que es de vital importancia tomarse el tiempo para garantizar que los datos sean de alta calidad. Eso es cierto para cualquier empresa de análisis y ciertamente es el caso de la ciencia de datos.

“Los datos incorrectos o sucios hacen que las iniciativas de ciencia de datos sean imposiblesâ€, como afirma Neal Riley, CIO de Adaptavist, una consultora de transformación digital. “Usted debe asegurarse de que sus datos estén limpios y listos para los analistas de datos. Si no es asÃ, es una completa pérdida de tiempo”.
Cuando las empresas usan datos que no están limpios para proyectos de ciencia de datos, terminarán “mirando modelos que tienen resultados extraños [y] viendo que no representan la realidad o el proceso de una manera que mejore las cosas”, advierte Riley.
A veces, la calidad de los datos es deficiente debido a sesgos o discrepancias en los conjuntos de datos.

“Para algunas organizaciones, se utilizan varios sistemas para administrar el negocioâ€, opina Brandon Jones, CIO de la aseguradora Worldwide Assurance for Employees of Public Agencies (WAEPA). “Para las empresas experimentadas, es posible que incluso tenga sistemas heredados a los que todavÃa se puede acceder [para] referencia o validación. En muchos casos, el negocio cambió con cada sistema, por lo tanto, dio lugar a diferentes procesos y / o formas de contar una métrica dentro del negocio”.
Esta puede ser una de las principales causas de fracaso de la ciencia de datos, según Jones. Los resultados pueden estar inflados debido al doble recuento basado en un proceso comercial modificado. “Para resolver este problema, las organizaciones deben establecer el nivel de su programa de análisis de datos. Esto significa esbozar una fecha especÃfica en la que los datos se pueden validar y todos entienden y aceptan que este es el estándar común con el que trabajará la organización”.
No hay una definición clara del problema a resolver
¿Cómo puede tener éxito una iniciativa de ciencia de datos si los miembros del equipo no comprenden el problema comercial que están tratando de resolver? Y, sin embargo, los equipos de ciencia de datos a veces encuentran esta deficiencia cuando se les pide que asuman proyectos.
“La definición de un problema a menudo se deja en manos de los cientÃficos de datos, cuando en realidad la definición de un problema [comprende] casos de negocios que abarcan el trabajo y definen el retorno potencial de la inversión”, asevera Michael Roytman, cientÃfico jefe de datos de la empresa de ciberseguridad de Kenna.
Los usuarios comerciales que buscan aprovechar la ciencia de datos deben hacer preguntas de sondeo sobre el problema que están tratando de resolver, dice Marc Johnson, asesor senior y CIO virtual de la firma de consultorÃa de atención médica Impact Advisors.

“Al igual que con cualquier proyecto, dedique tiempo a bloquear el alcance del problema para identificar las fuentes correctas de los datosâ€, dice Johnson. “Hace unos años me pidieron que produjera un producto de análisis para una empresa de 20 años. No hubo ninguna investigación con la base de clientes para ver si habÃa un mercado para ello. No se identificaron las métricas para las que el cliente deseaba ver las analÃticas. Todo se basaba en que la competencia afirmaba que tenÃa un producto de análisis y se oÃan rumores de que los clientes lo querÃan “.
El proyecto duró dos años sin rumbo “debido a la definición borrosa de cuál era el problema que estábamos tratando de resolver”, dice Johnson.
Falta de datos relevantes
Otra forma segura de fracasar con la ciencia de datos es no proporcionar los tipos especÃficos de datos necesarios para abordar un problema en particular.
Lanzar un enorme volumen de datos a un problema no es la respuesta.
“Existe la suposición de que los datos grandes conducirán a conocimientos, lo que en realidad rara vez es el casoâ€, afirma Roytman. “Los conjuntos de datos inteligentes, personalizados y, a menudo, más pequeños son los que proporcionan modelos robustos generalizables”.

Para obtener valor de la ciencia de datos, debe haber un esfuerzo continuo para continuar la recopilación de datos de las fuentes más relevantes, dice Johnson. “La creación [es] no un evento de una sola vezâ€, dice.
Dado que los datos se recopilan o compran de diversas fuentes, los equipos deben asegurarse de que cualquier modificación en los datos no distorsione los resultados y sacrifique la calidad de todo el conjunto de datos, dice Johnson. También deben asegurarse de que no haya problemas de privacidad, legales o éticos con el conjunto de datos.
Falta de transparencia de datos
Los equipos deben ser transparentes con los datos que utilizaron para crear un modelo determinado.
“Los proyectos de ciencia de datos fracasan cuando las personas no confÃan en el modelo o no comprenden la soluciónâ€, dice Jack McCarthy, CIO del Poder Judicial del Estado de Nueva Jersey. “La forma de combatir esto es que debe poder ‘mostrar las matemáticas’ y comunicarlas a las partes interesadas que podrÃan no tener las habilidades técnicas o estadÃsticas”.
Los cientÃficos de datos deben explicar de dónde provienen los datos, qué hicieron para calcular los modelos y proporcionar acceso a todos los datos relevantes. “La transparencia puede ser clave para un proyecto exitosoâ€, dice McCarthy.

Un ejemplo de esto es el algoritmo de evaluación de riesgos que se utiliza en Nueva Jersey. “Proporcionamos a todas las partes interesadas un informe que muestra qué casos en el historial de un acusado caen en qué categorÃa y cómo se califica cada uno”, dice McCarthy. “Esto se proporciona a todos los adversarios para que tengan la oportunidad de analizar cada caso y cuestionar su inclusión. Todo se hace de forma transparente”.
Falta de voluntad para reconocer que los hallazgos son inciertos
A veces, el grupo empresarial que solicita información o el propio equipo de ciencia de datos simplemente no está dispuesto a concluir que los hallazgos fueron inciertos, poco claros o no lo suficientemente sólidos para una aplicación comercial, asevera Roytman.
“Es una respuesta igualmente aceptable y valiosa decir: ‘El modelo no es lo suficientemente bueno para generar ROI [retorno de la inversión] para el negocio’â€, agrega.
El equipo de ciencia de datos de Kenna Security pasó dos meses construyendo un modelo de clasificación de vulnerabilidades que generarÃa automáticamente una enumeración de debilidades comunes para una vulnerabilidad, recuerda Roytman. “El modelo funcionó; fue una respuesta sólida a un problema de curso a nivel de posgrado. Sin embargo, no funcionó lo suficientemente bien como para ser valioso para nuestros clientes. [La] precisión fue demasiado baja. Asà que descartamos el proyecto, a pesar de que habÃamos invertido tiempo y obtuvimos un resultado”.
Ausencia de un campeón ejecutivo
Los esfuerzos de ciencia de datos necesitan un campeón en el C-suite, para garantizar que los proyectos obtengan suficientes recursos y soporte.
“Ayuda si es el CIO”, señala Riley. “Consideramos la ciencia de datos como una parte integral de nuestra operación y me he asegurado de ser un campeón de nuestros esfuerzos”. Incluso si los CIO no son los campeones internos de la ciencia de datos, deberÃan ser responsables de mantener seguros todos los datos involucrados, dice. Pero la participación deberÃa ir mucho más allá de la seguridad.
“Aprovechar al máximo la información que captura es lo que yo llamarÃa la responsabilidad de un CIO moderno”, agrega Riley. “Con todos estos datos a mano, tiene los medios para aprender de ellos y usarlos de manera inteligente, y eso es algo que los CIO pueden utilizar para ayudar a sus organizaciones de manera transversal”.
Adaptavist ha aprovechado al máximo su trabajo de ciencia de datos para determinar nuevas tácticas y modificaciones que puede realizar con el proceso de ventas, explica Riley. “No ha tenido nada que ver con nuestro producto o la infraestructura de TI, el marketing, nada de eso. Nos ha ayudado más desde el punto de vista de la optimización de procesos comerciales, para manejar y gestionar mejor los clientes potenciales desde el interior de las ventas”.
Escasez de talento
La brecha de habilidades está plagando muchos aspectos de la TI, y la ciencia de datos no es una excepción. Muchas organizaciones simplemente no cuentan con las habilidades necesarias para mantener proyectos u obtener el máximo valor.

“Los cientÃficos de datos de buena fe tienen una gran demanda, son difÃciles de conseguir y carosâ€, dice Tracy Huitika, CIO de ingenierÃa y datos de Beanworks, un proveedor de automatización de cuentas por pagar basado en la nube. “El puesto generalmente requiere un doctorado en fÃsica o ciencias, asà como la capacidad de escribir código en R y Python”.
Una de las principales razones por las que los proyectos de ciencia de datos fracasan, incluso cuando llegan a la implementación, es la falta de talento operativo para continuar administrando el proyecto, afirma Johnson. “Tomar a un cientÃfico de datos brillante para crear el modelo sin un plan para ejecutar las operaciones de mejora continua con ajustes para el mercado y los cambios de datos es como diseñar un automóvil y entregarle las llaves a un niño de 10 añosâ€, dice.
Las empresas necesitan disponer de los conjuntos de habilidades adecuados para mantener el modelo después de que haya entrado en producción, ya sea contratando o recurriendo a expertos externos, como consultores que estén bien versados ​​en ciencia de datos.
La ciencia de datos no era la solución adecuada
¿Qué pasa si un problema en particular no requiere ciencia de datos como solución en primer lugar? Este uso equivocado de la disciplina puede conducir al fracaso, por lo que vale la pena pensar mucho en cuándo y cuándo no aplicar métodos, procesos y herramientas de ciencia de datos.
“Una de las cosas más importantes que hará que los proyectos de ciencia de datos fracasen es si la ciencia de datos, los algoritmos y el aprendizaje automático ni siquiera son la solución adecuada”, argumenta Riley.
“Es posible que no necesite un modelo de aprendizaje automático en absoluto; es posible que necesite una regresión simple, y puede dedicar mucho tiempo y esfuerzo a revisar todas las diferentes permutaciones sin usar la ciencia de datosâ€, añade Riley. “Quedamos atrapados en una de esas situaciones en las que buscábamos modelos de ciencia de datos financieros para visualizar predictores del éxito financiero futuro de las lÃneas de nuestro negocio. Resultó que lo mejor que se podÃa utilizar era simplemente una regresión estadÃstica”.
Bob Violino, CIO.com
