Contenido Exclusivo

Ocho razones por las que fallan los proyectos de ciencia de datos

La ciencia de datos puede ser la herramienta más popular para resolver problemas comerciales, pero los proyectos defectuosos pueden causar un daño significativo y desviar a los tomadores de decisiones.

La ciencia de datos rara vez deja de atraer el interés de los líderes empresariales y de TI por igual en estos días. Pero falla.

De hecho, las iniciativas de ciencia de datos –que aprovechan los métodos científicos, los procesos, los algoritmos y los sistemas tecnológicos para extraer una variedad de conocimientos de datos estructurados y no estructurados– pueden fallar de muchas maneras, lo que lleva a una pérdida de tiempo, dinero y otros recursos. Los proyectos defectuosos pueden resultar en más daño para una empresa que beneficios, al desviar a los tomadores de decisiones.

Estas son algunas de las razones más comunes por las que los proyectos de ciencia de datos no funcionan como se esperaba.

Mala calidad de los datos

Los datos incorrectos generan una ciencia de datos deficiente, por lo que es de vital importancia tomarse el tiempo para garantizar que los datos sean de alta calidad. Eso es cierto para cualquier empresa de análisis y ciertamente es el caso de la ciencia de datos.

Neal Riley, CIO, Adaptavist
Neal Riley, CIO de Adaptavist.

“Los datos incorrectos o sucios hacen que las iniciativas de ciencia de datos sean imposibles”, como afirma Neal Riley, CIO de Adaptavist, una consultora de transformación digital. “Usted debe asegurarse de que sus datos estén limpios y listos para los analistas de datos. Si no es así, es una completa pérdida de tiempo”.

Cuando las empresas usan datos que no están limpios para proyectos de ciencia de datos, terminarán “mirando modelos que tienen resultados extraños [y] viendo que no representan la realidad o el proceso de una manera que mejore las cosas”, advierte Riley.

A veces, la calidad de los datos es deficiente debido a sesgos o discrepancias en los conjuntos de datos.

Brandon Jones, CIO, Worldwide Assurance for Employees of Public Agencies (WAEPA)
Brandon Jones, CIO de la aseguradora WAEPA.

“Para algunas organizaciones, se utilizan varios sistemas para administrar el negocio”, opina Brandon Jones, CIO de la aseguradora Worldwide Assurance for Employees of Public Agencies (WAEPA). “Para las empresas experimentadas, es posible que incluso tenga sistemas heredados a los que todavía se puede acceder [para] referencia o validación. En muchos casos, el negocio cambió con cada sistema, por lo tanto, dio lugar a diferentes procesos y / o formas de contar una métrica dentro del negocio”.

Esta puede ser una de las principales causas de fracaso de la ciencia de datos, según Jones. Los resultados pueden estar inflados debido al doble recuento basado en un proceso comercial modificado. “Para resolver este problema, las organizaciones deben establecer el nivel de su programa de análisis de datos. Esto significa esbozar una fecha específica en la que los datos se pueden validar y todos entienden y aceptan que este es el estándar común con el que trabajará la organización”.

No hay una definición clara del problema a resolver

¿Cómo puede tener éxito una iniciativa de ciencia de datos si los miembros del equipo no comprenden el problema comercial que están tratando de resolver? Y, sin embargo, los equipos de ciencia de datos a veces encuentran esta deficiencia cuando se les pide que asuman proyectos.

“La definición de un problema a menudo se deja en manos de los científicos de datos, cuando en realidad la definición de un problema [comprende] casos de negocios que abarcan el trabajo y definen el retorno potencial de la inversión”, asevera Michael Roytman, científico jefe de datos de la empresa de ciberseguridad de Kenna.

Los usuarios comerciales que buscan aprovechar la ciencia de datos deben hacer preguntas de sondeo sobre el problema que están tratando de resolver, dice Marc Johnson, asesor senior y CIO virtual de la firma de consultoría de atención médica Impact Advisors.

Michael Roytman, chief data scientist, Kenna Security
Michael Roytman, científico jefe de datos en Kenna Security.

“Al igual que con cualquier proyecto, dedique tiempo a bloquear el alcance del problema para identificar las fuentes correctas de los datos”, dice Johnson. “Hace unos años me pidieron que produjera un producto de análisis para una empresa de 20 años. No hubo ninguna investigación con la base de clientes para ver si había un mercado para ello. No se identificaron las métricas para las que el cliente deseaba ver las analíticas. Todo se basaba en que la competencia afirmaba que tenía un producto de análisis y se oían rumores de que los clientes lo querían “.

El proyecto duró dos años sin rumbo “debido a la definición borrosa de cuál era el problema que estábamos tratando de resolver”, dice Johnson.

Falta de datos relevantes

Otra forma segura de fracasar con la ciencia de datos es no proporcionar los tipos específicos de datos necesarios para abordar un problema en particular.

Lanzar un enorme volumen de datos a un problema no es la respuesta.
“Existe la suposición de que los datos grandes conducirán a conocimientos, lo que en realidad rara vez es el caso”, afirma Roytman. “Los conjuntos de datos inteligentes, personalizados y, a menudo, más pequeños son los que proporcionan modelos robustos generalizables”.

Marc Johnson, senior advisor and virtual CIO, Impact Advisors
Marc Johnson, asesor senior y CIO virtual, Impact Advisors.

Para obtener valor de la ciencia de datos, debe haber un esfuerzo continuo para continuar la recopilación de datos de las fuentes más relevantes, dice Johnson. “La creación [es] no un evento de una sola vez”, dice.

Dado que los datos se recopilan o compran de diversas fuentes, los equipos deben asegurarse de que cualquier modificación en los datos no distorsione los resultados y sacrifique la calidad de todo el conjunto de datos, dice Johnson. También deben asegurarse de que no haya problemas de privacidad, legales o éticos con el conjunto de datos.

Falta de transparencia de datos

Los equipos deben ser transparentes con los datos que utilizaron para crear un modelo determinado.

“Los proyectos de ciencia de datos fracasan cuando las personas no confían en el modelo o no comprenden la solución”, dice Jack McCarthy, CIO del Poder Judicial del Estado de Nueva Jersey. “La forma de combatir esto es que debe poder ‘mostrar las matemáticas’ y comunicarlas a las partes interesadas que podrían no tener las habilidades técnicas o estadísticas”.

Los científicos de datos deben explicar de dónde provienen los datos, qué hicieron para calcular los modelos y proporcionar acceso a todos los datos relevantes. “La transparencia puede ser clave para un proyecto exitoso”, dice McCarthy.

Jack McCarthy, CIO, State of New Jersey–Judiciary
Jack McCarthy, CIO del Poder Judicial del Estado de Nueva Jersey.

Un ejemplo de esto es el algoritmo de evaluación de riesgos que se utiliza en Nueva Jersey. “Proporcionamos a todas las partes interesadas un informe que muestra qué casos en el historial de un acusado caen en qué categoría y cómo se califica cada uno”, dice McCarthy. “Esto se proporciona a todos los adversarios para que tengan la oportunidad de analizar cada caso y cuestionar su inclusión. Todo se hace de forma transparente”.

Falta de voluntad para reconocer que los hallazgos son inciertos

A veces, el grupo empresarial que solicita información o el propio equipo de ciencia de datos simplemente no está dispuesto a concluir que los hallazgos fueron inciertos, poco claros o no lo suficientemente sólidos para una aplicación comercial, asevera Roytman.

“Es una respuesta igualmente aceptable y valiosa decir: ‘El modelo no es lo suficientemente bueno para generar ROI [retorno de la inversión] para el negocio’”, agrega.

El equipo de ciencia de datos de Kenna Security pasó dos meses construyendo un modelo de clasificación de vulnerabilidades que generaría automáticamente una enumeración de debilidades comunes para una vulnerabilidad, recuerda Roytman. “El modelo funcionó; fue una respuesta sólida a un problema de curso a nivel de posgrado. Sin embargo, no funcionó lo suficientemente bien como para ser valioso para nuestros clientes. [La] precisión fue demasiado baja. Así que descartamos el proyecto, a pesar de que habíamos invertido tiempo y obtuvimos un resultado”.

Ausencia de un campeón ejecutivo

Los esfuerzos de ciencia de datos necesitan un campeón en el C-suite, para garantizar que los proyectos obtengan suficientes recursos y soporte.

“Ayuda si es el CIO”, señala Riley. “Consideramos la ciencia de datos como una parte integral de nuestra operación y me he asegurado de ser un campeón de nuestros esfuerzos”. Incluso si los CIO no son los campeones internos de la ciencia de datos, deberían ser responsables de mantener seguros todos los datos involucrados, dice. Pero la participación debería ir mucho más allá de la seguridad.

“Aprovechar al máximo la información que captura es lo que yo llamaría la responsabilidad de un CIO moderno”, agrega Riley. “Con todos estos datos a mano, tiene los medios para aprender de ellos y usarlos de manera inteligente, y eso es algo que los CIO pueden utilizar para ayudar a sus organizaciones de manera transversal”.

Adaptavist ha aprovechado al máximo su trabajo de ciencia de datos para determinar nuevas tácticas y modificaciones que puede realizar con el proceso de ventas, explica Riley. “No ha tenido nada que ver con nuestro producto o la infraestructura de TI, el marketing, nada de eso. Nos ha ayudado más desde el punto de vista de la optimización de procesos comerciales, para manejar y gestionar mejor los clientes potenciales desde el interior de las ventas”.

Escasez de talento

La brecha de habilidades está plagando muchos aspectos de la TI, y la ciencia de datos no es una excepción. Muchas organizaciones simplemente no cuentan con las habilidades necesarias para mantener proyectos u obtener el máximo valor.

Tracy Huitika, CIO, Beanworks
Tracy Huitika, CIO de Beanworks.

“Los científicos de datos de buena fe tienen una gran demanda, son difíciles de conseguir y caros”, dice Tracy Huitika, CIO de ingeniería y datos de Beanworks, un proveedor de automatización de cuentas por pagar basado en la nube. “El puesto generalmente requiere un doctorado en física o ciencias, así como la capacidad de escribir código en R y Python”.

Una de las principales razones por las que los proyectos de ciencia de datos fracasan, incluso cuando llegan a la implementación, es la falta de talento operativo para continuar administrando el proyecto, afirma Johnson. “Tomar a un científico de datos brillante para crear el modelo sin un plan para ejecutar las operaciones de mejora continua con ajustes para el mercado y los cambios de datos es como diseñar un automóvil y entregarle las llaves a un niño de 10 años”, dice.

Las empresas necesitan disponer de los conjuntos de habilidades adecuados para mantener el modelo después de que haya entrado en producción, ya sea contratando o recurriendo a expertos externos, como consultores que estén bien versados ​​en ciencia de datos.

La ciencia de datos no era la solución adecuada

¿Qué pasa si un problema en particular no requiere ciencia de datos como solución en primer lugar? Este uso equivocado de la disciplina puede conducir al fracaso, por lo que vale la pena pensar mucho en cuándo y cuándo no aplicar métodos, procesos y herramientas de ciencia de datos.

“Una de las cosas más importantes que hará que los proyectos de ciencia de datos fracasen es si la ciencia de datos, los algoritmos y el aprendizaje automático ni siquiera son la solución adecuada”, argumenta Riley.

“Es posible que no necesite un modelo de aprendizaje automático en absoluto; es posible que necesite una regresión simple, y puede dedicar mucho tiempo y esfuerzo a revisar todas las diferentes permutaciones sin usar la ciencia de datos”, añade Riley. “Quedamos atrapados en una de esas situaciones en las que buscábamos modelos de ciencia de datos financieros para visualizar predictores del éxito financiero futuro de las líneas de nuestro negocio. Resultó que lo mejor que se podía utilizar era simplemente una regresión estadística”.

Bob Violino, CIO.com

Lo Más Reciente

La digitalización ofrece mejoras en la gestión de casos en el sector público

Los factores macroeconómicos globales y locales que cambian rápidamente,...

Cómo impulsar el crecimiento de las empresas en la era de la IA

La inteligencia artificial está revolucionando los negocios. Sin embargo,...

Realizan el segundo Foro de Talento en Data Centers

La Asociación Mexicana de Data Centers, MEXDC, realizó el...

Newsletter

Recibe lo último en noticias e información exclusiva.

José Luis Becerra Pozas
José Luis Becerra Pozashttps://iworld.com.mx
Es Editor de CIO Ediworld México. Contáctalo en jbecerra@ediworld.com.mx o en el twitter @CIOMexico.

La digitalización ofrece mejoras en la gestión de casos en el sector público

Los factores macroeconómicos globales y locales que cambian rápidamente, siguen ejerciendo una presión cada vez mayor sobre el sector público de México. El gobierno...

Cómo impulsar el crecimiento de las empresas en la era de la IA

La inteligencia artificial está revolucionando los negocios. Sin embargo, muy pocos empresarios están adaptando sus empresas a este contexto, para lograr un crecimiento. Para...

Chivas Rayadas del Guadalajara consigue gestionar sus activos de TI de manera más eficiente

El Club Deportivo Guadalajara es uno de los más importantes en México. Con más de 500 colaboradores, requería herramientas para auditar su parque informático,...