Ya sea que sea nuevo en la analÃtica predictiva o tenga algunos proyectos ya realizados, siempre existe la oportunidad de cometer algunos errores. “La gran mayorÃa de los proyectos de analÃtica están llenos de erroresâ€, sostiene John Elder, CEO de la firma de data mining Elder Research.
La mayorÃa de ellos no son fatales -casi todos los modelos pueden ser mejorados- y a pesar de ello muchos proyectos yerran aparatosamente, dejando a la empresa con una costosa inversión en software y tiempo, y nada que mostrar.
E incluso si desarrolla un modelo útil, existen otros obstáculos de parte del negocio. Elder afirma que el 90% de los proyectos de su firma son “éxitos técnicosâ€, pero que solo el 65% de ese 90% fueron desplegados en la organización del cliente.
Hicimos preguntas a los expertos de tres firmas consultoras (Elder Research, Abbott Analytics y Prediction Impact) para describir los errores técnicos y de negocios más atroces que se producen, en base a su experiencia de campo. A continuación la lista de las 12 formas seguras para cometer un error.
1. Comenzar sin tener en mente el final
Se encuentra emocionado con la analÃtica predictiva. Puede ver el valor potencial en ella. Pero hay un problema: no tiene una meta especÃfica en mente.
Esa era la situación de una gran empresa que contactó con Elder Research para comenzar a trabajar con sus datos para predecir algo -cualquier cosa- que un ejecutivo pueda mostrar a sus unidades de negocio. Aunque la consultora acordó trabajar con él y desarrolló un modelo para su uso, “nadie de las unidades de negocio habÃa pedido lo que él intentaba conseguirâ€, y el proyecto no fue a ningún lugar, sostiene Jeff Deal, vicepresidente de Operaciones de Elder Research.
El ejecutivo “usa los datos internamente para sus propios propósitos, pero hasta el momento mantiene la esperanza de que alguien se dé cuenta del valor de estos datosâ€, agrega Deal.
¿Cuál es la lección? No construya primero el martillo y busque luego el clavo. Tenga en mente un objetivo especÃfico antes de comenzar.
2. Definir el proyecto alrededor de algo que sus datos no soportan
Una empresa cobradora de deudas querÃa identificar la secuencia más exitosa de acciones a llevar a cabo al intentar cobrar a los morosos. El desafÃo: la compañÃa tenÃa un conjunto rÃgido de reglas y habÃa tomado el mismo curso de acción en todos los casos.
“La minerÃa de datos es el arte de hacer comparacionesâ€, indica Dean Abbott, presidente de Abbot Analytics, firma que fue contratada para el proyecto. Debido a que la compañÃa tenÃa reglas establecidas que siempre aplicaban las mismas acciones, Abbott no tenÃa idea cuál secuencia funcionarÃa mejor para cobrar las deudas. “Uno necesita ejemplos históricosâ€, señala el ejecutivo.
Y si uno no tiene esos ejemplos, se necesita crearlos a través de una serie de experimentos intencionalmente planeados de tal forma que uno pueda recolectar los datos. Por ejemplo, para un grupo dado de mil deudores, a 500 se les podrÃa enviar una carta amenazante mientras que los otros 500 pueden recibir una llamada, como primer paso. “Luego se pueden construir los modelos predictivos para predecir cuáles caracterÃsticas de los deudores responden mejor a la carta y cuáles caracterÃsticas de deudores responden mejor a la llamadaâ€, señala el investigador.
En este caso las caracterÃsticas podrÃan incluir patrones históricos de la deuda en la que se ha incurrido, los dÃas de morosidad, ingresos, lugar de residencia y elementos por el estilo. “En base a los modelos predictivos, la empresa cobradora podrÃa usar la mejor estrategia, la más costo-efectiva para cobrar las deudas en lugar de usar la misma estrategia para todosâ€, afirma el ejecutivo. Pero uno necesita realizar experimentos para comenzar. “La analÃtica predictiva no puede crear información de la nadaâ€, finaliza.
3. No actúe hasta que sus datos sean lo mejor que puedan ser
Generalmente las personas actúan bajo la idea equivocada de que deben tener sus datos perfectamente organizados, sin agujeros, desorden o falta de valores, antes de que puedan comenzar un proyecto de analÃtica predictiva.
Una compañÃa petroquÃmica global, cliente de Elder Research, habÃa comenzado un proyecto de analÃtica predictiva con un enorme ROI potencial cuando los cientÃficos de datos descubrieron que el estado de los datos de las operaciones era mucho peor de lo que inicialmente imaginaron.
En este caso, faltaba un valor fundamental. Si el negocio esperaba a recoger nuevos datos, el proyecto se demorarÃa por al menos un año. “Muchas empresa se hubieran detenido ahÃ. He visto que esto mata mucho más proyectos que cualquier otro errorâ€, sostiene Deal.
Pero los cientÃficos de datos están acostumbrados a enfrentar datos desordenados e incompletos, y tienen metodologÃas que, en muchos casos, les permiten trabajar sorteando el problema. En esta ocasión, la empresa siguió adelante, y con el tiempo los cientÃficos de datos encontraron una forma de derivar los valores que faltaban a partir de otros datos, de acuerdo a John Ainsworth, cientÃfico de datos de Elder Research.
El proyecto ya se encuentra encaminado y va a ofrecer grandes ahorros de costos gracias a que predice con exactitud las fallas, evitando costosas paradas e identificando exactamente dónde aplicar los costosos procedimientos de mantenimiento preventivo. Si esperaban a tener los datos en perfecto estado, nunca hubiera pasado esto, señala Deal, “porque las prioridades cambian y los datos nunca se arreglanâ€.
4. Al revisar la calidad de los datos, no botar la basura
Eric Siegel, presidente de la consultora Prediction Impact y autor de “Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Dieâ€, una vez trabajó con una compañÃa de servicios financieros que era parte de la lista de las Fortune 1000, y que deseaba predecir cuáles personas que contrataba para su call center permanecerÃan más tiempo en el trabajo.
A primera vista, los datos históricos parecÃan mostrar que los empleados que no habÃan concluido la secundarÃa tenÃan 2,6 veces más probabilidades de permanecer en el trabajo por lo menos nueve meses que los empleados con otros antecedentes educativos. “Estábamos a punto de recomendar al cliente que comience a dar prioridad a la contratación de personas que abandonaron la secundariaâ€, sostiene Siegel.
Pero habÃa dos problemas. Primero, los datos, que habÃan sido tomados manualmente de los CV de los postulantes, habÃan sido etiquetados de manera inconsistente. Una de las personas encargadas del ingreso de los datos revisaba todos los niveles educativos de los postulantes, mientras que otra revisaba solo el nivel más alto completado.
Parte del problema era el hecho de que, por alguna razón, la última persona -la que revisaba solo el nivel más alto completado- habÃa etiquetado los datos de más CV que la primera persona. Estos problemas se hubieran podido evitar asegurándose que las personas tuvieran acceso a un grupo al azar de CV, y que cada persona utilizara la misma metodologÃa.
Pero el mensaje principal es el siguiente, señala Siegel: “Si dejas que entre basura, saldrá basura. Asegúrese de revisar cuidadosamente la calidad de sus datos para asegurar su integridadâ€.
5. Usar datos del futuro para predecir el futuro
El problema con los data warehouses es que no son estáticos: la información cambia constantemente y se actualiza. Pero la analÃtica predictiva es un proceso de aprendizaje inductivo que se basa en el análisis de datos históricos, o “datos de entrenamientoâ€, para crear modelos. Entonces uno necesita recrear el estado de los datos cuando éstos se encontraban en un momento anterior en el ciclo de vida del cliente. Si los datos no tienen fecha ni hora, es fácil incluir datos del futuro que genera resultados equivocados.
Eso fue lo que sucedió a un club de autos regional cuando decidió construir un modelo que usarÃa para predecir cuáles de sus miembros tendrÃan las mayores probabilidades de comprar su seguro.
Para propósitos de modelado, el club necesitaba recrear cómo era el conjunto de datos en el pasado, antes de que los miembros compren o declinaran comprar el seguro, y excluir los datos subsecuentes. La organización habÃa creado un árbol de decisiones que incluÃa una variable de texto que contenÃa el teléfono, fax o correo electrónico. Cuando la variable contenÃa algún texto, habÃa una certidumbre de 100% de que esos miembros comprarÃan luego un seguro.
“Se nos aseguró que se sabÃa entonces qué significaba el indicadorâ€Â -antes que los miembros compraran el seguro- pero el personal del club “no podÃa decirnos qué significabaâ€, señala Elder, quien trabajó en el proyecto. Con el convencimiento de que esto era demasiado bueno para ser cierto, Elder continuó haciendo preguntas hasta que encontró a alguien de la organización que sabÃa la verdad: la variable representaba la forma en que los miembros cancelaban su seguro -por teléfono, fax o correo electrónico. “Uno no cancela el seguro antes de comprarloâ€, sostiene Elder. Entonces cuando uno hace modelado tiene que asegurar los datos.
6. Apresurarse en el proceso porque piensa que sus datos son perfectos
Entre el 60% a 80% del tiempo de un proyecto de analÃtica predictiva se utiliza en la preparación de los datos, de acuerdo a Elder Research. Los analistas tienen que jalar datos de varias fuentes, combinar tablas, voltear las cosas y agregar, y ese proceso puede tomar hasta un año para que todo esté correcto. Algunas organizaciones tienen la plena confianza de que sus datos son prÃstinos pero Abbott afirma que nunca ha visto una organización con datos perfectos. Siempre surgen problemas inesperados.
Consideremos el caso de una empresa farmacéutica que contrató a Elder Research para un proyecto, pero no aceptó el tiempo asignado al trabajo con los datos e insistió en acelerar el cronograma. Abbott cedió, y el proyecto siguió adelante con un cronograma reducido y un presupuesto más pequeño. Pero poco después de que el proyecto comenzó, la firma descubrió un problema: las fechas de entrega de algunas órdenes precedÃan a las fechas del establecimiento de los pedidos. “Esos no eran problemas que podÃamos superar, sino que nos tomaron tiempo en resolverâ€, indica Deal -tiempo que ya no se encontraba en el presupuesto.
Una vez que señaló el problema, el ejecutivo se dio cuenta que habÃa un problema y tuvo que ir con el equipo gerencial para explicarle por qué el proyecto iba a requerir más tiempo. “Esto se convirtió en un problema de credibilidad para él en ese momentoâ€, afirma Deal. ¿Cuál fue la lección? Sin importar cuan buenos piense uno que son sus datos, hay que esperar los problemas, es mejor establecer las expectativas de forma conservadora y luego superarlas.
7. Comenzar en grande, con un proyecto de alto perfil que va a cambiar el mundo
Una gran compañÃa farmacéutica tenÃa grandiosos planes que –creÃa- eran demasiado grandes para fallar. A medida que fue construyendo un servicio interno de analÃtica predictiva, el equipo decidió hacer algo que “revolucionarÃa la industria de cuidados de la saludâ€, recuerda Deal que proclamaron en una reunión inicial.
Pero las metas del proyecto eran demasiado grandes y requerÃan de una inversión muy grande. “Si uno no ve resultados pronto no se tiene nada que anime a mantener el nivel de inversiónâ€, sostiene.
Con el tiempo el proyecto colapsó bajo el peso de sus propias ambiciones. Entonces, no hay que forzar las cosas, especialmente si uno es nuevo en esto. “Establezca metas pequeñas y realistas, tenga éxito con ellas y comience a construir a partir de ahÃâ€, aconseja Deal.
8. Ignorar a los expertos en el tema al construir su modelo
Es una idea equivocada pensar que para crear un gran modelo predictivo uno simplemente inserta los datos en una caja negra, jala la palanca y aparecen los modelos predictivos. Más bien, los expertos en minerÃa de datos toman los datos, se van y regresan con un modelo que generalmente termina con resultados inexactos.
Eso fue lo que pasó en una empresa de reparación de computadoras que trabajó con Abbott Analytics. El negocio querÃa predecir qué repuestos deberÃa tener un técnico para cada pedido de servicio en base a la descripción del problema que se encuentra en el registro de la llamada del cliente.
“Es difÃcil sacar conceptos fundamentales de un texto de tal forma que sean útiles para el modelamiento predictivo, porque el lenguaje es muy ambiguoâ€, sostiene Abbott. La empresa requerÃa de una exactitud del 90% en la predicción de los requerimientos de repuestos, y los primeros modelos intentaron realizar predicciones en base a ciertas palabras clave que aparecÃan en el texto. “Creamos una variable para cada palabra clave y la poblamos con un “1â€Â o “0â€Â indicando la existencia de esa palabra clave en el ticket en particularâ€, que incluÃa el texto de la llamada del cliente.
“Fallamos estrepitosamenteâ€, señala Abbott.
Entonces buscó más datos -de los propios técnicos. “El secreto es tomar los datos que uno tiene y aumentarlos de tal forma que los atributos tengan más información en ellosâ€, sostiene. Luego de hablar con los expertos en el tema, su equipo creó un enfoque que tuvo éxito.
“En lugar de tener cientos de variables dispersas, condensamos esto en docenas de variables con más información, cada una de las cuales se encontraba enlazada con las relaciones históricas de repuestos que se necesitaronâ€, explica Abbott. Esencialmente, investigaron la ocurrencia de ciertas palabras clave en las historias de las reparaciones para descubrir en qué porcentaje se habÃa necesitado cierto repuesto.
“Lo que estábamos haciendo fue volver a trabajar con los datos para estar más alineados con lo que pensarÃa un experto, en lugar de confiar solo en los algoritmos para juntar las cosas. Ese es un truco que usamos frecuentemente porque los algoritmos solo son buenos para unir estos patronesâ€, indica.
9. Asumir que quienes tienen los datos van a ser muy cooperativos
Muchos grandes proyectos de analÃtica predictiva fallan porque aquellos que los inician no cubren todas las posibilidades antes de proceder. Uno de los más grandes obstáculos pueden ser las personas que poseen los datos, quienes controlan los datos o quienes controlan la forma en que los stakeholdersusan los datos. Un cliente de Elder Research -una firma que ofrece préstamos de corto plazo hasta el siguiente dÃa de pago- nunca pasó de la reunión de lanzamiento del proyecto debido a las discrepancias internas.
“En todo momento tuvimos problemas con las personas de TI, quienes se sintieron ofendidos por no haber sido convocados para hacer el trabajoâ€, señala Deal. Todas las personas que eran importantes para el proyecto debieron haber sido convocadas antes de que se iniciara la primera reunión, afirma.
Luego tenemos el caso de una empresa cobradora que tenÃan grandes planes para crear una forma de mejorar su tasa de éxito. Abbott asistió a la reunión inicial de lanzamiento. “La gente de TI tenÃa el control de los datos y se encontraban renuentes a ceder cualquier control a los grupos de inteligencia de negocios y minerÃa de datosâ€, señala.
La firma gastó cientos de miles de dólares desarrollando los modelos, para que luego la gerencia colocara al proyecto en espera “para evaluaciónâ€, por tres años. Ya que para entonces la información ya no serÃa de utilidad, “en esperaâ€Â fue efectivamente un eufemismo para señalar la muerte del proyecto. “Corrieron el modelo y recolectaron estadÃsticas sobre sus predicciones, pero nunca se usó para cambiar decisiones en la organización, asà que fue una completa pérdida de tiempoâ€.
“Los modelos fueron desarrollados pero nunca utilizados porque los cÃrculos polÃticos nunca se conectaronâ€, sostiene Abbott. Asà que si uno quiere tener éxito, hay que construir consenso, y tener el apoyo de la gerencia.
10. Construir el modelo y no preocuparse de cómo ofrecerlo
Bien, finalmente tiene un modelo predictivo que funciona. Y ¿ahora qué?
Las organizaciones generalmente hablan mucho acerca de los tipos de modelos que quieren construir y el retorno a la inversión que esperan, pero luego fallan al desplegarlo exitosamente hacia el negocio.
Cuando los consultores de Elder Research preguntan la forma en que el negocio va a desplegar el modelo en el ambiente de trabajo, la respuesta generalmente es “¿A qué te refieres con desplegar? No es que los modelos que tengo van a trabajar para mÃ?â€Â La respuesta es no, afirma Deal.
Las estrategias de despliegue, o la manera en que los modelos serán usados en el ambiente de negocio una vez que son construidos, pueden ir desde lo muy simple -una hoja de cálculo o una lista de resultados dada a una persona- hasta sistemas muy complejos en donde los datos provenientes de múltiples fuentes alimentan el modelo.
La mayorÃa de las organizaciones cae en la última categorÃa, señala Deal: tienen procesos complejos y enormes conjuntos de datos que requieren más que una simple hoja de cálculo o lista de resultados para hacer uso del producto. No solo las empresas tienen que invertir un software de analÃtica apropiado, que puede costar de 50 mil a 300 mil dólares o más, sino que puede que necesiten ingenierÃa de software para conectar las fuentes de datos al software que corre los modelos.
Finalmente, podrÃan necesitar integrar los resultados en una herramienta de visualización o inteligencia de negocios que las personas puedan usar para leer e interpretar los resultados. “El despliegue de un modelo exitoso es en ocasiones más trabajoso que construir el propio modeloâ€, señala.
Incluso entonces, la estrategia de despliegue podrÃa tener que cambiar para satisfacer las necesidades de los usuarios. Por ejemplo, la Oficina del Inspector General del Servicio de Correos de los Estados Unidos trabajó con Elder Research para desarrollar un modelo para registrar las actividades sospechosas para los investigadores de fraudes.
El inicio los investigadores ignoraron los modelos predictivos. Pero la herramienta también les dio acceso a los datos que necesitaban para sus investigaciones.
Luego el equipo decidió presentar la información de una forma más convincente, creando mapas de calor para mostrar qué contratos en un mapa tenÃan la más alta probabilidad de que sea fraude. Gradualmente, los investigadores comenzaron a apreciar lo que esta herramienta ofrecÃa a sus investigaciones.
En la actualidad, unos mil investigadores la están usando. Fue un momento de aprendizaje incluso para los expertos de Elder Research. “Aprendimos mucho sobre la forma en que las personas usan los resultados, y la forma en que desarrollan una apreciación de los modelos predictivosâ€, afirma Deal.
11. Deshacerse del modelo si los resultados parecen obvios
Una empresa dedicada al entretenimiento querÃa saber la mejor forma de recuperar a los clientes de alto valor que habÃan dejado de ir. Abbott Analytics desarrolló un modelo que mostraba que el 95% de las veces la mayorÃa de esos clientes volverÃa.
“Los patrones que el modelo encontró eran muy obvios en general. Por ejemplo, los clientes que habÃan estado viniendo al establecimiento de manera mensual durante muchos años, pero que de pronto dejaban de venir durante algunos meses generalmente volvÃan de nuevoâ€, sin ninguna intervención, señala Abbott.
La empresa rápidamente se dio cuenta que no necesitaba el modelo para predecir qué ofertas atraerÃan de vuelta a estos clientes -esperaban recuperarlos de todas formas- mientras que el otro 5% probablemente ya no volverÃa. “Pero los modelos pueden ser muy valiosos si identifican quiénes se desvÃan de lo obvioâ€, indica Abbott.
En lugar de detenerse aquÃ, sugirió que se concentraran en el sustancial número de ex clientes de alto valor que el modelo habÃa dicho que retornarÃan, pero que no lo hicieron. “Esas eran anomalÃas, que se pueden tratar con un nuevo programaâ€, señala Abbott.
“Ya que podÃamos predecir con gran exactitud quiénes volverÃan, alguien que no vuelve era realmente una anomalÃa. Estas eran las personas en quienes era necesario alguna intervenciónâ€.
Pero el negocio enfrentaba otro problema: no tenÃa información de ningún cliente sobre el motivo por el que habÃan dejado de ir y los modelos no podÃan predecir por qué la empresa no habÃa podido recuperar a estos clientes. “Van a tener que conseguir más datos para identificar el motivo principal por el que no están volviendoâ€, manifiesta Abbott. Solo entonces la empresa puede comenzar a experimentar con correos electrónicos y ofertas.
12. No definir con claridad y en forma precisa dentro del contexto del negocio que se supone que hacen los modelos
Abbott trabajó alguna vez en un modelo predictivo para una aplicación postal que necesitaba predecir la exactitud de los códigos de barra que estaba leyendo. El detalle: el cálculo tenÃa que realizarse en 1/500 de segundo para que se pudiera tomar una acción cuando cada documento pasara por la lectora.
Abbott puedo haberse presentado con un excelente algoritmo, pero serÃa de poca utilidad si no podÃa producir el resultado deseado en el tiempo dado. El modelo no solo tenÃa que hacer la predicción sino que tenÃa que hacerla en un lapso especÃfico, y esto se tenÃa que incluir en la definición del modelo. Asà que tuvo que hacer concesiones en términos de los algoritmos que podrÃa usar. “Los modelos tenÃan que ser muy simples para que cumplan con el tiempo presupuestado, y esto es tÃpico en los negociosâ€, sostiene.
El modelo tenÃa que cumplir con las restricciones del negocio, y esas restricciones debÃan estar claramente definidas en la especificación del diseño. Desafortunadamente, añade, este tipo de forma de pensar generalmente no se enseña en las universidades. “Muchas personas están simplemente intentando construir buenos modelos, pero no tienen idea de la forma en que el modelo va a ser realmente utilizadoâ€, señala.
Conclusiones: fallar es una opción
Si, después de todo esto, piensa que la analÃtica predictiva es demasiado difÃcil, no tema, los consultores pueden asesorarlo. Abbott explica la forma en que piensan los consultores: “Uno comete errores en el camino, uno aprende y realiza los ajustesâ€, sostiene. Vale la pena el esfuerzo, agrega.“Estos algoritmos ven los datos de formas en que los seres humanos no pueden y ayudan a enfocar la toma de decisiones de maneras que la empresa no podrÃa hacer de otra formaâ€.
“Muchas veces nos llaman luego de que otras personas lo han intentado y falladoâ€, señala Elder. “Es realmente difÃcil hacerlo bien. Pero hay muchas cosas que las personas pueden conseguir a partir de sus datos. Y si sigue unos cuantos principios podrá hacerlo bienâ€.
– Robert L. Mitchell, Computerworld
