Dependientes del cÃ³digo abierto: Â¿cuÃ¡nto poder analÃtico es necesario?

Los cientÃficos de datos necesitan justificar la necesidad del riesgo incremental que asumimos cuando utilizamos mÃ©todos mÃ¡s complicados para resolver un problema â€”y dejar de ser dependientes del cÃ³digo abiertoâ€”

En los aÃ±os que llevo recorriendo pendientes imposibles y caminos rocosos, he aprendido que manejar un todo terreno es muy parecido a resolver problemas analÃticos: es contraproducente utilizar mÃ¡s caballos de fuerza de los que necesitas.

Â¿CuÃ¡nto poder predictivo es suficiente?

Existe una amplia variedad de herramientas analÃticas de cÃ³digo abierto gratuitas para los cientÃficos de datos y los estudiantes, quienes participan en las competencias de Kaggle. Esta famosa plataforma de competencias de desarrollo de modelos predictivos y anÃ¡lisis es propiedad de Google, y su prevalencia en la ideologÃa de la comunidad analÃtica es en sÃ misma una cuestiÃ³n inquietante. El problema especÃfico con Kaggle es que exhorta implÃcitamente a utilizar el mayor poder analÃtico posible para resolver sus acertijos, sin importar que ese mÃ©todo sea apropiado o no aplicable en el mundo real.

Un ejemplo de cÃ³mo ese tipo de anÃ¡lisis excesivo genera resultados contaminados es la idea del volcado de datos: verter tantas fuentes de datos como sea posible a travÃ©s de un modelo para obtener una mejora diminuta en su poder predictivo, sin entender quÃ© relaciones nuevas (y probablemente insignificantes) se estÃ¡n aprendiendo, ademÃ¡s de no considerar la confluencia de la complejidad del modelo.

El exceso de anÃ¡lisis es un ganador en Kaggle, pero no asÃ en el mundo real. He aquÃ mis opiniones, al respecto:

Considero que eso es poco ortodoxo en el mundo de la ciencia de datos: lo explicable primero, el poder predictivo despuÃ©s, una nociÃ³n que es mÃ¡s importante que nunca para las compaÃ±Ãas que se encuentran implementando inteligencia artificial (IA).

Una IA que sea explicable permite a los humanos encontrar respuestas a preguntas importantes, tales como:

Â¿El modelo se desarrollÃ³ de manera adecuada?
Â¿CuÃ¡les son los riesgos de utilizar el modelo?
Â¿CuÃ¡ndo se degradarÃ¡ el modelo?

RehabilitaciÃ³n para los dependientes del cÃ³digo abierto

â€œAdictos al cÃ³digo abiertoâ€ es el tÃ©rmino que utilizo para referirme a los cientÃficos de datos que emplean poder analÃtico excesivo para resolver un problema. La buena noticia es que hay un camino directo a la rehabilitaciÃ³n. Tal como lo expresÃ³ el genio de la industria de IA, Andrew Ng, la idea es: â€œEmpezar siempre con la tecnologÃa mÃ¡s sencilla y luego justificar por quÃ© debes usar mÃ©todos mÃ¡s complejosâ€. Por lo tanto, las preguntas que debemos plantearnos respecto al diseÃ±o de modelos son:

Â¿CÃ³mo de bien entendemos el problema que estamos resolviendo? Â¿DeberÃamos conversar con la empresa para obtener una perspectiva clara para diseÃ±ar el modelo?
Â¿CuÃ¡les son las fuentes de datos adecuadas que se deben incluir? Â¿QuÃ© variables/caracterÃsticas clave derivaremos de estas fuentes?
Â¿QuÃ© tan eficaz es nuestro modelo mÃ¡s sencillo; por ejemplo, una regresiÃ³n? Â¿Cumple con los requisitos de la empresa? Â¿CuÃ¡les son los impulsores de este modelo?
A medida que agregamos complejidad al modelo, Â¿quÃ© ganamos en predicciÃ³n y quÃ© perdemos en capacidad explicativa? Â¿Robustez? Â¿Ã‰tica?
Â¿Debemos dar el salto a modelos de aprendizaje automÃ¡tico interpretables?

BÃ¡sicamente, necesitamos justificar la necesidad del riesgo incremental que asumimos cuando utilizamos mÃ©todos mÃ¡s complicados. Como cientÃficos de datos, debemos preguntarnos: Â¿QuÃ© pretendemos lograr? Â¿CuÃ¡les son las tecnologÃas adecuadas para lograrlo? Â¿QuÃ© debemos sacrificar? Los sacrificios inaceptables incluyen violaciones a las legislaciones de protecciÃ³n de datos y una IA que no sea Ã©tica.

La educaciÃ³n es fundamental

Retomando mi analogÃa de una todo terreno, si veo una cuesta llena de rocas e intento subirla, sÃ© que podrÃ© lograrlo, Â¿pero quÃ© sendero elegirÃ©? SubirÃ© de forma lenta y estable por la cuesta y sobre las rocas, sin gran esfuerzo, sin forzar el motor. Aquellos que lleven los caballos de fuerza de su auto al lÃmite sobre un terreno difÃcil serÃ¡n los que volcarÃ¡n y romperÃ¡n sus vehÃculos. En estas condiciones, lento es rÃ¡pido (Â¡e inteligente!). Cuando se trata de desarrollar tecnologÃas adecuadas de inteligencia artificial y aprendizaje automÃ¡tico, lento tambiÃ©n es rÃ¡pido.

Eso nos lleva a considerar la importancia de la capacitaciÃ³n. Los cientÃficos de datos necesitan tener una perspectiva mÃ¡s amplia no sÃ³lo sobre Â la ciencia de los datos, sino tambiÃ©n del contexto empresarial y social en el que se utilizarÃ¡ su trabajo.

-Scott Zoldi, Chief Analytics Officer de FICO.

Secciones

Síguenos

Contenido Exclusivo

¡Ya está aquí la Revista Digital “Los Mejores 20 CISO de México 2025”!

¡Descarga la Revista Digital “Los Mejores 100 CIO de México 2025”!

“Los 100 Mejores CIO de MÃ©xico” celebran 20 AÃ±os de transformaciÃ³n y liderazgo Ã©tico

Secciones

Síguenos

Dependientes del cÃ³digo abierto: Â¿cuÃ¡nto poder analÃtico es necesario?

La educaciÃ³n es fundamental

Lo Más Reciente

Crecer ya no es contratar: el dilema de las empresas mexicanas en 2026

La nueva fiscalización digital convierte los datos en un activo estratégico

México 2026: fútbol, prime time y una audiencia hiperconectada

IA Agéntica llega al core del retail

Newsletter

Crecer ya no es contratar: el dilema de las empresas mexicanas en 2026

La nueva fiscalización digital convierte los datos en un activo estratégico

México 2026: fútbol, prime time y una audiencia hiperconectada

Acerca de CIO | EDIWORLD

Secciones

Secciones

Síguenos

Contenido Exclusivo

Secciones

Síguenos

Dependientes del cÃ³digo abierto: Â¿cuÃ¡nto poder analÃ­tico es necesario?

La educaciÃ³n es fundamental

Lo Más Reciente

Newsletter

Acerca de CIO | EDIWORLD

Secciones

Dependientes del cÃ³digo abierto: Â¿cuÃ¡nto poder analÃtico es necesario?