Poner en producción los modelos de procesamiento del lenguaje natural (PLN) es muy parecido a comprar un coche. En ambos casos, se establecen los parámetros para el resultado deseado, se prueban varios enfoques, probablemente se vuelven a probar, y en el momento en que se sale del lote, el valor empieza a caer en picado. Al igual que tener un coche, tener productos con PNL o IA tiene muchos beneficios, pero el mantenimiento nunca se detiene. No debería hacerlo al menos para que funcione correctamente a lo largo del tiempo.
Aunque la producción de la IA ya es bastante difícil, garantizar la precisión de los modelos en un entorno real puede suponer un reto de gobernanza aún mayor. La precisión de los modelos se degrada en el momento en que llegan al mercado, ya que el entorno de investigación predecible en el que fueron entrenados se comporta de forma diferente en la vida real. Al igual que la autopista es un escenario diferente al del lote del concesionario.
Es lo que se denomina deriva del concepto, es decir, cuando las variables cambian, el concepto aprendido puede dejar de ser preciso, y aunque no es nada nuevo en el campo de la IA y el aprendizaje automático (ML), es algo que sigue desafiando a los usuarios. También es un factor que contribuye a explicar por qué, a pesar de las enormes inversiones en IA y PNL en los últimos años, sólo alrededor del 13% de los proyectos de ciencia de datos llegan realmente a la producción (VentureBeat).
Entonces, ¿qué se necesita para pasar los productos de la investigación a la producción de forma segura? Y, lo que es igual de importante, ¿qué se necesita para mantenerlos en producción de forma precisa con los cambios de las mareas? Hay algunas consideraciones que las empresas deben tener en cuenta para asegurarse de que sus inversiones en IA vean realmente la luz del día.
Poner en producción los modelos de IA
La gobernanza de los modelos es un componente clave en la puesta en producción de las iniciativas de PNL y una razón común por la que muchos productos siguen siendo proyectos. La gobernanza de los modelos abarca la forma en que una empresa realiza el seguimiento de la actividad, el acceso y el comportamiento de los modelos en un entorno de producción determinado. Es importante supervisar esto para mitigar el riesgo, solucionar problemas y mantener el cumplimiento. Este concepto se entiende bien entre la comunidad global de IA, pero también es una espina clavada.
Los datos de la Encuesta de la Industria de PNL de 2021 mostraron que las herramientas de alta precisión que son fáciles de ajustar y personalizar eran una prioridad principal entre los encuestados. Los líderes tecnológicos se hicieron eco de esta afirmación, señalando que la precisión, seguida de la preparación para la producción y la escalabilidad, era vital a la hora de evaluar las soluciones de PNL. El ajuste constante es la clave para que los modelos funcionen con precisión a lo largo del tiempo, pero también es el mayor reto al que se enfrentan los profesionales.
Los proyectos de PNL implican la creación de cadenas de producción en las que los resultados de una tarea anterior y un modelo preentrenado se utilizan a continuación. A menudo, los modelos deben ajustarse y personalizarse para sus dominios y aplicaciones específicas. Por ejemplo, un modelo sanitario entrenado en documentos académicos o revistas médicas no tendrá el mismo rendimiento cuando lo utilice una empresa de medios de comunicación para identificar noticias falsas.
La mejora de la capacidad de búsqueda y la colaboración entre la comunidad de la IA desempeñarán un papel fundamental en la estandarización de las prácticas de gobierno de los modelos. Esto incluye el almacenamiento de los activos de modelización en un catálogo con capacidad de búsqueda, incluyendo cuadernos, conjuntos de datos, mediciones resultantes, hiperparámetros y otros metadatos. Permitir la reproducibilidad y el intercambio de experimentos entre los miembros del equipo de ciencia de datos es otra área que será ventajosa para aquellos que intentan llevar sus proyectos a la fase de producción.
Desde el punto de vista táctico, la mejor manera de garantizar que los modelos se comporten de la misma manera en la producción que en la investigación -—dos entornos muy diferentes— es probarlos y repetirlos rigurosamente. Versionar los modelos que han pasado de ser un experimento a una versión candidata, comprobar la exactitud, el sesgo y la estabilidad de esos candidatos y validar los modelos antes de lanzarlos en nuevas zonas geográficas o poblaciones son factores que todos los profesionales deberían tener en cuenta.
En el lanzamiento de cualquier software, la seguridad y el cumplimiento de las normas deben estar presentes en la estrategia desde el principio, y los proyectos de IA no son diferentes. El control de acceso basado en roles y un flujo de trabajo de aprobación para el lanzamiento del modelo, así como el almacenamiento y la provisión de todos los metadatos necesarios para una pista de auditoría completa, son algunas de las medidas de seguridad necesarias para que un modelo se considere listo para la producción.
Estas prácticas pueden mejorar significativamente las posibilidades de que los proyectos de IA pasen de la ideación a la producción. Y lo que es más importante, ayudan a sentar las bases de las prácticas que deben aplicarse una vez que el producto está listo para el cliente.
Mantener los modelos de IA en producción
Volvamos a la analogía del coche: no hay una luz definitiva de “revisión del motor” para la IA en producción, por lo que los equipos de datos deben supervisar constantemente sus modelos. A diferencia de los proyectos de software tradicionales, es importante mantener a los científicos e ingenieros de datos en el proyecto, incluso después de que el modelo se haya desplegado.
Desde un punto de vista operativo, esto requiere más recursos, tanto de capital humano como de costes, lo que puede ser la razón por la que tantas organizaciones no lo hacen. La presión para mantener el ritmo de los negocios y pasar a la “siguiente cosa” también influye, pero quizás el mayor descuido es que incluso los líderes de TI no esperan que la degradación del modelo sea un problema.
En el ámbito de la sanidad, por ejemplo, un modelo puede analizar las historias clínicas electrónicas (EMR) para predecir la probabilidad de que un paciente sufra una cesárea de urgencia en función de factores de riesgo como la obesidad, el tabaquismo o el consumo de drogas y otros determinantes de la salud. Si la paciente es considerada de alto riesgo, su médico puede pedirle que acuda antes o con más frecuencia para reducir las complicaciones del embarazo.
Se espera que estos factores de riesgo se mantengan constantes a lo largo del tiempo, y aunque muchos de ellos lo hacen, el paciente es menos predecible. ¿Han dejado de fumar? ¿Se les ha diagnosticado diabetes gestacional? También hay matices en la forma en que el médico hace una pregunta y registra la respuesta en el registro del hospital que podrían dar lugar a resultados diferentes.
Esto puede resultar aún más complicado si se tienen en cuenta las herramientas de PNL que utilizan la mayoría de los profesionales. La mayoría (83%) de los encuestados de la mencionada encuesta afirmaron que utilizaban al menos uno de los siguientes servicios de PNL en la nube: AWS Comprehend, Azure Text Analytics, Google Cloud Natural Language AI o IBM Watson NLU. Aunque la popularidad y la accesibilidad de los servicios en la nube son evidentes, los líderes tecnológicos citaron la dificultad para ajustar los modelos y el coste como principales retos. Esencialmente, incluso los expertos están luchando por mantener la precisión de los modelos en producción.
Otro problema es que, sencillamente, se necesita tiempo para ver si algo va mal. El tiempo puede variar significativamente. Amazon puede estar actualizando un algoritmo para la detección de fraudes y bloquear por error a los clientes en el proceso. En cuestión de horas, incluso de minutos, los correos electrónicos del servicio de atención al cliente señalarán un problema. En el ámbito de la salud, pueden pasar meses hasta que se obtengan suficientes datos sobre una determinada enfermedad para ver que un modelo se ha degradado.
Básicamente, para mantener la precisión de los modelos es necesario aplicar el mismo rigor de las pruebas, la automatización de los procesos de reentrenamiento y las mediciones que se realizaban antes de desplegar el modelo. Cuando se trata de modelos de IA y ML en producción, es más pertinente esperar problemas que esperar un rendimiento óptimo a varios meses vista.
Si se tiene en cuenta todo el trabajo que supone poner los modelos en producción y mantenerlos allí de forma segura, se entiende por qué el 87% de los proyectos de datos nunca llegan al mercado. A pesar de ello, el 93% de los líderes tecnológicos indicaron que sus presupuestos de PNL aumentaron entre un 10 y un 30% en comparación con el año pasado (Gradient Flow). Es alentador ver cómo crecen las inversiones en tecnología de PNL, pero todo es inútil si las empresas no hacen un balance de la experiencia, el tiempo y la actualización continua que se requieren para desplegar proyectos de PNL con éxito.
–David Talby, cio.com.mx