La Inteligencia Artificial (IA) ha evolucionado rápidamente, dejando atrás su carácter experimental para convertirse en una herramienta estratégica dentro de las organizaciones. Hoy, empresas de diversos sectores la integran en sus procesos diarios para optimizar la toma de decisiones, reducir tiempos de respuesta y potenciar la productividad.
A través de agentes especializados e intérpretes personalizados, las compañías pueden entrenar modelos de IA con sus propios datos, reglas y experiencia. No obstante, este avance plantea un nuevo desafío para la alta dirección: garantizar que la implementación de la IA cuente con el gobierno de datos, los controles de seguridad y la supervisión humana adecuados.
“La confianza en la IA no debe basarse únicamente en su capacidad de
responder, sino en su capacidad para resistir manipulaciones, instrucciones
maliciosas y usos indebidos. Evaluar estos sistemas con el mismo rigor que
cualquier otra infraestructura crítica es ya una necesidad estratégica”, señaló
Fidel Delgado, Gerente Coordinador en Salles Sainz Grant Thornton.
El nuevo perfil del atacante: manipulación en lugar de intrusión
Tradicionalmente, la ciberseguridad se ha enfocado en proteger la infraestructura mediante firewalls, contraseñas y antivirus. Sin embargo, la adopción de Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) introduce un cambio de paradigma relevante.
Hoy, el riesgo no radica únicamente en vulnerabilidades técnicas, sino en la capacidad de manipular a la IA mediante lenguaje natural. Este enfoque, conocido como Prompt Injection, permite que usuarios malintencionados persuadan a los modelos para ejecutar acciones indebidas o revelar información sensible.
“El atacante ya no necesita conocimientos avanzados de programación; basta
con entender cómo persuadir a la IA. Este cambio obliga a replantear la forma
en que concebimos la seguridad digital”, añadió Delgado.
Caso de éxito: la prueba del “castillo” en AWS Bedrock
Para ilustrar estos riesgos, se llevó a cabo una prueba de seguridad avanzada sobre un agente de IA en un entorno de AWS Bedrock AgentCore. En lugar de utilizar técnicas tradicionales de hacking, se empleó una analogía: el sistema fue presentado como un “castillo”, donde las carpetas representaban habitaciones y los archivos confidenciales fungían como “tesoros”.
Los resultados evidenciaron vulnerabilidades críticas:
• La IA aceptó la metáfora y tradujo las instrucciones en acciones reales.
Salles Sainz Grant Thornton S.C. · Firma miembro de Grant Thornton International Ltd.Página 1
• El agente logró explorar el entorno, identificar rutas del sistema, leer configuraciones internas y acceder al prompt del sistema.
• Aunque no obtuvo privilegios de administrador, sí expuso referencias sensibles y archivos internos.
La principal conclusión fue clara: el riesgo no provino de una falla en el código, sino de una combinación de permisos sobreexpuestos y una IA con demasiada autonomía operativa.
El verdadero desafío: controlar el comportamiento de la IA
Este ejercicio demostró que proteger la infraestructura tradicional ya no es suficiente. Las organizaciones deben controlar qué puede leer, interpretar y ejecutar un agente de IA, ya que instrucciones aparentemente inofensivas pueden derivar en la exposición de información confidencial o en la extracción indebida de datos.
