¿Qué son los Guardarraíles de IA (Guardrails)?
Los guardarraíles son controles en tiempo de ejecución que acotan lo que entra y sale de un sistema de IA, manteniendo su comportamiento seguro, conforme a la política y al cumplimiento. Comprueban y filtran entradas y salidas, validan acciones de herramientas, bloquean contenido no permitido e imponen límites, situándose alrededor del modelo como capa de seguridad. Son un control primario y operativo en la gobernanza de IA y una defensa clave contra el mal uso y la inyección de prompts.
Definición
Los guardarraíles de IA son salvaguardas en tiempo de ejecución que validan, filtran o acotan las entradas, salidas y acciones de un modelo para mantener su comportamiento seguro, conforme y dentro de la política definida.
Puntos clave
- Los guardarraíles actúan en tiempo de ejecución sobre entradas, salidas y acciones.
- Imponen seguridad, política y cumplimiento, no la calidad del modelo.
- Tipos: filtrado de entrada, validación de salida, listas de permitidos de acciones, límites.
- Una defensa central contra el mal uso y la inyección de prompts.
- Complementan —no reemplazan— la evaluación y la supervisión.
Contexto
Un modelo por sí solo no tiene límites exigibles; intentará lo que el prompt provoque. Los guardarraíles añaden esos límites de forma operativa: comprobaciones deterministas o basadas en modelo que se sitúan entre el usuario, el modelo y los sistemas que puede tocar.
Son la forma en que las políticas de gobernanza se vuelven controles vivos. Una política que dice 'nunca exponer datos personales' o 'nunca ejecutar pagos sin aprobación' se materializa como un guardarraíl que realmente comprueba y bloquea en tiempo de ejecución.
Arquitectura
Los guardarraíles de entrada filtran prompts (p. ej. inyección, violaciones de política, datos personales). Los de salida validan respuestas (formato, seguridad, restricciones factuales, redacción de datos personales). Los de acción acotan las llamadas a herramientas con permisos y listas de permitidos. Los límites de tasa, alcance y presupuesto contienen el radio de impacto.
Pueden ser deterministas (reglas, esquemas, regex, listas de permitidos) o basados en modelo (un clasificador o juez LLM). Se combinan con observabilidad para registrar violaciones y con aprobación con humano en el bucle para acciones de alto impacto.
Componentes
Beneficios
- Impone seguridad y política en ejecución, no solo en la guía.
- Reduce el mal uso, la salida insegura y el impacto de la inyección.
- Operacionaliza requisitos de gobernanza y cumplimiento.
- Acota el radio de impacto de las acciones del agente.
Riesgos
- El sobrebloqueo daña la utilidad (falsos positivos).
- El infrabloqueo crea una falsa sensación de seguridad.
- Los guardarraíles basados en modelo añaden latencia y coste.
- No son una defensa completa; combínalos con supervisión y evaluaciones.
Herramientas y tecnologías
Ejemplos
- Redactar datos personales de la salida de un modelo antes de mostrarla.
- Bloquear una llamada a herramienta fuera de una lista de acciones seguras.
- Rechazar respuestas que no cumplen un esquema JSON requerido.
FAQs
- ¿Los guardarraíles son lo mismo que la alineación?
- No. La alineación moldea el comportamiento intrínseco del modelo durante el entrenamiento; los guardarraíles son controles externos en ejecución alrededor del sistema desplegado. Son complementarios.
- ¿Los guardarraíles detienen la inyección de prompts?
- Reducen su impacto —el filtrado de entrada y las listas de permitidos ayudan— pero ningún guardarraíl la previene por completo. Usa defensas por capas más aprobación humana para acciones sensibles.
- ¿Guardarraíles deterministas o basados en modelo?
- Ambos. Las comprobaciones deterministas (esquemas, listas) son baratas y fiables para reglas claras; las basadas en modelo manejan contenido con matices a costa de latencia.
- ¿Cómo encajan los guardarraíles en la gobernanza de IA?
- Son la capa operativa: los controles en ejecución que convierten las políticas de gobernanza en comportamiento exigido, evidenciado mediante registro y auditoría.