Tecnología

¿Qué son guardrails en agentes IA?

Q: ¿Los guardrails reducen utilidad del agente?

Si están mal calibrados, sí. Bien diseñados, solo bloquean el 1-2% de acciones (las riesgosas) sin afectar el resto.

Q: ¿Se pueden bypassear?

Los rule-based sí pueden ser sorteados con prompt injection sofisticado. Por eso se combinan con LLM-as-judge y HITL en acciones críticas.

Q: ¿Quién define las reglas?

NexoSmart trabaja con el cliente para extraer reglas explícitas e implícitas del negocio en el onboarding (incluido en el fee de USD 2.000).

Publicado: 2026-04-25 · Actualizado: 2026-04-25

Guardrails son reglas, filtros y validaciones que se interponen entre el LLM y el mundo real para impedir acciones peligrosas, output tóxico, fugas de datos sensibles o violaciones de policy de negocio. Pueden ser pre-prompt (input filtering), in-prompt (instrucciones) o post-output (validación antes de ejecutar). NexoSmart los integra a tres niveles sobre Qwen + method indexing.

3
Niveles de guardrails en NexoSmart (input/action/output): <50ms
Latencia añadida por guardrails rule-based

¿Qué tipos de guardrails existen?

Cinco familias: input filters (PII redaction, prompt injection detection), output filters (toxicity, hallucination check), action guardrails (whitelist/blacklist de tools), policy guardrails (reglas de negocio: no responder sobre competidores, no prometer descuentos) y rate guardrails (max calls/hora).

•Input: PII, prompt injection
•Output: toxicity, alucinación
•Action: whitelist de tools
•Policy: reglas de negocio
•Rate: max calls/hora

¿Cómo se implementan?

Tres approaches: rule-based (regex, keyword lists), LLM-as-judge (un segundo LLM valida output del primero) e híbrido. NexoSmart usa híbrido: regex para PII y prompt injection conocidos, LLM-as-judge para semántica (ej. "¿esta respuesta promete algo que no podemos cumplir?").

¿Frameworks open source?

NeMo Guardrails (NVIDIA), Guardrails.ai, LangChain output parsers. NexoSmart implementa guardrails custom en TypeScript dentro del orquestador, sin dependencia de framework externo, para mantener control total.

¿Qué pasa si un guardrail dispara?

Tres opciones configurables: bloquear y devolver fallback ("no puedo ayudar con eso"), reescribir el output sanitizado, o escalar a human-in-the-loop. La elección depende del riesgo: legal/financiero → escalación, soporte general → fallback.

Preguntas frecuentes

Si están mal calibrados, sí. Bien diseñados, solo bloquean el 1-2% de acciones (las riesgosas) sin afectar el resto.

Los rule-based sí pueden ser sorteados con prompt injection sofisticado. Por eso se combinan con LLM-as-judge y HITL en acciones críticas.

NexoSmart trabaja con el cliente para extraer reglas explícitas e implícitas del negocio en el onboarding (incluido en el fee de USD 2.000).

Escrito por Maximiliano Rodríguez, Fundador y Director de NexoSmart

Última actualización: mayo de 2026

Cotizá tu proyecto

Completá estos 3 pasos y recibí una propuesta detallada en tu email.

Contacto

Tu idea

Detalles

Nombre y Apellido

País

Temas relacionados

Hub de Clonación Agéntica Human-in-the-loop GDPR y LLMs Cola de aprobación Discord