Saltar al contenido
NexoSmart Logo
Tecnología

¿Qué son guardrails en agentes IA?

Publicado: 2026-04-25 · Actualizado: 2026-04-25

Guardrails son reglas, filtros y validaciones que se interponen entre el LLM y el mundo real para impedir acciones peligrosas, output tóxico, fugas de datos sensibles o violaciones de policy de negocio. Pueden ser pre-prompt (input filtering), in-prompt (instrucciones) o post-output (validación antes de ejecutar). NexoSmart los integra a tres niveles sobre Qwen + method indexing.

3
Niveles de guardrails en NexoSmart (input/action/output)

NexoSmart

<50ms
Latencia añadida por guardrails rule-based

NexoSmart

¿Qué tipos de guardrails existen?

Cinco familias: input filters (PII redaction, prompt injection detection), output filters (toxicity, hallucination check), action guardrails (whitelist/blacklist de tools), policy guardrails (reglas de negocio: no responder sobre competidores, no prometer descuentos) y rate guardrails (max calls/hora).

  • Input: PII, prompt injection
  • Output: toxicity, alucinación
  • Action: whitelist de tools
  • Policy: reglas de negocio
  • Rate: max calls/hora

¿Cómo se implementan?

Tres approaches: rule-based (regex, keyword lists), LLM-as-judge (un segundo LLM valida output del primero) e híbrido. NexoSmart usa híbrido: regex para PII y prompt injection conocidos, LLM-as-judge para semántica (ej. "¿esta respuesta promete algo que no podemos cumplir?").

¿Frameworks open source?

NeMo Guardrails (NVIDIA), Guardrails.ai, LangChain output parsers. NexoSmart implementa guardrails custom en TypeScript dentro del orquestador, sin dependencia de framework externo, para mantener control total.

¿Qué pasa si un guardrail dispara?

Tres opciones configurables: bloquear y devolver fallback ("no puedo ayudar con eso"), reescribir el output sanitizado, o escalar a human-in-the-loop. La elección depende del riesgo: legal/financiero → escalación, soporte general → fallback.

Preguntas frecuentes

Si están mal calibrados, sí. Bien diseñados, solo bloquean el 1-2% de acciones (las riesgosas) sin afectar el resto.

Los rule-based sí pueden ser sorteados con prompt injection sofisticado. Por eso se combinan con LLM-as-judge y HITL en acciones críticas.

NexoSmart trabaja con el cliente para extraer reglas explícitas e implícitas del negocio en el onboarding (incluido en el fee de USD 2.000).

Escrito por Maximiliano Rodríguez, Fundador y Director de NexoSmart

Última actualización: abril de 2026

Cotizá tu proyecto

Completá estos 3 pasos y recibí una propuesta detallada en tu email.

Contacto
Tu idea
Detalles
Paso 1 de 3: Datos de contacto

Temas relacionados