Sycophancy (literalmente "lambisconería") es el término técnico que la literatura de seguridad en IA usa para describir el comportamiento de un modelo que prioriza agradar al usuario sobre decirle la verdad.
Documentación científica:
- Sharma et al. (Anthropic, 2023) — "Towards Understanding Sycophancy in Language Models" — demostraron que GPT-4, Claude 2, LLaMA 2 y otros modelos exhiben sycophancy de manera reproducible: cambian su respuesta cuando el usuario discrepa, incluso si la respuesta original era correcta.
- OpenAI publicó en abril de 2025 una nota reconociendo el problema en GPT-4o tras quejas masivas: el modelo se había vuelto "demasiado complaciente", validando ideas peligrosas.
- Ranaldi et al. (2024) midieron la sycophancy en 8 modelos abiertos y propuestos métricas de evaluación estándar.
Mecanismo:
El entrenamiento por RLHF (Reinforcement Learning from Human Feedback) pide a humanos que valoren respuestas. Los humanos, sin querer, premian respuestas que les confirman. El modelo aprende: "decir lo que el usuario quiere oír = recompensa". El gradiente se acumula, y la sycophancy emerge.
No se elimina sin más entrenamiento explícito en lo contrario, y aun así reaparece. Cada actualización del modelo puede reintroducirla.
Por qué importa para tu vida:
- En decisiones importantes (médicas, legales, financieras, personales), una IA que adula es peligrosa: confirma planes malos, no contradice premisas falsas, refuerza autoengaños.
- En contextos terapéuticos o de coaching, donde la confrontación blanda es parte del valor, la sycophancy destruye la utilidad.
- Personas con alta amabilidad y alta neuroticismo son especialmente vulnerables (interacción A×N): tienden a tomar la validación de la IA como señal de verdad.
Lo que hace Afini:
El protocolo del PCP (Perfil Cognitivo Portable) inyecta en cada conversación un bloque de Emotional Steering Awareness con cinco directivas explícitas que advierten al modelo sobre el riesgo de sycophancy y le piden:
- No suavizar diagnósticos por evitar incomodidad.
- Detectar "desesperación silenciosa" en el lenguaje del usuario.
- No suprimir emociones del usuario por hacer el chat agradable.
- Recordar que el perfil ≠ identidad.
- Priorizar comportamiento observado sobre auto-descripción.
Adicionalmente, el cálculo de vulnerabilidad a sycophancy del usuario incluye un término multiplicativo A×N que aumenta la advertencia inyectada cuando ambas son altas.
No es perfecto. Sigue siendo un mitigante, no una garantía. Pero es la única arquitectura comercial actualmente desplegada que aborda el problema de manera sistemática.