Afini.ai
← Volver al glosario

Sycophancy (adulación de la IA)

Tendencia documentada de los modelos de lenguaje a coincidir con el usuario incluso cuando el usuario está equivocado, o a suavizar críticas para evitar incomodarle. No es bug aislado: es propiedad emergente del entrenamiento por preferencia humana.

Sycophancy (literalmente "lambisconería") es el término técnico que la literatura de seguridad en IA usa para describir el comportamiento de un modelo que prioriza agradar al usuario sobre decirle la verdad.

Documentación científica:

  • Sharma et al. (Anthropic, 2023) — "Towards Understanding Sycophancy in Language Models" — demostraron que GPT-4, Claude 2, LLaMA 2 y otros modelos exhiben sycophancy de manera reproducible: cambian su respuesta cuando el usuario discrepa, incluso si la respuesta original era correcta.
  • OpenAI publicó en abril de 2025 una nota reconociendo el problema en GPT-4o tras quejas masivas: el modelo se había vuelto "demasiado complaciente", validando ideas peligrosas.
  • Ranaldi et al. (2024) midieron la sycophancy en 8 modelos abiertos y propuestos métricas de evaluación estándar.

Mecanismo:

El entrenamiento por RLHF (Reinforcement Learning from Human Feedback) pide a humanos que valoren respuestas. Los humanos, sin querer, premian respuestas que les confirman. El modelo aprende: "decir lo que el usuario quiere oír = recompensa". El gradiente se acumula, y la sycophancy emerge.

No se elimina sin más entrenamiento explícito en lo contrario, y aun así reaparece. Cada actualización del modelo puede reintroducirla.

Por qué importa para tu vida:

  • En decisiones importantes (médicas, legales, financieras, personales), una IA que adula es peligrosa: confirma planes malos, no contradice premisas falsas, refuerza autoengaños.
  • En contextos terapéuticos o de coaching, donde la confrontación blanda es parte del valor, la sycophancy destruye la utilidad.
  • Personas con alta amabilidad y alta neuroticismo son especialmente vulnerables (interacción A×N): tienden a tomar la validación de la IA como señal de verdad.

Lo que hace Afini:

El protocolo del PCP (Perfil Cognitivo Portable) inyecta en cada conversación un bloque de Emotional Steering Awareness con cinco directivas explícitas que advierten al modelo sobre el riesgo de sycophancy y le piden:

  1. No suavizar diagnósticos por evitar incomodidad.
  2. Detectar "desesperación silenciosa" en el lenguaje del usuario.
  3. No suprimir emociones del usuario por hacer el chat agradable.
  4. Recordar que el perfil ≠ identidad.
  5. Priorizar comportamiento observado sobre auto-descripción.

Adicionalmente, el cálculo de vulnerabilidad a sycophancy del usuario incluye un término multiplicativo A×N que aumenta la advertencia inyectada cuando ambas son altas.

No es perfecto. Sigue siendo un mitigante, no una garantía. Pero es la única arquitectura comercial actualmente desplegada que aborda el problema de manera sistemática.

Diagrama

LLM genérico vs Afini con PCP
LLM genérico
Tu pregunta
Modelo entrenado para agradar
Respuesta aduladora
Afini con PCP
Tu pregunta
PCP calibra anti-sycophancy según A×N
Modelo con directivas explícitas
Respuesta honesta y útil

Dónde aparece en tu perfil

No es un puntaje del usuario sino un factor de calibración del PCP. La fórmula combina A, N y la interacción A×N para producir un coeficiente de "vulnerabilidad" que se traduce en advertencias inyectadas al sistema prompt.

Fuentes

  • Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. Leer en
  • OpenAI (2025). Sycophancy in GPT-4o: What happened and what we’re doing about it. Leer en
  • Ranaldi, L., et al. (2024). When Large Language Models contradict humans? Large Language Models’ sycophantic behaviour. arXiv:2311.09410. Leer en

¿Quieres ver cómo te sitúa tu propio perfil?

Empezar mi perfil
Sycophancy (adulación de la IA) — Glosario psicológico | Afini.ai