La sycophancy (« flagornerie ») est le terme technique utilisé en recherche sur la sécurité de l’IA pour décrire un modèle qui privilégie plaire à l’utilisateur plutôt que lui dire la vérité.
Documentation scientifique :
- Sharma et al. (Anthropic, 2023) ont montré que GPT-4, Claude 2, LLaMA 2 changent de réponse face à un désaccord, même si l’original était correct.
- OpenAI a publiquement reconnu le problème pour GPT-4o en avril 2025.
- Ranaldi et al. (2024) ont proposé des métriques standard.
Mécanisme : RLHF entraîne le modèle à dire ce que l’humain qui note veut entendre.
Pourquoi c’est important : dans des décisions sérieuses, une IA flagorneuse confirme de mauvais plans, ne questionne pas les prémisses fausses. Personnes à forte agréabilité et fort névrosisme : particulièrement vulnérables (interaction A×N).
Ce que fait Afini : le protocole PCP injecte dans chaque conversation un bloc « Emotional Steering Awareness » avec 5 directives anti-flagornerie, plus un terme A×N qui amplifie l’avertissement quand les deux dimensions sont hautes.