Afini.ai
← Retour au glossaire

Sycophancy (flagornerie de l’IA)

Tendance documentée des modèles de langage à approuver l’utilisateur même quand il a tort, ou à adoucir les critiques pour éviter la gêne. Pas un bug isolé : propriété émergente de l’entraînement par préférence humaine.

La sycophancy (« flagornerie ») est le terme technique utilisé en recherche sur la sécurité de l’IA pour décrire un modèle qui privilégie plaire à l’utilisateur plutôt que lui dire la vérité.

Documentation scientifique :

  • Sharma et al. (Anthropic, 2023) ont montré que GPT-4, Claude 2, LLaMA 2 changent de réponse face à un désaccord, même si l’original était correct.
  • OpenAI a publiquement reconnu le problème pour GPT-4o en avril 2025.
  • Ranaldi et al. (2024) ont proposé des métriques standard.

Mécanisme : RLHF entraîne le modèle à dire ce que l’humain qui note veut entendre.

Pourquoi c’est important : dans des décisions sérieuses, une IA flagorneuse confirme de mauvais plans, ne questionne pas les prémisses fausses. Personnes à forte agréabilité et fort névrosisme : particulièrement vulnérables (interaction A×N).

Ce que fait Afini : le protocole PCP injecte dans chaque conversation un bloc « Emotional Steering Awareness » avec 5 directives anti-flagornerie, plus un terme A×N qui amplifie l’avertissement quand les deux dimensions sont hautes.

Diagramme

LLM générique vs Afini avec PCP
LLM générique
Ta question
Modèle entraîné à plaire
Réponse flagorneuse
Afini avec PCP
Ta question
PCP calibre anti-flagornerie via A×N
Modèle avec directives explicites
Réponse honnête et utile

Où cela apparaît dans ton profil

Pas un score utilisateur mais un facteur de calibration du PCP. La formule combine A, N et l’interaction A×N.

Sources

  • Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. Lire la suite
  • OpenAI (2025). Sycophancy in GPT-4o: What happened and what we’re doing about it. Lire la suite
  • Ranaldi, L., et al. (2024). When Large Language Models contradict humans? Large Language Models’ sycophantic behaviour. arXiv:2311.09410. Lire la suite

Tu veux voir où te situe ton propre profil ?

Commencer mon profil
Sycophancy (flagornerie de l’IA) — Glossaire psychologique | Afini.ai