La sycophancy (« flagornerie ») est le terme technique utilisé en recherche sur la sécurité de l’IA pour décrire un modèle qui privilégie plaire à l’utilisateur plutôt que lui dire la vérité.

Documentation scientifique :

Sharma et al. (Anthropic, 2023) ont montré que GPT-4, Claude 2, LLaMA 2 changent de réponse face à un désaccord, même si l’original était correct.
OpenAI a publiquement reconnu le problème pour GPT-4o en avril 2025.
Ranaldi et al. (2024) ont proposé des métriques standard.

Mécanisme : RLHF entraîne le modèle à dire ce que l’humain qui note veut entendre.

Pourquoi c’est important : dans des décisions sérieuses, une IA flagorneuse confirme de mauvais plans, ne questionne pas les prémisses fausses. Personnes à forte agréabilité et fort névrosisme : particulièrement vulnérables (interaction A×N).

Ce que fait Afini : le protocole PCP injecte dans chaque conversation un bloc « Emotional Steering Awareness » avec 5 directives anti-flagornerie, plus un terme A×N qui amplifie l’avertissement quand les deux dimensions sont hautes.

Sources

Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. Lire la suite ↗

OpenAI (2025). Sycophancy in GPT-4o: What happened and what we’re doing about it. Lire la suite ↗

Ranaldi, L., et al. (2024). When Large Language Models contradict humans? Large Language Models’ sycophantic behaviour. arXiv:2311.09410. Lire la suite ↗

Sycophancy (flagornerie de l’IA)

Diagramme

Où cela apparaît dans ton profil

Sources

Voir aussi

Tu veux voir où te situe ton propre profil ?