La sycophancy è il termine tecnico usato nella ricerca sulla sicurezza dell’IA per un modello che privilegia compiacere l’utente al dirgli la verità.
Documentazione scientifica:
- Sharma et al. (Anthropic, 2023) hanno mostrato che GPT-4, Claude 2, LLaMA 2 cambiano risposta di fronte al disaccordo, anche se l’originale era corretta.
- OpenAI ha riconosciuto pubblicamente il problema in GPT-4o nell’aprile 2025.
- Ranaldi et al. (2024) hanno proposto metriche standard.
Meccanismo: RLHF addestra il modello a dire ciò che gli umani valutatori vogliono sentire.
Perché conta: in decisioni serie un’IA adulatrice conferma piani sbagliati. Persone con alta gradevolezza e alto nevroticismo particolarmente vulnerabili (interazione A×N).
Cosa fa Afini: il protocollo PCP inietta in ogni conversazione un blocco "Emotional Steering Awareness" con 5 direttive anti-adulazione, più un termine A×N che amplifica l’avviso.