La sycophancy è il termine tecnico usato nella ricerca sulla sicurezza dell’IA per un modello che privilegia compiacere l’utente al dirgli la verità.

Documentazione scientifica:

Sharma et al. (Anthropic, 2023) hanno mostrato che GPT-4, Claude 2, LLaMA 2 cambiano risposta di fronte al disaccordo, anche se l’originale era corretta.
OpenAI ha riconosciuto pubblicamente il problema in GPT-4o nell’aprile 2025.
Ranaldi et al. (2024) hanno proposto metriche standard.

Meccanismo: RLHF addestra il modello a dire ciò che gli umani valutatori vogliono sentire.

Perché conta: in decisioni serie un’IA adulatrice conferma piani sbagliati. Persone con alta gradevolezza e alto nevroticismo particolarmente vulnerabili (interazione A×N).

Cosa fa Afini: il protocollo PCP inietta in ogni conversazione un blocco "Emotional Steering Awareness" con 5 direttive anti-adulazione, più un termine A×N che amplifica l’avviso.

Fonti

Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. Continua a leggere ↗

OpenAI (2025). Sycophancy in GPT-4o: What happened and what we’re doing about it. Continua a leggere ↗

Ranaldi, L., et al. (2024). When Large Language Models contradict humans? Large Language Models’ sycophantic behaviour. arXiv:2311.09410. Continua a leggere ↗

Sycophancy (adulazione dell’IA)

Diagramma

Dove appare nel tuo profilo

Fonti

Vedi anche

Vuoi vedere come si colloca il tuo profilo?