A sycophancy é o termo técnico usado na pesquisa de segurança em IA para um modelo que prioriza agradar o usuário em vez de lhe dizer a verdade.
Documentação científica:
- Sharma et al. (Anthropic, 2023) mostraram que GPT-4, Claude 2, LLaMA 2 mudam de resposta diante de discordância, mesmo se a original estava correta.
- OpenAI reconheceu publicamente o problema em GPT-4o em abril de 2025.
- Ranaldi et al. (2024) propuseram métricas padrão.
Mecanismo: RLHF treina o modelo a dizer o que os humanos avaliadores querem ouvir.
Por que importa: em decisões sérias, uma IA bajuladora confirma planos ruins. Pessoas com alta amabilidade e alto neuroticismo especialmente vulneráveis (interação A×N).
O que o Afini faz: o protocolo PCP injeta em cada conversa um bloco "Emotional Steering Awareness" com 5 diretrizes anti-bajulação, mais um termo A×N que amplifica o aviso.