A sycophancy é o termo técnico usado na pesquisa de segurança em IA para um modelo que prioriza agradar o usuário em vez de lhe dizer a verdade.

Documentação científica:

Sharma et al. (Anthropic, 2023) mostraram que GPT-4, Claude 2, LLaMA 2 mudam de resposta diante de discordância, mesmo se a original estava correta.
OpenAI reconheceu publicamente o problema em GPT-4o em abril de 2025.
Ranaldi et al. (2024) propuseram métricas padrão.

Mecanismo: RLHF treina o modelo a dizer o que os humanos avaliadores querem ouvir.

Por que importa: em decisões sérias, uma IA bajuladora confirma planos ruins. Pessoas com alta amabilidade e alto neuroticismo especialmente vulneráveis (interação A×N).

O que o Afini faz: o protocolo PCP injeta em cada conversa um bloco "Emotional Steering Awareness" com 5 diretrizes anti-bajulação, mais um termo A×N que amplifica o aviso.

Fontes

Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. Continuar lendo ↗

OpenAI (2025). Sycophancy in GPT-4o: What happened and what we’re doing about it. Continuar lendo ↗

Ranaldi, L., et al. (2024). When Large Language Models contradict humans? Large Language Models’ sycophantic behaviour. arXiv:2311.09410. Continuar lendo ↗

Sycophancy (bajulação da IA)

Diagrama

Onde aparece no seu perfil

Fontes

Veja também

Quer ver como o seu próprio perfil se situa?