Sycophancy ist der Fachbegriff der KI-Sicherheitsforschung für ein Modell, das es vorzieht, dem Nutzer zu gefallen, statt ihm die Wahrheit zu sagen.

Wissenschaftliche Dokumentation:

Sharma et al. (Anthropic, 2023) zeigten, dass GPT-4, Claude 2, LLaMA 2 ihre Antwort bei Widerspruch ändern, auch wenn die ursprüngliche korrekt war.
OpenAI räumte das Problem für GPT-4o im April 2025 öffentlich ein.
Ranaldi et al. (2024) schlugen Standardmetriken vor.

Mechanismus: RLHF trainiert das Modell, das zu sagen, was die bewertenden Menschen hören wollen.

Warum wichtig: Bei wichtigen Entscheidungen bestätigt ein schmeichelndes Modell schlechte Pläne. Personen mit hoher Verträglichkeit und hohem Neurotizismus sind besonders anfällig (A×N-Interaktion).

Was Afini tut: Das PCP-Protokoll injiziert in jede Konversation einen „Emotional Steering Awareness“-Block mit 5 Anti-Schmeichel-Direktiven, plus einen A×N-Term, der die Warnung verstärkt.

Quellen

Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. Weiterlesen ↗

OpenAI (2025). Sycophancy in GPT-4o: What happened and what we’re doing about it. Weiterlesen ↗

Ranaldi, L., et al. (2024). When Large Language Models contradict humans? Large Language Models’ sycophantic behaviour. arXiv:2311.09410. Weiterlesen ↗

Sycophancy (KI-Schmeichelei)

Diagramm

Wo es in deinem Profil auftaucht

Quellen

Siehe auch

Wissen, wie dein eigenes Profil einsteigt?