Afini.ai
← Zurück zum Glossar

Sycophancy (KI-Schmeichelei)

Dokumentierte Tendenz von Sprachmodellen, dem Nutzer zuzustimmen, auch wenn er irrt, oder Kritik abzumildern, um Unbehagen zu vermeiden. Kein isolierter Bug: emergente Eigenschaft des Trainings auf menschliche Präferenz.

Sycophancy ist der Fachbegriff der KI-Sicherheitsforschung für ein Modell, das es vorzieht, dem Nutzer zu gefallen, statt ihm die Wahrheit zu sagen.

Wissenschaftliche Dokumentation:

  • Sharma et al. (Anthropic, 2023) zeigten, dass GPT-4, Claude 2, LLaMA 2 ihre Antwort bei Widerspruch ändern, auch wenn die ursprüngliche korrekt war.
  • OpenAI räumte das Problem für GPT-4o im April 2025 öffentlich ein.
  • Ranaldi et al. (2024) schlugen Standardmetriken vor.

Mechanismus: RLHF trainiert das Modell, das zu sagen, was die bewertenden Menschen hören wollen.

Warum wichtig: Bei wichtigen Entscheidungen bestätigt ein schmeichelndes Modell schlechte Pläne. Personen mit hoher Verträglichkeit und hohem Neurotizismus sind besonders anfällig (A×N-Interaktion).

Was Afini tut: Das PCP-Protokoll injiziert in jede Konversation einen „Emotional Steering Awareness“-Block mit 5 Anti-Schmeichel-Direktiven, plus einen A×N-Term, der die Warnung verstärkt.

Diagramm

Generisches LLM vs Afini mit PCP
Generisches LLM
Deine Frage
Zum Gefallen trainiertes Modell
Schmeichelhafte Antwort
Afini mit PCP
Deine Frage
PCP kalibriert Anti-Schmeichelei über A×N
Modell mit expliziten Richtlinien
Ehrliche und nützliche Antwort

Wo es in deinem Profil auftaucht

Kein Nutzer-Score, sondern ein PCP-Kalibrierungsfaktor. Die Formel kombiniert A, N und die A×N-Interaktion.

Quellen

  • Sharma, M., Tong, M., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. Weiterlesen
  • OpenAI (2025). Sycophancy in GPT-4o: What happened and what we’re doing about it. Weiterlesen
  • Ranaldi, L., et al. (2024). When Large Language Models contradict humans? Large Language Models’ sycophantic behaviour. arXiv:2311.09410. Weiterlesen

Wissen, wie dein eigenes Profil einsteigt?

Profil starten
Sycophancy (KI-Schmeichelei) — Psychologie-Glossar | Afini.ai