Sycophancy ist der Fachbegriff der KI-Sicherheitsforschung für ein Modell, das es vorzieht, dem Nutzer zu gefallen, statt ihm die Wahrheit zu sagen.
Wissenschaftliche Dokumentation:
- Sharma et al. (Anthropic, 2023) zeigten, dass GPT-4, Claude 2, LLaMA 2 ihre Antwort bei Widerspruch ändern, auch wenn die ursprüngliche korrekt war.
- OpenAI räumte das Problem für GPT-4o im April 2025 öffentlich ein.
- Ranaldi et al. (2024) schlugen Standardmetriken vor.
Mechanismus: RLHF trainiert das Modell, das zu sagen, was die bewertenden Menschen hören wollen.
Warum wichtig: Bei wichtigen Entscheidungen bestätigt ein schmeichelndes Modell schlechte Pläne. Personen mit hoher Verträglichkeit und hohem Neurotizismus sind besonders anfällig (A×N-Interaktion).
Was Afini tut: Das PCP-Protokoll injiziert in jede Konversation einen „Emotional Steering Awareness“-Block mit 5 Anti-Schmeichel-Direktiven, plus einen A×N-Term, der die Warnung verstärkt.