Vom Halluzinieren der Maschinen

Der Begriff „Halluzinationen” ist subtil irreführend. Er suggeriert, dass das Fehlverhalten eine Abweichung ist, ein Fehler, während es tatsächlich ein Merkmal der probabilistischen Mustererkennung neuronaler Netzwerke ist.
Nach Karen Hao, Empire of AI (2025)

 

Wer einen Menschen halluzinieren sieht, weiß: hier stimmt etwas nicht. Das Wort kommt aus der Medizin, es bezeichnet eine Wahrnehmung ohne Gegenstand, einen Riss im Wirklichkeitsbezug. Wenn ein Mensch halluziniert, sucht man nach der Ursache. Man rechnet mit Genesung. Das Wort ist längst übergegangen auf Sprachmodelle. Ein LLM, das eine Quelle erfindet, die nicht existiert, eine Biografie verfasst, die falsch ist, ein Urteil zitiert, das nie gefällt wurde — halluziniert. So heißt das. Die Übertragung klingt plausibel. Sie ist, wie Karen Hao argumentiert, subtil irreführend.

Hao unterscheidet zwischen Abweichung und Merkmal. Halluzinieren klingt nach Abweichung — nach einem Fehler, der behoben werden kann, einem Bug, auf dessen Patch man wartet. Ein Sprachmodell tut genau das, wofür es gebaut wurde. Es erkennt statistische Muster im Trainingsdatensatz und setzt sie fort. Wenn ein Muster eine Aussage nahelegt, die faktisch falsch ist, produziert das Modell sie trotzdem, weil die statistische Struktur stimmt, auch wenn der Inhalt es nicht tut. Es ist die Methode, nicht ihr Versagen.

Xu, Jain und Kankanhalli haben 2024 formal nachgewiesen, was das bedeutet: Halluzinationen lassen sich in LLMs nicht vollständig eliminieren. Sie sind eine strukturelle Eigenschaft der Technologie, kein Implementierungsfehler. Kalai et al. erklären den Mechanismus: Modelle werden durch Trainings- und Evaluierungsprozesse darauf trainiert, immer zu antworten, auch wenn die Datenlage unsicher ist. Das Modell, das selbstsicher antwortet, bekommt bessere Bewertungen als das Modell, das zögert.

Das Wort Halluzination legt nahe, dass wir auf bessere Modelle warten. Haos These entzieht dem die Grundlage: Wir warten auf etwas, das strukturell nicht eintreten wird.

Das hat Konsequenzen, die ich in meinem Artikel über Wissensmanagement und LLM-Projekte beschrieben habe — aber dort vom anderen Ende aus: von der Frage, was Organisationen vorbereiten müssen, damit LLMs brauchbare Ergebnisse liefern. Was Haos Unterscheidung aufwirft, ist eine epistemische Frage: Wie verhalte ich mich gegenüber einem System, das nicht irrt, sondern das Richtigklingen perfektioniert hat?
Wer halluziniert, verlässt diesen Zustand irgendwann. Ein Sprachmodell verlässt den Zustand des Musterweiterschreibens nie. Die Metapher verdeckt genau das. Sie lädt ein zu einer Geduld, die fehl am Platz ist.

Sprache schafft Erwartungen. Und Halluzination ist nur ein Wort in einer langen Reihe von Vermenschlichungen: Sprachmodelle „verstehen”, „wissen”, „denken”, „irren sich”. Murray Shanahan hat 2024 in den Communications of the ACM darauf hingewiesen, dass diese Sprache nicht neutral ist: sie überträgt mentale Zustände auf Systeme, die keine haben, und verformt damit die Erwartungen derer, die mit ihnen arbeiten. Joseph Weizenbaum beobachtete es bereits 1966 an ELIZA, einem simplen Mustererkennungsprogramm: Nutzer schrieben dem System Verständnis zu, das es nicht besaß, nur weil die Ausgabe so klang, als käme sie von jemandem, der zuhört. Weizenbaum nannte das den ELIZA-Effekt. Seitdem sind die Modelle komplexer geworden. Der Effekt ist geblieben.

Wenn eine Technologie als halluzinierend beschrieben wird, entsteht implizit ein Bild: das Bild des vorübergehenden Ausnahmezustands, nach dem der Normalzustand wieder einsetzt. Wer glaubt, LLMs halluzinieren gelegentlich, und nicht begreift, dass sie permanent statistisch interpolieren — auf der Basis von Mustern, die keine Verifikationspflicht kennen —, wird in genau dem Moment überrascht, in dem das Ergebnis falsch ist und niemand es bemerkt.

In den Beratungssitzungen, die ich führe, taucht das regelmäßig auf. Führungskräfte, die ChatGPT für strategische Überlegungen nutzen, beschreiben die Ergebnisse mit einer Sprache, die aus dem Halluzinationsframe stammt: „Manchmal macht es Fehler.” Die Formulierung impliziert, dass es die meiste Zeit recht hat. Es produziert durchgehend plausible Muster. Ob diese Muster dem Kontext des Unternehmens, dem Stand der Situation, der spezifischen Dynamik entsprechen, darum kümmert sich das Modell nicht, weil es sich nicht kümmern kann. Es kennt den Kontext nicht. Es kennt die Geschichte nicht. Es kennt die politischen Verhältnisse nicht.

Eine Grundbedingung.

Hao nennt es Merkmal. Funktionseigenschaft trifft es besser. Sprachmodelle sind Musterfortsetzungsmaschinen. Wer einen Hammer hält, hämmert. Das Überraschende wäre, wenn der Hammer schrauben würde.

Die Frage, die bleibt: Wie arbeitet man mit einem System, dessen Natur darin besteht, überzeugend zu klingen — unabhängig davon, ob der Inhalt stimmt?
Sie zielt auf eine Haltung, die ich andernorts epistemische Urteilskraft nenne: die Fähigkeit, dem selbstsicher Formulierten zu misstrauen, gerade weil es selbstsicher formuliert ist. Die Bereitschaft, das Ergebnis als Entwurf zu behandeln, der Prüfung verlangt.

Was das Wort Halluzination uns nimmt, ist diese Haltung. Es suggeriert, dass das Problem seltener Natur ist. Haos These restituiert die Nüchternheit: Das Problem ist die Natur.

 

Quellen

  • Hao, K. (2025). Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI. Penguin Press. ISBN 978-0-593-65750-8. — Das zitierte Konzept „Halluzinationen als Systemlogik” findet sich im gleichnamigen Abschnitt des Buches.
  • Xu, Z., Jain, S. & Kankanhalli, M. (2024). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv:2401.11817.
  • Kalai, A.T., Nachum, O., Vempala, S. & Zhang, C. (2025). Why Language Models Hallucinate. OpenAI Research.
  • Shanahan, M. (2024). Talking About Large Language Models. Communications of the ACM, 67(2).
  • Weizenbaum, J. (1966). ELIZA — A Computer Program for the Study of Natural Language Communication Between Man and Machine. Communications of the ACM, 9(1).

Weiterführend

  • Weizenbaum, J. (1976). Computer Power and Human Reason. From Judgment to Calculation. W.H. Freeman.
  • Bender, E.M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? FAccT 2021.
  • Marcus, G. & Davis, E. (2019). Rebooting AI. Building Artificial Intelligence We Can Trust. Pantheon Books.
  • Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press.

→ Zum Thema Wissensmanagement und LLM-Projekte: Ohne Wissensmanagement scheitert jedes LLM-Projekt