Warum scheitern LLM-Projekte? Nicht an der Technologie – an fehlendem Wissensmanagement. Was braucht KI in der Wissensarbeit wirklich? Strukturiertes Domänenwissen, epistemische Urteilskraft und die Frameworks, die seit drei Jahrzehnten in den Lehrbüchern stehen.
Organisationen investieren derzeit massiv in Large Language Models – in ChatGPT, Claude, Copilot und die jeweils nächste Generation. Sie schulen Mitarbeitende in Prompt-Engineering, bauen Pilotprojekte auf, richten AI-Taskforces ein. Was die meisten dabei übersehen: Die Frage, ob ein LLM in der Wissensarbeit brauchbare Ergebnisse liefert, entscheidet sich nicht am Modell. Sie entscheidet sich am Zustand des Wissens, auf das es zugreift.
Das klingt banal, hat aber Konsequenzen, die weit über die IT-Abteilung hinausreichen. Denn die Frameworks, die diese Konsequenzen beschreiben, existieren seit drei Jahrzehnten. Sie stehen in den Standardwerken des Wissensmanagements, einer Disziplin, die in den meisten Unternehmen irgendwann zwischen 2005 und 2015 aus dem strategischen Blickfeld verschwand. Jetzt rächt sich das.
Was kann ein LLM tatsächlich verarbeiten, und was bleibt ihm verschlossen? Die Antwort findet sich in einer Unterscheidung, die Ikujiro Nonaka und Hirotaka Takeuchi 1995 in ihrem SECI-Modell getroffen haben: zwischen implizitem und explizitem Wissen, und zwischen vier Prozessen ihrer Transformation – Sozialisation (geteilte Erfahrung), Externalisierung (Artikulation von Erfahrungswissen), Kombination (Verknüpfung expliziter Wissensbestände) und Internalisierung (Aneignung durch Praxis). LLMs operieren fast ausschließlich im Quadranten der Kombination. Sie verknüpfen, synthetisieren und reformulieren explizites Wissen. Für die drei anderen Quadranten fehlt ihnen die Grundlage.
Das wäre unproblematisch, wenn der Großteil des relevanten Organisationswissens explizit vorläge. Tut er aber nicht. In der Wissensmanagement-Literatur ist die Schätzung verbreitet, dass explizites Wissen nur 10 bis 20 Prozent dessen ausmacht, was eine erfahrene Fachperson tatsächlich weiß – eine Faustregel, keine exakte Messung, aber eine, die sich mit der Praxiserfahrung deckt. Katherine Radeka, Ingenieurin und Wissensmanagement-Praktikerin, formuliert es so: Was ein LLM verarbeiten kann, ist definitionsgemäß explizites Wissen. Der Rest – Urteilskraft, Kontextverständnis, Mustererkennung aus jahrelanger Praxis – existiert nur in den Köpfen. Ein aktueller systematischer Review im VINE Journal of Information and Knowledge Management Systems (2024), der 82 Studien auswertet, bestätigt: KI kann die Externalisierung impliziten Wissens unterstützen, aber nur dort, wo die organisationale Infrastruktur für diese Externalisierung bereits existiert. Die Maschine ersetzt den Prozess nicht; sie setzt ihn voraus.
Ein Feld, in dem das besonders sichtbar wird, ist Executive Coaching. Die Kernkompetenz eines erfahrenen Coaches – einen Klienten lesen, Dynamiken erkennen, Muster über Sitzungen und Mandate hinweg identifizieren – ist fast reines implizites Wissen. Ein LLM kann Coaching-Frameworks zusammenfassen. Es kann nicht coachen. Coaching liegt am äußersten Rand dessen, was sich externalisieren lässt, und markiert damit die Grenze des SECI-Modells für die LLM-Ära besonders scharf.
Coaching markiert den äußersten Rand. Doch auch innerhalb dieses Rands – dort, wo Externalisierung möglich wäre – fehlt in den meisten Organisationen die Infrastruktur dafür. Gilbert Probst, Steffen Raub und Kai Romhardt haben sie 1997 mit ihren acht „Bausteinen des Wissensmanagements“ beantwortet – einem Rahmen, der sich wie eine Checkliste für LLM-Readiness liest, obwohl er fast dreißig Jahre älter ist als die Technologie. Von den Wissenszielen (wofür setzen wir das LLM überhaupt ein?) über die Wissensidentifikation (was wissen wir, und wo liegt es?) bis zur Wissensbewahrung (wie verhindern wir, dass die Datenbasis veraltet?): Jeder Baustein repräsentiert eine Voraussetzung, die vor der LLM-Einführung erfüllt sein muss. Probsts zentrale Einsicht – dass Wissen im Gegensatz zu Daten und Informationen immer an Personen gebunden ist – markiert exakt die Grenze dessen, was LLMs leisten können.
Aber selbst eine saubere operative Umsetzung genügt nicht, wenn die Kultur fehlt. Thomas Davenport und Laurence Prusak argumentierten 1998 in Working Knowledge, dass Technologie maximal ein Drittel des Wissensmanagement-Aufwands ausmachen sollte. Der Rest entfällt auf Kultur, Rollen und Strategie. Ihre Warnung, dass die Verfügbarkeit eines Tools noch keine wissensteilende Kultur schafft, liest sich heute wie eine Beschreibung vieler ChatGPT-Rollouts. Ihre Hierarchie von Daten→Information→Wissen erklärt, warum der bloße Zugang zu Datenbanken kein Wissen erzeugt: Daten müssen kontextualisiert werden, um zu Information zu werden, und Information muss durch Erfahrung und Urteilskraft angereichert werden, um zu Wissen zu werden. LLMs simulieren diese Anreicherung sprachlich überzeugend, ohne sie inhaltlich zu leisten.
Drei Frameworks, ein Befund: LLMs brauchen explizites, strukturiertes, gepflegtes Wissen – und genau das ist in den meisten Organisationen Mangelware.
Die bislang aufschlussreichste Studie zum LLM-Einsatz in der Wissensarbeit stammt von Dell’Acqua et al. (Harvard Business School / BCG, 2023). 758 BCG-Berater bearbeiteten realistische Beratungsaufgaben, die Hälfte mit GPT-4-Zugang. Innerhalb der Leistungsgrenze der KI waren die Ergebnisse eindrucksvoll: mehr erledigte Aufgaben, schneller, in höherer Qualität. Doch außerhalb dieser Grenze – bei Aufgaben, die kontextspezifisches Wissen und eigenständige Einordnung erforderten – lagen die KI-unterstützten Berater 19 Prozentpunkte unter der Kontrollgruppe. Die KI verschlechterte die Leistung aktiv.
Die Autoren prägten dafür den Begriff „Jagged Technological Frontier“: eine irreguläre, schwer vorhersagbare Grenze zwischen dem, was das LLM kann, und dem, was es nicht kann. Für die Wissensmanagement-Frage ist ein Detail besonders relevant: Die weniger erfahrenen Berater profitierten am stärksten von der KI-Unterstützung, die erfahrensten am wenigsten. Das klingt zunächst nach einer Demokratisierung von Kompetenz. Aber es bedeutet auch: Das LLM hebt alle auf ein mittleres Niveau – und dieses mittlere Niveau reicht in komplexen Beratungskontexten häufig nicht aus.
Dave Snowdens Cynefin-Framework macht verständlich, warum. Snowden unterscheidet vier Domänen: klar (bekannte Kausalzusammenhänge), kompliziert (analysierbar, aber nicht offensichtlich), komplex (emergente Muster) und chaotisch. In der klaren Domäne sind LLMs stark – standardisierte Antworten auf bekannte Fragen. In der komplizierten Domäne leisten sie analytische Unterstützung. Unternehmensberatung und Strategieentwicklung bewegen sich zwischen diesen Domänen, und ein erheblicher Teil – Analyse, Benchmarking, Marktrecherche – ist tatsächlich kompliziert, nicht komplex. Executive Coaching hingegen spielt fast ausschließlich in der komplexen Domäne: Jede Sitzung ist ein Probe-Sense-Respond-Prozess, in dem der Coach auf emergente Muster reagiert, die sich einer standardisierten Analyse entziehen. Die Aufgaben mit dem höchsten Wertbeitrag liegen in beiden Feldern regelmäßig in der komplexen Domäne. Und gerade die Übergänge – wann kippt eine Situation von kompliziert zu komplex? – sind die gefährlichsten Stellen für LLM-Einsatz, weil hier abduktives Denken, Mustererkennung auf der Basis von Erfahrung und die Fähigkeit, mit Mehrdeutigkeit umzugehen, gebraucht werden. Das sind Kompetenzen, die aus langjähriger Fachpraxis entstehen – und damit aus exakt dem impliziten Wissen, das LLMs nicht zugänglich ist.
Die Konsequenz für Führungskräfte: In jeder Cynefin-Domäne stellt sich die Frage nach Wissensinfrastruktur anders. In der klaren Domäne genügen saubere Wissensdatenbanken und FAQs. In der komplizierten Domäne braucht es dokumentiertes Expertenwissen und strukturierte Analysemethoden. In der komplexen Domäne wird die Externalisierung von Erfahrungswissen zur kritischen Aufgabe – und gleichzeitig zur schwierigsten.
Was aber passiert, wenn die Berater jenseits der Frontier operieren, ohne es zu merken?
Das „Garbage in, garbage out“-Prinzip kennt die Informatik seit Jahrzehnten. Bei LLMs gewinnt es eine neue Qualität. Klassisches GIGO produziert sichtbar fehlerhaften Output: Fehlermeldungen, abgestürzte Programme, offensichtlich falsche Berechnungen. LLMs hingegen erzeugen aus schlechten Eingabedaten sprachlich kohärente, plausibel klingende, selbstsicher vorgetragene Texte, die inhaltlich falsch sind. Der Fehler tarnt sich als Kompetenz.
OpenAI hat im September 2025 ein Papier veröffentlicht, das den Mechanismus erklärt (Kalai, Nachum, Vempala und Zhang: „Why Language Models Hallucinate“): LLMs werden durch ihre Trainings- und Evaluierungsprozesse dazu incentiviert, immer eine Antwort zu produzieren, auch wenn die Datenlage unsicher ist. Benchmarks messen Genauigkeit, nicht Kalibrierung. Menschliches Feedback (RLHF) verstärkt das Problem – Bewerter bevorzugen die selbstsichere Antwort gegenüber der vorsichtigen. Das Ergebnis: Modelle, die häufiger raten, sehen auf Benchmarks besser aus und halluzinieren häufiger. Xu, Jain und Kankanhalli (2024) haben formal nachgewiesen, dass sich Halluzinationen in LLMs nicht vollständig eliminieren lassen. Sie sind kein Bug, der irgendwann behoben wird. Sie sind eine strukturelle Eigenschaft der Technologie.
Die Empirie bestätigt das. Selbst die besten Modelle halluzinieren bei einfachen Zusammenfassungsaufgaben zwischen 0,7 und 30 Prozent (Vectara Hallucination Leaderboard). In spezifischen Domänen liegen die Raten dramatisch höher: Stanford-Forscher fanden bei juristischen Fragen Halluzinationsraten zwischen 58 und 88 Prozent, je nach Modell. Selbst RAG-basierte Rechtsinformationstools, die eigentlich auf geprüfte Quellen zugreifen, halluzinieren in über 17 Prozent der Anfragen. Gartner formulierte 2024 die organisationale Konsequenz: Eine Wissensdatenbank ist entweder das solide Fundament eines erfolgreichen WM-Programms oder ein Single Point of Failure, der die gesamte Praxis untergräbt – insbesondere beim Einsatz generativer KI.
Die Projektstatistiken bestätigen diese Einschätzung auf breiter Front. Die RAND Corporation berichtet, dass über 80 Prozent aller KI-Projekte scheitern – eine Zahl, die sich auf KI-Vorhaben insgesamt bezieht, nicht spezifisch auf LLM-Projekte, aber gerade deshalb aufschlussreich ist: Das Muster ist technologieübergreifend. Gartner prognostizierte, dass mindestens 30 Prozent aller GenAI-Projekte bis Ende 2025 nach dem Proof-of-Concept aufgegeben werden – primär wegen mangelnder Datenqualität. Der PwC Global CEO Survey 2026 zeigt, dass mehr als die Hälfte der Unternehmen bislang keinen messbaren Nutzen aus ihren KI-Investitionen zieht. Forrester identifiziert Datenqualität als primären limitierenden Faktor, McKinsey berichtet, dass 70 Prozent selbst der KI-Vorreiter mit Datenproblemen kämpfen. Das World Economic Forum formulierte im Januar 2026, was all das bedeutet: Wenn die zugrundeliegenden Daten fragmentiert oder ungenau sind, erzeugen KI-Modelle Ergebnisse, die anspruchsvoll aussehen, aber fundamental falsch sind – eine Illusion von Intelligenz.
Das erklärt, warum Projekte scheitern. Es erklärt noch nicht, warum die Menschen, die mit den Ergebnissen arbeiten, die Fehler nicht erkennen.
Wissensinfrastruktur löst das Problem nur zur Hälfte. Die andere Hälfte betrifft die Menschen, die mit den Ergebnissen arbeiten. Tim Lewis Wingerter und Kollegen (Reutlingen University, 2025) zeigten experimentell: Teilnehmer, die fehlerhaften KI-Support erhielten, beantworteten weniger als halb so viele Aufgaben korrekt wie die Kontrollgruppe ohne KI. Das allein wäre erwartbar. Überraschend war, dass selbsterklärte KI-Kompetenz – Wissen über und Erfahrung mit KI – keinen schützenden Effekt hatte. Wer sich mit KI auskannte, fiel genauso auf fehlerhafte Ergebnisse herein wie jemand ohne Vorerfahrung.
Robin Welsch und Kollegen (Aalto University, 2025/2026) fanden einen verwandten Effekt, den sie als umgekehrten Dunning-Kruger-Effekt beschreiben: In einem Experiment mit 246 Teilnehmern verbesserte KI-Unterstützung die Aufgabenleistung messbar, aber die Teilnehmer überschätzten ihre Leistungsverbesserung systematisch. Höhere KI-Kompetenz korrelierte dabei mit geringerer metakognitiver Genauigkeit. Welsch erklärt den Mechanismus als „cognitive offloading“: Die meisten Teilnehmer nutzten einzelne Prompts ohne Nachfragen, Reflexion oder Gegenprüfung. Sie lagerten nicht nur die Aufgabe aus, sondern auch die Bewertung des Ergebnisses.
Margaret Bearman und Kollegen (2024) haben die Konsequenz präzise benannt: KI hat die Lücke vergrößert zwischen der Fähigkeit, Arbeitsergebnisse zu produzieren, und der Fähigkeit, deren Qualität zu beurteilen. Es war noch nie so einfach, etwas herzustellen, das den Anschein von Qualität hat. Ob es für den jeweiligen Zweck taugt, kann nur beurteilen, wer die Domäne versteht. Diese Expertise entsteht nicht durch den Umgang mit dem Tool. Sie entsteht durch Fachpraxis, Erfahrung und – auf organisationaler Ebene – durch systematisches Wissensmanagement, das diese Expertise dokumentiert, teilt und weiterentwickelt.
Wie groß das Risiko in der Praxis bereits ist, zeigt ein Phänomen, das sich derzeit in Führungsetagen ausbreitet: Führungskräfte nutzen ChatGPT als Sparringspartner – für strategische Überlegungen, Entscheidungsvorbereitung, manchmal als Ersatz für das Gespräch mit einem Coach oder Berater. Die sprachlich überzeugende Antwort wird für eine fundierte Einschätzung gehalten. Doch ein LLM, das auf allgemeine Trainingsdaten zugreift, kennt weder die Unternehmenskultur noch die politischen Dynamiken noch die Geschichte einer Entscheidung. Es liefert generische Plausibilität, wo kontextspezifische Urteilskraft gefragt wäre. Wenn schon BCG-Berater bei analytischen Aufgaben in die Automation-Bias-Falle tappen, ist die Gefahr in solchen beratungsnahen Kontexten – wo die Qualitätskriterien weniger offensichtlich sind – ungleich größer.
Selbst das Prompt-Engineering bestätigt diesen Zusammenhang: Dimitri Schreiter (2025) zeigte, dass es einen optimalen Spezifitätsbereich für Fachvokabular in Prompts gibt. Weder zu allgemein noch zu technisch führt zu den besten Ergebnissen. Diesen Bereich zu finden, setzt Domänenwissen voraus – die Fähigkeit, die richtigen Begriffe in der richtigen Granularität zu verwenden. Prompt-Engineering ist im Kern Wissens-Engineering. Und genau hier treffen sich die menschliche und die technische Seite des Problems.
Retrieval-Augmented Generation – das Verfahren, bei dem LLMs auf externe Wissensquellen zugreifen – gilt als Standardansatz, um Halluzinationen zu reduzieren. Doch RAG ist nur so gut wie die Wissensbasis, auf die es zugreift. In der einfachsten Variante (naive RAG) werden Textfragmente über Vektorähnlichkeit abgerufen. Das funktioniert bei eindeutigen Abfragen, scheitert aber bei Fragen, die ein holistisches Verständnis von Zusammenhängen erfordern.
Microsofts GraphRAG-Ansatz (2024) geht einen Schritt weiter: Er extrahiert Entitäten und Beziehungen aus Dokumenten, baut daraus einen Knowledge Graph und nutzt dessen Struktur bei der Abfrage. Bei Tests übertraf GraphRAG naive RAG in 70 bis 80 Prozent der Fälle bei Vollständigkeit und Diversität der Antworten. Peng et al. bestätigten in einem Survey in ACM Transactions on Information Systems (2024), dass traditionelles RAG signifikante strukturelle Zusammenhänge verfehlt, die sich über semantische Ähnlichkeit allein nicht abbilden lassen. SAPs Implementierung eines Business-Metadata-Knowledge-Graphen für interne Abfragen liefert den bislang eindrücklichsten Praxisbeleg: In einem Test, bei dem 22 Abfragen an rund 5.400 interne Datenquellen gestellt wurden, produzierte der KG-basierte Ansatz null Halluzinationen, während der reine LLM-Ansatz deutlich fehleranfälliger war. Die Erklärung ist strukturell: Knowledge-Graph-basierte Antworten fußen auf verifizierbaren Abfragen gegen eine validierte Wissensbasis, nicht auf statistischer Textvorhersage.
Am anderen Ende der Skala steht ein Fall, der zum Lehrstück wurde: Das MD Anderson Cancer Center investierte 62 Millionen Dollar in IBMs Watson Health, um KI-gestützte Therapieempfehlungen für Krebspatienten zu entwickeln. Das Projekt wurde eingestellt, ohne je den klinischen Einsatz zu erreichen. Die Ursache lag nicht an der Technologie. Sie lag in inkonsistenten, unvollständigen Patientenakten über verschiedene Systeme hinweg – die Wissensbasis, auf der Watson operieren sollte, war nicht für diesen Zweck aufbereitet. Morgan Stanleys KI-Assistent für Vermögensberater – häufig als Gegenbeispiel zitiert – funktioniert aus genau dem Grund, der bei Watson Health fehlte: eine gut organisierte, kuratierte interne Wissensbasis.
Allerdings: Knowledge Graphs und Ontologien sind kein Selbstzweck und keine universelle Lösung. Eine Dagstuhl-Studie (2025) zeigte, dass von Domänenexperten entwickelte Schemata signifikant bessere Ergebnisse in GraphRAG-Systemen liefern als automatisch generierte. Die Technologie allein genügt nicht – sie braucht die fachliche Strukturierung durch Menschen, die das Wissensgebiet durchdringen. Für viele Organisationen ist der erste Schritt nicht der Knowledge Graph, sondern die grundlegendere Arbeit: Taxonomien aufbauen, Metadaten pflegen, Dokumentation aktualisieren. Die alte, unglamouröse Basisarbeit des Wissensmanagements. Accenture (2024) zeigt, dass Unternehmen, die diese Vorarbeit geleistet haben, deutlich höheres Umsatzwachstum und bessere KI-Skalierungsergebnisse erzielen – aber diese Unternehmen repräsentieren nur 16 Prozent der Stichprobe. Die restlichen 84 Prozent versuchen, mit KI zu skalieren, was ohne KI schon nicht funktioniert hat. Die Frage ist, warum die Quote so niedrig liegt. Die Antwort hat auch mit der Branche zu tun, die diese Ratschläge erteilt.
Die Beratungsindustrie hat ein Interesse daran, KI-Transformation als Projektgeschäft zu verkaufen. Wissensmanagement ist aber kein Projekt – es ist eine dauerhafte organisationale Praxis. Taxonomien aufzubauen, implizites Wissen zu externalisieren, Dokumentationen zu pflegen: Das sind Prozesse, die Jahre dauern, die nicht skalierbar im Silicon-Valley-Sinne sind und die in keinem Quarterly Report als Innovation erscheinen. Solange die Branche KI-Readiness als Transformationsprojekt verkauft statt als kulturelle Daueraufgabe, werden die 84 Prozent nicht weniger. Gleichzeitig zeigt die BCG-Studie, dass die Beratungsbranche selbst unter dem beschriebenen Problem leidet: Berater, die jenseits der Frontier operieren, ohne es zu merken, sind kein theoretisches Konstrukt – es sind die Teilnehmer der Harvard-Studie.
Wer kein funktionierendes Wissensmanagement hat, wird durch LLMs nicht klüger, sondern schneller im Produzieren ungeprüfter Ergebnisse. Das ist der Befund. Aber es gibt eine weiterführende Frage, die über das Wissensmanagement im engeren Sinne hinausgeht.
Die Harvard/BCG-Studie, die Reutlingen-Experimente und Welschs Dunning-Kruger-Befunde zeigen alle dasselbe Muster: Es ist nicht technische Inkompetenz, die zu Fehlern führt. Es ist ein Vertrauensproblem. Wissensarbeiter vertrauen dem LLM-Output, weil er kompetent klingt. Sie vertrauen ihm mehr, wenn sie sich selbst für KI-kompetent halten. Und sie vertrauen ihm am meisten dort, wo ihr eigenes Domänenwissen am dünnsten ist – also genau dort, wo die Fehlergefahr am größten ist.
Dieses Muster lässt sich durch Wissensinfrastruktur abmildern, aber nicht vollständig lösen. Was zusätzlich gebraucht wird, ist eine Kompetenz, für die es im deutschen Managementdiskurs noch keinen eingeführten Begriff gibt: epistemische Urteilskraft. Die Fähigkeit, die Grenzen des eigenen Wissens und die des Tools gleichzeitig im Blick zu behalten. Zu wissen, wann ein LLM-Ergebnis Rohstoff ist, den man weiterverarbeiten kann, und wann es Ausschuss ist, den man verwerfen muss. Das erfordert Domänenwissen, Erfahrung und eine bestimmte intellektuelle Haltung – die Bereitschaft, dem überzeugend formulierten Output zu misstrauen, gerade weil er überzeugend formuliert ist.
Es ist kein Zufall, dass diese Beschreibung an das erinnert, was gutes Coaching seit jeher trainiert: die eigenen Denkmuster durchschauen, Unsicherheit aushalten, dem naheliegenden Schluss misstrauen, die Qualität einer Überlegung beurteilen statt nur ihr Ergebnis. In einer Arbeitswelt, in der LLMs die Produktion von Texten, Analysen und Strategiepapieren beschleunigen, wird die Fähigkeit zur kritischen Einordnung zum knappen Gut. Wissensmanagement stellt die Infrastruktur bereit. Epistemische Urteilskraft stellt die Haltung bereit. Beides lässt sich entwickeln – aber nicht durch ein Tool.
Nonaka, Probst und Davenport haben vor drei Jahrzehnten beschrieben, wie Organisationen ihr Wissen systematisch erschließen und nutzen können. Ihre Frameworks sind nicht veraltet. Sie waren ihrer Zeit voraus. Jetzt, da eine Technologie verfügbar ist, die explizites Wissen in nie dagewesener Geschwindigkeit verarbeiten kann, wird sichtbar, was es bedeutet, wenn dieses Wissen lückenhaft, unstrukturiert oder veraltet ist. Die Konsequenzen zeigen sich nicht als Fehlermeldungen. Sie zeigen sich als gut formulierte Texte, die niemand mehr prüft.
–
Nonaka, I. & Takeuchi, H. (1995). The Knowledge-Creating Company. Oxford University Press.
Probst, G., Raub, S. & Romhardt, K. (1997). Wissen managen. Wie Unternehmen ihre wertvollste Ressource optimal nutzen. Gabler.
Davenport, T.H. & Prusak, L. (1998). Working Knowledge: How Organizations Manage What They Know. Harvard Business School Press.
Snowden, D.J. & Boone, M.E. (2007). A Leader’s Framework for Decision Making. Harvard Business Review.
Dell’Acqua, F. et al. (2023). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality. Harvard Business School Working Paper.
Dahl, M., Magesh, V. & Suzgun, M. (2024). Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models. arXiv:2401.01301.
Xu, Z., Jain, S. & Kankanhalli, M. (2024). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv:2401.11817.
Bearman, M. et al. (2024). The role of evaluative judgement in a world increasingly influenced by AI. Assessment & Evaluation in Higher Education.
Nunes, M.B. et al. (2024). Transforming organizational knowledge creation through artificial intelligence: a systematic review. VINE Journal of Information and Knowledge Management Systems.
Peng, B. et al. (2024). Graph Retrieval-Augmented Generation: A Survey. ACM Transactions on Information Systems.
Accenture (2024). The Art of AI Maturity. Accenture Research Report.
Gartner (2024). How to Create and Maintain a Knowledge Base for Humans and AI.
Gartner (2024). Gartner Predicts 30% of Generative AI Projects Will Be Abandoned After Proof of Concept By End of 2025. Gartner Press Release.
McKinsey (2025). Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential. McKinsey Global Institute.
RAND Corporation (2024). Acquisition of AI by the Department of Defense. RAND Research Report.
Microsoft Research (2024). GraphRAG: Unlocking LLM Discovery on Narrative Private Data. Microsoft Research Blog.
Radeka, K. (2024). What’s Missing From AI Engines? Tacit Knowledge. LinkedIn.
SAP Community (2024). Knowledge Graphs for LLM Grounding and Avoiding Hallucination. SAP Technology Blog.
Kalai, A.T., Nachum, O., Vempala, S. & Zhang, C. (2025). Why Language Models Hallucinate. OpenAI Research.
Wingerter, T.L. et al. (2025). Mitigating Automation Bias in Generative AI Through Nudges. Procedia Computer Science.
Welsch, R. et al. (2025). AI makes you smarter but none the wiser: The disconnect between performance and metacognition. Computers in Human Behavior.
Schreiter, D. (2025). Prompt Engineering: How Prompt Vocabulary affects Domain Knowledge. arXiv:2505.17037.
Dagstuhl (2025). GraphRAG on Technical Documents – Impact of Knowledge Graph Schema. TGDK 3(2).
Forrester (2025). Data Quality Is The Primary Factor Limiting B2B GenAI Adoption. Forrester Blog.
PwC (2026). 29th Annual Global CEO Survey. PwC Global.
World Economic Forum (2026). Why Data Readiness Is Now a Strategic Imperative for Businesses. WEF Stories.
Vectara (laufend aktualisiert). Hallucination Leaderboard. vectara.com.