
KI-Dilemma im Museum: Zwang zum falschen Werkzeug
Das kulturelle Erbe ist ein „wunderschönes Chaos”. Um es digital zugänglich zu machen, bräuchten Museen hochpräzise KI-Skalpelle. Die Realität zwingt sie jedoch zum Schweizer Taschenmesser. Allgemeine KI-Modelle sind fehleranfällig und oft ungeeignet – aber meist die einzig verfügbare Option. Das ist ein riskantes Paradoxon, denn auf dem Spiel steht das wichtigste Kapital der Museen: das Vertrauen der Gesellschaft.

Kürzlich argumentierte Forscher Gary Marcus in einem Kommentar in der New York Times, dass die KI-Branche den Fokus stärker auf spezialisierte, fachlich fundierte Systeme legen sollte. Große, allgemeine Modelle (General-Purpose AI) und Systeme wie ChatGPT seien für viele reale Aufgaben zu unzuverlässig und schwer zu kontrollieren. Zielgerichtete Architekturen mit klaren Tests und Anforderungen versprächen verlässlichere und sinnvollere Fortschritte.
Gary Marcus hat natürlich recht. Spezialisierte Systeme, die auf Basis von Expertenwissen und spezifischer Architektur entwickelt wurden – ähnlich wie AlphaFold die Proteinforschung revolutioniert hat –, sind oft zuverlässiger und effektiver. Doch für uns im Museum ist diese Debatte zutiefst paradox. Wir beobachten täglich, wie die großen Sprachmodelle an der Komplexität unserer Bestände scheitern – und müssen dennoch anerkennen, dass erst diese generalistischen Modelle uns überhaupt den breiten Zugang zur KI ermöglicht haben.
Das Dilemma der Heterogenität
Dieses Paradoxon ist derzeit eine zentrale Herausforderung beim Einsatz von KI im Museum. Als Museen verwalten wir das kulturelle Erbe in seiner ganzen widerspenstigen Heterogenität. Unsere Sammlungen sind das exakte Gegenteil von homogenen Datensätzen: Sie umfassen alles von Knochenfunden aus der Eiszeit über Mannheimer Puppenküchen, schwierige Provenienzen bis zu zeitgenössischer Fotografie. Um diese Bestände adäquat mit KI zu erschließen und zugänglich zu machen, bräuchten wir jene hochspezialisierten KI-Werkzeuge, von denen Marcus spricht.
Die Realität ist ernüchternd: Bisher konnten aus dem Museumssektor keine entsprechenden Modelle für die vielfältigen Einsatzzwecke hervorgebracht werden. Die Gründe dafür sind das Fehlen von finanziellen Mitteln, Personalressourcen und qualitativ hochwertigen Trainingsdaten. Da der Markt für Museen eine Nische bildet, fehlt es großen Technologieunternehmen an Anreizen, hohe Millionenbeträge in die Entwicklung hochspezialisierter KI-Modelle für den Kulturbereich zu investieren.
Wir erleben dies bei vermeintlich einfachen Aufgaben. Nehmen wir die Handschriftenerkennung (HTR). Lange vor ChatGPT existierten spezialisierte KI-Tools für diesen Zweck. Diese sind oft exzellent, ihr Einsatz scheitert jedoch in der Praxis oft am Aufwand des Trainings. Um wirklich zuverlässige Ergebnisse zu liefern, benötigen sie viel Material pro Handschrift. Wenn ich aber in einem Konvolut von 100 Briefen 60 verschiedene Handschriften habe, ist dieser Trainingsaufwand oft nicht leistbar. Ironischerweise sind es dann unter Umständen die großen, generalistischen Modelle, die ohne dieses spezifische Training die „am wenigsten schlechten“ Ergebnisse liefern – schlicht, weil eine enorme Breite an Material in ihr Training eingeflossen ist.
Die Praxis zwingt uns daher, auf generalistische Werkzeuge zurückzugreifen, obwohl diese für unsere Anforderungen oft fundamental unzureichend sind. Es ist ein frustrierendes Dilemma: Einerseits ist es toll, dass wir diese Werkzeuge haben, andererseits sind sie notorisch fehleranfällig und voreingenommen.
Die Grenzen der Anpassung
Neben den finanziellen Aspekten stellt weniger die Technologie selbst das Haupthindernis dar, sondern vielmehr der enorme erforderliche Aufwand für die Konsolidierung und Kuratierung der Daten. Dieser Punkt kann nicht genug betont werden: Oftmals sehen wir uns mit einem „wunderschönen Chaos“ aus unstrukturierten, nicht standardisierten und sensiblen Daten konfrontiert.
Dieses „wunderschöne Chaos“ ist der Kern des Problems. Es stellt mehr als nur eine technische Hürde dar. Es ist eine epistemologische. Die historisch gewachsenen und oft heterogenen Wege der Wissensorganisation in Museen – die Vielfalt der Datenstandards oder ihr völliges Fehlen – widersprechen der Logik des maschinellen Lernens fundamental, da dieses auf klaren Kategorien und statistischer Konsistenz beruht. Diese Datenlage verhindert nicht nur die effektive Anpassung allgemeiner Modelle durch Techniken wie Fine-Tuning. Sie ist auch der tiefere Grund, warum der Sektor jene hochspezialisierten Grundlagenmodelle, die wir eigentlich bräuchten, bisher gar nicht erst entwickeln kann.
Das darf nicht als Plädoyer gegen diese Arbeit missverstanden werden. Im Gegenteil: Wo immer die Ressourcen es zulassen, müssen wir diese spezialisierten Wege unbedingt beschreiten. Der Punkt ist vielmehr, dass dies aktuell nicht die grundsätzliche Ausrichtung der Museen sein kann. Wir haben ein strukturelles Problem, das diese Ansätze allein nicht auflösen können.
Das Kapital Vertrauen
Denn schwerwiegender als die technischen Hürden ist der Anspruch: „Gut genug“ ist im Umgang mit dem kulturellen Erbe nicht ausreichend. Museen sind keine Produzenten von Inhalten, die Effizienz über Genauigkeit stellen. Unser stärkstes Kapital ist das Vertrauen , das uns die Gesellschaft entgegenbringt. In einer Welt voller Desinformation müssen Museen Anker der Zuverlässigkeit sein.
Die inhärenten Schwächen der Large Language Models (LLM) haben hier reale Konsequenzen. Das betrifft nicht nur die Neigung zu Halluzinationen – also das Erfinden von Fakten. Es betrifft besonders den Umgang mit sensiblen historischen Daten. Wenn eine KI koloniale oder diskriminierende Begriffe etwa aus alten Inventarbüchern unkommentiert reproduziert, erhalten diese Narrative durch die Autorität moderner Technologie eine neue, gefährliche Legitimität. Eine Beschreibung von 1908 erhält durch zeitgenössische Technologie neue Gültigkeit. Dies untergräbt unsere Glaubwürdigkeit fundamental.
Die Illusion des Wartens
Es gibt jedoch auch die entgegengesetzte Kritik: Wenn die Werkzeuge unzuverlässig sind, sollten wir auf KI verzichten und warten, bis Besseres verfügbar ist. Auch dieses Argument ist ehrenwert, ignoriert aber die Dringlichkeit. Warten ist keine neutrale Handlung. Angesichts der Masse an unerschlossenen Sammlungen und der chronischen Ressourcenknappheit bedeutet Verzicht Stillstand. Dabei geht es um mehr als nur die interne Erschließung. Es geht fundamental um die digitale Relevanz der Institutionen. Wenn wir keine zeitgemäßen Zugänge schaffen, um den Erwartungen des Publikums zu entsprechen, gefährden wir die Sichtbarkeit und damit die gesellschaftliche Teilhabe am kulturellen Erbe in einer zunehmend digitalen Welt. Wir haben oft nicht die Wahl zwischen einer perfekten KI und traditioneller Arbeit. Wir haben die Wahl zwischen suboptimaler KI-Unterstützung und der fortgesetzten Unsichtbarkeit großer Teile unseres Erbes.
Der strategische Spagat
Wir kommen aus diesem Paradoxon so schnell nicht heraus. Wir sind im Bereich KI auf die General-Purpose-Modelle angewiesen, mit all ihren Problemen. Wir sind dazu verdammt, mit dem Schweizer Taschenmesser zu operieren, obwohl wir ein Skalpell bräuchten.
Das erfordert einen strategischen Spagat. Wir müssen uns von der Vorstellung verabschieden, dass KI uns die Arbeit autonom abnimmt. Stattdessen müssen wir sie als das nutzen, was sie ist: ein mächtiges, aber fehlerhaftes Assistenzsystem.
Das bedeutet explizit nicht, dass wir einfach eine beliebige Chat-Oberfläche öffnen und unreflektiert Bilder oder Texte hineinkippen. Es geht um den strategischen Einsatz der zugrundeliegenden Modelle, oft über technische Schnittstellen (APIs) und eingebettet in traditionelle Arbeitsabläufe.
Konkret bedeutet das: Anstatt die KI komplette Katalogtexte verfassen zu lassen, setzen wir sie gezielt für abgegrenzte Aufgaben ein. Beispiele sind die automatisierte Extraktion spezifischer Informationen aus Text und Mediendateien oder die inhaltliche Erschließung großer Bildmengen zur Verbesserung der Suche. Diese Ergebnisse fließen dann als Vorschläge in den kuratorischen Workflow ein.
Der Mensch muss immer in den Prozess eingebunden sein („Human-in-the-loop“), und KI-generierte Inhalte dürfen nur nach Überprüfung veröffentlicht werden. Wir sollten Technologie nutzen, um Komplexität zu bewältigen und Zugänglichkeit zu schaffen, ihr jedoch keinesfalls die Deutungshoheit überlassen.
Vor allem aber dürfen die Museen dieses Spannungsfeld nicht passiv hinnehmen. Wenn wir die spezialisierte KI wollen, die unsere Arbeit wirklich voranbringt, müssen wir lauter werden. Wir brauchen gezielte Förderprogramme und sektorweite Kooperationen, um Werkzeuge zu entwickeln, die unserer Mission dienen, anstatt unsere Mission an die verfügbare Technologie aus dem Silicon Valley anzupassen. Nur so können wir das Paradoxon langfristig auflösen und sicherstellen, dass die Technologie dem kulturellen Erbe dient – und nicht umgekehrt.
Neugierig geworden?
Mehr über KI und unsere Digitalstrategie erfahren Sie hier.
Die Vielfältigkeit der Museumsbestände ist eine Herausforderung für die KI: Entdecken Sie, wie facettenreich unsere Sammlungen sind.
Das Vertrauen der Gesellschaft ist ein wichtiges Kapital der Museen.
Lesen Sie hierzu eine Studie des Instituts für Museumsforschung


