Posts Tagged ‘Trainingsdaten’

Wikipedia mit 25: Zwischen Stabilität und kulturellem Druck durch KI

25. Januar 2026

Wikipedia ist 25 Jahre alt geworden – und steht zugleich so stabil wie nie zuvor im Netz und doch unter einem neuen, subtilen Druck durch KI, der weniger technisch als kulturell ist. Die Plattform ist zum unsichtbaren Rückgrat der Wissensinfrastruktur geworden, während KI-Systeme beginnen, genau dieses Rückgrat zu überblenden und zu vereinnahmen.

Seit dem 15. Januar 2001 hat sich Wikipedia von einem anarchisch wirkenden Freiwilligenprojekt zu einer globalen Referenzmaschine entwickelt, auf die sich Schulen, Redaktionen, Suchmaschinen und längst auch große Sprachmodelle stützen. In über 300 Sprachen, mit mehr als 65 Millionen Artikeln, bildet sie eine Art evidenzbasiertes Grundrauschen, gegen das sich jede Behauptung im Netz zumindest gedanklich messen lassen muss. Dieser Erfolg ist paradoxerweise genau das Einfallstor für jene KI-Dienste, die ihren Nutzerinnen und Nutzern in Sekundenbruchteilen Antworten liefern, ohne noch sichtbar zu machen, dass in ihrem Schatten eine ehrenamtliche Infrastruktur aus Menschen steht, die seit Jahrzehnten Quellen prüfen, editieren, streiten, löschen, belegen.

Am 15. Januar 2001 startete Gründer Jimmy Wales an seinem Windows-Rechner nicht nur das Projekt selbst, sondern legte auch unmittelbar die ersten Einträge der Online-Enzyklopädie an. Bereits am ersten Tag entstanden Artikelseiten zu Begriffen wie WikiPedia, PhilosophyAndLogic und UnitedStates, und nur fünf Tage später waren schon mehr als 100 Einträge verfügbar. Eine Übersicht der ersten 100 über Wikipedia abrufbaren Seiten zeigt, wie rasant sich das Projekt entwickelte: Anfangs ausschließlich englischsprachig, folgte schon kurz darauf der erste Ableger in einer anderen Sprache. Nur zwei Monate nach dem Start der englischen Version ging am 16. März 2001 die deutsche Wikipedia als erste lokale Variante online. Ich habe auch meinen Beitrag geleistet und Artikel verfasst. Heute umfasst die englischsprachige Originalseite mehr als sieben Millionen Artikel, während die deutsche Wikipedia mit über drei Millionen Einträgen ebenfalls eine beeindruckende Informationsfülle bereithält. Ein zentraler Aspekt bleibt dabei die Finanzierung des Projekts: Neben den vertrauten Spendenaufrufen gibt es zum Jubiläum im Wikipedia Store eine Sonderkollektion, deren Erlöse die Arbeit an der Enzyklopädie unterstützen sollen.

In den Reaktionen auf das Jubiläum spiegelt sich die besondere Rolle, die Wikipedia im digitalen Alltag vieler Menschen einnimmt. Nutzerinnen und Nutzer gratulieren, bezeichnen die Plattform als bevorzugte Informationsquelle und hoffen, dass sie sich erfolgreich an neue Rahmenbedingungen anpassen wird. Zugleich tauchen in den Kommentaren auch kritische Stimmen auf, die von Zensur sprechen oder auf Filterblasen hinweisen, während andere dem widersprechen und die Moderation als notwendigen Teil der Qualitätssicherung sehen. Immer wieder wird betont, wie wichtig regelmäßige Spenden sind, um Wikipedia langfristig zu erhalten, und auf eine Easter-Egg-Seite zum Jubiläum hingewiesen. Denn wenn Menschen sagen, sie würden etwas „googeln“, landen sie meist – oft unbewusst – bei Wikipedia, sei es über die ersten Treffer in Suchmaschinen, über Instant Answers oder über Antworten von LLM-Chatbots, die ebenfalls auf diese Inhalte zurückgreifen. Fiele Wikipedia plötzlich weg, wüsste das Web spürbar weniger, lautet der warnende Unterton, verbunden mit dem Appell, zu spenden, bevor dieses Fundament des Wissens verschwindet.

Die Bedrohung für die Reichweite von Wikipedia durch KI ist daher weniger ein plötzlicher Exodus der Leserschaft als eine schleichende Umleitung der Aufmerksamkeit: Wenn Chatbots Fragen direkt beantworten, entfällt der Klick auf die Quelle, und damit das, was die Wikipedia schlicht zum Leben braucht – die Begegnung zwischen Text und Leser. Erste Auswertungen deuten auf spürbare Rückgänge beim menschlichen Traffic hin, während der automatisierte Zugriff für Trainingsdaten und Scraping massiv zunimmt, also genau jener Zugriff, der keine Spenden generiert, keine neuen Autoren hervorbringt und keine Diskussionsseiten bevölkert. KI isst sich durch die Wissensbestände, an deren Pflege sie selbst nicht beteiligt ist, und verwandelt das mühselig Kuratierte in einen glattgebügelten, personalisierten Antwortstrom, in dem die ursprünglichen Kontexte, Konflikte und Korrekturen verschwinden.

In dieser Verschiebung liegt auch eine neue Dimension der Verlässlichkeit: Wikipedia hat nie behauptet, unfehlbar zu sein, aber sie ist strukturell überprüfbar – jede Version, jede Quelle, jeder Konflikt ist transparent dokumentiert und im Idealfall rückverfolgbar. Obwohl ich das Gefühl habe, die deutsche Ausgabe der Wikipedia ist zum Teil ideologisch.
Fehler sind hier nicht verborgenes Scheitern, sondern im Grunde Teil einer öffentlichen Lernkurve, die über Edits, Reverts und Diskussionsarchive nachgezeichnet werden kann; das System baut auf Misstrauen als produktiver Kraft, auf der ständigen Möglichkeit der Korrektur. KI-Systeme dagegen präsentieren ihre Ausgaben mit der glatten Souveränität eines fertigen Textes, dessen Herkunft sich bestenfalls in allgemeinen Modellkarten, nicht aber konkret im Satz nachprüfen lässt, und der sich zudem auf Trainingsdaten stützt, deren Lizenzlage und Aktualität häufig unklar bleiben.

Gerade hier verschränken sich Erfolg und Krise: Weil Wikipedia in vielen Bereichen eine der zuverlässigsten offenen Datenquellen geworden ist, fließt sie massenhaft in KI-Modelle ein, die ihr wiederum Nutzer abspenstig machen und einen Teil der Legitimität absorbieren, ohne den Aufwand der Qualitätssicherung zu teilen. Der Unterschied in der Verlässlichkeit ist deshalb nicht nur eine Frage der Fehlerquote, sondern der Verantwortungskette: Wikipedia institutionalisiert Zweifel und kollektive Aushandlung, KI institutionalisiert Plausibilität und Komfort – und je mehr sich die Öffentlichkeit an letzteres gewöhnt, desto größer wird die Gefahr, dass das sichtbare Ringen um Wahrheit, das Wikipedia ausmacht, unter einer Schicht von friktionslosen Antworten verschwindet. In diesem Sinn ist der 25. Geburtstag nicht nur ein Jubiläum, sondern auch eine Erinnerungsmarke: an ein Netz, in dem Wissen als Prozess sichtbar war – und an die Entscheidung, ob man diesen Prozess den Maschinen überlässt oder weiter öffentlich führt.

Wenn die KI Halluzinationen hat

15. Februar 2024

Ich beschäftige mich gerade damit, wie vertrauensvoll eigentlich die Ergebnisse von KI sind. Ich bereite dazu ein Online-Seminar vor. Wir wissen alle, dass ChatGPT und Co falsche Aussagen liefern können und es gibt genügend Beispiele, wie folgenreich waren. Wir erinnern uns: Im Frühjahr 2023 sanktionierte ein US-Richter eine US-Anwaltskanzlei, weil sie in einem Schriftsatz, den ein Chatbot verfasst hatte, Rechtsgutachten mit gefälschten Zitaten zitiert hatte.

Und dennoch setzte ich in meiner täglichen Arbeit Werkzeuge wie ChatGPT ein, prüfe aber die Ergebnisse gewissenhaft. Fast schon ein wenig psychedelisch nennen die Experten diese Fehler dann auch Halluzinationen.

Aber wie lassen sich diese Halluzinationen eindämmern, vor allem wenn sie im beruflichen Umfeld genutzt werden? In Unternehmen, die Chatbots für Kunden und Mitarbeiter einsetzen, kann nur eine einzige KI-Erfindung Unternehmen vor Gericht bringen und den Ruf ruinieren.

Mit der wachsenden Zahl von KI-gestützten Chatbots steigen also die Risiken, dass diese nicht wie gewünscht funktionieren. Unsinnige oder ungenaue Ausgaben oder Antworten, die nicht aus den Large Language Modells (LLMs) herausgefiltert werden können, verbleiben in dem Daten-Pool der Chatbots und versauen die Antworten.

Schlechte Trainingsdateien
Halluzinationen treten auf, wenn die Daten, die zum Trainieren von LLMs verwendet werden, von schlechter Qualität oder unvollständig sind. Die Häufigkeit liegt bei den meisten KI-Plattformen zwischen 3 % und 8 %. Bei Customer-Service-Chatbots kann die Bereitstellung falscher Ratschläge oder Informationen wichtige Ziele wie die Kundenzufriedenheit negativ beeinflussen. Sie können auch in hochkomplexen (und regulierten) Sektoren wie dem Gesundheitswesen oder dem Finanzwesen zu Verwirrung und Schaden führen.

Folgenreich
In IT-Organisationen richten KI-Pannen auch auf andere Weise verheerende Schäden an. Chatbots können Service-Tickets falsch zuweisen, ein Problem ungenau beschreiben oder Arbeitsabläufe stören und zu erheblichen systemischen Problemen führen.
Für Ingenieure kann ein KI-generierter Code, der in der Softwareentwicklung verwendet wird, Sicherheitslücken oder geistiges Eigentum enthalten, das während des Trainings aufgenommen wurde. KI-Systeme können auch komplexe Fehler oder Sicherheitsprobleme übersehen, die nur ein Entwickler erkennen und beheben würde.

Was ist zu tun?
Also was ist zu tun, um die Risiken zu minimieren?
Inhaltsfilter: Eine Vielzahl von technischen oder richtlinienbasierten Leitplanken kann vor unangemessenen oder schädlichen Inhalten schützen. Beispielsweise können Inhaltsfilter die Beantwortung von Fragen zu sensiblen Problemen oder Themen ablehnen. Beim Customer-Service sollte ein Chatbot eine Anfrage schnell an einen menschlichen Mitarbeiter übergeben, wenn er verwirrt ist oder nicht in der Lage ist, die genaue Antwort zu finden.
Besser Datenqualität: Bei der Schulung von LLMs sollten IT-Teams die Daten validieren, um sicherzustellen, dass sie qualitativ hochwertig, relevant und umfassend sind. Trainingsdaten sollten regelmäßig überprüft werden, um sich vor „Modelldrift“ oder Leistungseinbußen zu schützen, die aufgrund von Änderungen des zugrunde liegenden Datenmodells im Laufe der Zeit auftreten.
Leitplanken: Durch die Einschränkung der Fähigkeit der Chatbots, sich mit Apps und Diensten von Drittanbietern zu verbinden, wird die Möglichkeit vermieden, irreführende, ungenaue oder potenziell schädliche Daten zu generieren. Nebeneffekte des Sandboxings des Chatbots auf diese Weise sind eine bessere Leistung (weniger Abhängigkeiten) und eine verbesserte Compliance für die Branchen, in denen dies unerlässlich ist.

Forschung arbeitet an Lösungen
Halluzinationen mögen heute ein Problem sein, aber die Forschung ist im Gange, das Problem zu lösen. In dem Bemühen, sowohl die Genauigkeit als auch die Zuverlässigkeit zu verbessern, wird alles untersucht, von der Erstellung größerer Modelle bis hin zur Selbstdurchführung der Faktenprüfung durch LLMs.
Und erste Schritt werden unternommen. Das von CISPA Helmholtz-Zentrum für Informationssicherheit unterstützte Startup QuantPi wird mit 2,5 Millionen Euro vom European Innovation Council (EIC) gefördert. Das Geld soll für den Aufbau einer Plattform für vertrauenswürdige generative Künstliche Intelligenz (KI) verwendet werden.

Diese Förderung unterstützt QuantPi bei seiner Pionierarbeit für die sichere Nutzung generativer KI. Das Startup arbeitet daran, der Gesellschaft ein sicheres und selbstbestimmtes Leben mit Künstlicher Intelligenz zu ermöglichen. Die Fördersumme will das Unternehmen dafür einsetzen, die aktuelle auf KI basierende Testtechnologie weiterzuentwickeln, um somit die erste automatisierte Risikomanagement-Plattform aufzubauen, die Sicherheit, Fairness und Erklärbarkeit generativer KI-Systeme ermöglicht.
Die Technologie von QuantPi bietet Anbietern generativer KI-Systeme die Chance, höchste ethische Standards auf ihre Produkte anzuwenden. Firmen, die GenAI-Tools kaufen möchten, können mit Hilfe der Plattform Risikobewertungsprozesse während der Beschaffung automatisieren – zum Schutz ihrer Kunden und zur Sicherstellung, dass lediglich hochwertige KI gekauft wird. Zudem wird geprüft, ob die KI-Systeme den strengen Tests zur Einhaltung von EU-Standards standhalten können.

Der CEO von QuantPi, Philipp Adamidis, äußerte sich begeistert über die Förderung und erklärte: „Dies ist ein Beweis für die harte Arbeit und das Engagement des gesamten QuantPi-Teams. Wir freuen uns, dass wir diese Mittel nutzen können, um den sicheren und verantwortungsvollen Einsatz von KI zu gewährleisten, ohne dabei den Fortschritt zu bremsen. Die Förderung beschleunigt nicht nur unsere Forschungs- und Entwicklungsbemühungen, sondern unterstützt auch unser Engagement, einen positiven Beitrag für die Gesellschaft zu leisten.“

VR-Projekt der Münchner Symphoniker: Tapestry of Spaces

15. Januar 2024

Nennen wir es virtuelle Realität, VR oder Metaverse, egal. Ich bin sehr an dieser Thematik interessiert und bin gespannt, ob die Apple Vision Pro die Welt verändern wird. Zunächst in den USA und vielleicht irgendwann mit einem Consumer-Produkt bei uns.

Ich muss zugeben, ich war mit den Aufnahmen meiner 360 Grad VR-Kameras in den vergangenen Wochen ein wenig nachlässig. Aber ich bin auf ein interessenten Experiment in München gestoßen: The Tapestry of Spaces, also locker übersetzt ein Wandteppich an Räumen – im engeren Sinne das Lied der Räume.

Es soll ein Gesamtkunstwerk darstellen aus klassischer Musik, KI Komposition, StreetArt und immersiver Audio-und Videotechnologie alles unter dem Dach der Münchner Symphoniker. The Tapestry of Spaces sind sieben Räume einer Ausstellung des KUNSTLABOR 2 in München als Ausgangspunkt für dieses Projekt.

Ich traf das Projekt in Räumen unterhalb des Wurmecks im Münchner Rathaus. Dort war das Projekt samt VR-Brillen zum Ausprobieren.

Herzstück ist die spielerisch-kreative Auseinandersetzung mit ChatGPT als klassischem Komponisten, der anhand von Fotos der von den Künstlern gestalteten Räume das melodische Material für ein Ensemble der Münchner Symphoniker erstellt hat. Klingt verwirrend und sollte daher unbedingt einmal ausprobiert werden. Denn im Gegensatz zu den bislang verfügbaren Musik-KI-Modellen lässt sich die Entstehung der KI-Komposition transparent mitverfolgen. Eine sehr ausführliche und interessante Zusammenfassung des Projektes gibt es auf einer speziellen Website. Sie zeigt das Vorgehen von KI-Promter und Musiker.

Und immer wieder stellt sich mir die Frage in wieweit kann KI Kunst ermöglichen oder ist es nur eine Reproduktion von Trainingsdaten? Kunst bedeutet für mich etwas Neues zu schaffen, allenfalls ist es nur eine schnöde Variante des Bestehenden. Die Auseinandersetzung der Bearbeiter Adrian Sieber und Jakob Haas mit den Vorgaben von ChatGPT beleuchtet, inwiefern die GPT-Kl als Inspirationsquelle und thematische Ideengeberin dienen kann, und wo die Grenzen der Technologie für die künstlerische Verarbeitung musikalischer Ideen liegen.