Posts Tagged ‘Thierry Declerck’

Froschkönig vom Computer gelesen und verstanden

15. August 2014

Dass ein Computer einen Text vorlesen kann, das ist nichts neues. Ich nutze beispielsweise sehr oft die Sprachausgabe beim Adobe Acrobat. Auch mit meinem Amazon Paperwhite nutze ich dann und wann die Vorlesefunktion.
Aber die ganze Sache nicht so richtig rund. Es quakt noch ziemlich. Aber es wird langsam besser. Und schon wären wir beim Froschkönig. Vier Studenten haben in einem Seminar bei Sprachtechnologe Thierry Declerck eine Software entwickelt, die den Computer zum Märchenerzähler macht. Das Besondere: Im Gegensatz zu üblichen Vorleseprogrammen hat der Rechner den Text verstanden, so berichtet zumindestens die Uni Saarbrücken. Der Computer erkennt die verschiedenen Charaktere, erzählt automatisch mit verteilten Rollen, passt seine Stimme den jeweiligen Gefühlen an und setzt Spezialeffekte wie Hall ein.

Jana Ott, Christian Eisenreich und Christian Willms, Studenten von Thierry Declerck (l.), haben ein Programm entwickelt, das Märchen vorlesen kann.

Jana Ott, Christian Eisenreich und Christian Willms, Studenten von Thierry Declerck (l.), haben ein Programm entwickelt, das Märchen vorlesen kann.

Entwickelt wurde die Software anhand des Märchens „Der Froschkönig“, aber die Sprachverarbeitung ist automatisierbar: Nach Eingabe bestimmter Informationen kann der Computer auch andere Märchen erzählen.
„Unser Programm erkennt, ob in einer Textpassage des Märchens ein Mensch, Tier oder Fabelwesen spricht, und es erkennt die Gefühlslage und den jeweiligen Charakter. Je nachdem passt der Computer bei der Sprachausgabe Betonung, Tempo und Sprechweise an“, erklärt Christian Eisenreich. Gemeinsam mit Jana Ott, Tonio Süßdorf und Christian Willms hat der Student, der im sechsten Semester Computerlinguistik studiert, dem Rechner beigebracht, Märchen zu erzählen. Die Idee stammt von ihm: „Wir sollten für das Seminar ein praxisbezogenes Thema vorschlagen. Ich dachte an ein Stofftier, das Märchen erzählt“, sagt Christian Eisenreich.
„Das Besondere ist, dass der Computer den Text verstanden hat. Märchen eignen sich hierbei besonders gut, weil sie wiederkehrende Muster mit ähnlichen Rollen haben“, erläutert Thierry Declerck, der in der Computerlinguistik am Lehrstuhl von Professor Hans Uszkoreit und am Deutschen Forschungszentrum für Künstliche Intelligenz forscht und das Seminar leitete. Die Software entwickelten die Studenten anhand des Märchens „Der Froschkönig“. Aber die Sprachverarbeitung lässt sich auf andere Märchen übertragen. Der Computer muss lediglich mit einigen Daten gefüttert werden und dann erzählt er das Märchen der Wahl. Dies wurde bereits mit den „Bremer Stadtmusikanten“, „Rumpelstilzchen“ und mit „Wilde Schwäne“ erprobt. Hier gibt es eine Kostprobe des Froschkönigs.
Aber ganz so einfach scheint es nicht zu sein. Damit der Computer zum „Märchenversteher“ wird, haben die Studenten den Text des „Froschkönigs“ zunächst komplett durchdrungen: Sie arbeiteten Wort für Wort mitsamt Bedeutung auf, interpretierten Sätze und Dialoge, trugen Hintergrundinformationen zusammen. Anschließend übersetzten sie alles in eine Sprache, die der Computer versteht, und programmierten die Software so, dass er Muster, Bedeutungsstruktur und Zusammenhänge erlernen kann.
Dabei waren die Aufgaben im Team verteilt. Tonio Süßdorf war für die Zeitabläufe zuständig, Christian Willms für die Dialoge, Jana Ott für die Gefühle der Figuren. Christian Eisenreich zeichnet verantwortlich für die Ontologie, also das Beziehungsgeflecht im Text, was womit zusammenhängt, und für die Umwandlung des Textes in Sprache. Mithilfe eines „Goldstandards“, einer Art Musterlösung, die die Studenten vom Text erstellten, konnten sie das Programm auf Fehler untersuchen. „Alles musste dann so zusammengebracht werden, dass es harmoniert“, sagt Eisenreich. „Eine gute Übung, denn von Teamarbeit hängt in Forschungsprojekten der Erfolg ab“, ergänzt Declerck.
Die Studenten konnten bei ihrer Seminararbeit auf Forschungsergebnisse der Saarbrücker Sprachtechnologen aufbauen. Etwa auf die Sprachausgabe „Mary TTS“ von Marc Schröder und Jürgen Trouvain, die dem Computer jetzt die Stimmen der Erzählerin, der Prinzessin oder des Froschs verleiht. Sie tragen die Märchen gefühlvoll und automatisch mit verteilten Rollen vor – nur hin und wieder entlarven winzige metallische Kiekser und feinste Sprünge zwischen Laut- und Wortschnipseln die Computerstimme.

Medienkompetenz: Sprachforscher wollen Wahrheitsgehalt von Infos im Netz sichtbar machen

13. Februar 2014
Wahr oder falsch? Brennt das London eye?

Wahr oder falsch? Brennt das London eye?

Ist eine Information im Internet vertrauenswürdig? Im Moment verbringe ich einen Teil meiner Schulung mit Medienkompetenz. Zur Vorbereitung von Referaten u.a. wird in der Regel auf Wikipedia und Co gegangen und kopiert. Doch ist die Info überhaupt wahr und kann ich mich auf dem Informationsgehalt verlassen?

Damit diese Frage künftig beantwortet werden kann, arbeitet der Saarbrücker Sprachtechnologe Thierry Declerck seit Anfang des Jahres im Rahmen des Projekts „Pheme“ mit Wissenschaftlern verschiedener Fachdisziplinen aus England, Österreich, der Schweiz, Bulgarien, Spanien und Kenia zusammen. Ziel der Forscher ist es, ein automatisches Analyseverfahren zu entwickeln, das dem Internetnutzer schnell und verlässlich mitteilt, ob er einer gefundenen Information trauen kann oder eher nicht. Die Ergebnisse werden in zwei Fallstudien getestet, Testgebiete sind Medizinische Informationssysteme und digitaler Journalismus. Das Projekt ist auf drei Jahre angelegt, hat ein Gesamtvolumen von rund 4,3 Millionen Euro und wird von der EU mit rund drei Millionen Euro gefördert. Ich finde diese Forschung super interessant.

Der Saarbrücker Sprachtechnologe Thierry Declerck

Der Saarbrücker Sprachtechnologe Thierry Declerck

„Das Wahrzeichen Londons, das London Eye, brennt.“ Ein Satz wie dieser verbreitet sich über Facebook, Twitter und Co. explosionsartig. Aber stimmt er auch? Die Folgen solcher Falschmeldungen sind unberechenbar – je nach Brisanz des Inhalts ist von Gewaltexzessen bis hin zum Einbruch von Aktienmärkten alles möglich. Die Frage der Vertrauenswürdigkeit von Informationen im Netz stellt sich daher immer dringlicher. Auch jeder, der schon nach Krankheitssymptomen gesucht hat, kennt das Problem. Aber wie misst man den Wahrheitsgehalt von Online-Informationen? Und das schnell genug? Gemeinsam mit seinen internationalen Forschungspartnern will der Sprachtechnologe Thierry Declerck hierfür Antworten finden. Die Wissenschaftler arbeiten an einer robusten Methode, die jeweils zuverlässig angibt, wie vertrauenswürdig eine Information ist. „Wir konzentrieren uns dabei auf vier Arten problematischer Informationen: die Spekulation, die kontroverse Diskussion, die Fehlinformation und die gezielte Verbreitung falscher oder irreführender Tatsachen“, erklärt er.

Für mich klingt das alles nach Science Fiction, aber wir sind wohl nicht weit von einer Lösung entfernt. Eine der größten Herausforderungen hierbei ist die Datenflut. „Mehrere tausend Textnachrichten werden jede Sekunde neu eingestellt. Daher wenden wir Methoden an, um große Datenmengen zu verarbeiten, so genannte Big Data-Analysen“, sagt Declerck, der in der Computerlinguistik der Saar-Universität am Lehrstuhl von Professor Hans Uszkoreit und am Deutschen Forschungszentrum für Künstliche Intelligenz forscht. „Wir verbinden statistische Methoden mit präzisen sprachwissenschaftlichen Analysen. Die Lösung liegt in der Kombination der verschiedenen Verfahren. Im Projekt arbeiten hierzu Wissenschaftler unterschiedlicher Ausrichtung zusammen“, erläutert er. Computerlinguistische Sprachanalysen werden verknüpft mit Informationen aus sozialen Netzwerken, Inhalte werden mit zuverlässigen Datenbanken abgeglichen, statistisch geprüft und mittels Grafiken ausgewertet. Die Aussage wird gleichsam durch verschiedenste Filter geschickt; am Ende steht eine bestimmte Wahrscheinlichkeit, die für oder gegen die Wahrheit spricht.

Declercks Aufgabe im Projekt ist die Sprachtechnologie. Er baut dabei auf Vorarbeiten im EU-Projekt „TrendMiner“ auf: „Wir haben Methoden entwickelt, die es möglich machen, aus der Datenflut Themen und Trends herauszufischen, die im Internet aktuell diskutiert werden. So lassen sich etwa Stimmungen erkennen.“ Mit Hilfe eines komplexen Systems aus Sprachverarbeitungs-Modulen will der Forscher jetzt die Informationen weiter auswerten, sie von ihrer Bedeutung und von Besonderheiten im Satzbau her erfassen. „Zum Beispiel wollen wir Satzstrukturen, die Zweifel am Wahrheitsgehalt einer Aussage ausdrücken, sowie bestimmte Schlüsselwörter wie ´scheinbar` oder ´nicht` automatisch erkennen“, sagt Declerck. Im Ausgangsbeispiel mit dem London Eye würde das System die Häufung von Zweifel wie „Stahl brennt doch gar nicht“ oder „Ich bin am London Eye, hier brennt nichts“ in seine Wahrheits-Analyse einbeziehen. Hierzu entwickelt Declerck derzeit mathematische Algorithmen: In Zahlen übersetzt, lassen sich Muster und Strukturen erkennen – die Informationen werden berechenbar.

Besonderer Knackpunkt für die Forscher wird die Unbeständigkeit der Wahrheit in unserer realen Welt sein. Was heute wahr ist, kann morgen schon falsch sein: „Der Faktor Zeit spielt eine große Rolle. Zum Beispiel ist eine Aussage der Form ´X ist Präsident des Landes Y` nur so lange wahr, wie der genannte Präsident auch tatsächlich amtiert. Unser System muss sich also ständig anpassen können“, erklärt er. Daher verknüpft er die zu überprüfenden Informationen mit den entsprechenden Daten in zuverlässigen Quellen, z.B. Online-Nachschlagewerken wie DBpedia. „Hinter den Texten solcher Datenbanken liegen verschlüsselte, maschinenlesbare Informationen. Wir nutzen diese derzeit sozusagen als Spielwiese, um Gesetzmäßigkeiten zu finden und neue leistungsfähige Algorithmen zu entwickeln“, sagt der Sprachtechnologe.

Die EU fördert das Projekt „Pheme“ als „Specific Targeted Research Project (STREP)“. Partner im Projekt sind in England die University of Sheffield (Koordinator), das Kings College London, sowie die University of Warwick, in Österreich die Modul Universität Wien, in der Schweiz swissinfo.ch, in Bulgarien Ontotext, in Spanien ATOS Spain SAU, in Kenia Ushahidi und in Deutschland die Universität des Saarlandes.