Posts Tagged ‘Christian Theobalt’

KI DragGAN kann die Bildbearbeitung revolutionieren

4. Juni 2023

Es überschlagen sich die Ideen beim Thema KI und aus der Flut von Innovationen ist es schwer den Überblick zu behalten. Ich bin auf die KI DragGAN vom Max-Planck-Institut für Informatik in Saarbrücken gestoßen, die das Potential hat, Bildbearbeitung komplett zu verändern. Das Projekt kommt vom angesiedelten Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence (VIA). Es wird im August auf der SIGGRAPH vorgestellt, die ich früher jedes Jahr besucht habe. Es war für mich immer das Muppet Labor von Prof. Bunsenbrenner, wo die Zukunft schon heute gemacht wird.

Kleidungsstücke an einem digitalen Avatar anprobieren und von allen Seiten begutachten? Die Blickrichtung des Haustieres auf dem Lieblingsfoto anpassen? Oder die Perspektive auf einem Landschaftsbild verändern? Eine neue Methode verspricht nun, sie auch für Laien zugänglich zu machen – dank KI-Unterstützung mit wenigen Mausklicks. Hier ist die Dokumentation dazu.
Die neue Methode hat das Zeug dazu, die digitale Bildbearbeitung zu verändern. „Mit ‚DragGAN‘ entwickeln wir derzeit ein Werkzeug, dass es dank einer übersichtlichen Nutzeroberfläche auch Laien ermöglicht, komplexe Bildbearbeitungen vorzunehmen. Sie müssen nur die Stellen im Foto markieren, die sie verändern möchten. Dann geben sie in einem Menü an, welcher Art die Veränderung sein soll – und mit nur wenigen Mausklicks kann jeder Laie dank KI-Unterstützung die Pose, den Gesichtsausdruck, die Blickrichtung oder den Blickwinkel auf einem Foto, beispielsweise von einem Haustier, anpassen“, erklärt Christian Theobalt, geschäftsführender Direktor des Max-Planck-Instituts für Informatik, Direktor des Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence und Professor an der Universität des Saarlandes am Saarland Informatics Campus.

Generative Modelle
Möglich macht das die Künstliche Intelligenz, genauer gesagt die „Generative Adversarial Networks“, kurz GANs. „Wie der Name sagt, handelt es sich bei GANs um generative Modelle, also solche, die neue Inhalte wie Bilder synthetisieren können. ‚Adversarial‘ zeigt an, dass es sich um ein KI-Modell handelt, in dem zwei Netzwerke gegeneinander spielen“, erklärt der Erstautor des Papers, Xingang Pan, Postdoktorand am Max-Planck-Institut für Informatik und am Saarbrücker VIA-Center. In einem GAN arbeiten ein Generator, der Bilder erstellt, und ein Discriminator, der entscheiden muss, ob die Bilder echt sind oder vom Generator erstellt wurden, gegeneinander. Das System wird so lange trainiert, bis der Discriminator die Bilder des Generators nicht mehr von echten Bildern unterscheiden kann.

Vielfältige Einsatzmöglichkeiten
Die Einsatzmöglichkeiten von GANs sind vielfältig. Neben der offensichtlichen Anwendung des Bildgenerators sind GANs zum Beispiel gut darin, Bilder vorherzusagen: Die sogenannte Video-Frame-Prediction prognostiziert das nächste Bild eines Videos, was den Datenaufwand beim Videostreaming reduzieren kann. Die GANs können zudem niedrig aufgelöste Bilder hochskalieren und die Bildqualität verbessern, indem sie die Position der zusätzlichen Pixel der neuen Bilder vorhersagen.

„In unserem Fall erweist sich diese Eigenschaft von GANs als vorteilhaft, wenn in einem Bild zum Beispiel die Blickrichtung eines Hundes geändert werden soll. Das GAN berechnet dann im Grunde das ganze Bild neu und antizipiert, wo welches Pixel im Bild mit der neuen Blickrichtung landen muss. Ein Nebeneffekt davon ist, dass DragGAN auch Dinge berechnen kann, die vorher etwa durch die Kopfposition des Hundes verdeckt waren. Oder wenn der Nutzer die Zähne des Hundes darstellen will, kann er dem Hund auf dem Bild die Schnauze öffnen“, erklärt Xingang Pan. Auch im professionellen Kontext könnte DragGAN genutzt werden. Beispielsweise könnten Modedesigner den Zuschnitt von Kleidern nachträglich in Fotos anpassen oder Fahrzeughersteller könnten mit wenigen Mausklicks verschiedene Design-Konfigurationen eines geplanten Fahrzeuges durchspielen.

DragGAN funktioniere zwar bei verschiedenen Objektkategorien wie Tieren, Autos, Menschen und Landschaften, die meisten Ergebnisse seien bisher mit GAN-generierten, synthetischen Bildern erzielt worden. „Die Anwendung auf beliebige vom Benutzer eingegebene Bilder ist immer noch ein schwieriges Problem, das wir untersuchen“, ergänzt Xingang Pan.

Das neue Tool der Saarbrücker Informatiker sorgte bereits wenige Tage nach Veröffentlichung des Preprints in der internationalen Tech-Community für Aufsehen und gilt vielen als der nächste große Schritt in der KI-gestützten Bildbearbeitung. Während Tools wie Midjourney dazu genutzt werden können, neue Bilder zu erstellen, vereinfacht DragGAN die Nachbearbeitung von Bildern enorm.
Die neue Methode wird federführend am Max-Planck-Institut für Informatik und dem darin angesiedelten, gemeinsam mit Google eröffneten „Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence (VIA)“entwickelt, in Zusammenarbeit mit dem Massachusetts Institute of Technology (MIT) und der University of Pennsylvania.
Neben Professor Christian Theobalt und Xingang Pan waren an dem Paper unter dem Titel „Drag Your GAN: Interactive Pointbased Manipulation on the Generative Image Manifold“ beteiligt: Thomas Leimkühler (MPI INF), Lingjie Liu (MPI INF und University of Pennsylvania), Abhimitra Meka (Google) und Ayush Tewari (MIT CSAIL). Das Paper wurde von der ACM SIGGRAPH-Konferenz akzeptiert, der weltweit größten Fachkonferenz für Computergrafik und interaktive Technologien, die vom 6. bis 10. August 2023 in Los Angeles stattfinden wird. Ich bin neidisch und würde gerne auch mal wieder dorthin.

Motion-Capture in freier Natur

24. Februar 2014

Ich liebe technische Visionen aus dem 3D-Umfeld. Bei Avatar habe ich Emily kennengelernt, die mich vom Hocker gehauen hat. Die Forschung daran erinnert mich immer wieder an das Labor von Professor Bunsenbrenner aus der Muppet Show, dort, wo die Zukunft schon heute gemacht wird. So schaue ich gerne beim Fraunhofer Institut vorbei, aber auch immer mehr bei den Informatikern in Saarbrücken. Zur CeBit stellen sie ein neues verbessertes System vor.

Foto: Uwe Bellhäuser/Max-Planck-Institut für Informatik

Foto: Uwe Bellhäuser/Max-Planck-Institut für Informatik

Personen, aufgenommen in freier Natur, können direkt als virtuelle Figuren in Spielfilmszenen eingebettet werden. Dies war außerhalb eines Filmstudios bislang nicht möglich. Auch Ärzte und Sportler könnten die Technik nutzen, um Bewegungsabläufe besser zu analysieren. Um ihre Technologie zu vermarkten, haben die Informatiker die Firma „The Captury“ gegründet. Vom 12. bis 14. März präsentieren sie ihr Verfahren auf der CeBit in Hannover am Stand des Bundeswirtschaftsministeriums (Halle 9, Stand E24).

Um was geht es? Um virtuelle Figuren in reale Spielfilmszenen zu setzen, haben Filmstudios in Hollywood bislang viel Aufwand betrieben. Beim Motion-Capture-Verfahren tragen echte Schauspieler hautenge Anzüge mit Markern. Diese reflektieren Infrarotlicht, das von speziellen Kameras ausgestrahlt und empfangen wird. Die Bewegungen der Schauspieler werden anschließend mit Hilfe einer Software auf die animierten Figuren übertragen. Das bekannteste Beispiel ist „Gollum“, gespielt von Andy Serkis.

Kein Filmstudio notwendig: Die Bewegungen von Personen können in der Natur erfasst werden, um so virtuelle Figuren zu animieren. Foto: Hasler/MPI

Kein Filmstudio notwendig: Die Bewegungen von Personen können in der Natur erfasst werden, um so virtuelle Figuren zu animieren. Foto: Hasler/MPI

Die Saarbrücker Wissenschaftler um Nils Hasler und Carsten Stoll vom Max-Planck-Institut für Informatik haben ein Verfahren entwickelt, das ohne diese Marker auskommt und die Bewegung der Schauspieler direkt – ohne Zeitverlust – auf die virtuellen Charaktere überträgt. Die vergangenen Monate haben sie genutzt, um die Technologie weiter zu verbessern. „Wir haben sie benutzerfreundlicher gemacht“, erklärt Nils Hasler. „Es ist nun auch möglich, die Filmaufnahmen in der freien Natur und nicht mehr nur im Studio zu drehen.“ Beispielsweise müssten Szenen wie bei „Herr der Ringe“, in denen „Gollum“ durch die rauen Berglandschaften von Mittelerde wandert, nicht mehr im Filmstudio produziert werden, sondern direkt in der Landschaft, in der die Szenen spielen.

Darüber hinaus haben sich die Forscher damit befasst, die Bewegungen von zwei Schauspielern gleichzeitig auf zwei animierte Charaktere zu übertragen. „Die Software muss dazu allerdings etwas länger rechnen als bei einer Person“, erklärt Carsten Stoll. Zudem ermöglicht die Technik es, komplette Kamerafahrten nachzuahmen. Die Bewegung einer Figur kann auf diese Weise ohne größeren Aufwand von allen Seiten eingefangen werden.

Noch ein weiteres Problem konnten die Informatiker um Christian Theobalt, dem Leiter der Forschergruppe „Graphics, Vision & Video“ am Max-Planck-Institut für Informatik, lösen: Personen, die etwa von einer anderen Figur in einer Spielfilmszene verdeckt werden, können die Forscher mit ihrer Technik komplett darstellen. Diese Neuerung ist nicht nur für die Film- und Spielindustrie interessant. Sportjournalisten könnten die Bewegungsabläufe bei einem Boxkampf besser live kommentieren oder Judo-Trainer die Kampftechniken ihrer Athleten direkt analysieren. „Auch Betriebsärzte oder Physiotherapeuten könnten die Technik nutzen, um zum Beispiel bei den Belegschaften von Unternehmen Rückenproblemen vorzubeugen oder Arbeitsabläufe zu optimieren.“

Um ihre Technologie besser zu vermarkten, haben die Informatiker um Hasler und Stoll im vergangenen Juni die Firma „The Captury“ gegründet. Derzeit bearbeiten sie schon erste Anfragen von Unternehmen aus der Industrie. Mit ihrem Verfahren haben die Forscher im vergangenen Jahr zudem den mit 30.000 Euro dotierten Hauptpreis im Gründerwettbewerb IKT gewonnen. Der Wettbewerb wird jährlich vom Bundesministerium für Wirtschaft und Energie ausgeschrieben.

Wie funktioniert das Ganze? Die Informatiker nutzen für ihre Verfahren recht preiswerte Technik. Acht kleine Videokameras (je 3 cm breit, hoch und tief) sind notwendig. Mit Hilfe ihrer Software erstellen sie ein 3D-Modell des zu erfassenden Darstellers aus einem Bewegungsskelett mit 58 Gelenken. Um die Bewegungen zu erfassen, arbeitet das Rechenverfahren kontinuierlich darauf hin, dass sich das zweidimensionale Bild aus der Videokamera und das 3D-Modell möglichst passgenau überlagern. Die dazu notwendigen Vergleiche können die Saarbrücker auf mathematischem Wege sehr effizient und schnell lösen. Auf diese Weise erfassen sie die gefilmte Bewegung und stellen sie innerhalb weniger Millisekunden als virtuelle Figur dar.