Heinrich-Hertz-Gastprofessur

  • Tagungsort:

    KIT Campus Süd, Tulla-Hörsaal

  • Datum:

    Dienstag, 22. Oktober 2024

  • Zeit:

    17:00 Uhr

 

Das Karlsruher Institut für Technologie verleiht, zusammen mit der KIT Freundeskreis und Fördergesellschaft e.V., in 2024 wieder die Heinrich-Hertz-Gastprofessur. Sie geht diesmal an Frau Dr. Cordelia Schmid, Forschungsdirektorin am Institut National de Recherche en Informatique et en Automatique (INRIA) in Frankreich. Die Verleihung findet im Rahmen eines Festvortrags am

Dienstag, den 22. Oktober 2024, um 17.00 Uhr,

im Johann-Gottfried-Tulla-Hörsaal (Campus Süd, Geb. 11.40, Englerstraße 11, 76131 Karlsruhe)

statt.

Hier geht es zur Anmeldung.

Vortrag

Im Vortrag werden Fortschritte beim Lernen aus großen multimodalen Video-Datenströmen vorgestellt. Konkret wird ein effizientes Modell zur dichten Video-Datenerfassung erläutert, das als Eingabe Videodaten und Sprache verwendet und sowohl zeitliche Ereignisse als auch Textbeschreibungen gleichzeitig vorhersagen kann. Anschließend wird eine Methode zur Beantwortung von Fragen zu Video-Daten und Bildsequenzen vorgestellt, die auf einem durch Suchaufrufe erweiterten visuellen Sprachmodell basiert. Das System lernt, umfangreiches Weltwissen zu kodieren und abzurufen, um wissensintensive Abfragen zu beantworten. Dieser Ansatz erzielt effektive Ergebnisse bei der Beantwortung visueller Eindrücke und Fragen sowie der Bilduntertitelung.

Im zweiten Teil des Vortrags werden Arbeiten zur Unterstützung visuell geführter Navigation und Robotermanipulation anhand von Sprachanweisungen vorgestellt. Erweiterte Vision-Language-Transformer, die Handlungshistorien integrieren und Aktionen vorhersagen, kommen zum Einsatz. Der History Aware Multimodal Transformer (HAMT) übertrifft den Stand der Technik bei verschiedenen Benchmarks für Bild-Sprache-Navigation. Weitere Verbesserungen lassen sich durch Integration von Karteninformationen erreichen. Am Beispiel eines Roboters wird die Objekt-Zielnavigation in realen Umweltszenarien demonstriert. Abschließend wird gezeigt, dass Transformerbasierte Ansätze auch zur Unterstützung Roboter-basierter Handhabungen effektiv sind, insbesondere durch visuelle 3D-Darstellungen. Ein UR5-Roboter-Arm zeigt die hohe Performanz bei konkreten Anwendungen.

Biografie

Dr. Cordelia Schmid ist eine deutsche Informatikerin. Sie erzielte bedeutende Fortschritte im Bereich der künstlichen Intelligenz, speziell im Bereich „sehender“ Maschinen und der Erkennung von Mustern, Gesichtern und Handlungen in Fotos und Videos. Sie studierte Informatik an der damaligen Universität Karlsruhe und promovierte in Informatik am Institut National Polytechnique de Grenoble (INPG). Ihre Dissertation über „Lokale Grauwertinvarianten für Bildabgleich und -abruf“ wurde 1996 als beste Dissertation ausgezeichnet. 2001 habilitierte sie sich mit ihrer Arbeit „Vom Bildabgleich zum Lernen visueller Modelle“. Cordelia Schmid war von 1996 bis 1997 Postdoktorandin in der Robotics Research Group der Universität Oxford. Seit 1997 hat sie eine feste Forschungsstelle bei INRIA inne, wo sie Forschungsleiterin ist. Cordelia Schmid ist Mitglied der Deutschen Nationalen Akademie der Wissenschaften Leopoldina, sie ist IEEE Fellow und ELLIS Fellow. Für ihre grundlegenden Beiträge zum effektiven Maschinensehen wurde sie 2006, 2014 und 2016 mit dem Longuet-Higgins-Preis und 2018 mit dem Koenderink-Preis ausgezeichnet. Sie erhielt 2013 einen ERC Advanced Grant, 2015 den Humboldt-Forschungspreis, 2020 den Royal Society Milner Award, 2021 den PAMI Distinguished Researcher Award und 2023 den Körber European Science Award sowie den Europäischen Erfinderpreis 2024 in der Kategorie „Forschung“.