Tagueri AI Technologie RadarTagueri AI Technologie Radar
Adopt

Textgesteuerte Bild- und Videodiffusionsmodelle haben in letzter Zeit einen beispiellosen Generationsrealismus erreicht. Während Diffusionsmodelle erfolgreich für die Bildbearbeitung eingesetzt wurden, ist dies für die Videobearbeitung nur in sehr wenigen Arbeiten gelungen. Wir stellen die erste diffusionsbasierte Methode vor, die eine textbasierte Bewegungs- und Erscheinungsbildbearbeitung allgemeiner Videos durchführen kann. Unser Ansatz verwendet ein Videodiffusionsmodell, um zum Zeitpunkt der Inferenz die räumlich-zeitlichen Informationen mit niedriger Auflösung aus dem Originalvideo mit neuen, hochauflösenden Informationen zu kombinieren, die es synthetisiert hat, um sie an der Leittextaufforderung auszurichten. Da für die Erzielung einer hohen Wiedergabetreue des Originalvideos die Beibehaltung einiger hochauflösender Informationen erforderlich ist, fügen wir eine Vorstufe zur Feinabstimmung des Modells am Originalvideo hinzu, wodurch die Wiedergabetreue erheblich gesteigert wird. Wir schlagen vor, die Bearbeitbarkeit von Bewegungen durch ein neues, gemischtes Ziel zu verbessern, das gemeinsam mit voller zeitlicher Aufmerksamkeit und zeitlicher Aufmerksamkeitsmaskierung eine Feinabstimmung ermöglicht. Darüber hinaus stellen wir ein neues Framework für die Bildanimation vor. Wir wandeln das Bild zunächst durch einfache Bildverarbeitungsvorgänge wie Replikation und perspektivische geometrische Projektionen in ein grobes Video um und animieren es dann mit unserem allgemeinen Videoeditor. Als weitere Anwendung können wir unsere Methode zur subjektgesteuerten Videogenerierung nutzen. Umfangreiche qualitative und numerische Experimente zeigen die bemerkenswerte Bearbeitungsfähigkeit unserer Methode und belegen ihre überlegene Leistung im Vergleich zu Basismethoden. Google Research Dremix