Skywork stellt SkyReels-V2 vor: Open-Source-KI-Videomodell für unbegrenzte Videolängen
In Kürze Das Open-Source-KI-Videomodell SkyReels-V2 von Skywork ermöglicht die Generierung von Videos unbegrenzter Länge über einen Browser und unterstützt verschiedene Anwendungen wie die Erstellung von Geschichten und die Videosynthese mehrerer Themen.
Plattform, die auf KI-Arbeitsplatzagenten spezialisiert ist, Himmelsarbeit gab bekannt, dass sein KI-Videoerstellungstool Skyreels hat SkyReels-V2 vorgestellt, ein Open-Source-KI-Videomodell, das kostenlos Videos unbegrenzter Länge direkt aus einem Webbrowser generieren kann. Die Gewichte und der Inferenzcode des Modells sind jetzt öffentlich auf GitHub verfügbar. SkyReels-V2 verwendet ein Diffusion-Forcing-Framework, das multimodale Large Language Models (MLLM), mehrstufiges Vortraining, Reinforcement Learning und Diffusion-Forcing-Techniken integriert, um die Leistung umfassend zu optimieren. Dieses Modell unterstützt eine Vielzahl praktischer Anwendungen, darunter Story-Generierung, Bild-zu-Video-Synthese, Kameraführung und die Erstellung konsistenter Videos mit mehreren Motiven durch das Skyreels-A2-System.
Das Diffusion Forcing Framework ermöglicht die Generierung von Videos mit unbegrenzter Dauer. SkyReels-V2 unterstützt sowohl Text-zu-Video- (T2V) als auch Bild-zu-Video- (I2V) Generierungsaufgaben und kann Inferenzen sowohl synchron als auch asynchron ausführen. Beispielskripte zur Demonstration der Generierung langer Videos sind verfügbar.
Eine wichtige Komponente von SkyReels-V2 ist SkyCaptioner-V1, ein Video-Untertitelungsmodell zur Datenannotation. Dieses Modell wird anhand der Untertitelergebnisse des Basismodells Qwen2.5-VL-72B-Instruct und zusätzlicher Sub-Experten-Untertiteler trainiert. Dabei wird ein sorgfältig kuratierter Datensatz von rund zwei Millionen ausgewogenen Videos verwendet, um die Qualität der Annotation und die konzeptionelle Ausgewogenheit sicherzustellen.
SkyCaptioner-V1 basiert auf der Qwen2.5-VL-7B-Instruct-Grundlage und ist für eine verbesserte domänenspezifische Videountertitelungsleistung optimiert. Auswertungen anhand eines Testsatzes von 1,000 Beispielen zeigen, dass SkyCaptioner-V1 eine höhere durchschnittliche Genauigkeit als modernste Basismodelle erreicht und insbesondere in aufnahmebezogenen Bereichen hervorragende Ergebnisse liefert.
Aufbauend auf früheren Erfolgen mit großen Sprachmodellen konzentrierten sich die Entwickler auf die Verbesserung der generativen Videoqualität durch bestärkendes Lernen und gingen dabei auf festgestellte Einschränkungen ein, wie etwa Schwierigkeiten mit großen, verformbaren Bewegungen und gelegentlichen physikalischen Inkonsistenzen in generierten Videos.
Zur Leistungssteigerung wurden zwei aufeinanderfolgende Phasen der überwachten Feinabstimmung (SFT) mit Auflösungen von 540p bzw. 720p implementiert. Die erste SFT-Phase erfolgte unmittelbar nach dem Vortraining und vor der Phase des bestärkenden Lernens. Diese erste SFT-Phase dient als konzeptioneller Gleichgewichtstrainer. Sie verfeinert die Ergebnisse des Vortrainings des Basismodells, das nur Videodaten mit 24 Bildern pro Sekunde (fps) verwendete, und vereinfacht die Architektur durch das Entfernen eingebetteter FPS-Komponenten.
Was ist SkyReels?
SkyReels ist eine Videoerstellungsplattform mit künstlicher Intelligenz, die es Nutzern ermöglicht, Kurzfilme, Animationen und Videos durch die Kombination von Textansagen, Bildern und Audioeingaben zu erstellen. Die Plattform bietet eine breite Palette an Funktionen, darunter KI-generierte Charaktere, Storyboard-Tools, Lippensynchronisationsfunktionen, Musikkomposition und Videobearbeitung, die alle den Prozess der Inhaltserstellung optimieren. Sie umfasst außerdem fortschrittliche KI-Modelle wie SkyReels-V1 und SkyReels-V2.
SkyReels-V1 ist ein Open-Source-Video-Grundmodell, das sich auf die menschenzentrierte Videoproduktion für kurze Dramen konzentriert und sowohl Text-zu-Video und Bild-zu-Video-Generierung, während subtile Gesichtsausdrücke präzise wiedergegeben und Bilder in Kinoqualität geliefert werden.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
Das könnte Ihnen auch gefallen
Ondo erweitert tokenisierte Staatsanleihen auf das XRP Ledger und ermöglicht OUSG-Prägung sowie -Einlösungen über Ripples RLUSD-Stablecoin
Kurzübersicht Die DeFi-Plattform Ondo Finance hat das XRP Ledger als unterstütztes Netzwerk für ihr On-Chain-Produkt mit US-Staatsanleihen hinzugefügt. Am Dienstag brachte auch Guggenheim Treasury Services sein tokenisiertes Commercial Paper auf der von XRP betriebenen Blockchain heraus.

Sygnum warnt: Wachsende Bestände von Unternehmen wie MicroStrategy könnten Bitcoin für Zentralbankreserven „ungeeignet“ machen
Laut Sygnum häufen strategieorientierte Bitcoin-Akquisitionsunternehmen durch den Einsatz von Hebelwirkung überdimensionierte BTC-Bestände an und untergraben damit die Eignung von Bitcoin als Reservevermögenswert für Zentralbanken. Diese Strategien verzerren Liquidität und Marktstimmung und stellen langfristige Risiken für die Stabilität von Bitcoin sowie für dessen breitere Akzeptanz bei institutionellen Investoren dar, so die regulierte Digitalbank.

Bitcoin bleibt stabil, während die US-Inflation nachlässt und Trump ein China-Handelsabkommen sowie eine Fed-Zinssenkung ankündigt
Kurzübersicht: Bitcoin und US-Aktien stabilisierten sich, nachdem die neuesten Verbraucherpreisindex-Daten erneut die Erwartungen übertrafen. Einige Analysten erklärten, dass diese Nachrichten kurzfristig keinen Einfluss auf die Kryptomärkte hätten, während andere argumentierten, dass der Inflationstrend die US-Notenbank zu einem Politikwechsel bewegen und die Zuflüsse in Bitcoin-ETFs in den kommenden Monaten „massiv ankurbeln“ könnte.

Nasdaq beantragt bei der SEC die Zulassung von 21Shares SUI ETF

Im Trend
MehrKrypto Preise
Mehr








