AI Update: Sora & Veo – State of the Art oder einfach nur teuer?
Still und fast heimlich launcht Google ihr Videomodell Veo 2 während Sora Schlagzeilen macht und wir schauen das erstmal in Ruhe an. Michael Jonas evaluiert die neuesten AI Entwicklungen. Am 9. Dezember 2024 veröffentlichte OpenA ihr mit viel ...
Still und fast heimlich launcht Google ihr Videomodell Veo 2 während Sora Schlagzeilen macht und wir schauen das erstmal in Ruhe an. Michael Jonas evaluiert die neuesten AI Entwicklungen.
Am 9. Dezember 2024 veröffentlichte OpenA ihr mit viel Anlauf bereits im März 2024 angekündigtes Video-KI-Modell ‚Sora‘. In den Tagen darauf füllte sich das Internet mit Videos mit Titeln wie »I spent $200…so you don’t have to.« Dann legte Google mit ihrem neuen Video-KI ‚Veo 2‘ direkt am 16.12.2024 nach: ‚Veo 1‘ hat Google gar nicht veröffentlicht, Veo 2 einfach so, in VideoFX ohne viele Presse-Ankündigungen.
Aber mit der Behauptung, Veo erreiche »state-of-the-art results against leading models«. Ist das so? Und wie relevant sind die aktuellen Versionen von Sora und Veo jetzt und heute für Kreative in Deutschland?
Sora und Veo ausprobieren
Ruft man die Tools einfach im Browser auf, dann erhalten deutsche Kreative keinen Zugang: »Sora is not available in Germany yet.« Bzw. »VideoFX isn’t available in your country yet.« Weihnachten 2024 gab es für Veo noch eine Warteliste, für Sora nicht. Für beide braucht es einem VPN-Client. Damit können Kreative beide Services nutzen, nur eben nicht offiziell aus einem Mitgliedsland der EU wie z.B. Deutschland.
Mit Veo 2 auf Labs.google.fx kann jede:r Videos generieren der/die einem Google Account besitzt — und das bisher kostenlos.
Für Sora wird ein ChatGPT Plus Account benötigt. Mit den bestehenden Credits können dort die Grundfunktionen genutzt werden, einige erweiterte Funktionen jedoch nicht. Die Video-Generierung in der höchsten Auflösung von 1080p zählt dazu. Vor allem aber ist der Upload von Bildern für Keyframes eingeschränkt: Es können keine Bilder von Personen hochgeladen werden. Dies geht nur mit einem ChatGPT Pro Account – und dieser kostet die mittlerweile berühmt berüchtigten 200 $ monatlich.
Die Releases von Sora und Veo noch vor Weihnachten 2024 haben beide gleichermaßen ihre Vor- und Nachteile. Beide erscheinen noch nicht komplett fertig, aber mit deutlich verschiedenen Baustellen und Produktentwicklungen.
1. Sora: Eine Enttäuschung auf hohem Niveau
Highlights: Sora bietet eine hervorragende Bildqualität und -kohärenz und dazu umfangreiche Optionen für Text To Video + Image To Video + Video To Video. Besonders interessant sind die Funktion ‚Remix‘ und das ‚Storyboard‘: Wenn man aus dem home-screen mit Prompt auf ‚Storyboard‘ klickt, dann bekommt man sofort mehrere Szenen vorgeschlagen, die man beliebig weiter ergänzen kann.
ChatGPT kann alle Text-Prompts dabei detailliert verfeinern, was einiges an Zeit spart. Da man zu Umgebung, Charaktere und Aktionen im Storyboard beschreiben kann, wann und wie sie an einem beliebigen Zeitpunkt stattfinden sollen, kann man komplexere Abläufe in Filmsequenzen frei arrangieren — ein Level an kreativer Kontrolle das man von anderen Tools so noch nicht gesehen hat.
Einzigartig ist z.Zt. die vid2vid-Funktion ‚Remix‘. Mit ihr kann man Videos mit realistischen Bewegungen von Protagonisten und Objekten quasi als Regieanweisung für Timing und Dynamik verwenden. So kann man bestehende Videos in eine neue Welt des Storytellings transformieren (durch stärkeren Remix) oder auch nur optisch aufzupolieren und in einen einheitlichen Look bringen (mit einem subtileren Remix).
Die Schattenseiten hinter den Highlights
Bildreferenzen werden oft eher als Inspiration statt als konkreter Keyframe umgesetzt, was mehrfaches Generieren von Videosequenzen erfordert. Die Funktion ‚Recut‘ schneidet diese noch so ungenau, das es keine richtige Alternative zu einem Schnittprogramm ist. Aber Recut wird benötigt zum Entfernen und Ersetzen ungewünschter Morphings — und die erzeugt Sora häufig. Objekte die kurz verdeckt werden (z.B. bei Kamerafahrten) verschwinden oft auf nimmer wiedersehen, dafür erscheinen gerne Dinge aus dem Nichts. Unnatürliche Gestaltverwandlungen und Glitches passieren häufig.
Neben der Konsistenz von Objekts sind auch deren Bewegungen und die generelle Physik eher enttäuschend. Das liegt daran, das Open AI quasi ein »Sora.Turbo« veröffentlicht hat und nicht das große Sora-Modell, das im März 2024 als beeindruckende Preview gezeigt wurde. Einerseits werden die Videos dadurch nun angenehm schnell generiert, andererseits ist die Qualität des Bewegungen aber häufig nicht das, was man sich wünscht. Die PAGE-Community kann sich das im ausführlichen Video des PAGE-Academy-Talks mit Boris Eldagsen anschauen.
2. Veo: Ein beeindruckendes Minimal Viable Product
Das Highlight in einem Wort: Logik. Die Physik in den Videos erscheint logisch plausibel. Objekte verschwinden nicht einfach, menschliche Bewegungen wie Laufen oder Springen wirken realistisch, ebenso menschliche Mimik in Close-Up-Shots. Auch nicht 100%ig immer, daher generiert Veo ähnlich wie Midjourney stets 4 Videovarianten gleichzeitig.
In der User Experience fällt es dadurch kaum unangenehm auf, wenn eines dieser Videos doch Fehler enthält — man freut sich eher über die anderen, gelungeneren Videovarianten. Neben ‚Text To Video‘ bietet Veo als einzige Funktion z. Zt. ein sog. ‚Text To Image To Video‘ an (»Generate a scene, than add motion«).
Damit kann man auch Bilder als keyframes für Filmsequenzen verwenden. Aber sie müssen mit Imagen3 (ebenfalls Google) innerhalb der VideoFX-Website generiert werden. Ein Upload bestehender eigener Bilder fehlt bisher als Funktion.
Veo ist noch gar nicht fertig
Veo wurde aus gutem Grund als Early Access im Google Labs-Tool VideoFX veröffentlicht. Es fühlt sich noch mehr wie ein Prototyp an als die sog. Alpha-Version von Blendbox aus dem letzten KI-Update. So sind manche Einstellungen im User Interface zwar schon vorhanden, aber ausgegraut — so gibt es z.B. bisher nur eine Videoeinstellung: Alle Videos sind 720p und immer genau 8 Sekunden lang.
Veo ist bisher ein reines txt2vid-Tool. Die auswählbaren keywords (»abstract, handmade, photorealistic« usw.) sind hilfreich, aber ausführliche und gut strukturierte Text-Prompts verbessern die Qualität der Videos enorm. Diese zu schreiben braucht Zeit und ein zweites offenes Browser-Fenster mit einem LLM wie Chat-GPT oder Gemini als Prompting-Assistent. Ohne weitere Funktionen für Regieanweisungen kann nur auf gute Ergebnisse hoffen — diese bekommt man dann aber erfreulich häufig.
3. Wie relevant sind Sora und Veo?
Veo ist auf diesem Entwicklungsstand eine beeindruckende Tech-Demo und das wohl beste Text To Video-Modell, durch fehlende Funktionalitäten aber noch nicht wirklich einsatzbereit. Sora ist heute dank seiner Bildqualität herausragend als Post-Production-Werkzeug zur Veredelung anderer Videos.
Kreative, die bereits in Video-KI-Tools wie Runway, MiniMax, Kling oder LTX arbeiten (Impuls AI in Motion) bekommen mit Sora den z.Zt. besten Creative Upscaler auf 1080p mit Prompting-Möglichkeiten zu Kamera, Linse, Film, etc. Ob das jeden Monat 200 € Wert ist muß wohl jede:r Kreative mit sich selbst und dem eigenen Geldbeutel ausmachen.
In ihren Erstveröffentlichungen jetzt fühlen sich beide Tools ein wenig an wie DALL·E 2 oder Midjourney anno 2022: Nicht production-ready, aber sie wecken Vorfreude. Auf den richtigen Produkt-Release von Veo mit allen Funktionen und auf den Zugang zum großen Sora-Modell mit gesteigerter Videoqualität in diesem Jahr. Und wenn das nicht passiert, dann werden 2025 die anderen Video-KI-Anbieter versuchen, die Lücke mit besseren Modellen schneller zu schließen, als Google bei den Funktionen für Bearbeitung und Kontrolle aufholen kann.
Sora Remix: Einfaches Handyvideo als Regieanweisungen für Bewegung und Timing, den Rest macht der Prompt: „Close-up shot of s bird in its natural habitat, focusing on the bird’s head and beak. The bird has intricate plumage, its beak is covered in water droplets that are reflecting the sunlight. The bird’s eye is large and expressive, reflecting light to add a sense of life and curiosity.
The background scene is softly blurred, featuring a calm water surface with subtle ripples and floating vegetation, creating a serene and peaceful atmosphere. The lighting is soft and natural, illuminating the bird’s feathers and enhancing their texture without harsh contrasts. The composition centers tightly on the bird’s head, with a shallow depth of field.”
Alle vier Arme und Beine bleiben wo sie hingehören und bewegen sich naturalistisch. Mit Veo geänderte Videos wirken physikalisch richtig und logisch glaubhaft.
AI Update: Weitere Themen
- AI Update: Auf dem Weg zum Why. Michael Jonas kuratiert die neuesten Entwicklungen in der AI Welt – hypefrei, praxisnah und mit Blick auf die Metaebene.