Synchronisation von Filmen zukünftige KI generiert? Synchronsprecher wehren sich.
Hallo Community,
eben bin ich auf dieses kleine YouTube Video gestoßen:
https://www.youtube.com/shorts/GmJX8V905c0
Darin lernt Ihr die Synchronstimmen großer Schauspieler bzw. der Menschen dahinter kennen.
Sie stehen davor, arbeitslos zu werden, weil die Filmindustrie sie durch KI generierte Stimmen ersetzen möchte.
Die pikante Note dabei: die KI Stimmen wurden mit den Stimmen der Künstler, der menschlichen Synchronsprecher, trainiert.
Das scheint mir ein ganzes Business zu sein, das jetzt von KI bedroht ist.
Ich finde es gut, dass sie das Problem auf diese Weise bekannt machen. Ich weiß ehrlich gesagt nicht, wie ich ihnen helfen könnte - außer Filme, die mit KI generierter Synchronisation daherkommen, zu boykottieren.
Was könnten sie selber machen? Eine Idee von mir: Sie sind ja Teil der jeweiligen Künstler in den jeweiligen Landessprachen. Vielleicht könnten die Künstler selber sich für sie einsetzen. Ansonsten könnte ich mir vorstellen, dass ich gezielt nach Sprechaufträgen für Werbungen suchen würde, wo der Künstler im Film garantiert nicht damit verbunden sein möchte. Es dürft schwierig sein, so etwas zu unterbinden, nachdem kein Vertragsverhältnis mehr besteht. Die Stimme gehört nun mal dem Sprecher und nicht der Filmkompanie.
@goodfruit Glotzbuster zeigt Filme / Serien der 80er und gelegentlich auch 70. Synchronstimmen sind da auch ein Thema. Bastian Patewka hat einen Podcast mit alten Krimihörspielen so von 1960 bis mitte der 80er. Da geht es vorher auch um die Sprecher.
Was ich ganz ganz viel sehe sind irgendwelche Shorts und irgendwelche Filme aus den USA oder Japan die mit KI übersetzt sind und die sind - bescheiden. Das sind nicht nur Begriffe in englisch die, da deutsch KI übersetzt, falsch ausgesprochen werden. Oft auch Texte die falsch getrennt werden.
Was lese ich dann ganz oft. Leute die eine Übersetzung bemängeln. Deutschland ist ein Synchronland. Bei uns kommen sehr selten Filme in Originalsprache in die Kinos. Das ist in Skandinavien oder auch der Schweiz aber ganz normal mit Untertiteln zu arbeiten. Warum die Schweiz nicht die deutsche Syncro verwendet verstehe ich nun nicht, mag an den Verleihern liegen. Auch weiß ich nicht ob Frankreich US-Filme synchronisiert bzw. Italien um zumindest diese drei Landessprachen abzudecken.
Marlene Dietrich konnte in den USA übrigens gut erfolgreich sein, da die Ufa ihre Filme zweimal gedreht hat. Erst kam die Szene in deutsch danach in englisch da man noch nicht synchronisieren konnte. Film und Tonspur mussten gemeinsam aufgenommen werden.
Goldfinger, also Gert Froebe, musste nachsynchronisiert werden, sein englisch war nicht ohne Akzent.
Was mich nun auch gewundert hat, dass die arabische Welt nicht synchronisiert. In Betlehem habe ich im TV eine US-Serie mit arabischem Untertittel gesehen. Arabische TV Serien haben anscheinend eher eine syrische Aussprache, da dort viele produziert wurden. Den letzten Film über die Weiße Rose ( Geschwister Scholl) habe ich auf youtube gesehen. Hochgeladen hatte man eine ägyptische TV-Ausstrahlung. Deutsch mit arabischen Untertiteln.
@goodfruit Sie stehen davor, arbeitslos zu werden, weil die Filmindustrie sie durch KI generierte Stimmen ersetzen möchte.
Selbstverständlich. Synchronsprecher werden in naher Zukunft ausgestorben sein. Das ist der Anfang. Erinnerst Du Dich, kürzlich noch diskutierten wir darüber, welchen Einfluß die KI auf unser Wirtschaftssystem haben werde und ich behauptete, dass über kurz oder lang sämtliche Jobs von KI übernommen werden, was dann den Kapitalismus, wie wir ihn lieben und schätzen gelernt haben, beenden wird: wer keinen Job mehr hat, kann sich auch nix mehr kaufen... 😉
Weswegen hatten noch gleich die "Filmschaffenden" in den USA letztes/vorletztes Jahr gestreikt? Dagegen, dass ihre Jobs demnächst von KI übernommen werden. Naja, tatsächlich haben nur diejenigen von ihnen, die schon solche Jobs hatten, dafür gesorgt, dass sie noch ein paar wenige Jährchen da ein wenig mitverdienen können. On the long run werden Stimmen und Körper von Darstellern durch KI ersetzt werden. Spätestens dann, wenn man keinen Unterschied mehr erkennen kann, wäre es ja praktisch wirtschaftlicher Selbstmord, die Produktionskosten dadurch in die Höhe zu pushen, dass man unnötige Gehälter an Menschen zahlt, deren Leistung von der KI nahezu kostenfrei geliefert wird.
Der Punkt, dass nun einzelne "Künstler", anhand deren Content die KI trainiert wurden, sich echauffieren, wird ja schon seit zwei, drei Jahren diskutiert. Auch da ist m.A.n. der Zug längst abgefahren, die Prozesse, die jetzt geführt werden, gehen einzig und allein darum, dass einige wenige Künstler oder Konzerne (wie Disney, Ghibli-Studios usw.) noch ein bisserl was vom großen Kuchen abhaben wollen. Die KIs werden ja nicht etwa "entlernt" oder so.
Man sollte es so sehen: Weniger Schauspieler, die sich "nebenbei" mit Synchronsprechen was hinzuverdienen wollen, werden Katarrhe an den Stimmbändern bekommen und bei Dreharbeiten werden demnächst auch keine Kamerafrauen mehr erschossen. Alles gut.
p.s.: Witzig finde ich die dialektischen Wirrungen in der Musikindustrie. In der letzten Podcastfolge von "Wohlstand für alle" über die Kulturindustrie im Sinne Horkheimer/Adornos erwähnen Nymann und Schmidt, das Streamingdienste lieber KI-generierte Songs anbieten, weil da weniger an die "Künstler" gezahlt werden muss. Gleichzeitig aber kann wohl per KI auch Musik gehört werden, d.h. Musik wird von Spotify und anderen Plattformen runter gestreamt, aber nicht von Menschen angehört, sondern einfach nur runtergeladen, um eben Klickzahlen zu generieren, nach welchen dann ja die "Künstler" (bzw. diejenigen, die die Songs per KI haben generieren lassen) bezahlt werden. Dagegen versucht man sich seitens der Streaming-Platformen zu wehren... Spannend wird es vermutlich dann, wenn komplett KI-generierte Filme auf Neflix & Co zu sehen sein werden, die dann nicht von Menschen angeguckt werden, sondern von KI-Bots...

das Streamingdienste lieber KI-generierte Songs anbieten, weil da weniger an die "Künstler" gezahlt werden muss.
Da man sich diese KI-Musik aber auch selbst erstellen kann wüsste ich nicht, warum ich das streamen sollte. Das meiste hört sich zwar bislang sehr generisch an, aber so alle paar dutzend erzeugter Songs ist auch mal was richtig Gutes dabei.
Bisher nutze ich das aber hauptsächlich zum Sprachenlernen... ich gebe Vokabellisten oder Grammatikübungen als Text ein und lasse mir dann daraus einen Heavy-Metal song stricken, den ich mir dann im Auto anhöre.
So macht Sprachenlernen Spaß... 😎

@lucan-7 Da man sich diese KI-Musik aber auch selbst erstellen kann wüsste ich nicht, warum ich das streamen sollte.
Weil man damit Geld verdienen kann?
Das meiste hört sich zwar bislang sehr generisch an, aber so alle paar dutzend erzeugter Songs ist auch mal was richtig Gutes dabei.
Das meiste wovon? Dessen, was Du Dir per KI erzeugen lässt?
So macht Sprachenlernen Spaß... 😎
Ach komm schon...! Du lernst Kantonesisch und Kisuaheli per Heavy-Metal? Angeber! 😉 😋 😛

Weil man damit Geld verdienen kann?
Ich bezweifle irgendwie, dass da viel zu holen ist. KI produziert dutzende von songs in wenigen Sekunden... bei so einem Angebot fällt der Preis automatisch.
Was natürlich passieren wird ist eine permanente Analyse der Hörgewohnheiten der User... und entsprechend darauf zugeschnittene songs, um Hits zu produzieren.
Das meiste wovon? Dessen, was Du Dir per KI erzeugen lässt?
Ja. Ich habe damit ziemlich viel herumgespielt, und irgendwann kennt man halt das Schema. Aber ab und zu sind da schon ein paar Perlen dabei. Also songs, die ich auch gerne mal von einer echten Band hören würde.
Ach komm schon...! Du lernst Kantonesisch und Kisuaheli per Heavy-Metal? Angeber!
![]()
![]()
Zur Zeit Spanisch... und es funktioniert. Dafür muss man es allerdings wirklich SEHR oft hören.
Ich hatte ja zuerst normale Lektionen im Auto gehört. Das hat mich aber sehr abgelenkt, weil ich ja lernen wollte, und da will ich lieber kein Risiko eingehen wenn ich mich besser auf den Verkehr konzentrieren sollte.
Musik hingegen kann ich entspannt nebenbei hören. Und die Musik unterstützt das Einprägen - es dauert halt nur eine Weile. Ein Wundermittel zum Lernen ist das also auch nicht, aber zumindest ganz angenehm 😀

deren Leistung von der KI nahezu kostenfrei geliefert wird.
Nur darin liegt die Krux, KI ist nicht nahezu kostenfrei, Sabine hat letzthin ein gutes Video dazu gebracht, warum KI ein immer kleiner werden return of investment liefert. Infrastruktur und Strom kosten gutes Geld.
Spannend wird es vermutlich dann, wenn komplett KI-generierte Filme auf Neflix & Co zu sehen sein werden, die dann nicht von Menschen angeguckt werden, sondern von KI-Bots...
Spätestens dann gehen Menschen wieder ins Theater. 😉

@arcangel Infrastruktur und Strom kosten gutes Geld.
Ja. Aber Menschen in Filmen mitspielen zu lassen, kostet auch Geld. Und die brauchen dann noch Garderobe, die brauchen Bühnenbild, die brauchen Kameraleute, die brauchen einen Shuttel-Service zum Flughafen und Visagisten und Hiwis, die Butterbrötchen schmieren für die Pausen und... In die Infrastruktur, mit welcher Sounds, Bilder und Filme generiert werden, wird investiert. Sobald sie da ist - und sie ist ja in manchen Bereichen schon da (siehe KI generierte Pornografie, in dem Sektor wimmelt's ja nur so von early adapters...) kann sie genutzt werden - und wird, aus offensichtlichen ökonomischen Gründen, auch genutzt. Je fortgeschrittener die KI arbeitet, desto weniger Strom wird sie brauchen, das geht sicher nicht gegen null, aber es braucht nicht viel Phantasie, sich vorzustellen, wie übliche Game-Engines mit KI kombiniert werden.
Spätestens dann gehen Menschen wieder ins Theater. 😉
Der durchschnittliche Bürger guckt wie viele Stunden pro Woche TV?
Nein: Theater wird immer eine Luxus-Nische bleiben (es war noch nie Massenkultur, auch wenn man sich das in der Weimarer Blase um Schiller und Goethe vielleicht mal so zurechtdachte) und die Leute sind auch vor der Erfindung des Kinos oder des TV nicht sonderlich viel häufiger ins Theater gegangen.
Es geht hier um Kulturindustrie, die Synchronsprecher waren doch der Ausgangspunkt oder? Synchronsprecher gibt es nur im Rahmen der industriellen Produktion von ästhetischen Inhalten aka Unterhaltungs-Content (z.B. Filmen), die für den Massenmarkt konzipiert sind, und dieser Rahmen bestimmt die zukünftigen Fertigungsweisen.

Wenn man heutige Produktionsbudget von Filmen anschaut, dann ist man da bei mehreren Millionen und grosse Filme verschlingen gerne mal 100 Millionen zum Frühstück
Dann nimmt man Meldungen wie diese Hier wo das 'Bitte und Danke' sagen bei, ChatGPT mehrere Millionen Dollar an kosten verursacht.
Aber wir können das aktuell mal durchrechnen
Veo 2 ist derzeit noch mit hohen Kosten verbunden: ca. 50 Rappen pro Sekunde generierten Videos.
Spiderman no way Home hat 258 Millionen Dollar gekostet. Der Film dauerte 148Minuten, das sind 8880 Sekunden, das sind rund 29'000 Dollar pro Sekunde.
Also ja du hast recht das AI um Hausnummern billiger ist. Aber es gibt einen Grund, warum solche Videos nicht länger als ein paar Sekunden sind. Der benötigte Arbeitsspeicher steigt mit der Länge der Videos. Ein Film in 4k (Sora und Co arbeiten noch mit 720p), der Abendfüllen ist, ist aktuell technisch nicht umsetzbar, und da kommt eben der diminishing return of investment zum Tragen. Eine Verdoppelung der Laufzeit eines KI-Videos beutet eben nicht doppelt so viel Geld, sondern mehr. KI Modelle skalieren sehr schlecht. In absehbarer Zukunft, mit den Techniken, die wir kennen und die in der Pipeline sind, wird ein Abendfüller Film in guter Qualität nicht möglich sein.
Die grosse Frage hier ist, folgt die KI Entwicklung einem Hockeystick und ist exponentiell, oder verläuft die Entwicklung in einer S-Kurve, und aktuell deutet es darauf hin das die Entwicklung eher einer S-Kurve folgt.
Aber selbst mit dem Aktuellen stand werden Jobs und ganze Berufe verloren gehen. Diese Entwicklung lässt sich nicht umkehren.

Dann nimmt man Meldungen wie diese Hier wo das 'Bitte und Danke' sagen bei, ChatGPT mehrere Millionen Dollar an kosten verursacht.
Genau das könnte aber auch reduziert werden. Wenn die Programme lernen, wann sie viel Strom verbrauchen müssen und wann nicht kann das ganze um einiges effizienter werden.
Früher oder später werden KI-generierte Filme vorgefertigte 3-D Hintergründe und Elemente verwenden, deren Animation wenig Ressourcen verbraucht, und die KI sich dann auf die wesentlichen Elemente konzentriert.

Ja, das denke ich wird, der sehr bald kommen, Landschaften und hing ergründe, kriegt die KI schon sehr gut hin, solange sich keine Objekte durch diese Hintergründe bewegen.
Ein Szenario in dem Arbeitsprozess von KI übernommen werden anstatt 20 CGI Spezies. Und dadurch Lohn und Zeit gespart wird. Halte ich für realistischer als das ganze Filme nur noch von KI generiert werden. Die Filmindustrie wird sich verändern, der aktuelle Zustand, in dem mehrere 100 Millionen ausgegeben werden müssen, um einen hochkarätigen Film zu produzieren ist nicht nachhaltig.

Sorry, da muss ich irgendwelchen Werbe-Einstellungen zustimmen, denen ich nicht zustimmen mag. Daher kann ich da nicht lesen.
Der benötigte Arbeitsspeicher steigt mit der Länge der Videos.
Arbeitsspeicher? Sorry, ich bin da nicht so ganz drin in der Materie, aber warum sollte es ein prinzipielles Problem darstellen, einen abendfüllenden Film in einzelne Schnipsel zu unterteilen, die dann ganz normal gespeichert werden und die man später aneinanderfügt? Der "Schnitt" gehört doch zu jeder normalen Filmproduktion dazu, Dein Argument ergibt für mich so viel Sinn, als würde einst, als die ersten längeren Kinofilme produziert wurden, jemand mit dem Einwand gekommen sein, die dafür nötigen Filmstreifen würden nicht in die Aufnahmekameras passen.
In absehbarer Zukunft, mit den Techniken, die wir kennen und die in der Pipeline sind, wird ein Abendfüller Film in guter Qualität nicht möglich sein.
Was ist "absehbare Zukunft"? Und die "Techniken, die wir kennen" - wann werden die überholt sein? Und was soll das überhaupt sein: "gute Qualität"?
Du hattest als Vergleich "Spiderman - No way Home" genannt, also ein CGI-Spektakel, bei dem immer noch "echte" Schauspieler mitwirken mussten. Das Spiderman-Franchise hat aber zuletzt wesentlich bessere Filme geliefert, z.B. "Spider-Man: Into the Spider-Verse" und "Spider-Man: Across the Spider-Verse". Vollständig animierte Filme, die in allen Belangen - von wegen "gute Qualität" - die "Realvefilmungen" übertrafen.
Wenn ich mir den Wiki-Eintrag zum letzten Teilanschaue, finden sich da keine Schauspieler mehr, dafür aber eine lange Voice cast-Liste.
Man darf gespannt sein (siehe Thread-Thema), wann diese Listen verschwinden, da dann eben keine animierten Figuren mehr von Menschen synchronisiert werden brauchen.
Nun magst Du einwenden, dass animierte Filme halt nochmal was ganz anderes seien als "realistische" Filme. Aber wenn wir uns Blockbuster wie 300 anschauen (fast schon 20 Jahre alt...), in denen die Schauspieler praktisch nur noch vor Bluescreen agieren, wenn wir dann statt der Schauspieler 3D-Figuren nehmen, wie sie heutzutage in jedem Computerspiel vorkommen und denen ein paar zehntausend Polygone mehr spendieren, um ihnen dann Skins von echten oder per KI generierten Menschen / Gesichtern draufprojezieren - es ist doch nur eine Frage der Zeit, bis das zum Standard wird. Ich meine: die Pornoindustrie macht doch mit den Deepfake-Vids schon heute etwas ganz ähnliches. Ich werde jetzt hier nicht auf die entsprechenden Websites verlinken, aber ganz im Ernst: wie weit die Technologien da schon vorangeschritten sind, ist erstaunlich. Und ich bin gespannt, wie schnell da jetzt die ganze Sex-Industrie durcheinander gerät, weil bald keine "echten" DarstellerInnen mehr gebraucht werden dürften. (Und dann könnten hier im Forum nochmal die ganzen Pornografie-Threads in eine zweite Runde gehen, weil irgendwann die Argumente, dass in solchen Filmen Frauen mißbraucht werden oder man(n), wenn man(n) solche Filme konsumiere, wenigstens im Geiste des Nächsten Weib begehre, hinfällig werden könnten. 😉 )
Ach, eben sehe ich, dass Lucan-7 unten schon ganz ähnliche Argumente brachte, dann werd ich hier nicht noch weiter labern.

Arbeitsspeicher? Sorry, ich bin da nicht so ganz drin in der Materie, aber warum sollte es ein prinzipielles Problem darstellen, einen abendfüllenden Film in einzelne Schnipsel zu unterteilen, die dann ganz normal gespeichert werden und die man später aneinanderfügt? Der "Schnitt" gehört doch zu jeder normalen Filmproduktion dazu, Dein Argument ergibt für mich so viel Sinn, als würde einst, als die ersten längeren Kinofilme produziert wurden, jemand mit dem Einwand gekommen sein, die dafür nötigen Filmstreifen würden nicht in die Aufnahmekameras passen.
Das Problem liegt darin, wie heute diese Modelle funktionieren. Ein und derselbe Prompt generiert immer wieder etwas Neues, man wird nie zweimal das Gleiche bekommen. Damit eine Figur nicht ständig, das ein neues Gesicht bekommt und der Hintergrund ständig verändert, Bewegungen natürlich ablaufen und räumlich korrekt dargestellt werden, (alles Dinge, die man heute noch nicht zufriedenstellend hinbekommt, respektive ein ständiges korrektiv benötigt) braucht man riesige Mengen von Arbeitsspeicher, selbst für Szenen von nur wenigen Minuten.
Soweit ich das verstanden habe, kann man diese Einstellungen nicht einfach irgendwo speicher und dann weiter machen. Da die Modelle bei einem Neustart wieder eine neue Variante generieren. Damit ein Abendfüller Film der aus mehreren Szenen zusammengesetzt entstehen kann, müssen noch Technologien entwickelt werden, die erst theoretisch angedacht sind.
Vielleicht wird es die einmal geben, vielleicht auch nicht, denn auch hier, gilt wieder das Prinzip des immer kleiner werden return of investment.

Das Problem liegt darin, wie heute diese Modelle funktionieren. Ein und derselbe Prompt generiert immer wieder etwas Neues, man wird nie zweimal das Gleiche bekommen.
Ja, und das für das ganze Bild.
Wenn es aber gelingt, die statischen Teile, also Gebäude, Fahrzeuge etc... auf herkömmliche Weise zu animieren und die KI-Figuren gewissermaßen vor einen Bluescreen agieren zu lassen - dann wird man mit sehr viel weniger Rechenleistung auskommen.
Natürlich ist das nicht leicht, weil das programmtechnisch völlig unterschiedliche Prinzipien sind. Aber die Kombination von beidem ist auch nicht völlig unüberwindlich.

Wobei der statische Hintergrund noch der leichte Teil ist. Der KI generierte Charakter, der sich realistisch durch eine dreidimensionale Welt bewegen muss, mit glaubwürdigen Bewegungen, und physikalisch korrekt und dabei auch noch immer konsistent dargestellt wird, das ist das grosse Problem. Denn die KI hat aktuell keine Ahnung, was darauf, davor, dahinter, daneben, oder durch die Tür oder vor dem Fenster bedeutet.
Man müsste der KI beibringen, was ein dreidimensionaler Raum ist und wie man sich darin bewegt. Hier kommt das besagte Papier zum Tragen, das Sabine in einem ihrer letzten Videos angesprochen hat. So eine KI Figur muss wissen, wo sie im Raum ist, womit sie wie interagieren kann, und sie muss auf andere KI Figuren reagieren und interagieren.
Und von dieser Art von KI sind wir heute so weit weg, wie es ChatGPT von Karl Klammer ist.
Und hier spielt dann eben die Limitierung durch die Hardware eine Rolle. Mit der aktuellen Halbleiter basierten Rechentechnologie stossen wir an Grenzen. Es braucht eine ganz neue Form des Computings.

Man müsste der KI beibringen, was ein dreidimensionaler Raum ist und wie man sich darin bewegt. Hier kommt das besagte Papier zum Tragen, das Sabine in einem ihrer letzten Videos angesprochen hat. So eine KI Figur muss wissen, wo sie im Raum ist, womit sie wie interagieren kann, und sie muss auf andere KI Figuren reagieren und interagieren.
Ja, es sind halt verschiedene Prinzipien. Aber ich sehe da kein unüberwindliches Hindernis. Ein Programm, das beides miteinander verknüpft, kann ja etwas völlig neues sein. Es muss nur die Figuren und ihre Position im Raum erkennen, um sie sinnvoll in ein Szenario einzufügen.

na ja wenn das so einfach ist dann kommt morgen sicher der erste KI Film raus.
Da sich damit Geld verdienen lässt gehe ich davon aus, dass das ziemlich bald kommen wird. Im Moment wird wohl noch hauptsächlich an der KI selbst gefeilt, aber irgendwann steht halt auch die Kostenfrage im Raum. Und dann werden mit ziemlicher Sicherheit verschiedene Techniken miteinander verknüpft.
Die pikante Note dabei: die KI Stimmen wurden mit den Stimmen der Künstler, der menschlichen Synchronsprecher, trainiert.
Das finde ich allerdings eine verpasste Chance, warum nicht die Stimme des Künstlers nehmen. Das wäre doch wirklich mal was, Jason Statham oder Sean Beam, in perfektem Deutsch.
Man hat ja schon stunden von Audiomaterial des entsprechenden Künstlers, einfach die KI damit trainieren, dann kann einfach die entsprechende Sprache ausgewählt werden und basta.
Ich denke eher, dass in Zukunft die originale Tonaufnahmen des Films/der Schauspieler genutzt werden, um diese per KI in andere Sprachen zu übersetzen. Dann hört sich die Person in Deutschen genau so an wie im Englischen, was den Schauspieler durchaus entgegen kommen dürfte. Und dafür brauchen sie dann nur die Zustimmung der Schauspieler ohne die Rechte der heutigen Sprecher zu verletzen.
Ob sich KI Stimmen durchsetzen, mal schauen. Die KI Stimmen, die derzeit auf soziale Medien verbreitet sind, sind auf jeden Fall noch klar als KI erkennbar. Das wird sich aber in den nächsten Jahren auch ändern, vermute ich.