Wie innert einer Stunde ein KI-generierter Mundartsong enstand und was das jetzt bedeutet.

Heute am Mittagstisch mit meinen zwei Jungs spielte sich folgende Situation ab:
Kind 1 fragte seinen Bruder nach seinem Lieblingslied. Als dieser nichts sagte, fing er an, Songs aufzuzählen. Diese seien es «nöd unbedingt» lautete die Antwort stets. Und auch auf die letzte Frage, welches Lied denn nun sein liebstes sei, antwortete er wieder mit: «Nöd unbedingt». (Trotz einem Vater aus Bern redet Junior Züridütsch. Ich habe das im Song berücksichtigt).
Da dachte ich: Hey, das ist doch der Titel der perfekten Mundardschnulze, zu der man mit seiner oder seinem Liebsten engumschlungen in einem alten, romantischen Zug sitzt, während es draussen regnet. Oder so ähnlich.
Also habe ich zwischen zwei Bissen Ravioli mit Cinque-Pi-Sauce mit ChatGPT einen Songtext generiert. Prompt:
Ich möchte gerne einen Schweizerdeutschen Popsong texten. Titel muss "Nöd unbedingt" lauten. Es soll ein schweizerdeutscher Popsong mit leichtem, nachdenklichem Ton, irgendwo zwischen Mundartpop und Singer-Songwriter-Stil sein.
ChatGPT spuckte dann aus:
Popsong-Lyrics von «Nöd unbedingt«
(Strophe 1)
Es isch schön, wenn d’Sunne untergaat
Und s’Licht d’Wolke rosa färbt
Es isch schön, wenn öpper für di wartet
Aber wär wartet hüt no gärn?
(Pre-Refrain)
Es git so viel, wo me cha ha
Aber ehrlich gseit – me mues nöd, me cha
(Refrain)
Nöd unbedingt, dass alles glänzt
Nöd unbedingt, dass immer öpper tanzed
Nöd unbedingt, dass me alles immer spürt
Wichtig isch, dass s’Herz nid lüürt
Schön wär’s scho – aber
Nöd unbedingt
(Strophe 2)
Es isch schön, wenn s’Liecht vo Kerze flackert
Und im Radio läuft dis Lied
Es isch schön, wenn öpper s’gspürt,
wenn’s dr grad nöd so guet git
(Pre-Refrain)
Me träumt vo meh, me suecht no meh
Aber meh heisst nöd immer meh
(Refrain)
Nöd unbedingt, dass me gwunnet
Nöd unbedingt, dass me immer alles chunnt
Nöd unbedingt, dass d’Wält si wie im Film
Solang du luegsch, woher du chunsch
Schön wär’s scho – aber
Nöd unbedingt
(Bridge)
Mir läbe im „me sött“, im „wär doch“, im „vielléicht“
Vergässe, wie wenig’s bruuched zum Glück
E chlini Umarmig, e Wort zum richtige Zyt
Es bruucht nöd so viel – nur e Blick
(Letzter Refrain – leiser, dafür berührender)
Nöd unbedingt, dass’s immer stimmt
Nöd unbedingt, dass me nie verlürt
Nöd unbedingt, dass me immer wyt chunt
Solang me wyt luegt und öppis spürt
Schön wär’s scho – aber
Nöd unbedingt
Mir reichte das für den ersten Wurf. Natürlich hätte ich noch feintunen können, aber fürs erste hat das problemlos ausgereicht. Anschliessend wechselte ich zu suno.com und liess mir aus dem KI-generierten Text einen Mundart-Song komponieren. Das hat trotz Schweizerdeutschem Text erstaunlich gut geklappt. Hier das Ergebnis:
Der Song hat natürlich noch ein paar sprachliche Holperer drin. Doch für nur 5 Minuten Aufwand klingt das schon ganz brauchbar. Meinen zumindest meine nicht sehr musikalischen Ohren.
Was es auch im digitalen Zeitalter für jeden erfolgreichen Popsong braucht, ist ein Albumcover. Das habe ich wiederum mit ChatGPT 4o generiert. Prompt:
Ich benötige ein Albumcover für einen neuen Schweizer Mundarthit. Er heisst "nöd unbedingt". Zeigen soll sie einen verletzlichen, verträumten Mann vor einer Alpenkulisse. Der Songtitel muss auf dem Albumcover sein. Das Bild soll eine warme Stimmung vermitteln.

So – und ein Albumcover reicht natürlich noch nicht aus. Erst mit einem Musikvideo kann ein Song ein viraler Hit werden. Das ist noch tricky. Also habe ich wiederum mit ChatGPT ein Keyframe bzw. Stimmungsbild generiert. Prompt:
Ich benötige ein Keyframe, also ein Stimmungsbild, um dieses später zu animieren. Dabei soll der Mann vom Cover in einem Zug sitzen.
Dieses Bild habe ich dann mit sora.com animiert und am Schluss mit Capcut den Song und den animierten «Sänger» zusammengefügt und noch einen Filter drübergelegt. Fertig:
Das geht noch besser, ich weiss. Insbesondere was die Lippenbewegungen angeht. Aber ich hab da nicht besonders viel Zeit und Musse reinstecken wollen. Es geht mehr darum zu zeigen, was möglich wäre.
Und jetzt? Was hat das gebracht?
Natürlich ist das Ganze ein Spiel. Ein Experiment. Ein kleines kreatives Nebenprodukt eines Mittagessens mit meinen Kindern. Aber es zeigt auch: Was früher Tage, Musikerinnen, Studiozeit und viel Handwerk brauchte, passiert heute in wenigen Minuten per Klick. Die Erstellung von Songtext, Song, Albumcover, Musikvideo und dieses Blogpost (den allerdings ohne KI) schaffte ich in meiner Mittagspause.
Die Musik ist nicht in der gleichen Qualität wie wenn sie in einem Profistudio menschengemacht wird, das ist klar. Aber trotzdem ist die Qualität erstaunlich gut, finde ich. Das ist faszinierend – und gleichzeitig ein bisschen unheimlich. Denn wenn KI in wenigen Sekunden komponiert, textet und singt, stellen sich mir die Fragen: Wo bleibt der Mensch? Was bedeutet Kreativität noch, wenn sie skalierbar und reproduzierbar wird? Und reicht es künftig, gute Prompts zu schreiben, um Musik zu machen?
Ich weiss die Antworten nicht. Aber: Ich hoffe nicht, dass künftig mehrheitlich KI-generierte Musik entsteht. Aber für mich ist klar, dass künftig Spotify & Co. von KI-generierten Inhalten stark betroffen sein werden, und zwar noch mehr als dies heute schon der Fall ist.
Urheberrecht? Nein, jede:r kann sich bedienen
Keine offene Frage ist aktuell das Urheberrecht. Denn es ist klar: KI-generierte Inhalte sind nicht geschützt. Wenn also Adrian Stern irgendjemandem dieser Song gefällt, kann er oder sie sich bedienen. Das Institut für Geistiges Eigentum (IGE) ist da klar: «Wenn die kreative Leistung durch ChatGPT erbracht wird, dann stammt sie nicht von einem Menschen und ist als solche nicht urheberrechtlich geschützt.»
Ist das fair? In meinem Fall sicher. Weil ich wenig eigene Gedanken und Kreativität investiert habe. Aber ist es noch fair, wenn mehr Eigenleistung reingesteckt wird? Da bin ich mir nicht mehr so sicher. Das ist eine wichtige Debatte, die zu führen ist.
Schreiben Sie einen Kommentar