It’s the next big leap of mankind: KI in Musik- und Audiobereich

Kategorie: Deep Dive

©Foto von Marcela Laskoski auf Unsplash

It’s the next big leap of mankind: Täglich liefert der gleichnamige Spotify-Podcast die aktuellsten “Nachrichten aus dem Weltall” auf Deutsch oder Englisch für die Ohren. Verantwortlich dafür ist aber kein Produktionsteam, sondern Künstliche Intelligenz: „Wir definieren die Quellen, die Art und Weise, wie diese Quellen genutzt werden, wie Texte erstellt werden, der Rest passiert vollautomatisiert und mit KI”, beschreibt Chris Guse, Co-Founder & CEO bei der Berliner BosePark Productions GmbH, die Vorgehensweise. Die KI übernimmt in weiterer Folge alle Aufgaben für die Produktion, inklusive Musik- und Nachrichtenauswahl. Dafür durchsucht sie die relevanten, zuvor bestimmten Quellen, schreibt Texte und KI-Sprachgeneratoren wandeln diese dann in natürliche Sprache um. Nischenpodcasts wie die Weltallnachrichten, aber auch AI oder Promi-News, an denen „Menschen weltweit verstreut“ interessiert wären, wären zuvor nicht finanzierbar gewesen – weiß Guse. Erst die KI machte es möglich, dass die „Menschen, die in der Audiowelt leben, den gleichen Wissensstand haben wie diejenigen, die in der Textwelt leben“, bringt er die durch KI entstandenen Möglichkeiten auf den Punkt.

KI-Stimmen: Nicht so tun als wäre Nicht-Mensch ein Mensch

Mit eben diesen experimentiert das Team von BosePark Productions GmbH schon seit einiger Zeit „mit voller Leidenschaft und Inbrunst“ herum. Beim Suhrkamp Verlag-Podcast „Dichtung & Wahrheit, den Guse und Co. produzieren, wurde ein englischsprachiges Interview durch eine KI-Stimme auf Deutsch übersetzt. Wichtig sei immer, transparent zu machen, dass es sich dabei um eine KI Stimme handle. „So zu tun, als wäre ein Nicht-Mensch ein Mensch, das brauchen wir nicht“, teilt er eine Erfahrung dieser Experimente. Das Nachahmen von Promi-Stimmen etwa funktioniere seiner Meinung nach nicht.

Doch nicht alle technologischen Fortschritte seien so spektakulär und Headline-tauglich wie KI-Stimmen. „Wenn groß von KI gesprochen wird, ist das meiste Automation“, kennt Vorreiter Guse den Nutzen in der Praxis. Es gehe darum, „vorproduzierte Elemente zu setzen, Lautstärke zu regeln, Audioschnitt zu automatisieren“ - überall da wäre bereits KI im Spiel. Und das seiner Meinung nach auch zu gutem Recht, denn: „der Mensch ist nicht dafür gemacht, copy-paste zu machen und Audio zu konvertieren“, und hat keine Angst, dass Jobs wegfallen. Im Gegenteil: „Das soll bitte alles der Computer machen. Wir können mehr als stumpfe Tätigkeiten ausüben“, freut er sich, dass durch Kollege KI mehr Zeit für den kreativen Prozess möglich wird.

MIZ-gefördertes Projekt Audiomatika: „Menschen Mehrwert bringen“

Dass dabei völlig Neues entstehen kann, das beweist das Projekt Audiomatika: In einem „Gänsehautmoment“ bauten Guse und sein Kollege, der russische Datenwissenschafter Pavel Tyukavin einen Prototypen, der aus Text gute Audioinhalte machen kann. „Wir haben die Maschine gebaut, die sich im Keller eines Schiffs befindet“, schildert Guse die nächsten Schritte, „jetzt geht es darum, das Schiff drumherum zu bauen.“ Das „Schiff“ soll eine Web-Plattform sein, mit der Redaktionen fertige Audio-Episoden produzieren können und so „aus Texten, die es gibt, Audioinhalte, die Menschen einen Mehrwert bringen“ Zu produzieren. Damit das gelingt und die Cloud-basierte Plattform auch in der Praxis erfolgreich eingesetzt werden kann, hat das Zweierteam den „Spiegel“ und die „Lausitzer Rundschau“ als Partner gewonnen. Der Spiegel-Newsletter könnte bald nicht mehr als Textform zu einem verlässlichen Zeitpunkt veröffentlicht werden, sondern immer dann als Audio-File online gehen, wenn die Nachricht relevant ist.

Sechs Monate haben Guse und Tyukavin Zeit, dieses Schiff zu bauen - um bei der Metapher zu bleiben. So lange wird das Projekt vom MIZ - Medieninnovationszentrum Berlin-Brandenburg GmbH gefördert. „Wir können ausprobieren, ohne dass wir in der privatwirtschaftlichen Welt Profit generieren müssen“, freut sich Guse über dieses „Geschenk“. „Und wenn wir in sechs Monaten noch nichts veröffentlicht haben, können wir zumindest aus unseren Fehlern lernen.“

Dass man sich diese Zeit des Lernens in Deutschland oft nicht nimmt, sei seiner Meinung nach schade. Hierzulande stehen viele KI Entwicklungen nach wie vor skeptisch gegen über, beobachtet Guse: „In anderen Ländern begegnen mir mehr Menschen, die im leidenschaftlichen Austausch mit KI sind“, meint er, in Deutschland hingegen dominiert die Angst vor Gefahren. Während die Amerikaner bereits am Tun und Machen sind, „diskutieren wir noch, ob es sinnvoll ist damit anzufangen“, möchte er, dass die Bundesrepublik „weltoffener wird, Menschen und Ideen gegenüber“. Das gelte auch für seine Heimatstadt Berlin. Da zeige sich bereits, dass Diversität und Internationalität gerade im Bereich der Sprachentwicklung durchaus als Vorteil genutzt werden kann: Jeder mit KI-Sprachgeneratoren produzierte Text werde nämlich einem Muttersprachler zur Bewertung vorgesetzt. „In Berlin leben so viele Menschen aus so vielen Teilen der Welt. Da ist es einfach, jemanden zu finden, der koreanisch spricht“, nennt er ein Beispiel aus der Praxis, „da ist es toll, dass diese Stadt ein Ort für Menschen mit so vielen Sprachen und Regionen ist.“

ai|coustic: Sprachreproduktion mit „Wow-Effekt“

Diese Tatsache könnte in Kürze dem Team von ai|coustic zugute kommen. Nachdem sie anfänglich ihre KI mit Sprachdaten aus dem Internet gefüttert hatten, planen Gründer Corvin Jaedicke und Fabian Seipel eine eigene Datensammelkampagne an ihrem Firmensitz Berlin durchzuführen. „Wir versuchen so an Daten zu kommen, die uns ermöglichen, Modelle zu trainieren, die sehr nahe an die perfekte Sprachreproduktion kommen“, argumentiert Jaedicke. Zwar gäbe es online viele öffentlich verfügbare Datensets, dennoch handle es sich rechtlich um einen Graubereich. Durch das Sammeln eigener Daten hingegen könne nicht nur ein fairer Umgang garantiert werden, diese qualitativ hochwertigen Daten seien notwendig, um den nächsten Schritt zu wagen.

Was wir erreichen wollen ist eine Audio zu Audio-Transformation“, erklärt der Absolvent der TU Berlin, „es gibt ein Audio-Signal und irgendetwas passiert damit, dass es nicht gut klingt.“ Das könne an der lauten Umgebung liegen, das Mikrophon könnte nicht gut eingestellt sein oder das File könnte beim Komprimieren zu Schaden gekommen sein. „Die KI lernt, diese Probleme rückgängig zu machen und schafft eine Transformation von diesem schlechten Signal zu einem, das gut klingt“, fasst er die Technologie von ai|coustic zusammen und zwar nicht einfach nur „gut“: Es ist der „Wow-Effekt, den wir erreichen wollen.“

Zu verdanken haben Jaedicke und Seipel, die sich in der IT-Tochter der Deutschen Bahn kennengelernt haben, dem Zufall - oder vielmehr dem richtigen Zeitpunkt: Ursprünglich wollten die Beiden nämlich mit Unterstützung durch das EXIST-Gründerstipendium ein Unternehmen zur akustischen Überwachung von Maschinen formieren. Das war 2021. „Während Corona haben wir in Online-Kursen und -Meetings die Erfahrung gesammelt, dass Videos oft in schlechten Konditionen aufgenommen wurden - es gab hochauflösende Videos, aber das Audio-Material war deutlich schlechter“, dachte Jaedicke: Dass sie das besser können, zeigen sie bereits. 1000 Stunden Audiodateien pro Monat verarbeiten sie auf ihren Cloud basierten Angeboten bereits. Zusätzlich wird gerade geprüft, ob eine SARS Plattform für Business-Kunden interessant ist, die eine Lizenz kaufen und in ihre eigenen Systeme integrieren wollen.

Hardware für Hearing-Wellness

Auf Videocalls alleine beschränkt sich die KI von ai|coustic nämlich längst nicht: „Wir sehen verschiedene Anwendungsfälle“, meint der Gründer, „und ständig tun sich Neue auf, weil die Technologie bestimmte Sachen ermöglicht, die bisher nicht möglich waren.“ Von Podcasts über Lernplattformen von Universitäten - sie alle hätte Aufnahmen, die sie gern verbessern würden. Dazu kommt das große Feld der Hardware: „Kopfhörer und Soundbars sind Bereiche, wo die Technologie zum Einsatz kommt“, ortet Jaedicke dabei für die Zukunft großes Potenzial. Auch im TV unterstützt die KI Menschen mit Hörbeeinträchtigung dabei, etwa die Stimme zu verstärken oder die Hintergrundmusik in einem Film zur besseren Verständlichkeit zu reduzieren.

Das enorme Potenzial im Bereich Hearing-Wellness lässt die Partnerschaft mit der Berliner Firma Mimi Technologies erahnen, die schon jetzt in ihren Kopfhörern mithilfe der KI von ai|coustic Sound personalisiert und an das eigene Hörvermögen anpasst. „Gerade im Audiobereich ist hier ein starkes Ökosystem“, macht sich laut Jaedicke hier der Standort Berlin bezahlt. Viele Unternehmen wären etwa im Audio-Software-, aber auch im Audio-Hardwarebereich tätig. „Das Ökosystem und das Netzwerk derer, die in diesem Bereich arbeiten, ist hilfreich“, weiß er aus eigener Erfahrung. Genauso wie Programm wie Exist oder auch das Programm des K.I.E.Z. – Artificial Intelligence Entrepreneurship Center. Nur die Herausforderung in Deutschland Investoren zu gewinnen, stellte sich als schwierig heraus: „Mein Eindruck war, dass international die Bereitschaft höher ist, Risikoinvestitionen zu tätigen“, meint Jaedicke und gibt zu: „Hier kann das Berliner Ökosystem Anreize für Investoren bieten, das Grundproblem wird es aber nicht lösen.“ Da müssten die Start-ups selbst aktiv werden. Ai|coustic etwa nahm an einem Programm an der Universität in Oxford teil und konnte so die notwendigen Investoren finden, um bis Mai von vier auf 14 Mitarbeitende anzuwachsen. Damit wollen die Jungunternehmer den „nächsten Sprung in der Qualitätswahrnehmung von Sprache im digitalen Raum schaffen.“

Musikgeneration hinkt hinterher

Bis es auch in der Musik soweit ist, darauf werden wir noch etwas warten müssen. „Die Musikgeneration hinkt gegenüber der Sprachgeneration etwas hinterher“, ist der Eindruck von Branchenkenner Sebastian Zimmermann vom Consulting-Unternehmen und der Agentur Birds on Mars, die sich auf Daten und KI spezialisiert hat. Generell geht er davon aus, dass sich KI Erzeugnisse „in sehr naher in Nischen etablieren werden, die bisher durch Stockfotografie, Mood Stacks, Copywriting oder Clickworker abgedeckt werden“.

Noch sei zwar die „synthetische Herstellung von Audio nicht gut genug, um in Produktionen eingesetzt zu werden“, bestätigt BosePark Productions GmbH-Co-Gründer Chris Guse. Er geht künftig von einer „Mischung“ zwischen KI- und menschlich generierter Musik aus: „Ab einem gewissen Level der Produktion braucht man einfach die Erkennbarkeit der Melodie“, weist er hin. Geht es hingegen nur um „ein Dudeln im Hintergrund“, kann er sich den Einsatz von KI-Musik insbesondere in kürzeren Podcasts vorstellen. „Da haben wir den Vorteil, dass man keine Rechtsfragen klären muss“, fügt er hinzu. Außerdem wäre es günstiger.

Das sei an sich nichts Neues, meint Sebastian Zimmermann: Schon in der Vor-KI-Welt gäbe es schließlich 60 - 80 Prozent Gebrauchskultur, etablierte Genres und Produktionstechniken - „da hält uns KI den Spiegel vor“. Die kreative Leistung sieht er durch KI keineswegs abgedeckt, und auch die Kunst wäre seines Erachtens nach nicht in Gefahr: „Kunst zu erzeugen, heißt Resonanz zu erzeugen“, möchte er das Missverständnis in der Diskussion aus dem Weg räumen und bringt ein Beispiel aus der Malerei: Kunstwerk wäre nicht das bei Christies 2019 erstmals verkaufte KI generierte Bild, sondern dass sich die Künstlergruppe hingesetzt habe, sich die Geschichte rund um die KI ausgedacht und dann einen Media-Buzz geschaffen hätte. Musik wäre durch die Live-Performance ein Sonderfall: „Ich kann mir groovige Musik oder ein bestimmtes Genre von der KI generieren lassen, aber vielleicht kann ich die nach ein paar Jahren nicht mehr aushalten. Die Live-Performance hat da einen ganz anderen Wert“, ist er überzeugt, „in dem Moment entsteht diese Musik.“ Ob von KI generiert oder nicht, das ist dann nebensächlich.

Das könnte Sie auch interessieren

  • © Konstantin Gastmann, IHK Berlin

    Berlin Creative Tech Summit 2024

    Kategorie: Digitalwirtschaft

    Visionäre Ideen, innovative Lösungen, eindrucksvolle Synergien aus Technologie und Kreativität – der zweite Berlin Creative Tech Summit 2024 war ein voller Erfolg! Am 29. November 2024 verwandelte sich das Ludwig-Erhard-Haus in Berlin dafür in ein… Mehr

  • © 2023 STADT NACH ACHT © Berlin Music Commission eG © 2023 Future of Festivals GmbH

    Musik, Nacht und Zukunft – Ein innovatives Festivaltrio

    Kategorie: Musik

    In Berlin, einer Stadt, die stets auf der Suche nach Innovation und Kreativität ist, verschmelzen im November 2023 drei herausragende Veranstaltungen zu einem einzigartigen Erlebnis. Mehr