Kunstig intelligens
Google avduker AI-musikkmodell som lager musikk raskere enn avspilling

Se for deg dette: En musiker sitter ved datamaskinen sin, komponerer ikke note for note, men styrer en AI-samarbeidspartner gjennom en liveopptreden – forandrer sjangre, blander instrumenter og utforsker lydterritorier som eksisterer mellom etablerte musikkstiler. Dette skjer nå med Googles Magenta RealTime (RT), en åpen kildekode-modell som bringer sanntidsinteraktivitet til AI-musikkgenerering.
Magenta RT, som nettopp ble lansert, tvinger oss til å endre hvordan vi tenker på musikk generert av kunstig intelligens. I motsetning til tidligere modeller som krevde at brukerne ventet på at komplette spor skulle rendres, genererer Magenta RT musikk raskere enn den spilles av, noe som muliggjør ekte sanntidsinteraksjon. For musikkbransjen – som allerede sliter med kunstig intelligens' forstyrrende innflytelse – åpner denne teknologien dører for helt nye former for kreativt uttrykk, samtidig som den reiser dype spørsmål om forfatterskap, fremføring og fremtiden til menneskelig musikerskap.
Forstå Magenta RealTime
I kjernen er Magenta RT en autoregressiv transformatormodell med 800 millioner parametere, men det som skiller den fra andre modeller er dens tilnærming til utfordringen med sanntidsgenerering. Modellen genererer kontinuerlige musikkstrømmer i 2-sekunders segmenter, hver betinget av de foregående 10 sekundene med lydutgang og en dynamisk justerbar stilintegrering. Denne arkitekturen lar musikere manipulere stilintegreringen i sanntid, og effektivt styre det musikalske resultatet etter hvert som det utfolder seg.
Den tekniske bragden her kan ikke overvurderes. På en gratis Google Colab TPU genererer Magenta RT 2 sekunder med lyd på bare 1.25 sekunder – en sanntidsfaktor på 1.6. Denne hastigheten er muliggjort gjennom flere innovasjoner:
- Blokker autoregresjonI stedet for å generere hele spor samtidig, fungerer modellen i små, håndterbare deler som kan behandles raskt.
- SpectroStream-kodekenEn etterfølger til SoundStream som muliggjør hi-fi 48kHz stereolyd
- MusicCoCa-innebyggingerEn ny felles modell for innebygging av musikk og tekst som gir semantisk kontroll over genereringsprosessen
Det som gjør dette spesielt imponerende er at i motsetning til API-baserte løsninger eller batchorienterte generasjonsmodeller, støtter Magenta RT strømmingssyntese med en sanntidsfaktor større enn 1. Dette betyr at modellen faktisk kan komme foran avspillingen, og skape en buffer som sikrer jevn og uavbrutt musikalsk flyt.
Fra passiv generering til aktiv ytelse
Implikasjonene av sanntids AI-musikkgenerering strekker seg langt utover tekniske spesifikasjoner. Som Magenta-teamet bemerker: «Live-interaksjon krever mer av spilleren, men kan tilby mer tilbake. Den kontinuerlige persepsjons-handlingsløkken mellom mennesket og modellen gir tilgang til en kreativ flyttilstand, der opplevelsen fokuserer på gleden ved prosessen fremfor det endelige produktet.»
Dette skiftet fra passiv til aktiv engasjement adresserer en av de viktigste kritikkene mot AI-generert innhold: potensialet til å oversvømme markedet med sjelløs, masseprodusert musikk. Sanntidsmodeller «unngår naturlig nok å skape en flom av passivt innhold, fordi de iboende balanserer lytting med generering i et 1:1-forhold». Hvert øyeblikk med musikk som skapes krever et øyeblikk med menneskelig oppmerksomhet og beslutningstaking.
Tenk på mulighetene dette åpner opp for:
- Live ytelseDJ-er og elektroniske musikere kan innlemme AI som et responsivt instrument i settene sine, noe som bidrar til det voksende verktøysettet til AI-verktøy for musikere som forbedrer snarere enn å erstatte menneskelig kreativitet
- Interaktive installasjonerKunstnere kan skape miljøer der musikk responderer på publikumsbevegelser eller miljøfaktorer
- Pedagogiske verktøyElevene kan utforske musikalske konsepter gjennom umiddelbar, konkret tilbakemelding
- Spill lydsporDynamiske poengsummer som tilpasser seg spillernes handlinger i sanntid
Forstyrrelse og muligheter
Musikkbransjen står ved et veiskille. Inntektene i musikkbransjen forventes å øke med 17.2 %, delvis drevet av musikk generert av kunstig intelligens., med et globalt AI-musikkmarked verdsatt til 2.9 milliarder dollar i 2024. Likevel kommer denne veksten med betydelig bekymring fra artister og bransjefolk.
Forskning fra Goldmedia spår at musikere uten skikkelige kompensasjonssystemer kan miste opptil 27 % av inntektene sine innen 2028 ettersom AI-generert innhold vokser. Frykten er til å ta og føle på – vil AI erstatte menneskelige musikere? Vil verdien av menneskelig kreativitet bli redusert i en verden der hvem som helst kan lage profesjonell musikk?
Magenta RT tilbyr et nyansert svar på disse bekymringene. Ved å posisjonere seg som et åpen kildekode-verktøy som forbedrer snarere enn å erstatte menneskelig kreativitet, gir det en modell for hvordan AI og musikere kan sameksistere. Kravet om menneskelig innspill i sanntid sikrer at teknologien forsterker menneskelig kreativitet snarere enn å operere autonomt.
Demokratisering vs. devaluering
En av de viktigste effektene av Magenta RT er potensialet til å demokratisere musikkproduksjon. Modellen er designet for etter hvert å kjøre på forbrukermaskinvare og fungerer allerede på gratis Colab TPU-er. Denne tilgjengeligheten betyr at håpefulle musikere uten dyrt utstyr eller formell opplæring kan eksperimentere med komplekse musikalske ideer og bli med i det voksende økosystemet av AI-musikkgeneratorer som forvandler kreative arbeidsflyter.
Denne demokratiseringen kommer imidlertid med risikoer. komponisten Mark Henry Phillips bemerker i sine eksperimenter med AI-musikkgenerering, mistenker han at han «snart ikke lenger vil kunne tjene til livets opphold som musiker, ettersom selskaper begynner å bruke teknologien direkte selv». Den enkle måten AI kan generere musikk av kommersiell kvalitet på truer tradisjonelle inntektsstrømmer for profesjonelle musikere.
Likevel finnes det et annet perspektiv å vurdere. Akkurat som digital fotografering ikke eliminerte profesjonelle fotografer, men endret arbeidets natur, kan musikkgenerering med kunstig intelligens omforme snarere enn å erstatte musikalske karrierer. Nøkkelen ligger i hvordan musikere tilpasser og integrerer disse verktøyene i sin kreative prosess.
Fremveksten av sanntidsgenerering av musikk med kunstig intelligens bringer også presserende etiske spørsmål i forgrunnen. Opphavsrett, eierskap og rettferdig kompensasjon er fortsatt kontroversielle temaer. 90 % av musikere mener at kunstig intelligens-selskaper bør be om tillatelse før de bruker opphavsrettsbeskyttet musikk til opplæring, noe som fremhever spenningen mellom teknologisk innovasjon og kunstneriske rettigheter.
Magenta RTs åpen kildekode-tilnærming tilbyr én potensiell vei videre. Ved å gjøre teknologien fritt tilgjengelig og trene den på omtrent 190,000 XNUMX timer med instrumentalmusikk fra flere kilder, har Google forsøkt å unngå noen opphavsrettsproblemer samtidig som de fortsatt produserer en kapabel modell.
Modellens begrensninger gjenspeiler også etiske hensyn. Selv om Magenta RT er i stand til å generere ikke-leksikalske vokaliseringer og nynning, er den ikke betinget av tekst og vil sannsynligvis ikke generere faktiske ord. Dette designvalget bidrar til å unngå potensielle problemer med å generere upassende tekstinnhold, samtidig som verktøyet fokuserer på instrumental komposisjon.
Fremtiden for musikalsk samarbeid mellom mennesker og kunstig intelligens
Når vi står på randen av denne nye æraen innen musikkskaping, dukker det opp flere trender:
- Hybride skapermodellerVerktøy som Magenta RT er i ferd med å bli samarbeidspartnere, i stedet for å erstatte musikere. Nyere utviklinger innen taktsporingssystemer med null latens og forbedret kontrollerbarhet vise hvordan AI kan synkronisere med menneskelige utøvere i sanntid.
- Nye ytelsesparadigmerKonseptet med å «opptre» med AI åpner helt nye kunstneriske muligheter. Musikere lærer å «spille» disse systemene som instrumenter, utvikler teknikker for å lokke frem spesifikke lyder og navigere i latente musikalske rom.
- Utdanningsrevolusjonen: AI-musikkgenereringsteknologi har revolusjonert musikkutdanning, med plattformer som tilbyr interaktive opplevelser som lytter til brukernes prestasjoner og gir umiddelbar tilbakemelding.Teknisk konvergensMed innovasjoner innen nevrale lydkodeker og optimaliserte arkitekturer, verktøy som MusicFX DJ kan nå strømme 48 kHz stereolyd i produksjonskvalitet i sanntid, noe som bringer AI-generert musikk til profesjonelle kvalitetsstandarder.
Omfavn den samarbeidende fremtiden
Magenta RealTime gir et glimt inn i en fremtid der grensene mellom menneskelig og maskinell kreativitet blir stadig mer flytende. Ved å kreve menneskelig innspill i sanntid og fokusere på prosessen snarere enn bare resultatet, tilbyr den en modell for AI som forbedrer snarere enn å erstatte menneskelig kreativitet.
Teknologiens åpen kildekode-natur og tilgjengelighet på forbrukermaskinvare demokratiserer musikkskaping, mens sanntidsbegrensningene sikrer at menneskelig handlekraft forblir sentral i den kreative prosessen. Som Magenta-teamet understreker, har det å styrke menneskelig kreativitet – ikke å erstatte den – alltid vært kjernen i deres oppdrag.
For musikere, produsenter og musikkelskere er budskapet klart: musikkens fremtid ligger ikke i å velge mellom menneskelig eller kunstig intelligens-skaping, men i å utforske de enorme kreative mulighetene som oppstår når de to jobber sammen i sanntid. Magenta RT er en invitasjon til å gjenoppfinne hva musikkskaping kan være i kunstig intelligens-tidsalderen.
Etter hvert som vi beveger oss fremover, må musikkbransjen ta stilling til viktige spørsmål om rettferdig kompensasjon, opphavsrett og verdien av menneskelig kreativitet. Men hvis verktøy som Magenta RT er noen indikasjon, vil musikkens fremtid være preget av samarbeid, eksperimentering og nye uttrykksformer som vi bare så vidt har begynt å forestille oss.