Financování
Mirelo získalo 41 milionů dolarů v rámci seed kola, aby přineslo AI generovaný zvuk do videa, her a dalších médií

Berlínská společnost Mirelo získala 41 milionů dolarů v rámci seed kola, aby vyřešila jeden z nejpersistentnějších slepých míst v generativních médiích: zvuk. Financování bylo vedeno firmami Index Ventures a Andreessen Horowitz, se účastí Atlantic.vc a TriplePoint Capital, což podtrhuje rostoucí důvěru investorů, že audio je další velkou frontou pro AI-drivenou kreativitu.
Zatímco umělá inteligence rychle transformovala, jak jsou vytvářeny text, obrázky a video, audio zůstalo pozadu. Hudba, zvukové efekty a ambientní zvuky zůstávají náročné na práci, často přidávané pozdě v tvůrčím procesu, navzdory jejich značnému vlivu na to, jak je obsah vnímán. Mirelo má ambici změnit to tak, že bude vytvářet kvalitní, emocionálně rezonující zvuk tak snadno generovatelný jako vizuály.
Proč byl zvuk zanechán pozadu
Zvuk má jedinečnou schopnost tvarovat emoce, napětí a atmosféru. Tiché video, bez ohledu na to, jak vizuálně působivé, se zřídka cítí kompletní. Přesto pro většinu tvůrců přidání audio stále znamená prohledávání stock knihoven, manuální sladění zvukových efektů a iteraci přes časové osy, dokud vše nebude cítit správně.
Tento nesoulad se stal ještě více zřejmým, jak se zrychluje tvorba videa. AI-generované vizuály, krátké sociální obsahy a adaptivní herní prostředí se všechny pohybují rychleji, než tradiční audio pracovní postupy mohou podporovat. Výsledkem je rostoucí mezera mezi tím, co tvůrci mohou vizuálně představit, a tím, co mohou realisticky provést zvukově.
Mirelovi zakladatelé viděli tuto mezeru ne jako omezení kreativity, ale jako omezení nástrojů.
Stavba základních modelů pro audio
Založena v roce 2023, Mirelo vyvinulo své vlastní základové modely navržené speciálně pro zvuk ve videu. Místo opětovného použití velkých jazykových modelů nebo image-založených systémů se společnost zaměřila na audio od základů. Uživatel může nahrát video a během sekund obdržet synchronizované zvukové efekty, které reagují na pohyb, časování a události na obrazovce.
Tento přístup je zvláště relevantní v prostředích, kde je obsah dynamický. AI-generované videa, personalizované sociální kanály a moderní videohry všechny profitují z audio, které může adaptovat v reálném čase. Mireloův systém generuje zvuk rychleji než v reálném čase, což mu umožňuje držet krok s experiencemi, které se mění na letu.
Společnost nedávno vydala Mirelo SFX v1.5, video-zvukový efekt model dostupný prostřednictvím své samoobslužné API a webové aplikace, Mirelo Studio. Podle společnosti jsou její modely lehké, vyžadující podstatně méně výpočetního výkonu než typické velké jazykové modely, zatímco dodávají konkurenceschopnou nebo lepší audio kvalitu v externích hodnoceních.
Hudebníci v jádru technologie
Jedna z Mirelovy definujících charakteristik je jeho zakladatelský tým. CEO CJ Simon-Gabriel a CTO Florian Wenzel jsou oba zkušení hudebníci, stejně jako zkušení AI výzkumníci. Simon-Gabriel drží PhD v strojovém učení a kauzální inferenci z Max Planck Institute a dokončil postdoktorandskou stáž na ETH Zurich. Wenzel získal PhD v hlubokém učení z Humboldt University a dříve pracoval jako výzkumník v Google Brain.
Hudba byla konstantní paralelní nití v obou jejich životech. Simon-Gabriel se učil hrát na piano, varhany a komponovat a mluvil otevřeně o tom, že téměř sledoval kariéru v hudbě. Wenzel pokračuje ve hře na elektrickou kytaru a produkci elektronické hudby jako součást berlínské kapely.
Tato dvojí pozadí formovalo Mirelovu kulturu a technický směr. Místo toho, aby se na zvuk pohlíželo jako na sekundární výstup, tým se na něj dívá jako na primární kreativní médium, kde musí matematická přesnost a expresivní nuance koexistovat.
Co dál pro AI-generovaný zvuk
Mirelova dlouhodobá ambice sahá daleko za jednoduchou automatizaci. Společnost vidí svou technologii jako způsob, jak odstranit tření z kreativní práce, zvládnutí úkolů, jako je synchronizace a časování, aby umělci a zvukoví designéři mohli soustředit na expresi a vyprávění.
Jak se vizuální obsah stává více personalizovaným a interaktivním, audio bude muset evolucí spolu s ním. Hry, které se přizpůsobují chování hráče, videa generovaná na vyžádání a imerzivní virtuální prostředí všechny vyžadují zvuk, který může reagovat dynamicky, spíše než být pevně stanovený předem.
Pohledem do budoucna, technologie, jako je Mirelova, by mohla předefinovat, jak je zvuk vytvářen, sdílen a prožíván. Místo statických soundtracků, audio může stát se živou součástí vizuálních médií, generovaných v reálném čase, aby odpovídaly kontextu, emoci a záměru. V tomto budoucím světě, zvuk již není druhotným prvkem, ale integrovanou vrstvou přímo vtkanou do toho, jak jsou příběhy vyprávěny napříč videem, hrami, filmy a vznikajícími digitálními světy.












