Finansowanie
Mirelo pozyskał 41 milionów dolarów w rundzie seed, aby przynieść dźwięk generowany przez AI do wideo, gier i poza

Berlińska firma Mirelo pozyskała 41 milionów dolarów w rundzie seed, aby rozwiązać jeden z najbardziej uporczywych problemów w generatywnych mediach: dźwięk. Finansowanie zostało współprowadzone przez Index Ventures i Andreessen Horowitz, z udziałem Atlantic.vc i TriplePoint Capital, co podkreśla rosnące zaufanie inwestorów, że audio jest następną dużą granicą dla kreatywności napędzanej przez AI.
Podczas gdy sztuczna inteligencja szybko przekształciła sposób produkcji tekstu, obrazów i wideo, dźwięk pozostawał w tyle. Muzyka, efekty dźwiękowe i dźwięki otoczenia nadal wymagają dużo pracy, często dodawane są późno w procesie twórczym, pomimo ich ogromnego wpływu na to, jak postrzegana jest treść. Ambicją Mirelo jest zmiana tego stanu rzeczy, czyniąc wysokiej jakości, emocjonalnie rezonujący dźwięk tak łatwy do wygenerowania, jak wizualizacje.
Dlaczego dźwięk został pozostawiony w tyle
Dźwięk ma unikalną zdolność kształtowania emocji, napięcia i atmosfery. Cichy film, niezależnie od tego, jak wizualnie imponujący, rzadko wydaje się kompletny. Jednak dla większości twórców dodawanie audio nadal oznacza przeszukiwanie bibliotek stockowych, ręczne dopasowywanie efektów dźwiękowych i iterowanie przez osie czasu, aż wszystko będzie wyglądało dobrze.
Ten brak dopasowania stał się bardziej widoczny, gdy tworzenie wideo przyspiesza. Wizualizacje generowane przez AI, krótkie treści w mediach społecznościowych i środowiska gier dostosowujące się do zachowania gracza poruszają się szybciej niż tradycyjne przepływy pracy audio. Wynikiem jest rosnąca luka między tym, co twórcy mogą sobie wyobrazić wizualnie, a tym, co mogą realistycznie wykonać dźwiękowo.
Założyciele Mirelo widzieli tę lukę nie jako ograniczenie kreatywności, ale jako ograniczenie narzędzi.
Budowanie modeli podstawowych dla audio
Założona w 2023 roku Mirelo opracowała własne modele podstawowe zaprojektowane specjalnie dla dźwięku w wideo. Zamiast ponownego wykorzystania dużych modeli językowych lub systemów opartych na obrazach, firma skupiła się na dźwięku od podstaw. Użytkownik może przesłać wideo i w ciągu kilku sekund otrzymać zsynchronizowane efekty dźwiękowe, które reagują na ruch, czas i zdarzenia na ekranie.
Ten podejście jest szczególnie istotne w środowiskach, w których treść jest dynamiczna. Wideo generowane przez AI, spersonalizowane kanały społecznościowe i nowoczesne gry wideo korzystają na dźwięku, który może dostosować się w czasie rzeczywistym. System Mirelo generuje dźwięk szybciej niż w czasie rzeczywistym, co pozwala mu nadążyć za doświadczeniami, które zmieniają się na bieżąco.
Firma niedawno wydała Mirelo SFX v1.5, model wideo-do-efektu dźwiękowego dostępny za pośrednictwem samodzielnego API i aplikacji webowej Mirelo Studio. Według firmy jej modele są lekkie, wymagają znacznie mniej obliczeń niż typowe duże modele językowe, a jednocześnie dostarczają konkurencyjną lub lepszą jakość audio w zewnętrznych ocenach.
Muzycy w centrum technologii
Jedną z cech charakterystycznych Mirelo jest jego założycielski zespół. CEO CJ Simon-Gabriel i CTO Florian Wenzel są zarówno uznanymi muzykami, jak i doświadczonymi badaczami AI. Simon-Gabriel posiada tytuł doktora w dziedzinie uczenia maszynowego i inferencji przyczynowej z Max Planck Institute i ukończył staż podoktorski na ETH Zurich. Wenzel uzyskał tytuł doktora w dziedzinie głębokiego uczenia się na Uniwersytecie Humboldta i wcześniej pracował jako badacz w Google Brain.
Muzyka była stałym wątkiem w życiu obu panów. Simon-Gabriel kształcił się w grze na pianinie, organach i kompozycji, i otwarcie mówił o tym, że prawie podjął decyzję o zostaniu muzykiem zawodowym. Wenzel nadal gra na gitarze elektrycznej i produkuje muzykę elektroniczną jako członek berlińskiej grupy.
Ten podwójny background kształtował kulturę i kierunek technologiczny Mirelo. Zamiast traktować dźwięk jako wtórny wynik, zespół podchodzi do niego jako do podstawowego medium twórczego, w którym matematyczna precyzja i wyrazista nuans muszą współistnieć.
Co dalej z dźwiękiem generowanym przez AI
Długoterminowa ambicja Mirelo sięga znacznie poza proste zautomatyzowanie. Firma widzi swoją technologię jako sposób na usunięcie tarcia z pracy twórczej, obsługując zadania takie jak synchronizacja i czas, aby artyści i projektanci dźwięku mogli skupić się na ekspresji i opowiadaniu historii.
Podczas gdy treści wizualne stają się bardziej spersonalizowane i interaktywne, dźwięk będzie musiał ewoluować wraz z nimi. Gry, które dostosowują się do zachowania gracza, wideo generowane na żądanie i immersyjne środowiska wirtualne wymagają dźwięku, który może reagować dynamicznie, a nie jest ustalony z wyprzedzeniem.
Patrząc w przyszłość, technologie takie jak Mirelo mogą przedefiniować, jak dźwięk jest tworzony, udostępniany i doświadczany. Zamiast statycznych ścieżek dźwiękowych, audio może stać się żywym składnikiem mediów wizualnych, generowanym w czasie rzeczywistym, aby dopasować się do kontekstu, emocji i intencji. W tym przyszłym świecie dźwięk nie jest już pomyślany jako coś wtórnego, ale jako integralna warstwa tkana bezpośrednio w sposób, w jaki opowiadane są historie przez wideo, gry, film i nowe światy cyfrowe.












