資金調達
Mireloが4億1千万ドルのシードラウンドを調達し、AI生成サウンドをビデオ、ゲーム、さらに先へ導入する

ベルリンを拠点とするMireloは、ジェネレーティブメディアの最も根強い盲点の1つであるサウンドを解決するために、4億1千万ドルのシードラウンドを調達しました。この資金調達は、Index VenturesとAndreessen Horowitzが共同で主導し、Atlantic.vcとTriplePoint Capitalが参加しました。これは、オーディオがAI駆動の創造性の次の主要なフロンティアであるという投資家の信頼が高まっていることを強調しています。
テキスト、画像、ビデオの生成が急速に変化している一方で、オーディオは後ろ向きです。音楽、サウンドエフェクト、環境音は、創造的なプロセスの後半に追加されることが多く、創造的なプロセスの後半に追加されます。Mireloの野心は、それを変えることです。高品質の、感情に訴えかけるサウンドを、ビジュアルと同じくらい簡単に生成できるようにすることです。
サウンドが後ろ向きになった理由
サウンドには、感情、緊張、雰囲気を形作る独自の能力があります。静かなビデオは、どれほど視覚的に印象的なものであっても、完成した感じになりません。ただし、ほとんどのクリエイターにとって、オーディオを追加することは、まだストックライブラリを検索し、サウンドエフェクトを手動で調整し、タイムラインを通してすべてが感じるまで繰り返すことを意味します。
このミスマッチは、ビデオの作成が加速するにつれてより明らかになりました。AI生成のビジュアル、ショートフォームのソーシャルコンテンツ、適応型のゲーム環境はすべて、従来のオーディオワークフローがサポートできるよりも速く進化しています。結果として、クリエイターが視覚的に想像できるものと、実際に実行できるものとの間には、拡大するギャップが生じています。
Mireloの創設者は、このギャップを創造性の限界ではなく、ツールの限界と見ました。
オーディオのための基礎モデルを構築する
2023年に設立されたMireloは、ビデオのサウンドに特化した独自の基礎モデルを開発しました。大規模な言語モデルや画像ベースのシステムを流用するのではなく、会社はオーディオから基礎を築きました。ユーザーはビデオをアップロードし、数秒以内に、動き、タイミング、画面イベントに反応する同期されたサウンドエフェクトを受け取ることができます。
このアプローチは、コンテンツがダイナミックな環境で特に重要です。AI生成のビデオ、パーソナライズされたソーシャルフィード、モダンなビデオゲームはすべて、リアルタイムで適応できるオーディオから利益を得ます。Mireloのシステムは、リアルタイムよりも速くサウンドを生成し、変更される体験を維持することができます。
会社は最近、Mirelo SFX v1.5をリリースしました。これは、ビデオからサウンドエフェクトへのモデルで、セルフサーブAPIとウェブアプリケーション、Mirelo Studioを通じて利用可能です。会社によると、そのモデルは軽量で、典型的な大規模言語モデルよりもはるかに少ないコンピューティングリソースを必要とし、外部評価では競合または優れたオーディオ品質を提供します。
ミュージシャンがテクノロジーの中心にある
Mireloの特徴の1つは、その創設チームです。CEOのCJ Simon-GabrielとCTOのFlorian Wenzelは、両方とも熟練したミュージシャンであり、経験豊富なAI研究者です。Simon-Gabrielは、マックス・プランク研究所から機械学習と因果推論の博士号を持ち、ETHチューリッヒでポスドク研究員をしました。Wenzelは、フンボルト大学からディープラーニングの博士号を持ち、以前はGoogle Brainの研究者として働いていました。
音楽は、両者の人生の中で常に平行して続いてきました。Simon-Gabrielはピアノ、オルガン、作曲を学び、音楽を専門的に追求することも考えたことがあります。Wenzelは、ベルリンを拠点とするバンドでエレクトリックギターを演奏し、エレクトロニックミュージックを制作しています。
この二重の背景は、Mireloの文化と技術的な方向性を形作ってきました。サウンドを二次的な出力として扱うのではなく、チームはそれを主な創造的な媒体として扱い、数学的な精度と表現的なニュアンスが共存しなければならないと考えています。
AI生成サウンドの次のステップ
Mireloの長期的な野心は、単純な自動化を超えています。会社は、そのテクノロジーを創造的な作業から摩擦を除去する方法と見なし、同期やタイミングなどのタスクを処理し、芸術家やサウンドデザイナーが表現や物語に集中できるようにしています。
視覚的なコンテンツがよりパーソナライズされ、インタラクティブになるにつれて、オーディオもそれに合わせて進化する必要があります。プレイヤーの行動に適応するゲーム、需要に応じて生成されるビデオ、没入型バーチャル環境はすべて、固定されたものではなく、ダイナミックに応答できるサウンドが必要です。
先を見ると、Mireloのようなテクノロジーは、サウンドがどのように作成、共有、体験されるかを再定義する可能性があります。静的なサウンドトラックではなく、コンテキスト、感情、意図に合わせてリアルタイムで生成される、視覚メディアの生きたコンポーネントとしてのオーディオです。そのような未来では、サウンドは二次的なものではなく、ビデオ、ゲーム、映画、そして新しいデジタルワールドで物語が語られる方法に直接織り込まれた、不可欠なレイヤーになります。












