Finansiering
Mirelo 筹集 4100 万美元种子轮融资,为视频、游戏及其他领域带来 AI 生成音敕

总部位于柏林的 Mirelo 已筹集了 4100 万美元的种子轮融资,旨在解决生成式媒体领域一个长期存在的盲点:声音。本轮融资由 Indeks Ventures Og Andreessen Horowitz 共同领投,Atlantic.vc Og TriplePoint Capital, 参与投资,这突显出投资者日益增长的信心,即音频是 AI 驱动创造力的下一个主要前沿领域。
虽然人工智能已经迅速改变了文本、图像和视频的生产方式,但音频领域却一直滞后。音乐、音效和环境音的制作仍然需要大量人力,尽管它们对内容的感知方式有着巨大影响,却往往在创作过程的后期才被添加。Mirelo 的雄心是通过让高质量、能引起情感共鸣的声音像视觉效果一样易于生成,来改变这一现状。
为何声音领域发展滞后
声音在塑造情感、张力和氛围方面具有独特的能力。一段无声视频,无论视觉效果多么震撼,都很少让人感觉完整。然而,对于大多数创作者来说,添加音频仍然意味着在素材库中搜索、手动对齐音效,并在时间线上反复调整,直到一切感觉合适。
随着视频创作的加速,这种不匹配变得更加明显。AI 生成的视觉效果、短形式的社交媒体内容以及自适应的游戏环境,其发展速度都超过了传统音频工作流程所能支持的范围。结果是,创作者在视觉上的想象力与他们实际能在声音上实现的效果之间,差距越来越大。
Mirelo 的创始人认为,这种差距不是创造力的局限,而是工具的局限。
为音频构建基础模型
Mirelo 成立于 2023 年,已开发出专门针对视频声音的自有基础模型。该公司没有重新利用大型语言模型或基于图像的系统,而是从一开始就专注于音频。用户可以上传一段视频,并在几秒钟内获得与动作、时机和屏幕事件同步的音效。
这种方法在内容动态变化的环境中尤其适用。AI 生成的视频、个性化的社交信息流和现代视频游戏都能从能够实时适应的音频中受益。Mirelo 的系统生成声音的速度快于实时,使其能够跟上即时变化的体验。
该公司最近发布了 Mirelo SFX v1.5,这是一个视频到音效的模型,可通过其自助 API 和网络应用程序 Mirelo Studio 使用。据该公司称,其模型是轻量级的,与典型的大型语言模型相比,所需的计算量显著减少,同时在外部评估中提供了具有竞争力或更优的音频质量。
音乐家是技术的核心
Mirelo 的一个显著特点是其创始团队。首席执行官 CJ Simon-Gabriel 和首席技术官 Florian Wenzel 既是成就斐然的音乐家,也是经验丰富的 AI 研究员。Simon-Gabriel 拥有马克斯·普朗克研究所的机器学习和因果推断博士学位,并在苏黎世联邦理工学院完成了博士后研究。Wenzel 在柏林洪堡大学获得了深度学习博士学位,此前曾在 Google Brain 担任研究员。
音乐一直是他们两人生活中一条持续的平行线。Simon-Gabriel 接受过钢琴、管风琴和作曲训练,并曾公开表示几乎要专业从事音乐事业。Wenzel 则继续弹奏电吉他并制作电子音乐,作为柏林一支乐队的成员。
这种双重背景塑造了 Mirelo 的文化和技术方向。该团队没有将声音视为次要输出,而是将其视为一种主要的创作媒介,在这个媒介中,数学精度和富有表现力的细微差别必须共存。
AI 生成声音的未来
Mirelo 的长期抱负远不止于简单的自动化。该公司将其技术视为消除创意工作中摩擦的一种方式,处理同步和时机等任务,以便艺术家和声音设计师能够专注于表达和叙事。
随着视觉内容变得更加个性化和互动化,音频也需要随之发展。适应玩家行为的游戏、按需生成的视频以及沉浸式虚拟环境,都需要能够动态响应而非预先固定的声音。
展望未来,像 Mirelo 这样的技术可能会重新定义声音的创作、共享和体验方式。音频可能不再是静态的音轨,而成为视觉媒体的一个活生生的组成部分,实时生成以匹配情境、情感和意图。在那样的未来,声音不再是事后才考虑的事情,而是直接编织进视频、游戏、电影和新兴数字世界叙事方式中的一个不可或缺的层次。












