Trí tuệ nhân tạo
Trình tạo Âm nhạc từ Văn bản Trí tuệ nhân tạo: Stability Audio, MusicLM của Google và nhiều hơn

Âm nhạc, một hình thức nghệ thuật mà rung động với tâm hồn con người, đã là người bạn đồng hành không thể thiếu của chúng ta. Việc tạo ra âm nhạc bằng trí tuệ nhân tạo đã bắt đầu từ vài thập kỷ trước. Ban đầu, những nỗ lực này rất đơn giản và trực quan, với các thuật toán cơ bản tạo ra những bản nhạc đơn điệu. Tuy nhiên, khi công nghệ tiến bộ, sự phức tạp và khả năng của các trình tạo âm nhạc trí tuệ nhân tạo cũng tăng lên, mở đường cho học sâu và Xử lý Ngôn ngữ Tự nhiên (NLP) đóng vai trò quan trọng trong lĩnh vực này.
Ngày nay, các nền tảng như Spotify đang tận dụng trí tuệ nhân tạo để tinh chỉnh trải nghiệm nghe của người dùng. Những thuật toán học sâu này phân tích sở thích cá nhân dựa trên các yếu tố âm nhạc như nhịp độ và tâm trạng để tạo ra đề xuất bài hát được cá nhân hóa. Họ thậm chí phân tích các mẫu nghe rộng lớn hơn và tìm kiếm các cuộc thảo luận liên quan đến bài hát trên internet để xây dựng hồ sơ bài hát chi tiết.
Nguồn gốc của Trí tuệ nhân tạo trong Âm nhạc: Hành trình từ Sự kết hợp Thuật toán đến Mô hình hóa Tạo sinh
Trong giai đoạn đầu của sự kết hợp trí tuệ nhân tạo trong thế giới âm nhạc, từ những năm 1950 đến 1970, trọng tâm chủ yếu là sự kết hợp thuật toán. Đây là một phương pháp mà máy tính sử dụng một tập hợp các quy tắc được xác định để tạo ra âm nhạc. Tác phẩm đáng chú ý đầu tiên trong giai đoạn này là Illiac Suite cho Dàn nhạc dây vào năm 1957. Nó sử dụng thuật toán Monte Carlo, một quá trình liên quan đến số ngẫu nhiên để chỉ định cao độ và nhịp điệu trong khuôn khổ của lý thuyết âm nhạc truyền thống và xác suất thống kê.
Trong thời gian này, một người tiên phong khác, Iannis Xenakis, đã sử dụng các quá trình ngẫu nhiên, một khái niệm liên quan đến phân phối xác suất ngẫu nhiên, để tạo ra âm nhạc. Ông đã sử dụng máy tính và ngôn ngữ FORTRAN để kết nối nhiều hàm xác suất, tạo ra một mẫu mà các biểu diễn đồ họa khác nhau tương ứng với các không gian âm thanh đa dạng.
Sự Phức tạp của Việc Dịch Văn bản thành Âm nhạc
Âm nhạc được lưu trữ trong một định dạng dữ liệu phong phú và đa chiều bao gồm các yếu tố như giai điệu, hòa âm, nhịp điệu và tốc độ, khiến cho việc dịch văn bản thành âm nhạc trở nên phức tạp. Một bài hát tiêu chuẩn được đại diện bởi gần một triệu số trong máy tính, một con số đáng kể cao hơn so với các định dạng dữ liệu khác như hình ảnh, văn bản, v.v.
Lĩnh vực tạo âm thanh đang chứng kiến những cách tiếp cận sáng tạo để vượt qua thách thức của việc tạo ra âm thanh thực tế. Một phương pháp liên quan đến việc tạo ra một bản đồ quang phổ, và sau đó chuyển đổi nó trở lại thành âm thanh.
Một chiến lược khác tận dụng đại diện biểu tượng của âm nhạc, như bản nhạc, có thể được diễn giải và chơi bởi các nhạc sĩ. Phương pháp này đã được số hóa thành công, với các công cụ như Trình tạo Dàn nhạc Buồng của Magenta tạo ra âm nhạc ở định dạng MIDI, một giao thức cho phép giao tiếp giữa máy tính và các nhạc cụ.
Mặc dù những cách tiếp cận này đã thúc đẩy lĩnh vực này, nhưng chúng cũng đi kèm với những hạn chế riêng, nhấn mạnh tính chất phức tạp của tạo âm thanh.
Transformer-dựa trên mô hình tự hồi quy và U-Net-dựa trên mô hình khuếch tán, đang ở tiền phong của công nghệ, tạo ra kết quả tốt nhất (SOTA) trong việc tạo âm thanh, văn bản, âm nhạc và nhiều hơn. Dòng GPT của OpenAI và hầu hết các LLM khác hiện nay đều được cung cấp bởi các bộ chuyển đổi sử dụng kiến trúc mã hóa, giải mã hoặc cả hai. Về mặt nghệ thuật/hình ảnh, MidJourney, Stability AI và DALL-E 2 đều tận dụng các khuôn khổ khuếch tán. Hai công nghệ cốt lõi này đã đóng vai trò quan trọng trong việc đạt được kết quả SOTA trong lĩnh vực âm thanh.
Trong bài viết này, chúng ta sẽ tìm hiểu về MusicLM của Google và Stable Audio, những công nghệ chứng minh khả năng đáng kinh ngạc của những công nghệ này.
MusicLM của Google
MusicLM của Google được phát hành vào tháng 5 năm nay. MusicLM có thể tạo ra các bản nhạc có độ trung thực cao, những bản nhạc này rung động với cảm xúc chính xác được mô tả trong văn bản. Sử dụng mô hình trình tự-hướng-dẫn phân cấp, MusicLM có khả năng biến văn bản thành âm nhạc rung động ở 24 kHz trong thời gian dài.
Mô hình hoạt động trên nhiều cấp độ, không chỉ tuân theo các đầu vào văn bản mà còn thể hiện khả năng được điều kiện hóa trên các giai điệu. Điều này có nghĩa là nó có thể lấy một giai điệu được hát hoặc thổi và biến nó thành một phong cách được mô tả trong một chú thích văn bản.
Các Thông tin Kỹ thuật
MusicLM tận dụng các nguyên tắc của AudioLM, một khuôn khổ được giới thiệu vào năm 2022 cho việc tạo âm thanh. AudioLM tổng hợp âm thanh như một nhiệm vụ mô hình hóa ngôn ngữ trong không gian đại diện rời rạc, sử dụng một hệ thống phân cấp từ thô đến tinh của các đơn vị âm thanh rời rạc, cũng được gọi là token. Cách tiếp cận này đảm bảo độ trung thực cao và sự nhất quán trong thời gian dài trên các khoảng thời gian đáng kể.
Để tạo điều kiện cho quá trình tạo, MusicLM mở rộng khả năng của AudioLM để kết hợp điều kiện văn bản, một kỹ thuật căn chỉnh âm thanh được tạo với các sắc thái của văn bản đầu vào. Điều này được thực hiện thông qua một không gian nhúng chung được tạo bằng MuLan, một mô hình âm nhạc-văn bản chung được đào tạo để chiếu âm nhạc và các mô tả văn bản tương ứng của chúng gần nhau trong không gian nhúng. Chiến lược này hiệu quả loại bỏ nhu cầu về chú thích trong quá trình đào tạo, cho phép mô hình được đào tạo trên các tập dữ liệu âm thanh chỉ lớn.
Mô hình MusicLM cũng sử dụng SoundStream làm bộ mã hóa âm thanh, có thể tái tạo âm nhạc 24 kHz với độ trung thực ấn tượng ở 6 kbps, tận dụng vector lượng tử dư (RVQ) cho nén và giải nén âm thanh hiệu quả và chất lượng cao.

Một hình minh họa về quá trình tiền đào tạo của MusicLM: SoundStream, w2v-BERT và Mulan | Hình ảnh nguồn: đây
Hơn nữa, MusicLM mở rộng khả năng của mình bằng cách cho phép điều kiện giai điệu. Cách tiếp cận này đảm bảo rằng thậm chí một giai điệu đơn giản có thể đặt nền tảng cho một trải nghiệm âm thanh tuyệt vời, tinh chỉnh theo các mô tả phong cách văn bản chính xác.
Các nhà phát triển của MusicLM cũng đã mở nguồn MusicCaps, một tập dữ liệu bao gồm 5,5 nghìn cặp âm nhạc-văn bản, mỗi cặp đi kèm với các mô tả văn bản phong phú được tạo bởi các chuyên gia con người. Bạn có thể xem nó tại đây: MusicCaps trên Hugging Face.
Sẵn sàng tạo bản nhạc âm thanh với MusicLM của Google? Dưới đây là cách bắt đầu:
- Truy cập trang web chính thức của MusicLM và nhấp vào “Bắt đầu.”
- Đăng ký danh sách chờ bằng cách chọn “Đăng ký sự quan tâm của bạn.”
- Đăng nhập bằng tài khoản Google của bạn.
- Sau khi được cấp quyền truy cập, nhấp vào “Thử ngay” để bắt đầu.
Dưới đây là một số lời nhắc thí nghiệm mà tôi đã thử:
“Bài hát thiền, êm ái và dịu dàng, với sáo và guitar. Âm nhạc chậm, tập trung vào việc tạo ra cảm giác hòa bình và yên tĩnh.”
“jazz với saxophone”
Khi so sánh với các mô hình SOTA trước đó như Riffusion và Mubert trong một đánh giá chất lượng, MusicLM được ưa chuộng hơn so với các mô hình khác, với người tham gia đánh giá cao khả năng tương thích của chú thích văn bản với các đoạn âm thanh 10 giây.

So sánh hiệu suất của MusicLM, Hình ảnh nguồn: đây
Stability Audio
Stability AI vừa giới thiệu “Stable Audio” một kiến trúc mô hình khuếch tán tiềm ẩn được điều kiện hóa trên siêu dữ liệu văn bản cùng với thời gian và thời lượng của tệp âm thanh. Cách tiếp cận này, giống như MusicLM của Google, cho phép kiểm soát nội dung và độ dài của âm thanh được tạo, cho phép tạo ra các đoạn âm thanh với độ dài được chỉ định lên đến kích thước cửa sổ đào tạo.
Thông tin Kỹ thuật
Stable Audio bao gồm một số thành phần, bao gồm một mã hóa tự động Variational (VAE) và một mô hình khuếch tán có điều kiện dựa trên U-Net, hoạt động cùng với một mã hóa văn bản.

Kiến trúc Stable Audio, Hình ảnh nguồn: đây
VAE cho phép tạo và đào tạo nhanh hơn bằng cách nén âm thanh stereo thành một mã hóa tiềm ẩn bị mất và không thể đảo ngược, vượt qua nhu cầu làm việc với các mẫu âm thanh thô.
Mã hóa văn bản, được dẫn xuất từ mô hình CLAP, đóng vai trò quan trọng trong việc hiểu các mối quan hệ tinh tế giữa từ và âm thanh, cung cấp một biểu diễn thông tin về văn bản đầu vào được mã hóa. Điều này được thực hiện thông qua việc sử dụng các tính năng văn bản từ lớp trước cuối cùng của mã hóa văn bản CLAP, sau đó được tích hợp vào mô hình khuếch tán U-Net thông qua các lớp chú ý chéo.
Một khía cạnh quan trọng là việc kết hợp các mã hóa thời gian, được tính toán dựa trên hai thuộc tính: giây bắt đầu của đoạn âm thanh và độ dài tổng thể của tệp âm thanh gốc. Những giá trị này, được dịch thành các mã hóa rời rạc học được mỗi giây, được kết hợp với các token lời nhắc và đưa vào các lớp chú ý chéo của U-Net, cho phép người dùng chỉ định độ dài tổng thể của âm thanh đầu ra.
Mô hình Stable Audio được đào tạo bằng cách sử dụng một tập dữ liệu lớn với hơn 800.000 tệp âm thanh, thông qua sự hợp tác với nhà cung cấp âm thanh cổ phiếu AudioSparx.
Stable Audio cung cấp một phiên bản miễn phí, cho phép 20 lần tạo với độ dài lên đến 20 giây mỗi tháng, và một kế hoạch Pro với giá 12 đô la mỗi tháng, cho phép 500 lần tạo với độ dài lên đến 90 giây.
Dưới đây là một đoạn âm thanh mà tôi đã tạo bằng cách sử dụng âm thanh ổn định.
“Phim điện ảnh, Nhạc nền Mưa êm ái, Ambient, Dịu dàng, Tiếng chó sủa xa, Tiếng lá rì rào, Gió nhẹ, 40 BPM”
Các ứng dụng của những bản nhạc âm thanh được tạo ra tinh vi như vậy là vô tận. Các nhà làm phim có thể tận dụng công nghệ này để tạo ra các không gian âm thanh phong phú và hấp dẫn. Trong lĩnh vực thương mại, các nhà quảng cáo có thể sử dụng các bản nhạc âm thanh tùy chỉnh này. Hơn nữa, công cụ này mở ra những con đường cho các nhà sáng tạo và nghệ sĩ cá nhân để thử nghiệm và đổi mới, cung cấp một không gian tiềm năng vô tận để tạo ra các bản nhạc âm thanh kể chuyện, evokes cảm xúc và tạo ra các bầu không khí với một độ sâu mà trước đây khó có thể đạt được mà không cần một ngân sách lớn hoặc chuyên môn kỹ thuật.
Lời khuyên về Lời nhắc
Tạo âm thanh hoàn hảo bằng cách sử dụng lời nhắc văn bản. Dưới đây là một hướng dẫn nhanh để bắt đầu:
- Chi tiết: Chỉ định thể loại, tâm trạng và nhạc cụ. Ví dụ: Phim điện ảnh, Tây部, Trống, Căng thẳng, Ambient
- Tạo tâm trạng: Kết hợp các thuật ngữ âm nhạc và cảm xúc để truyền đạt tâm trạng mong muốn.
- Lựa chọn Nhạc cụ: Tăng cường tên nhạc cụ với tính từ, như “Guitar vang” hoặc “Dàn hợp xướng mạnh mẽ”.
- BPM: Đồng bộ hóa nhịp điệu với thể loại để có một đầu ra hòa hợp, chẳng hạn như “170 BPM” cho một bản nhạc Drum và Bass.
Lưu ý Kết thúc
Trong bài viết này, chúng ta đã khám phá âm nhạc được tạo ra bởi trí tuệ nhân tạo, từ các thành phần thuật toán đến các khuôn khổ tạo sinh trí tuệ nhân tạo tinh vi như MusicLM của Google và Stability Audio. Những công nghệ này, tận dụng học sâu và các mô hình nén SOTA, không chỉ nâng cao việc tạo âm nhạc mà còn tinh chỉnh trải nghiệm của người nghe.
Tuy nhiên, đây là một lĩnh vực đang liên tục phát triển, với những thách thức như duy trì sự nhất quán trong thời gian dài và cuộc tranh luận đang diễn ra về tính xác thực của âm nhạc được tạo ra bởi trí tuệ nhân tạo thách thức những người tiên phong trong lĩnh vực này. Chỉ một tuần trước, sự cường điệu围 quanh một bài hát được tạo ra bởi trí tuệ nhân tạo, bắt chước phong cách của Drake và The Weeknd, đã bị loại khỏi danh sách đề cử Grammy, thể hiện cuộc tranh luận đang diễn ra về tính hợp pháp của âm nhạc được tạo ra bởi trí tuệ nhân tạo trong ngành công nghiệp (nguồn).
Khi trí tuệ nhân tạo tiếp tục bắc cầu giữa âm nhạc và người nghe, nó chắc chắn đang thúc đẩy một hệ sinh thái nơi công nghệ cùng tồn tại với nghệ thuật, thúc đẩy sự đổi mới trong khi tôn trọng truyền thống.

















