sơ khai AI tạo văn bản thành nhạc: Âm thanh ổn định, MusicLM của Google và hơn thế nữa - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

AI tạo văn bản thành nhạc: Âm thanh ổn định, MusicLM của Google và hơn thế nữa

mm
cập nhật on

Âm nhạc, một loại hình nghệ thuật chạm đến tâm hồn con người, đã là người bạn đồng hành thường xuyên của tất cả chúng ta. Việc tạo ra âm nhạc bằng trí tuệ nhân tạo đã bắt đầu từ vài thập kỷ trước. Ban đầu, những nỗ lực này rất đơn giản và trực quan, với các thuật toán cơ bản tạo ra những giai điệu đơn điệu. Tuy nhiên, khi công nghệ tiến bộ, độ phức tạp và khả năng của các trình tạo nhạc AI cũng tăng theo, mở đường cho việc học sâu và Xử lý ngôn ngữ tự nhiên (NLP) đóng vai trò then chốt trong công nghệ này.

Ngày nay, các nền tảng như Spotify đang tận dụng AI để tinh chỉnh trải nghiệm nghe của người dùng. Các thuật toán học sâu này phân tích sở thích cá nhân dựa trên nhiều yếu tố âm nhạc khác nhau như nhịp độ và tâm trạng để tạo ra các đề xuất bài hát được cá nhân hóa. Họ thậm chí còn phân tích các kiểu nghe rộng hơn và lùng sục trên Internet các cuộc thảo luận liên quan đến bài hát để xây dựng hồ sơ bài hát chi tiết.

Nguồn gốc của AI trong âm nhạc: Hành trình từ sáng tác thuật toán đến mô hình hóa sáng tạo

Trong giai đoạn đầu của sự pha trộn AI trong thế giới âm nhạc, kéo dài từ những năm 1950 đến những năm 1970, trọng tâm chủ yếu là sáng tác thuật toán. Đây là phương pháp trong đó máy tính sử dụng một bộ quy tắc xác định để tạo ra âm nhạc. Sự sáng tạo đáng chú ý đầu tiên trong thời kỳ này là Illiac Suite cho tứ tấu đàn dây vào năm 1957. Nó sử dụng thuật toán Monte Carlo, một quá trình liên quan đến các số ngẫu nhiên để xác định cao độ và nhịp điệu trong giới hạn của lý thuyết âm nhạc truyền thống và xác suất thống kê.

Hình ảnh do tác giả tạo bằng Midjourney

Hình ảnh do tác giả tạo bằng Midjourney

Trong thời gian này, một người tiên phong khác, Iannis Xenakis, sử dụng các quy trình ngẫu nhiên, một khái niệm liên quan đến phân phối xác suất ngẫu nhiên, để tạo ra âm nhạc. Anh ấy sử dụng máy tính và FORTRAN ngôn ngữ để kết nối nhiều hàm xác suất, tạo ra một mẫu trong đó các biểu diễn đồ họa khác nhau tương ứng với các không gian âm thanh đa dạng.

Sự phức tạp của việc chuyển văn bản thành âm nhạc

Âm nhạc được lưu trữ ở định dạng dữ liệu phong phú và đa chiều bao gồm các yếu tố như giai điệu, hòa âm, nhịp điệu và nhịp độ, khiến nhiệm vụ dịch văn bản thành nhạc trở nên rất phức tạp. Một bài hát chuẩn được thể hiện bằng gần một triệu con số trong máy tính, một con số cao hơn đáng kể so với các dạng dữ liệu khác như hình ảnh, văn bản...

Lĩnh vực tạo âm thanh đang chứng kiến ​​những cách tiếp cận sáng tạo nhằm vượt qua những thách thức trong việc tạo ra âm thanh trung thực. Một phương pháp liên quan đến việc tạo ra một biểu đồ phổ, sau đó chuyển đổi nó thành âm thanh.

Một chiến lược khác tận dụng sự thể hiện mang tính biểu tượng của âm nhạc, như bản nhạc, có thể được các nhạc sĩ giải thích và chơi. Phương pháp này đã được số hóa thành công với các công cụ như Magenta's Máy phát điện hòa tấu buồng tạo nhạc ở định dạng MIDI, một giao thức hỗ trợ giao tiếp giữa máy tính và nhạc cụ.

Mặc dù các phương pháp tiếp cận này đã nâng cao lĩnh vực này nhưng chúng cũng có những hạn chế riêng, nhấn mạnh tính chất phức tạp của việc tạo âm thanh.

Transformermô hình tự hồi quy dựa trên và dựa trên U-Net mô hình khuếch tán, đang đi đầu trong công nghệ, tạo ra kết quả hiện đại (SOTA) trong việc tạo ra âm thanh, văn bản, âm nhạc và hơn thế nữa. Dòng GPT của OpenAI và hầu hết tất cả các LLM khác hiện được cung cấp năng lượng bởi các máy biến áp sử dụng bộ mã hóa, bộ giải mã hoặc cả hai kiến ​​trúc. Về mặt nghệ thuật/hình ảnh, MidJourney, Stability AI và DALL-E 2 đều tận dụng các khung phổ biến. Hai công nghệ cốt lõi này cũng là chìa khóa để đạt được kết quả SOTA trong lĩnh vực âm thanh. Trong bài viết này, chúng ta sẽ đi sâu vào MusicLM và Stable Audio của Google, đây là minh chứng cho khả năng vượt trội của những công nghệ này.

MusicLM của Google

MusicLM của Google đã được phát hành vào tháng 24 năm nay. MusicLM có thể tạo ra những bản nhạc có độ trung thực cao, cộng hưởng với cảm xúc chính xác được mô tả trong văn bản. Bằng cách sử dụng mô hình hóa trình tự theo trình tự phân cấp, MusicLM có khả năng chuyển đổi mô tả văn bản thành âm nhạc cộng hưởng ở tần số XNUMX kHz trong thời lượng kéo dài.

Mô hình hoạt động ở cấp độ đa chiều, không chỉ bám sát các yếu tố văn bản đầu vào mà còn thể hiện khả năng điều hòa giai điệu. Điều này có nghĩa là nó có thể lấy giai điệu ngân nga hoặc huýt sáo và biến đổi giai điệu đó theo phong cách được mô tả trong chú thích văn bản.

Thông tin kỹ thuật

MusicLM tận dụng các nguyên tắc của âm thanhLM, một khung được giới thiệu vào năm 2022 để tạo âm thanh. AudioLM tổng hợp âm thanh dưới dạng tác vụ mô hình hóa ngôn ngữ trong một không gian biểu diễn riêng biệt, sử dụng hệ thống phân cấp các đơn vị âm thanh rời rạc từ thô đến mịn, còn được gọi là mã thông báo. Cách tiếp cận này đảm bảo độ chính xác cao và sự gắn kết lâu dài trong khoảng thời gian đáng kể.

Để tạo điều kiện thuận lợi cho quá trình tạo, MusicLM mở rộng khả năng của AudioLM để kết hợp điều hòa văn bản, một kỹ thuật căn chỉnh âm thanh được tạo với các sắc thái của văn bản đầu vào. Điều này đạt được thông qua một không gian nhúng chung được tạo bằng MuLan, một mô hình văn bản-âm nhạc chung được đào tạo để chiếu âm nhạc và các mô tả văn bản tương ứng của nó gần nhau trong một không gian nhúng. Chiến lược này loại bỏ một cách hiệu quả nhu cầu về chú thích trong quá trình đào tạo, cho phép đào tạo mô hình trên kho văn bản lớn chỉ có âm thanh.

Mô hình MusicLM cũng sử dụng Dòng âm thanh làm mã thông báo âm thanh, có thể tái tạo lại âm nhạc 24 kHz ở tốc độ 6 kbps với độ trung thực ấn tượng, tận dụng lượng tử hóa vector dư (RVQ) để nén âm thanh hiệu quả và chất lượng cao.

Hình minh họa về quy trình đào tạo trước độc lập cho các mô hình nền tảng của MusicLM: SoundStream, w2v-BERT và MuLan,

Minh họa quá trình đào tạo trước của MusicLM: SoundStream, w2v-BERT và Mulan | Nguồn hình ảnh: tại đây

Hơn nữa, MusicLM còn mở rộng khả năng của mình bằng cách cho phép điều chỉnh giai điệu. Cách tiếp cận này đảm bảo rằng ngay cả một giai điệu ngân nga đơn giản cũng có thể đặt nền tảng cho trải nghiệm thính giác tuyệt vời, được tinh chỉnh theo mô tả phong cách văn bản chính xác.

Các nhà phát triển của MusicLM cũng đã có MusicCaps nguồn mở, một tập dữ liệu bao gồm các cặp văn bản-nhạc 5.5 nghìn, mỗi cặp đi kèm với các mô tả văn bản phong phú do các chuyên gia con người tạo ra. Bạn có thể kiểm tra xem nó ra ở đây: MusicCaps trên Ôm Mặt.

Bạn đã sẵn sàng tạo nhạc nền AI bằng MusicLM của Google chưa? Đây là cách để bắt đầu:

  1. Truy cập trang web MusicLM chính thức và nhấp vào “Bắt đầu”.
  2. Tham gia danh sách chờ bằng cách chọn “Đăng ký sở thích của bạn”.
  3. Đăng nhập bằng tài khoản Google của bạn.
  4. Sau khi được cấp quyền truy cập, hãy nhấp vào “Thử ngay” để bắt đầu.

Dưới đây là một số lời nhắc ví dụ mà tôi đã thử nghiệm:

“Bài hát thiền định, êm dịu và nhẹ nhàng, với sáo và guitar. Âm nhạc chậm rãi, tập trung vào việc tạo cảm giác bình yên và tĩnh lặng.”

“Jazz với saxophone”

Khi so sánh với các mô hình SOTA trước đây như Riffusion và Mubert trong một đánh giá định tính, MusicLM được ưa thích hơn các mô hình khác, với những người tham gia đánh giá cao khả năng tương thích của chú thích văn bản với các clip âm thanh dài 10 giây.

So sánh hiệu suất MusicLM

Hiệu suất MusicLM, Nguồn hình ảnh: tại đây

Độ ổn định âm thanh

Tính ổn định AI tuần trước đã giới thiệu “Âm thanh ổn định” một kiến ​​trúc mô hình khuếch tán tiềm ẩn dựa trên siêu dữ liệu văn bản cùng với thời lượng và thời gian bắt đầu của tệp âm thanh. Cách tiếp cận này giống như MusicLM của Google có quyền kiểm soát nội dung và độ dài của âm thanh được tạo, cho phép tạo các clip âm thanh có độ dài được chỉ định theo kích thước cửa sổ đào tạo.

Thông tin kỹ thuật

Âm thanh ổn định bao gồm một số thành phần bao gồm Bộ mã hóa tự động biến đổi (VAE) và mô hình khuếch tán có điều kiện dựa trên U-Net, hoạt động cùng với bộ mã hóa văn bản.

Hình minh họa thể hiện sự tích hợp của bộ mã hóa tự động biến thiên (VAE), bộ mã hóa văn bản và mô hình khuếch tán có điều kiện dựa trên U-Net

Kiến trúc âm thanh ổn định, nguồn hình ảnh: tại đây

Sản phẩm UAE tạo điều kiện cho việc tạo và đào tạo nhanh hơn bằng cách nén âm thanh nổi thành mã hóa tiềm ẩn bị mất dữ liệu, chống ồn và không thể đảo ngược, nén dữ liệu, bỏ qua nhu cầu làm việc với các mẫu âm thanh thô.

Bộ mã hóa văn bản, bắt nguồn từ một CLAP mô hình, đóng một vai trò quan trọng trong việc tìm hiểu mối quan hệ phức tạp giữa các từ và âm thanh, cung cấp cách trình bày thông tin về văn bản đầu vào được mã hóa. Điều này đạt được thông qua việc sử dụng các tính năng văn bản từ lớp áp chót của bộ mã hóa văn bản CLAP, sau đó được tích hợp vào U-Net phổ biến thông qua các lớp chú ý chéo.

Một khía cạnh quan trọng là việc kết hợp các phần nhúng thời gian, được tính toán dựa trên hai thuộc tính: giây bắt đầu của đoạn âm thanh và tổng thời lượng của tệp âm thanh gốc. Các giá trị này, được dịch thành các phần nhúng đã học riêng biệt mỗi giây, được kết hợp với các mã thông báo nhắc nhở và đưa vào các lớp chú ý chéo của U-Net, cho phép người dùng xác định độ dài tổng thể của âm thanh đầu ra.

Mô hình Âm thanh ổn định được đào tạo bằng cách sử dụng tập dữ liệu mở rộng gồm hơn 800,000 tệp âm thanh, thông qua sự hợp tác với nhà cung cấp nhạc stock AudioSparx.

Quảng cáo âm thanh ổn định

Âm thanh ổn định

Stable Audio cung cấp phiên bản miễn phí, cho phép tạo 20 thế hệ các bản nhạc có thời lượng tối đa 20 giây mỗi tháng và gói Pro $12/tháng, cho phép tạo 500 thế hệ các bản nhạc có thời lượng tối đa 90 giây.

Dưới đây là clip âm thanh tôi đã tạo bằng âm thanh ổn định.

Hình ảnh do tác giả tạo bằng Midjourney

Hình ảnh do tác giả tạo bằng Midjourney

“Điện ảnh, Nhạc phim Lượng mưa nhẹ nhàng, Môi trường xung quanh, Nhẹ nhàng, Tiếng chó sủa xa xôi, Tiếng lá xào xạc êm đềm, Gió nhẹ, 40 BPM”

Ứng dụng của những phần âm thanh được chế tác tinh xảo như vậy là vô tận. Các nhà làm phim có thể tận dụng công nghệ này để tạo ra khung cảnh âm thanh phong phú và sống động. Trong lĩnh vực thương mại, nhà quảng cáo có thể sử dụng các bản âm thanh được tùy chỉnh này. Hơn nữa, công cụ này mở ra cơ hội cho những người sáng tạo và nghệ sĩ cá nhân thử nghiệm và đổi mới, mang lại tiềm năng vô hạn để tạo ra các tác phẩm âm thanh kể chuyện, gợi lên cảm xúc và tạo ra bầu không khí có chiều sâu mà trước đây khó đạt được nếu không có ngân sách đáng kể. hoặc chuyên môn kỹ thuật.

Mẹo nhắc nhở

Tạo âm thanh hoàn hảo bằng cách sử dụng lời nhắc văn bản. Dưới đây là hướng dẫn nhanh để giúp bạn bắt đầu:

  1. Hãy chi tiết: Chỉ định thể loại, tâm trạng và nhạc cụ. Ví dụ: Điện ảnh, Miền Tây hoang dã, Bộ gõ, Căng thẳng, Khí quyển
  2. Thiết lập tâm trạng: Kết hợp các thuật ngữ âm nhạc và cảm xúc để truyền tải tâm trạng mong muốn.
  3. Lựa chọn nhạc cụ: Nâng cao tên nhạc cụ bằng các tính từ, như “Guitar vang dội” hoặc “Dàn hợp xướng mạnh mẽ”.
  4. BPM: Căn chỉnh nhịp độ phù hợp với thể loại để có âm thanh đầu ra hài hòa, chẳng hạn như “170 BPM” cho bản nhạc Trống và Bass.

Ghi chú kết thúc

Hình ảnh do tác giả tạo bằng Midjourney

Hình ảnh do tác giả tạo bằng Midjourney

Trong bài viết này, chúng tôi đã đi sâu vào âm nhạc/âm thanh do AI tạo ra, từ các tác phẩm bằng thuật toán cho đến các khung AI tạo ra phức tạp ngày nay như MusicLM và Stability Audio của Google. Những công nghệ này, tận dụng mô hình học sâu và nén SOTA, không chỉ nâng cao khả năng tạo nhạc mà còn tinh chỉnh trải nghiệm của người nghe.

Tuy nhiên, đây là một lĩnh vực không ngừng phát triển, với những rào cản như duy trì sự gắn kết lâu dài và cuộc tranh luận đang diễn ra về tính xác thực của âm nhạc do AI tạo ra đang thách thức những người tiên phong trong lĩnh vực này. Chỉ một tuần trước, dư luận xôn xao về một bài hát do AI tạo ra, truyền tải phong cách của Drake và The Weeknd, bài hát ban đầu đã gây sốt trên mạng vào đầu năm nay. Tuy nhiên, nó phải đối mặt với việc bị loại khỏi danh sách đề cử Grammy, cho thấy cuộc tranh luận đang diễn ra xung quanh tính hợp pháp của âm nhạc do AI tạo ra trong ngành (nguồn). Khi AI tiếp tục thu hẹp khoảng cách giữa âm nhạc và người nghe, nó chắc chắn đang thúc đẩy một hệ sinh thái nơi công nghệ cùng tồn tại với nghệ thuật, thúc đẩy sự đổi mới đồng thời tôn trọng truyền thống.

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.