Trí tuệ nhân tạo
Google Ra Mắt Mô Hình Âm Nhạc AI Tạo Ra Âm Nhạc Nhanh Hơn Thời Gian Phát

Hãy tưởng tượng một nhạc sĩ ngồi trước máy tính của mình, không sáng tác nốt nhạc một cách thủ công, mà điều khiển một cộng tác viên AI thông qua một buổi biểu diễn trực tiếp – biến đổi thể loại, trộn lẫn các loại nhạc cụ và khám phá các vùng âm thanh nằm giữa các phong cách âm nhạc đã được thiết lập. Điều này đang xảy ra ngay bây giờ với Magenta RealTime (RT) của Google, một mô hình mã nguồn mở mang lại khả năng tương tác thời gian thực cho việc tạo ra âm nhạc bằng AI.
Đ vừa được phát hành, Magenta RT buộc chúng ta phải thay đổi cách nghĩ về âm nhạc được tạo ra bởi AI. Không giống như các mô hình trước đó yêu cầu người dùng chờ đợi cho đến khi các bản nhạc hoàn chỉnh được tạo ra, Magenta RT tạo ra âm nhạc nhanh hơn thời gian phát lại, cho phép tương tác thời gian thực thực sự. Đối với ngành công nghiệp âm nhạc – vốn đang phải đối mặt với ảnh hưởng phá vỡ của AI – công nghệ này mở ra cánh cửa cho những hình thức biểu đạt sáng tạo hoàn toàn mới trong khi đặt ra những câu hỏi sâu sắc về quyền tác giả, biểu diễn và tương lai của nhạc sĩ con người.
Hiểu về Magenta RealTime
Tại cốt lõi, Magenta RT là một mô hình biến đổi tự hồi quy 800 triệu tham số, nhưng điều làm cho nó khác biệt là cách tiếp cận thách thức của việc tạo ra âm nhạc thời gian thực. Mô hình tạo ra các luồng âm nhạc liên tục trong các khối 2 giây, mỗi khối được điều kiện dựa trên 10 giây âm thanh đầu ra trước đó và một bản nhúng phong cách động. Kiến trúc này cho phép các nhạc sĩ điều khiển bản nhúng phong cách trong thời gian thực, hiệu quả trong việc điều khiển đầu ra âm nhạc khi nó được tạo ra.
Thành tựu kỹ thuật ở đây không thể bị đánh giá thấp. Trên một máy TPU Colab miễn phí của Google, Magenta RT tạo ra 2 giây âm thanh chỉ trong 1,25 giây – một yếu tố thời gian thực của 1,6. Tốc độ này được thực hiện có thể thông qua một số đổi mới:
- Block Autoregression: Thay vì tạo ra toàn bộ bản nhạc cùng một lúc, mô hình hoạt động trong các khối nhỏ, có thể được xử lý nhanh chóng
- SpectroStream Codec: Một người kế thừa của SoundStream cho phép âm thanh stereo 48kHz chất lượng cao
- MusicCoCa Embeddings: Một mô hình nhúng âm nhạc-văn bản mới cho phép kiểm soát ngữ nghĩa trong quá trình tạo ra
Điều làm cho điều này đặc biệt ấn tượng là không giống như các giải pháp dựa trên API hoặc các mô hình tạo ra theo lô, Magenta RT hỗ trợ tổng hợp trực tuyến với yếu tố thời gian thực lớn hơn 1. Điều này có nghĩa là mô hình có thể thực sự vượt trước thời gian phát lại, tạo ra một bộ đệm đảm bảo dòng âm nhạc mượt mà, không gián đoạn.
Từ Tạo Ra Thụ Động Đến Biểu Diễn Hoạt Động
Các ý nghĩa của việc tạo ra âm nhạc AI thời gian thực mở rộng ra ngoài các thông số kỹ thuật. Như nhóm Magenta lưu ý, “Tương tác trực tiếp đòi hỏi nhiều hơn từ người chơi nhưng có thể mang lại nhiều hơn trong trả lại. Vòng lặp nhận thức-hành động liên tục giữa con người và mô hình cung cấp quyền truy cập vào trạng thái dòng chảy sáng tạo, tập trung trải nghiệm vào niềm vui của quá trình hơn là sản phẩm cuối cùng.”
Sự thay đổi này từ tham gia thụ động sang tham gia chủ động giải quyết một trong những chỉ trích chính của nội dung được tạo ra bởi AI: tiềm năng ngập lụt thị trường với âm nhạc không có hồn, được sản xuất hàng loạt. Các mô hình thời gian thực “tự nhiên tránh tạo ra một lượng lớn nội dung thụ động, vì chúng cân bằng nội tại việc nghe với việc tạo ra trong một tỷ lệ 1:1”. Mỗi khoảnh khắc âm nhạc được tạo ra đòi hỏi một khoảnh khắc chú ý và quyết định của con người.
Hãy xem xét những khả năng này mở ra:
- Biểu Diễn Trực Tiếp: Các DJ và nhạc sĩ điện tử có thể kết hợp AI như một công cụ phản hồi trong các buổi biểu diễn của họ, thêm vào bộ công cụ ngày càng tăng của công cụ AI cho nhạc sĩ mà tăng cường chứ không thay thế sự sáng tạo của con người
- Các Buổi Biểu Diễn Tương Tác: Các nghệ sĩ có thể tạo ra các môi trường trong đó âm nhạc phản ứng với chuyển động của khán giả hoặc các yếu tố môi trường
- Công Cụ Giáo Dục: Học sinh có thể khám phá các khái niệm âm nhạc thông qua phản hồi tức thời, cụ thể
- Âm Nhạc Trong Trò Đùa: Các bản nhạc động mà thích ứng với hành động của người chơi trong thời gian thực
Phá Vỡ Và Cơ Hội
Ngành công nghiệp âm nhạc đang đứng tại ngã rẽ. Doanh thu trong ngành công nghiệp âm nhạc dự kiến sẽ tăng 17,2%, được thúc đẩy một phần bởi âm nhạc được tạo ra bởi AI, với thị trường âm nhạc AI toàn cầu được định giá 2,9 tỷ đô la vào năm 2024. Tuy nhiên, sự tăng trưởng này đi kèm với những lo ngại đáng kể từ các nghệ sĩ và chuyên gia trong ngành.
Nghiên cứu của Goldmedia dự đoán rằng nếu không có hệ thống bồi thường phù hợp, các nhạc sĩ có thể mất tới 27% doanh thu của họ vào năm 2028 khi nội dung được tạo ra bởi AI tăng trưởng. Nỗi sợ hãi là có thể cảm nhận được – liệu AI có thay thế các nhạc sĩ con người không? Liệu giá trị của sự sáng tạo con người có bị giảm thiểu trong một thế giới mà bất kỳ ai cũng có thể tạo ra âm nhạc chuyên nghiệp?
Magenta RT cung cấp một câu trả lời tinh tế cho những lo ngại này. Bằng cách định vị mình như một công cụ mã nguồn mở tăng cường sự sáng tạo của con người hơn là thay thế nó, nó cung cấp một mô hình cho cách AI và nhạc sĩ có thể cùng tồn tại. Yêu cầu đầu vào thời gian thực của con người đảm bảo rằng công nghệ này tăng cường sự sáng tạo của con người hơn là hoạt động tự động.
Đa Dạng Hóa so với Khấu Hao
Một trong những tác động quan trọng nhất của Magenta RT là tiềm năng đa dạng hóa việc tạo ra âm nhạc. Mô hình được thiết kế để cuối cùng chạy trên phần cứng tiêu dùng và đã hoạt động trên máy TPU Colab miễn phí. Khả năng tiếp cận này có nghĩa là các nhạc sĩ đầy tham vọng không có thiết bị đắt tiền hoặc đào tạo chính thức có thể thử nghiệm với các ý tưởng âm nhạc phức tạp, tham gia vào hệ sinh thái ngày càng tăng của công cụ tạo ra âm nhạc AI đang biến đổi các quy trình sáng tạo.
Tuy nhiên, sự đa dạng hóa này đi kèm với rủi ro. Như nhạc sĩ Mark Henry Phillips lưu ý trong các thí nghiệm với việc tạo ra âm nhạc AI, ông nghi ngờ rằng “sắp tới tôi sẽ không thể kiếm sống bằng việc làm nhạc sĩ, vì các công ty sẽ bắt đầu sử dụng công nghệ này trực tiếp”. Sự dễ dàng mà AI có thể tạo ra âm nhạc chất lượng thương mại đe dọa đến các nguồn doanh thu truyền thống cho các nhạc sĩ chuyên nghiệp.
Tuy nhiên, có một quan điểm khác cần xem xét. Giống như nhiếp ảnh kỹ thuật số không loại bỏ các nhiếp ảnh gia chuyên nghiệp nhưng thay đổi bản chất công việc của họ, việc tạo ra âm nhạc AI có thể thay đổi chứ không thay thế các sự nghiệp âm nhạc. Khóa nằm ở cách các nhạc sĩ thích nghi và tích hợp các công cụ này vào quy trình sáng tạo của họ.
Sự gia tăng của việc tạo ra âm nhạc AI thời gian thực cũng mang lại những câu hỏi đạo đức cấp bách. Bản quyền, quyền sở hữu và bồi thường công bằng vẫn là những vấn đề gây tranh cãi. 90% nhạc sĩ tin rằng các công ty AI nên xin phép trước khi sử dụng âm nhạc có bản quyền để đào tạo, làm nổi bật sự căng thẳng giữa đổi mới công nghệ và quyền nghệ thuật.
Cách tiếp cận mã nguồn mở của Magenta RT cung cấp một con đường tiến bộ tiềm năng. Bằng cách làm cho công nghệ này miễn phí và đào tạo nó trên khoảng 190.000 giờ âm nhạc cổ điển từ nhiều nguồn, Google đã cố gắng tránh một số lo ngại về bản quyền trong khi vẫn tạo ra một mô hình có khả năng.
Giới hạn của mô hình cũng phản ánh các xem xét đạo đức. Mặc dù có khả năng tạo ra các bản thể hiện không có từ và tiếng hát, Magenta RT không được điều kiện dựa trên lời bài hát và không thể tạo ra từ thực sự. Sự lựa chọn thiết kế này giúp tránh các vấn đề tiềm năng với việc tạo ra nội dung lời bài hát không phù hợp trong khi tập trung công cụ vào việc sáng tác nhạc cụ.
Tương Lai Của Sự Hợp Tác Âm Nhạc Con Người – AI
Khi chúng ta đứng trên ngưỡng cửa của kỷ nguyên mới này trong việc tạo ra âm nhạc, một số xu hướng đang xuất hiện:
- Mô Hình Tạo Ra Lai: Thay vì thay thế các nhạc sĩ, các công cụ như Magenta RT đang trở thành những người cộng tác. Các phát triển gần đây trong hệ thống theo dõi nhịp với độ trễ bằng không và khả năng điều khiển được tăng cường cho thấy cách AI có thể đồng bộ hóa với các nghệ sĩ biểu diễn con người trong thời gian thực.
- Các Mô Hình Biểu Diễn Mới: Khái niệm “biểu diễn” với AI mở ra hoàn toàn những khả năng nghệ thuật mới. Các nhạc sĩ đang học cách “chơi” những hệ thống này như các công cụ, phát triển các kỹ thuật để thu hút các âm thanh cụ thể và điều hướng các không gian âm nhạc tiềm ẩn.
- Cách Mạng Giáo Dục: Công nghệ tạo ra âm nhạc AI đã cách mạng hóa giáo dục âm nhạc, với các nền tảng cung cấp các trải nghiệm tương tác lắng nghe các buổi biểu diễn của người dùng và cung cấp phản hồi tức thời.Sự Hội Tụ Kỹ Thuật: Với các đổi mới trong các codec âm thanh thần kinh và kiến trúc được tối ưu hóa, các công cụ như MusicFX DJ có thể phát trực tuyến âm thanh stereo 48kHz chất lượng sản xuất trong thời gian thực, mang âm nhạc được tạo ra bởi AI đến tiêu chuẩn chuyên nghiệp.
Chấp Nhận Tương Lai Hợp Tác
Magenta RealTime cung cấp một cái nhìn về tương lai nơi ranh giới giữa sự sáng tạo của con người và máy móc trở nên ngày càng linh hoạt. Bằng cách yêu cầu đầu vào thời gian thực của con người và tập trung vào quá trình hơn là chỉ sản phẩm, nó cung cấp một mô hình cho AI mà tăng cường sự sáng tạo của con người hơn là thay thế nó.
Bản chất mã nguồn mở của công nghệ này và khả năng tiếp cận trên phần cứng tiêu dùng đa dạng hóa việc tạo ra âm nhạc trong khi các hạn chế thời gian thực đảm bảo rằng cơ quan con người vẫn là trung tâm của quá trình sáng tạo. Như nhóm Magenta nhấn mạnh, việc tăng cường sự sáng tạo của con người – không phải thay thế nó – luôn là cốt lõi của sứ mệnh của họ.
Đối với các nhạc sĩ, nhà sản xuất và những người yêu âm nhạc, thông điệp là rõ ràng: tương lai của âm nhạc nằm không phải trong việc chọn giữa sáng tạo con người hoặc AI, mà trong việc khám phá những khả năng sáng tạo khổng lồ mà xuất hiện khi cả hai hợp tác trong thời gian thực. Magenta RT là một lời mời để tưởng tượng lại việc tạo ra âm nhạc có thể là gì trong kỷ nguyên AI.
Khi chúng ta tiến về phía trước, ngành công nghiệp âm nhạc phải đối mặt với những câu hỏi quan trọng về bồi thường công bằng, bản quyền và giá trị của sự sáng tạo con người. Nhưng nếu các công cụ như Magenta RT là bất kỳ dấu hiệu nào, tương lai của âm nhạc sẽ là một sự hợp tác, thử nghiệm và những hình thức biểu đạt mới mà chúng ta chỉ mới bắt đầu tưởng tượng.












