OpenAI giới thiệu Jukebox, một mô hình AI mới tạo ra âm nhạc dành riêng cho thể loại với lời bài hát

Tháng Năm 1, 2020

1 View

LưuĐã lưuĐã xoá 0

Phòng thí nghiệm nghiên cứu trí tuệ nhân tạo OpenAI hôm nay đã ra mắt một mô hình thế hệ mới mà có thể tạo ra âm nhạc được gọi là Hộp đựng. Nó có công nghệ ấn tượng, ngay cả khi kết quả nghe giống như các phiên bản bài hát có thể cảm thấy quen thuộc. Theo bài đăng trên OpenAI từ Blog, các nhà nghiên cứu đã chọn làm việc trên âm nhạc bởi vì nó khó. Và ngay cả khi họ không chính xác những gì tôi gọi là âm nhạc, kết quả mà các nhà nghiên cứu nhận được rất ấn tượng; có những hợp âm và giai điệu và từ ngữ dễ nhận biết (đôi khi).

Cách OpenAI làm nó cũng hấp dẫn. Họ đã sử dụng âm thanh thô để huấn luyện mô hình – tạo ra âm thanh thô để đáp lại – thay vì sử dụng nhạc tượng trưng của Hồi giáo, giống như đàn piano của người chơi, vì âm nhạc tượng trưng không bao gồm giọng nói. Để có được kết quả của họ, trước tiên, các nhà nghiên cứu đã sử dụng các mạng thần kinh tích chập để mã hóa và nén âm thanh thô và sau đó sử dụng cái mà họ gọi là máy biến áp để tạo ra âm thanh nén mới sau đó được ghép lại để biến nó thành âm thanh thô. Có một biểu đồ!

Cách tiếp cận tương tự như cách OpenAI đã phát triển một AI tạo nhạc trước đó có tên MuseNet, nhưng Jukebox tiến thêm một bước bằng cách tạo ra lời bài hát của riêng mình trong sự hợp tác (công ty đã sử dụng từ ngữ đồng sáng tác) với các nhà nghiên cứu OpenAI. Không giống như MuseNet, sử dụng dữ liệu MIDI, các mô hình này được đào tạo trên bộ dữ liệu thô gồm 1,2 triệu bài hát (600.000 bằng tiếng Anh) và sử dụng siêu dữ liệu và lời bài hát được trích từ LyricWiki. (Dữ liệu về nghệ sĩ và thể loại đã được đưa vào để cải thiện kết quả đầu ra mô hình.) Mặc dù vậy, như các nhà nghiên cứu viết, có những hạn chế.

Trong khi Jukebox đại diện cho một bước tiến về chất lượng âm nhạc, sự gắn kết, độ dài của mẫu âm thanh và khả năng điều chỉnh về nghệ sĩ, thể loại và lời bài hát, có một khoảng cách đáng kể giữa các thế hệ này và âm nhạc do con người tạo ra, họ viết. Ví dụ, trong khi các bài hát được tạo ra thể hiện sự kết hợp âm nhạc địa phương, theo các mẫu hợp âm truyền thống và thậm chí có thể có các bản solo ấn tượng, chúng ta không nghe thấy các cấu trúc âm nhạc lớn hơn quen thuộc như các đoạn điệp khúc lặp lại.

Ngoài ra còn có các vấn đề khác với thí nghiệm. Như nhà văn và podcaster Cherie Hu đã chỉ ra trên Twitter, Jukebox có khả năng là một thảm họa bản quyền. (Đáng chú ý là chỉ trong tuần này, Jay-Z đã cố gắng sử dụng các cuộc đình công bản quyền để loại bỏ âm thanh tổng hợp của mình từ YouTube.)

Kanye West, Katy Perry, Lupe Fiasco và các khu vực của Aretha Franklin, Frank Sinatra và Elvis Presley có cho phép OpenAI sử dụng bản ghi âm của họ làm tài liệu đào tạo cho thuật toán tổng hợp giọng nói / sáng tác nhạc / viết lời? Tôi đoán là không.

– Cherie Hu (@ cheriehu42) Ngày 30 tháng 4 năm 2020

Tất cả những gì đã nói, Jukebox là một thành tích khá hấp dẫn, đẩy ranh giới của những gì có thể. Ngay cả khi các nhạc sĩ OpenAI cho Jukebox nghĩ rằng nó cần một số công việc. Hãy lắng nghe chính mình!