인공 지능

연구원, 피아노 연주 가능한 '오디오' AI 개발

업데이트 on 2022 년 12 월 9 일

워싱턴 대학의 연구팀은 조용한 피아노 연주에서 오디오를 생성할 수 있는 Audeo라는 인공 지능(AI) 시스템을 개발했습니다. 테스트 단계에는 약 86%의 시간 동안 Audeo에서 음악을 정확하게 식별할 수 있는 SoundHound와 같은 음악 인식 앱이 포함되었습니다.

이 연구는 2020월 8일 NeurlPS XNUMX 컨퍼런스에서 발표되었습니다.

수석 저자인 Eli Shlizerman은 이 대학의 응용 수학 및 전기 및 컴퓨터 공학과 조교수입니다.

"음악 공연에서 연주될 수 있는 것처럼 들리는 음악을 만드는 것은 이전에는 불가능하다고 믿었습니다."라고 Shlizerman은 말했습니다. “알고리즘은 음악 생성과 관련된 비디오 프레임에서 신호 또는 '특징'을 파악해야 하며 비디오 프레임 사이에서 발생하는 사운드를 '상상'해야 합니다. 정확하고 상상력이 풍부한 시스템이 필요합니다. 우리가 꽤 좋은 소리를 내는 음악을 만들었다는 사실이 놀랍습니다.”

Audeo 작동 방식

Audeo 시스템은 비디오를 디코딩하여 음악으로 변환하는 방식으로 작동합니다. 여러 단계 중 첫 번째 단계는 AI가 각 비디오 프레임에서 눌린 키를 감지하고 결국 다이어그램을 개발하는 것입니다. 그런 다음 음악 신디사이저가 소리를 인식할 수 있도록 다이어그램이 변환됩니다.

다음 단계는 데이터를 정리하고 추가 정보를 추가하는 것입니다. 이 정보에는 각 키를 누를 때의 압력과 지속 시간 등이 포함될 수 있습니다.

“첫 단계부터 음악을 합성하려고 하면 음악의 품질이 만족스럽지 않을 것입니다.”라고 Shlizerman은 말했습니다. “두 번째 단계는 교사가 학생 작곡가의 음악을 검토하고 향상시키는 것과 같습니다.”

이 시스템은 피아니스트 Paul Barton의 YouTube 동영상으로 훈련 및 테스트되었으며, Mozart와 같은 다양한 클래식 작곡가를 연주하는 음악가의 약 172,000개의 비디오 프레임으로 구성되었습니다. Audeo는 다른 음악을 연주하는 Barton의 19,000프레임으로 테스트되었습니다.

신디사이저

훈련 후 Audeo는 음악의 대본을 생성한 다음 신디사이저에 입력하여 사운드로 변환합니다. 음악은 각 신디사이저에 따라 다르게 들리며 이는 전자 키보드에서 악기 설정을 변경하는 것과 같습니다.

두 개의 별도 신디사이저가 팀에서 사용되었습니다.

“Fluidsynth는 우리에게 친숙한 신디사이저 피아노 사운드를 만듭니다. 다소 기계적으로 들리지만 꽤 정확합니다.”라고 Shlizerman이 말했습니다. “우리는 또한 더 풍부하고 표현력이 풍부한 음악을 생성하는 새로운 AI 신디사이저인 PerfNet을 사용했습니다. 그러나 그것은 또한 더 많은 소음을 발생시킵니다.”

"이 연구의 목표는 비디오 녹음에서 피아니스트가 연주한 음악을 인공 지능이 생성할 수 있는지 확인하는 것이었지만 Paul Barton은 거장이기 때문에 복제하는 것을 목표로 하지 않았습니다."라고 Shlizerman은 계속했습니다. “저희 연구를 통해 음악과 상호 작용하는 새로운 방식이 가능하기를 바랍니다. 예를 들어, 미래의 응용 프로그램 중 하나는 Audeo를 카메라가 사람의 손만 녹화하는 가상 피아노로 확장할 수 있다는 것입니다. 또한 실제 피아노 위에 카메라를 배치함으로써 Audeo는 학생들에게 연주 방법을 가르치는 새로운 방법을 잠재적으로 지원할 수 있습니다.”

전기 및 컴퓨터 공학 박사 과정 학생인 Kung Su와 Ziulong Liu가 이 논문의 공동 저자였습니다.