본문 바로가기
테마주

Meta의 오디오크래프트(AudioCraft): 고품질 사실적인 오디오 및 음악 생성을 위한 AI 플랫폼

by 엔트홍(Anthong) 2023. 8. 7.
반응형

오디오크래프트

'오디오크래프트(AudioCraft)'는 고품질의 사실적인 오디오 및 음악을 생성하는 AI 도구로서, '뮤직젠(MusicGen)', '오디오젠(AudioGen)', '엔코덱(EnCodec)'의 세 가지 모델과 함께 번들로 제공됩니다. 이 도구는 음악, 사운드, 압축, 생성 작업을 위해 사용자 입력(프롬프트)를 기반으로 작동합니다.

메타(Meta)가 개발한 오디오크래프트는 미디(MIDI) 또는 피아노 롤이 아닌 원시 오디오 신호에 대한 학습을 통해 음악과 사운드를 생성합니다. 이를 위해 MusicGen은 텍스트 기반 사용자 입력에서 음악을 생성하고, 공개 음향 효과에 대해 사전 학습된 AudioGen은 텍스트 기반 사용자 입력에서 생활 환경 소리 및 음향 효과 등의 오디오를 생성합니다. 더욱 개선된 버전의 EnCodec 디코더는 더 적은 아티팩트로 높은 품질의 음악을 생성할 수 있습니다.

오디오 생성은 매우 복잡한 작업이며, 음악은 다양한 규모의 복잡한 신호와 패턴을 모델링해야 하므로 가장 까다로운 오디오 유형 중 하나입니다. 하지만 오디오크래프트는 자기 지도형 오디오 표현 학습과 계층적 또는 계단식 모델을 활용하여 장기간 일관성 있는 고품질 오디오를 생성합니다.

EnCodec 신경 오디오 코덱을 사용하여 오디오 토큰을 학습하고 자동 회귀 언어 모델을 활용하여 오디오를 생성하는 접근 방식을 사용합니다. 이를 통해 원시 신호에서 개별 오디오 토큰을 생성하고, 텍스트 프롬프트를 통해 설명된 환경 사운드를 생성하는 방법을 제시합니다.

메타는 오디오크래프트를 오픈 소스로 공개하여 누구나 간편하고 편리하게 사용할 수 있도록 하였습니다. 또한 계속해서 오디오 생성 모델의 기능과 제어 가능성을 개선하기 위한 연구를 진행하고 있으며, 새로운 접근 방식을 추가하여 합성 오디오의 품질을 향상시키고 있습니다.

인공지능 관련주 : 1. 이스트소프트(AI 대장주), 2. 로보로보(AI 관련주), 3. 카카오(AI 테마주), 4. 한국전자인증(AI 수혜주), 5. 플리토(AI 관련 주식), 6. 알체라(AI 주식), 7. 큐렉소(인공지능 로봇 관절)

반응형