Microsoft의 VALL-E AI는 3초 오디오 샘플을 사용하여 음성을 모방할 수 있습니다.

click fraud protection

세상을 구하기 위해 즉석에서 악당의 목소리를 흉내 낸 톰 크루즈를 기억하시나요? Microsoft의 VALL-E는 3초짜리 클립만 있으면 당신처럼 말을 시작할 수 있습니다.

에 있는 사람들 마이크로소프트 만들었습니다 일체 포함VALL-E라는 기반 오디오 합성 모델로 사람처럼 말을 하기 전에 단 3초 동안 사람의 목소리를 들어야 합니다. 이제 Microsoft는 특히 2023년에는 최첨단 AI 기술에 익숙하지 않습니다. 전 세계에 대한 지식을 갖춘 학식 있는 사람처럼 말할 수 있는 채팅에 만족하는 대화형 AI인 Chat GPT를 기억하십니까? ChatGPT는 Microsoft의 Azure 서버에서만 실행되며 자연어 모델은 Bing 검색 및 Office 앱 제품군과 같은 제품을 강화하고 있습니다. 캐주얼 한 줄 프롬프트로 공식적인 휴가 전자 메일을 작성하도록 Outlook에 지시한다고 상상해 보십시오!

Microsoft가 ChatGPT 제작자에게 100억 달러를 쏟아부었다는 이야기가 도처에 있지만 전문가들은 오디오 측면에도 세심한 주의를 기울이고 있습니다. 결과는 발-E, 사람 목소리의 3초 오디오 클립만 있으면 되는 텍스트 음성 변환 모델 엄청나게 유사한 합성 오디오를 생성하기 위해, 텍스트 프롬프트의 형태로 공급되는 모든 것을 말합니다. 그러한 혁신의 잠재력은 엄청납니다. Gandhi가 그의 희귀한 오디오 클립 중 하나를 사용하여 VALL-E를 훈련한 후 그의 책을 암송하는 것을 듣는 것을 상상해 보십시오. VALL-E는 신경 코덱 언어 모델이라는 기술에 의존합니다. 이 기술은 말하는 단어뿐만 아니라 고유한 발음 방식과 문장의 음조 흐름을 통해 학습합니다.

VALL-E는 무서울 정도로 착하다

이미지: DALL-E 2 

VALL-E는 “오디오 코덱 코드를 중간 표현으로 처음 사용하고 상황에 맞는 학습 기능을.” 뒤에있는 팀은 연구 논문 VALL-E는 동일한 종류의 상황 기반 학습 기능을 제공합니다. OpenAI의 ChatGPT 플랫폼으로. 그러나 VALL-E의 가장 큰 승리는 얼마나 빨리 배울 수 있는지가 아니라 그것이 제공하는 말의 자연스러움과 기준 인간의 목소리와 얼마나 기이할 정도로 유사한지에 있습니다. 또 다른 성과는 팀이 음향 환경 유지 관리라고 부르는 것입니다. 간단히 말해서 훈련 샘플 음성에 배경에서 진행되는 어떤 형태의 잔향이 있는 경우 프로그램에서 생성된 합성된 음성도 이러한 사운드 특성을 갖게 됩니다.

그러나 진정으로 우려되는 것은 - VALL-E 암송에서 실제 연설을 분리하기 어렵게 만드는 것은 감정 유지입니다. 연구 논문은 “VALL-E는 제로샷 설정에서 프롬프트의 감정을 보존할 수 있습니다..” 감정을 파악하려면, 사람의 자연스러운 대화에 반영되는 5가지 핵심 감정에 초점을 맞춘 EmoV-DB라는 데이터 세트에 의존하고 있습니다. 자체 오디오 클립을 생성하는 동안 VALL-E는 원래 프롬프트에서 식별할 수 있었던 동일한 감정을 복사할 수 있습니다. 그러나 VALL-E는 완벽하지 않으며 여전히 몇 가지 기술적 한계가 있습니다. 예를 들어 단어가 가끔 중복되거나 이해할 수 없게 나올 수 있습니다. 또한 60시간 분량의 오디오에 해당하는 데이터 교육은 많은 것처럼 들릴 수 있지만 특히 다양한 억양과 어조를 고려할 때 여전히 다양하지 않습니다.

Microsoft의 기술은 인상적입니다. 실제로 이것은 무섭고 인상적이며 팀은 오용 가능성을 인정합니다. 연구 논문은 나쁜 배우가 그것을 사용할 수 있습니다 알지 못하는 사이에 다른 사람을 속이거나 사칭하는 행위. 사기꾼이 그런 기술에 손을 대면 지옥이 풀립니다. 또한 ChatGPT, DALL-E 및 Stable Diffusion과 같은 다른 인기 있는 AI 도구와 달리 사용할 수 있는 VALL-E의 공개 버전이 없는 이유도 설명합니다. 고맙게도 연구 논문에는 VALL-E가 생성한 음성에서 실제 음성을 감지할 수 있는 모델 구축이 가능하다고 언급되어 있습니다. 지금은 마이크로소프트 VALL-E의 공개 버전을 출시할 계획인지, 언제 출시할 계획인지는 밝히지 않았습니다.

원천: GitHub, arXiv, 스티븐 테이/트위터