Microsoft VALL-E AI var atdarināt jūsu balsi, izmantojot 3 sekunžu audio paraugu

click fraud protection

Atcerieties, ka Toms Krūzs lidojumā atdarināja ļaundara balsi, lai glābtu pasauli? Microsoft VALL-E ir nepieciešams tikai 3 sekunžu klips, lai sāktu runāt tāpat kā jūs.

Cilvēki pāri plkst Microsoft ir izveidojuši an AIuz audio sintēzes modeli ar nosaukumu VALL-E, kam ir jādzird cilvēka balss tikai trīs sekundes, pirms tas sāk runāt tāpat kā viņi. Tagad Microsoft nav svešinieks ar jaunākajām mākslīgā intelekta tehnoloģijām, īpaši ne 2023. gadā. Atcerieties Chat GPT — tērzēšanai patīkamu sarunvalodas AI, kas var runāt kā izglītots cilvēks ar zināšanām par visu pasauli? ChatGPT darbojas tikai Microsoft Azure serveros, un tā dabiskās valodas modelis ir paredzēts, lai uzlabotu tādus produktus kā Bing meklēšana un Office programmu komplekts. Iedomājieties, ka sakāt programmai Outlook uzrakstīt oficiālu atvaļinājuma e-pasta ziņojumu ar ikdienišķu vienas rindiņas uzvedni!

Kaut arī runas par to, ka Microsoft iepludinās 10 miljardus dolāru ChatGPT radītājam, ir visur, tās eksperti arī pievērš īpašu uzmanību lietu audio pusei. Rezultāts ir

VALL-E, teksta pārvēršanas runā modelis, kuram nepieciešams tikai trīs sekunžu audio klips ar cilvēka balsi lai radītu šausmīgi līdzīgu sintētisko audio, sakot visu, kas tam tiek ievadīts teksta uzvedņu veidā. Šādas inovācijas potenciāls ir milzīgs. Iedomājieties, ka klausāties, kā Gandijs deklamē savu grāmatu pēc VALL-E apmācības, izmantojot vienu no saviem retajiem audio klipiem. VALL-E balstās uz paņēmienu, ko sauc par neironu kodeku valodas modeli, kas ne tikai mācās no izrunātajiem vārdiem, bet arī no unikālā to izrunāšanas veida un teikumu tonālās plūsmas.

VALL-E ir biedējoši labs

Attēls: DALL-E 2 

VALL-E ir "pirmais, kas izmantoja audio kodeku kodus kā starpposma attēlojumus un atklāja konteksta mācīšanās iespējas”. Aiz tā esošā komanda raksta pētnieciskais darbs ka VALL-E piedāvā tādas pašas kontekstā balstītas mācīšanās iespējas kā OpenAI ChatGPT platforma. Tomēr lielākā VALL-E uzvara nav tajā, cik ātri tā var iemācīties, bet gan runas dabiskumā, ko tā piedāvā un cik baismīgi tā ir atsauces cilvēka balsij. Vēl viens sasniegums ir tas, ko komanda sauc par akustiskās vides uzturēšanu. Īsāk sakot, ja apmācības parauga balsij fonā notiek jebkāda veida atbalss, programmas izveidotajai sintezētajai runai būs arī šīs skaņas īpašības.

Bet tas, kas patiesi satrauc – un tas, kas apgrūtinās patiesas runas nošķiršanu no VALL-E deklamācijas – ir emociju saglabāšana. Pētījumā norādīts, ka "VALL-E var saglabāt emocijas uzvednē nulles iestatījumā.” Lai uztvertu emocijas, tā paļaujas uz datu kopu ar nosaukumu EmoV-DB, kas koncentrējas uz piecām galvenajām emocijām, kas atspoguļojas cilvēka dabiskajās sarunās. Veidojot savus audio klipus, VALL-E spēj kopēt tās pašas emocijas, kas bija identificētas sākotnējā uzvednē. Bet VALL-E nav ideāls, un joprojām ir daži tehniski ierobežojumi. Piemēram, vārdi dažkārt var dublēt vai vienkārši iznākt nesaprotami. Turklāt datu apmācība 60 audio stundu vērtībā varētu izklausīties daudz, taču tā joprojām nav pietiekami daudzveidīga, it īpaši, ja ņem vērā dažādus akcentus un toņus.

Microsoft tehnoloģija ir iespaidīga. Patiesībā tas ir biedējoši iespaidīgi, un komanda atzīst ļaunprātīgas izmantošanas iespējamību. Pētījumā norādīts, ka slikti aktieri to var izmantot par viltošanu vai uzdošanos par citu personu bez tās ziņas. Visa elle atraisās, kad krāpnieki pieķeras pie šādām tehnoloģijām. Tas arī izskaidro, kāpēc nav publiskas VALL-E versijas, ar kurām spēlēt, atšķirībā no citiem populāriem AI rīkiem, piemēram, ChatGPT, DALL-E un Stable Diffusion. Par laimi, pētnieciskajā dokumentā minēts, ka ir iespējams izveidot modeli, kas var noteikt reālu runu no VALL-E ģenerētās. Tagad, Microsoft nav teicis, vai un kad tā plāno izlaist publisku VALL-E versiju.

Avots: GitHub, arXiv, Stīvens Tejs/Twitter