Microsofti VALL-E AI suudab teie häält jäljendada 3-sekundilise helinäidise abil

April 08, 2023
SisseTehn Microsoft Tehisintellekt

click fraud protection

Kas mäletate, kuidas Tom Cruise matkis maailma päästmiseks lennult kaabaka häält? Microsofti VALL-E vajab vaid 3-sekundilist klippi, et hakata rääkima nagu sina.

Inimesed üle kell Microsoft on loonud an AI-põhine helisünteesimudel nimega VALL-E, mis peab kuulma inimese häält vaid kolm sekundit, enne kui hakkab rääkima nagu nemad. Nüüd pole Microsoftile tipptasemel AI-tehnoloogia võõras, eriti mitte 2023. aastal. Kas mäletate Chat GPT-d, vestlevat vestluslikku tehisintellekti, mis suudab rääkida nagu õppinud inimene, kellel on teadmisi kogu maailmast? Noh, ChatGPT töötab eranditult Microsofti Azure'i serverites ja selle loomuliku keele mudel hakkab lisama tooteid, nagu Bingi otsing ja Office'i rakenduste komplekt. Kujutage ette, et ütlete Outlookile, et ta kirjutaks ametliku puhkusemeili koos juhusliku üherealise viipaga!

Kuigi kõikjal räägitakse sellest, et Microsoft valab ChatGPT loojale 10 miljardit dollarit, pööravad selle eksperdid suurt tähelepanu ka asjade heliküljele. Tulemuseks on

VALL-E, teksti kõneks muutmise mudel, mis vajab vaid kolmesekundilist heliklippi inimese häälest tekitada kohutavalt sarnane sünteetiline heli, öeldes tekstiviipade kujul kõik, mis talle ette antakse. Sellise uuenduse potentsiaal on tohutu. Kujutage ette, kuidas kuulate Gandhit pärast VALL-E treenimist oma raamatut ette kandmas, kasutades ühte tema haruldastest heliklippidest. VALL-E tugineb tehnikale, mida nimetatakse närvikoodeki keelemudeliks, mis mitte ainult ei õpi kõneldavatest sõnadest, vaid ka nende ainulaadsest hääldusviisist ja lausete tonaalsest voolust.

VALL-E on hirmutavalt hea

Pilt: DALL-E 2

VALL-E on "esimene, kes kasutab helikoodeki koode vahepealsete esitustena ja pakub kontekstis õppimise võimalust.” Selle taga olev meeskond kirjutab uurimustöö et VALL-E pakub samasuguseid kontekstipõhiseid õppimisvõimalusi OpenAI ChatGPT platvormina. VALL-E suurim võit ei seisne aga mitte õppimisvõimes, vaid kõne loomulikkuses, mida see pakub ja kui jubedalt sarnaneb see võrdlus-inimhäälega. Teine saavutus on see, mida meeskond nimetab akustilise keskkonna hoolduseks. Lühidalt, kui treeningu näidishäälel on taustal mingisugune järelkõla, on ka programmi loodud sünteesitud kõnel need heliomadused.

Kuid tõeliselt murettekitav – ja miski, mis raskendab tegeliku kõne lahutamist VALL-E retsiteerimisest – on emotsioonide säilitamine. Uurimistöös märgitakse, et "VALL-E suudab viipa emotsiooni null-võtte seadistusel säilitada.” Et emotsioonidest aru saada, tugineb see andmekogumile nimega EmoV-DB, mis keskendub viiele põhiemotsioonile, mis peegelduvad inimese loomulikes vestlustes. Oma heliklippe genereerides suudab VALL-E kopeerida sama emotsiooni, mis oli tuvastatav algses viipas. Kuid VALL-E pole täiuslik ja seal on veel mõned tehnilised piirangud. Näiteks võivad sõnad aeg-ajalt dubleerida või lihtsalt arusaamatult välja tulla. Lisaks võib andmetreening, mis on väärt 60 tundi heli, tunduda palju, kuid see pole siiski piisavalt mitmekesine, eriti kui võtta arvesse erinevaid aktsente ja toone.

Microsofti tehnoloogia on muljetavaldav. Tegelikult on see hirmutav muljetavaldav ja meeskond tunnistab väärkasutuse võimalust. Uurimistöös märgitakse, et halvad näitlejad saavad seda kasutada võltsimise või teise isikuna esinemise eest tema teadmata. Põrgu läheb lahti, kui petturid saavad sellise tehnika kätte. See selgitab ka, miks pole VALL-E avalikku versiooni, millega mängida, erinevalt teistest populaarsetest AI-tööriistadest, nagu ChatGPT, DALL-E ja Stable Diffusion. Õnneks mainitakse uurimistöös, et on võimalik luua mudel, mis suudab tuvastada tegelikku kõnet VALL-E genereeritud kõnest. Praeguseks, Microsoft ei ole öelnud, kas või millal ta kavatseb VALL-E avaliku versiooni välja anda.

Allikas: GitHub, arXiv, Steven Tey / Twitter