Pastaraisiais metais teksto į kalbą (TTS) technologija padarė didelę pažangą, tačiau vis dar lieka daug iššūkių. Autoregresinės (AR) sistemos, nors ir siūlo įvairias prozodijas, dažniausiai kenčia nuo tvirtumo problemų ir lėto išvadų greičio. Kita vertus, neautoregresiniai (NAR) modeliai reikalauja aiškaus teksto ir kalbos derinimo treniruočių metu, o tai gali sukelti nenatūralių rezultatų. Naujasis Masked Generative Codec Transformer (MaskGCT) sprendžia šias problemas, pašalindamas aiškaus teksto kalbos derinimo ir telefono lygio trukmės numatymo poreikį. Šiuo nauju metodu siekiama supaprastinti dujotiekį išlaikant ar net pagerinant generuojamos kalbos kokybę ir išraiškingumą.
MaskGCT yra naujas atvirojo kodo, moderniausias TTS modelis, pasiekiamas Hugging Face. Jame pateikiamos kelios įdomios funkcijos, pvz., balso klonavimas be garso ir emocinis TTS, taip pat galima sintetinti kalbą anglų ir kinų kalbomis. Modelis buvo parengtas naudojant platų 100 000 valandų laukinės kalbos duomenų rinkinį, leidžiantį generuoti ilgos formos ir kintamo greičio sintezę. Pažymėtina, kad MaskGCT turi visiškai neautoregresyvią architektūrą. Tai reiškia, kad modelis nesiremia iteraciniu numatymu, todėl išvados laikas yra greitesnis ir sintezės procesas yra supaprastintas. Taikant dviejų pakopų metodą, MaskGCT pirmiausia numato semantinius žetonus iš teksto ir vėliau generuoja akustinius žetonus, susijusius su šiais semantiniais žetonais.
MaskGCT naudoja dviejų pakopų sistemą, kuri atitinka „maskavimo ir prognozavimo“ paradigmą. Pirmajame etape modelis numato semantinius žetonus pagal įvesties tekstą. Šie semantiniai prieigos raktai yra išgauti iš kalbos savarankiškai prižiūrimo mokymosi (SSL) modelio. Antrame etape modelis numato akustinius žetonus, sąlygojamus anksčiau sugeneruotų semantinių žetonų. Ši architektūra leidžia MaskGCT visiškai apeiti teksto kalbos derinimą ir fonemos lygio trukmės numatymą, išskiriant jį nuo ankstesnių NAR modelių. Be to, jame naudojamas vektorinis kvantizuotas variacinis automatinis kodavimo įrenginys (VQ-VAE), skirtas kalbos atvaizdams kvantuoti, o tai sumažina informacijos praradimą. Architektūra yra labai lanksti, leidžianti generuoti kalbą su valdomu greičiu ir trukme, ir palaiko tokias programas kaip įgarsinimas keliomis kalbomis, balso konvertavimas ir emocijų valdymas – visa tai nuliniu būdu.
„MaskGCT“ yra reikšmingas šuolis į priekį TTS technologijos srityje dėl jos supaprastinto vamzdyno, neautoregresyvaus požiūrio ir tvirto našumo keliomis kalbomis ir emociniuose kontekstuose. Jo mokymas apie 100 000 valandų kalbos duomenų, apimančių įvairius kalbėtojus ir kontekstus, suteikia jam neprilygstamo universalumo ir natūralumo generuojamai kalbai. Eksperimentiniai rezultatai rodo, kad „MaskGCT“ pasiekia žmogaus lygio natūralumą ir suprantamumą, o tai pagal pagrindinius rodiklius lenkia kitus moderniausius TTS modelius. Pavyzdžiui, „MaskGCT“ pasiekė geresnių garsiakalbių panašumo (SIM-O) ir žodžių klaidų dažnio (WER) balų, palyginti su kitais TTS modeliais, tokiais kaip VALL-E, VoiceBox ir NaturalSpeech 3. Ši metrika, be aukštos kokybės prozodijos ir lankstumo, padaryti MaskGCT idealiu įrankiu programoms, kurioms reikalingas tikslumas ir išraiškingumas kalbos sintezėje.
„MaskGCT“ peržengia teksto į kalbą technologijos įmanomas ribas. Pašalinus priklausomybes nuo aiškaus teksto kalbos derinimo ir trukmės numatymo ir vietoj to naudojant visiškai neautoregresyvų, užmaskuotą generavimo metodą, MaskGCT pasiekia aukštą natūralumo, kokybės ir efektyvumo lygį. Dėl lankstumo valdyti balso klonavimą, emocinį kontekstą ir dvikalbę sintezę, jis gali pakeisti įvairias programas, įskaitant AI asistentus, dubliavimą ir pritaikymo neįgaliesiems įrankius. Atvirai prieinama platformose, tokiose kaip Hugging Face, „MaskGCT“ ne tik žengia į priekį TTS srityje, bet ir daro pažangiausias technologijas prieinamesnes kūrėjams ir tyrėjams visame pasaulyje.
Patikrinkite Popierius ir Modelis apsikabinęs veidą. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(Tendencijos) „LLMWare“ pristato „Model Depot“: platų mažų kalbų modelių (SLM) kolekciją „Intel“ kompiuteriams
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️