Žmonės turi nepaprastą gebėjimą lokalizuoti garso šaltinius ir interpretuoti savo aplinką naudodami garsinius signalus – reiškinį, vadinamą erdvine klausa. Ši galimybė leidžia atlikti tokias užduotis kaip garsiakalbių atpažinimas triukšmingoje aplinkoje arba naršymas sudėtingoje aplinkoje. Tokio klausos erdvinio suvokimo imitavimas yra labai svarbus siekiant sustiprinti įtraukiančių technologijų, tokių kaip papildytoji realybė (AR) ir virtualioji realybė (VR), patirtį. Tačiau perėjimas nuo monofoninės (vieno kanalo) prie binauralinės (dviejų kanalų) garso sintezės, kuri fiksuoja erdvinius garsinius efektus, susiduria su dideliais iššūkiais, ypač dėl riboto daugiakanalio ir pozicinio garso duomenų prieinamumo.
Tradiciniai monofoninės sintezės metodai dažnai remiasi skaitmeninių signalų apdorojimo (DSP) sistemomis. Šie metodai modeliuoja klausos efektus naudojant tokius komponentus kaip su galva susijusi perdavimo funkcija (HRTF), kambario impulsų atsakas (RIR) ir aplinkos triukšmas, paprastai traktuojami kaip linijinės laiko nekintamos (LTI) sistemos. Nors DSP pagrįstos technologijos yra nusistovėjusios ir gali sukurti tikrovišką garso patirtį, jose neatsižvelgiama į netiesinių akustinių bangų efektus, būdingus realaus pasaulio garso sklidimui.
Prižiūrimi mokymosi modeliai atsirado kaip alternatyva DSP, panaudojant neuroninius tinklus binauraliniam garsui sintetinti. Tačiau tokie modeliai susiduria su dviem pagrindiniais apribojimais: pirma, padėties anotuotų binaurinių duomenų rinkinių trūkumas ir, antra, jautrumas per daug pritaikyti prie konkrečios akustinės aplinkos, garsiakalbių charakteristikos ir mokymo duomenų rinkiniai. Specialios duomenų rinkimo įrangos poreikis dar labiau riboja šiuos metodus, todėl prižiūrimi metodai yra brangūs ir mažiau praktiški.
Norėdami išspręsti šiuos iššūkius, „Google“ tyrėjai pasiūlė ZeroBAS, nulinio kadro neuroninis metodas, skirtas kalbos sintezei iš monofoninės ir dvinarės, nesiremiantis binauraliniais mokymo duomenimis. Šis novatoriškas metodas naudoja beparametrų geometrinio laiko deformavimo (GTW) ir amplitudės mastelio (AS) metodus, pagrįstus šaltinio padėtimi. Šie pradiniai binauriniai signalai toliau tobulinami naudojant iš anksto paruoštą triukšmą slopinantį vokoderį, todėl gaunamas suvokiamai tikroviškas binaurinis garsas. Pažymėtina, kad „ZeroBAS“ efektyviai apibendrina įvairias kambario sąlygas, kaip parodyta naudojant naujai pristatytą TUT „Mono-to-Binaural“ duomenų rinkinį. duomenis.
„ZeroBAS“ sistemą sudaro trijų pakopų architektūra:
- 1 etape, Geometrinis laiko deformavimas (GTW) paverčia monofoninę įvestį į du kanalus (kairįjį ir dešinįjį), imituodama interauralinius laiko skirtumus (ITD), pagrįstą santykine garso šaltinio ir klausytojo ausų padėtimi. GTW apskaičiuoja kairiosios ir dešiniosios ausies kanalų vėlavimą. Tada iškreipti signalai tiesiškai interpoliuojami, kad būtų generuojami pradiniai dvinauriniai kanalai.
- 2 etape, Amplitudės mastelio keitimas (AS) padidina iškreiptų signalų erdvinį tikroviškumą, imituodamas interauralinio lygio skirtumą (ILD), pagrįstą atvirkštinio kvadrato dėsniu. Kadangi žmogaus garso erdviškumo suvokimas priklauso nuo ITD ir ILD, o pastarasis dominuoja aukšto dažnio garsams. Naudojant euklidinius šaltinio atstumus nuo abiejų ausų ir , amplitudės yra keičiamos.
- 3 etape apima kartotinį iškreiptų ir pakeistų signalų tobulinimą, naudojant iš anksto paruoštą triukšmą mažinantį vokoderį, WaveFit. Šis vokoderis naudoja log-mel spektrogramos ypatybes ir triukšmą slopinančius difuzijos tikimybinius modelius (DDPM), kad sukurtų švarias binauralines bangų formas. Iteratyviai taikydama vokoderį, sistema sumažina akustinius artefaktus ir užtikrina aukštos kokybės binauralinio garso išvestį.
Kalbant apie vertinimus, ZeroBAS buvo įvertintas dviem duomenų rinkiniais (rezultatai pateikti 1 ir 2 lentelėse): Binauralinė kalba duomenų rinkinys ir naujai pristatytas TUT Mono-to-Binaural duomenų rinkinys. Pastarasis buvo skirtas išbandyti mono-binaurinės sintezės metodų apibendrinimo galimybes įvairiose akustinėse aplinkose. Atliekant objektyvius vertinimus, ZeroBAS parodė reikšmingus patobulinimus, palyginti su DSP pradinėmis linijomis, ir priartėjo prie prižiūrimų metodų našumo, nepaisant to, kad nebuvo apmokytas binauralinių duomenų. Pažymėtina, kad „ZeroBAS“ pasiekė geresnių rezultatų neplatinamo TUT duomenų rinkinyje, pabrėždamas jo tvirtumą įvairiomis sąlygomis.
Subjektyvūs vertinimai dar labiau patvirtino ZeroBAS veiksmingumą. Vidutinio nuomonės balo (MOS) įvertinimai parodė, kad klausytojai ZeroBAS rezultatus įvertino kaip šiek tiek natūralesnius nei prižiūrimų metodų. MUSHRA vertinimuose ZeroBAS pasiekė panašią erdvinę kokybę su prižiūrimais modeliais, o klausytojai negalėjo pastebėti statistiškai reikšmingų skirtumų.
Nors šis metodas yra gana puikus, jis turi tam tikrų apribojimų. ZeroBAS stengiasi tiesiogiai apdoroti fazės informaciją, nes vokoderis neturi padėties kondicionavimo ir jis remiasi bendraisiais, o ne konkrečiai aplinkai modeliais. Nepaisant šių suvaržymų, jo gebėjimas efektyviai apibendrinti išryškina nulinio mokymosi galimybes binaurinėje garso sintezėje.
Apibendrinant galima pasakyti, kad ZeroBAS siūlo patrauklų, kambario agnostinį požiūrį į binauralinę kalbos sintezę, kuri užtikrina suvokimo kokybę, panašią į prižiūrimus metodus, nereikalaujant binauralinio mokymo duomenų. Dėl tvirto veikimo įvairiose akustinėse aplinkose jis yra perspektyvus kandidatas realaus pasaulio pritaikymui AR, VR ir įtraukiančiose garso sistemose.
Patikrinkite popierius ir detalės. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 65k+ ML SubReddit.
🚨 Rekomenduokite atvirojo kodo platformą: „Parlant“ yra sistema, pakeičianti tai, kaip dirbtinio intelekto agentai priima sprendimus klientams skirtuose scenarijuose. (Paaukštintas)
Vineet Kumar yra „MarktechPost“ konsultacinė praktikantė. Šiuo metu jis baigia bakalauro laipsnį Indijos technologijos institute (IIT), Kanpūre. Jis yra mašininio mokymosi entuziastas. Jis aistringai vertina mokslinius tyrimus ir naujausius pasiekimus giluminio mokymosi, kompiuterinės vizijos ir susijusiose srityse.
📄 Susipažinkite su „Aukštis”: vienintelis savarankiškas projektų valdymo įrankis (remiama)


