„Meta“ išleido „SAM Audio“ – greitą garso atskyrimo modelį, kuris nukreiptas į bendrą redagavimo kliūtį, atskirdamas vieną garsą nuo realaus pasaulio mišinio, nekurdamas pasirinktinio modelio kiekvienai garso klasei. Meta išleido 3 pagrindinius dydžius, sam-audio-small, sam-audio-baseir sam-audio-large. Modelį galima atsisiųsti ir išbandyti žaidimų aikštelėje „Segment Anything Playground“.
Architektūra
SAM Audio kiekvienam kondicionavimo signalui naudoja atskirus kodavimo įrenginius, mišinio garso kodavimo įrenginį, natūralios kalbos aprašymo teksto koduotuvą, laiko inkarų intervalo koduotuvą ir vaizdinį kodavimo įrenginį, kuris naudoja vaizdo raginimą, gautą iš vaizdo įrašo, ir objekto kaukę. Užkoduoti srautai sujungiami į laiku suderintas funkcijas, tada apdorojami difuzijos transformatoriumi, kuris per laiką suderintą vaizdavimą atkreipia dėmesį į save ir kryžminį dėmesį į tekstinę ypatybę, tada DACVAE dekoderis atkuria bangų formas ir skleidžia 2 išėjimus, tikslinį ir liekamąjį garsą.
Ką veikia SAM Audio ir ką čia reiškia „segmentas“.?
SAM Audio įrašo įvesties įrašą, kuriame yra keli persidengiantys šaltiniai, pvz., kalba, srautas ir muzika, ir atskiria tikslinį šaltinį pagal raginimą. Viešosios išvados API modelis sukuria 2 išvestis, result.target ir result.residual. Tyrimo grupė aprašo target kaip izoliuotas garsas ir residual kaip ir visa kita.
Šis tikslas ir likutinė sąsaja tiesiogiai susieja su redaktoriaus operacijomis. Jei norite pašalinti šuns žievę visame tinklalaidės takelyje, galite laikyti žievę taikiniu, tada atimkite jį palikdami tik likutį. Jei norite iš koncerto klipo išgauti gitaros partiją, išsaugokite tikslinę bangos formą. Meta naudoja tokius konkrečius pavyzdžius, kad paaiškintų, ką modelis turi įgalinti.
3 raginimų tipai „Meta“ pristatomi
Meta pateikia SAM Audio kaip vieną vieningą modelį, palaikantį 3 raginimų tipus, ir sakoma, kad šiuos raginimus galima naudoti atskirai arba kartu.
- Teksto raginimas: garsą apibūdinate natūralia kalba, pvz., „šuo lojimas“ arba „dainuojantis balsas“, o modelis atskiria tą garsą nuo mišinio. Meta pateikia tekstinius raginimus kaip vieną iš pagrindinių sąveikos režimų, o atvirojo kodo repo apima nuo galo iki galo pavyzdį naudojant
SAMAudioProcessorirmodel.separate. - Vaizdinis raginimas: spustelite asmenį arba objektą vaizdo įraše ir paprašote modelio izoliuoti su tuo vaizdo objektu susietą garsą. Meta komanda vaizdinį raginimą apibūdina kaip skambančio objekto pasirinkimą vaizdo įraše. Išleistame kodo kelyje vaizdinis raginimas įgyvendinamas perduodant vaizdo kadrus ir kaukes į procesorių per
masked_videos. - Apimties raginimas: „Meta“ komanda pirmiausia iškviečia span ragindama pramonės šaką. Jūs pažymite laiko segmentus, kuriuose skamba tikslinis garsas, tada modelis naudoja tuos intervalus, kad nustatytų atskyrimą. Tai svarbu dviprasmiškais atvejais, pavyzdžiui, kai tas pats instrumentas pasirodo keliose ištraukose arba kai garsas girdimas tik trumpai ir norite neleisti modeliui per daug atsiskirti.


Rezultatai
Meta komanda vertina SAM Audio kaip pažangiausią našumą įvairiuose realaus pasaulio scenarijuose ir pateikia jį kaip vieningą alternatyvą vienos paskirties garso įrankiams. Komanda skelbia subjektyvaus vertinimo lentelę pagal kategorijas: Bendra, SFX, Kalba, Garsiakalbis, Muzika, Instr (laukinis), Instr (pro), bendras balas yra 3,62 už mažą „sam audio base“, 3,28 „sam audio base“ ir 3,50, o „Instr(pro“) balai siekia 4,49 už „Sam Audio“.
Key Takeaways
- SAM Audio yra vieningas garso atskyrimo modelisjis segmentuoja garsą iš sudėtingų mišinių, naudodamas tekstinius raginimus, vaizdinius raginimus ir laiko intervalo raginimus.
- Pagrindinė API vienai užklausai sukuria dvi bangos formas,
targetizoliuotam garsui irresidualvisa kita, kuri aiškiai atitinka įprastas redagavimo operacijas, tokias kaip triukšmo pašalinimas, stiebo ištraukimas arba aplinkos išsaugojimas. - Meta išleido kelis kontrolinius punktus ir variantusįskaitant
sam-audio-small,sam-audio-base,sam-audio-largepliustvvariantai, kurie, kaip teigiama, yra geresni vizualiniam raginimui, atpirkimo sandoris taip pat skelbia subjektyvaus vertinimo lentelę pagal kategorijas. - Leidimas apima įrankius be išvadųMeta suteikia a
sam-audio-judgemodelis, kuris įvertina atskyrimo rezultatus pagal teksto aprašą su bendra kokybe, prisiminimu, tikslumu ir ištikimybe.
Patikrinkite Techninės detalės ir „GitHub“ puslapis. Nedvejodami peržiūrėkite mūsų „GitHub“ puslapis, skirtas mokymo priemonėms, kodams ir užrašų knygelėms. Be to, nedvejodami sekite mus Twitter ir nepamirškite prisijungti prie mūsų 100 000+ ML SubReddit ir Prenumeruoti mūsų naujienlaiškis. Palauk! ar tu telegramoje? dabar galite prisijungti prie mūsų ir per telegramą.
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.



