Muzikos ir garsų kūrimas, redagavimas ir transformavimas kelia tiek techninių, tiek kūrybinių iššūkių. Dabartiniai AI modeliai dažnai susiduria su universalumu, specializuojasi siaurose užduotyse arba neturi galimybės efektyviai apibendrinti. Tai riboja AI padedamą gamybą ir trukdo kūrybiškai prisitaikyti. Kad dirbtinis intelektas tikrai prisidėtų prie muzikos ir garso kūrimo, jis turi būti universalus, kompozicinis ir reaguoti į kūrybinius raginimus, kad menininkai galėtų sukurti unikalius garsus. Akivaizdu, kad reikia bendro modelio, kuris galėtų naršyti garso ir teksto sąveikos niuansus, atlikti kūrybines transformacijas ir pateikti aukštos kokybės išvestį.
NVIDIA pristatė „Fugatto“ – AI modelį su 2,5 milijardo parametrų, skirtų muzikai, balsams ir garsams generuoti ir manipuliuoti. „Fugatto“ sujungia tekstinius raginimus su pažangiomis garso sintezės galimybėmis, todėl garso įvestis yra labai lanksti kūrybiniams eksperimentams, pavyzdžiui, pakeičiant fortepijono eilutę į dainuojantį žmogaus balsą ar trimitui skleidžiant netikėtus garsus.
Modelis palaiko ir teksto, ir pasirenkamas garso įvestis, leidžiančias kurti ir valdyti garsus būdais, kurie pranoksta įprastinius garso generavimo modelius. Šis universalus metodas leidžia eksperimentuoti realiuoju laiku, todėl menininkai ir kūrėjai gali generuoti naujų tipų garsus arba sklandžiai modifikuoti esamą garsą. NVIDIA akcentuojamas lankstumas leidžia Fugatto puikiai atlikti užduotis, susijusias su sudėtingomis kompozicijos transformacijomis, todėl tai yra vertinga priemonė atlikėjams ir garso įrašų gamintojams.
Techninės detalės
„Fugatto“ veikia naudodamas naujovišką duomenų generavimo metodą, kuris apima ne tik įprastą prižiūrimą mokymąsi. Jo mokymas apėmė ne tik įprastus duomenų rinkinius, bet ir specializuotą duomenų rinkinio generavimo techniką, kad būtų galima sukurti daugybę garso ir transformavimo užduočių. Jis naudoja didelių kalbų modelius (LLM), kad pagerintų instrukcijų generavimą, leidžiančią geriau suprasti ir interpretuoti ryšį tarp garso ir tekstinių raginimų. Ši duomenų rinkinio praturtinimo strategija suteikė Fugatto galimybę mokytis iš įvairių kontekstų, sukuriant tvirtą pagrindą mokymuisi atliekant kelias užduotis.
Pagrindinė naujovė yra Composable Audio Representation Transformation (ComposableART) – išvedžiojimo laiko metodas, sukurtas siekiant išplėsti gaires be klasifikatoriaus į kompozicijos instrukcijas. Tai leidžia „Fugatto“ sklandžiai sujungti, interpoliuoti arba paneigti skirtingas garso generavimo instrukcijas, atverdamas naujas garso kūrimo galimybes. „ComposableART“ suteikia aukšto lygio sintezės kontrolę, leidžiančią vartotojams tiksliai naršyti „Fugatto“ garso paletėje, maišyti skirtingus garsus ir generuoti unikalius garso reiškinius.
„Fugatto“ architektūra naudoja „Transformer“ modelius, patobulintus specifinėmis modifikacijomis, pvz., „Adaptive Layer Normalization“, kuri padeda išlaikyti nuoseklumą įvairiose įvestyse ir palaiko kompozicijos instrukcijas geriau nei esami modeliai. Tai reiškia, kad modelis gali atlikti tokias užduotis kaip dainavimo sintezė, garso transformacijos ir manipuliacijos efektais, todėl jis tinkamas įvairioms garso programoms.
„Fugatto“ universalumas slypi jo gebėjime veikti kūrybiškumo ir technologijų sankirtoje. Specializuoti modeliai tradiciškai reikalauja rankinio įsikišimo arba siaurai apibrėžtų užduočių, dažnai stokojančios lankstumo, reikalingo kūrybiniams eksperimentams. Tačiau „Fugatto“ gali būti pritaikytas įvairiems tikslams, todėl jo naudingumas garso kūrimo srityje išryškėja. Ankstyvieji „Fugatto“ bandymai rodo, kad jis konkurencingai veikia su kitais specializuotais modeliais pagal įprastus etalonus, tačiau tikroji jo stiprybė slypi iškylančiame gebėjime.
Rezultatai buvo daug žadantys: Fugatto vertinimai rodo konkurencingą arba pranašesnį našumą, palyginti su specializuotais garso sintezės ir transformacijos modeliais. Kai buvo pavesta sintezuoti naujus garsus arba sekti kompozicijos instrukcijas, Fugatto pranoko keletą etalonų. Pavyzdžiui, jis demonstravo tokias galimybes kaip naujų garsų kūrimas, pvz., neįprastų charakteristikų saksofono sintezė arba kalbos, kuri sklandžiai integruojasi su fono garso peizažais, generavimas – užduotys, kurios anksčiau buvo sudėtingos kitiems modeliams.
Be to, „Fugatto“ gebėjimas generuoti iškylančius garsus – garso reiškinius, viršijančius įprastus treniruočių duomenis – atveria naujas kūrybinio garso dizaino galimybes. Kompozicijos sintezei naudojant ComposableART, vartotojai gali dinamiškai sujungti kelis atributus, todėl tai yra vertinga priemonė garso kūrėjams, ieškantiems kūrybinės kontrolės.
Išvada
„Fugatto“ yra žymus garso generuojamojo dirbtinio intelekto pažanga, siūlantis galimybes, kurios meta iššūkį tradiciniams apribojimams ir pagerina kūrybingą garso manipuliavimą. NVIDIA integravo didelius kalbos modelius su garso ir muzikos subtilybėmis, todėl įrankis yra galingas ir universalus. „Fugatto“ gebėjimas valdyti niuansuotas garso užduotis – nuo paprasto garso generavimo iki sudėtingų kompozicijos modifikacijų – tai vertingas indėlis į kūrybinių AI įrankių ateitį. Šis modelis turi didelę reikšmę ne tik menininkams, bet ir tokioms pramonės šakoms kaip žaidimai, pramogos ir švietimas, kur dirbtinio intelekto įrankiai vis labiau palaiko ir įkvepia žmogaus kūrybiškumą.
Patikrinkite Popierius ir NVIDIA tinklaraštis. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
🎙️ 🚨 „Didelių kalbos modelio pažeidžiamumų įvertinimas: lyginamoji raudonųjų komandų sudarymo metodų analizė“ Skaitykite visą ataskaitą (Paaukštintas)
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🐝🐝 Perskaitykite šią „Kili Technology“ AI tyrimo ataskaitą „Didelių kalbos modelio pažeidžiamumo įvertinimas: lyginamoji raudonųjų komandų sudarymo metodų analizė“