Vaizdo įrašų generavimas greitai tapo pagrindiniu dirbtinio intelekto tyrimų centru, ypač kuriant laikinai nuoseklius, aukštos kokybės vaizdo įrašus. Ši sritis apima vaizdo įrašų sekų kūrimą, išlaikančią vaizdo darną visuose kadruose ir išsaugančias detales laikui bėgant. Mašininio mokymosi modeliai, ypač difuziniai transformatoriai (DiT), pasirodė kaip galingi šių užduočių įrankiai, kokybe pranokę ankstesnius metodus, tokius kaip GAN ir VAE. Tačiau, kadangi šie modeliai tampa sudėtingi, didelės raiškos vaizdo įrašų skaičiavimo sąnaudų ir delsos generavimas tapo dideliu iššūkiu. Dabar mokslininkai siekia pagerinti šių modelių efektyvumą, kad būtų galima greičiau generuoti vaizdo įrašus realiuoju laiku, išlaikant kokybės standartus.
Viena neatidėliotina vaizdo įrašų kūrimo problema yra daug išteklių reikalaujantis dabartinių aukštos kokybės modelių pobūdis. Norint sukurti sudėtingus, vizualiai patrauklius vaizdo įrašus, reikia didelės apdorojimo galios, ypač naudojant didelius modelius, kurie tvarko ilgesnes, didelės raiškos vaizdo įrašų sekas. Šie reikalavimai sulėtina išvadų procesą, todėl generavimas realiuoju laiku tampa sudėtingas. Daugeliui vaizdo įrašų programų reikia modelių, galinčių greitai apdoroti duomenis, tuo pačiu užtikrinant aukštą tikslumą visuose kadruose. Pagrindinė problema yra rasti optimalią pusiausvyrą tarp apdorojimo greičio ir išvesties kokybės, nes greitesni metodai paprastai kenkia detalėms. Priešingai, aukštos kokybės metodai paprastai yra sunkūs ir lėti.
Laikui bėgant buvo pristatyti įvairūs vaizdo įrašų generavimo modelių optimizavimo metodai, kuriais siekiama supaprastinti skaičiavimo procesus ir sumažinti išteklių naudojimą. Tradiciniai metodai, tokie kaip laipsniškas distiliavimas, latentinė difuzija ir talpyklos kaupimas, prisidėjo prie šio tikslo. Pavyzdžiui, etapinis distiliavimas sumažina žingsnių, reikalingų kokybei pasiekti, skaičių, nes sudėtingos užduotys yra paprastesnės. Tuo pačiu metu latentinės difuzijos metodais siekiama pagerinti bendrą kokybės ir vėlavimo santykį. Talpyklos metodai išsaugo anksčiau apskaičiuotus veiksmus, kad būtų išvengta perteklinių skaičiavimų. Tačiau šie metodai turi apribojimų, pavyzdžiui, daugiau lankstumo prisitaikyti prie unikalių kiekvienos vaizdo įrašų sekos savybių. Tai dažnai sukelia neefektyvumą, ypač kai žiūrima vaizdo įrašų, kurių sudėtingumas, judesys ir tekstūra labai skiriasi.
Mokslininkai iš Meta AI ir Stony Brook universiteto pristatė naujovišką sprendimą, pavadintą Adaptive Caching (AdaCache), kuris pagreitina vaizdo difuzijos transformatorius be papildomo mokymo. „AdaCache“ yra netreniruojama technika, kurią galima integruoti į įvairius vaizdo DiT modelius, kad būtų supaprastintas apdorojimo laikas dinamiškai kaupiant skaičiavimus talpykloje. Prisitaikius prie unikalių kiekvieno vaizdo įrašo poreikių, šis metodas leidžia „AdaCache“ paskirstyti skaičiavimo išteklius ten, kur jie yra efektyviausi. „AdaCache“ sukurta taip, kad optimizuotų delsą išsaugant vaizdo kokybę, todėl tai yra lankstus „plug-and-play“ sprendimas, skirtas pagerinti įvairių vaizdo įrašų generavimo modelių našumą.
„AdaCache“ veikia talpykloje išsaugodama tam tikrus likutinius transformatoriaus architektūros skaičiavimus, todėl šiuos skaičiavimus galima pakartotinai naudoti keliais etapais. Šis metodas yra ypač efektyvus, nes juo išvengiama perteklinių apdorojimo etapų, kurie yra dažna kliūtis atliekant vaizdo įrašų generavimo užduotis. Modelis naudoja kiekvienam vaizdo įrašui pritaikytą talpyklos tvarkaraštį, kad nustatytų geriausius likusių duomenų perskaičiavimo arba pakartotinio naudojimo taškus. Šis tvarkaraštis pagrįstas metrika, kuri įvertina duomenų pasikeitimo greitį kadruose. Be to, tyrėjai į AdaCache įtraukė judesio reguliavimo (MoReg) mechanizmą, kuris skiria daugiau skaičiavimo išteklių didelio judesio scenoms, kurioms reikia daugiau dėmesio detalėms. Naudodama lengvą atstumo metriką ir judesiais pagrįstą reguliavimo koeficientą, „AdaCache“ subalansuoja greičio ir kokybės kompromisą, koreguodamas skaičiavimo fokusą pagal vaizdo įrašo judesio turinį.
Tyrimo grupė atliko daugybę testų, kad įvertintų „AdaCache“ našumą. Rezultatai parodė, kad „AdaCache“ žymiai pagerino apdorojimo greitį ir kokybės išsaugojimą keliuose vaizdo įrašų generavimo modeliuose. Pavyzdžiui, atliekant bandymą, kuriame dalyvavo „Open-Sora“ 720p 2 sekundžių vaizdo įrašų generavimas, „AdaCache“ užfiksavo greičio padidėjimą iki 4,7 karto greičiau nei ankstesni metodai, išlaikant panašią vaizdo kokybę. Be to, „AdaCache“ variantai, tokie kaip „AdaCache-fast“ ir „AdaCache-slow“, siūlo parinktis, pagrįstas greičio ar kokybės poreikiais. Naudodama „MoReg“, „AdaCache“ pademonstravo patobulintą kokybę, glaudžiai suderindama su žmogaus pageidavimais atliekant vizualinį vertinimą, ir pralenkdama tradicinius talpyklos metodus. Įvairių DiT modelių greičio etalonai taip pat patvirtino „AdaCache“ pranašumą, nes greitis svyruoja nuo 1,46 x 4,7 karto, priklausomai nuo konfigūracijos ir kokybės reikalavimų.
Apibendrinant galima pasakyti, kad „AdaCache“ žymi reikšmingą vaizdo įrašų generavimo pažangą, suteikdama lankstų sprendimą ilgalaikei delsos ir vaizdo kokybės subalansavimo problemai. Naudodami adaptyvų talpyklą ir judesiais pagrįstą reguliavimą, mokslininkai siūlo metodą, kuris yra efektyvus ir praktiškas įvairioms realaus pasaulio programoms, kuriant realiu laiku ir aukštos kokybės vaizdo įrašus. „AdaCache“ „plug-and-play“ leidžia patobulinti esamas vaizdo įrašų generavimo sistemas, nereikalaujant didelio perkvalifikavimo ar pritaikymo, todėl tai yra perspektyvus įrankis ateities vaizdo įrašų generavimui.
Patikrinkite Popierius, Kodasir Projektas. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(Rėmimo galimybė su mumis) Reklamuokite savo tyrimą / produktą / internetinį seminarą su 1 milijonu ir daugiau skaitytojų per mėnesį ir daugiau nei 500 000 bendruomenės narių
Nikhilas yra „Marktechpost“ konsultantas. Indijos technologijos institute Charagpūre jis siekia integruoto dvigubo medžiagų studijų laipsnio. Nikhilas yra AI/ML entuziastas, kuris visada tiria pritaikymą tokiose srityse kaip biomedžiagos ir biomedicinos mokslas. Turėdamas tvirtą medžiagų mokslo išsilavinimą, jis tyrinėja naujus pasiekimus ir kuria galimybes prisidėti.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️