Pastaraisiais metais įvaizdžių generavimo srityje įvyko drastiškų pokyčių, daugiausia dėl latentinio pagrindo generatyvinių modelių kūrimo, pvz. Latentinės difuzijos modeliai (LDM) ir Kaukės įvaizdžio modeliai (MIM). Rekonstrukciniai automatiniai kodavimo įrenginiai, pvz VQGAN ir VAEgali sumažinti vaizdus į mažesnes ir lengvesnes formas, vadinamas mažo matmens latentine erdve. Tai leidžia šiems modeliams sukurti labai tikroviškus vaizdus. Atsižvelgiant į didelę autoregresinio (AR) generatyvūs modeliai, pvz., Large Language Models in natūralios kalbos apdorojimas (NLP), įdomu ištirti, ar panašūs metodai gali būti naudingi vaizdams. Nors autoregresyvūs modeliai naudoja tą pačią latentinę erdvę kaip ir modeliai, tokie kaip LDM ir MIM, vis tiek kai kur nepavyksta generuoti vaizdo. Tai smarkiai prieštarauja natūralios kalbos apdorojimas (NLP), kur autoregresyvus modelis GPT pasiekė didelį dominavimą.
Dabartiniai metodai, pvz LDM ir MIM naudoti atkuriamuosius automatinius koduotuvus, pvz VQGAN ir VAEpaversti vaizdus į latentinę erdvę. Tačiau šie metodai taip pat susiduria su stabilumo ir našumo iššūkiais. Matoma, kad VQGAN modelyje gerėjant vaizdo atkūrimo kokybei (tai rodo mažesnis FID balas), bendra kartos kokybė iš tikrųjų gali pablogėti. Norėdami išspręsti šias problemas, mokslininkai pasiūlė naują metodą, vadinamą diskriminaciniu generuojančiu vaizdo transformatoriumi (DiGIT). Skirtingai nuo tradicinių automatinio kodavimo metodų, DiGIT atskiria koduotuvų ir dekoderių mokymą, pradedant nuo mokymo tik kodavimo įrenginiu, naudojant diskriminacinį savarankiškai prižiūrimą modelį.
Mokslininkų komanda iš Kinijos mokslo ir technologijų universiteto Duomenų mokslo mokyklos ir Kompiuterių mokslo ir technologijų mokyklos, taip pat Valstybinės pagrindinės kognityvinio intelekto laboratorijos ir Džedziango universiteto siūlo Diskriminacinis generacinis vaizdo transformatorius (DiGIT). Šis metodas atskiria koduotojų ir dekoderių mokymą, pradedant koduotuvu, mokymą naudojant diskriminacinį savarankiškai prižiūrimą modelį. Ši strategija padidina latentinės erdvės stabilumą, todėl ji yra patvaresnė autoregresiniam modeliavimui. Jie naudoja metodą, įkvėptą VQGAN, norėdami konvertuoti kodavimo įrenginio latentinę funkcijų erdvę į atskirus prieigos raktus, naudojant K-means klasterizavimą. Tyrimas rodo, kad vaizdo autoregresyvūs modeliai gali veikti panašiai kaip GPT modeliai natūralios kalbos apdorojimo metu. Pagrindiniai šio darbo indėliai apima vieningą latentinės erdvės ir generatyvinių modelių santykio perspektyvą, pabrėžiant stabilių latentinių erdvių svarbą; naujas metodas, atskiriantis kodavimo ir dekoderių mokymą, siekiant stabilizuoti latentinę erdvę; ir efektyvus diskretinio vaizdo žymeklis, kuris pagerina vaizdo autoregresinių modelių veikimą.
Bandymų metu mokslininkai kiekvieną vaizdo pataisą suderino su artimiausiu kodų knygelės žetonu. Išmokę priežastinį transformatorių nuspėti kitą žetoną naudodami šiuos žetonus, tyrėjai gavo gerų rezultatų „ImageNet“. „Digit“ modelis pranoksta ankstesnius vaizdo supratimo ir generavimo metodus, parodydamas, kad naudojant mažesnį žetonų tinklelį galima pasiekti didesnį tikslumą. Mokslininkų atlikti eksperimentai išryškino siūlomo diskriminacinio žetono efektyvumą, kuris žymiai padidina modelio našumą, nes didėja parametrų skaičius. Tyrimas taip pat parodė, kad K-Means klasterių skaičiaus padidinimas padidina tikslumą ir sustiprina didesnio žodyno privalumus autoregresiniame modeliavime.
Apibendrinant, šiame darbe pateikiamas vieningas vaizdas į tai, kaip yra susiję latentinė erdvė ir generaciniai modeliai, pabrėžiant stabilios latentinės erdvės svarbą kuriant vaizdus ir pristatomas paprastas, bet efektyvus vaizdo žymeklis ir autoregresyvus generacinis modelis, vadinamas DIGIT. Rezultatai taip pat ginčija bendrą įsitikinimą, kad gerai rekonstruoti reiškia turėti veiksmingą latentinę erdvę autoregresinei generacijai. Atlikdami šį darbą, mokslininkai siekia atgaivinti susidomėjimą generatyviu išankstiniu vaizdų autoregresinių modelių mokymu, paskatinti iš naujo įvertinti pagrindinius komponentus, apibrėžiančius latentinę generatyvinių modelių erdvę, ir padaryti tai žingsniu naujų technologijų ir metodų link!
Patikrinkite Popierius ir GitHub. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(Būsimas tiesioginis internetinis seminaras – 2024 m. spalio 29 d.) Geriausia platforma, skirta tiksliai suderintiems modeliams aptarnauti: „Predibase Inference Engine“ (reklamuojama)
Divyesh yra „Marktechpost“ konsultavimo praktikantas. Jis siekia žemės ūkio ir maisto inžinerijos bakalauro laipsnio Indijos technologijos institute Kharagpur. Jis yra duomenų mokslo ir mašininio mokymosi entuziastas, norintis integruoti šias pirmaujančias technologijas į žemės ūkio sritį ir spręsti iššūkius.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️