Dabartinės daugiarūšės paieškos papildytos kartos (RAG) etalonuose daugiausia dėmesio skiriama tekstinių žinių paieškai atsakant į klausimus, o tai turi didelių apribojimų. Daugeliu atvejų vaizdinės informacijos gavimas yra naudingesnis arba lengvesnis nei prieiga prie tekstinių duomenų. Esami lyginamieji standartai negali tinkamai atsižvelgti į šias situacijas, o tai trukdo kurti didelius vizijos kalbos modelius (LVLM), kuriems reikia veiksmingai panaudoti įvairių tipų informaciją.
Mokslininkai iš UCLA ir Stanfordo pristatė MRAG-Bench, į viziją orientuotą etaloną, skirtą įvertinti LVLM efektyvumą scenarijuose, kai vaizdinė informacija suteikia aiškų pranašumą prieš tekstines žinias. MRAG-Bench sudaro 16 130 vaizdų ir 1 353 žmogaus anotuotų klausimų su atsakymų variantais pagal devynis skirtingus scenarijus, sutelkiant dėmesį į tai, kada vizualinės žinios yra naudingesnės. Etalonas sistemingai skirsto scenarijus į du pagrindinius aspektus: perspektyvos pokyčius, apimančius skirtingus vaizdinių objektų kampus arba okliuzijas, ir transformacinius pokyčius, apimančius laiko ar fizines objektų transformacijas. MRAG-Bench įvertina 10 atvirojo kodo ir keturis patentuotus LVLM, pateikdama įžvalgų apie jų gebėjimą panaudoti vizualiai papildytas žinias.
MRAG-Bench struktūra yra sutelkta į devynis skirtingus scenarijus, suskirstytus į perspektyvų supratimo ir transformacinio supratimo aspektus. Perspektyvinis aspektas susideda iš keturių kategorijų: kampo, dalinio, taikymo srities ir okliuzijos. Šios kategorijos meta iššūkį modeliams samprotauti apie esybes, kai vaizdinė įvestis skiriasi požiūriu, matomumo lygiu ar skyra. Transformacinis aspektas sutelktas į laikinus, biologinius ir fizinius pokyčius, reikalaujančius, kad modeliai interpretuotų vaizdinius subjektus, patiriančius reikšmingų transformacijų. Be to, MRAG-Bench pateikia švarų, žmogaus sukurtą 9 673 tikros tiesos vaizdų rinkinį, užtikrinantį, kad etalonas atitiktų realaus pasaulio vizualinio supratimo scenarijus.
Vertinimo rezultatai atskleidžia, kad vizualiai papildytos žinios žymiai pagerina modelio našumą, palyginti su tekstiniu papildymu. Visi įvertinti LVLM parodė didesnius patobulinimus, kai buvo papildyti vaizdais, patvirtindami, kad MRAG-Bench yra orientuotas į regėjimą. Pažymėtina, kad geriausio našumo patentuotas modelis GPT-4o pasiekė tik 5,82 % našumo pagerėjimą naudojant pagrindinį vizualinį padidinimą, palyginti su 33,16 % pagerėjimu, kurį demonstravo žmonės, o tai rodo, kad dabartiniai modeliai toli gražu neefektyviai panaudoja vizualines žinias. žmonės daro. Be to, rezultatai rodo, kad patentuoti modeliai geriau atskiria aukštos kokybės ir triukšmingą vaizdinę informaciją, palyginti su atvirojo kodo modeliais, kuriems dažnai sunku efektyviai panaudoti gautas žinias.
Apibendrinant, MRAG-Bench pateikia naują, į viziją orientuotą vertinimo sistemą, skirtą LVLM vertinimui, sutelkiant dėmesį į scenarijus, kai vizualinis atkūrimas pranoksta tekstines žinias. Rezultatai pabrėžia kritinį atotrūkį tarp žmogaus veiklos ir dabartinių modelių galimybių efektyviai naudojant gautą vaizdinę informaciją. MRAG-Bench įdiegimas yra svarbus žingsnis skatinant LVLM, galinčių geriau panaudoti vizualines žinias, kūrimą, siekiant galutinio tikslo sukurti modelius, kurie supranta ir naudoja multimodalinę informaciją taip pat efektyviai kaip žmonės.
Patikrinkite Popierius, Duomenų rinkinys, GitHubir Projektas. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 50 000+ ML SubReddit.
(Būsimas įvykis – 2024 m. spalio 17 d.) „RetrieveX“ – „GenAI“ duomenų gavimo konferencija (reklamuojama)
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.