Planavimas ir sprendimų priėmimas sudėtingoje, iš dalies stebimoje aplinkoje yra didelis iššūkis įkūnytam AI. Tradiciškai įkūnyti agentai remiasi fiziniu tyrinėjimu, kad surinktų daugiau informacijos, o tai gali užtrukti ir nepraktiška, ypač didelio masto dinamiškoje aplinkoje. Pavyzdžiui, autonominis vairavimas ar navigacija miesto aplinkoje dažnai reikalauja, kad agentas priimtų greitus sprendimus, pagrįstus ribota vaizdine įvestimi. Fizinis judėjimas siekiant gauti daugiau informacijos ne visada gali būti įmanomas arba saugus, pavyzdžiui, reaguojant į staigią kliūtį, pvz., sustojusią transporto priemonę. Todėl skubiai reikia sprendimų, kurie padėtų agentams geriau suprasti savo aplinką be brangių ir rizikingų fizinių tyrimų.
Įvadas į Genex
Johno Hopkinso tyrėjai pristatė „Generative World Explorer“ („Genex“) – naują vaizdo įrašų generavimo modelį, leidžiantį įkūnytiems agentams išradingai tyrinėti didelio masto 3D aplinką ir atnaujinti savo įsitikinimus be fizinio judėjimo. Įkvėptas to, kaip žmonės naudoja psichikos modelius, kad padarytų nematomas savo aplinkos dalis, „Genex“ įgalina AI agentus priimti labiau pagrįstus sprendimus pagal įsivaizduojamus scenarijus. Užuot fiziškai naršęs aplinkoje, kad gautų naujų stebėjimų, „Genex“ leidžia agentui įsivaizduoti nematomas aplinkos dalis ir atitinkamai pakoreguoti savo supratimą. Ši galimybė gali būti ypač naudinga autonominėms transporto priemonėms, robotams ar kitoms AI sistemoms, kurios turi efektyviai veikti didelio masto miesto ar gamtos sąlygomis.
Norėdami apmokyti Genex, mokslininkai sukūrė sintetinį miesto scenos duomenų rinkinį, pavadintą Genex-DB, kuris apima įvairias aplinkas, skirtas imituoti realias sąlygas. Naudodama šį duomenų rinkinį, „Genex“ išmoksta generuoti aukštos kokybės, nuoseklius savo aplinkos stebėjimus ilgai tyrinėdama virtualią aplinką. Atnaujinti įsitikinimai, gauti iš įsivaizduojamų stebėjimų, informuoja apie esamus sprendimų priėmimo modelius, leidžiančius geriau planuoti be fizinės navigacijos.
Techninės detalės
„Genex“ naudoja egocentrišką vaizdo įrašų generavimo sistemą, pagrįstą dabartiniu agento panoraminiu vaizdu, derinant numatytas judėjimo kryptis kaip veiksmų įvestis. Tai leidžia modeliui generuoti būsimus egocentriškus stebėjimus, panašius į naujų perspektyvų tyrinėjimą. Tyrėjai panaudojo vaizdo sklaidos modelį, parengtą naudojant panoraminius vaizdus, kad išlaikytų darną ir užtikrintų, kad generuojama išvestis būtų erdvinė. Tai labai svarbu, nes agentas turi nuosekliai suprasti savo aplinką, net kai jis generuoja ilgalaikius stebėjimus.
Vienas iš pagrindinių metodų yra nuoseklus sferinis mokymasis (SCL), kuris moko „Genex“ užtikrinti sklandų perėjimą ir tęstinumą panoraminiuose stebėjimuose. Skirtingai nuo tradicinių vaizdo įrašų generavimo modelių, kuriuose gali būti sutelktas dėmesys į atskirus kadrus arba fiksuotus taškus, „Genex“ panoraminis požiūris užfiksuoja visą 360 laipsnių vaizdą, užtikrinant, kad sukurtas vaizdo įrašas išliktų nuoseklus įvairiuose regėjimo laukuose. Dėl aukštos kokybės „Genex“ generavimo galimybių jis tinkamas tokioms užduotims kaip savarankiškas vairavimas, kai labai svarbu numatyti tolimus horizontus ir išlaikyti erdvinį suvokimą.
Svarba ir rezultatai
Vaizduotės pagrįstos įsitikinimų peržiūros įvedimas yra didelis įkūnyto AI šuolis. Naudodami „Genex“ agentai gali sukurti įsivaizduojamų vaizdų seką, imituojančią fizinį tyrinėjimą. Ši galimybė leidžia jiems atnaujinti savo įsitikinimus tokiu būdu, kuris imituotų fizinės navigacijos pranašumus, tačiau be rizikos ir susijusių išlaidų. Toks gebėjimas yra gyvybiškai svarbus tokiems scenarijams kaip savarankiškas vairavimas, kai svarbiausia yra saugumas ir greitas sprendimų priėmimas.
Eksperimentiniuose vertinimuose „Genex“ parodė puikias galimybes. Įrodyta, kad jis lenkia pradinius modelius pagal keletą metrikų, pvz., vaizdo įrašo kokybės ir tyrinėjimo nuoseklumo. Pažymėtina, kad vaizduotės tyrinėjimo ciklo nuoseklumo (IECC) metrika atskleidė, kad „Genex“ išlaikė aukštą nuoseklumo lygį ilgo nuotolio tyrinėjimo metu, o vidutinės kvadratinės paklaidos (MSE) buvo nuolat mažesnės nei konkurenciniai modeliai. Šie rezultatai rodo, kad „Genex“ ne tik efektyviai sukuria aukštos kokybės vaizdinį turinį, bet ir sėkmingai palaiko stabilų aplinkos supratimą per ilgą tyrinėjimo laikotarpį. Be to, scenarijuose, kuriuose dalyvauja kelių agentų aplinka, „Genex“ žymiai pagerino sprendimų tikslumą, pabrėždamas jo tvirtumą sudėtingose, dinamiškose nustatymuose.
Išvada
Apibendrinant galima pasakyti, kad „Generative World Explorer“ („Genex“) yra reikšminga pažanga įkūnyto AI srityje. Naudodama vaizduotės tyrinėjimą, „Genex“ leidžia agentams protiškai naršyti didelės apimties aplinkoje ir atnaujinti savo supratimą be fizinio judėjimo. Šis metodas ne tik sumažina riziką ir išlaidas, susijusias su tradiciniu tyrinėjimu, bet ir padidina AI agentų gebėjimus priimti sprendimus, nes jie gali atsižvelgti į įsivaizduojamas, o ne tik pastebėtas galimybes. Dirbtinio intelekto sistemoms ir toliau diegiant vis sudėtingesnėje aplinkoje, tokie modeliai kaip „Genex“ atveria kelią tvirtesnei, pritaikomai ir saugesnei sąveikai realaus pasaulio scenarijuose. Modelio pritaikymas autonominiam vairavimui ir jo išplėtimas į kelių agentų scenarijus rodo daugybę galimų panaudojimo būdų, kurie gali pakeisti AI sąveiką su aplinka.
Peržiūrėkite popieriaus ir projekto puslapį. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
Kodėl dirbtinio intelekto modeliai vis dar yra pažeidžiami: pagrindinės įžvalgos iš Kili Technology ataskaitos apie didelių kalbų modelių pažeidžiamumą (Visą techninę ataskaitą skaitykite čia)
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🐝🐝 LinkedIn renginys „Viena platforma, multimodalinės galimybės“, kuriame „Encord“ generalinis direktorius Ericas Landau ir produktų inžinerijos vadovas Justinas Sharpsas kalbės apie tai, kaip jie iš naujo išranda duomenų kūrimo procesą, kad padėtų komandoms greitai kurti žaidimus keičiančius multimodalinius AI modelius.