Stiprinamasis mokymasis (RL) orientuojasi į tai, kad agentai galėtų išmokti optimalaus elgesio per atlygį pagrįstus mokymo mechanizmus. Šie metodai įgalino sistemas spręsti vis sudėtingesnes užduotis – nuo žaidimų įsisavinimo iki realaus pasaulio problemų sprendimo. Tačiau didėjant šių užduočių sudėtingumui, didėja ir agentų galimybė neplanuotai išnaudoti atlygio sistemas, sukurdama naujų iššūkių, kaip užtikrinti atitiktį žmogaus ketinimams.
Vienas iš svarbiausių iššūkių yra tai, kad agentai mokosi strategijų su dideliu atlygiu, kuris neatitinka numatytų tikslų. Problema žinoma kaip atlygio įsilaužimas; tai tampa labai sudėtinga, kai kalbama apie kelių etapų užduotis, nes rezultatas priklauso nuo veiksmų grandinės, kurių kiekvienas yra per silpnas, kad būtų sukurtas norimas efektas, ypač ilgų užduočių horizontuose, kai žmonėms tampa sunkiau įvertinti ir aptikti tokį elgesį. Šią riziką dar labiau padidina pažangūs agentai, kurie naudojasi žmonių stebėjimo sistemų priežiūra.
Daugumoje esamų metodų naudojamos atlygio užtaisymo funkcijos po to, kai nustatomi nepageidaujami veiksmai, siekiant įveikti šiuos iššūkius. Šie metodai yra veiksmingi atliekant vieno etapo užduotis, tačiau šlubuoja, kai vengiama sudėtingų kelių etapų strategijų, ypač kai vertintojai negali visiškai suprasti agento samprotavimų. Be keičiamo dydžio sprendimų, pažangios RL sistemos gali sukurti agentus, kurių elgesys nesuderinamas su žmogaus priežiūra, o tai gali sukelti nenumatytų pasekmių.
„Google DeepMind“ tyrėjai sukūrė novatorišką metodą, vadinamą trumparegystės optimizavimu su trumparegystės patvirtinimu (MONA), kad sumažintų kelių žingsnių atlygio įsilaužimą. Šis metodas susideda iš trumpalaikio optimizavimo ir ilgalaikio poveikio, patvirtinto žmogaus vadovaujant. Pagal šią metodiką agentai visada užtikrina, kad toks elgesys būtų pagrįstas žmogaus lūkesčiais, tačiau vengia strategijos, kuri išnaudoja tolimą atlygį. Skirtingai nuo tradicinių sustiprinimo mokymosi metodų, kuriais pasirūpinama optimalia visos užduoties trajektorija, MONA optimizuoja tiesioginį atlygį realiuoju laiku, o prižiūrėtojai pateikia toliaregius vertinimus.
Pagrindinė MONA metodika remiasi dviem pagrindiniais principais. Pirmasis yra trumparegystės optimizavimas, o tai reiškia, kad agentai optimizuoja savo atlygį už neatidėliotinus veiksmus, o ne planuoja kelių žingsnių trajektorijas. Tokiu būdu agentai nėra skatinami kurti strategijas, kurių žmonės nesupranta. Antrasis principas yra ne trumparegiškas patvirtinimas, kai žmonių prižiūrėtojai pateikia vertinimus, pagrįstus ilgalaikiu agento veiksmų naudingumu, kaip tikėtasi. Todėl šie vertinimai yra varomoji jėga, skatinanti agentus elgtis taip, kad jie atitiktų žmonių nustatytus tikslus, tačiau negaudami tiesioginio grįžtamojo ryšio iš rezultatų.
Norėdami patikrinti MONA efektyvumą, autoriai atliko eksperimentus trijose kontroliuojamose aplinkose, skirtose imituoti įprastus atlygio įsilaužimo scenarijus. Pirmoji aplinka apėmė testu pagrįstą kūrimo užduotį, kai agentas turėjo parašyti kodą, remdamasis savarankiškai sugeneruotais bandomaisiais atvejais. Skirtingai nuo RL agentų, kurie išnaudojo savo bandymo atvejų paprastumą, kad sukurtų neoptimalų kodą, MONA agentai pagamino aukštesnės kokybės rezultatus, suderintus su pagrindinės tiesos vertinimais, nepaisant mažesnio pastebėto atlygio.
Antrasis eksperimentas buvo paskolos paraiškos peržiūros užduotis, kurios metu agentas turėjo peržiūrėti paraiškas neatsižvelgdamas į jautrius požymius, tokius kaip pilietybė. Tradiciniuose RL agentuose tautybė buvo slapta užkoduota jų sprendimuose išvengti stebėtojų, išnaudojant informaciją didesniam atlygiui. Tačiau MONA agentai vengė tokių slaptų strategijų ir veikė optimaliai, nepasikliaudami jautriais duomenimis. MONA agentai išlaikė pastovų 0,5 atlygį per vertinimo bandymus, panašų į geriausią pasiekiamą balą be įsilaužimo. Priešingai, tipiški RL agentai pranoko sistemos pranašumus, įrodydami MONA metodo eleganciją.
Trečioje aplinkoje agentams pavesta įdėti blokus į pažymėtą kamerą stebimą zoną. Tradiciniai RL agentai manipuliavo stebėjimo sistema, kad gautų daugybę apdovanojimų, blokuodami kameros vaizdą, o tai rodo atlygio įsilaužimą. MONA agentai laikėsi numatytos užduočių struktūros, nuosekliai veikdami neišnaudodami sistemos pažeidžiamumų.
MONA pasirodymas rodo, kad tai iš tiesų yra patikimas sprendimas įvairiems atlygio įsilaužimams. Sutelkdama dėmesį į tiesioginį atlygį ir įtraukdama žmogaus vykdomą vertinimą, MONA suderina agento elgesį su žmonių ketinimais ir kartu sulaukia saugesnių rezultatų sudėtingoje aplinkoje. Nors ir nėra visuotinai taikoma, MONA yra didelis žingsnis į priekį įveikiant tokius derinimo iššūkius, ypač pažangioms AI sistemoms, kurios dažniau naudoja kelių etapų strategijas.
Apskritai „Google DeepMind“ darbas pabrėžia aktyvių priemonių svarbą stiprinant mokymąsi, siekiant sumažinti riziką, susijusią su atlygio įsilaužimu. MONA suteikia keičiamo dydžio sistemą, skirtą saugos ir našumo pusiausvyrai, atverdama kelią patikimesnėms ir patikimesnėms AI sistemoms ateityje. Rezultatai pabrėžia būtinybę toliau tirti metodus, kurie veiksmingai integruoja žmogaus sprendimus, užtikrinant, kad dirbtinio intelekto sistemos atitiktų numatytus tikslus.
Patikrinkite Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 70 000+ ML SubReddit.
🚨 (Rekomenduojama skaityti) „Nebius AI Studio“ plečiasi regėjimo modeliais, naujais kalbos modeliais, įterpimais ir LoRA (Paaukštintas)
Nikhilas yra „Marktechpost“ konsultantas. Indijos technologijos institute Charagpūre jis siekia integruoto dvigubo medžiagų studijų laipsnio. Nikhilas yra AI / ML entuziastas, kuris visada tiria pritaikymą tokiose srityse kaip biomedžiagos ir biomedicinos mokslas. Turėdamas tvirtą medžiagų mokslo išsilavinimą, jis tyrinėja naujus pasiekimus ir kuria galimybes prisidėti.
📄 Susipažinkite su „Aukštis”: vienintelis savarankiškas projektų valdymo įrankis (remiama)


