Dideli kalbų modeliai (LLM) pademonstravo įspūdingas mokymosi kontekste (ICL) galimybes – tai prižiūrimo mokymosi forma, kuriai nereikia atnaujinti parametrų. Tačiau mokslininkai dabar tiria, ar šis gebėjimas apima mokymąsi sustiprinant (RL), pristatydami kontekstinio sustiprinimo mokymosi (ICRL) koncepciją. Iššūkis yra pritaikyti ICL metodą, kuris remiasi įvesties-išvesties poromis, RL sistemai, kuri apima įvesties-išvesties-atlygio trejetus. Šis perėjimas nuo statinio duomenų rinkinio prie dinamiško, internetinio mokymosi scenarijaus sukelia unikalių sunkumų kuriant ir pritaikant modelį. Pagrindinė problema yra nustatyti, ar LLM gali veiksmingai mokytis ir pagerinti savo veiklą per ICRL, o tai gali atverti naujas galimybes AI sistemoms prisitaikyti ir mokytis iš savo aplinkos be tradicinių parametrų atnaujinimų.
Esami bandymai ištirti ICL daugiausia buvo sutelkti į prižiūrimo mokymosi scenarijus. Tyrėjai išsamiai ištyrė pagrindinius ICL mechanizmus ir veiksmingumą, parodydami, kad LLM gali išmokti naujų užduočių savo konteksto lange. Tačiau šios pastangos apsiribojo prižiūrimu mokymusi, todėl ICRL potencialas iš esmės nebuvo ištirtas.
Naujausi pažanga plečiant LLM konteksto lango ilgį leido atlikti tyrimus, apimančius šimtus ar tūkstančius demonstracijų, rodančių nuolatinius našumo patobulinimus. Nors kai kurie tyrimai rodo, kad modeliai gali pasimokyti iš klaidų, ši išvada turi būti visuotinai palaikoma ir gali prireikti aiškių klaidų motyvavimo.
Mokymosi sustiprinimo srityje ankstesniame darbe buvo tiriamas LLM gebėjimas išspręsti daugiarankių banditų problemas supaprastintoje RL aplinkoje. Šie tyrimai susidūrė su iššūkiais, susijusiais su naiviais metodais, ir išryškino LLM sunkumus tyrinėjant. Tačiau jie apsiribojo paprastais scenarijais ir nesprendė sudėtingesnių kontekstinių banditų problemų ar bendrų RL užduočių.
Mokslininkai iš Kornelio universiteto, EPFL ir Harvardo universiteto pasiūlė unikalų ICRL metodą, kuris sprendžia naivaus požiūrio apribojimus, įdiegdamas dvi pagrindines naujoves. Pirma, ji sprendžia tyrinėjimo problemą, įtraukdama stochastiką į greitą konstrukciją, išnaudodama LLM jautrumą greitai kompozicijai. Antra, jis supaprastina mokymosi procesą, išfiltruodamas neigiamus pavyzdžius iš konteksto, todėl raginimas panašesnis į tradicinius kontekstinio mokymosi formatus.
Šis metodas veiksmingai užkerta kelią degeneracijai eksperimentuose ir leidžia LLM sėkmingai atlikti ICRL. Šis metodas parodo tvirtą našumo ir skaičiavimo išteklių ryšį, leidžiantį lanksčiai suderinti tikslumą ir efektyvumą. Siekdami sušvelninti didėjančias skaičiavimo išlaidas, susijusias su daugiau pavyzdžių stebėjimu, mokslininkai sukūrė aproksimavimo metodą, kuris palaiko našumą ir sumažina išteklių poreikius.
Siūlomas ICRL metodas parodė įspūdingus rezultatus atliekant įvairias klasifikavimo užduotis, žymiai pagerindamas modelio veikimą, palyginti su nulinio kadro tikslumu. Pavyzdžiui, atliekant Banking77 klasifikavimo užduotį, Lamos tikslumas padidėjo nuo 17,2% iki 66,0% per ICRL. Šis metodas pasirodė esąs veiksmingas naudojant skirtingas LLM architektūras, parodydamas jo, kaip universalaus DI sistemų prisitaikymo mokymosi pajėgumų tobulinimo technikos, potencialą.
Šis metodas pateikia du pagrindinius ICRL metodus: naivus ICRL ir tiriamasis ICRL. Naivus ICRL seka nesudėtingą įgyvendinimą, kai modelis stebi naujus pavyzdžius, numato rezultatus ir gauna atlygį. Šie epizodai saugomi buferyje ir naudojami ateities prognozių kontekstui kurti. Tačiau šis metodas nepavyksta, nes nesugeba efektyviai ištirti išvesties erdvės.
Tiriamasis ICRL pašalina šiuos apribojimus įvesdamas stochastiškumą ir sutelkdamas dėmesį į teigiamą sustiprinimą. Jis atsitiktinai parenka ankstesnius epizodus, kuriuos norite įtraukti į raginimą, naudodamas LLM jautrumą raginimo kompozicijai. Šis metodas apima tik epizodus su teigiamu atlygiu kontekste ir supaprastina mokymosi procesą. Algoritmas naudoja Bernoulli kintamąjį, kurį parametruoja pkeep, kad nustatytų, kuriuos praeities epizodus įtraukti, sukurdamas unikalų kiekvienos įvesties pagrindimą.
Siekdama valdyti konteksto lango prisotinimą, „Explorative ICRL“ taiko tris sumažinimo strategijas: nešališką atsitiktinį pašalinimą, pradžios šališkumo priešdėlio pasirinkimą ir galutinio šališkumo priesagos pasirinkimą. Nors šis metodas veiksmingai įveda tyrinėjimą ir pagerina našumą, dėl to reikia didesnės skaičiavimo sąnaudos, nes kiekvienai įvestiei reikia sukurti naują kontekstą, o tai riboja naiviojo metodo talpyklos naudą.
Rezultatai rodo, kad LLM gali veiksmingai mokytis kontekste vien tik iš atlygio, naudodami tiriamąjį ICRL metodą. Šis metodas rodo reikšmingus įvairių užduočių ir modelių našumo patobulinimus, palyginti su nuliniu našumu. Pavyzdžiui, „Explorative ICRL“ pagerino „Llama“ tikslumą 48,8% „Banking-77“ ir 56,8% „Clinic-150“, o Phi modelyje pastebėtas panašus padidėjimas.
Tiriamasis ICRL nuolat viršija nulinio kadro pradines linijas ir rodo nuolatinį našumo augimą laikui bėgant, ypač sudėtingesniuose duomenų rinkiniuose su daugybe etikečių. Kai kuriose situacijose jo tikslumas priartėja prie prižiūrimo mokymosi kontekste, išryškindamas jo, kaip galingos mokymosi technikos, potencialą.
Priešingai, naivus ICRL metodas nesugeba mokytis ir dažnai veikia blogiau nei nulinis, nes nesugeba efektyviai tyrinėti. Numatymo painiavos matricų ir išvesties paskirstymo vizualizacija aiškiai iliustruoja „Exploraative ICRL“ pranašumus, palyginti su naiviu metodu.
Tolesnė analizė atskleidžia, kad abi pagrindinės Explorative ICRL modifikacijos – tyrinėjimo stochastiškumas ir dėmesys teigiamiems atlygio epizodams – labai prisideda prie jos sėkmės. Metodas rodo tam tikrą atsparumą triukšmingiems atlygiams ir išlaiko našumą net esant 10 % atvirkštinio atlygio tikimybei.
Šis tyrimas parodo LLM galimybes atlikti ICRL. Tyrime pristatomi trys algoritmai: naivus, tiriamasis ir apytikslis ICRL. Nors naivus metodas nepavyksta dėl prasto tyrinėjimo, žvalgomasis metodas sėkmingai įveda stochastiškumą greitoje konstrukcijoje ir sutelkia dėmesį į teigiamus pavyzdžius, o tai lemia nuoseklų ICRL veikimą. Apytikslis metodas sprendžia dideles „Exploraative ICRL“ skaičiavimo išlaidas, suteikdamas kompromisą tarp efektyvumo ir patikimumo.
Tyrimo išvados pabrėžia ICRL tyrinėjimo svarbą ir stochastinės greitos konstrukcijos efektyvumą. Tačiau mokslininkai pripažįsta keletą apribojimų ir ateities darbo sričių. Tai apima būtinybę ištirti ICRL sudėtingesnėse problemų srityse, neapsiribojant klasifikavimu, ištirti niuansuotų atlygio signalų naudojimą, išskyrus dvejetainį grįžtamąjį ryšį, ir spręsti iššūkius, susijusius su argumentais apie epizodus su neigiamu atlygiu.
Be to, siūlomų metodų skaičiavimo intensyvumas, ypač didėjant stebimų epizodų skaičiui, yra nuolatinis iššūkis. Nors apytikslis metodas siūlo dalinį sprendimą, išlieka klausimų dėl ICRL optimizavimo riboto konteksto langams ir išplėstinei sąveikai. Šie apribojimai nubrėžia esmines būsimų tyrimų kryptis, siekiant patobulinti kontekstinio mokymosi su LLM srityje.
Patikrinkite Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 50 000+ ML SubReddit
(Būsimas įvykis – 202 m. spalio 17 d.) RetrieveX – „GenAI“ duomenų paieškos konferencija (reklamuojama)
Asjadas yra „Marktechpost“ konsultantas. Jis tęsia mechanikos inžinerijos bakalauro laipsnį Indijos technologijos institute Kharagpur mieste. Asjadas yra mašininio mokymosi ir gilaus mokymosi entuziastas, nuolat tyrinėjantis mašininio mokymosi taikymą sveikatos priežiūros srityje.