Šiandien sparčiai besivystančioje AI kraštovaizdyje vienas nuolatinis iššūkis yra kalbos modeliams aprūpinti tvirtais sprendimų priėmimo sugebėjimais, kurie apima ne tik vieno posūkio sąveiką. Tradiciniai didelių kalbų modeliai (LLMS) puikiai supranta nuoseklius atsakymus, tačiau dažnai kovoja su daugiapakopiais problemų sprendimu ar sąveikaudami su dinamine aplinka. Šis trūkumas daugiausia kyla iš mokymo duomenų pobūdžio, kuris retai atspindi struktūrizuotą, interaktyvią patirtį, kurios reikalauja realaus pasaulio scenarijai. Be to, tiesiogiai diegti modelius realaus pasaulio sąveikos duomenims rinkti gali būti brangu ir rizikinga. Taigi yra akivaizdus metodikos, kurios moko LLMS ištirti, rinkti svarbią informaciją ir saugiai ir kontroliuojamai priimti apgalvotus, nuoseklius sprendimus.
Reaguodami į šiuos iššūkius, Carnegie Mellon universiteto tyrėjai sukūrė požiūrį, žinomą kaip Paprika. Šis metodas yra skirtas suteikti kalbų modeliams su bendromis sprendimų priėmimo galimybėmis, kurios neapsiriboja jokia viena aplinka. Užuot pasikliaudami tradiciniais mokymo duomenimis, „Paprika“ panaudoja sintetinės sąveikos duomenis, sugeneruotus įvairiose užduotyse. Šios užduotys svyruoja nuo klasikinių atspėjimo žaidimų, tokių kaip dvidešimt klausimų iki galvosūkių, tokių kaip „Mastermind“ ir net scenarijai, imituojantys klientų aptarnavimo sąveiką. Mokydamasi šiomis įvairiomis trajektorijomis, modelis išmoksta pakoreguoti savo elgesį remdamasis kontekstiniu atsiliepimu iš savo aplinkos – be poreikio atlikti papildomus nuolydžio atnaujinimus. Šis požiūris skatina modelį priimti lankstesnę, konteksto mokymosi strategiją, kurią galima pritaikyti įvairioms naujoms užduotims.

Techninė informacija ir nauda
„Paprika“ metodika yra sukurta dviejų pakopų tikslinimo procese. Pirmasis etapas apima LLM eksponavimą dideliam sintetinių trajektorijų rinkiniui, sugeneruotas naudojant metodą, vadinamą Min -P mėginių ėmimu, o tai užtikrina, kad treniruočių duomenys yra įvairūs ir nuoseklūs. Šis žingsnis leidžia modeliui patirti platų sąveikos strategijų spektrą, įskaitant ir sėkmingą, ir mažiau veiksmingą sprendimų priėmimo elgesį. Antrasis etapas patikslina modelį, naudojant prižiūrimų derinimo (SFT) ir tiesioginio pasirinkimo optimizavimo (DPO) tikslo mišinį. Šioje sąrankoje lyginamos trajektorijų poros, kai modelis pamažu mokosi pirmenybę teikti tiems, kurie tiesiogiai lemia užduoties sėkmę.
Pripažindama, kad ne visos užduotys yra vienodai sudėtingos, „Paprika“ taip pat integruoja mokymo programos strategiją. Šis komponentas dinamiškai pasirenka užduotis, pagrįstas jų galimybėmis pasiūlyti prasmingą mokymosi patirtį. Prioriteto nustatymo užduotims, kurios duoda turtingesnius mokymosi signalus, šis požiūris padidina duomenų efektyvumą ir padeda modeliui geriau apibendrinti jo sprendimų priėmimo strategijas. Šių metodų derinys lemia rafinuotą modelį, kuris yra tinkamas nuosekliai priimti sprendimus įvairiuose kontekstuose.

Rezultatai ir įžvalgos
Paprikos metodo praktinė nauda išryškėja dėl jo empirinių rezultatų. Viename iliustraciniame pavyzdyje šis požiūris buvo pritaikytas „Bandit Best ARM“ atrankos užduotims – scenarijui, kuriam reikia atidžiai paskirstyti ribotą atrankos biudžetą, kad būtų galima nustatyti perspektyviausią variantą. Čia Paprika ypač padidino vidutinį sėkmės procentą, parodydama pastebimą strateginio sprendimų priėmimo pagerėjimą. Plačiau kalbant, kai modelis buvo išmokytas trajektorijų iš dešimties įvairių užduočių grupių rinkinio, jo bendras našumas pagerėjo maždaug 47%, palyginti su pradiniu modeliu, pasiektas maždaug 22 500 treniruočių trajektorijų.

Tolesni eksperimentai, naudojant „Leave Out-Out“ vertinimą, parodė, kad per Papriką išmoktos sprendimų priėmimo strategijos gali apibendrinti anksčiau nematytas užduotis. Pavyzdžiui, kai modelis buvo apmokytas visose užduočių grupėje, išskyrus vieną, jis vis tiek konkurencingai atliko praleistą grupę. Ši išvada rodo, kad šiuo tikslo derinimo metodu parengtos strategijos nėra siauros pritaikytos konkrečioms užduotims, tačiau jas gali būti perduotos skirtinguose sprendimų priėmimo scenarijuose. Be to, tyrimas, apimantis mokymo programą, parodė, kad selektyviai atrankos mokymo užduotys pagal jų sunkumus gali suteikti papildomų patobulinimų, sustiprinant pritaikyto, duomenų pagrįsto požiūrio į užduoties pasirinkimą vertę.
Išvada
Apibendrinant galima pasakyti, kad Paprika yra apgalvotas ir išmatuotas požiūris į atotrūkio tarp statinio kalbos supratimo ir dinamiško, nuoseklaus sprendimų priėmimo. Pasinaudodami sintetinės sąveikos duomenimis ir naudodamiesi kruopščiai suprojektuotu dviejų pakopų derinimo procesu, papildytu mokymosi mokymu, CMU tyrėjai parodė, kad LLM gali būti patobulintos į labiau pritaikomus sprendimų priėmėjus. Šis metodas, užuot naudojantis specifiniu užduotimis, paruošia modelius, kad galėtų susidurti su naujais iššūkiais, naudodami minimalų papildomą mokymą.
Gebėjimas sąveikauti su išorine aplinka, rinkti tinkamą informaciją ir koreguoti sprendimus, pagrįstus grįžtamuoju ryšiu, yra būtinas bet kuriai sistemai, skirtai veikti autonomiškai. Nors išlieka iššūkiai, pavyzdžiui, užtikrinant tvirtą pradinį modelį ir valdant sintetinių duomenų generavimo skaičiavimo išlaidas, Paprika siūlo perspektyvią alėją kurti universalias AI sistemas. Galų gale, tobulėjant mūsų modeliams, tokie požiūriai kaip „Paprika“ bus svarbūs kuriant įrankius, kurie ne tik įgyja kalbos supratimo, bet ir gali naršyti sudėtingas, realaus pasaulio sprendimų priėmimo užduotis su subtilumu ir priežiūra.
Patikrinkite Popierius, „Github“ puslapis ir veido apkabinimo modelis. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 80K+ ml subreddit.
🚨 Rekomenduojama „Read-LG AI Research“ išleidžia „Nexus“: pažangių sistemos integracinių agentų AI sistemos ir duomenų atitikties standartų, skirtų teisiniams klausimams spręsti AI duomenų rinkiniuose

Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (reklamuojama)