Plačiai paplitęs didelio masto kalbos modelių (LLM) naudojimas saugai svarbiose srityse iškėlė esminį iššūkį: kaip užtikrinti, kad jie atitiktų aiškias etikos ir saugos gaires. Esami derinimo būdai, tokie kaip prižiūrimas koregavimas (SFT) ir sustiprinimo mokymasis iš žmogaus grįžtamojo ryšio (RLHF), turi apribojimų. Modeliai vis tiek gali sukurti žalingo turinio, kai jais manipuliuojama, atmesti teisėtus prašymus arba sunkiai sekasi valdyti nepažįstamus scenarijus. Šios problemos dažnai kyla dėl netiesioginio dabartinio saugos mokymo pobūdžio, kai modeliai netiesiogiai nustato standartus iš duomenų, o ne aiškiai juos išmoksta. Be to, modeliams paprastai trūksta galimybės apgalvoti sudėtingus raginimus, o tai riboja jų veiksmingumą niuansinėse arba priešingose situacijose.
OpenAI mokslininkai pristatė Svarstomasis derinimasnaujas požiūris, kuris tiesiogiai moko modelių saugos specifikacijas ir moko juos suprasti šias gaires prieš generuojant atsakymus. Integruojant saugos principus į samprotavimo procesą, šis metodas pašalina pagrindinius tradicinių derinimo metodų trūkumus. Deliberative Alignment dėmesys sutelkiamas į mokymo modelius, kad būtų aiškiai atsižvelgta į atitinkamą politiką, leidžiančią jiems patikimiau tvarkyti sudėtingus scenarijus. Skirtingai nuo metodų, kurie labai priklauso nuo žmogaus anotuotų duomenų, šis metodas naudoja modelio sugeneruotus duomenis ir minčių grandinės (CoT) samprotavimus, kad būtų pasiekti geresni saugos rezultatai. Pritaikius OpenAI o serijos modeliams, jis parodė didesnį atsparumą jailbreak atakoms, mažiau atmetimų galiojančių užklausų ir geresnį apibendrinimą nepažįstamose situacijose.

Techninė informacija ir privalumai
Deliberative Alignment apima dviejų etapų mokymo procesą. Pirma, prižiūrimas koregavimas (SFT) treniruoja modelius pagal saugos specifikacijas, naudojant duomenų rinkinius, sugeneruotus iš bazinių modelių. Šis žingsnis padeda aiškiai suprasti saugos principus. Antrajame etape sustiprinimo mokymasis (RL) patobulina modelio samprotavimus, naudodamas atlygio modelį, kad įvertintų našumą pagal saugos etalonus. Šis mokymo procesas nepriklauso nuo žmogaus anotuotų užbaigimų, todėl sumažėja išteklių poreikis, paprastai susijęs su saugos mokymu. Naudodama sintetinius duomenis ir CoT samprotavimus, „Deliberative Alignment“ suteikia modelių, leidžiančių tiksliau ir efektyviau spręsti sudėtingus etinius scenarijus.
Rezultatai ir įžvalgos
Deliberative Alignment davė pastebimų OpenAI o serijos modelių našumo patobulinimų. Pavyzdžiui, o1 modelis pranoko kitus pirmaujančius modelius, atsispirdamas raginimams „Jailbreak“ ir pasiekė 0,88 balo pagal StrongREJECT etaloną, palyginti su GPT-4o 0,37. Ji taip pat puikiai veikė išvengiant nereikalingų atsisakymų, nes XSTest duomenų rinkinyje buvo 93 % tikslumas gerybinių raginimų rodiklis. Šis metodas dar labiau pagerino stiliaus gairių laikymąsi atsakant į reguliuojamus patarimus ir raginimus susižaloti. Abliacijos tyrimai parodė, kad tiek SFT, tiek RL etapai yra būtini norint pasiekti šiuos rezultatus. Be to, šis metodas parodė stiprų apibendrinimą neplatinimo scenarijuose, pvz., daugiakalbiuose ir užkoduotuose raginimuose, pabrėžiant jo tvirtumą.

Išvada
Deliberative Alignment yra reikšminga pažanga derinant kalbos modelius su saugos principais. Mokydamas modelius aiškiai mąstyti dėl saugos politikos, jis siūlo keičiamą ir interpretuojamą sudėtingų etinių iššūkių sprendimą. o1 serijos modelių sėkmė iliustruoja šio požiūrio potencialą gerinant dirbtinio intelekto sistemų saugumą ir patikimumą. Kadangi dirbtinio intelekto galimybės ir toliau tobulėja, tokie metodai kaip svarstymo suderinimas atliks lemiamą vaidmenį užtikrinant, kad šios sistemos atitiktų žmogaus vertybes ir lūkesčius.
Patikrinkite į Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 Populiarumas: LG AI tyrimų išleidimas EXAONE 3.5: trys atvirojo kodo dvikalbiai AI lygio modeliai, teikiantys neprilygstamas instrukcijas ir ilgą konteksto supratimą, kad būtų pasaulinė lyderystė kuriant AI tobulumą….

Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🧵🧵 (Atsisiųsti) Didelių kalbų modelio pažeidžiamumo ataskaitos įvertinimas (reklamuojamas)