Automatiniai etalonai, tokie kaip AlpacaEval 2.0, Arena-Hard-Auto ir MTBench, išpopuliarėjo vertinant LLM dėl jų prieinamumo ir mastelio, palyginti su žmogaus vertinimu. Šiuose etalonuose naudojami LLM pagrįsti automatiniai komentatoriai, kurie puikiai atitinka žmogaus pageidavimus, kad būtų galima laiku įvertinti naujus modelius. Tačiau didelius šių etalonų laimėjimo rodiklius galima manipuliuoti keičiant išvesties ilgį arba stilių, nors buvo sukurtos priemonės šiems veiksniams kontroliuoti. Tai kelia susirūpinimą, kad priešininkai gali tyčia pasinaudoti šiais etalonais, kad padidintų reklamos poveikį ir klaidintų veiklos vertinimus.
Neriboto teksto generavimo vertinimas yra sudėtingas, nes reikia vienos teisingos išvesties. Žmogaus vertinimas yra patikimas, tačiau brangus ir daug laiko reikalaujantis, todėl LLM dažnai naudojami kaip vertintojai atliekant tokias užduotis kaip AI grįžtamasis ryšys, apibendrinimas ir haliucinacijų aptikimas. Naujausi gairės, pvz., „G-eval“ ir „AlpacaEval“, pasitelkia LLM, kad būtų galima efektyviai įvertinti modelio veikimą. Tačiau atsiranda priešiškų išpuolių prieš LLM pagrįstus vertinimus, leidžiančius manipuliuoti nereikšmingais raginimais arba optimizuotomis sekomis, kad rezultatai būtų šališki. Nors egzistuoja tokios gynybos priemonės kaip greitas perrašymas, priešai ir toliau randa būdų, kaip išnaudoti šias spragas, pabrėždami tvirtesnių vertinimo metodų poreikį.
Tyrėjai iš Sea AI Lab ir Singapūro vadybos universiteto įrodė, kad net „nulinis modelis“, generuojantis nereikšmingus, nuolatinius atsakymus, gali manipuliuoti automatiniais LLM etalonais, tokiais kaip AlpacaEval 2.0, Arena-Hard-Auto ir MT-Bench, kad būtų pasiektas didelis laimėjimų rodiklis. Išnaudojant automatinių komentatorių, pvz., GPT-4, trūkumus, struktūriniai sukčiavimo atsakai gali pasiekti iki 86,5 % laimėjimo rodiklių. Nors jų tyrimas yra koncepcijos įrodymas, jis rodo, kad priešininkai gali naudoti LLM, kad sukurtų nepastebimas sukčiavimo strategijas, siekiant neetiškos reklaminės naudos. Šis tyrimas pabrėžia, kad skubiai reikia kovos su sukčiavimu mechanizmų, siekiant užtikrinti automatinių LLM etalonų patikimumą.
Tyrime pateikiamas automatinių anotatorių, naudojamų LLM rezultatams įvertinti, manipuliavimo metodas. Šis metodas apima dvi pagrindines sukčiavimo strategijas: struktūrinius sukčiavimo atsakymus ir priešdėlius, generuojamus atsitiktinės paieškos būdu. Struktūriniai sukčiavimo atsakymai sukurti taip, kad atitiktų vertinimo kriterijus, naudojant automatinių komentatorių naudojamus balų šablonus. Tuo tarpu priešdėliai strategiškai įterpiami atsakymų pradžioje, kad paveiktų balų skaičiavimo procesą. Šie metodai, išbandyti tokiose sistemose kaip AlpacaEval 2.0, žymiai padidina laimėjimų rodiklius, parodydami, kaip galima lengvai apgauti vertinimo mechanizmus, ir išryškina LLM etaloninių sistemų pažeidžiamumą.
Išsamūs abliacijos tyrimai buvo atlikti su atvirojo kodo automatiniais anotatoriais, konkrečiai su Llama-3-Instruct modeliais (8B, 70B parametrai). Šie modeliai parodė žmogaus lygio vertinimo galimybes, panašias į ChatGPT ir GPT-4. Struktūrinio atsako technika turėjo minimalų poveikį modeliui Llama-3-8B, tačiau Llama-3-70B pozicinis poslinkis buvo stipresnis, ypač keičiant nustatymus. Atsitiktinė paieška žymiai padidino abiejų modelių laimėjimo rodiklius: Llama-3-8B padidėjo nuo 2,9% iki 95,4%, o Llama-3-70B – nuo 0,4% iki 95,1%, o tai pabrėžia metodo veiksmingumą gerinant sukčiavimo efektyvumą.
Apibendrinant, tyrimas atskleidžia, kad net „nuliniai modeliai“, kurie nuolat pateikia nesvarbius atsakymus, gali išnaudoti automatinių LLM etalonų trūkumus ir pasiekti aukštus laimėjimo rodiklius, pvz., 86,5 % AlpacaEval 2.0. Šie etalonai, įskaitant „Arena-Hard-Auto“ ir „MT-Bench“, yra ekonomiški vertinant kalbos modelius, tačiau jais galima manipuliuoti. Tyrime pabrėžiama, kad reikia stipresnių kovos su sukčiavimu mechanizmų, kad būtų užtikrintas modelių įvertinimų patikimumas. Būsimas darbas turėtų būti sutelktas į automatizuotus metodus, leidžiančius generuoti priešingus rezultatus ir tvirtesnę gynybą, nes dabartinių strategijų, tokių kaip išvesties ilgio ir stiliaus kontrolė, nepakanka.
Patikrinkite Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 50 000+ ML SubReddit
(Būsimas įvykis – 202 m. spalio 17 d.) RetrieveX – „GenAI“ duomenų paieškos konferencija (reklamuojama)
Sana Hassan, „Marktechpost“ konsultacinė praktikantė ir „IIT Madras“ dviejų laipsnių studentė, aistringai taiko technologijas ir dirbtinį intelektą sprendžiant realaus pasaulio iššūkius. Labai domisi praktinių problemų sprendimu, jis atneša naują požiūrį į AI ir realaus gyvenimo sprendimų sankirtą.